justwriteit.log

[ADsP 데이터분석 준전문가] Day 6

Thu, 09 Feb 2023 13:21:53 GMT

오늘은 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p114~139을 공부했다. 2과목의 마지막 부분이다.

(참고 : 내가 기억하고 싶은것을 적어두었다.)

[과목 #2] 2장 분석 마스터플랜

02 분석 거버넌스 체계 수립

1. 거버넌스 체계 개요

[1] 분석 거버넌스 체계 개요

거버넌스(governance) = '통칭'
기업에서 의사결정을 위한 데이터의 분석과 활용을 위한 체계적이 관리를 의미

[2] 분석 거버넌스 체계 구성요소

5가지 :
- 조직(organization)
- 과제 기획 및 운영 프로세스(process)
- 분석 관련 시스템(system)
- 데이터(data)
- 분석 관련 교육 및 마인드 육성 체계(human resource)

2. 데이터 분석 성숙도 모델 및 수준 진단

[1] 분석 수준 진단 프레임 워크

분석 준비도와 분석 성숙도를 통하여 데이터 분석 수준을 진단
이후 무엇을 준비/보완해야 하는지 등 분석의 유형 및 방향성을 결정 할 수 있을 것

[2] 분석 준비도

기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법
6가지 영역을 대상으로 수준 파악 : 분석 문화, 분석 데이터, 분석 인프라, 분석 기법, 분석 업무, 분석 인력 및 조직

[3] 분석 성숙도

CMMI (Capability Maturity Model Integration) 모델 활용하여 조직의 성숙도 평가
3가지 부문을 대상으로 수준 구분 : 비즈니스, 조직/역량, IT

[4] 분석 수준 진단 결과

분석 수준 진단 결과를 4가지 유형으로 구분 : 정착형, 확산형, 준비형, 도입형

3. 분석 지원 인프라 방안 수립

[1] 플랫폼으로 인프라 구축

플랫폼 : 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미, HW에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공

4. 데이터 거버넌스 체계 수립

[1] 데이터 거버넌스 구성요소

(1) 개요

데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것

(2) 데이터 거버넌스 구성요소

원칙(Principle) : 데이터를 유지 관리하기 위한 지침과 가이드
조직(Organization) : 데이터를 관리할 조직의 역할과 책임
프로세스(Process) : 데이터 관리를 위한 활동과 체계

[2] 데이터 거버넌스 체계

(1) 데이터 표준화

데이터 표준 용어 설정, 명명 규칙(Name Rule) 수립, 메타데이터(Metadata) 구축, 데이터 사전(Data Dictionary) 구축 등
데이터 표준 용어 : 표준 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성됨

(2) 데이터 관리 체계

표준 데이터를 포함한 메타데이터와 데이터 사전의 관리원칙을 수립
항목별 상세 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비
특히 빅데이터의 경우 Data Life Cycle Management(데이터 생명 주기 관리 방안)가 중요함, 생명 주기를 정해 주기가 만료된 데이터는 폐기 (or 관리 비용이 데이터의 가치보다 커질 수 있음)

(3) 데이터 저장소 관리(Repository)

메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
데이터 구조 변경에 따른 사전 영향 평가도 수행해야 효율적 활용 가능

(4) 표준화 활동

표준 준수 여부 주기적으로 점검 및 모니터링, 지속적인 변화 관리 및 주기적인 교육 진행

5. 데이터 조직 및 인력방안 수립

[1] 데이터 분석 조직 및 인력방안 개요

(1) 데이터 분석 조직

분석 조직 : 기업 내 존재하는 빅데이터 속에서 가치를 찾아 전파하고 이를 행동화하는 역할을 함

(2) 조직 및 인력 구성 시 고려사항

조직 구조
인력 구성

[2] 데이터 분석 조직 유형

(1) 집중형 조직 구조

회사의 모든 분석 업무를 별도의 독립적인 전담 조직에서 담당
내부 전략적인 중요도에 따라 우선순위를 정해 추진 가능

(2) 기능 중심의 조직 구조

별도로 분석 조직을 구성하지 않고 각 해당 업무 부서에서 직접 분석하는 형태
전사적 관점에서 핵심 분석이 어려움, 특정 업무 부서에 국한된 분석을 수행 또는 일부 중복된 분석 업무를 수행할 수 있는 조직 구조

(3) 분산형 조직 구조

분석 조직의 인력을 현업 부서에 배치해 분석 업무를 수행
전사 차원에서 분석 과제의 우선순위 선정해 수행 가능, 분석 결과를 신속하게 실무에 적용 가능
DSCoE: Data Science Center of Excellence

6. 분석 과제 관리 프로세스 수립

[1] 분석 과제 관리 프로세스 수립 개요

체계적인 분석 과제 관리 프로세스를 수행하여 기업 내 분석 문화를 내재화

[2] 분석 과제 관리 프로세스

과제 발굴 단계 : 개별 조직 혹은 개인이 과제를 발굴하고 이를 과제화하여 POOL(사용 가능한 데이터의 집합)로 관리하고 분석 과제 선정
과제 수행 단계 : 선정된 과제에 대하여 팀을 구성하고 분석 과제를 수행하면서 지속적인 모니터링 작업 병행, 결과 공유 및 개선하는 절차 수행

7. 분석 교육 및 변화관리

[1] 분석 교육 및 변화관리의 개요

분석 조직 및 인력에 대한 지속적인 교육, 훈련 필요
경영층이 사실 기반의 의사결정을 할 수 있는 문화를 정착시키려는 변화관리를 지속적으로 계획 및 수립 필요

[2] 분석 도입에 대한 문화적 대응

모든 구성원이 데이터를 분석하고 이를 업무에 즉시 활용할 수 있도록 분석 문화를 정착시키려는 움직임
분석 내재화 단계 : 준비기 >> 도입기 >> 안정 추진기
- 기존의 행태로 되돌아가려는 경향이 존재하기 때문에 관련 교육 및 마인드 육성 필요

[3] 분석 교육

단순한 툴 교육이 아닌 분석 확보 및 강화에 초점을 맞추어야 함
- 분석 기획자 - 데이터 분석 큐레이션 교육
- 분석 실무자 - 데이터 분석 기법 및 도구에 대한 교육
- 업무 수행자 - 분석 기회 발굴 및 시나리오 작성법 등의 교육

[출처] 위키북스 2023 ADsP 데이터분석 준전문가 (전용문, 박현민) 데이터 분석전문가가이드 (한국데이터산업진흥원) https://dataonair.or.kr/db-tech-reference/d-guide/data-practical/?uid=417&mod=document&pageid=1 https://velog.io/@zinu/ADsP-데이터-분석-기획-분석-거버넌스-체계 https://medium.com/data-science-at-microsoft/designing-a-data-science-organization-ab53a80b1d15

[ADsP 데이터분석 준전문가] Day 5

Wed, 08 Feb 2023 15:03:05 GMT

오늘은 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p107~113을 공부했다.

(참고 : 내가 기억하고 싶은것을 적어두었다.)

[과목 #2] 2장 분석 마스터플랜

01 마스터플랜 수립

1. 마스터플랜 수립

[1] 분석 마스터플랜의 개념

어떤 하나의 분석 프로젝트를 위한 전체 설계도와 같다
분석 과제(하향식 접근법)의 우선순위를 결정하고 기업의 상황을 고려하여 분석 과제의 적용 범위 및 방식을 결정하여 분석 구현 로드맵을 수립한다

[2] 분석 마스터플랜 수립 프레임워크

분석 과제의 우선순위와 적용 범위 및 방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵을 수립하는 과정과 형식

2. 수행 과제 도출 및 우선순위 평가

[1] 일반적인 IT 프로젝트 우선순위 평가

전략적 중요도, 실행 용이성 등 기업에서 고려하는 중요 가치 기준에 따라 다양한 관점에서의 우선순위 기준를 수립하여 평가한다

[2] 빅데이터의 특징을 고려한 분석 ROI 요소

ROI 요소 : 투자 비용 요소(Investment), 비즈니스 효과 요소(Return)

[3] ROI를 활용한 우선순위 평가 기준

시급성 판단 : 기준은 전략적 중요도(기여도)가 핵심이며, 현재 관점 또는 미래의 중장기적 관점에 전략적 가치를 둘 것인지 등 적정 시기를 고려할 수 있다
난이도 판단 : 적용 비용과 범위 측면에서 바로 적용하기 쉬운 것인지 아닌지, 데이터 분석의 적합성 여부를 따져본다

[4] 포트폴리오 사분면(Quadrant) 분석을 활용한 우선순위 평가 기준

[용어 TO KNOW]

ISP (Information Strategic Planning) : 정보기술 및 정보시스템을 전략적으로 활용하기 위해 먼저 조직의 내외부 환경을 분석하고 문제점 도출, 사용자의 요구 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차 (마스터플랜과의 큰 차이점은 기업의 환경분석에 관한 부분이다)
SI (System Integration) : "시스템 구축", 전산시스템을 필요로 하는 곳으로부터 하청을 받아 시스템의 기획, 개발, 유지보수, 운영 등을 대신해주는 업종
SM (System Management) : "시스템 운영, 유지보수"

3. 이행 계획 수립

[1] 로드맵 수립

단계별로 추진하고자 하는 목표를 명확히 정의한 뒤 과제별 선후행 관계를 고려하여 단계별 추진 내용을 정렬한다

[로드맵 수립 과정]

1) 포트폴리오 사분면을 통한 우선순위 결정 2) 과제별 적용범위 및 방식을 고려한 최종 우선순위 결정 3) 단계적 구현 로드맵 수립 4) 단계별 추진 목표 정의 5) 추진 과제별 선후행 관계를 고려하여 추진 내용 정렬

[단계별 분석 로드맵]

1단계) 분석 체계 도입 2단계) 분석 유효성 검증 3단계) 분석 확산 및 고도화

[2] 세부 이행계획 수립

반복적인 모델링 과정을 수행하는 혼합형(Analytics)을 통하여 프로젝트의 완성도를 높이는 방식을 주로 사용한다

[출처] 위키북스 2023 ADsP 데이터분석 준전문가 (전용문, 박현민) https://dataonair.or.kr/db-tech-reference/d-guide/data-practical/?mod=document&uid=416

[ADsP 데이터분석 준전문가] Day 4

Sun, 05 Feb 2023 06:41:03 GMT

오늘은 이어서 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p88~105을 공부했다.

(참고 : 내가 기억하고 싶은것을 적어두었다.)

[과목 #2] 1장 데이터 분석 기획의 이해

02 분석 과제 발굴

1. 분석 과제 발굴 개요

[1] 분석 과제 '발굴'의 개념과 '탐색 방법

(1) 분석 과제 발굴

해결해야 할 다양한 기업(혹은 분석의 주체)의 문제를 '데이터 분석 문제'로 변화하는 것을 포함하는 개념

(2) 분석 과제 탐색 방법

하향식 접근법 : 문제가 주어졌을 때 해결해야 할 과제가 무엇인지 찾는 Top-Down 수행방법, 각 과정이 체계적으로 단계화되어 문제를 해결하는 방식, 분석 대상을 알고 있다면 사용한다
상향식 접근법 : 문제가 무엇인지 사전에 정의하는 것이 어렵기 때문에 다양한 데이터의 조합 속에서 인사이트를 찾아내는 Bottom-Up 방식, 분석 대상을 모르고 있으면 사용한다
두 접근법을 혼용해서 사용하는 경우도 많다

[분석 과제 발굴 방법론 개념도]

[2] 디자인 씽킹

(1) IDEO사의 디자인 씽킹

"더블 다이아몬드 프로세스"라고 불림, 상향식 접근법의 발산 단계와 하향식 접근법의 수렴 단계가 반복적으로 수행되어 상호 보완적으로 분석의 가치를 높이는 의사결정 방식
크게 문제 발결과 솔루션 제시 영역으로 구분된다

(2) 스탠퍼드대학 d.school의 디자인 씽킹

비즈니스와 기술, 인간 중심 사고가 만나 혁신적 해결책을 도출하는 방법, 상향식 접근법에 속한다고 볼 수 있다

2. 하향식 접근법

[1] 1단계 - 문제 탐색 단계

(1) 비즈니스 모델 탐색 기법

비즈니스 모델 캔버스 9 Block을 5개 영역으로 단순화

(2) 분석 기회 발굴 범위의 확장

거시적 관점, 경쟁자 확대 관점, 시장의 니즈 탐색, 역량의 재해석 4가지 영역에 대해 비즈니스 문제를 발굴하는 방법

(3) 외부 참조 모델 기반 문제 탐색 및 분석 유스케이스 정의

유사 동종 사례 벤치마킹을 통한 분석 기회 발굴 : 산업별, 서비스별 분석테마 후보 그룹(POOL)을 통한 가장 빠르고 쉬운 방식(Quick & Easy)로 분석 기회가 무엇인지 아이디어를 얻는 brainstorming 활용한 방법
분석 유스케이스(Analytics Use Cases) : 분석을 적용했을 때 업무 흐름을 개념적으로 설명한 것으로 프로세스 혁신 수단으로 활용된다

[2] 2단계 - 문제 정의 단계

(1) 문제 정의

식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계, 최종 사용자(End-User)의 관점에서 이루어져야 한다

(2) 문제 정의의 예

문제: 최근 고객들의 불만이 높아지고 있다
데이터의 문제로 정의 : 고객의 불만에 영향을 끼치는 요인은 무엇인지 분석하고, 그 요인과 고객 불만율에 대한 상관 및 예측 모델을 수립한다.

[3] 3단계 - 해결 방안 탐색 단계

(1) 해결 방안 탐색

2단계에서 정의된 데이터 분석 문제를 해결하기 위한 방안을 모색하는 단계, 동시에 분석이 가능한 시스템을 갖추었는지, 분석을 수행할 인력이 확보되었는지를 함께 따져보아야 한다

(2) 해결 방안 탐색 단계 프로세스

[4] 4단계 - 타당성 검토 단계

(1) 타당성 검토

크게 경제적 타당성 검토와 데이터 및 기술적 타당성 검토의 두 가지로 나뉜다

(2) 타당성 검토의 두 가지 유형

경제적 타당성 : 추정되는 실질적 비용 절감, 추가 매출, 수익 등 결제적 가치를 고려해야 함, 수행되는 비용이 분석이 수행되었을 때의 경제적 이득보다 크다면 기업에는 손해이기 때문이다
데이터 및 기술적 타다성 : 수행될 수 없는 분석을 추진하는 것은 경제적 손실이 따르기 때문에 데이터 존재 여부, 분석 시스템 환경, 분석 역량을 고려해야 한다

3. 상향식 접근법

[1] 상향식 접근법 개요

(1) 상향식 접근법 개념

분석 대상이 무엇인지 모를 경우 분석 과제 발굴을 위해 사용하는 방법, 원천 데이터로부터 통찰과 지식을 얻는 접근 방법이다

(2) 상향식 접근법의 특징

먼저 분석부터 시작하고 그 결과로부터 가치가 있는 문제를 도출하는 방법
스탬퍼드대학 d.school의 디자인 씽킹이 속한다

[2] 지도학습과 비지도학습

(1) 지도학습

정답이 있는 데이터를 활용하여 분석 모델을 학습시키는 것
Label이 범주형인 분류와 연속형인 회귀로 나눠진다
eg. 머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석

(2) 비지도학습

정답을 알려주지 않고 학습하는 것
정답 레이블이 없는 데이터를 비슷한 특징을 가진 데이터끼리 군집화하여 새로운 데이터에 대한 결과를 예측한다
데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현한다
일반적으로 상향식 접근방식의 데이터분석은 비지도학습으로 수행된다
eg. 장바구니 분석, 기술통계, 프로파일링, 군집 분석, 주성분분석, 다차원척도

[3] 시행착오를 통한 문제 해결 (프로토타이핑 접근법)

(1) 개념

상향식 접근법 중 하나, 먼저 분석을 시도하고 그 결과를 확인하면서 조금씩 개선해 나가는 방법
문제 정의가 불명확하고 새로운 문제일 경우 해당 접근법이 더 유용하게 활용될 수 있다

(2) 프로세스

(3) 프로토타이핑 접근법이 필요한 경우

문제에 대한 인식 수준이 낮거나 불명확할 경우
필요 데이터의 존재 여부가 불확실할 경우
데이터의 사용 목적이 고정되지 않고 변화할 경우

03 분석 프로젝트 관리 방안

1. 분석 프로젝트 관리 개요

[1] 분석 프로젝트의 특성

도출된 결과의 재해석을 통한 지속적인 모델 정교화 작업을 반복하여 모델을 개선할 수 있도록 적절한 관리 방안 수립이 필요하다

[2] 분석 과제의 5가지 주요 속성을 고려한 관리

(1) 데이터의 양

데이터 양이 작다면 일반 컴퓨터, 방대할 경우 클라우드 같은 분석환경을 활용하는게 유리하다

(2) 데이터 복잡도

비정형 데이터를 분석할 때 잘 적용될 수 있는 모델 고려할 필요가 있다

(3) 분석의 속도

(4) 분석 복잡도

정확도와 복잡도는 trade-off 관계에 있다
복잡도가 올라갈 수록 정확도가 올라간다, 그러나 모델이 복잡하여 직월 입장해서는 해석이 어려워진다

(5) 정확도 & 정밀도

정확도(Accuracy) : 모델과 실제 값 간의 차이가 적다는 것
정밀도(Precision) : 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준을 나타냄

[Time Boxing 기법]

프로토타입 모델의 프로젝트 기획 및 관리 기법
할당된 작업이 주어진 시간 동안 완수되지 못하였더라도 다음 작업으로 넘어가는 방법

2. 분석 과제 관리 방안

프로젝트 관리지침 KS A ISO 21500:2013 을 기본 가이드로 활용
10개의 주제 그룹으로 구성되어 있다 : 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통

[능력 성숙도 통합 모델 (CMMI)]

SW 및 시스템 공학의 역량 성숙도를 파악하기 위한 모델
5가지 단계로 나눠서 역량을 평가함

[출처] 위키북스 2023 ADsP 데이터분석 준전문가 (전용문, 박현민) https://blog.naver.com/2heewoong/221509203628 https://www.stanwick.be/en/blog/design-thinking-creative-thinking-and-action https://empathizeit.com/design-thinking-models-stanford-d-school/ https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jdhpuppy&logNo=221343689820 https://www.researchgate.net/figure/Supervised-learning-and-unsupervised-learning-Supervised-learning-uses-annotation_fig1_329533120 http://www.kentchemistry.com/links/Measurements/accuracyPrecision.htm http://www.313.co.kr/confluence/pages/viewpage.action?pageId=20742935 https://www.linkedin.com/pulse/capability-maturity-model-integration-cmmi-asif-raza/

[ADsP 데이터분석 준전문가] Day 3

Fri, 03 Feb 2023 13:42:35 GMT

오늘은 이어서 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p71~87을 공부했다. 2과목인 "데이터 분석 기획"에 대한 파트다. 크게 두 챕터로 나눠진다.

01 데이터 분석 기회의 이해
02 분석 마스터플랜

기억하고 싶은 부분을 적어보겠다.

[과목 #2] 1장 데이터 분석 기획의 이해

01 분석 기획과 분석 방법론

1. 분석 기획

[1] 분석 기획의 정의와 특징

(1) 분석 기획의 정의

실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미한다.
What을 달성하기 위하여 어떠한 데이터를 가지고 How에 대한 계획 수립

(2) 분석 기획의 특징

수학/통계학적 지식, 분석 도구 기술, 비즈니스에 대한 이해 등 역량과 시각이 요구된다

(3) 분석 대상과 그 방법에 따른 4가지 분석 주제

(4) 목표 시점별 분석 기획

과제 중심적인 접근 방식 : 빠르게 해결하는 것이 목적
장기적인 마스터플랜 방식 : 지속적으로 해결하는 것이 목적

[2] 분석 기획 시 고려사항

(1) 가용 데이터 고려

데이버가 확보될 수 있는지, 데이터 유형에 대한 분석이 선행적으로 이루어져야 한다

(2) 적절한 활용 방안과 유스케이스의 탐색

유사 시나이로 및 솔루션 최대 활용할 것, 분석 사례를 활용하여 과거의 실패 반복하지 않거나 성공적인 분석을 위한 가이드로 참고한다

(3) 장애요소에 대한 사전 계획 수립

2. 분석 방법론 개요

[1] 분석 방법론 개요

(1) 분석 방법론이란?

주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것이다

(2) 분석 방법론의 필요성 (ft. 구성요소)

상세한 절차(Procedure)
방법(Methods)
도구와 기법(Tools & Techniques)
템플릿과 산출물(Templates & Outputs)

[기업의 합리적 의사결정 방해요소]

고정 관념
편향된 생각
프레이밍 효과 : 동일한 사건이나 상황을 두고도 개인의 판단이나 선택이 달라질 수 있는 현상

(3) 분석 방법론의 생성 과정

[2] 분석 방법론이 적용되는 업무 특성에 따른 모델

(1) 폭포수 모델

단계를 거쳐 순차적으로 진행하는 방법, 현재 단계가 완료되어야 다음 단계로 진행될 수 있는 하향식 방향으로 진행된다
문제나 개선사항이 생기면 이전 단계로 돌아가 피드백 과정을 수행할 수 있다

(2) 프로토타입 모델

사용자 중심의 개발방법으로 고객의 요구를 완전히 이해하지 못할 경우 프로토타입 모델을 적용한다
일부분을 먼저 개발, 그 이후 사용자의 요구 분석 등 점진적으로 시스템을 개발해 나가는 접근 방식이다

(3) 나선형 모델

프로토타입과 유사, 다만 사용자의 요구보다는 위험요소를 사전에 제거한다는 것에 초점을 맞춘다
- 처음 시도하는 프로젝트에는 적용이 용이하다

(4) 계층적 프로세스 모델

일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성된다
스텝은 WBS(Work Breakdown Struture)의 워크패키지에 할당되며 Input - Process&Tool - Output 으로 구성되는 단위 프로세스다

[빅데이터 분석의 계층적 프로세스]

단계(Phase) : 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
태스크(Task) : 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step) : WBS의 워크패키지에 해당하고, 입력자료-처리및도구-출력자료로 구성된 단위 프로세스

3. 전통적인 분석 방법론 두 가지

[1] KDD 분석 방법론

(1) KDD(Knowledge Discovery in Database) 분석 방법론

데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스이다

(2) KDD 분석 방법론 프로세스

5단계 : 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 해석과 평가

[2] CRISP-DM 분석 방법론

(1) CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론

KDD 분석방법론과 비슷하나, 약간 더 세분되어 있다
1999년 유럽연합에서 발표된 계층적 프로세스 모델
4개의 레벨 : 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행
6단계 : 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개

(2) CRISP-DM 분석 방법론 프로세스

4. 빅데이터 분석 방법론 개요

[1] 빅데이터 분석 방법론 개요

(1) 빅데이터 분석 방법론

3계층 레벨 (단계, 태스크, 스텝), 5단계(프로세스 그룹)으로 구성되어 있다
각 단계는 여러 태스크로 구성된다
마지막 계층 '스텝'은 입력자료, 출력및도구, 출력자료 등으로 구성된 단위 프로세스들이다

(2) 빅데이터 분석 방법론의 계층적 프로세스

단계	태스크
1단계 분석기획	비즈니스 이해 및 범위 설정
	프로젝트 정의 및 계획 수립
	프로젝트 위험 계획 수립 (4가지: 회피, 전이, 완화, 수용)
2단계 데이터 준비	필요 데이터 정의
	데이터 스토어 설계
	데이터 수집 및 정합성 검정
3단계 데이터 분석	분석용 데이터 준비
	텍스트 분석
	탐색적 분석
	모델링
	모델 평가 및 검증
4단계 시스템 구현	설계 및 구현
	시스템 테스트 및 운영
5단계 평가 및 전개	모델 발전 계획
	프로젝트 평가 및 보고

[2] 빅데이터 분석 방법론 단계별 수행 프로세스

(1) [1단계] 분석 기획

Task #1 비즈니스 이해 및 범위 설정
Task #2 프로젝트 정의 및 계획 수립
Task #3 프로젝트 위험계획 수립

(2) [2단계] 데이터 준비

Task #1 필요 데이터 정의
Task #2 데이터 스토어 설계
Task #3 데이터 수집 및 정합성 검정

(3) [3단계] 데이터 분석

Task #1 분석용 데이터 준비
Task #2 텍스트 분석
Task #3 탐색적 분석
Task #4 모델링
Task #5 모델 평가 및 검증

(4) [4단계] 시스템 구현

Task #1 설계 및 구현
Task #2 시스템 테스트 및 운영

(5) [5단계] 평가 및 전개

Task #1 모델 발전 계획 수립
Task #2 프로젝트 평가 및 보고

[출처] 위키북스 2023 ADsP 데이터분석 준전문가 (전용문, 박현민) https://linda-suuup.tistory.com/57 https://www.researchgate.net/figure/Steps-in-the-KDD-process_fig1_236373188 https://www.datascience-pm.com/crisp-dm-2/

[ADsP 데이터분석 준전문가] Day 2

Thu, 02 Feb 2023 10:28:20 GMT

오늘은 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p25~70을 공부했다. 내가 기억하려고 하는 부분만 적어본다.

[과목 #1] 2장 데이터의 가치와 미래

01 빅데이터의 이해

1. 빅데이터의 이해

[1] 빅데이터의 정의

(1) 일반적 정의 : 양적+질적의 개념 포함. 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합을 의미. (2) 가트너 정의 : 향상된 시사점과 더 나은 의사결정을 위해 사용되는 대용량, 고속 및 다양성의 특성을 가진 정보 자산. (3) 매킨지 정의 : 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터. (4) IDC 정의 : 대규모 데이터에서 낮은 비용으로 가치를 추출, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처. (5) 일본 노무라연구소 정의 : 데이터, 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출, 필요한 인재나 조직까지도 의미에 포함. (6) 더그 래니의 정의 : 데이터의 양, 유형과 소스의 다양성, 수집과 처리 측면에서의 속도가 급격히 증가하면서 나타나는 현상. (7) 마이어쇤베르크와 쿠키어의 정의 : 대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일. (8) 한국데이터산업진흥원 정의 : 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것

[2] 빅데이터의 특징

(1) 더그 래니의 3V - Volume(양), Variety(유형), Velocity(생성 및 처리 속도의 증가)

(2) 빅데이터의 새로운 특징 4V - Value(가치) 혹은 Veracity(정확성) 포함

2. 빅데이터의 출현 배경

[1] 빅데이터의 출현 배경

(1) 데이터의 양적 증가

기술의 패러다임 시프트 현상으로 바라봐야 할것

(2) 산업계의 변화

'양질 전환의 법칙'(양적인 변화가 축적되면 질적인 변화도 이루어진다는 개념) 즉 정보가 지속적으로 축적되면서 거대한 데이터는 새로운 기술을 만나 새로운 가치를 창출 할 수 있는 변화의 상태가 된다는 것

(3) 학계의 변화

거대한 데이터를 다루는 학문 분야가 늘어남

(4) 관련 기술의 발전

특히 클라우드 컴퓨팅 (서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석, 인텔리전스 등의 컴퓨팅 서비스 제공)에서 빅데이터의 처리 비용을 낮추어 빅데이터 분서에 경제성을 제공함

[2] 빅데이터의 기능과 변화

(1) 빅데이터의 기능 (빅데이터에 거는 기대)

산업혁명의 석탄, 철
21세기 원유
렌즈 (eg. Google's Ngram Viewer)
플랫폼 (eg. 페이스북, 카카오톡)

(2) 빅데이터가 만들어내는 변화 (후-전-양-상)

사전처리 >> 사후처리 : 가능한 많은 데이터를 모으고 다양한 방식으로 인사이트 발굴
표본조사 >> 전수조사 : 데이터 처리 비용이 감소하면서 변화됨
질 >> 양 :양이 증가할 수록 분석의 정확도 높아짐
인과관계 >> 상관관계 : 특정 현상의 발생 가능성 포착 및 추천 가능

(3) 빅데이터의 등장에 따른 변화

기술 변화
인재와 조직의 변화

02 데이터의 가치와 미래

1. 빅데이터의 가치와 영향

[1] 빅데이터의 가치

(1) 빅데이터의 가치

어떤 인사이트를 발굴하여 어떻게 활용할 것인지에 달렸다. 가치를 산정하는 것은 의미가 없는 일일 수도 있다. 중요한 것은 빅데이터를 통한 인사이트를 가치있게 만드는 과정 그 자체이다.

(2) 빅데이터 가치 산정의 어려움 (3가지 이유)

데이터 활용 방식 : 누가, 언제, 어떻게 어디서 활용했는지 알 수 없게 됨
가치 창출 방식 : 기존에 없던 새로운 가치 창출
분석 기술의 발전 : 오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있음

[2] 빅데이터의 영향

(1) 빅데이터의 영향

기업 : 소비자의 행동 분석, 시장 변동 예층 등
정부 : 환경 탐색, 상황 분석, 미래 대응
개인 : 스마트라이프로 변화됨

(2) 빅데이터가 가치를 만들어내는 5가지 방식 (맥킨지의 빅데이터 보고서, 2011)

투명성 제고로 연구개발 및 관리 효율성 제고
시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
고객 세분화 및 맞춤 서비스 제공
알고리즘을 활용한 의사결정 보조 혹은 대체
비즈니스 모델과 제품, 서비스의 혁신 등

2. 빅데이터와 비즈니스 모델

[1] 빅데이터 활용 사례

(1) 기업혁신 사례 : 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 (2) 정부활용 사례 : 실시간 교통정보수집, 기후정보, 지질활동, 국가안전 확보활동, 의료와 교육개선에서의 활용방안 모색 등 (3) 개인활용 사례 : 정치인과 연예인의 SNS 활용 등

[빅데이터 경영혁신의 4단계]

#1 생산성 향상 #2 발견에 의한 문제 해결 #3 의사결정 향상 #4 새로운 고객가치와 비즈니스 창출

[미래의 빅데이터 활용에 필요한 3요소]

데이터 : 모든 것의 데이터화
기술 : 진화하는 알고리즘, 인공지능
인력 : 데이터 사이언티스트, 알고리즈미스트

[2] 7가지 빅데이터 활용 기본 테크닉

(1) 연관규칙 학습 (Association Rule Learning)

연관분석, 장바구니 분석이라고도 불리며 어떤 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
eg. 장바구니 분석, 상품 추천

(2) 유형분석 (Classification Tree Analysis)

'이 사용자가 어떤 특성을 가진 집단에 속하는가'와 같은 범주를 찾아내는 방법
eg. 문서를 어떻게 분류할 것인가? 조직을 어떻게 여러 그룹으로 나눌 것인가?

(3) 유전 알고리즘 (Genetic Algorithms)

최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점전적으로 진화 시켜 나가는 방법
eg. 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?

(4) 기계학습=머신러닝 (Machine Learning)

컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
eg. 기존 시청 기록을 바탕으로 시청자가 보유한 영화중 어떤 영화를 가장 보고 싶어할까?, 스팸메일 필터링, 질병 진단 예측

(5) 회귀분석 (Regression Analysis)

독립변수를 조작하면서 종속변수가 어떠헥 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
eg. 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

(6) 감정분석 (Sentiment Analysis)

특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
비정형 데이터 마이닝의 대표적인 기법 중 하나
eg. 새로운 환불 정책에 대한 고객의 평가는 어떤가?

(7) 소셜 네트워크 분석 (SNA; Social Network Analysis)

사회 관계망 분석으로도 불림, SNS에서 유저사이의 팔로워 팔로잉 관계를 분석하여 영향력이 있는 사람 찾아냄. 마케팅이나 범죄수사에서 공범을 찾는 등 활용 가능.
eg. 이 사람이 어느 정도 영향력 있는 '인플루언서'인가? 특정인과 다른 사람이 몇 촌 정도의 관계인가?
[소셜 네트워크 분석 요소]
- 연결 중심성 : 하나의 점에 얼마나 많은 다른 점이 연결되어 있는지 나타내는 척도
- 근접 중심성 : 노드 사이의 거리를 기반으로 측정한 척도
- 매개 중심성 : 해당 노드의 위치를 파악하여 여향력 파악
- 아이겐벡터 중심성 : 해당 노드와 다른 벡터의 중심성 및 가충치 활용하여 계산하는 방식, 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표

3. 빅데이터의 위기 요인과 통제 방안

[1] 위기요인

(1) 사생활 침해

eg. 1984(조지오웰) '빅브라더', SNS에 여행 게시글을 올린 사용자를 대상으로 한 빈집털이 발생, 구글의 사용자 행동 패턴 예측

(2) 책임 원칙 훼손

분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 높아짐
eg. 영화 마이너리티 리포트, 신용카드 발급 여부 판단에 있어 불이익 발생, 범죄 발생 이전에 체포

(3) 데이터 오용

eg. 포드 자동차 발명 vs 더 빠른 말, 스티브잡스의 아이폰 vs 일반 전화기, 적군의 사망자 수로 전쟁의 승리를 예측하는 오류, 비행기 탑승 금지자 목록에 상원 의원이 포함

[2] 통제방안

(1) 사생활 침해의 통제 방안 : '동의'에서 '책임'으로

개인정보 사용자의 '책임'으로 해결한다는 방안

(2) 책임 원칙 훼손의 통제 방안 : 결과 기반 책임 원칙 고수

'성향'이 아닌 '행동 결과'를 보고 처벌

(3) 알고리즘 접근 허용

알고리즘을 이해하고 해석하여 사전에 피해자를 방지 (전문인력 - Algorithmist)

[개인정보 비식별 기술]

데이터 속에서 특정 개인을 식별할 수 있는 요인을 숨기는 기술
데이터 마스킹, 가명 처리, 총계 처리, 데이터 값 삭제(일부), 데이터 범주화 (범위제공)

[미연방거래위원회(FCT)의 소비자 프라이버시 보호 3대 권고사항]

(1) 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용 (2) 기업은 소비자에게 공유정보 선택 옵션을 제공 (3) 소비자에게 수집된 정보 내용 공개 및 접근권 부여

03 가치창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트

[1] 빅데이터 열풍과 회의론

(1) 빅데이터에 대한 관심과 기대

많은 양의 데이터가 반드시 새로운 가치로 연결되는 것은 아니다
eg. 버텍스 사: 데이터의 양보다 데이터 분석 문화

(2) 빅데이터 회의론의 원인

부정적 학습효과
과대 포장

[2] 빅데이터 분석의 핵심은 'Big'이 아닌 '인사이트'

(1) '크기'가 아니라 '인사이트'

걸림돌은 비용이 아닌 '분석적 방법과 성과에 대한 이해 부족'
데이터의 양보다는 '데이터의 가치'가 핵심

(2) 전략적 인사이트의 중요성

싸이월드 vs 페이스북 사례

미국 항공사 데이터 분석 사례

아메리칸 항공	사우스웨스트 항공
수익관리, 가격 최적화의 분석 접근법 사용, 3년만에 14억 달러의 수익을 올림	단순최적화 모델을 통한 가격 책정과 운영
초기에 비용은 일정 부분 절감했으나, 타 경쟁사들과 차별화하지 못하여 결국 수익 감소	차별화된 경영전략으로 36년 연속흑자 기록

[3] 일차원적 분석 vs. 전략 도출을 위한 가치 기반 분석

(1) 일차원적 분석 (산업별)

산업	일차원적 분석 애플리케이션
금융 서비스	산용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
에너지	트레이딩, 공급/수요 예측
병원	가격 책정, 고객 로열티, 수익 관리
정부	사기탐지, 사례관리, 범죄방지, 수익 최적화
소매업	판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업	공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
운송업	일정 관리, 노선 배정, 수익 관리
헬스케어	약품 거래, 예비 진단, 질병 관리
커뮤니케이션	가격 계획 최적화, 고객 보유, 수요 예측, 생산 능력 계획, 네트워크 최적화, 고객 수익성 관리
서비스	콜센터 직원 관리, 서비스-수익 사슬 관리
온라인	웹 매트릭스, 사이트 설계, 고객 추천
모든 산업	성과 관리

(2) 전략 도출을 위한 가치 기반 분석

일차원적인 분석은 주로 부서 단위로 관리되기 때문에 비즈니스 성공에 핵심적인 역할을 기대하기는 어렵다. 일차적인 분석을 통해 분석 경험을 늘려가고 이후 범위를 넓혀 인사이트를 주는 가치 기반 분석 단계로 나아가야 한다.

2. 전략 인사이트 도출을 위해 필요한 역량

[1] 데이터 사이언스에 대한 이해와 역할

(1) 데이터 사이언스에 대한 이해

데이터 사이언스 : 데이터로부터 의미 있는 정보를 추출해내는 학문
통계학과 다른 점 : 통계학은 정형화된 데이터를 분석하지만 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함

(2) 데이터 사이언스의 역할

데이터 마이닝과 다른 점 : 데이터 마이닝은 주로 분석에 포커스를 두지만, 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정, 궁극적으로는 전략적 인사이트 도출까지 모두 포괄, 전략적 통찰을 추구하고 비즈니스 핵심 이슈에 답하여 사업의 성과를 견인해 나감
중요한 핵심 역량 : 소통

[2] '데이터 사이언스'와 '데이터 사이언티스트'

(1) 데이터 사이언스 구성 요소 : Analytics, IT, 비즈니스 분석

(2) 데이터 사이언티스트에게 요구되는 역량

Hard Skill	Soft Skill
빅데이터에 대한 이론적 지식	통찰력 있는 분석
분석 기술에 대한 숙련	설득력 있는 전달
	다분야 간 협력

[가트너가 제시한 Data Scientist 요구 역량]

데이터 관리 : 데이터에 대한 이해
분석 모델링 : 분석론에 대한 지식
비즈니스 분석 : 비즈니스 요소에 초점
소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정

[3] 데이터 사이언스 : 과학과 인문학의 교차로

(1) 전략과 인사이트 도출을 위한 인문학

인문학에서 나오는 소프트 스킬을 많은 기업들이 요구함 (사고방식, 비즈니스 이슈에 대한 감각, 고객에 대한 공감 능력 등)

[외부 환경에서 본 인문학의 열풍]

외부환경 변화

컨버전스 → 디버전스 단순 세계화 → 복잡 세계화

생산 → 서비스 제품생산 → 서비스

생산 → 시장 창조 기술 경쟁 → 무형 자산의 경쟁

외부환경	변화
컨버전스 → 디버전스	단순 세계화 → 복잡 세계화
생산 → 서비스	제품생산 → 서비스
생산 → 시장 창조	기술 경쟁 → 무형 자산의 경쟁

(2) 인문학적 사고의 특성

정량분석 + 인문학적 통찰 → 합리적 추론

구분	정보	통찰
과거	무슨 일이 일어났는가?	어떻게, 왜 일어났는가?
현재	무슨 일이 일어나고 있는가?	차선 행동은 무엇인가?
미래	무슨 일이 일어날 것인가?	최악 또는 최선의 상황은 무엇인가?

eg. 현재의 시용리스크 모델링 (인간의 행동적 관점, 상황적 관점)

3. 빅데이터 그리고 데이터 사이언스의 미래

[1] 가치 패러다임의 변화

(1) 가치 패러다임

paradigm : 어떤 한 시대 사람들의 견해나 사고를 근본적으로 규정하고 있는 프레임으로서의 인식의 체계를 의미하는 개념
paradigm shift : 시간의 흐름에 따라 다음 세대의 패러다임에 자리를 물려주고 떠나는 속성
가치 paradigm : 경제와 산업의 원천에 있는 가치에 대한 패러다임을 의미

(2) 가치 패러다임의 변화

과거	현재	미래
Digitalization	Connection	Agency
디지털화	연결	에이전시
eg. 운영체제, 워드/파워포인트 등	구글의 검색 알고리즘, 네이버의 콘텐츠

[2] 데이터 사이언스의 한계와 인문학

(1) 데이터 사이언스의 한계

모든 분석은 가정에 근거, 실제 외부 요인은 계속해서 변화한다
100% 완벽하지 않다

(2) 데이터 사이언티스트에게 요구되는 인문학

모델의 능력에 대해 항상 의구심을 가지고, 가정과 현실의 불일치에 대해 끊임없이 고찰, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 주시해야 한다

[빅데이터 Trend Keyword]

(1) 빅데이터와 인공지능 (2) 머신러닝 vs 딥러닝 (3) 빅데이터 플랫폼 (4) 하둡 Hadoop (5) 하둡 에코시스템 (6) 데이터 레이크 Data Lake (7) 마이데이터 Mydata (8) 2020년 개정된 <개인정보보호법> (9) 개인정보 비식별화 (10) 스마트 팩토리 Smart Factory (11) 블록체인 Block Chain (12) 메타버스 Metaverse

[출처] https://datascience.aero/big-data-veracity-value/ https://www.researchgate.net/figure/The-4-Vs-big-data-properties-volume-variety-velocity-veracity-9_fig1_338516812 https://3months.tistory.com/508

[ADsP 데이터분석 준전문가] Day 1

Wed, 01 Feb 2023 06:40:53 GMT

이번 2월 한달간 ADsP 데이터분석 준전문가 시험을 준비하게 되었다. 사실 별 생각은 없었으나, 위키북스에서 하는 이벤트(?)를 인스타 통해서 알게 되었고, 스터디에 참여하기로 했다. 사용하는 교재는 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 이다.

신청한 시험일자는 2/26이고, 스터디 플랜은 25일간(일요일빼고) 진행된다. 잘 따르면 단기간 자격증을 딸 수 있을것 같아 좋은 기회인듯 하다.

그럼 오늘은 첫째날. 스터디 플랜에 따르면 p1~24를 학습하면 된다. 여기에 모든 스터디 기록을 하지는 않겠으나, 내가 기억하고 싶은 부분만 정리하려고 한다.

[과목 #1] 1장 데이터의 이해

01 데이터와 정보

1. 데이터의 정의

[1] 데이터의 정의

(1) 데이터의 정의 : 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료를 의미한다 (2) 테이터의 특성

존재적 특성 : 테이터는 있는 그대로의 객관적 사실
당위적 특성 : 데이터는 추론, 예측, 전망, 추정을 위한 근거

[2] 데이터의 유형

(1) 정성적 데이터와 정량적 데이터

정성적 데이터 : 언어, 문자 등
정량적 데이터 : 수치, 도형, 기호 등

(2) 정형 데이터와 비정형 데이터, 그리고 반정형 데이터

정형 데이터 : 정형화된 틀이 있고 연산이 가능 (.csv, .xlsx)
비정형 데이터 : 정형화된 틀이 없고 연산이 불가능 (소셜 데이터, 영상)
반정형 데이터 : 형태는 있지만 연산이 불가능 (.xml, .json)

(3) 암묵지와 형식지

암묵지(Tacit Knowledge) : 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 들러나지 않는 상태의 지식
형식지(Explicit Knowledge) : 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식 (교과서, 데이터베이스, 신문 등)
암묵지와 형식지의 상호작용

암묵지 형식지

공통화(Socialization) 표출화(Externalization)

내면화(Internalization) 연결화 (Combination)

암묵지	형식지
공통화(Socialization)	표출화(Externalization)
내면화(Internalization)	연결화 (Combination)

2. 데이터와 정보

[1] DIKW 피라미드

(1) 데이터에서 지혜를 얻는 과정

데이터(Data) : 의미가 중요하지 않은 객관적인 사실
정보(Information) : 데이터에서 의미가 도출된 것
지식(Knowledge) : 도출된 다양한 정보를 구조화하여 유의미한 정보 분류, 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

(2) DIKW 피라미드

[2] 데이터에 관한 상식

(1) 비트와 바이트

비트(bit) : 0, 1의 두가지 값으로 신호를 나타내는 최소단위 (binary digit의 약자)
바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위 (한글은 한글자가 2 byte크기를 갖는다)

(2) 데이터 단위

02 데이터베이스

1. 데이터베이스 개요

[1] 데이터베이스 정의

(1) 데이터베이스 용어의 연혁

1950년대 미군에서 군수물자를 관리하기 위해 수집된 자료를 data와 base(기지)의 합성어로 database라는 용어가 처음 등장했다고 한다. 1963년에 미국에서 공식적으로 사용하기 시작하였고, 우리나라는 1975년에 시작했다.

(2) 데이터베이스의 다양한 정의

한국데이터산업진흥원 : 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보처리 및 정보통신기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 처리한 정보의 집합체를 의미.
그외 EU 데이터베이스의 법적 보호에 관한 지침, 컴퓨터용어사전, 정보통신용어사전, 위키피디아 참고
DB System
- DB (Data-Base) : 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체
- DBMS (Data-Base Management System) : 이용자가 쉽게 데이터베이스를 구축/유지할 수 있게 하는 관리 소프트웨어

[2] 데이터베이스의 특징

(1) 데이터베이스의 일반적인 특징

통합된 데이터 : 동일한 내용의 데이터가 중복되어 있지 않다
저장된 데이터 : 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다
공용 데이터 : 여러 사용자가 공유할 수 있다
변화하는 데이터 : 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지해야 한다

(2) 데이터베이스의 다양한 측면에서의 특성

정보의 축적 및 전달 측면 : 기계 가독성, 검색 가능성, 원격 조작성
정보이용 측면 : 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득 가능, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다
정보관리 측면 : 정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다
정보기술발전 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다
경제, 산업적 측면 : 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다

2. 데이터베이스 활용

[1] 데이터베이스 활용

(1) 기업 내부의 데이터베이스

인하우스 DB : 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는데 중점을 둠. 이후 전사자원관리시스템(ERP)로 확대.
OLTP(Online Transaction Processing) 시스템 : 영역별로 구축되던 단순 자동화 중심의 시스템
OLAP (Online Analytical Processing) 시스템 : 단순한 정보의 수집과 공유에서 탈피하여 '분석'이 중심이 되는 시스템

EAI(Enterprise Application Integration) : 모든 서비스를 중앙에서 관리하여 연결 루트가 간소화되는 기업 애플리케이션 통합
KMS(Knowledge Management System) : 지식경영시스템, 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 시스템
SCM(Supply Chain Management) : 공급망 관리, 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지 유통단계를 최적화해서 고객에서 제공
ERP(Enterprise Resource Planning) : 경영 자원 통합 관리, 여러 자원 및 업무가 하나로 통합된 시스템. 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행 될 수 있도록 도와 업무의 효율성을 높임
CRM(Customer Relationship Management) : 고객 관계 관리, 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 및 기존 고객의 이탈 방지
BI(Business Intelligence) : 비즈니스 인텔리전스, 기업의 의사결정 프로세스. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석 (참고: ad hoc report - 비즈니스 이슈에 답하기 위해 신속한 보고서 작성을 위한 BI 도구)
RTE(Real Time Enterprise) : 기업 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달해서 신속한 대응이 가능한 스피드 경영

(2) 산업 부문별 데이터베이스 발전 과정

제조부문
금융부문
유통부문

(3) '사회기반구조'로서의 데이터베이스

물류부문
지리부문
교통부문
의료부문
교육부문

[2] 데이터베이스 종류

(1) 데이터베이스의 종류

관계형 데이터베이스(RDB): 데이터를 행과 열로 이뤄진 테이블에 저장, 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있다
- Oracle, MySQL, MS-SQL, DB2-Infomix, MariaDB, Derby, SQLite
NoSQL : (Not only SQL, Non SQL) 관계형이 아닌 비관계형을 의미함, 비관계형 DB라는 의미를 담고 있으며 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이한다
- Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant
- Key-Value DB: Amazon Dynamo, Redis, Riak, Coherence, SimpleDB
- Colum-oriented DB: Google Bigtable, Cassandra, HBase, HyperTable
계층형 DBMS : 데이터가 부모자식 형태를 갖도록 관계를 맺는다. 데이터 중복 문제가 발생하기 쉬운 단점이 있다.
네트워크형 DBMS : 각 데이터 간의 연결을 통해 네트워크처럼 복잡한 그물 형태로 데이터를 관리한다. 계층형의 중복문제를 해결하나, 복잡한 구조로 인해 구조변경에 많은 어려움이 발생한다는 단점이 있다.
분산형 DBMS : 분산된 여러 개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있다.
객체지향 DBMS : 사용자가 정의하는 타입을 하나의 데이터유형으로 저장한다. 구조가 없는 비정형 데이터라도 사용자가 원하는 방식에 따라 표현 가능하다는 장점이 있다.

(2) SQL의 이해

Structured Query Language
DBMS에서 데이터베이스에 명령을 내리는 데이터베이스의 하부 언어
DB마다 문법이 서로 다름
한국데이터산업진흥원 SQL 교재는 기본적으로 Oracle을 기반으로 함
크게 정의언어인 DDL(Data Definition Langague)와 데이터 조작 언어인 DML(Data Manipulation Langauge)로 나눠진다.

[기본 SELECT 문법]

SELECT 질의 문법

SELECT (칼럼명) FROM (테이블명) WHERE (조건절)

SELECT 집계 함수 문법

SELECT (칼럼명) FROM (테이블명) WHERE (조건절) WHERE (조건절) GROUP BY (대상칼럼) HAVING (대상칼럼조건)

[데이터베이스 구성요소]

인스턴스 : 하나의 객체를 의미
속성 : 객체를 표현하기 위해 사용되는 값
엔터티 : 데이터의 집합, 2개 이상의 인스턴스와 1개 이상의 속성을 보유
메타데이터 : 데이터를 설명하는 데이터
인덱스 : 데이터를 저장할 때 자동적으로 지정되는 데이터의 이름

[데이터 마트(DM)와 데이터 웨어하우스(DW)]

데이터 웨어하우스는 분산된 환경에 흩어져 있는 데이터들을 공통의 형식으로 변환해 관리, 데이터 마트는 DW으로부터 추출된 작은 데이터베이스로서 특정 목표를 달성하는데 필요한 데이터를 제공한다.

[출처]

[PYTHON] Virtual Environment `virtualenv`

Sat, 21 Jan 2023 05:32:24 GMT

GOAL

The goal is to install the virtualenv module to have each of the workspaces to run in their own virtual environment. According to the official documents, "virtualenv is used to manage Python packages for different projects."

💡 WHY SHOULD I USE virtualenv? Well, using it helps you become more organized. Each of your projects might need different versions of python libraries. Having virtual environments for each of them therefore would be helpful in being more productive.

ENVIRONMENT

I am working on the Visual Studio Code on Windows 10: - Python 3.11.1 - pip 22.3.1

STEP 1. Install `virtualenv` module

Install the module with the following code:

py -m pip install --user virtualenv

💡 Since Python 3.3, venv package is shipped together with the python itself and it serves the same purpose as virtualvenv. However it only has a subset of features. You can find more int he official document here. It seems that virtualenv is still the more popular one as it supports both Python 2 and 3, so I think I'll keep to it for now.

STEP 2. Create a virtual environment

Create the virtual environment in a workspace using the following code:

py -m venv env
# env is the location to create the virtual environment

STEP 3. Activate the virtual environment

Activate the virtual environment in the workspace using the following code:

.\env\Scripts\activate
# env here refers to the location where you created the virtual environment (refer to step 2)

STEP 4. Deactivate

Deactivating is easy:

deactivate

Hoorah.

RESOURCE

https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/ https://stackoverflow.com/questions/41573587/what-is-the-difference-between-venv-pyvenv-pyenv-virtualenv-virtualenvwrappe https://towardsdatascience.com/why-you-should-use-a-virtual-environment-for-every-python-project-c17dab3b0fd0

[ERROR] error: Microsoft Visual C++ 14.0 or greater is required.

Sat, 21 Jan 2023 04:37:18 GMT

PROBLEM

I was trying to install scrapy with pip install scrapy but then I met with the error saying:

SOLUTION

I did as what was suggested in the error itself. I went to the following website: https://visualstudio.microsoft.com/visual-cpp-build-tools/ and downloaded the 'build tools'.

And then I just downloaded the basic ones selected as shown:

After rebooting my computer, I tried installing the python library once more, and it worked perfectly fine (YAY).

REFERENCES

https://github.com/benfred/implicit/issues/76 https://learn.microsoft.com/en-us/answers/questions/136595/error-microsoft-visual-c-14-0-or-greater-is-requir

justwriteit.log

[ADsP 데이터분석 준전문가] Day 6

[과목 #2] 2장 분석 마스터플랜

02 분석 거버넌스 체계 수립

1. 거버넌스 체계 개요

[1] 분석 거버넌스 체계 개요

[2] 분석 거버넌스 체계 구성요소

2. 데이터 분석 성숙도 모델 및 수준 진단

[1] 분석 수준 진단 프레임 워크

[2] 분석 준비도

[3] 분석 성숙도

[4] 분석 수준 진단 결과

3. 분석 지원 인프라 방안 수립

[1] 플랫폼으로 인프라 구축

4. 데이터 거버넌스 체계 수립

[1] 데이터 거버넌스 구성요소

[2] 데이터 거버넌스 체계

5. 데이터 조직 및 인력방안 수립

[1] 데이터 분석 조직 및 인력방안 개요

[2] 데이터 분석 조직 유형

6. 분석 과제 관리 프로세스 수립

[1] 분석 과제 관리 프로세스 수립 개요

[2] 분석 과제 관리 프로세스

7. 분석 교육 및 변화관리

[1] 분석 교육 및 변화관리의 개요

[2] 분석 도입에 대한 문화적 대응

[3] 분석 교육

[ADsP 데이터분석 준전문가] Day 5

[과목 #2] 2장 분석 마스터플랜

01 마스터플랜 수립

1. 마스터플랜 수립

[1] 분석 마스터플랜의 개념

[2] 분석 마스터플랜 수립 프레임워크

2. 수행 과제 도출 및 우선순위 평가

[1] 일반적인 IT 프로젝트 우선순위 평가

[2] 빅데이터의 특징을 고려한 분석 ROI 요소

[3] ROI를 활용한 우선순위 평가 기준

[4] 포트폴리오 사분면(Quadrant) 분석을 활용한 우선순위 평가 기준

[용어 TO KNOW]

3. 이행 계획 수립

[1] 로드맵 수립

[로드맵 수립 과정]

[단계별 분석 로드맵]

[2] 세부 이행계획 수립

[ADsP 데이터분석 준전문가] Day 4

[과목 #2] 1장 데이터 분석 기획의 이해

02 분석 과제 발굴

1. 분석 과제 발굴 개요

[1] 분석 과제 '발굴'의 개념과 '탐색 방법

[분석 과제 발굴 방법론 개념도]

[2] 디자인 씽킹

2. 하향식 접근법

[1] 1단계 - 문제 탐색 단계

[2] 2단계 - 문제 정의 단계

[3] 3단계 - 해결 방안 탐색 단계

[4] 4단계 - 타당성 검토 단계

3. 상향식 접근법

[1] 상향식 접근법 개요

[2] 지도학습과 비지도학습

[3] 시행착오를 통한 문제 해결 (프로토타이핑 접근법)

03 분석 프로젝트 관리 방안

1. 분석 프로젝트 관리 개요

[1] 분석 프로젝트의 특성

[2] 분석 과제의 5가지 주요 속성을 고려한 관리

[Time Boxing 기법]

2. 분석 과제 관리 방안

[능력 성숙도 통합 모델 (CMMI)]

[ADsP 데이터분석 준전문가] Day 3

[과목 #2] 1장 데이터 분석 기획의 이해

01 분석 기획과 분석 방법론

1. 분석 기획

[1] 분석 기획의 정의와 특징

[2] 분석 기획 시 고려사항

2. 분석 방법론 개요

[1] 분석 방법론 개요

[기업의 합리적 의사결정 방해요소]

[2] 분석 방법론이 적용되는 업무 특성에 따른 모델

[빅데이터 분석의 계층적 프로세스]

3. 전통적인 분석 방법론 두 가지

[1] KDD 분석 방법론

STEP 1. Install `virtualenv` module