yuns_u.log

메타데이터

Mon, 13 Feb 2023 04:53:52 GMT

메타데이터의 정의

메타데이터(metadata)는 데이터에 대한 데이터를 의미한다. 데이터의 속성정보에 대한 데이터로 아래와 같이 설명되기도 한다.

데이터에 관한 구조화된 데이터
다른 데이터를 설명해주는 데이터

정보자원이나 정보자원의 묶음(collection, object)을 설명(기술,describe)한 데이터를 말한다. ‘데이터에 대한 데이터’가 메타데이터의 보편적 정의로 사용된다고 한다.

메타데이터의 목적

가장 대표적인 것은 아래의 두 기능일 것이다.

데이터를 표현하기 위함.
데이터를 빨리 찾기 위함.

좀 더 구체적으로 들어가서 메타데이터는 정의에 따라 분류될 수 있다고 한다.

FDBR
- Find : 검색기능
- Identify: 식별기능
- Select : 선택기능
- Obtain : 획득기능
NISO
- Resource Discovery : 분류 - 탐색
- Organizing Electronic Resources : 카테고리 - 정보자원 연결 및 조직
- Interoperability : 통합적 검색용이성
- Digital Identification : 메타데이터 구별 언어 존재
- Archiving and Preservation : 손상가능성이 높아 다양한 기법을 통해 지속적으로 사용할 수 있도록함

FDBR와 NISO는 근본적으로는 같은 의미이지만, NISO의 경우 Archiving and Preservation이 추가되어 메타데이터를 하나의 정보자원으로 여기고 장기적인 보존이 필요함을 강조한다는 특징이 있다.

메타데이터의 내용

메타데이터는 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아 이용하기 위해 일정한규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다.

콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용조건, 이용내력 등이 메타데이터에 포함될 수 있다. (이미지 출처: https://dataon.kisti.re.kr/data_mgnt_guideline_09.do)
예시
HTML 태그 (이미지 출처: http://www.tcpschool.com/html/html_intro_elementStructure)

HTML 문서를 작성하다보면 내용 앞뒤로 꺾쇠(<>) 안에 태그값을 입력해야한다. 이 태그값에 따라 내용이 어떤 속성을 갖게 되는지 정해지는데 이것이 메타데이터의 역할을 한다. 내용의 구조를 나타내는 것이 태그의 역할이므로 메타데이터의 역할을 하기 때문이다.

데이터에 관한 구조화라는 것은 HTML 태그 안에 head와 body가 올 수 있고, body 안에는 table이 올 수 있으며, table 안에는 tr가, tr안에는 td가 올 수 있도록 구조적으로 짜여있는 규칙을 의미한다. 데이터가 상위에서 하위로 트리(tree) 구조를 이루고 있다는 것을 의미한다.

문항반응이론(IRT) 개요 (정리중)

Thu, 19 Jan 2023 02:28:36 GMT

기본 개념 및 정의

문항반응이론(IRT, Item Response Theory)는 여러 사람들이 여러 문항에 응답한 데이터를 분석하여 (1) 응답자의 능력과 (2) 개별 문항(문제)의 난이도, 변별력, 추측도를 측정하는 분석 이론이다.

여기에서 문항(item)이란 설문조사의 문항일 수도 있고, 시험문제의 문제일 수도 있다. 문항 반응이론은 특정한 능력($\theta$)을 가진 응시자가 특정한 난이도와 변별력을 가진 특정 문항에 응답할 때 다음의 값을 추정한다.

시험 문제에서 정답을 선택할 확률
설문에서 특정 응답범주를 선택할 확률

(이미지 출처: https://www.slideserve.com/pavel/item-response-theory)

데이터베이스 활용 용어 정리

Thu, 12 Jan 2023 08:21:13 GMT

OLTP (On-Line Transaction Processing)

여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 엑세스하고 바로 처리결과를 돌려보내는 형태
데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미

OLAP (On-Line Analytical Processing)

정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
OLTP가 갱신위주라면 OLAP은 데이터 조회 위주.

CRM (Customer Relationship Management)

고객관계관리
기업이 고객과 관련된 내외부 자료를 분석 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정.

SCM (Supply Chaine Management)

공급망 관리
기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것.

분야별 데이터베이스

1. 제조분야

ERP : 경영 자원을 하나의 통합 시스템으로 재구축
BI : 기업의 의사결정에 활용하는 일련의 프로세스
CRM : 고객 관계 관리
RTE : 회사 전 부문의 정보를 하나로 통합

2. 금융부문

EAI : 정보를 중앙집중적으로 통합, 관리, 사용
EDW : BPR과 CRM. BSC 같은 다양한 분석 어플리케이션을 위한 원천.

3. 유통부문

KMS : 지식관리 시스템
RFID : 주파수를 이용해 ID를 식별하는 시스템.

Experience Strategy

Thu, 12 Jan 2023 05:18:11 GMT

1. 프로젝트 자가진단

현재 프로젝트 상황 이해하기 4가지 시나리오 : 2가지 관점

기준 1: 기존제품(서비스 고도화) or 신규제품(서비스 기획 개발) 기준 2: 무형의 서비스 이용자 or 유형의 제품 사용자

시나리오 1 : 기존 제품(서비스 고도화) + 무형의 서비스 이용자 Online Data-Driven UX Project 이미 운영 중인 서비스가 존재하는 상황으로 새로운 니즈를 발굴하여 변화를 기대하기보다는 내실을 강화하는 형태의 프로젝트가 될 가능성이 높다. 또한 데이터를 수집-분석-활용하는 프로세스가 이미 디지털 기반으로 구축되어졌기 때문에 기개발된 DDUX 솔루션을 활용하기 유리하다.

end-user : 디지털 서비스를 이용하는 사용자
industry : ICT 기반 앱/웹 서비스 제공자
DDUX Goal : 기존 서비스의 고도화 및 활성화
DDUX Type : DDUX design (Mainly Big Data Only)
자원배분: Experience Design > Experience Strategy

시나리오 2: 신규 제품(서비스 기획 개발) + 무형의 서비스 이용자 Online Data-Informed UX Project 새로운 서비스를 런칭하기 위해서는 고객이 경험하고 있는 이슈와 니즈에서 출발하여 사용자 중심디자인의 프로세스를 체계적으로 밟아나갈 가능성이 상대적으로 높다. 또한 디지털 기반 플랫폼 개발을 목표로, 초기 단계부터 DDUX 자체를 서비스의 코어한파트로 활용 및 정착시키기 위해, DB 구축 및 활용의 관점에서 장기적인 계획 설정이 필요하다.

end-user : 디지털 서비스를 이용하는 사용자
industry : ICT 기반 앱/웹 서비스 제공자
DDUX Goal : 신규 서비스 기획 및 성공적 런칭
DDUX Type : Data Informed UX design (Mainly Big & Small Data)
자원배분: Experience Design < Experience Strategy

시니라오 3: 기존 제품(서비스 고도화) + 유형의 제품 사용자 Offline Data-Informed UX Project 이미 시장에서 판매되고 있는 제품을 기반으로, 디지털 보조 매체를 마케팅적으로 활용하고 있는 유형에 해당한다. 따라서 DDUX를 통해 사용자들의 반응을 확인하여 제품 개선을 시도하거나, 디지털 매체에서 고객과 소통하고 가치를 전달하기 위한 활동(UX writing 등)들을 위해 DDUX 접근법을 활용하기에 유리하다.

end-user : 제품을 구매/사용하는 사용자
industry : tangible한 제품 제조업자
DDUX Goal : 기존 제품의 경험 개선 및 판매량 증대
DDUX Type : Data Informed UX design (Mainly Big & Small Data)
자원배분: Experience Design = Experience Strategy

시나리오 4 : 신규 제품(서비스 기획 개발) + 유형의 제품 사용자

타 유형에 비해 프로젝트의 자유도가 높은 편이다. 소속된 기업의 업의 형태가 정해져있을뿐 그 이외의 부분들은 프로젝트를 진행하며 고객 중심으로 구체홯여 나아가야하는 과정이 필요하다. 데이터적 관점에서는 빅데이터보다는 스몰데이터의 활용이 효과적일 수 있으나 장기적인 관점에서의 데이터 운용 계획수립이 필요하다.

end-user : 제품을 구매/사용하는 사용자
industry : tangible한 제품 제조업자
DDUX Goal : 신규 제품의 기획 및 성공적 출시
DDUX Type : Data Aware UX design (Mainly Small Data)
자원배분: Experience Design < Experience Strategy

2. 방법론/데이터 소스 리뷰

프로젝트의 방향성이 뚜렷해진 다음에 살펴볼 수 있는 소스들이다. experience strategy 단계 수행을 위한 소스들을 살펴보는 것이다.

DDUX = 본질은 데이터가 아닌 디자인. DDUX는 그럴싸하고 설득력있는 데이터 분석 과정에 그치는 것이 아닌 실질적 디자인 의사결정을 하는 프로세스 안에 있어야 한다.

디자인 프로세스는 기존의 디자인 프로세스를 따른다. DDUX는 해당 디자인 프로세스 수행과정에서 의사결정을 서포팅하는 보조 수단으로 활용된다. 따라서 각 단계의 의사결정 타이밍 직전에는 데이터에 기반한 분석 결과물들이 준비되어야할 필요가 있다.

더블 다이아몬드 전략 중 앞 단계인 experience strategy는 doing the right thing을 목표로 한다. 해결해야하는 적절한 문제를 찾고 적절한 질문에 답하는 것이다.

experience strategy 단계의 핵심은 (1) 사용자가 처한 상황과 문제를 이해하기(discover) (2) 그 중 우선하는 핵심 니즈를 프로젝트의 방향성으로 정하기(define)

따라서 experience strategy 단계에서는 산업군, 제품군, 고객군, 자사-타사구분을 최소화한 넓은 scope로 '사람'들의 행태를 descriptive하게 파악할 수 있는 데이터 소스들을 거시적으로 참고하는 것이 필요하다. -> 사람들이 어떠한 것을 경험하는 지에 대한 5W1H기반 'AS-IS analysis

예시 Google Trends https://trends.google.com/trends/?geo=US 구글 검색창에 사람들이 어떤 것을 많이 검색했는지에 대한 글이다. 2004년 이후 관심 키워드 검색 추이 분석 및 비교가 가능하다. geo=다음에 원하는 국가 줄임말을 넣으면 된다. (예: geo=KR)

API형식이나 대시보드 형식으로 원본 데이터(raw data)를 어떻게 제공하는지는 회사마다 다르다. 하지만, 데이터 소스에 접근하는 다양한 방법들을 통해 내게 필요한 데이터에서 인사이트를 도출해보자!

3. Discover 니즈 발굴

니즈 발굴 단계에서 유의할 점.

위의 다이아몬드 중 designing the right thing에서 discover 부분.

UX perspective: 프로젝트의 초기 방향성 수립 과정에 해당되며, 사용자의 pain/gain point에 대한 탐색을 주목적으로 한다. -> 결과: unstructured research findings, documentation and findings

Data Perspective: 관심 사용자의 니즈를 발굴하고 정량적으로 세분화할 수 있는 컨셉과 변수들을 탐색하고 분석하는 것을 주목적으로 한다. -> descriptive analysis, research question: what happend?

Design Methods & Toolkit

IDEO HCD Process DDUX의 discover단계는 IDEO HCD Process의 Inspiration 단계에 해당 https://www.designkit.org/methods#filter

Google Design Sprint DDUX의 'Discover'단계는 Google Design Sprint의 Understand 단계에 해당 https://designsprintkit.withgoogle.com/methodology/phase1-understand

Discover단계에서 데이터적인 접근을 하는 목적 들을 살펴보자면 아래와 같다.

분석 목표: 어떠한 일이 벌어지고 있는가에 대한 이해 (트렌드가 어떻게 흘러가는가)
분석 유형: divergent process
명확한 목적과 가설을 갖고 데이터를 의도에 맞춰 수집하기보다는 전반적인 트렌드 이해를 목적으로 진행
- 가설을 검증하는 형태의 인과관계를 분석하기보다는 기술적(descriptive)한 분석을 지향
- 산업군/제품군/자타사 구분에 한정되다보면, 타기업, 이종업계 혹은 전혀 다른 트렌드에서 발견할 수 있는 창의적 니즈를 발굴하고 분석하기가 어려울 수 있음.
- 5W1H를 기준으로, 관심 사용자 그룹이 '현재' 경험하는 다양한 맥락 상황에서 언급된 니즈 혹은 숨은 니즈를 발견하는 분석을 진행.
  - 1차적으로 최소한의 관심 주제 범주 안에서, 키워드/버즈를 중심으로 화제성이 높은 5W1H 기준 변수들에 집중.
  - 2차적으로 키워드들간의 관계성을 리뷰하여, Botton-up Process로 각 키워드들에 대한 상위 라벨링 작업 진행.
  - 3차적으로 세부 키워드들의 추세 변화를 '시계열'적으로 비교 분석하여, 변수들의 중요도 및 시급성을 판별
  - 4차적으로 해당 니즈 혹은 트렌드의 이유를 찾기 위해 니즈에 묶여 있는 관련 정량/정성 데이터 리뷰
버즈보다는 키워드 데이터가 사용자들의 실제 니즈를 파악하는 데에 유욯할 수 있음.

예를들어 중심이 되는 키워드들을 가지치기하여 raw data를 풍부하게 확보한 이후, bottom-up으로 데이터간 클러스터링을 하여 최종적으로는 5W1H 형태의 프레임으로 정리가 가능하다.

4. Define 니즈 정의

니즈 정의 단계에서 유의할 점

위의 다이아몬드 중 designing the right thing에서 define 부분.

UX perspective: 사용자의 pain/gain point들 및 현상에 대한 다양한 사실들 중 우선순위를 두고 수행할 유의미한 디자인 이슈를 확정한다. -> 결과: a final brief, new/refined HMW research questions or a strategy paper

Data Perspective: 관심 사용자의 니즈에 대해, 정성적 혹은 보조적인 방법론을 활용하여 니즈에 대한 이유와 중요도를 정량화하여 제시한다.

diagnostic analysis
research question: why did it happend?

Design Methods & Toolkit

IDEO HCD Process DDUX의 discover단계는 IDEO HCD Process의 Inspiration 단계에 해당 https://www.designkit.org/methods#filter

Google Design Sprint DDUX의 'Discover'단계는 Google Design Sprint의 define 단계에 해당 https://designsprintkit.withgoogle.com/methodology/phase1-understand

데이터 관점 이유를 좁혀나가는 과저으

분석 목표: 왜 그런 일들이 벌어지고 있는가에 대한 이해
분석 유형: convergent process
discover 단계가 고객을 이해하기 위한 리서치 과정이었다면 define 단계는 분석 내용을 기반으로 의사결정을 진행하는 단계
고객 니즈와 관련된 데이터들을 개인 수준에서 Clustering을 진행하며 insight을 도출했다면, 해당 단계에서는 팀활동으로 진행
- 분석을 잘하는 사람, 인사이트를 잘 뽑는 사람, 업계 지식이 많은 도메인 전문가 등 다양한 의견이 존재
- 하나의 현상을 대변하는 데이터에서도 다양한 시각으로 데이터를 해석할 수 있음(집단지성필요)
의사결정의 과정 중 궁금한 부분 / 혹은 의문이 생기는 현상들이 있다면, 다시 discover 단계로 돌아가서 추가 수집-분석 수행
충분한 데이터 수집-분석 의미 해석이 시도되었고, 유의미한 인사이트들이 도출되었다면, 해당 시점부터는 보다 의도성을 갖고 내외부의 환경분서과 함께 적합한 우선순위에 근거한 니즈를 확정하는 단계 수행.
디자인 의사결정 단계에서는 기존에 많이 활용되어온 HMW Question, Action Priority map, SWOT, BCG Matrix 등을 함께 활용
- 디자인 조직 내부라면 IDEO와 Google Sprint에서 제공하는 툴을 활용
- 디자인 조직 외부와 함께 진행하게 된다면, 해당 조직에서 의사결정 시 필요한 요인들 함께 고려.

다양한 니즈들, 선호-비선호 속성들에 대한 방향성 수립.

Quick Wins(적은 노력, 큰 임팩트): These are the low effort, high impact tasks that help you in the short term. It might be a quick feature request or an obvious speed improvement. 단기적으로 내부에서 해볼 수 있는 프로젝트가 많다고 한다.

Major Projects(큰 노력, 큰 임팩트): These projects will give your product a competitive advantage in the long term. They are high-effort but pay off in the end. 장기적인 관점에서 진행되는 프로젝트들. 고객 니즈에 해당하는 프로젝트들

Fill ins(적은 노력, 작은 임팩트): Simple, small maintenance work that needs to be done, but also won't gain you new customers. This is useful work to do, but it's not strategic. Do the work, but drop this work in favor of work in the upper quadrants. 시장 선점에서는 유용할 수 있으나 당장은 필요가 없는 일..

Hard Slogs(큰 노력, 작은 임팩트): This is the disaster zone. You'll often be pulling in the same money, effort, and resource to get these jobs done as the major projects - but without any of the competitve gains.

-> 니즈를 바탕으로 사용자 니즈, 디자인 이슈를 추린 후 위의 다이어그램에 뿌려보면서 어떠한 방향성을 가져야할 것인가에 대해 논의하는 과정에 유용하다.

프로젝트 실효성 점검

Mon, 09 Jan 2023 09:15:22 GMT

때로는 미련을 버려야 한다. DDUX의 원활한 진행을 위해 객관적인 시각에서 기축적된 데이터의 활용 여부를 판단해야 한다!

1. Data 수집을 위한 노가다력과 창의성

저희 팀 혹은 회사에 활용해볼만한 데이터 자체가 없는 것 같은데요? (넘 공감된다. 공감버튼 하루에 세 번 씩 눌러줄 수 있음..)

'어떤 데이터를 써야하지?' '어떻게 데이터를 수집해야하지?'

가장 많이 발생하는 오류 중하나는 바로 적합한 프로젝트의 설계없이 데이터 수집을 먼저 걱정하는 것이다. 그러나 전반적인 기획이 정립이 되어야 한다. 어떠한 목적을 달성하겠다라는 목표가 생기기 때문이다. 만약 기획이 없이 데이터 수집을 먼저 걱정하고 있다면 그 이유는 아래의 확률이 높을 것이다...

(1) Top-down으로 데이터 관련 UX 프로젝트 미션을 받았다. (2) 일단 DDUX 관련된 업무를 시작했는데 어디에서부터 어떻게 뭘 해야할 지 모르기 때문이다.

데이터에 기반한 프로젝트를 하고 싶다면, 프로젝트 전반의 계획 수립과 문제 정의를 통한 관심 가설을 확정해야 해결방안을 모색할 수 있는 것이다.

계획 수립과 문제 정의가 되었다면 그 다음에 어떤 데이터를 사용할 것이며 어떻게 모을 것인지에 대한 고민을 할 수 있다. 왜냐하면 프로젝트 및 데이터 관련 계획이 세워지고 난 다음에 기나긴 데이터 확보 및 정제가 가능하기 때문에...

데이터 확보와 관련한 것에서 가장 유명한 사례인 스탠포드 Artificial Intelligence Lab과 Vision Lab을 이끌고 있는 Fei-Fei Li 교수의 예가 있는데, 그 분은 컴퓨터 비전 연구의 발전을 위해 크라우드 소싱 기술을 적극적으로 활용하여 세계 167개국 약 5만 명의 사람들이 10억장의 이미지를 수작업으로 분류하고 레이블링 하는 작업을 수행하였다. 2009년 약 2만 2천여개의 범주로 분류한 1500만장의 이미지 DB를 완성하여 해당 DB가 딥러닝 기술에 큰 기여를 했다.

2021년 쯤부터 많은 논의가 있었던 마이데이터, 그 중 정보의 민감도가 높은 건강과 관련되어 있는 사례가 있었다. 위의 자료는 미국의 유전자 검사 관련 시장의 성장도를 보여주는 것인데 2019년 기준 2600만명 이상이 유전자 기반 조상 찾기 상품을 통해 검사를 진행하였다. MIT 테크놀로지리뷰에 따르면 향후 2년 안에 전 미국 인구의 30% 정도인 1억명 정도가 해당 검사를 진행할 것으로 예상한다고 한다. 이 상품에서 주목해야하는 것은 단순 조상 찾기 서비스뿐만 아니라 수집 가능한 데이터를 바탕으로 다양한 파생상품으로의 확장이 가능하다는 잠재성이다. 결국, 타 기업이 접근하지 못하는 데이터를 확보하느냐가 미래 산업의 경쟁력이 될 가능성이 높은 것이다.

이러한 흐름에서 DDUX에서 창의적인 부분, 인사이트가 될만한 부분은 남들이 범접할 수 없는 새로운 데이터를 발굴-수집-생산하여 활용해 디테일에 집중하는 것이라고도 해석할 수 있다.

2. data의 신뢰도와 타당도

데이터가 있긴한데 믿을만한가?!

신뢰도(Reliability)

측정 및 수집에 의한 데이터가 얼마나 일정하게 산출되는지를 의미. 통계적 방법에 의해 신뢰도를 수량적으로 계산 가능.

안전성: 동일한 방법으로 반복 측정할 경우의 일관성
동등성: 동일한 대상을 다른 방식으로 측정할 경우의 일관성
동질성: 측정 및 수집 방법을 구성하는 하부 요인간의 일관성

타당도 (validity)

실제 수집 및 측정하고자하는 개념을 정확하게 측저하는지를 의미

내용 타당도: 측정하고자 하는 내용을 잘 반영하는지의 정도
준거 타당도: 기존재하는 특정 표준 및 준거와 관련된 정도
구성 타당도: 측정 개념에 대한 하부 요인들의 반영 정도
수렴/변별 타당도: 선험적으로 추정한 관련성이 있고 없음에 대하여 실제 변인들 간의 상관관계로 계산된 정도

신뢰도와 타당도의 관계

신뢰도는 과녁에 잘 모여있는 정도를 의미. 타당도는 과녁의 중앙에 집중된 정도를 의미.

실무적인 관점에서는 신뢰도보다는 타당도가 조금 더 중요할 수 있다. 정확한 데이터를 수집한다하더라도 잘못된 방향성을 가진 데이터 수집은 의미가 없을 수 있기 때문이다.

내적 타당도와 외적 타당도

내적 타당도 (Internal Validity)

내가 계획한 연구의 설계가 의도한 것을 정확하게 측정하고 있는 것인가?
기대하는 결과의 원인이 될 것이라 예상하는 변수 이외의 다른 변수들의 효과에 의해 해당 결과가 도출된 것인지 아닌지를 나타내는 지표.
일반적으로, 데이터를 측정 및 수집하는 단계에서 핵심이 되는 변수를 발굴하고 그 관계성을 잘 검증했는지를 내포함.

내적 타당도는 실무자들에게 타당도가 좀 더 중요하게 여겨질 수 있는 것과 유관하다.

외적 타당도 (External Validity)

내가 도출한 데이터 분석의 결과가 실제 상황에서도 일반화될 수 있는 것인가?
도출한 변수들 간의 관계성, 다시말해 분석 결과를단순 분석 맥락뿐만 아니라 다른 상황, 사람, 집단, 시간대에서도 유효하게 활용할 수 있는지를 나타내는 지표.
일반적으로, 데이터를 측정 및 수집하는 단계에서, 계획한 분석 맥락이 기대되는적용 결과 맥락을잘 대표하는지를 내포함.

데이터에 기반하여 좋은 UX를 만든다는 것은 세상에 없는 완벽한 데이터를 활용하는 것이 아닌, 상황에 맞게 적응하는 것으로 목적에 따라 유연해져야한다.

3. data의 연결성 및 표준화

데이터를 모으고 있긴한데 분석해보니 별다른 인사이트가 없는 것 같다면...?

중요하다해서 모아봤더니 인사이트가 없는 것 같고 예전에 있던 데이터도 보니까 인사이트가 딱히...

데이터 관련 프로젝트를 계획하고 수행하는 과정에 가장 많이 봉착하게 되는 상황 중 하나는 기존에 내부에 쌓아두었거나 자연발생적으로 쌓이고 있는데이터들도 있다는 점이다.

내부 자원의 효율적인 차원에서 의사결정권자들은 (1) 우리가 기존에 잘 쌓아둔 데이터를 활용할 방법은 없는지, (2) 더 극단적으로는 이미 있는 데이터부터 활용해보라

라는 두 제안을 하게 될 것이다. (공감된다.....)

손에 망치를 들고 있으면, 온 세계가 못으로 보인다. 즉 내가 갖고 있는 데이터를 기준으로 문제를 해결하려고 한다면 당장의 비용은 절감될 수 있더라도 궁극적으로 해결하려는 문제에는 도움이 안 될 수도 있다!

프로세스

데이터 및 디지털 트랜스포메이션 트렌드 확인
데이터 관련 프로젝트 실행 계획 수립
내부 데이터 현황 파악
가용한 데이터를 활용한 전략 수립
추가적으로 필요한 데이터 수집

데이터 연결성 및 통합성 이슈의 원인

동시다발적인 정보시스템 개발

최근의 정보시스템 개발 프로젝트는 시스템간 상호연관성이 증대되어 단위 시스템 위주의 개발보다는 관련 정보시스템을 동시에 개발하는 경향이 뚜렷하다. 이러한 개발 환경 하에서 전사적인 데이터 표준 정책 없이 단위 시스템 위주로 표준 정책을 수립하여 단위시스템의 업무 기능 구현에 초점을 밪추어 개발 프로젝트가 진행되었다.

전사 데이터 관리 마인드 미형성

데이터에 관리 주체가 단위시스템의 개발자, 운영자 중심으로 이루어져 있어 단위 업무 지원에 초점을 맞추고 있다. 최근의 정보화 요건들은 단위 시스템의 데이터뿐만 아니라 여러 시스템의 데이터를 복합적으로 활용하는 경우가 많으므로 전사 데이터를 체계적으로 관리하고자 하는 마인드 형성이 필요하다.

전사 데이터 관리 인력 부재

정보시스템 개발 단계에서는 개발 수행사의 품질 관리 조직을 통해 표준에 대한 관리가 이루어진다., 유지 보수 단계에서는 개발 단계에서 수립된 표준과 표준 준수 관리에 대한 역할을 맡은 전문적인 데이터 관리 인력을 활용치 않고 개별 유지 보수 인력들에 의존한다.

전사 데이터 표준 관리 도구 부재

데이터 표준 관리에는 데이터 표준, 데이터 표준 준수 체크, 데이터 표준 조회 및 활용 등 많은 자동화된 시스템의 지원을 필요로 한다. 정보시스템 개발 시에는 수작업으로 데이터 표준의 적용, 준수확인 등을 수행했으나 운영 단계에서 수작업에 가까운 표준 관리 방법은 많은 애로사항이 존재한다.

데이터 표준화

시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미.

기존의 데이터 적재 및 관리 과정의 경우, DDUX에서 필요로 하는 고객 혹은 제품 중심의 표준화가 진행되지 않은 경우가 대부분이며, 내부 데이터 관리의 측면에서 인사이트를 뽑을 수 있는 데이터 자체의 종류와 양이 한정되어 있을 수 있다. 따라서 DDUX를 활용하기 위해서는 데이터 표준화 단계에서부터 '사용자'와 '제품'을 잘 아는 전문가가 함께 협업하여 효율과 효과를 높여야 한다.

Big-bang / phased 접근

Tue, 27 Dec 2022 09:23:48 GMT

연말에 급한 일들을 처리하다보니 이걸 제 시간에 못 끝냈다. 그러나 80%는 했으므로 A+은 아니지만 통과 ^^*

조직 내에서 새로운 시도를 하는 것에서 가장 큰 효과를 주는 것은 설득이다. digital transformation 혹은 data science의 경우에도 해당 변화를 유도하기 위해서는 끊임없는 내부 설득을 필요로 하고 있다. (너무 공감된다...) 좋은 설득을 하기위해서는 자원투입, ROI, 돈 그리고 사람의 이슈에 대한 충분한 설득력이 있어야 한다. 좋은 퀄리티를 빠르고 저렴하게 만들어 수익창출을 잘 할 수 있다면? 왜 안하겠는가!

특히 신제품 개발 과정에는 많은 이해관계자들이 함께 하며 그들을 설득하기 위해서는 디자인 아웃풋에 대한 절차적 정당성과 함께 타당도와 신뢰도가 기본이 되어야 한다.

이러한 새로운 시도를 하기 위한 접근 방법으로 big-bang approach와 pahsed approach가 있다.

big bang approach

all at once strategy (한 번에 다 도입) 새로운 방법론이나 시스템을 도입할 때 치밀한 사전 준비 및 계획 하에 한 번에 전환을 시도

장점: 전환 과정의 전체 유지관리 비용이 낮음, 즉각적 변환에 따른 높은 ROI 기대.
단점: 도입 과정에서 실패 상황에 대한 위험성이 높음, 불가피한 shut-down 타이밍 발생.

Phased Approach

More of a slow burner approach 전환 및 도입과정에서 핵심 영역에서부터 부수적인 영역의 모듈화된 도입을 시도.

장점: 전환 과정의 붕괴 발생 확률이 낮고 대응에 용이함, 도입 후에도 수정 및 보안을 통한 고도화 용이.
단점: 전체 비용의 힘은 상대적으로 큼,

프로세스 기획

Wed, 14 Dec 2022 00:10:56 GMT

https://uxdesign.cc/how-to-solve-problems-applying-a-uxdesign-designthinking-hcd-or-any-design-process-from-scratch-v2-aa16e2dd550b

1. discover

UX perspective : 프로젝트의 초기 방향성 수립 과정에 해당되며, 사용자의 pain/gain point에 대한 탐색을 주목적으로 한다. output : unstructured research findings, documentation and findings 발산형 단계
data perspective: 관심 사용자의 니즈를 발굴하고 정량적으로 세분화할 수 있는 컨셉과 변수들을 탐색하고 분석하는 것을 주목적으로 한다. descriptive analysis research question: 'what happened?'

2. Define

UX perspective: 사용자의 pain/gain point 들 및 현상에 대한 다양한 사실들 중 우선순위를 두고 수행할 유의미한 디자인 이슈를 확정한다. output: a final brief, new/refined HMW research questions or a strategy paper 수렴형 단계
data perspective: 관심 사용자들의 니즈에 대해, 정성적 혹은 보조적인 방법론을 활용하여 니즈에 대한 이유와 중요도를 정량화하여 제시한다. diagnostic analysis research question : 'Why did it happened'

3. Develop

UX perspective: 수렴된 디자인 이슈를 해결하기 위해, 발산적 아이데이션을 거쳐 보다 사용자의 경험을 최적화해줄 수 있는 솔루션을 탐색한다. output : a set of ideas, a strategic thesis, a concept, first design drafts, a vision or first prototypes.

data perspective: 관심 디자인 이슈를 해결해줄 수 있는 최적의 솔루션들에 대한 경험 품질적 속성들을 탐색하고 세분화 및 정량화 과정을 수행한다. predictive analysis research question : 'what will happend?'

솔루션 기획 및 구체화 단계

4. Deliver

UX perspective: 최적의 솔루션을 tangible한 형태로 만들고, 해당 프로토타입을 활용하여 실질적인 이슈 해결의 효과성을 평가한 후 최종 의사결정을 한다. output: final product or the solution and answer to your original challenge.
data perspective: 프로토타입에 대한 고객들의 직접적 혹은 간접적인 평가를 수행하며, 이를 바탕으로 다음 action plan의 방향성을 도출해낸다. perspective analysis research question : 'what should I do?'

DDUX = 탐색 / 확증과 확산 / 수렴을 반복한다. DDUX design process 과정은 데이터에 기반한 탐색적 분석과 확증적 분석, 확산적 사고와 수렴적 사고의 반복이라고 할 수 있다.

DDUX 관점의 데이터 활용 방식 정의

Thu, 08 Dec 2022 09:12:53 GMT

데이터 유형 / 유형별 특성

DDUX적 접근에서 말하는 데이터는 무엇인가?

데이터 : 분석 및 활용을 위해 디지털화가 가능한 자료

관점과 특성에 따라 데이터를 구분한느 방식과 차원은 다양하다.

숫자로 표현 가능 유뮤 : 정량적 데이터 / 정성적 데이터
원본 데이터로 환원 가능 유무: 가역적 데이터 / 비가역적 데이터
형태가 있고 연산이 가능한 지 유무: 정형 데이터 / 비정형 데이터
데이터 간 연속성 유무 : 이산형 데이터 / 연속형 데이터
자유롭게 활용 가능 유무 : 내부 데이터 / 외부 데이터

변수

개체(item) : 분석자가 관심을 갖고 관찰 혹은 연구하려는 대상, target User-Customer 또는 특정 제품 및 서비스
요인(factor) : 개체가 갖고 있는 다양한 태도-행동-가치 특성 중 분석자가 관심을 갖는 특성, Target User-Customer의 사용 특성 또는 제품의 편의적 특성
변수(Variable) : 요인을 구성하고 있는 하위 속성으로 관찰 및 측정이 가능한 특성, 고빈도 사용자, 장기 사용자 똔느 제품의 무게, 배터리 지속 시간 등

원인(X) -> 결과(Y) 독립변수 설명변수 예측변수

종속변수 반응변수 결과변수

DDUX에서는 일반적으로 사용자 및 소비자가 왜 ㅎ해당 제품을 선호하는 지에 대한 답을 찾고 이를 바탕으로 제품 기획 /개발/개선을 단계적으로 수행하게 된다.

물론 연구가설에 따라 차이가 존재하지만, 원인에 해당하는 변수는 앞서도 언급되었던, 고객이 지닌 특정화 될 수 있는 개인차 속성들과 제품이 지닌 경험품질적인 차이 속성들이 포함될 수 있다.

Scale(척도) : 내가 수집하고자 하는 데이터의 속성을 파악할 수 있다. 척도의 특성을 이해해야 수집-분석 과정에서 적합한 툴과 테크닉을 쓸 수 있다. 변수에 대해 정량화한 속성의 '단위'

범주형 자료

명목척도: 범주의 구분을 목적으로 하는 척도, 정량적 표현은 가능하나 수량적 의미는 없음 (예: 혈액형)
순위척도: 속성에 따른 순위를 가늠하게 하는 척도, 순위 자체를 특정화할 수는 있으나 의미 없음(예: 순위, 1등이 2등보다 두 배 잘했다고 할 수 없음.)

연속형 자료

등간척도: 속성의 양적 차이를 균일한 기준으로 평가하는 척도, 있고 없음이 아닌 높고 낮음 혹은 많고 적음(섭씨)
비율척도: 등간 척도의 개념에서 절대 영점 개념이 추가된 척도, 존재 유무를 포함한 척도(거리, 무게)

DDUX = 제품에 대한 고객 선호 이유 탐색 DDUX의 목적은 특정 변수로 분석 가능한 고객에 대해 특정 변수로 분석 가능한 제품 사이의 관계를 밝히는 것

데이터 수집 / 정제 분석 과정

GIGO(Garbage In Garbage Out)

DDUX 접근 역시 일반적인 데이터 사이언스의 프로세스를 따른다. 다만, 관심 연구 주제 및 프로젝트 방향성에 따라 일부 단계가 생략 또는 추가될 수 있다.

Frame the Problem

리서치 연구 목적에 따라 문제를 정의하고, 관심 변수를 활용하여 프로젝트의 방향성을 결정하는 단계
프로젝트의 방향성에 따라 크게는 탐색적 분석과 확증적 분석으로 구분할 수 있다.

탐색적 분석

데이터로부터 패턴을 찾고 인사이트를 도출하는 귀납적 접근 방식
주로 프로젝트 초기 방향성 수립을 위한 가설 수립 / 변수 탐색 단계에서 많이 활용
기술적 통계분석을 주로 활용
수집 -> 시각화/탐색 -> 패턴화 -> 인사이트 발굴

확증적 분석

변인간 관계성을 기반으로 가설을 설정한 후 해당 가설을 검증하는 연역적 접근방식
주로 프로젝트 중후반 명확한 변수간의 관계성 검증을 통해 결과를 도출하는 단계에서 활용
추론적 통계분석을 주로 활용
가설설정 -> 수집 -> 통계분석 -> 가설검증

Collect the raw data

프로젝트의 방향성 및 분석 유형에 대한 설계가 완료되었다면, 실질적인 데이터 수집 단걔를 수행
수집하고자 하는 데이터에 대한 탐ㅎ색 및 선정 과정은 전체 프로젝트의 성패를 좌우할 만큼 중요
- 데이터 수집 가능성고려
- 데이터의 개인 정보 보호 / 저작권 이슈 등에 대한 사전 점검 필수
- 데이터의 신뢰도 / 타당도 수준 고려
- 데이터 수집의 비용 수준 고려
수집하고자 하는 데이터 선정이 완료되면, 해당 데이터의 효과적인 분석 및 활용을 위해 데이터의 연결성 고려
- 다양한 데이터 소스를 활용하여 데이터를 수집할 경우, Single-view of user or product이 이슈가 될 수 있음.
DDUX의 성격이 플랫폼화된 서비스와 연관된다거나 주기적인 수집 및 분석이 필요한 경우라면, 수집 단계에서부터 체계적 저장 및 관리를 위한 DB화 계획 수립 필요

Process the data 모든 데이터 관련 프로젝트에서 간과되는 부분은 데이터 활용 이전 단계, 특히나 데이터를 분석 가능한 수준으로 준비하는 과정인 정제 과정에 들어가는 시간과 자원의 수준이다.

특히나 1회성 수준의 단순 intelligence 발굴 DDUX분석 프로젝트가 아닌, 예측모형을 통해 실시간 인사이트를 도출해 나가거나 플랫폼 형태의 서비스와 결합하여 고도화 과정을 수행하는 프로젝트의 경우에는, 데이터를 컴퓨터가 읽을 수 잇는 형태의 데이터로 준비하는 과정의 중요성이 더욱 증대된다고 볼 수 있다.

1) select the data : 수집된 데이터들 중 일부의 subset을 선정하는 단계 2) preprocess the data : 선정된 데이터에 대해 분석 가능한 형태로 조직화하는 단계 3) transform the data : 분석 및 활용의 방향성에 맞춰 데이터를 변환하는 단계

통계분석의 목적에 따라 크게는 두 가지 분석 대유형(기술적 통계분석, 추론적 통계분석)이 존재
분석 목적에 따라 적합한 방식을 활용할 수 있으며, 두 분석 방식의 중요도에는 차이가 없음.

기술적 통계 분석

수집한 데이터를 정량적으로 정리/요약하는 방법
집중 경향성과 분산도를 다룸
데이터가 나타내는 전반적 패턴에 대한 이해 가능

추론적 통계 분석

수집된 데이터로 모집단의 특성을 추측하는 방법
표본집단이 모집단을 얼마나 대표하는지를 다룸
모수통계: 분포특성 및 모수값을 안다는 가정 필요
비모수 통계: 모집단의 모수성 가정하지 않음

Perform in-depth analysis Gartner의 분석 성숙도 모델에 기반한 분석 기법 분류

descriptive analysis : 설명적 분석, 과거 혹은 현재의 현상에 대해 다양한 기준으로 서술하는 방법
diagnosis analysis : 진단적 분석, 특이한 현상의 발생 원인에 대해 탐색하는 방법
predictive analytics : 예측적 분석, 현상의 향후 발생가능성에 대해 예측하는 방법
prescriptive analytics: 처방적 분석, 보다 actionable한 관점에서 현상 개입을 고안하는 방법

DDUX = 사용자에 대한 심리-통계학적 이해

데이터 시각화

차트, 그래프, 맵 등의 시각 요소를 사용하여 데이터가 나타내는 추세, 이상값 및 패턴을 확인하고 이해하기 쉽도록 전달하는 방법
의사 결정 과정에서 분석 결과에 대한 명확하고 효과적인 공유를 주목적으로 함.
데이터 왜곡이 없도록 사실 그대로를 전달해야 함.
데이터가 가진 속성에 따라 효과적인 시각화 방법을 고민해야 함.

DDUX관점의 제품 정의

Tue, 06 Dec 2022 01:35:34 GMT

01. 경험 맥락 중심 제품 세분화

제품을 소비하고 사용하는 소비자, 사용자를 중심으로 한 경험 맥락을 분석하고 이해하려는 노력을 통해 제품을 기획하고 개발하려는 과정에서 사람들이 좋아할 만한 선호 속성들을 도출하려는 노력들이 있어왔다.

선호 속성 도출 -> 선호 속성을 기반으로 제품 기획/개발 -> 출시 -> 성공 or 실패

소비자 혹은 사용자에게 제품을 통해 어떤 가치를 제공할 수 있는 지를 파악하기 위해서는 제품에 대한 선호-비선호의 1차원적 접근이 아닌, 언제-어디서-누가-어떻게-무엇을-왜 선호했는지에 대한 맥락 정보의 구체화가 필요하다. (이를 통해 새로운 니즈 및 디즈를 발굴하는 데에 도움을 받을 수 있다.)

니즈 : 명시적으로 언급된 니즈, 말해지는 부분 디즈 : 행동을 통해 유추할 수 있으나 직접 말하지 않는 부분

그러나 경험 맥락의 구체화 시도는 조직 내에서 쉽지 않다. 이유:

구체화 작업은 시간, 자원, 고민을 많이 필요함.
가시적으로 일했다는 표도 잘 나지 않고 인정받기도 어려움.
내부, 외부적인 이해 관계에 상충됨. 등...

그러나 DDUX는 시급한 일이라기보다는 중요한 일이다. 경험 맥락 중심으로 제품을 세분화 하는 노력은 제품에 대한 Frame/Label 체계를 만드는 백년지대계의 일? -> 먼 미래를 내다보는 큰 그림 그리는 일

02. 순환/복잡성 중심 접근

니즈와 디즈. 새롭고 혁신적인 컨셉 발굴을 위해서는 행동으로 발현된 소비자 혹은 사용자의 deeds에 주목할 필요성이 있다.

ICT 기술 발전에 의한 상황적 배경에 따라 니즈 뿐만 아니라 디즈에 대한 데이터 수집 및 분석을 가능하게 하여 복잡한 사용자의 패턴을 분석하기

03. 경험 맥락 중심 Data Structure

내 프로젝트 진행을 위해 어떤 것을 준비해야하는가?

거짓과 팩트를 구분하는 데이터 단계 이후 가장 중요한 작업은 해당 데이터에 효율적 수집-분석-활용이 가능한 체계(즉 데이터 structure)를 부여하는 것이다.

data->information이 되는 단계에서 structure로 구조화하는 것이다. information->knowledge는 context가 붙고 knowledge에서 insight가 되려면 판단(judgement)가 붙으며 insight에서 wisdom이 되기 위해서는 agreement가 붙고 wisdom에서 impact가 생기기 위해서는 action이 필요하다.

데이터에 체계를 부여하기 위해 고민해야할 부분은 해당 제품이 가지고 있는 객관적인 설계품질뿐만 아니라, 해당 제품을 통해 사용자가 얻게되는 경험품질의 영역에 대한 고민이 함께 진행되어야 한다. 이를 통해 추후 단계의 맥락을 고려하는 과정에서 유용한 데이터로서 역할을 할 수 있게 된다.

좋은 레퍼런스 - 사용자 경험품질 향상 가이드북(한국디자인진흥원, 2016)

한국디자인진흥원에서 공개한 사용자 경험품질 향상 가이드북의 경우 UX에 대한 정량적 지표 개발의 관점에서 유용한 자료라 할 수 있다. 정량적 접근의 측면에서!!!!

미적가치, 사용가치, 사회-감성가치라는 3가지의 UX construct에서 출발하여 하부 구성 요인에 대한 체계를 정리하고, 각각의 구성요인을 설문조사의 형태로 측정하는 과정을 통해 통합된 경험에 대한 정량화 지표 개발을 시도하였다. DDUX = 제품에 대한 분석 ‘사전’ 만들기

어떠한 가치로 제품이 framing되는 지를 정량적/정성적으로 나눌 수 있는 변수 체계화 작업 필요.

DDUX = 경험 맥락의 세분화/ 정량화

사용자의 가치판단을 기준으로 경험 맥락을 세분화하고 정량화하는 과정.

세분화와 정량화를 한다면 나의 제품과 남의 제품을 잘 수집하여 분석할 수 있는 이점을 누리고 UX적으로는 이종업계의 솔루션을 차용할 수 있는 발판이 되기도 한다.

DDUX관점의 사용자 정의하기

Thu, 01 Dec 2022 06:45:29 GMT

니즈(needs) 중심 고객 세분화

기존의 UCD(User-Centered Design UX) 접근 방식과 DDUX의 차이에 대해 이해하기 전에 UCD/UX 접근 방식의 특징에 대해 살펴보자면, 결국 핵심적인 키워드는 사용자의 경험을 최우선에 두는 공감(empathy)이라고 할 수 있다.

empathy : see their world, appreciate them as human beings, understand their feelings, communicate your understanding

-> 개인적으로 학부 때 이러한 기조로 공부를 했었지만 나는 상대방에게 정말 공감을 잘 하고 있는지에 대해 의문이 들었고...그래서 데이터 분석 공부도 하면서 시야를 넓히려고 노력했던 것 같다.

Segal, Elizabeth A., M. Alex Wagaman and Karen E. Gerdes. “Developing the Social Empathy Index: An Exploratory Factor Analysis.” Advances in social work 13 (2012): 541-560.

궁극적으로는 사회적 정의까지 가야 진정한 공감까지 간다는 것...

DDUX는 기존의 접근보다 더 세부적인 차원에서 고객이 처한 상황에 대한 이해를 시도한다. 고객이 처한 세부적인 상황 (내부적 개인차, 외부적 환경차)에 대해 니즈의 관점에서 정량적이고 증거 기반의 데이터를 활용하는 것을 목표로 한다. 이를 통해, 디자이너는 기업 내외부의 상황과 입장차를 극복하고, 고객 경험ㅇ르 중심으로 조직내 의사결정을 진행할 수 있는 설득적 과정을 수행해야 한다.

DDUX는 사용자 니즈의 정량적 세분화를 하는 것으로 기존의 UX/UCD 접근의 한계를 극복하기 위해서는 _고객의 니즈자체를 세분화하고 그에 영향을 주는 내외부 변인들에 대한 정량적 분석 및 활용이 필요_하다.

문제(problem) 중심 접근 (problem-centric)

문제를 잘 정의하는 것 : 타겟으로 하는 사용자의 니즈 파악, 그들의 painpoint, gainpoint에 대한 제대로된 이해가 바탕이 되어야 한다.

tangible한 솔루션을 만드는 것도 중요하지만 그 앞단에 필요한 부분이 고객을 이해하고, 고객의 입장에서 문제가 무엇인지 정의하는 것이 중요. 문제를 세분화하는 것은 social empathy처럼 그 소비자가 처한 상황을 인지하는 것.

디자인 씽킹 프로세스에서는 크게 두 개의 단계를 강조한다. https://medium.com/digital-experience-design/how-to-apply-a-design-thinking-hcd-ux-or-any-creative-process-from-scratch-b8786efbf812

problem-centric 첫 번째 다이아몬드는 문제를 정의하고 이해하는 단계, 두 번째 단계는 해당 문제에 대한 솔루션을 구현하는 단계이다. 그러나 현실에서는 한정된 시간과 자원으로 첫번째 단계에 많은 자원투입이 이루어지지 못한다.

Design Positioning 그러나 문제 정의 단계를 중시하는 DDUX적인 접근을 통해 사용자의 니즈에 대한 정량적인 세분화를 시도한다면, 제품의 기획 및 디자인 과정에서 왜 그 제품을 만들어야 하는지에 대한 추측을 넘어서는 명확한 근거를 마련할 수 있다.

Persuasive Power 제품을 기획하고 사용자를 이해하는 과정에서 왜 이 제품이 의미가 있는지에 대해 설득력이 올라가기 마련이다. 스웨덴의 멜라르라덴 대학의 킴모 에릭슨의 숫자-수학의 설득력에 대한 냉ㅇ으로 실험 참가자에게 권위있는 학술지에서 뽑은 후 2개의 초록을 읽고 평가하게 했는데 논문과 관계없는 수학 공식을 넣었을 때 수학공식이 없는 논문보다 있는 논문을 더 좋게 평가했다. 거짓말을 하라는 것이 아니라, 숫자로 소통할 수 있으면 의사결정에서 더 좋은 결정을 내릴 수 있다. -> 숫자력 (뭔가 일본의 어휘같은 느낌이 든다...) 제품 기획 및 런칭을 위한 조직내 의사결정 과정에서 가장 중요한 부분은 내부설득이라고 할 수 있으며, DDUX는 디자이너/기획자/제품 개발자가 보다 설득력 있는 의견 개진을 위한 근거를 마련하는 데에 도움을 줄 수 있다.

DDUX의 가장 큰 장점은 디자인 의사결정 과정에서 세분화된 고객 이해를 통한 적확하고도 신뢰도와 타당도가 높은 의사결정의 기틀을 마련할 수 있는 것이다.

니즈 중심 Data Structure

그래서 내 프로젝트의 진행을 위해 무엇을 준비하면 좋은가?

니즈 중심 고객 세분화 변수 발굴을 위한 능력으로는 관찰력+공감력+정보력+창의력이 있다. 변수간 관계 설정 및 MECE한 전체 데이터 체계 수립을 위한 구조화 능력

소비자/사용자를 특정하기 위한 과정은 Data-Driven이 아닌, Data-informed 또는 Data-Aware의 영역이다. 너무 숫자에 집중하기보다 숫자 외의 다양한 맥락들을 모두 고려하는 것을 의미한다. 바꿔말하면, 방법론적 Rigorous함보다는 새로운 시각에서 고객의 니즈를 발굴 및 세분화/구조화하는 Flexible한 접근이 요구된다. (류 교수님이 말씀해주셨던 것처럼 유저에 대한 인사이트를 찾기 위해 다양한 방법론을 사용해보는 것..)

하나의 고객을 특정하기 위해서 고객의 행동을 바탕으로 고객을 세분화하고 세분화하는 기준으로 다시 타게팅을 하여 성과를 타케팅하는 것은 마케팅 중심의 고객 세분화에서 많이 사용되었다. DDUX에서는 니즈를 발굴하는 것이 더 핵심적인 것일 듯. 도메인에 대한 전문성이 요하는 작업이기도 하다. 어떻게 변수가 되어 특징지을 수 있는지, 내 제품을 사용하는 사용자들의 특성을 갖고 있고 어떻게 정량화할 수 있는지를 측정하는 것. 이 과정에서 구조화된 사고를 할 수 있다. 데이터를 수집하는 것이 아니라, 구조화된 시각으로 수집하고 해석하고 관리하는 것.

descriptors of customers by 변수 (여기에서의 변수는 도메인 지식 등 인사이트를 통해 정량화된 지표)

변수에는 크게 요약변수와 파생변수가 있다. 요약변수는 수집된 정보를 분석 목적과 방향성에 맞게 종합한 변수이며 파생변수는 특정조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수를 의미한다. 1차 패턴을 기반으로 만든 경우가 많아 파생변수는 새롭게 라벨링된 형태라고 볼 수 있다.

CRM 고객 데이터마트 관리 관점에서 많이 언급되는 구분으로 행동의 결과를 수집하여 분석하는 방식이 주로 활용된다. 보다 쉬운 비유로는 수집 및 접근이 용이한 DB 상의 데이터를 통해 고객의 세부유형을 만들어가는 bottom-up 방식으로도 볼 수 있다. 변수를 중심으로 패턴을 분석하고 패턴에 따라 사람을 유형화하는 것이 top-down 방식, 그러나 행동패턴을 여러 프레임에서 분석하는 탑다운 방식과 갖고 있는 데이터 툴 셋 안에서 바라보는 바텀 업을 같이 사용하면 좋을 것이다.

MECE(Mutually Exclusive Collectively Exhaustive의 약자, 상호배제와 전체포괄, 미씨)는 항목들이 상호 배타적이면서 모였을 때는 완전히 전체를 이루는 것을 의미한다. 이를테면 '겹치지 않으면서 빠짐없이 나눈 것'

바텀업 접근 방식의 한계는 용이하게 수집된 데이터를 활용하여 최선의 특정화를 해야한다는점이며 아쉽게도 사용자 소비자 전체 경험을 특정화하고 이해하는 설명력의 수준을 장담할 수 없다. 따라서 탑다운 접근방식 역시 상호보완적인 관점에서 수행되어ㅕ야 하며 DDUX는 이러한 새로운 변수를 발굴하는 작업의 관점에서 이해되어야 한다. 탑다운접근을 위해 또 다른 데이터를 활용한 바텀업 접근 시도가 필요할 수 있음.

따라서 프로젝트에서 타겟으로 하는 사용자 및 소비자는 누구인지 정의하는 것이 중요하다. 이것은 인구통계학적 정보나 구매데이터 기준이 아니라 어떤 생각을 갖고, 어떤 라이프스타일로, 어떠한 역할을 수행하며 살아가고 있는지를 특정화할 수 있는 변수들을 선행적으로 발굴하고 이에 따라 기존의 데이터 활용여부와 새로운 데이터 수집에 대한 자원 투입 여부를 결정할 필요가 있다.

DDUX = 고객 니즈 기반 세분화 변수 발굴 업종과 프로젝트 주제에 따라 잠재적 사용자 및 소비자를 구체화할 수 있는 세분화 체계 발굴이 필요.

DDUX의 마인드셋

Mon, 28 Nov 2022 08:05:54 GMT

S-R Model SOR Model

Stimuli(환경자극) - Organism(유기체의 내면) - Response(행동반응) 환경자극은 경험 디자인의 오브젝트 유기체 = 경험, 경험을 하는 소비자, 사용자, 고객 행동반응 = 매출, 클릭 등 제품경험 맥락 하의 행동들

Human-Product Interaction

Human : 사람, 이용자, 사용자, 소비자, 고객 : 매순간 태도형성-태도수행의 선택을 하는 의사결정 경험의 주체 Product : 컴퓨터, 시스템, 제품, 서비스, 상품 : 의사결정 경험에 영향을 주는 외부 객체 Interaction : 이용, 사용, 구매, 공유, 경험 : 의사결정 과정 맥락과 그 경험에 수반되는 결과

사용자는 의사결정자(decision-maker)이다.

DDUX 관점에서 사용자 재정의 사용자를 왜 의사결정자로 간주해야하는가?

UX + 행동경제학 인간의 실제 행동을 심리학, 사회학, 생리학적 관점에서 바라보고 그로 인한 결과를 규명하려는 경제학의 한 분야. 행동경제학은 합리적인 인간을 부정하는 데서 시작하지만, 그렇다고 인간을 비합리적 존재로 단정 짓는 것은 아니다. 다만 온전히 합리적이라는 주장을 부정하고, 이를 증명하려는 것이 행동경제학의 입장이다. 경제주체들이 제한적으로 합리적이며 때론 감정적으로 선택하는 경향이 있다고 주장한다. 어떤 대상을 소유하거나 소유할 수 있다고 생각하는 순간, 그 대상에 대한 애착이 생겨 객관적인 가치 이상을 부여하는 보유효과를 비롯, 손실회피성, 쌍곡형 할인, 닻내림효과, 심리적 회계, 프레이밍 효과 등이 행동 경제학의 주요 용어이다. [네이버 지식백과]

아담 스미스 이래 경제학은 많은 이론적 발달이 있었음에도 실제의 경제에서 현시로가의 괴리를 보였다. 이는 사람이 갖는 여러 사회적, 인지적, 감정적 이유와 편향에 의해 일어나는 심리학적 현상에 관련이 있다고 보았다. 특히 실험 심리학의 발달이 행동경제학의 발전에 깊은 관련이 있는데 이상적인 경제인을 전제로 한 종래의 경제학 모델이 실제에서 맞지 않는 이유를 다양한 인간의 심리에 관련된 실험 연구를 통해 새로운 모델을 제시하였다. 대니얼 카너먼은 행동경제학의 발달에 대한 공로로 2002년 노벨 경제학상을 수상했다. 리처드 탈러는 행동경제학을 연구하여 2017년 노벨 경제학상을 수상했다.[위키피디아]

제품은 '개입(intervention)'이다.

많은 방법론들이 난무하는 가운데 이 방법론을 통합하고자 하는 학제의 시도가 있음. 행동에 개입하고 실시간으로 사용자의 사용맥락에 개입하기 위한 연구들이 진행되고 있다.

설득적 기술은 사용자의 태도, 의식, 행동을 자연스러운 설득 과정을 통해 바꾸는 기술을 의미한다. 2002년 스탠포드의 포그 교수에 의해 제안된 용어로 여기에서의 기술은 모바일 미디어나 소셜미디어와 같이 컴퓨터를 통한 미디어를 지칭하지만, 사실 전통매체를 포함한 각종 환경, 사물들에서도 기술의 범주에 포함시킬 수 있어 대안적인 설득 커뮤니케이션 개념으로도 많이 활용되고 있다. 낮은 동기수준에서는 스파크 수준, 높은 동기수준과 낮은 능력수준에서는 역량 강화를 위한 facility를, 높은 동기수준과 높은 능력수준에서는 기술적인 도움이 없어도 해결할 수 있으므로 reminder, 시그널로 사용자를 설득할 수 있다는 것이다. 이 이론은 최근에는 잘 쓰이는 이론은 아니라고 한다. 디자인 분야에서는 Design for Behaviour Change(DfBC)라는 키워드로 비슷한 논의가 진행되어 오고 있다. 전반적ㅇ로 최근의 트렌드는 단순히 최적의 경험을 제공하는 것뿐만 아니라, 그경험을 통해 사용자의 태도와 행동을 긍정적으로 변화시키는 것까지를 목표로 한다. 다양한 담론들의 포지셔닝.

인간의 행동을 정하는 선행요인들. 그 선행요인들을 개발자, 기획자, 디자이너가 조작할 수 있는 부분이 있다면 개입할 수 있는 것. DDUX는 맥락에 맞는 맞춤화된 기능들을 주고 피드백을 주고받는 것. product = intervention for change 즉, DDUX에서 제품-서비스는 의사결정 순간에 개입하는 외부 자극으로 간주.

데이터는 '증거(Evidence)'이다.

DDUX관점에서 데이터를 재정의해야한다. life-logging & digital : quantified self, building a personal #omics profile

고객이 만들어내는 취향, 선택, 태도와 관련된 데이터. 소비자를 특정하거나 제품 속성과 소비자가 갖고 있는 특성을 연결시킬 수 있는 데이터의 소스로도 활용할 수 있다. 특히 헬스 분야에 특화되어 있다고 볼 수 있다.

자신의 행동을 트래킹하여 건강을 관리하는 것에 그치지 않고 그들의 일상을 로깅하며 다양한 개입(intervention)을 모색하는 것. 극단적으로는 Feltron이라는 디자이너가 매년 발간했던 life-logging annual report처럼 사용자들의 일상 맥락에 대한 경험 자체를 정량화하는 것.

단순히 자동화된 형태로 logging되는 데이터뿐 아니라 다양한 touchpoint에서 제품과 상호작용하는 사용자의 총체적인 경험에 대해 이해할 수 있다. 또한 이를 바탕으로 기업 내부적으로 자산화하여 활용하려는 움직임들이 활발히 일어나고 있으며, 데이터 플랫폼에 관한 내용 역시 흐름을 같이 한다.

결국 매순간 의사결정을 수행하는 사용자 및 소비자의 경험은 디지털화-데이터화가 될 수 있으며, DDUX에서는 해당 사용자/소비자를 특정화할 수 있는 방법, 그 사용자/소비자가 경험한 제품 및 서비스의 경험맥락을 특정화할 수 있는 방법을 고민한다.

Human-product interaction에서 interaction은 데이터를 만들어내는 과정. 사람과 제품 사이의 상호작용은 디지털화된 데이터의 형태로 남은 '흔적'이자 기업의 측면에서 활용 가능한 '증거'로 간주할 수 있다.

강의 구성

Fri, 25 Nov 2022 00:29:13 GMT

학습 목표

WHY : DDUX 중요성 이해하기 개념 이해, 실무 활용 사례 리뷰, 실무 활용 가능성 탐색
WHAT : DDUX 접근 방식 정의하기 마인드셋 정립, DDUX 관점의 사용자 정의, DDUX 관점의 제품 정의, DDUX 관점의 데이터 활용 방식 정의
HOW : DDUX 실행하기 DDUX 프로젝트 및 프로세스 기획, DDUX 프로젝트 실효성 점검, Experience Strategy, Experience Design, 확장성 이해

융합학문, 도메인 전문가가 되어야 할 필요성!

이미지 출처: Capgemini 위는 데이터 사이언스의 계보로 융합학문의 성격이 강하다. 디자인은 특히 비주얼라이제이션에 특화되어 있다. 시각화를 넘어서는 움직임이 있기 때문에 자신의 백그라운드를 가지고 접근하는 트렌드가 있다. 제품과 고객에 대해서 잘 아는 도메인 전문가가 되어야 한다.

디지털 트랜스포메이션 데이터 활용의 측면에서 생각하여 최종적으로는 사업의 성공을 이끌 것인가 생각의 디지털화, 의사결정을 하는 프로세스/문화를 바꾸려고 하는 노력!

https://medium.com/co-learning-lounge/complete-data-science-project-life-cycle-9eae6e4ed4c9

종합하자면, https://1xn7o7upcca3v936e1unkid4-wpengine.netdna-ssl.com/wp-content/uploads/2019/04/Gartner-2019-report.jpg 인사이트를 추출하여 어떻게 action plan을 짤 것인가에 대한 부분까지 예측하는 것이 연구질문에 해당되고 최적화단계에서 데이터로 접근하는 것. 네 가지 카테고리의 업무를 데이터에 기반하여 진행된다.

https://uxdesign.cc/becoming-a-data-aware-designer-1d7614ebc3ed

수강 전 자기진단 및 계획

Thu, 24 Nov 2022 06:09:58 GMT

수강 계기

2022.11.24 해당 강의는 업무를 하면서 데이터에 기반한 UX에 대해 관심을 갖고 있었으나 현업에 참여할 기회가 적었기에 패스트캠퍼스에서 Data-Driven UX 디자인에 대하여 강의하는 신영수 강사의 강의를 듣고 정리하기 위해 해당 글을 쓴다.

나의 사전 지식

학부 때 UX 디자인, UI 디자인을 수강하였음. Figma가 나오기 전에 Sketch와 Adobe XD, 일러스트레이터로 GUI를 구현하는 학부 과제를 수행한 적 있음. 모 대학교 대학원의 UX 연구소에서 2달 동안 인턴을 함. 데이터사이언스 부트캠프를 수강하면서 데이터 분석을 위한 기초 통계와 파이썬의 여러 프레임워크들을 통해 단기간의 프로젝트를 수행함. 이후 모 기업의 인턴으로 시작하여 사업기획을 위한 조사를 하던 중 UX와 관련된 업무에 더 관심이 생겨 공부 중.

수강 계획

현재는 마감이 급한 업무가 없어 개인공부 시간이 다소 있음. 12월 크리스마스 이브 전까지 완강하고 문화비로 강의금을 충당할 계획!

광고 성과 지표

Wed, 26 Oct 2022 11:47:09 GMT

마케팅의 성과, 특히 광고비용의 성과를 얻는 지표에 대해 궁금해서 찾아봤다.

ROI : Return On Investment

투자이익율. 투자한 비용에 대해 얼마나 이익이 얻었는지에 대한 지표. 투자의 순수익 계산이 목적으로 장기 또는 고차원의 전반적인 수익성을 다룬다.

ROI = (매출 - 매출원가 - 판매 관리비 - 마케팅 투자액) / 마케팅 투자액 * 100

ROAS : Return On Ad Spend

광고수익률 개별 광고 지출 대비 수익률. 단기 또는 특정 전략/캠페인의 기여도 파악 및 최적화에 유용하다.

ROAS = (해당 광고로부터의 매출 / 광고비용)*100

CAC : Customer Acquisition Cost

한 명의 유료 결제자를 얻는데 드는 비용

CPA : Cost Per Acquisition

CPL : Customer Per Lead

LTV : Live Time Value

고객 총 가치, 이 고객이 우리 서비스에서 평생 얼마만큼의 돈을 지불할 것인가를 측정하는 지표

Contents-based filtering

Wed, 05 Oct 2022 01:21:28 GMT

Contents-based filtering은 콘텐츠 기반 필터링 방식으로, 사용자가 특정 아이템을 선호하는 경우 그 아이템과 비슷한 콘텐츠(content)를 가진 다른 아이템을 추천해주는 것이다. 예를 들어 사용자가 영화 '인셉션'과 '인터스텔라'를 보고 '좋아요'라고 평가했다면 두 영화는 SF 장르이고 감독이 같으므로 해당 감독의 다른 SF 영화를 추천해주는 방식이다. 따라서 콘텐츠 기반 필터링이란 아이템들의 특징 간 유사도에 따라 추천을 한다는 의미이다.

Item Profile : 사용자가 좋아한 아이템을 뽑아낸 목록 User Profile : Item Profile의 공통된 특징을 뽑아낸 결과

즉, User Profile의 특징(feature, contents)에 기반한 아이템을 추천하는 것이 Contents-based filtering이다. 아이템이 영화라면 user profile에는 감독, 제목, 배우 등이 해당되는 것이다.

Contents-based filtering의 장점

1) 다른 사용자의 데이터가 불필요하다. 개인의 평가에 기반하여 아이템을 추천하기 때문에 추천 내역이 부족하여 발생할 수 있는 아래의 문제로부터 자유로운 편이다. - cold-start problem: 해당 아이템을 추천한 사람이 없어 추천이 어려운 문제. - sparsity problem: 모든 유저들이 모든 아이템에 대해 평가하지 않아 생기는 문제.

2) 사용자의 특정 관심사를 포착하여 새로운 아이템이나 대중적이지 않은 아이템도 추천할 수 있다. 아무도 평가하지 않은 아이템이나 인기없는 아이템도 콘텐츠 혹은 특징(feature)을 바탕으로 추천.

3) 사용자에게 추천하는 이유에 대한 설명이 가능하다. 사용자가 선호하는 아이템들의 특징을 바탕으로 추천하기 때문에 해당 아이템이 왜 추천되었는지에 대해 이해할 수 있다.

Contents-based filtering의 단점

1) 아이템의 콘텐츠는 어느 정도 수작업으로 이루어지기 때문에 도메인 지식이 필요하므로 수작업의 완성도에 따라 추천의 효과성이 좌우된다.

2) 사용자의 기존 관심분야를 기반으로만 추천할 수 있어서 사용자의 관심사가 확장될 때 효과적이지 않을 수 있다.

원리 : 유사도 함수 사용

유사도 함수는 특정 아이템과 가장 비슷한 아이템을 찾을 때 사용하는 것으로 특정 아이템의 콘텐츠와 어떤 아이템의 콘텐츠가 유사한지 판단하기 위한 것이다. 이를 계산하기 위해 아이템의 콘텐츠를 벡터로 변환하여 유사도를 측정하게 된다. content, 즉 item의 feature들을 count 기반으로 벡터 변환을 한뒤, 해당 feature 백터화 행렬 데이터셋을 다른 item의 벡터와의 유사도를 통해 비교할 수 있게 된다. 대표적인 유사도 함수에는 유클리디안, 코사인, 피어슨, 자카드 유사도 등이 있다.

##유클리디안 유사도

##코사인 유사도 (가장 많이 사용)

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며 90도의 각을 가지면 0, 180도의 각을 가지면 -1의 값을 가지게 된다. 즉, -1이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. 즉, 두 벡터가 가리키는 방향이 얼마나 유사한지를 볼 수 있는 것이다.

코사인 유사도는 유사도를 구할 때 벡터의 방향(패턴)에 초점을 두기 때문에 문서의 길이가 다른 상황에서 비교적 공정한 비교를 할 수 있게 도와준다.

[ 참고자료 ] 이미지 https://ariz1623.tistory.com/230 https://developers.google.com/machine-learning/recommendation/content-based/basics https://ssongblog.tistory.com/112

전처리 과정 복습

Fri, 23 Sep 2022 07:46:31 GMT

데이터전처리 1) 결측치 탐색: isnull().sum()
```
결측치 처리: fillna(대체값,inplace=True)
```
2) 인코딩 문자열 feature -> 숫자형 변형
- LabelEncoder : 0,1,2,3 <=
- OneHotEncoder : 가변수(dummy) 처리 예) 4개 범주 -> 4개 가변수 사과, 배, 포도, 딸기 : 2차원 희소행렬(sparse matrix) sklearn.preprocessing -> fit(), transform()
3) scaling
- Z-scoring(Standarization) 표준화: 평균 0 ,표준편차 1 StandardScaler
- Min-Max Scaling: 최소 0, 최대 1 MinMaxScaler
- 벡터 정규화(Normalization) NormalScaler fit(), transform()
모델 평가 지표 1) 정확도(accuracy): (Tp+Tn)/(Tp+Tn+Fp+Fn) 2) 정밀도(precision): Tp /(Tp+Fp) 3) 재현율(recall): Tp / (Tp+Fn)

오차행렬(confusion matrix)

실제값이 치우쳐져있으면 예측값도 치우쳐질 것이기 때문에 데이터 불균형을 해소하기 위한 방안들을 고려해야 함.

분류를 결정하기 위한 기준값(임계값) threshold 0.5

0.4로 바꾸면 0.4보다 크면 1, 그렇지 않으면 0으로 판단.

4) f1 score : 정밀도와 재현율의 조화평균 5) G- measure: 정밀도오 재현율의 기하평균 sqrt(정밀도*재현율) 6) ROC curve : TPR(민감도) / FPR(특이성)

7) AUC

scikit-learn의 model_selection 모듈

Wed, 21 Sep 2022 10:43:52 GMT

공식문서

사실 공식문서만큼 잘 설명된 것이 어디있겠냐만 그 방대한 내용과 내가 풀고 싶은 문제에 잘 적용하고 싶은 것이 사람마음인지라 좀좀따리 복습을 하는 중이다.

실습을 할 때 해당 모듈을 가장 많이 쓸 때는 데이터를 훈련용과 테스트용으로 분리할 때이다.

학습 데이터 세트
- 모델학습을 위해 사용
- 데이터의 속성(feature)와 결정값(label,target) 모두 포함
테스트 데이터 세트
- 학습된 모델 성능 테스트용
- 결정값 예측

train_test_split(feature_dataset,label_dataset, test_size, train_size, random_state, shuffle, stratify)

train_test_split() 반환값

X_train : 학습용 피처 데이터 세트 (feature)
X_test : 테스트용 피처 데이터 세트 (feature)
y_train : 학습용 레이블 데이터 세트 (target)
y_test : 테스트용 레이블 데이터 세트 (target)
feature : 대문자 X_
label(target) : 소문자 y_

데이터의 분포에 따라서 모델의 성능은 상이하다. 또한 학습 데이터를 전체 데이터로 하면 과적합이 일어나는 등 여러 문제점이 있기 대문에 예측은 테스트 데이터로, 그 예측값과 실제값의 차이를 어떻게 줄일 것인지 고민하면서 여러 방법론과 평가지표를 활용할 수 있다.

교차검증(cross validation : cv)

여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행한다.
k-fold cross validation
- 전체 데이터 세트를 임의로 K개의 그룹으로 나누고, 그 가운데 하나의 그룹을 돌아가면서 테스트 데이터 세트로, 나머지 k-1개의 그룹은 학습용 데이터 세트로 활용하는 방법이다.

목적

데이터에 적합한 모델인지 평가
모델에 적절한 하이퍼파라미터 찾아서 모델 튜닝
과대적합 예방
데이터 편중 방지

교차 검증 방법

k-fold cross validation
stratified k-fold cross validation

1) k-fold cross validation

k개의 데이터 폴드 세트를 만들어서 k번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행.

가장 보편적으로 사용되는 교차 검증 기법

sklearn.model_selection.KFold(n_splits=5, *, shuffle=False, random_state=None)

① KFold 클래스 : 폴드 세트로 분리하는 객체 생성

kfold = KFold(n_splits=5)

② split() 메소드 : 폴드 데이터 세트로 분리

kfold.split(features)

각 폴드마다
학습용, 검증용, 테스트 데이터 추출
학습용 및 예측 수행
정확도 측정

③ 최종 평균 정확도 계산

2) stratified k-fold cross validation 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 k-fold cross validation의 방법이다.

원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트 생성
분류(Classification)에서의 교차 검증은 K 폴드 보다는 Stratified K 폴드 사용하는 것이 효과적
회귀(Regression)에서는 Stratified K 폴드 지원되지 않음
- 회귀 모델의 target값은 범주형이 아닌 수치형이므로

불균형한 데이터 문제

관심 대상 데이터가 상대적으로 매우 적은 비율로 나타나는 데이터 문제
분류 문제인 경우: 클래스들이 균일하게 분포하지 않은 문제를 의미
- 예) 불량률이 1% 정도로 매우 낮은 생산라인에서 양품과 불량품을 예측하는 문제
- 사기탐지(fraud detection), 이상거래감지(anomaly detection), 의료진단(medical diagnosis) 등에서 자주 나타남.
회귀문제인 경우: 극단값이 포함되어 있는 치우쳐진 데이터 사례 예) 산불에 의한 피해 면적 예측 (https://www.kaggle.com/aleksandradeis/regression-addressing-extreme-rare-cases)

불균형한 데이터 우회/극복하는 방법

방법1. 데이터 추가 확보

방법2. Re-Sampling
- Under-sampling(과소표집)
  - 다른 클래스에 비하여 상대적으로 많이 나타나는 클래스의 개수를 줄임
  - 균형은 유지할 수 있으나 유용한 정보에 대한 손실이 있을 수 있음
- Over-Sampling(과대표집)
  - 상대적으로 적게 나타나는 클래스의 데이터를 복제하여 데이터의 개수를 늘림
  - 정보 손실은 없이 학습 성능은 높아지는 반면, 과적합의 위험이 있음
  - SMOTE, ADASYN

통계 복습(2)

Tue, 23 Aug 2022 06:26:16 GMT

💙 확률과 확률분포

확률
확률분포와 확률변수
주요 확률분포

확률 (probability)

💙 정의 💙 정한 조건 아래에서 어떤 사건이나 사상이 일어날 가능성의 정도 예) 동전 던지기에서 앞면이 나올 가능성, 주식 투자로 이익을 볼 가능성

기본 용어

표본점(sample point)
- 한 번의 실험 또는 관측으로부터 얻을 수 있는 결과
표본공간(sample space)
- 어떤 실험이나 관측에서 발생가능한 모든 결과의 집합
- $\Omega$ 또는 $S$로 표기
- 사상(event)
  - 하나 또는 둘 이상의 단일 사상의 집합: 사건
  - 표본공간의 부분 집합
    확률의 종류

객관적 확률

실험이나 관찰의 필요에 따라 구분 이미지출처

논리적 확률(수학적 확률, 고전적 확률) $P(A)={n(A)\over N}$
- 어떤 한 시행에서 나타날 수 있는 결과의 개수(n)가 정해져 있음
- 각각의 결과가 나타날 가능성이 모두 동일할 것이라는 논리적 추론에 근거를 둠.
- 한계점
  - 현실세계에서 단일사상이 발생할 가능성이 동일하지 않는 경우도 존재 (예) 특정한 치료법에 의해 질병이 치료될 확률
  - 무한한 근원사상으로 이루어진 표본공간 존재 (예) 한 공정에서 불량품이 생산될 확률을 구하는 경우
경험적 확률(통계적 확률) $P(A)={\displaystyle\lim_{n\rarr\infin}{m\over n}}$
- 동일한 조건 하에서 같은 실험을 반복했을 때 어떤 특정한 사건(event)이 발생한 비율, 즉 상대도수로 계산.
- 실험의 반복 횟수는 충분히 커야 함. 이미지출처

주관적 확률

논리적 확률, 경험적 확률 : 계산된 확률을 근간으로 하여 의사결정이 가능
특정사건이 발생할 가능성은 개인적인 지식과 경험 또는 가치관에 따라 달라질 수 있는 확률 (예) 야구에서 주자가 2루에 있을 때 감독은 어떤 대타를 기용할 것인인가?

공리적 해석

💡 참고 공리(公理, axiom) : 증명할 수는 없으나 옳다고 판단되는 명제

A.N. Kolmogorov의 확률의 공리(확률론의 기초)
표본공간을 정의역으로 하며, 다음 세 가지 공리를 만족하는 함수를 확률로 정의 표본공간상에서 아래의 공리를 만족하는 P()를 확률측도(probability measure)라고 하고 P(A)를 사건 A의 확률이라고 합니다.

임의의 사상 A에 대하여

1) 0 $\leq P(A) \leq$ 1 : 어느 사건도 확률이 음수가 될 수 없고 1보다 클 수도 없음.
- 2) $P(S) = 1$ : 어떤 실험의 결과는 표본공간 S에서 항상 일어남
3) 서로 배반인 사상 $A_1,A_2, ...$에 대하여 $P(A_1\cup A_2\cup A_3\cup ...) = P(A_1)+P(A_2)+P(A_3)+...$ 를 만족할 때 P(A)를 사상 A의 확률이라고 한다.

위의 확률의 공리를 통해 알 수 있는 확률의 성질 확률의 기본 성질

$P(A^c) = 1 - P(A)$
$A ⊂ B 이면 P(A) ≤P(B)$
$P(AUB) = P(A) + P(B) - P(A∩B)$
$P(AUB) ≤ P(A) + P(B)$

주변확률, 결합확률, 조건부 확률

공리적 확률을 확장하면 주변확률, 결합확률, 조건부확률을 얻어낼 수 있다.

주변확률(marginal probability, 한계확률)

두 변수 중 한 변수만을 고려한 확률. 개별 사건의확률이지만 결합사건들의 합으로 표시될 수 있는 확률이다. 변수의 결합분포를 기록한 테이블에서 주변에 위치한 확률을 의미한다. X를 0으로 고정할 때 예를 들어보면 P(X=0,Y=0) + P(X=0,Y=1) = P(X=0)이 도출된다. X가 고정되었지만 Y값은 계속 변하는데 위의 확률은 Y값에 상관없이 X=0인 주변확률(한계확률)이라고 표현할 수 있다.

결합확률 (joint probability) 두 변수를 동시에 고려한 확률. 두 개의 사건이 동시에 일어날 확률로 서로 배반되는 두 사건 A, B가 있을 때 A와 B가 동시에 일어나는 확률($P(A\cap B$))을 A와 B의 결합확률이라고 정의한다.

$P(A\cap B) = P(A) * P(B)$를 만족한다.

조건부확률(conditional probability) 조건부 확률이란 특정한 조건 하에서 어떤 사건이 발생할 확률이다. 즉, 어떤 사건 A가 일어났다는 전제 하에 사건 B가 발생할 확률이다.

조건부확률은 어떠한 사건 A가 일어났다는 전제를 가지고 확률을 정의하므로 표본공간은 A의 근원사건 k개로 이루어진표본 공간으로 재정의된다. 즉, 어떤 사건 A가 일어났다는 전제 하에 사건 B가 발생할 확률이 조건부확률이며 분자는 A와 B의 결합확률이 된다. 이미지출처

주변확률, 결합확률, 조건부확률의 수리적 관계 (추가해야함)

확률분포와 확률변수

확률변수
- 실험이나 관찰의 결과값을 1:1 실수로 대응시키는 함수
- 일정한 확률로 나타나는(발생하는) 사건에 대해 숫자를 부여한 변수
확률분포
- 확률변수가 취할 수 있는 모든 값에 대해 각각의 확률을 대응시킨 것

참고자료 [통계학] 05. 확률의 기본 정리 - 확률의 공리, 기본 성질

통계 복습 (1)

Tue, 23 Aug 2022 06:24:59 GMT

💙 요약 💙

통계분석
- 기술통계와 추측통계
- 확률과 확률분포
- 추정과 가설검정
- 차이 검정: t-검정, 분산분석
- 연관(상관) 검정: 카이제곱검정, 상관분석
- 인과 분석: 회귀분석

💙모집단과 표본 그리고 통계학

통계와 통계학
모집단과 표본
표본조사
기술통계와 추측통계

통계와 통계학

통계 : 사람, 사물, 사건, 사회적 현상 혹은 자연 현상 등을 조사하여 수집된 각종 데이터의 요약. 집단현상에 대한 구체적인 양적 기술을 반영하는 숫자.

통계학: 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야.

통계학의 목적

학문적 관점 새로운 질문들, 연구 과제에 대하여 과학적으로 답을 찾아가는 방법
비즈니스 관점 성공가능성을 높이거나 실패 가능성을 낮추며 의사결정 지원. 넘치는 데이터로부터 인사이트를 얻는 방법을 제공 빅데이터, 인공지능 시대의 기본 학문

모집단과 표본 그리고 통계학

이미지 출처 이미지출처 이미지출처

기술통계: 자료의 특징 파악. (수집된 자료를 몇 개의 수치, 그림/표를 통해 정리요약하여 전반적인 특징을 파악) 추측통계: 관심 대상에 대한 일반화된 결론 제공 (모집단의 특성을 추론하여 이를 토대로 의사결정에 필요한 결론 제공.)

모집단과 표본

모집단(population): 통계분석 방법을 적용할 관심 대상의 전체 집합. 모르는 데이터
표본(sample) : 모집단에서 선택된 모집단 구성단위의 일부. 갖고 있는 데이터

전수조사와 표본조사

전수조사(survey): 모집단 전체를 조사
표본조사(sampling): 모집단의 일부를 조사

모수와 통계량

모수(parameter) : 모집단의 특성을 나타내는 수치
(표본)통계량(sample statistic): 표본의 특성을 나타내는 수치

통계기호 정리 이미지출처

표본조사(sampling)

모집단에 대한 설명력이 표본
- 표본의 요건: 모집단의 대표 표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성이 커진다.
- 무작위 추출(random sampling): 편향성을 배제
오차(error): 연구(분석)결과를 왜곡시킴
- 표본오차(sampling error)
  - 모집단을 모두 조사하지 않고 모집단 일부인 표본만 조사하기 때문에 발생하는 오차
  - 표본의 크기가 커질수록 작아지며 전수조사 시 0이 된다.
- 비표본오차(non-sampling error)
  - 무응답오차
  - 응답오차
    - 조사자 오차 : 표본을 잘못 선정, 데이터 잘못 분석
    - 면접자 오차 : 능력없는 면접자, 면접자의 실수나 태만
    - 응답자 오차 : 응답자의 실수나 무성의한 답변

이미지출처

모집단의 특성과 이해 수준에 따라 표본 추출 방법이 정해지는 경우가 많다. 표본 추출 방법은 추출된 표본의 추출 확률 여부에 따라 비확률 추출방법과 확률 추출방법으로 구분된다. 이미지출처

확률표본추출방법

확률표본추출방법은 표집 대상이 확률을 가지고 표본을 추출하는 방법이다. 이미지출처

단순임의추출(simple random sampling,srs법)
- 전체에 대해 무작위 추출
- 난수표(random number table)를 이용하여 표본의 크기만큼 개체를 선택
층화추출(Stratified Random Sampling)
- 모집단을 특성에 의해 몇 개의 층(strata)으로 나눔.
- 층 간에는 차이가 존재하므로 각 층에서 골고루 개체를 선택(SRS법(단순임의추출) 적용)
- 데이터 내에서 지정한 그룹별로 지정한 비율만큼의 데이터를 랜덤하게 선택
- 모집단의 각 층의 비율만큼 추출
  - 비례층화추출 / Multi-stage 층화추출
계통추출(Systematic Sampling)
- 첫 번째 요소는 무작위로 선정, 목록의 매 k번째 요소를 표본으로 선정하는 표집방법
- 모집단의 크기를 원하는 표본의 크기로 나누어 k를 계산
  - k는 표집 간격 == sampling interval
- 만약 요소들의 목록이 표본이 추출되기 전에 무작위로 되어 있다면, 그 목록에서 계통추출법을 통해 추출된 표본은 실제로는 단순임의표본과 같다고 할 수 있다.
- 만약 표본이 추출되기 전 요소들의 목록이 무작위로 되어 있지 않고 주기성(periodicity)을 띄고 있다면, 계통추출법을 통해 추출된 표본은 매우 어긋난 표본이 될 수 있으며 모집단을 전혀 반영하지 못하게 됨.
집락추출(Cluster Sampling)
- 군집간 동질적, 군집내 이질적인 경우
- 소집단 자체를 표본대상으로 하기 때문에 각 소집단이 가능한 한 모집단을 대표할 수 있는 소규모 집단이 되어야 가장 이상적

기술통계와 추측통계

기술통계(descriptive statistics)

수집한 데이터를 요약, 묘사, 설명하는 기법 예) 인구조사, 토지조사 등을 통한 현상 파악
시각화 도구 : 도수분포표, 히스토그램, 상자그림표, 산점도, 버블차트, 히트맵, 평행좌표플롯 등
기술통계량 : 평균, 중위수(중앙값), 사분위수, 분산, 표준편차, 변동계수, 왜도, 첨도 등

데이터 타입과 역할에 따른 기술통계

수치형(Numerical Data) : 분포분석

데이터의 특성을 분포로 설명
주요 항목은 범위, 평균, 분산, 표준편차 등
대부분의 분석 방법이 특정 분포를 가정
대표(중심경향),산포,왜도, 첨도

범주형(Categorical Data) : 빈도분석

범주별 출현 빈도에 기반한 분석
주요 항목은 빈도, 비율, 누적비율 등
특정 분포 가정 없이 빈도에 기반한 확률을 사용

추측통계(inferential statistics)

수집한 데이터를 기반으로 모집단의 특성을 추론 예측하는 기법
전체를 파악할 수 없을 정도의 큰 대상이나 아직 발생하지 않은 미래의 일에 대해 추측하는 기술 예) 대선 당선 예측, 주가예상, 금융 및 보험 상품의 가격 결정
확률이론 기반
가설검정 기반의 통계적 분석 기법들
- 상관분석, 연관분석, 독립성검정 등
- 차이검정, 회귀분석, 구조방정식 등

데이터 타입과 역할에 따른 추측통계: 독립변수와 종속변수의 데이터 타입에 따라 상이

참고) 독립변수와 종속변수