alicia_jung.log

[Weekly] 고객생애가치(LTV)

Tue, 27 Aug 2024 05:48:41 GMT

Q. 고객 생애 가치(LTV)를 계산하는 방법과 이 지표가 중요한 이유를 설명해 주세요. 예시를 포함해 주세요.

❤️LTV(Lifetime Value)란?

LTV(Lifetime Value), 고객생애가치는 CLT(Customer Lifetime Value)라고도 불리우며 주로 서비스의 Acqusition(사용자 획득), Revenue(이익) 단계에서 활용하는 지표로 고객이 가져다줄 기대 가치를 살펴보는 지표이다.

이는 아래와 같이 정의할 수 있다.

한 명의 고객이 서비스를 이용하는 전체 생애 동안 비즈니스에 가져다줄 것으로 예상되는 기대 가치

LTV는 LTR(Lifetime Revenue, 고객 생애 매출)과는 달리 기대 가치를 계산할 때 고객을 위해 사용한 비용을 고려하여 계산한다는 점이 특징이다.

📟LTV의 계산 방식

LTV를 계산하는 방식은 다양하지만 이 중 가장 대표적이고 간단한 공식을 살펴보면 다음과 같다.

평균 구매 금액 X 마진율 X 구매 빈도(횟수) X 고객 수명 - (고객 획득비용 + 고객 유지비용)

여기서 '마진율'은 매출액에서 매출 원가를 뺀 순수익의 비율을 계산한 것으로 {(매출- 매출원가) /매출} X 100 로 계산한다. 그리고 '고객수명'은 고객이 유지되는 기간을 이른다.

이 공식을 설명하면 다음과 같다.

'평균 구매 금액 X 마진율'은 구매가 일어났을 때 발생하는 순수익을 말한다.

'구매빈도 X 고객 수명'은 고객이 유지되는 동안 총 몇 번의 구매가 벌어지는지를 뜻한다.
(고객 획득 비용 + 고객 유지비용)은 고객을 획득하고 유지하는 데 비즈니스가 지출한 비용을 뜻한다.

따라서 정리하면 고객이 유지되는 기간 중 일어난 구매에서 남긴 이익에서 고객을 획득 및 유지하는 데에 지출한 비용을 제한 금액이 LTV라고 할 수 있다.

✨LTV의 중요성

LTV가 중요한 이유는 이를 통해 얻을 수 있는 인사이트 때문이다.

킨들 사업의 경제학에 대해 생각할 때, 우리는 전체적인 시각에서 봅니다. 우리는 그 기기의 ‘생애 가치(lifetime value)’를 고려합니다. 기기 또는 악세사리 자체의 순익을 생각하지 않고 그 안에 들어가는 컨텐트(content)에 주목합니다. -아마존 CFO Tom Szkutak (데이터리안에서 재인용, CNET)

즉, 한번의 구매에서 오는 이익을 생각하기 보다는 보다 큰 그림에서 비즈니스가 얻을 수 있는 가치가 무엇인지 생각하게 된다는 점이다.

LTV를 염두에 둔다면 당장의 마진율이나 구매 금액을 높이지 않아도 빈도, 고객 수명을 늘리는 전략 등을 구사해볼 수도 있고 이를 통해 보다 큰 규모에서, 장기적으로 비즈니스 전체에 이익을 가져다 줄 수 있을 것이다.

📚참고문헌

데이터리안 | 매출 분석 (3) LTV(고객 생애 가치), LTR(고객 생애 매출) 왜 필요하고 어떻게 계산할까?

[Weekly] 획득지표 (+ Notion 사례 분석)

Tue, 27 Aug 2024 05:48:02 GMT

🇶 원하는 제품/서비스를 하나 선택하여 해당 상품/서비스에서 가장 중요한 획득 지표는 무엇인지 설명해 주세요. 그 이유를 구체적으로 설명해 주세요.

🚶🏻‍♀️들어가며

우리 서비스가 얼마나 많은 사용자에게, 어떤 경로를 통해 가 닿고 있는지는 서비스를 안정적으로 운영하기 위해서 필수적으로 살펴보아야 하는 부분일 것이다.

이 글에서는 사용자 획득을 살펴볼 수 있는 지표인 획득지표를 소개하고 획득지표의 여러가지 종류를 소개한다. 그리고 실제 서비스인 Notion의 획득지표와 지표를 개선시키기 위한 전략을 분석해보도록 한다.

🫴🏻획득지표와 종류

획득 지표란 사용자를 획득하는 단계에서 획득의 규모와 획득의 비용, 획득의 효율 등을 살펴보기 위한 지표이다.

획득지표를 사용하면 사용자 획득의 전반적인 상황을 파악할 수 있기 때문에 성과를 측정하고 문제점을 개선하는 데에 활용할 수 있다.

사용자 획득단계에서 활용할 수 있는 획득획득 지표는 획득의 규모를 측정하기 위한 지표와 획득의 효율을 살펴보기 위한 지표, 광고지표로 나누어 살펴볼 수 있다.

아래는 활용할 수 있는 지표를 종류별로 나누어 그 정의와 계산식을 적어보았다. 사용자 획득 단계에서 사용할 수 있는 지표는 고정된 것이 아니고 경우에 따라, 주어진 데이터에 따라 적절한 지표를 활용하는 것이 중요하다.

📐획득의 규모를 측정하는 지표

1. 신규 사용자 수 (NEW USER)

서비스에 처음 방문한 사용자 수

2. 회원 가입 수 (SIGN UP)

서비스에 회원가입을 한 사용자 수

3. 앱 다운로드 수 (APP INSTALLS)

서비스의 앱을 다운로드 한 건수

4. 리드(Leads)

일정 수준의 개인정보를 제공하는 잠재 고객

e.g. 상담을 위한 고객 연락처를 제출한 고객의 수

⚖️획득의 효율을 측정하는 지표

💰1. 고객 획득 비용(CAC, Customer Acquisition Cost)

고객 획득을 위해 투입한 금액/ 획득한 고객 수

고객 획득 비용은 고객을 획득하기 위해 얼만큼의 비용이 들었는지를 살펴볼 수 있는 지표이다. 고객 획득 비용 지표는 무엇을 중점으로 살펴보느냐에 따라 아래와 같이 블렌디드 CAC, 매체별 CAC, 광고별 CAC, 고객 유형별 CAC 등 다양한 CAC들로 살펴볼 수 있다.

1-1. 블렌디드 CAC

고객 획득을 위해 투입한 전체 금액 / 획득한 고객 수

1-2. 매체별 CAC

고객 획득을 위해 특정 광고 매체에 투입한 금액/ 특정 광고 매체를 통해 획득한 고객 수

1-3. 광고별 CAC

고객 획득을 위해 특정 광고 제작에 투입한 금액/ 특정 광고를 통해 획득한 고객 수

1-4. 고객 유형별 CAC

특정 유형의 고객 획득을 위해 투입한 금액/ 획득한 특정 유형의 고객 수

📺2. 광고 성과 지표

2-1. 광고 클릭률(CTR, Click-Thorugh Rate)

광고 클릭 수 /광고 노출 수 x 100

참고로 '광고 노출'은 특정 광고가 사용자에게 노출된 총 횟수로 중복을 포함하는 개념이다.

2-2. 광고 조회율(VTR, View-Through Rate)

(영상광고 조회 수/ 영상 광고 노출 수) x 100

2-3. 광고 전환율(CVR, Conversion Rate)

전환 수 /광고 클릭 수 x 100

📢3. 광고 비용 지표

3-1. CPM (Cost-Per-Mile)

총 광고 비용 / 광고 노출 수 x 100

3-2. CPC (Cost-Per-Click)

총 광고 비용 / 광고 클릭 수

3-3. CPV (Cost-Per-View)

총 광고 비용 / 광고 조회 수

3-3. CPV (Cost-Per-View)

총 광고 비용 / 특정 행동이 발생한 수

💡사례분석: Notion

노션은 문서 관리, 문서 작성 툴을 제공하는 SaaS 모델의 비즈니스이다. 2018년 출시 후 2000만명이 넘는 수의 사용자가 노션을 사용한다고 알려져 있다.

그렇다면 노션에서 우리가 살펴볼 수 있는 획득지표는 무엇일까?

1. 신규 방문자 수 노션을 쓰려면 우선 노션 웹페이지에 방문해야 한다. 이 때 웹/앱에 방문한 방문자를 집계하여 획득지표로 사용해볼 수 있다.

그리고 특히 이 신규 방문자 수를 접속 경로에 따라서 살펴보면 이후 사용자들의 사용을 유도할 때 더 효율적인 전략을 짤 수 있을 것이다.

그 이유는 노션이 성장하는 과정에서 노션이 광고가 아닌 사용자들의 커뮤니티를 기반으로 성장했다는 사실 때문이다.

아래 이미지(출처: NOGOOD)를 살펴보면 트래픽의 90% 이상이 직접 검색을 통해 유입된 것을 알 수 있다.

NOGOOD의 분석에 따르면, 노션 서비스 초기에 몇몇 Twitter 사용자들을 중심으로 사용자 커뮤니티가 구축되기 시작했고 노션에서는 팬 블로그를 찾아서 마케팅 직원을 영입하거나 앰버서더를 모집하는 등의 활동을 했다.

따라서 웹/앱을 방문한 신규 방문자 수에서 한 발 더 나아간다면 직접 서치 이외에 어떤 경로를 통해 들어왔는지에 따라 방문자 수를 살펴보고 사용자들이 어떤 채널의 커뮤니티를 통해 노션으로 유입되었는지를 파악할 수 있을 것이다.

2. 가입자 수 노션의 첫 페이지에 들어가면 '무료로 Notion 사용하기'라는 버튼이 보이는데 이 버튼을 클릭하면 회원가입을 하고 요금제를 선택하게 된다.

노션은 4가지 요금제를 제공하고 있다. 요금제는 무료, 플러스, 비즈니스, 엔터프라이즈로 나뉜다. 각각의 요금제에 등록하고 회원가입을 하고 사용을 시작한 '가입자 수' 역시 획득지표로 생각해볼 수 있다. 또한 각각의 요금제별로 고객 유형을 구분하여 유형별 가입자 수를 볼 수 있다.

📚참고문헌

Medium | Are you reaching the right users for your SaaS product?

NOGOOD | Notion Growth Strategy: Unlocking Community-Led Growth Through Collaboration Uncategorized

OCEAN | 노션(Notion)의 오가닉 브랜드 성장 전략

코드잇 | 지표이해하기

[Weekly] RFM 분석

Fri, 23 Aug 2024 01:27:03 GMT

Q. RFM 분석(Recency, Frequency, Monetary value)이란 무엇이며, 이를 통해 고객을 어떻게 세분화할 수 있는지 설명해 주세요. 각 요소의 중요성을 설명해 주세요.

👑RFM 분석

이번 글에서는 RFM이 사용하는 세 가지 지표와 RFM 분석이 어디에 사용될 수 있는지를 살펴보도록 하자.

RFM 분석은 사용자 그룹을 세분화하는 분석 방법론이다. 주로 제품 구매가 일어나는 커머스에서 많이 사용한다. 분석에서 세 가지 지표를 사용하는데, 이 지표의 첫글자를 따서 RFM이라고 부른다.

RFM의 정의는 아래와 같이 설명해볼 수 있다.

고객의 구매 행동을 기반으로 세 가지 주요 지표인 Recency(최근구매시점), Frequency(구매 빈도), Monetary(구매 금액)를 분석하여 고객을 세분화하는 분석방법론

📦RFM의 세 가지 지표

RFM은 다음의 세 가지 지표를 사용한다.

Recency: 최근 구매시기는 언제인가?
Frequency: 특정 기간 동안의 구매 빈도는 어떠한가?
Monetary: 특정 기간 동안 총 구매금액은 얼마인가?

그런데 이렇게만 보면 이 지표들이 왜 중요한지가 궁금할 수 있다. 최근 구매시기와 구매 빈도, 구매 금액을 어디에 사용하는 걸까?

이를 가장 잘 이해할 수 있는 예시는 고객 등급인 것 같다. 구매 시기가 최신이고 구매빈도가 잦을 수록, 총 구매금액이 높을 수록 높은 가치를 가진 고객이라고 할 수 있다. 이러한 고객들을 잘 유지하고 또 다른 고객들이 더 자주, 더 많이 구매를 하도록 유도하려면 등급별 혜택을 통해 고객들에게 동기를 부여하는 전략이 필요하다.

그런데 등급은 어떻게 정하는 게 좋을까? 이 때 RFM 분석을 활용하면 그 기준을 잡아볼 수 있다. 대상 기간을 정하고 그 기간동안의 최근 구매시기, 빈도, 구매 금액을 통해 고객을 분류하는 것이다.

e.g. 오늘의 집 VIP 기준

e.g. 배달의 민족 고객 등급

참고문헌

Martinee | [프로젝트 후기] 멤버십 및 RFM 분석 배민다움 | 배민 다니면 배민 많이 쓰나요? (a.k.a 자주 묻는 질문) 오늘의 집 | 오늘의 집 VIP를 모십니다!

[Weekly] 코호트와 세그먼트

Fri, 23 Aug 2024 01:26:39 GMT

Q. 코호트와 세그먼트의 차이점은 무엇인가요?

🛒코호트와 세그먼트

코호트와 세그먼트는 사용자를 분석할 때 특정한 기준으로 사용자를 그룹화하여 분석한다는 점에서 공통점을 가진다. 그러나 코호트와 세그먼트는 다른 개념인데, 이 글에서는 둘의 차이점을 중심으로 각각의 개념을 설명해보고자 한다.

🫂코호트(Cohort)

우선 코호트의 정의를 구글에서 검색해보면 다음과 같이 나온다.

여기서는 코호트를 특정한 인구통계학적 특성을 공유하는 집단이라고 설명하고 있다.

좀 더 정확히 말하자면 코호트의 정의에서 필요한 것은 '시간'이다.

특정 시점의 사건을 함께 공유하거나 경험한 집단

다시말해, 특정시점의 사건을 함께 공유하는 집단을 코호트라고 부를 수 있을 것이다. 예컨대 출생, 결혼, 2024년 8월 1일 처음 프로덕트를 사용함 등 특정한 시점의 사건을 경험한 그룹을 코호트로 이해하면 된다.

🧩세그먼트

세그먼트도 일정한 특성을 공유하는 그룹을 말하는 일컫지만 세그먼트는 '시간'에 방점이 찍혀있지는 않다.

세그먼트는 동일한 관심사나 행동을 공유하는 사용자 집단을 이른다. 예컨대 핵심 기능을 사용하고 있지 않은 사용자 집단을 생각해볼 수 있다.

동일한 관심사나 행동 등 특성을 공유하는 집단

다양한 특성을 기반으로 세그먼트를 묶어내서 분석했을 때 좀 더 명확하게 전략을 수행할 수 있는 타겟을 설정할 수 있다.

참고문헌

구글 애널리틱스 고객센터 | 세그먼트 분석 이용 사례

userpilot | Cohort Analysis vs. Segmentation: What’s the Difference and How To Combine Them To Drive Retention?

웹크롤링 오류/문제 해결

Tue, 20 Aug 2024 01:24:04 GMT

✔️오류 났을 때 처음부터 매번 다시 해야 한다면?

크롤링하다가 오류가 나는 경우, 처음부터 다시 해야 해서 중간에 이를 저장하고 넘어가는 코드를 서치해보았다. 별도의 코드를 사용하기보다는 중간단계를 잘 나누어 저장해두는 방식으로 해결을 봐야 하는 듯 하다.

🚫Error: no such element: Unable to locate element

Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[1]/div/div/div/div/div/div[2]/div[4]/div/div[12]/article/a"}

오류 설명 : element를 찾을 수 없다.
해결책 : 이 에러가 나는 부분이 매번 다른 것을 보니 로딩 시간의 문제인듯 해서 time.sleep을 지정하는 변수에서 randint의 범위를 좀 더 늘려줬다.

직접 초를 기입하지 않고 randint로 쓰는 이유는 대기 시간이 매번 같으면 크롤링으로 인식해서 막는 경우가 있기 때문에 랜덤하게 수를 뽑아 매 아이템마다 다른 대기 시간이 걸리도로 했다.

 from random import randint 

 #timesleep
    x = randint(2,5)
    y = randint(2,5)

🚫Error: element click intercepted

ElementClickInterceptedException: Message: element click intercepted: Element is not clickable at point (688, 102). Other element would receive the click:

오류 설명 : element가 clickable하지 않아 다른 element가 이 click을 받았을 수 있다.
해결책 : 서치를 해보니 element가 clickable 할 때까지 기다려주는 기능(EC)이 있다. 나는 wait과 함께 EC 중에서도 아래의 옵션(element_to_be_clickable)을 사용했다.

import 해주어야 하는 것들

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

EC.element_to_be_clickable 사용

wait = WebDriverWait(driver, 10)
wait.until(EC.element_to_be_clickable((By.XPATH, prod_xpath)))

🖱️여러 가지 스크롤 방법

1. ActionChains(driver)

# 스크롤을 위한 밑단 작업
prod_xpath = 'PATH'   
prod_info = driver.find_element(By.XPATH, prod_xpath) 

# 스크롤 
actions = ActionChains(driver)
actions.move_to_element(prod_info).perform()
time.sleep(x)

2. PAGE DOWN : 버전이 바뀌어서 ''WebDriver' object has no attribute 'find_element_by_tag_name''라는 오류가 떠서 두번째와 같이 수정하였다.

from selenium.webdriver.common.keys import Keys

body = driver.find_element_by_tag_name('body')
body.send_keys(Keys.PAGE_DOWN)

from selenium.webdriver.common.keys import Keys

body = driver.find_element(By.TAG_NAME,'body')
body.send_keys(Keys.PAGE_DOWN)

💬iframe 크롤링

iframe_element = driver.find_element(By.ID, "iframe_id")

🌌PATH 따기

-원하는 영역에 우클릭하고 검색 - 바로 컨트롤c -우클릭 후 들어가서 다양한 패스로 위치를 딸 수 있음.

참고문헌

[Weekly] AARRR

Mon, 19 Aug 2024 07:15:56 GMT

Q. AARRR 프레임워크(취득, 활성화, 유지, 수익 창출, 추천)와 리텐션 개념을 설명해 주세요. Funnel 분석과의 연관성을 설명해 주세요.

📝AARRR 프레임워크란?

2007년 데이브 맥클루어가 개발한 사용자 행동 프레임워크로 해적지표(Pirate Metrics)라고도 불린다.

AARRR프레임워크를 찾아보면서 왜 이 지표가 해적지표인지 궁금했는데 데이브 매클루어가 사용자의 여정을 해적의 여행에 빗대어 말한 것이라고 한다.

여기서 우리는 AARRR의 각각의 글자가 사용자가 제품을 경험하는 여정의 과정임을 알 수 있다. 이 글에서는 AARRR을 단계별로 소개하고자 한다.

🚪ACQUISITION

첫번째 A인 ACQUISITION은 획득이라는 뜻으로, '사용자 획득' 단계를 일컫는다.

신규 사용자가 프로덕트로 유입되는 단계

사용자가 광고나 추천 등으로 프로덕트에 대해 알게 되고 웹/앱에 접속하는 등의 유입이 이루어지는 단계이다.

🏃ACTIVATION

사용자가 유입이 된 후에는 본격적으로 프로덕트를 사용하기 시작한다.

두번째 A인 ACTIVATION은 '활성화'라는 뜻으로, '사용자 활성화' 단계를 뜻한다.

유입된 사용자가 프로덕트를 사용하거나 구입하는 등 활성화 되는 단계

이 단계에서는 사용자로 하여금 프로덕트의 핵심 가치를 경험할 수 있도록 하는 것이 중요하다.

🏡RETENTION

세번째 R은 RETENTION은 '보유'라는 뜻으로 '사용자 유지' 단계를 말한다.

활성화된 사용자가 이탈하지 않고 계속 프로덕트를 이용하도록 관리하는 단계

사용자가 한번 프로덕트를 이용했다고 해서 다음에도 모든 사용자가 프로덕트를 이용한다는 보장은 없다. 이 단계에서는 사용자가 이탈하지 않고 프로덕트를 이용할 수 있도록 하는 전략이 필요하다.

💵REVENUE

사용자가 프로덕트를 꾸준히 이용하면서 그 다음으로는 수익이 발생하는 단계에 도달한다.

네번째 R은 REVENUE는 '수익'이라는 뜻으로 '수익화'를 이른다.

사용자의 활동이 매출로 이어지는지 확인하고 수익을 관리하며 이윤 극대화를 위해 노력하는 단계

이 단계에서는 수익을 어떻게 하면 끌어올릴 수 있는지를 고민하는 단계이다.

❤️REFERRAL

다섯번째 R은 REFERRAL는 '추천'이라는 뜻으로 '새 사용자 추천' 단계이다.

프로덕트를 이용한 사용자가 새로운 사용자에게 해당 프로덕트를 추천하는 단계로 이를 통해 새로운 사용자가 새롭게 유입되기도 한다.

기존 사용자의 추천을 통해 새로운 사용자의 유입이 이루어질 수 있도록 하는 단계

❇️추가

⚡AARRR 활용하기

AARRR은 사용자가 프로덕트를 사용하는 전체 여정을 프레임워크로 만들어 놓은 것이다. 각 단계별로 문제점이 다르고 그에 따른 해결책이 다르다는 점에서 나의 비즈니스에서는 어떤 단계에서 문제가 있는지를 분석할 때 AARRR 프레임워크를 유용하게 사용할 수 있다.

📣Funnel 분석과의 관계

특정 목표를 달성하기까지의 경로를 단계별로 분석하는 퍼널분석과 유사한 구조를 가지고 있다. 퍼널 분석에서는 사용자 이탈을 살펴볼 수 있고 최종적으로 도달하는 비율을 살펴볼 수 있는데, AARRR도 사용자 유입부터 추천까지의 전체 여정을 볼 수 있다는 점에서 유사하다.

참고문헌

코드잇 | 지표 이해하기 waveon | AARRR 프레임워크 (해적지표) - 1편 : AARRR의 의미와 단계별 목표 달성 전략, 지표

[Study Log] 사람들은 뭘 좋아하나

Wed, 14 Aug 2024 13:57:56 GMT

오늘 이력서 준비를 위해 경험 분석을 하려고 하다가 두 가지 장면이 떠올라서 끄적여 본다.

#1.

얼마전에 인사이드 아웃을 봤다.

주로 불안이가 운전대를 잡고 있는 사람 입장에서 공감이 많이 가는 영화였다. 불안이를 보고있자면 '뭘 좋아할지 몰라서 일단 다 준비해봤어'라는 짤이 떠오른다.

핸들 앞을 떠나지 못하고 우는 불안이가 너무 안쓰러웠다. 눈치를 슥 보고 이것저것 다 하려고 하니 'Never good enough'가 신념이 되는 슬픈 결말을 맞이했던 것 같다.

#2.

이번주에는 코드잇 CEO 특강을 들었는데 IT 커리어 전망이 주제였다.

연사님이 '모두가 하나의 컨셉으로 취업을 준비하는 것 같다', '개발자도 컨셉이 각자 있으니 본인이 어떤 강점을 가진 사람인지를 파악하라'고 말씀하셨다. 아직 취준에 본격적으로 돌입하지 않았지만 모두가 하나의 컨셉으로 취업을 준비하는 것 같다는 말이 무슨 말인지 어렴풋이 알 것 같았다.

늘 어떤 경험을 말해야 할까, 어떤 강점을 가지고 있다고 말해야 할까를 고민하게 된다. 사람들이 뭘 말해야 좋아할까를 고민하게 된다. 이런 고민은 익숙하게 하면서 내가 무슨 강점을 가지고 있는지를 생각하는 일은 아직 어렵다.

여튼 일단 하기

살면서 사람들이 뭘 좋아할지 몰라서 일단 다 준비하는 순간이 많았던 것 같다. 이것저것 챙겨놓고 플랜 B도 준비해보고... 상황이 좋으면 꼼꼼함이었고 상황이 나쁠 때는 번아웃이었다.

근데 불안이든 하나의 컨셉이든 그것도 나름대로 의미가 있는 것 같다. 눈치도 보고 호기심도 가지고 했던 그 과정이 마냥 나쁘지 않았다.

사실 글을 쓰다보니 무슨 말을 하려던 건지 길을 잃기는 했지만, 우선 좋아하는 거 다 때려넣은 썸네일 이미지가 의외로 맘에 드는 것처럼 우선 내 이력서도 다 써보고 안되면 바꾸고 또 맞춰가고 하면서 방향을 찾아야겠다 싶다.

[Weekly] 차원축소와 PCA

Tue, 13 Aug 2024 00:49:48 GMT

[Weekly 질문] Q1) 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.

Q2) 고유값(eigenvalue)과 고유벡터(eigenvector)에 대해 설명해 주세요. 이들이 데이터 분석에서 왜 중요한지 구체적인 예를 들어 설명해 주세요.

오늘은 이 두 가지 질문을 차원축소와 PCA라는 분석 방법을 중심으로 설명해보려고 한다.

데이터의 차원과 차원의 저주

데이터에서 차원은 변수를 의미한다.

그래서 feature가 많다, high dimensional하다는 의미는 데이터에 포함된 변수가 많다는 뜻으로 바꾸어 말할 수 있다. 데이터에 변수가 많다면 정보가 많은 것이니 좋은 게 아닐까?

데이터에 차원이 많아질수록 데이터를 볼 수 있는 정보가 많아지는 것도 맞지만 분석하기가 어려워지는 역설이 발생한다. 차원이 많아지면 데이터를 표현하는 축이 많아진다는 의미이고 1차원,2차원,3차원, ... n차원으로 데이터를 표현하게 된다.

그 과정에서 데이터와 데이터 간의 거리는 점점 더 멀어지는데 그렇게 되면 데이터의 연관성을 찾기 어려워지기 때문에 (특히 거리기반 클러스터링으로는 더욱더) 데이터를 분석하는 데에 어려움이 생긴다.

이를 차원의 저주라고 부른다.

해결책: 차원축소

차원의 저주를 해결하기 위해서 차원축소라는 방법을 사용한다. 차원축소는 말그래도 차원을 축소하는 것이다. 고차원의 데이터를 저차원으로 축소하여 분석을 용이하게 만드는 것이다.

이 포스팅에서는 차원축소의 일환으로 PCA를 다뤄보려고 한다.

PCA(Principal Component Analysis)

PCA 차원들의 특성을 가장 잘 설명해주는 주성분(Principal Component)를 이용하여 차원을 축소하는 방법

PCA에서는 주성분을 찾는 방법은 데이터의 분산을 가장 잘 반영하는 축을 새로 생성하는 것이다.

데이터의 흩어짐 정도(분산)는 정보값이다. 예컨대 300명의 학생의 신발 사이즈를 모아둔 데이터 값이 있다고 하자.

내가 이 데이터를 활용하는 입장이라면 이 데이터에 대해서 가장 많은/적은 사이즈 혹은 대체로 어느정도의 신발 사이즈인지 등의 '분포'를 알고 싶을 것이다. 이처럼 분산은 데이터가 어떤식으로 분포되어 있는지를 보여주는 정보값이기 때문에 이를 가장 잘 반영하는 값을 주성분으로 뽑아 사용하는 것이다.

고유값과 고유 벡터

PCA는 분산은 최대한 담아내면서 차원을 축소하기 위해 고유값과 고유 벡터를 찾아내는 작업이다.

고유 벡터: 고유값의 방향 고유값: 스칼라 값

고유값을 통해서 각 주성분의 분산 설명력을 계산할 수 있기 때문에. 고유 벡터 같은 경우에도 변환된 주성분의 축의 방향을 나타낸다.

참고문헌

벡터 https://wikidocs.net/214400 고유값과 고유 벡터 https://bigdatajessie.tistory.com/70

[Weekly] 히스토그램과 또 다른 그래프들

Tue, 13 Aug 2024 00:47:34 GMT

Q. 히스토그램의 주요 단점은 무엇이며, 이를 극복하기 위한 대안적인 시각화 방법을 설명해 주세요.

히스토그램

히스토그램은 그래프의 형태중 하나로, 데이터를 구간별로 나눠서 수치를 기록한 것이다.

히스토그램의 장점은

1) 데이터의 분포를 파악 가능하게 하고 2) 통계지식이 없는 사람들도 쉽게 이해가 가능하다는 점이다.

히스토그램의 단점은

1) 이 값들이 연속형 데이터일 때, 그 분포를 세밀하게 보여주지는 못한다. 2) 두 그래프 간의 비교가 어렵다.

또 다른 그래프들

확률밀도함수(PDF, Probability Density Function)

1) 확률밀도함수는 히스토그램보다 연속형 데이터를 세밀하게 표현해주고 2) 해당 구간에 속할 확률을 보여준다. (확률밀도함수를 적분하여 면적의 합을 구하면 1이다.)

참고문헌

코드잇 수업자료

[Sprint] 07/22 -7/26

Mon, 22 Jul 2024 04:50:12 GMT

7/22

rain_or_not 생성

[Pandas] 조건걸고 새로운 컬럼 추가하기 https://data-newbie.tistory.com/559

Error

[pandas] Excel file format cannot be determined, you must specify an engine manually https://velog.io/@codeinsights/pandas-Excel-file-format-cannot-be-determined-you-must-specify-an-engine-manually

Read할 때 에러

UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence

공백? https://kkw-da.tistory.com/entry/Tips-UnicodeDecodeError-cp949-codec-cant-decode-illegal-multibyte-sequence-%EC%98%A4%EB%A5%98-%ED%95%B4%EA%B2%B0-%EB%B0%A9%EB%B2%95python%EC%9D%B8%EC%BD%94%EB%94%A9

호우주의보 데이터 가지고 지하철 데이터에 조건 걸린 컬럼 만들 때

데이터프레임에서 for loop을 사용하는 다양한 방법 https://tbr74.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84-for-loop-for%EB%AC%B8-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0

7/26

데이터 리서치

어떤 데이터를 이어서 분석해볼 수 있을까?

고려해볼 데이터 목록

어떤 상품을 파는 업종들이 들어와있을까? 서울교통공사 지하상가임대정보

평균을 이거랑 비교해볼 수도 있을 것 같다. 서울교통공사_지하철혼잡도정보

사람이 많이 몰리면 인원배치나 순환을 해야 할 필요가 있을 것. 서울교통공사_역직원 폭행 등 감정노동 피해 현황

뭔가 필요할 것 같은 지하철 공간크기 정보가 들어있는 데이터 서울교통공사_역사면적정보

광고를 어떻게 하면 더 효과적으로 할 수 있지? 서울교통공사_역사별 광고시설 현황 정보

이 시기에 어떤 민원이 가장 자주 접수될까? 서울교통공사_호선별 불편민원 건수

환승주차장. (특이점이 나오는 역이 교통 중심지인지) 국가철도공단_서울교통공사_환승주차장

공기질을 어떻게 하면 좋을까. 2020년 서울교통공사_실시간 공기질 모니터링 시스템 데이터(역) 서울교통공사_지하역사 승강장 공기청정기 역사별 설치일자 정보

특이점이 나오는 역이 실제로 교통의 중심지인지 알 수 있겠다. 서울교통공사_역코드로 주변 버스정류장 검색

그 지역들에 편의시설은 충분한가? 근데 비랑 상관있는 데이터인지.. 서울교통공사_편의시설 현황

[Study Log] SQLD(SQL 개발자) 자격증 합격 후기

Wed, 17 Jul 2024 05:48:32 GMT

계획

[이미지 출처: K-DATA 데이터 자격검정 페이지]

시험일정과 접수는 여기서 할 수 있다. 데이터 자격검정

나는 7월 23일에 접수를 했다. 8월 24일이 시험. 한달 하고 하루(라기엔 밤 10시) 남았으니 기간도 나쁘지 않다. 우선 코드잇 강의로 SQL을 학습하고 기출문제를 풀어보려고 한다.

코드잇 강의 하루에 7개씩 들으면 된다(?) 과연 오후 7시 이후에 얼마나 할 것인지...우선 화이팅

공부 방법

저녁에 시간을 내기가 어려워서 23일날 접수를 해놓고도 201개 중에 8/7까지 22개 강의밖에 듣지 못했다. 아무래도 너무 과한 일정을 짠 것 같아서 7일 이후에 공부 전략을 바꾸었다. 우선 강의는 최대한 적게 듣자 생각해서 홍쌤의 SQLD 유튜브 강의(아래 링크 참고)를 듣는 방향으로 틀었다.

7시에 수업 끝나면 밥먹고 8시부터 sqld강의 듣고 씻고 12시부터 다시 문제풀고(유명한 노랭이) 하면서 준비하고 시험을 보러 갔다. 시험 직전 일주일 동안 2/3 이상을 본 듯 하다. 다음 시험은 좀 더 여유롭게 준비하면 좋을 듯!ㅠㅜ

홍쌤 강의는 따로 교재 사지 않았고 노랭이만 구입을 했는데 시험이 2024년에 변경되어서 책도 변경되었으니 개정판을 사야한다. (아래 링크 참고)

시험

준비물: 신분증, 검은 싸인펜 + 검은 펜

10시 시험이었고 9시 30분쯤 도착했다. 물론 늦게 온 사람도 있긴 했지만 적어도 30분 전에는 가있는 게 좋다. 문자로 수험표와 신분증 가지고 가라고 문자가 왔는데 찾아보니 수험표는 굳이 출력해 갈 필요는 없다는 이야기가 있어서 따로 출력해 가지 않았다. 시험장 자리 찾을 때 교문에서 한번, OMR에 수험번호 적을 때 한번 필요한데, 문자로 수험번호가 오니 교문에서는 핸드폰 문자 보고 찾았고 수험번호 적을 때는 감독관이 수험번호 필요한 사람 손들면 번호를 보여준다.

그리고 검은 펜 들고 오라고 해서 볼펜 들고 갔는데 답안 마킹하는 동그라미가 꽤 커서 색칠하는데 시간이 오래 걸렸다. 그래서 답지 마킹할 때는 감독관님께 검은 싸인펜을 빌려야 했다. 컴퓨터 싸인펜은 아니더라도 싸인펜과 볼펜을 모두 들고 가는 것을 추천한다.

10시 30분부터 감독관 확인 받고 먼저 나갈 수 있고 그 전에 나갈 수는 없다. 2시간이 넘는 시험이 아니기 때문에 중간에 화장실을 갈 수 없으니 화장실도 미리 다녀와야 한다.

사전점수공개

결과발표일 전 주 금요일 16시 이후 사전 점수 공개가 있다. 결과는.... 합격! 점수는 높지 않지만 합격한 것에 의의를 두려고 한다! 앞으로 다른 자격증들도 차근차근 따야겠다. (실제 합격 여부 나오면 다시 업데이트 해두겠다.)

참고

모두의 연구소. "빅데이터 자격증 종류와 난이도가 궁금하다면? (빅데이터 분석기사 vs 데이터 분석 전문가 ADP 비교분석)"

자료

[Weekly] Git에서의 branch

Mon, 15 Jul 2024 04:08:01 GMT

🇶 Git에서 branch는 무엇이고, 왜 사용하나요?

🌿브랜치(branch)

🌳브랜치의 정의

브랜치는 나뭇가지라는 뜻인데, git에서는 나뭇가지처럼 하나의 코드 줄기를 브랜치라고 한다. 정리하면, 브랜치의 정의는 다음과 같이 정리할 수 있다.

하나의 코드 관리 흐름

브랜치는 루트 커밋(root commit)을 시작으로 갈라지는 나무 모양을 하고 있다.

예를 들어 우리가 서비스를 두 가지 버전, 무료와 유료버전으로 만든다고 하자. 그러면 우리는 브랜치를 무료와 유료 브랜치로 나누어 코드를 작성할 수 있을 것이다.

브랜치를 생성할 때는 정말로 뿌리에서 갈라지는 모양처럼 브랜치를 생성한 시점부터 나누어지기 때문에 그 전까지 만든 파일이나 디렉토리는 공유하고 있다고 보면된다. 브랜치가 갈라진 후의 코드의 기록은 거기서부터 다른 브랜치로 기록되는 것이다.

👍브랜치는 왜 사용할까?

브랜치에는 다음과 같은 장점이 있다.

1) 개인이 개별적으로 독립적인 작업 환경을 가질 수 있다. 2) 개별 작업 후 합칠 수 있어서 협업에 용이하다. 3) 안전한 배포와 롤백(이전 코드로 돌아가기)을 할 수 있다.

🪴브랜치 기본 커맨드

여기서는 브랜치와 관련한 기본적인 커맨드를 다루어 보려고 한다.

브랜치 만들기

git branch 브랜치이름

만들고 싶은 브랜치 이름을 뒤에 써준다.

브랜치 확인하기

git branch

어떤 브랜치가 있는지 확인할 수 있다.

브랜치 갈아타기

git checkout 갈아탈_브랜치이름

현재 브랜치에서 다른 브랜치로 이동할 때 사용한다.

브랜치 생성과 동시에 이동하기

git checkout -b branch

브랜치를 생성하고 동시에 그 브랜치로 이동한다.

브랜치 삭제

git branch -d 브랜치이름

브랜치를 삭제할 떄 사용한다.

[Weekly] 절대경로와 상대경로

Mon, 15 Jul 2024 04:07:01 GMT

🇶 절대 경로와 상대 경로는 무엇인가요?

🗂️절대경로와 상대경로

이번 글에서는 절대경로와 상대경로를 설명하기 위하여 디렉토리의 구조에 대해서 간략히 설명하고 절대경로와 상대경로를 소개한다.

🧑‍💻디렉토리의 구조

디렉토리의 구조는 나무가 뿌리로부터 자라나 가지를 뻗는 것처럼 루트(Root) 디렉토리에서부터 여러 디렉토리들이 뻗어나오는 방식으로 짜여 있다. 디렉토리의 구조는 이 나무를 뒤집어 놓은 것처럼 생겼는데 이는 위의 그림처럼 생겼다.

디렉토리 구조에서 위에 있는 디렉토리는 상위(또는 부모) 디렉토리, 아래 있는 디렉토리는 하위(또는 자식) 디렉토리라고 부른다. 특정한 기준이 있는 것이 아니라 관계를 보았을 때 위 아래의 기준이라고 생각하면 된다.

경로는 말그대로 길이다. 우리는 이 디렉토리 구조 안을 돌아다니며 문서나 파일을 찾기도 하고 만들기도 하고 삭제하기도 하는 여러 작업을 한다. 그때 우리는 우리가 어디서 작업을 할 것인지를 먼저 밝혀줘야 한다. 내가 있는 곳, 혹은 내가 가고자 하는 곳을 컴퓨터에게 알려주는 데에 사용되는 것이 경로이다.

경로를 찾는데에는 두 가지 방법이 있는데 그것이 바로 절대경로와 상대경로이다.

👑절대경로(Absolute Path)

절대경로의 정의

절대경로의 정의는 다음과 같다.

루트 디렉토리(root directory)를 기준으로 어떤 파일이나 디렉토리까지의 경로를 표시하는 것.

절대경로는 시스템의 최상위 디렉토리부터 시작하기 때문에 경로를 찾을 때 다른 경로의 영향을 받지 않는다. 다만 최상위 디렉토리부터 시작하면 하위 디렉토리일수록 표시해야 하는 경로가 길어진다.

예를 들어

# Windows의 경우 
C:\Users\Username\Doctuments\Vegetable\Onion_Peel1\Onion_Peel2\Onion_Peel3 

# Unix/Linux의 경우 
/home/username/documents/Vegetable/Onion_Peel1/Onion_Peel2/Onion_Peel3

이런 식이다. 그래서 보통 상대경로를 많이 쓰게 되는데 그럼에도 불구하고 절대경로가 유용한 경우가 있다.

절대경로가 유용한 경우

1) 여러번 상위 디렉토리로 이동해야 하는 경우 : 위로 올라가는 경우 절대경로를 사용하는 것이 더 짧고 간편할 수 있다. 2) (옆쪽으로) 멀리 떨어져 있는 디렉토리로 이동해야 하는 경우 : 상대경로를 썼다면 들어갔다 나왔다를 반복하며 옆으로 이동해야 하는 경우, 절대경로에서 들어가는 것이 간편하고 다른 경로의 영향을 받지 않아 더 유용할 수 있다.

🖇️상대경로(Relative Path)

상대경로의 정의는 다음과 같다.

현재 자신이 위치해 있는 디렉토리를 기준으로 경로를 나타내는 것

상대경로에서 사용되는 표기

상대경로를 나타낼 때 현재 자신이 있는 곳을 기준으로 현재 디렉토리와 상위 디렉토리를 표기할 수 있고 홈디렉토리를 표기할 수 있다. 이는 다음과 같이 나타낸다.

. : 현재 디렉토리

.. : 상위 디렉토리

~ : 홀디렉토리

그래서 이를 활용해서 상대경로를 표시해보면 다음과 같다.

# 참고 
C:\Users\Username\Doctuments\Vegetable\Onion_Peel1\Onion_Peel2\Onion_Peel3 

# 현재 디렉토리(Onion_Peel1)의 상위 디렉토리(vegetable)에 있는 carrot.txt으로 이동 
../carrot.txt

# 현재 디렉토리에서 Onion_Peel2 디렉토리 내의 dirt.txt로 가고 싶은 경우 
Onion_Peel2/dirt.txt

이런 식으로 절대경로와 상대경로는 각각의 특징을 고려하여 상황에 맞게 사용하면 된다.

[Weekly] 클래스, 인스턴스, 정적 메소드

Mon, 08 Jul 2024 06:31:14 GMT

🇶 클래스와 인스턴스에 대해 설명해주세요.

🍪클래스와 인스턴스

클래스와 인스턴스는 객체를 만들어내는 틀, 그리고 그 틀에 따라 만들어진 객체를 일컫는 말이다. 여기서는 먼저 클래스와 인스턴스를 설명하기 위해 객체, 속성, 행동에 대해 설명하고 클래스와 인스턴스에 대해서 설명하려고 한다.

객체는 데이터와 그 데이터를 활용한 함수들을 묶어서 저장해 놓을 수 있는 것을 말한다. 여기서는 데이터를 속성, 그리고 함수를 행동이라고 지칭한다.

클래스는 객체가 가지는 속성과 메소드를 정의하는 틀이다. 클래스를 통해 그 속성과 메소드를 가진 객체들을 생성할 수 있는데 이 객체들을 인스턴스라고 한다.

🇶 정적 메소드는 무엇이고, 어떻게 호출하나요?

📌정적 메소드(Static Method)

정적 메소드는 클래스에 속하지만 인스턴스에 종속되지 않는 메소드이다.

그렇다면 클래스에 속하지만 인스턴스에 종속되지 않는다는 말의 의미는 무엇일까? 클래스와 관련이 있어서 클래스 레벨에서 직접 호출할 수 있는 메소드이지만, 인스턴스나 클래스에서 받는 값이 필요하지 않은 메소드이다.

예컨대, 로그인 클래스가 있다고 해보자. 이 로그인 클래스는 하나의 객체에 user name, email, password등을 저장한다. 그런데 여기에 email이 제대로 된 형식인지를 확인하는 메소드를 넣고 싶을 때, 이 메소드는 인스턴스나 클래스 값이 필요하지 않다. 이것이 정적 메소드이다.

정적 메소드는 @를 사용하여 표기해준다. @staticmethod라고 표기해주고 아래에 메소드의 내용을 작성해준다.

@staticmethod
def valid_email(email):
    return "@" in email

인스턴스의 속성에 접근할 필요가 없기 때문에 인수로 self를 받지 않는다. 그리고 클래스의 이름을 통해 직접 호출을 한다.

[Weekly] t-test

Mon, 01 Jul 2024 04:21:09 GMT

Weekly 3: 🇶 t-test에 대해 설명해 주세요.

🕵️t-test란?

t-test는 통계적 가설 검정을 할 때 사용하는 방법 중 하나이며 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법이다. 집단간 평균차이를 분석 할 때 쓰인다.

t-test에 대해서 설명하기 위해서는 t-test를 언제 사용하는지를 알아야 한다. t-test를 설명하기 이전에 적합한 검정방법을 찾는 방법을 알아보자.

🧐잠깐, 적합한 가설검정 방법은 어떻게 선택할까?

🔍고려해야 할 것들

적합한 가설 검정 방법을 알기 위해서는 다음과 같은 것들을 고려해야 한다.

1. 데이터의 유형

1) 수치로 표현되는 양적변수(quantitative variable)인가? 2) 그룹으로 구분되어 측정되는 범주형 변수(categorical variable)인가?

2. 양적변수의 경우 - 양적변수의 성질

양적변수의 경우에는 변수의 성질도 함께 고려해야 한다. 왜냐하면 이것이 검정의 기본 가정이 되기 때문이다. 따라서 양적변수가 어떤 분산을 따르는지도 검정해야 한다.

1) 정규성 가정: "모집단이 정규분포를 따른다" -정규성을 따르는지를 판단하는 검정으로는 샤피로-윌크 검정, 콜모고르프-스미르토노프 검정, Q-Q 플롯 등이 있다.

2) 등분산성 가정: "집단 간 분산이 동일하다" -등분산을 따르는지 조사하는 방법으로는 레빈 검정과 바틀렛 검정이 있다.

✔️t-test는 어떤 경우에 사용할 수 있을까?

모평균에 대한 검정의 종류를 나누어보면 다음과 같은 표로 표현해볼 수 있다.

즉, t-test는 모집단이 정규분포를 따르는데 모분산을 모르는 경우 사용한다.

📜t-test의 종류

t-test의 종류는 아래와 같다.

집단이 1개인 경우

1. 단일표본 t 검정(One sample t-test)

하나의 표본 평균과 알려진 모집단 평균을 비교
데이터의 수가 부족해서 x검정이 불가능한 경우 시행 e.g. 특정 지역 학생들의 평균 수학 점수가 전국 평균과 다른지 확인

집단이 2개인 경우

1. 독립표본 t 검정

: 두 집단이 독립적인(서로 관계가 없는) 경우 e.g. 두 집단을 두고 신약을 복용한 그룹과 복용하지 않은 그룹의 평균 혈압 비교

1) 등분산성 가정(두 집단의 모분산이 같다고 가정하는 경우) : 스튜던트 t 검정

2) 두 집단의 모분산이 다르다고 가정하는 경우 : 웰치의 t 검정

2. 대응표본 t 검정

: 두 집단이 밀접한 관련성을 갖는 경우 e.g. 신약 투약 전후 비교

t-test의 검정통계량 계산

t-test의 검정통계량은 t값을 구하는 식으로 계산을 해주게 된다.

t-test의 식을 이해하는 부분이 까다로운데, 우선 t-test의 검정통계량 계산식은 아래와 같다. (사실 아직도 이해중이다. 조사하는대로 추가적인 정보를 붙여넣어두겠다.)

참고문헌

공돌이의 수학정리노트(2020.02.13). "t-value의 의미와 스튜던트의 T 테스트"

게으름의 흔적(2022.01.05) "t값 보고 p값 계산하는 법"

의미를 이해하는 통계학과 데이터 분석(2022.04.21). "t-test 밑바닥부터 이해하기"

코드잇 데이터 애널리스트 강의노트

행복한엄쌤(2018.08.05). "[통계교육] 풀어쓰는 통계-t 검정(t-test)이란?

추가 리뷰

t-test를 수행하는 단계

1) 가설 설정 귀무가설(H0): 두 집단의 평균에 차이가 ㅇ벗다. 대립가설(H1): 두 집단의 평균에 차이가 있다. 2) 유의수준 설정 일반적으로 0.05 3) 검정 통계량 계산 t-test 유형에 따라 검정 통계량 계산 4) p-value를 계한 검정 통계량을 이용해 p-value 계산 5) 결정 및 해석

p-value < 유의수준 귀무가설 기각. 통계적으로 유의한 차이를 보인다.
p-value < 유의수준 귀무가설 기각X.

[Weekly] 데이터 전처리

Mon, 01 Jul 2024 04:20:35 GMT

데이터 전처리 방법

🇶 데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요.

📑데이터 전처리란?

🗑️ Garbage in, Garbage out "쓰레기가 들어가면 쓰레기가 나온다!"

데이터 전처리를 제대로 하지 않으면 분석 결과도 제대로 된 결과가 나오기 어렵다. 그래서 데이터 전처리는 중요하다.

데이터 전처리는 데이터를 분석 이전 단계에서 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 말한다.

데이터 전처리에는 결측값 처리, 이상점 처리, 범주형 변수 처리, 중복값 처리, 데이터 병함 등이 있다. 여기서는 대표적으로 결측값 처리와 이상치 처리를 살펴보도록 하자. 아래에서 차근차근 살펴보자.

🙅결측치 처리

😶‍🌫결측치(Missing Value)는 무엇인가?

결측치(혹은 결측값)는 데이터에 값이 없는 것을 이야기 한다. NA 혹은 Null 값이라고 표현하기도 한다.

결측치가 많은데 처리를 잘못한 경우 분석 결과에 왜곡을 가져올 수 있기 때문에 결측치를 처리해주는 작업은 필수적이다.

🔧결측치 처리 방법

결측치를 처리하는 방법에는 네 가지가 있다.

1. 결측치를 제거

drop()이나 dropna() 등과 같은 함수를 사용해서 결측치를 삭제해줄 수 있다.
다만 어떤 방식으로 삭제해 줄지는 고민을 해야 한다. 예컨대 아래와 같은 상황에서 다음과 같은 판단을 할 수 있다.

결측치가 특정행의 10% 미만

삭제해주는 것이 낫다.

결측치가 한 열에 50% 이상
행을 삭제했을 때 데이터 손실이 크기 때문에 이런 경우에는 열을 삭제하는 것이 좋을 것이다.

2. 결측치를 대체

결측치를 대체할 때는 결측치의 비율, 데이터의 분포, 다른 변수와의 관계가 있는지를 살펴보고 적절한 것을 골라야 한다.
일반적으로 대표값으로 대체하기 때문에 수치형 변수는 평균이나 중앙값, 범주형 변수는 최빈값으로 대체하지만 데이터의 형태나 특징과 상관없이 기계적으로 특정 유형의 대표값으로 대체하는 것은 위험할 수 있다.

3. 결측치를 예측

존재하는 데이터를 바탕으로 모델링을 해서 결측값을 예측

4. 특수값 할당

결측값을 처리하는 영역 중에서도 결측값을 어떻게 표시하는지에 관한 것.
999이나 Unknown 등의 값을 넣어 결측값이라는 것을 표시한다.

⚠️이상치(Outlier) 처리

👽이상치는 무엇인가?

이상치는 데이터들과 동떨어져 있는 너무 크거나 너무 작은 데이터를 말한다. (e.g. 위의 상자수염그림에서 하단에 있는 동그라미로 표시된 것)

대표적으로 사분위수범위를 이용한 이상치 구하기 방법은 다음과 같다.

이상치 구하기 사분위수 범위 (IQR, InterQuartile Range) = Q3 - Q1 upper_limit = Q3 + 1.5 x IQR lower_limit = Q1 -1.5 x IQR

lower_limit보다 작거나 upper_limit 보다 큰 값

🔨이상치 처리방법

이상치 처리 방법에는 세 가지가 있다.

1. 아무것도 하지 않기 : 실제로 데이터가 아주 크거나 아주 작은 경우(아주 예외적인 경우에 이렇게 처리하기도 한다)

2. 이상점에 해당하는 데이터 삭제 : 이상치가 오류 때문에 발생했거나 삭제해도 큰 영향이 없을 경우

3. 정상범위 안에 있는 데이터만 가져오기 : 2번과 실상 같은 의미이다. 데이터를 가져올 때 이상치를 제외하기 때문.

참고문헌

코드잇 스프린트 데이터 애널리스트 1기 강의자료

우성우(2022.11.07). "데이터 전처리란?-데이터 전처리 정의, 작업 단계, 순서", 모두의 연구소.

DoublekPark, 훈지, Nykim (2019.04.12). "2. 결측치 처리" in Must Learning with R

추가 리뷰

전처리

범주형 변수 처리

범주형 변수: 범주화된 변수 범주형 변수는 더미화, 더미화를 해주는 이유는 모델이 인식하지 못해서.

중복값 처리

중복값: 데이터셋에 동일한 데이터가 여러번 나타나는 경우 중복값을 처리하지 않으면 분석 결과가 왜곡될 수 있어서 중복값을 제거.

[Study Log] '간 수치를 내리려면 흡연과 음주를 하라'는 결과

Sat, 29 Jun 2024 06:02:54 GMT

🤦🏻‍♀️뭉툭한 분석: 간 수치를 내리려면 꾸준한 흡연과 음주를(?)

실습 문제로 국민건강검진 개방 데이터로 분석 보고서를 만드는 과제가 나왔는데, 어떻게 분석을 해야 하는지가 막막했다. 기본적으로 각 변수가 어떤 수치인지와 정상치가 어느 수준인지를 알고 있어야 가설설립이 가능할텐데, 나는 각 변수에 대한 의학적 지식이 전무했기 때문이다.

그래서 우선 건강검진 데이터를 분석하기 앞서서 그 수치들을 검색해보았다. 나는 간과 생활요인의 상관관계를 보고 분석하려고 했는데 우리가 통상적으로 '간 수치'라고 부르는 것도 수치 하나가 아니라 혈청지오티, 혈청지피티, 감마지티피 등 여러 수치를 종합적으로 보아야 해서, 병원 웹사이트에 안내되어 있는 성분의 정의를 참고하여 가설을 세웠다.

그리고 회귀분석을 돌린 결과 감마지티피를 제외한 두 성분이 각각 중간에 끊지 않고 꾸준히 흡연한 사람인 경우에, 그리고 음주를 하는 사람인 경우에 감소하는 상관관계를 보였다.

🧪연구논문 서치

처음에는 이상치 제거를 잘못해서 그런 줄 알고 데이터를 처음부터 돌렸다. 결과는 마찬가지였다.

그 다음엔 연구논문을 찾아보았다. 좀 더 세밀한 데이터들과 시계열 정보가 필요하다는 사실을 깨달았다. 각 성분의 정의, 정상치, 특징을 알게 되니 똑같이 통계적으로 유의하게 나온 회귀분석 결과라도 유의하다고 해석할 수 있는 부분과 그렇게 해석할 수 없는 부분이 갈렸다.

예컨대 성차로 정상치가 갈리는 성분은 남성과 여성의 집단을 나누어 보았을 때야만 유의미한 결과를 도출할 수 있다. 또, 단순히 1회의 약물 복용으로 증가되는 수치가 있는 반면 반복적으로 약물을 복용하여 조직이 상했을 때에만 검출되는 성분이 있어서, 후자의 경우 약물의 양과 횟수가 나와 있지 않은 내 데이터에서는 음주, 흡연여부와 음의 상관관계가 나왔지만 복용된 약물의 양과 횟수에 따라 그룹을 나누어 진행한 연구논문에서는 양의 상관관계가 도출되는 경우도 있었다.

🧙🏻‍♀️느낀점

다행스럽게도(?) 흡연과 음주가 간 수치를 높인다는 것은 사실이었다. 연구논문결과를 잘 합해서 데이터를 해석한 뒤 보고서를 제출했고, 도메인 지식이 중요하다는 말을 다시금 실감하게 되는 실습이었다. 다음에도 잘 알아보고 뾰족한 분석을 하자.

[Study Log] 고양이를 찍어나가는 하루

Mon, 24 Jun 2024 11:28:24 GMT

스프린트 2주차에 접어들었다.

아침 8시 30분에 일어나서 간단히 준비하고 컴퓨터 앞에 앉아 강의를 듣는다. 저녁 7시까지 강의를 들으려면 체력을 아껴야 하기 때문에 쉬는시간엔 시체처럼 고요하게 누워있다.

강의를 듣고 실습을 하고 과제를 올리고 나면 새삼 이 과정이 압축적인 과정이라는 게 와닿는다. 힘들긴 하지만 배우는 것이 재미있고 사람들이 좋다. 배운 것은 잘 복습해서 머릿속에 남겨야 하는데, 사실 수업 한 번으로는 머릿속에 남는게 거의 없다. 개념 부분은 꼼꼼히 기록해두었다가 여러번 읽어야겠다.

강의를 다 들으면 예전에 어딘가에서 사온 '노트북 하는 고양이 스탬프'를 다이어리의 날짜칸에 눌러찍는다. 나름의 성취감이 있다.

그리고 요즘은 저녁을 간단히 먹고 운동을 하러 나간다. 장시간 앉아있으려니 허리가 걱정돼서 등근육이랑 복근을 잘 키워둬야 하기 때문이다. 스트레스도 풀 겸 운동하러 나가는 것도 습관이 됐다.

Study Log도 꾸준히 남겨둬야지.

[Weekly] p-value, 오류의 종류

Mon, 24 Jun 2024 04:01:14 GMT

본 글은 코드잇의 강의내용을 일부 참고하여 작성되었습니다.

오류: 제1종 오류, 제2종 오류

Q. 제1종 오류와 제2종 오류에 대해 설명해주세요. 제1종 오류와 제2종 오류를 이해하기 위해서는 가설의 종류와 가설을 채택함에 따라 일어날 수 있는 오류의 개념을 이해해야 한다. 제1종 오류와 제2종 오류는 오류의 두 가지 종류이기 때문이다.

📝가설의 종류

가설을 검정할 때, 우리는 첫번째 단계로 가설을 설정하게 된다. 이 때 두 가지 가설을 설정하게 되는데, 우리가 증명하고 싶은 가설은 '대립가설', 증명하고 싶은 가설의 반대 가설은 '귀무가설'이 된다.

대립가설과 귀무가설

증명하고 싶은 가설의 반대 가설이 왜 대립가설이 되지 않고 귀무가설이 될까? 헷갈릴 수도 있다. 다음의 정의를 보자.

귀무가설(null hypothesis, H0) 처음부터 버릴 것을 예상하는 가설, 가설의 내용은 보통 '차이가 없다' 이다. 귀무가설은 돌아갈 귀(歸), 없을 무(無)를 써서 귀무가설이다.

대립가설(alternative hypothesis, H1) 귀무가설에 대립하는 명제

내가 이해하기에, 우리가 증명하고자 하는 명제가 변수 간의 관계이거나 비교일 때, 귀무가설은 '관계가 없다', '차이가 없다'는 식의 그라운드, 기준점을 깔아주는 것이다.

👻오류의 종류

두 가지 가설을 두고 둘 중 하나를 기각하거나 채택하는 경우는 몇 가지인가? 아래의 표를 보면 총 4가지로 구분된다는 것을 알 수 있다.

정리하면, 다음과 같다.

제1종 오류 (= 유의수준) : 귀무가설이 참인데, 귀무가설을 기각한 경우 : 차이가 없는데 차이가 있다고 한 경우

제 2종 오류 : 대립가설이 참인데 귀무가설을 기각하지 않은 오류 : 차이가 있는데 없다고 한 경우

덧붙여, 두 가지 오류 중 데이터 분석을 할 때 더 치명적인 오류는 제1종 오류이다. 제품을 출시할 때 차이가 없는데 차이가 있다고 판단하여 제품을 출시한 경우에는 그 제품을 사용하는 사람들로 하여금 다른 제품을 사용할 기회를 놓치게 하는 것이고 효과를 가진 다른 방식을 개발할 기회도 잃게 만들기 때문이다. 예컨대, 신약개발과 환자의 치료라는 케이스에 대입해서 생각해보면 제1종오류를 범했을 때 실제로 매우 치명적일 수 있다는 것을 알 수 있다.

P값(p-value)

Q. p값 (p-value)는 무엇인가요?

📊P값(p-value)이란?

p값(p-value) : 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나올 확률

p값은 사실 우리가 검증하고자 하는 가설이 참이 아닌데(= 귀무가설이 참인데) 실수로 가설이 참이 되는 데이터가 나올 확률이다. 이것이 작으면 작을수록 우리가 '오해'를 할 확률이 줄어드는 것이다.

그런데 어느정도까지 이 '오해할 확률'이 줄어들어야 우리가 대립가설을 참이라고 볼 수 있을까?

🪄P값을 활용한 판단

p값과 비교하여 가설의 유의함을 판단할 기준은 유의수준이다. 이 유의수준은 업계에 따라 다르지만 보통 0.1 ~0.01 사이에서 정의하며 0.05로 두는 것이 일반적이다.

p값과 유의수준을 통한 판단은 다음과 같이 할 수 있다.

판단 1) p값이 유의수준 보다 작으면(p값<0) 귀무가설을 기각(reject) 판단 2) p값이 유의수준 보다 크면(p값>0) 귀무가설을 기각할만한 충분한 근거가 없다.

판단 1)의 경우를 우리는 통계적으로 유의미하다, 통계적으로 유의미한 차이가 있다고 본다.

[Weekly] 사분위수, 기술통계, 추론통계

Wed, 19 Jun 2024 14:35:45 GMT

사분위수(Quartile)

🇶. 사분위수에 대해 설명해주세요. 사분위수는 데이터값을 일정한 4개의 부분으로 나눈 수. 백분위수의 한 가지 유형이다. 첫번째 사분위수(Q1, the lowest quartile)는 25번째 백분위 수이며 데이터의 25%는 이 수치의 아랫부분(below)에 속한다. 두번째 사분위수(Q2, the median)은 50번째 백분위 수이며 데이터의 50%가 이 아래에 속한다. 세번째 사분위수는(Q3, the upper quartile)은 75번째 백분위수이며 75%의 데이터가 이 아래에 속한다.

참고자료/ 더 읽어볼 자료 Medium(2023.02.12). "Calculate and Use Quartile in your Data analysis (Part 1)" Medium(2023.02.12)."Calculate and Use Quartile in your Data analysis (Part 2)"

기술통계(Descriptive statics)와 추론통계(Inferential statics)

🇶. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요? 기술통계는 전체 자료를 요약하여 정리하거나 지표를 통해 자료의 특성을 나타내는 통계법이다. 기술통계에는 데이터의 개수(count), 평균(mean, average), 분산(variance), 표준편차(standard deviation), 최댓값(maximum), 최솟값(minimum), 중앙값(median), 사분위수(quartile) 등의 수치가 포함된다. 추론통계는 표본으로부터 얻은 데이터를 통해 모집단의 특성을 추론한다.

참고자료 밍BLOG(2020.12.02). "기초통계. 기본개념1(기술/추론통계, 표집방식, 변인, 척도)" 데이터 사이언스 스쿨."3.4 기술통계"