chanp.log

ADsP엔 데이터에듀 민트책!

Sat, 28 Jan 2023 16:06:12 GMT

시작에 앞서, 본 포스팅은 데이터 에듀 서평단 이벤트 당첨으로 도서를 지원받아 작성한 글임을 알립니다.

ADsP란?

데이터 분석 준전문가 자격증으로 데이터 이해에 대한 기본지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 개념을 다룬다.
몇개 없는 데이터 자격증 중 하나이며 실기 없이 필기로만 취득이 가능한 자격증이다. 상대적으로 난이도가 낮아 첫 자격증으로 선택하는 경우가 많다.
23년 기준 1회차는 02.26(일)예정

1. 선정 이유

시험접수 데이터분석의 전반적인 개념을 다루는 자격증이기에 시험접수일을 기다리고 있었고, 2023년 1회차합격을 목표 하였기에 개편된 교재를 찾게 되었다.
ADsP 하면 '민트책'이라는 유명세를 지니고 있는데, 바로 오늘 다룰 내용이 데이터에듀의 민트색상 표지 "ADsP 데이터분석 준전문가"이다.

적중률 작년 데이터 진흥원에서 진행하는 '빅데이터 분석기사'에 불합격 한 경험이 있다. 시행 횟수가 많지 않은 시험이니 만큼 기출도 많지 않았고 어떠한 문제가 나올지 의견이 분분했다.
본인 역시 타사의 교재로 학습 후 시험에 임했으나, 수립되어있던 모의고사의 적중률은 매우 낮은편이였고, 타 수험생들 또한 "시중에 웬만한 책으론 적중률 보장받기 힘들다."라는 평을 하곤 했다.
대중성 그러나 ADsP자격증은 얘기가 달랐다. 응시자들 대다수가 '민트책'을 선택했었으며, 합격자들은 극찬을 하고 있었다. ADsP란 키워드가 나오는 즉시 "민트책 한권이면 끝난다."라는 평을 받고 있었기에 까다로운 소비자들을 만족시킨 해당 교재를 선택하였다.

2. 교재 구성

넓은 개념이지만 이에 그치지 않는 세세한 설명

자격증이 데이터 분석의 전반적인 개념을 다루는 지라 범위가 상당하다. 그러나 대충 시사하고 넘어가는 것이 아닌 상세한 개념이 수립되어 있어

비전공자도 이해가 가능*해 보인다.

위의 특징 때문일까, 오래보기엔 다소 아쉬운 가독성을 지니고 있다. 깔끔하지만 심심한 디자인 탓에 글자수의 압박을 느꼈다.
그만큼 본질에 집중했다는 뜻*으로 받아들인다면, 큰 장벽은 아니라 생각한다. (목적이 자격증 취득인 만큼 디자인은 사치다.)
엄청난 문제량

'민트책'을 추천하는 가장 큰 이유!

압도적인 '문제량'*이다. 챕터가 끝날때 마다 과목별 예상문제를 풀어볼 수 있으며, 이는 개념정리+위치자각 의 장이 된다.

다량의 기출문제 대다수 국가시험의 합격포인트 = 기출문제를 얼마나 풀어봤느냐 이다. 해당 관점은 ADsP에서도 별반 다를게 없으며, 대중들이 극찬하는 이유도 교재에 수립된 다량의 '기출문제'가 8할이다. 개념학습을 배제한 단순 취득이 목적이라면 기출만 돌려도 큰 도움이 될 것으로 예상된다.

3. 학습자료

학습자 맞춤형 자료 수립

QR코드로 영상강의를 제공한다. 글만으로 이해가지 않는 개념을 잡을 수 있으며, 기출문제의 경우에도 텍스트 해설로 부족하다면 해설영상을 참고하면 될 듯 하다.

시험임박 대비 정리노트

D-Day가 얼마 남지 않았거나 당일일 경우 활용할 수 있는 정리노트가 있다. 차분히 머릿속 내용을 정돈하거나 단기기억력을 끌어올려 한문제라도 더 맞출 수 있는 효과를 기대할 수 있을 듯 하다.

총평

배경이 다양한 수험생들을 모두 아우르는 교재

여유로운 시작자 or 비전공자 : 상세한 개념학습 위주
취득만이 목표 or 전공자 : 정리노트와 기출문제 풀이 위주

데이터리안) SQL 데이터 분석 캠프 수강 후기

Wed, 30 Nov 2022 15:32:48 GMT

시작에 앞서, 본 포스팅은 광고가 아닌 "내돈내산" 수강후기임을 밝힙니다.

SQL이란?

빅데이터 활용간 방대한 데이터 저장소(DB) 에서 원하는 정보를 효율적으로 불러 오는 언어
데이터 산업군(데이터 사이언티스트, 애널리스트, 엔지니어) 뿐만 아니라 마케터 등 지표를 분석하는 직군에서 중요성이 대두

1. 나의 수강배경

관심분야 빅데이터 직군으로의 진출을 희망하고 있으며, 대중을 이해하고 전략을 수립하는 마케팅 직무 분야로 커리어의 시작을 준비하고 있다.

필요성 Python기반 데이터 분석 토이프로젝트를 몇차례 진행한 경험이 있으나, 방대한 log_data를 활용하는 프로젝트 시 Python만으론 원하는 데이터를 가져오는데 한시간이 넘게 걸리는 등 리소스 관리 면에서 난항을 겪은 경험이 있다.
대중성 데이터 직군으로의 취업을 준비하고 있는 현재, 많은 채용공고에서 SQL실력을 요구하고 있었다. 또한, 과거 프로그래머스 플랫폼 내 채용매칭 코딩테스트 응시 당시 SQL문제가 출제 되는 등 SQL의 위치를 체감하였다.
SQLite를 기반으로 기초적인 쿼리문을 작성할 줄 알았으나, 범용성 자체가 넓은 툴은 아니였기에, 시장점유율이 큰 MySQL을 학습해보고자 하였다.
기대감 데이터리안에서 매달 진행하는 월간세미나를 청취하며 세미나 진행 방식, 다양한 주제선정, 현업자의 경험담, 게스트 섭외능력 등 신선한 자극이 되었고, 소통간 그들이 사용하는 전문용어들을 나의 언어로 정립하고 싶어졌다.

2. 커리큘럼

코드작성 플랫폼을 활용한 실습위주 진행

1주차 : 데이터테이블 조회 기초함수)(SELECT / FROM / ORDER BY)

2주차 : 데이터를 종합하고 지표를 확인하는 집계함수
　　　 (GROUP BY / COUNT / SUM / AVG)
3주차 : 데이터 테이블간 연결(INNER, OUTER, SELF JOIN)
　　　 + 조건문\(CASE문 / IF문)
　　　 + 실무개념_(EDA / RFM분석 / 피봇테이블)
4주차 : 고객 세분화 분석 프로세스_(AARRR / ARPPU)

3. 질의응답

방치가 없는 실시간 질의응답시간 진행

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig1 : Slack 집중 질의응답 시간

업로드 된 강의를 수강하는 온라인 방식이나, 단순 업로드에 그친 방치성 컨텐츠가 아니다.
댓글로 질문하면 답변까지 1주일 이상이 걸리는 여타 플랫폼과 달리,
집중 질의응답 시간이 Slack채널에서 실시간으로 진행되며, 크루들의 정성적인 답변이 제공된다. 더불어 해당 시간 이후에도 크루들이 잊지않고 댓글을 달아주며 지속적인 토의가 가능하다.

4. 스터디그룹 매칭

추가 학습에 관심이 있는 수강생을 자원받아 3~4명 단위로 매칭해 주며,
가이드라인을 제시_(자율성을 해치지 않는 선)해 주기에 막막하지 않게 진행할 수 있었다.
Slack 내에서 스터디원들과 소통이 가능 하나, 알림을 동반한 메시지 전송이 부담스럽다면, 아래와 같이 추가적인 협업툴(Notion)을 활용하는것이 효과적이라 생각한다.

(기록의 장점과 프라이빗함, 스터디를 진행할 수록 공간을 채워나가는 애착은 덤)

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 Fig2 : Notion 스터디그룹 스케줄러

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig3 : Notion 스터디그룹 회고록

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig4 : Notion 스터디그룹 코드 기록

5. 기타 장 / 단점 평가

SQL학습 경험이 있어 무지 하지 않았기에 더욱 단호한
(새로운 분야에서 배움의 행복에 취해 작성한 글로 내비춰 지지 않기위함)

장점
1) 접근을 쉽게 하지만 가볍지 않은 컨텐츠
　현직 데이터분석가들이 진행하기에 문법적인 요소를 언제 어떻게 사용해야 하는지
　예시가 충분하며, 실습을 통해 체득이 가능하다. (문제를풀다보면 재밌다.)
　해당 과정을 수료 시 "프로그래머스 SQL 고득점 Kit"을 대부분 해결 가능 하고,
　새로접한 코딩플랫폼에서 더 어려운 문제를 찾고있는
　또 다른 나를 발견 할 수 있을것이며, 이는 코딩테스트의 합격에 기여할 것이다.

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig5 : 프로그래머스 풀이 인증

2) 짧은 호흡의 강의로 누리는 자유로움
　모든 온라인 강의가 자유로운것은 마찬가지겠지만, 조금은 결이 다르다.
　나는 이러한 이유를 "짧은 강의 호흡" 덕이라 생각한다.
　한 영상당 30~50분을 할애해야 하는 것이 아니라,
　세분화를 통한 10분 내외의 강연 구성이기에 학습중 맥이 끊기는 일이 없었다.

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig6 : 강의 구성 및 진행시간

　해당 주차 내용이 쉽게 다가왔거나, 흐름을 이어 예습 하고 싶다면
　부담없이 진행할 수 있다.
　(완강을 앞당기는것도 무리는 아니다.)
3) 책임감이 일어나는 수강환경
　강의를 구매하는 구조가 아닌 완강시 제공되는 구조이기에, 나태해 질 수 없다.
　천성이 게으르다 할지 언정, 인간의 확보심리 상 결제한 강의를
　소장하고 싶어 하리라 생각한다.
　강압적이진 않지만 강의를 볼모 삼아서라도 완강 할 수 있는 환경이다.
　(본인은 실습이 재밌어 나태해짐을 느낄 새가 없었다.)
4) 만족스러운 스터디그룹 매칭
　학습 할 준비가 된, 의지가 충만한 이들을 선별하고자, 개강 첫날 자원자에 한하여
　꾸려지기에 분위기가 고양된다.
　뿐만 아니라, 그룹이 학습에 전념할 수 있도록 시간대가 맞는 수강생을
　매칭해 주는 디테일한 배려가 있었기에 스터디 시간으로 왈가왈부 할게 없었다.
　(시간이 허락한다면 적극 참여하기 바란다.)
ETC ) Slack을 활용한 지속적인 커뮤니티 참여(스터디그룹 / 프로젝트피드백 및 팀 구성)
　　　+ 매달 월간세미나 무료 참여

아쉬운점
1) 적응해야하는 적지않은 플랫폼
　적응해야하는 강연플랫폼과 실습 플랫폼이 적지 않다는 느낌을 받았다.
　하다보면 적응하기에 첫주차에 겪는 홍역이라 치부할 순 있지만,
　사이트를 번갈아가며 실습하다보니 편리성이 떨어진다는 느낌은 지워지지 않았다.

　(다양한 코딩 플랫폼을 접속하며 습관적으로 데이터 구성을 파악하는
　루틴을 획득했기에 약간의 귀찮음으로 더 큰것을 얻어간것이라 생각해본다.
　+ 여러 실습 사이트를 소개받게된 부분도 좋게 해석될 수 있다.)
2) 깊다기엔 아쉬운 마케팅적 접근
　입문반이기에 SQL문법에 무게를 두었고, 이것만으로 마케팅적인 분석을 진행하기엔
　다소 무리가 있다는 것을 알고 있다.
　그러나, 실무에 활용하는 수준을 기대했던 본인이기에, 토이프로젝트를 진행할 수 있는
　레벨로는 만족스럽지 못했다.
　(물론 스스로 갈고 닦아야 하는 과정이 생략됐지만...
　+ 문법만으로도 알찬 구성이지만 괜한 욕심이 샘솟는다.)

　어찌 태어나자마자 걷길 바라겠는가!
　자기객관화를 통해 현실을 직시해 본다면 마케팅에 무지했던 나의
　초기목표였던 "그들이 사용하는 전문용어 습득"에 접근했기에 최초목표엔
　도달했다고 보려한다.

마치며..

이 글이 닿을지 모르겠으나, 4주동안 기초격에 가까운 질문을 받아주신 데이터리안 크루분들,
부족한 스터디장을 따라와주신 두분의 스터디원분들 덕에 오랫만에 배움이 즐거웠습니다!

Data Preprocessing (Data Preprocessing #1)

Fri, 08 Jul 2022 07:08:18 GMT

1. 데이터 전처리(Data Preprocessing)

데이터를 사용하고자 하는 목적에 맞게 변형하는 작업

이미지 출처 : https://www.analyticsvidhya.com/blog/2021/08/data-preprocessing-in-data-mining-a-hands-on-guide/

빅데이터는 광범위한 정보를 담고있기에 분석시 모든 특성을 반영하기 어렵고, 용량적으로도 부하가 커 효율적으로 활용하기 위해 간결성을 갖춰놓아야 한다.
따라서, 원데이터를 그대로 사용하기보다 원하는 형태로 가공하는 과정을 거치는데,이를 데이터 전처리라고 한다.
이는 일종의 필터링작업으로 볼 수 있는데, 기껏 시간과 돈을 들여 수집한 데이터를 허비하지 않고 솎아내기 위해 데이터와 산업에 대한 이해도가 요구된다.

2. 도메인 지식(Domain Knowledge)

이미지 출처 : https://thenounproject.com/icon/expert-2263180/

도메인 지식이란 전문화된 학문/분야의 지식을 뜻하며, 이해도로 표현할 수 있다.
전처리 과정에서 도메인 지식 없이 기계적으로 어떤 데이터를 줄이거나 재구성한다면 데이터에 녹아 있는 정보가 유실된다.
따라서, 어떤 데이터가 군더더기인지 알아봐야 하고, 데이터에 포함된 의미와 이를 어떻게 재구성해야 하는지 계획을 세우는데 있어 분석가의 배경지식이 영향을 미친다.
ex) 같은 단어이지만 배경지식에 따라 해석이 다름

이미지 출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=corncake123&logNo=220432526573

데이터를 효율적이고 정확하게 활용하기 위해 전문화된 이해도를 갖추도록 하자.

3. 예고(데이터 전처리 시리즈)

데이터 전처리의 유사어들은 많이 존재하지만, 개인적인 각색을 통해 데이터 가공(Data Manipulation)과 데이터 정제(Data Cleanging) 로 나누어 알아보겠다.

개인적 각색 :
- 1) 데이터 가공 : 부족한 정보를 외부에서 가져와 합치거나(Integration), 데이터의 형태를 변환(Transformation, Reduction)
- 2) 데이터 정제 : 원 데이터 내에서 잡음(Noisy), 결측치(Missing Values), 이상치(Outlier)를 처리

Today_Summary : 야생의 데이터를 좋은 원료로 가공하기 위해 전문지식을 갖추자

22.07.07

Thu, 07 Jul 2022 13:15:48 GMT

1. Daily Reflection

기상시간 : 05:30

학습목표 달성(1~10) : 6
기분점수(1~10) : 6
- 추천시스템 설계시 필요한 Pytorch, Tensorflow 딥러닝 프레임워크에 대한 이해가 쉽지않다. 배열부분과 마찬가지로 초석을 쌓는단 마음으로 천천히 학습하자

2. Today Review

- Today I Did :

범주형 데이터 시각화 방법 정리
추천시스템과 검색시스템의 차이 포스팅
딥러닝 프레임워크(Pytorch, Tensorflow)학습
- Today I Learn :
Pytorch
Tensorflow

3. Tomorrow's goal :

5시 30분 기상_월간과제

포스팅 방법(폼 통일화)체계화_월간과제
추천시스템에 사용되는 배열(numpy) 포스팅
데이터 전처리과정 포스팅

범주형 변수 탐색 (시각화를 통한 EDA #3)

Thu, 07 Jul 2022 13:15:26 GMT

seaborn, matplotlib으로 진행하는 시각화 EDA (범주형)

일정한 범위 내에서 어떻게 분포되어있는지 확인

특징의 형태가 파악되었다면, 적합한 시각화를 통해 직관적인 탐색을 진행한다.

수치형과 동일하게 Colab환경에서 seaborn, matplotlib library를 이용하여 시각화를 통한 EDA를 실습해보자.

실습데이터 : seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터

total_bill: 총 합계 요금표 tip: 팁 sex: 성별 smoker: 흡연자 여부 day: 요일 time: 식사 시간 size: 식사 인원

1) 범주형변수 1개

sns.countplot(), plt.pie()

1.1) 카운트도표_sns.countplot()

day변수(명목형)의 카테고리별 빈도수(y축)를 알 수 있다.
1.2) 파이차트_plt.pie()
- sex변수(명목형)의 각 부분의 차지 비율을 알 수 있다.(남성 64.34% / 여성 35.66%)

기초적인 수치를 통해 해당 변수가 어떤 분포를 띄고있는지 알 수 있는 도표를 먼저 사용해보자.

2) 범주형변수+수치형변수

sns.lineplot(), sns.scatterplot(), sns.barplot(), sns.pointplot(), sns.boxplot(), sns.violineplot()

2.1) 선도표_sns.lineplot()

feat.범주형(명목형)+수치형(연속형+이산형)

수치형(연속형) + 수치형(이산형) 일때 쓰였던 선도표에 범주형(명목형)을 표기할 수 있다.
식사자리에 흡연자 여부에 따라 식사인원과 팁의 상관관계를 확인할 수 있다. (흡연자가 자리한다면 3명이내의 식사에선 비흡연자 테이블보다 tip의 상승폭이 크지만, 4명 이상일 경우 tip이 오히려 줄어들며, 흡연자 존재시 식사인원이 결정될 수도 있다는 인사이트 확보)

2.2) 산점도_sns.scatterplot()

feat.범주형(명목형)+수치형(연속형+연속형)
수치형(연속형) + 수치형(연속형) 일때 쓰였던 산점도에 범주형(명목형)을 표기할 수 있다.
total_bill(지불금액)과 tip(팁)의 상관관계를 확인하되, sex(성별)을 포함하여 구체적인 확인이 가능하다. (지불금액이 30 이상인 식사는 남성들의 식사가 많았고, 같은 구역에서 팁 또한 남성이 더 많이 준다는 인사이트 확보)

2.3) 막대그래프_sns.barplot()

feat.범주형(명목형)+수치형(연속형)
x축과 y축에 각각 범주형과 수치형을 도식하여 카테고리별 평균,중위수,최댓값 등 확인가능
day(요일)에 따른 total_bill(지불금액) 평균치 확인 가능 (중앙에 그려진 검은 선은 95%의 신뢰구간 정보를 담음) (평일식사보다 주말식사에 지불하는 비용의 평균이 더 높다는 인사이트 확보)

2.4) 포인트도표_sns.pointplot()

feat.범주형(명목형)+수치형(연속형)
막대그래프와 같은 개념으로 같은 기능을 한다.
x축과 y축에 각각 범주형과 수치형을 도식하여 카테고리별 평균,중위수,최댓값 등 확인가능 (주말식사에 지불하는 비용의 평균이 더 높으며, 금요일 식사에 지불하는 비용의 분포가 넓다는 인사이트 확보)

2.5) 상자수염도표_sns.boxplot()

feat.범주형(명목형)+수치형(연속형)
막대그래프와 포인트도표는 y축이 평균,중위수,최댓값과 같은 특정값 확인에 특화되어있으나, 상자수염도표는 분포를 확인할 수 있다.
x축과 y축에 각각 범주형과 수치형을 도식한다. (점심식사와 저녁식사의 지불금액 분포를 확인하였을때 중위값은 저녁식사가 더 높으며, 점심식사의 상자크기가 더 작으므로, 점심식사는 중위수 근처에 데이터가 몰려있다는 인사이트 확보)

2.6) 바이올린도표_sns.violineplot()

feat.범주형(명목형)+수치형(연속형)
상자수염도표에서 표현이 취약한 분산 정보를 커널밀도함수를 통해 표현한다.
중앙 검은색 직사각형 모양이 Q1(1사분위수)~Q3(3사분위수)를 나타내며 흰색점이 Q2(2사분위수)를 표현한다. (양쪽으로 볼록 튀어나온 부분이 중위수 값이며, 돌출길이가 저녁식사보다 점심식사가 길기에 중위수 부근에 더 많은 값들이 분포했다는 인사이트를 보다 직관적으로 확보)
범주형(명목형) + 범주형(명목형) + 수치형(연속형) 에 대한 정보도 담을 수 있다. (식사시간 + 성별 + 지불금액)
split 옵션을 통해 성별에 따른 분포를 더 직관적으로 확인할 수 있다.
점심식사에서 돌출길이를 보면, 남성의 지불금액(좌츨 푸른색)보다 여성의 지불금액(우측 주황색)이 더 길단것을 알 수 있고, 여성의 지불금액이 중위수에 몰린 분포란 인사이트를 얻을 수 있다.
저녁식사에서 돌출길이는 남녀가 비슷하지만, 돌출부분의 높이에서 여성이 더 낮은곳에 위치하고 있으므로, 여성 지불금액은 남성 지불금액보다 낮다고 볼 수 있으며, 남성이 돈을 더 썼다는 인사이트를 얻을 수 있다.

복합적인 변수들의 정보를 담고있는 도표를 사용하여 직관적으로 파악하자.

분석가가 데이터를 개인적으로 간편히 파악하기 위해 사용하는 대중적인 도표들을 소개해 보았다.

측정 척도의 유형에 따라 활용할 수 있는 도표들을 익히고 내포하는 의미들을 이해하여 신뢰도 갖춘 분석의 시작점을 찾길 바란다.

추가적으로 새로운 특징을 만들거나, 삭제하는 등 타인에게 근거로 제시하는 과정에선 심미성을 향상시켜 더 높은 직관성을 갖춰야 하기에 도표의 색, 점모양 등의 변경으로 심미성 향상이 가능함을 추가적으로 시사한다.

Today_Summary :

수박을 고를때 줄무늬가 선명한지, 수박꼭지가 마르지 않았는지, 두드렸을때 소리가 청명한지 등 복합적으로 확인하여 선택하듯 내포하는 정보들을 복합적으로 종합하여 이해하자.

References

측정척도의 유형과 내용 Matplotlib가이드 Seaborn가이드

수치형 변수 탐색 (시각화를 통한 EDA #2)

Wed, 06 Jul 2022 12:54:06 GMT

seaborn, matplotlib으로 진행하는 시각화 EDA (수치형)

일정한 범위 내에서 어떻게 분포되어있는지 확인

특징의 형태가 파악되었다면, 적합한 시각화를 통해 직관적인 탐색을 진행한다.

Colab환경에서 seaborn, matplotlib library를 이용하여 시각화를 통한 EDA를 실습해보자.

실습데이터 : seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터

total_bill: 총 합계 요금표 tip: 팁 sex: 성별 smoker: 흡연자 여부 day: 요일 time: 식사 시간 size: 식사 인원

1) 수치형변수 1개

plt.hist(), sns.distplot(), sns.boxplot()

1.1) 히스토그램_plt.hist()

total_bill변수(연속형)의 구간별(x축) 빈도수(y축)를 알 수 있다.

1.2) 분포도_sns.displot()
- 히스토그램에 커널밀도함수가 추가된 그래프로, 부드러운 확률밀도함수를 동시확인 가능하다.
- 히스토그램의 경우 y축이 빈도수였으나, 분포도의 경우 비율로 표기된다.
  
  1.3) 상자수염그림_sns.boxplot()
- 최소값(가장 아래), 최대값(가장 위), Q1(1사분위수_하위25%), Q2(2사분위수_50%), Q3(3사분위수_75%), 이상치(outlier) 확인이 가능하다.
- 자료의 퍼짐과 순위를 한번에 담고있으며, 이상치를 확인하는데 용이하다.
- 이상치 판단 기준은 IQR = Q3-Q1 = 24.1275-13.3475 = 10.78 을 먼저 구한뒤 Q1 - 1.5 X IQR > Outlier Q3 + 1.5 X IQR < Outlier 에 의해
13.3475 - 1.5 X 10.78 = -2.8225 보다 작거나 24.1275 + 1.5 X 10.78 = 40.2975 보다 큰 값이 이상치가 된다.
total_bill은 지불금액이기 때문에 음의값이 존재하지 않으며, boxplot상에서도 아랫부분 이상치를 확인할 수 없다. 하지만, 40.2975보다 큰 값들은 boxplot상에서 점으로 표기된 이상치로 확인이 된다.

변수 한개에 한정하여 확인되기에, 전체 변수를 확인하기 어렵다면, 주요변수는 확인하자.

2) 수치형변수 2개

sns.heatmap(), sns.lineplot(), sns.scatterplot(), sns.regplot()

2.1) 히트맵_sns.heatmap()

변수들간의 상관관계를 알 수 있다.
corr()함수를 시각화 한 것으로 상관관계에 따라 타일의 색이 변화한다.
tip이 많을수록 total_bill(총지불금액)이 증가하는 tip과 total_bill은 높은 양의 상관관계이다. (size 또한 상대적으로 약할 뿐 높은 양의 상관관계)

2.2) 선도표_sns.lineplot() feat.연속형+이산형
연속형 데이터와 이산형 데이터의 관계를 선으로 나타내며, 상관관계를 알 수 있다.
size(식사인원)이 5명일때를 제외하곤 식사인원이 많아질수록 tip도 많아진다.
데이터가 둘 다 연속형일 경우, 모든 경우의수를 반영하는 선도표가 그려져 파악이 어렵다. (산점도로 대체)

2.3) 산점도_sns.scatterplot() feat.연속형+연속형
수치형 데이터 간 상관관계를 점으로 나타내며, x와 y 모두 연속형일때 선호된다.
전체적으로 우상향 하고 있기 때문에, 다시한번 tip과 total_bill은 양의 상관관계임을 알 수 있다.
연속형+이산형 조합일 경우 도식은 가능하나, 선도표가 더욱 직관적이다.

2.4) 회귀도표_sns.regplot() feat.연속형+연속형
회귀선을 도식하여 산점도보다 구체적인 선형관계를 확인할 수 있다. (선의 음영으로 신뢰구간 정보 파악 가능)

새로운 특징을 만들어내거나, 통합하는 과정에서 특징간의 관계를 참고하자. ex) 주성분 분석

연속형과 이산형 데이터를 구분하여 알맞은 시각화를 통해 직관적이고 효율적인 데이터탐색을 진행하며 필요시 근거로 제시할 수 있도록 한다.

Today_Summary : 수박을 고를때 줄무늬가 선명한지 보듯 직관성을 갖춘 탐색을 진행하자

References

Matplotlib가이드 Seaborn가이드

22.07.05

Tue, 05 Jul 2022 14:57:59 GMT

1. Daily Reflection

기상시간 : 05:30

학습목표 달성(1~10) : 10
기분점수(1~10) : 7
- 어제보다 정량적으로 달성한 목표는 많았으나,
- 정리를 위한 포스팅*과 설명을 위한 포스팅 간 정체성을 찾지 못한 나머지 모든 욕심을 해소하진 못했다. 암묵지를 형식지로 풀어내면서 효율적인 포스팅이 되도록 노력하자.

2. Today Review

- Today I Did :

pandas의 내장 method를 이용한 조회기반 EDA
데이터가 갖는 특징(자료구조) 분류법 정리
추천시스템의 전반적 개념 파악
- 탄생배경, 종류, 한계점
  - Today I Learn :
pandas 내장 method
- head(), tail(), shape, dtypes, info(), count(), value_counts(), mean(), median(), max(), min(), std(), describe(), corr()
Explicit Feedback
Implicit Feedback
ColdStart

3. Tomorrow's goal :

5시 30분 기상_월간과제

포스팅 방법(폼 통일화)체계화_월간과제
시각화를 통한 EDA 포스팅
추천시스템에 쓰이는 HartSkill 학습

특징(feature)의 형태 (시각화를 통한 EDA #1)

Tue, 05 Jul 2022 08:07:36 GMT

특징(feature)의 형태

데이터를 구성하는 특징의 구성 종류와 형태

조회를 통해 데이터를 파악하는 방식을 다뤘지만, 상세값들이 들어있는 Table형태, 수치화된 통계정보를 직관적으로 받아들이기엔 쉽지 않다.

(분산이 10이란걸 알게 되었어도, 전체 분포를 모르기에 10이 갖는 크기가 큰지 작은지 쉽게 와닿지 않음)

따라서 보편화하여 한눈에 볼 수 있는 그래프와 차트를 통해 데이터를 탐색하는 방법을 소개하려 한다.
다만, 특징(feature)의 형태별로 활용해야 하는 시각화가 다르기에, 탐색법을 나열하기 앞서, 특징의 종류를 파악해보자.

특징 분류 방법

Today_Summary : 데이터에 기입된 수치가 무엇을 뜻하는지 확인하고 (대분류) 의미를 파악하여 (소분류) 탐색 방향성을 결정하자.

조회를 통한 EDA (Non-Graphic)

Tue, 05 Jul 2022 05:17:54 GMT

pandas method로 진행하는 EDA

데이터를 다루고 파악하기 용이한 문법

데이터의 형태는 매우 다양(csv, json, API, ect..)하지만 대부분의 과정에서 데이터를 Table구조(표 형태)로 변형하여 확인한다.
행(가로)과 열(세로)의 간단한 구성이지만, 묶거나 분리하거나 정렬하는 등 확인을 거쳐가며 체계적인 작업이 용이하기 때문이다.
Table 형태의 데이터를 다룰때 필수적인 pandas의 내장method를 이용하여 데이터의 전신을 파악할 수 있다.

Colab환경에서 Pandas library를 통해 Table구조를 기반으로 한 EDA를 실습해보자.

실습데이터 : tips_na

seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터에 인위적으로 결측치, 이상치를 첨가한 데이터셋
total_bill: 총 합계 요금표 tip: 팁 sex: 성별 smoker: 흡연자 여부 day: 요일 time: 식사 시간 size: 식사 인원

1) 데이터 구성 미리보기 :

head(), tail()

1.1) head()

1.2) tail()

head()와 tail()은 각각 데이터의 상단 5개, 하단 5개를 불러와 어떤 구성으로 되어있는지 미리보기 위해 사용된다.

데이터를 핸들링하는 과정에서 원하는대로 편집 되었는지 간략히 확인

2) 데이터 요약정보 확인하기 :

shape, dtypes, info()

2.1) shape

shape을 통해 데이터의 전체 형태(행, 열)을 알 수 있다. (244 행, 7개 열) 형태
2.2) dtypes
데이터 변수(열)들의 타입(자료형태)을 보여준다. (total_bill = 소숫점형태, size = 정수형태, sex = 객체형태)
head()로 확인했을때 tip 은 숫자였는데, 객체형태로 확인된다면, 하나라도 객체형 데이터가 삽입되어있다는 것을 간접적으로 알 수 있다.
2.3) info()
데이터의 기본 정보(데이터 형태, 결측치여부, 변수타입, 메모리)를 보여준다.

데이터의 형태, 구성에 대해 확인하고, 이상한 점을 대략적으로 파악

3) 통계정보 확인하기 :

count(), value_counts(), mean(), median(), max(), min(), std(), describe(), corr()

3.1) count()

각 변수별 몇개의 값이 채워져 있는지 보여준다. (244개의 행이 있으나, 이보다 작은 값을 가진 변수의 경우 값이 없는 결측치가 존재한다는 것을 간접적으로 알 수 있다.)
3.2) value_counts()
특정 열의 고유값 갯수를 확인한다. (전체 데이터를 예시로 들기엔, 광범위하여 smoker 변수로 한정. No 145개, Yes 93개 값을 지닌다.)

3.3) max(), min(), mean(), median(), var(), std()

max()로 데이터 프레임 내 각 변수들의 최대값을 알 수 있다. (값이 object 자료형일땐 첫번째 글자의 아스키코드를 기준으로 최대,최소값이 결정)
수치형 변수에 대해서만 보기 위해선 "numeric_only = True" 조건을 추가

min()으로 데이터 프레임 내 각 변수들의 최소값을 알 수 있다.

mean()으로 데이터 프레임 내 각 변수들의 평균값을 알 수 있다.

median()으로 데이터 프레임 내 각 변수들의 중앙값을 알 수 있다.

var()로 데이터 프레임 내 각 변수들의 분산을 알 수 있다.

std()로 데이터 프레임 내 각 변수들의 표준편차를 알 수 있다.

3.4) describe()

값의 수, 고유값의 수, 최빈값, 빈도수, 평균, 표준편차, 최소값, 사분위수, 최대값 순으로 출력되며, 자료형에 적합하지 않으면 'NaN'으로 생략된다.

3.5) corr()

수치형 변수간의 상관계수(비례관계의 정도)를 확인할 수 있다.
상관계수 의미

0.7~1.0 매우 높은 음/양의 상관관계

0.3~0.7 높은 음/양의 상관관계

0.1~0.3 약한 음/양의 상관관계

0.0~0.1 상관관계 없음
total_bill과 size는 높은 양의 상관관계이다. (식사인원이 증가할수록 총 지출금액이 증가한다.)

상관계수	의미
`0.7~1.0`	`매우 높은 음/양의 상관관계`
`0.3~0.7`	`높은 음/양의 상관관계`
`0.1~0.3`	`약한 음/양의 상관관계`
`0.0~0.1`	`상관관계 없음`

값들의 분포, 관계에 대해 대략적으로 확인

이 외에도 다양한 내장메소드들이 있으며, 조합에 따라 부분적으로 확인 하는 것 또한 가능하다. 표 형태의 데이터를 가장 간편히 다룰 수 있는 도구로 꼭 익혀놓아야 할 가치가 있으니, 아래 Reference를 참고하여 학습을 진행하길 바란다.

Today_Summary : 재료를 손질하기 위해 pandas로 요목조목 살펴보자.

References

pandas가이드 pandas 연습 튜토리얼

22.07.04

Mon, 04 Jul 2022 12:38:34 GMT

1. Daily Reflection

기상시간 : 06:30

학습목표 달성(1~10) : 10
기분점수(1~10) : 7
- 개념정리와 더불어 '비전공자에게 설명한다.'는 가정 하에 포스팅하는것이 목표였으나, 몇시간째 작성하는 내 모습은 비효율 그 자체였다. 한달정도 과도기를 겪는단 마인드로 익숙해질때까지 꾸준하게 임해보자!

2. Today Review

- Today I Did :

나만의 언어로 EDA해석 및 포스팅
추천시스템 알고리즘 종류, 개념 파악
- Today I Learn :
EDA의 중요성
EDA 구체적방법
Contents-Based RecSys
Collaborative Filtering RecSys
Hybrid RecSys
Context-Based Recsys
Community-Based Recsys
Knowledge-Based Recsys_(Case-Based, Constraint-Based)

3. Tomorrow's goal :

5시 30분 기상

포스팅 방법(폼 통일화)체계화
추천시스템의 한계 학습 후 포스팅

About EDA

Mon, 04 Jul 2022 05:01:59 GMT

EDA(Exploratory Data Analysis) 탐색적 데이터 분석

당신이 데이터에 대해 알아보는 "모든" 행위

본론에 들어가기 앞서 EDA는 명확하게 "어떠한 방법"이라고 정의하기 어려운 과정이다.
이유인 즉슨

1) 탐색 이라는 단어가 갖는 의미가 광범위하기 때문 2) 방법 이 한가지로 규정되어 있지 않기 때문 이다.
장님이 코끼리를 만진다고 가정해보자.

이미지 출처 : https://t1.daumcdn.net/cfile/blog/121399414FFD16CF28?original

부분적으로 판단한다면 부위별로 우스운 답변이 도출될 것이나, 모든 부위를 만져본다면 코끼리 라는 결론에 다다를 수 있을 것이다.
즉, 데이터를 통해 Insight(통찰)에 다다르기 위해선 다각도, 다방면에서 탐색적 데이터 분석을 통한 이해가 필요하다.

1. 절차

"그래도 대표적으로 시행해야하는 절차가 있지 않을까요?" 라고 묻는다면, 기본적으로 아래의 과정을 소개해 주고 싶다.

1) 결측치(Missing Value) 가 있는지 확인 하는 것
2) 이상치(Outlier) 가 있는지 확인하는 것
3) 데이터 타입(dtypes)을 확인하는 것
4) 행과 열의 수를 확인하는 것 (shape)
5) 기존 데이터를 통해 새로운 데이터를 생성 하는 것
6) 결측치를 채우는 것 (fillna)
이 외에도 데이터에 대해 파악할 수 있는 모든 행위가 포함된다.

2. 직무 내 EDA의 비중

Forbes선정 데이터직군의 작업별 소요시간

이미지 출처 : https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=26a5b3b46f63

위 지표를 보면 60%(연두색)를 전처리를 포함한 EDA가 차지하고 있으며, 여담으로 데이터 분석가, 과학자들이 가장 고통스러워 하는 단계이다. 수학문제집을 푸는것은 재밌지만, 개념을 배우는 고통스러운 수업이 선행되어야 하는 느낌과 비슷하다고 볼 수 있지 않을까? ~~"나는 분석스킬을 가지고 있는데, 분석은 커녕 대부분의 시간을 확인작업에 쓰고있네..."라는 자괴감~~

3. 마인드셋

고통스러울지언정, 양질의 분석결과를 얻기 위해 감내하자.
데이터의 상태를 확인하고, 적절한 전처리를 해주며 어떻게 분석을 진행할지 설계하는 과정으로 받아들이자.
그래야 깨끗한 데이터를 통해 정확한 결과를 얻을 수 있을테니 말이다. (Garbage in, Garbage out 방지)

chanp.log

ADsP엔 데이터에듀 민트책!

시작에 앞서, 본 포스팅은 데이터 에듀 서평단 이벤트 당첨으로 도서를 지원받아 작성한 글임을 알립니다.

ADsP란?

1. 선정 이유

2. 교재 구성

3. 학습자료

총평

데이터리안) SQL 데이터 분석 캠프 수강 후기

시작에 앞서, 본 포스팅은 광고가 아닌 "내돈내산" 수강후기임을 밝힙니다.

SQL이란?

1. 나의 수강배경

2. 커리큘럼

3. 질의응답

Fig1 : Slack 집중 질의응답 시간

4. 스터디그룹 매칭

(기록의 장점과 프라이빗함, 스터디를 진행할 수록 공간을 채워나가는 애착은 덤)

Fig2 : Notion 스터디그룹 스케줄러

Fig3 : Notion 스터디그룹 회고록

Fig4 : Notion 스터디그룹 코드 기록

5. 기타 장 / 단점 평가

Fig5 : 프로그래머스 풀이 인증

Fig6 : 강의 구성 및 진행시간

마치며..

Data Preprocessing (Data Preprocessing #1)

1. 데이터 전처리(Data Preprocessing)

이미지 출처 : https://www.analyticsvidhya.com/blog/2021/08/data-preprocessing-in-data-mining-a-hands-on-guide/

2. 도메인 지식(Domain Knowledge)

이미지 출처 : https://thenounproject.com/icon/expert-2263180/

이미지 출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=corncake123&logNo=220432526573

3. 예고(데이터 전처리 시리즈)

Today_Summary : 야생의 데이터를 좋은 원료로 가공하기 위해 전문지식을 갖추자

추천시스템과 검색시스템 차이

추천시스템과 검색시스템

1. 검색시스템

2. 추천시스템

3. 정리

22.07.07

1. Daily Reflection

2. Today Review

- Today I Did :

- Today I Learn :

3. Tomorrow's goal :

범주형 변수 탐색 (시각화를 통한 EDA #3)

seaborn, matplotlib으로 진행하는 시각화 EDA (범주형)

1) 범주형변수 1개

sns.countplot(), plt.pie()

1.1) 카운트도표_sns.countplot()

1.2) 파이차트_plt.pie()

2) 범주형변수+수치형변수

sns.lineplot(), sns.scatterplot(), sns.barplot(), sns.pointplot(), sns.boxplot(), sns.violineplot()

2.1) 선도표_sns.lineplot()

feat.범주형(명목형)+수치형(연속형+이산형)

2.2) 산점도_sns.scatterplot()

feat.범주형(명목형)+수치형(연속형+연속형)

2.3) 막대그래프_sns.barplot()

feat.범주형(명목형)+수치형(연속형)

2.4) 포인트도표_sns.pointplot()

feat.범주형(명목형)+수치형(연속형)

2.5) 상자수염도표_sns.boxplot()

feat.범주형(명목형)+수치형(연속형)

2.6) 바이올린도표_sns.violineplot()

feat.범주형(명목형)+수치형(연속형)

Today_Summary :

수박을 고를때 줄무늬가 선명한지, 수박꼭지가 마르지 않았는지, 두드렸을때 소리가 청명한지 등 복합적으로 확인하여 선택하듯 내포하는 정보들을 복합적으로 종합하여 이해하자.

References

수치형 변수 탐색 (시각화를 통한 EDA #2)

seaborn, matplotlib으로 진행하는 시각화 EDA (수치형)

1) 수치형변수 1개

plt.hist(), sns.distplot(), sns.boxplot()

1.1) 히스토그램_plt.hist()

1.2) 분포도_sns.displot()

1.3) 상자수염그림_sns.boxplot()

2) 수치형변수 2개

sns.heatmap(), sns.lineplot(), sns.scatterplot(), sns.regplot()

2.1) 히트맵_sns.heatmap()

2.2) 선도표_sns.lineplot() feat.연속형+이산형

2.3) 산점도_sns.scatterplot() feat.연속형+연속형

2.4) 회귀도표_sns.regplot() feat.연속형+연속형

Today_Summary : 수박을 고를때 줄무늬가 선명한지 보듯 직관성을 갖춘 탐색을 진행하자

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig1 : Slack 집중 질의응답 시간

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 Fig2 : Notion 스터디그룹 스케줄러

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig3 : Notion 스터디그룹 회고록

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig4 : Notion 스터디그룹 코드 기록

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig5 : 프로그래머스 풀이 인증

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig6 : 강의 구성 및 진행시간

메뉴가 많은 식당은 주문이 오래걸리니 메뉴를 간소화해주는 일종의 컨설팅 역할
(취향저격 필터링)