<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>chanp.log</title>
        <link>https://velog.io/</link>
        <description>암묵지를 형식지로 풀어내는 데이터사이언티스트</description>
        <lastBuildDate>Sat, 28 Jan 2023 16:06:12 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>chanp.log</title>
            <url>https://velog.velcdn.com/images/chan_p/profile/613efa5e-4e58-4eb6-883c-c992febc80cc/social_profile.jpeg</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. chanp.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/chan_p" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[ADsP엔 데이터에듀 민트책!]]></title>
            <link>https://velog.io/@chan_p/ADsP%EC%97%94-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%97%90%EB%93%80-%EB%AF%BC%ED%8A%B8%EC%B1%85</link>
            <guid>https://velog.io/@chan_p/ADsP%EC%97%94-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%97%90%EB%93%80-%EB%AF%BC%ED%8A%B8%EC%B1%85</guid>
            <pubDate>Sat, 28 Jan 2023 16:06:12 GMT</pubDate>
            <description><![CDATA[<h4 id="시작에-앞서-본-포스팅은-데이터-에듀-서평단-이벤트-당첨으로-도서를-지원받아-작성한-글임을-알립니다">시작에 앞서, 본 포스팅은 데이터 에듀 서평단 이벤트 당첨으로 도서를 지원받아 작성한 글임을 알립니다.</h4>
<p><br><br></p>
<h3 id="adsp란">ADsP란?</h3>
<ul>
<li>데이터 분석 준전문가 자격증으로 데이터 이해에 대한 기본지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 개념을 다룬다.<br><br></li>
<li>몇개 없는 데이터 자격증 중 하나이며 실기 없이 필기로만 취득이 가능한 자격증이다.
상대적으로 난이도가 낮아 첫 자격증으로 선택하는 경우가 많다.<br><br></li>
<li>23년 기준 1회차는 02.26(일)예정</li>
</ul>
<hr>
<h3 id="1-선정-이유">1. 선정 이유</h3>
<blockquote>
<ul>
<li><strong>시험접수</strong>
데이터분석의 전반적인 개념을 다루는 자격증이기에 시험접수일을 기다리고 있었고, 2023년 1회차합격을 목표 하였기에 개편된 교재를 찾게 되었다.<br>
ADsP 하면 &#39;민트책&#39;이라는 유명세를 지니고 있는데, 바로 오늘 다룰 내용이 데이터에듀의 민트색상 표지 &quot;ADsP 데이터분석 준전문가&quot;이다.
<img src="https://velog.velcdn.com/images/chan_p/post/06544c47-d52e-472f-b610-a1b39bb2814d/image.jpg" alt=""><br>
</li>
</ul>
</blockquote>
<ul>
<li><strong>적중률</strong>
작년 데이터 진흥원에서 진행하는 &#39;빅데이터 분석기사&#39;에 불합격 한 경험이 있다. 
시행 횟수가 많지 않은 시험이니 만큼 기출도 많지 않았고 어떠한 문제가 나올지 의견이 분분했다.<br>
본인 역시 타사의 교재로 학습 후 시험에 임했으나, 수립되어있던 모의고사의 적중률은 매우 낮은편이였고, 
타 수험생들 또한 &quot;시중에 웬만한 책으론 적중률 보장받기 힘들다.&quot;라는 평을 하곤 했다.
<br><br></li>
<li><strong>대중성</strong>
그러나 ADsP자격증은 얘기가 달랐다.
응시자들 대다수가 &#39;민트책&#39;을 선택했었으며, 합격자들은 극찬을 하고 있었다.
ADsP란 키워드가 나오는 즉시 &quot;민트책 한권이면 끝난다.&quot;라는 평을 받고 있었기에
까다로운 소비자들을 만족시킨 해당 교재를 선택하였다.</li>
</ul>
<hr>
<h3 id="2-교재-구성">2. 교재 구성</h3>
<ul>
<li><strong>넓은 개념이지만 이에 그치지 않는 세세한 설명</strong></li>
</ul>
<blockquote>
<ul>
<li>자격증이 데이터 분석의 전반적인 개념을 다루는 지라 범위가 상당하다.
그러나 <strong>대충 시사하고 넘어가는 것이 아닌 상세한 개념이 수립</strong>되어 있어</li>
<li><em>비전공자도 이해가 가능*</em>해 보인다.<img src="https://velog.velcdn.com/images/chan_p/post/bb98fe98-1d32-49cb-ba29-edc02061c30a/image.jpg" alt=""><br></li>
</ul>
</blockquote>
<ul>
<li><p>위의 특징 때문일까, <strong>오래보기엔 다소 아쉬운 가독성</strong>을 지니고 있다.
깔끔하지만 심심한 디자인 탓에 글자수의 압박을 느꼈다.</p>
</li>
<li><p><em>그만큼 본질에 집중했다는 뜻*</em>으로 받아들인다면, 큰 장벽은 아니라 생각한다.
(목적이 자격증 취득인 만큼 디자인은 사치다.)</p>
</li>
<li><p><strong>엄청난 문제량</strong></p>
</li>
</ul>
<blockquote>
<ul>
<li>&#39;민트책&#39;을 추천하는 가장 큰 이유!</li>
<li><em>압도적인 &#39;문제량&#39;*</em>이다.
챕터가 끝날때 마다 과목별 예상문제를 풀어볼 수 있으며,
이는 <strong>개념정리+위치자각</strong> 의 장이 된다.
<img src="https://velog.velcdn.com/images/chan_p/post/cc26a124-c16d-4ea4-977f-04b55fa4bbf2/image.jpg" alt=""></li>
</ul>
</blockquote>
<blockquote>
<ul>
<li><strong>다량의 기출문제</strong>
대다수 <strong>국가시험의 합격포인트 = 기출문제를 얼마나 풀어봤느냐</strong> 이다.
해당 관점은 ADsP에서도 별반 다를게 없으며, 대중들이 <strong>극찬하는 이유</strong>도 교재에 수립된 <strong>다량의 &#39;기출문제&#39;</strong>가 8할이다.
<img src="https://velog.velcdn.com/images/chan_p/post/4ece0305-27c1-48ae-8d1d-5e10b105820d/image.jpg" alt=""><strong>개념학습을 배제한 단순 취득이 목적이라면 기출만 돌려도 큰 도움이 될 것으로 예상된다.</strong></li>
</ul>
</blockquote>
<hr>
<h3 id="3-학습자료">3. 학습자료</h3>
<ul>
<li><strong>학습자 맞춤형 자료 수립</strong> </li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/b01ebd61-c0b6-4b1b-b575-ca32bc876063/image.png" alt=""> QR코드로 영상강의를 제공한다.
글만으로 이해가지 않는 개념을 잡을 수 있으며,
기출문제의 경우에도 텍스트 해설로 부족하다면 해설영상을 참고하면 될 듯 하다.</p>
</blockquote>
<ul>
<li><strong>시험임박 대비 정리노트</strong> </li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/77e936be-5e8b-4f8c-b7d4-e4f989f06953/image.jpg" alt=""> D-Day가 얼마 남지 않았거나 당일일 경우 활용할 수 있는 정리노트가 있다.
차분히 머릿속 내용을 정돈하거나
단기기억력을 끌어올려 한문제라도 더 맞출 수 있는 효과를 기대할 수 있을 듯 하다.</p>
</blockquote>
<hr>
<h3 id="총평">총평</h3>
<p>배경이 다양한 수험생들을 모두 아우르는 교재</p>
<ul>
<li>여유로운 시작자 or 비전공자 : 상세한 개념학습 위주</li>
<li>취득만이 목표 or 전공자 : 정리노트와 기출문제 풀이 위주</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[데이터리안) SQL 데이터 분석 캠프 수강 후기]]></title>
            <link>https://velog.io/@chan_p/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A6%AC%EC%95%88-SQL-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%BA%A0%ED%94%84-%EC%88%98%EA%B0%95-%ED%9B%84%EA%B8%B0</link>
            <guid>https://velog.io/@chan_p/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A6%AC%EC%95%88-SQL-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%BA%A0%ED%94%84-%EC%88%98%EA%B0%95-%ED%9B%84%EA%B8%B0</guid>
            <pubDate>Wed, 30 Nov 2022 15:32:48 GMT</pubDate>
            <description><![CDATA[<h4 id="시작에-앞서-본-포스팅은-광고가-아닌-내돈내산-수강후기임을-밝힙니다">시작에 앞서, 본 포스팅은 광고가 아닌 <em>&quot;내돈내산&quot;</em> 수강후기임을 밝힙니다.</h4>
<p><br><br></p>
<h3 id="sql이란">SQL이란?</h3>
<blockquote>
</blockquote>
<ul>
<li>빅데이터 활용간 방대한 데이터 저장소(DB) 에서 원하는 정보를 효율적으로 불러 오는 언어<br><br></li>
<li>데이터 산업군(데이터 사이언티스트, 애널리스트, 엔지니어) 뿐만 아니라 마케터 등 지표를 분석하는 직군에서 중요성이 대두</li>
</ul>
<hr>
<h3 id="1-나의-수강배경">1. 나의 수강배경</h3>
<blockquote>
<ul>
<li><strong>관심분야</strong>
빅데이터 직군으로의 진출을 희망하고 있으며, 대중을 이해하고 전략을 수립하는 마케팅 직무 분야로 커리어의 시작을 준비하고 있다. <br><br></li>
</ul>
</blockquote>
<ul>
<li><strong>필요성</strong>
Python기반 데이터 분석 토이프로젝트를 몇차례 진행한 경험이 있으나, 방대한 log_data를 활용하는 프로젝트 시 Python만으론 원하는 데이터를 가져오는데 한시간이 넘게 걸리는 등 리소스 관리 면에서 난항을 겪은 경험이 있다.<br><br></li>
<li><strong>대중성</strong>
데이터 직군으로의 취업을 준비하고 있는 현재, 많은 채용공고에서 SQL실력을 요구하고 있었다.
또한, 과거 프로그래머스 플랫폼 내 채용매칭 코딩테스트 응시 당시 SQL문제가 출제 되는 등 SQL의 위치를 체감하였다.<br>
SQLite를 기반으로 기초적인 쿼리문을 작성할 줄 알았으나, 범용성 자체가 넓은 툴은 아니였기에, 시장점유율이 큰 MySQL을 학습해보고자 하였다.<br><br></li>
<li><strong>기대감</strong>
데이터리안에서 매달 진행하는 월간세미나를 청취하며 세미나 진행 방식, 다양한 주제선정, 현업자의 경험담, 게스트 섭외능력 등 신선한 자극이 되었고, 소통간 그들이 사용하는 전문용어들을 나의 언어로 정립하고 싶어졌다.</li>
</ul>
<hr>
<h3 id="2-커리큘럼">2. 커리큘럼</h3>
<ul>
<li><strong>코드작성 플랫폼을 활용한 실습위주 진행</strong></li>
</ul>
<blockquote>
<ul>
<li>1주차 : 데이터테이블 조회 기초함수)(SELECT / FROM / ORDER BY)<br><br></li>
</ul>
</blockquote>
<ul>
<li>2주차 : 데이터를 종합하고 지표를 확인하는 집계함수<br>　　　  (GROUP BY / COUNT / SUM / AVG)<br><br></li>
<li>3주차 : 데이터 테이블간 연결<em>(INNER, OUTER, SELF JOIN)<br>　　　 + 조건문\</em>(CASE문 / IF문) <br>　　　 + 실무개념_(EDA / RFM분석 / 피봇테이블)<br><br></li>
<li>4주차 : 고객 세분화 분석 프로세스_(AARRR / ARPPU)</li>
</ul>
<hr>
<h3 id="3-질의응답">3. 질의응답</h3>
<ul>
<li><strong>방치가 없는 실시간 질의응답시간 진행</strong> </li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/b5b315c2-bab5-45eb-8778-e312a8ceaf2c/image.png" alt=""></p>
</blockquote>
<h6 id="fig1--slack-집중-질의응답-시간">　　　 　　　 　　　　　　　　　　　　　　　　　　　　　　 　　　 　　　 　　　　　　　　　Fig1 : Slack 집중 질의응답 시간</h6>
<blockquote>
<p>업로드 된 강의를 수강하는 온라인 방식이나, 단순 업로드에 그친 방치성 컨텐츠가 아니다.<br>댓글로 질문하면 답변까지 1주일 이상이 걸리는 여타 플랫폼과 달리,<br>집중 질의응답 시간이 Slack채널에서 실시간으로 진행되며, 크루들의 정성적인 답변이 제공된다. 더불어 해당 시간 이후에도 크루들이 잊지않고 댓글을 달아주며 지속적인 토의가 가능하다.</p>
</blockquote>
<hr>
<h3 id="4-스터디그룹-매칭">4. 스터디그룹 매칭</h3>
<blockquote>
<p>추가 학습에 관심이 있는 수강생을 자원받아 3~4명 단위로 매칭해 주며,<br> 가이드라인을 제시_(자율성을 해치지 않는 선)해 주기에 막막하지 않게 진행할 수 있었다.<br>
Slack 내에서 스터디원들과 소통이 가능 하나, 알림을 동반한 메시지 전송이 부담스럽다면, 아래와 같이 추가적인 협업툴(Notion)을 활용하는것이 효과적이라 생각한다.</p>
</blockquote>
<h5 id="기록의-장점과-프라이빗함-스터디를-진행할-수록-공간을-채워나가는-애착은-덤"><em>(기록의 장점과 프라이빗함, 스터디를 진행할 수록 공간을 채워나가는 애착은 덤)</em></h5>
<p><img src="https://velog.velcdn.com/images/chan_p/post/c434193e-e644-4c97-bc38-d336f058ae5e/image.jpg" alt=""></p>
<h6 id="fig2--notion-스터디그룹-스케줄러">　　　　　 　　　 　　　 　　　 　　　 　　　 　　　　 　　　 　　　 　　　 　　　 　　　 Fig2 : Notion 스터디그룹 스케줄러</h6>
<p><img src="https://velog.velcdn.com/images/chan_p/post/45582e7b-a44a-4868-a4aa-11e254a35113/image.png" alt=""></p>
<h6 id="fig3--notion-스터디그룹-회고록">　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　Fig3 : Notion 스터디그룹 회고록</h6>
<p><img src="https://velog.velcdn.com/images/chan_p/post/2fdda06d-3ca8-47e6-bfdb-80df4c792ffc/image.jpg" alt=""></p>
<h6 id="fig4--notion-스터디그룹-코드-기록">　　　 　　　 　　　　　　　　　　　　　　　　　　　　 　　　 　　　 　　　　　　　　　Fig4 : Notion 스터디그룹 코드 기록</h6>
<hr>
<h3 id="5-기타-장--단점-평가">5. 기타 장 / 단점 평가</h3>
<ul>
<li><strong>SQL학습 경험이 있어 무지 하지 않았기에 더욱 단호한</strong><br>(새로운 분야에서 배움의 행복에 취해 작성한 글로 내비춰 지지 않기위함)</li>
</ul>
<blockquote>
<p><strong>장점</strong><br>
<strong>1) 접근을 쉽게 하지만 가볍지 않은 컨텐츠</strong><br>　현직 데이터분석가들이 진행하기에 문법적인 요소를 언제 어떻게 사용해야 하는지<br>　예시가 충분하며, 실습을 통해 체득이 가능하다. <em>(문제를풀다보면 재밌다.)</em><br>　해당 과정을 수료 시 &quot;프로그래머스 SQL 고득점 Kit&quot;을 대부분 해결 가능 하고,<br>　새로접한 코딩플랫폼에서 더 어려운 문제를 찾고있는<br>　또 다른 나를 발견 할 수 있을것이며, 이는 코딩테스트의 합격에 기여할 것이다.
<img src="https://velog.velcdn.com/images/chan_p/post/2f1c2a87-259a-4b1d-979b-79f6fcd41459/image.png" alt=""></p>
</blockquote>
<h6 id="fig5--프로그래머스-풀이-인증br">　　　 　　　 　　　　　　　　　　　　　　　　　　　　　　　 　　　 　　　 　　　　　　　　　Fig5 : 프로그래머스 풀이 인증<br></h6>
<p><strong>2) 짧은 호흡의 강의로 누리는 자유로움</strong><br>　모든 온라인 강의가 자유로운것은 마찬가지겠지만, 조금은 결이 다르다.<br>　나는 이러한 이유를 <strong>&quot;짧은 강의 호흡&quot;</strong> 덕이라 생각한다. <br>　한 영상당 30~50분을 할애해야 하는 것이 아니라,<br>　세분화를 통한 10분 내외의 강연 구성이기에 학습중 맥이 끊기는 일이 없었다.
<img src="https://velog.velcdn.com/images/chan_p/post/34c17eef-707a-4010-8d9a-f0bbbb5234be/image.png" alt=""></p>
<h6 id="fig6--강의-구성-및-진행시간br">　　　 　　　 　　　　　　　　　　　　　　　　　　　　　　　 　　　 　　　 　　　　　　　　　Fig6 : 강의 구성 및 진행시간<br></h6>
<p>　해당 주차 내용이 쉽게 다가왔거나, 흐름을 이어 예습 하고 싶다면<br>　부담없이 진행할 수 있다.<br>　<em>(완강을 앞당기는것도 무리는 아니다.)</em><br>
<strong>3) 책임감이 일어나는 수강환경</strong><br>　강의를 구매하는 구조가 아닌 완강시 제공되는 구조이기에, 나태해 질 수 없다.<br>　천성이 게으르다 할지 언정, 인간의 확보심리 상 결제한 강의를<br>　소장하고 싶어 하리라 생각한다.<br>　강압적이진 않지만 강의를 볼모 삼아서라도 완강 할 수 있는 환경이다.<br>　<em>(본인은 실습이 재밌어 나태해짐을 느낄 새가 없었다.)</em><br>
<strong>4) 만족스러운 스터디그룹 매칭</strong><br>　학습 할 준비가 된, 의지가 충만한 이들을 선별하고자, 개강 첫날 자원자에 한하여<br>　꾸려지기에 분위기가 고양된다. <br>　뿐만 아니라, 그룹이 학습에 전념할 수 있도록 시간대가 맞는 수강생을<br>　매칭해 주는 디테일한 배려가 있었기에 스터디 시간으로 왈가왈부 할게 없었다.<br>　(시간이 허락한다면 적극 참여하기 바란다.)<br>
<strong>ETC )</strong> Slack을 활용한 지속적인 커뮤니티 참여(스터디그룹 / 프로젝트피드백 및 팀 구성)<br>　　　+ 매달 월간세미나 무료 참여</p>
<blockquote>
<p><strong>아쉬운점</strong><br>
<strong>1) 적응해야하는 적지않은 플랫폼</strong><br>　적응해야하는 강연플랫폼과 실습 플랫폼이 적지 않다는 느낌을 받았다.<br>　하다보면 적응하기에 첫주차에 겪는 홍역이라 치부할 순 있지만,<br>　사이트를 번갈아가며 실습하다보니 편리성이 떨어진다는 느낌은 지워지지 않았다.<br><br>　(다양한 코딩 플랫폼을 접속하며 습관적으로 데이터 구성을 파악하는<br>　루틴을 획득했기에 약간의 귀찮음으로 더 큰것을 얻어간것이라 생각해본다.<br>　+ 여러 실습 사이트를 소개받게된 부분도 좋게 해석될 수 있다.)<br>
<strong>2) 깊다기엔 아쉬운 마케팅적 접근</strong><br>　입문반이기에 SQL문법에 무게를 두었고, 이것만으로 마케팅적인 분석을 진행하기엔<br>　다소 무리가 있다는 것을 알고 있다.<br>　그러나, 실무에 활용하는 수준을 기대했던 본인이기에, 토이프로젝트를 진행할 수 있는<br>　레벨로는 만족스럽지 못했다.<br>　<em>(물론 스스로 갈고 닦아야 하는 과정이 생략됐지만...<br>　+ 문법만으로도 알찬 구성이지만 괜한 욕심이 샘솟는다.)</em><br><br>　어찌 태어나자마자 걷길 바라겠는가!<br>　자기객관화를 통해 현실을 직시해 본다면 마케팅에 무지했던 나의<br>　초기목표였던 <strong>&quot;그들이 사용하는 전문용어 습득&quot;</strong>에 접근했기에 최초목표엔<br>　도달했다고 보려한다.</p>
</blockquote>
<h4 id="마치며">마치며..</h4>
<p>이 글이 닿을지 모르겠으나, 4주동안 기초격에 가까운 질문을 받아주신 <strong>데이터리안 크루분들</strong>,<br> 부족한 스터디장을 따라와주신 <strong>두분의 스터디원분들</strong> 덕에 오랫만에 배움이 즐거웠습니다!</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[Data Preprocessing (Data Preprocessing #1)]]></title>
            <link>https://velog.io/@chan_p/preprocessing</link>
            <guid>https://velog.io/@chan_p/preprocessing</guid>
            <pubDate>Fri, 08 Jul 2022 07:08:18 GMT</pubDate>
            <description><![CDATA[<h2 id="1-데이터-전처리data-preprocessing">1. 데이터 전처리(Data Preprocessing)</h2>
<ul>
<li>데이터를 사용하고자 하는 목적에 맞게 변형하는 작업</li>
</ul>
<p><img src="https://velog.velcdn.com/images/chan_p/post/e56e4a34-8f1d-4c1d-8a88-9393796953b5/image.webp" alt=""></p>
<h6 id="이미지-출처--httpswwwanalyticsvidhyacomblog202108data-preprocessing-in-data-mining-a-hands-on-guide">이미지 출처 : <a href="https://www.analyticsvidhya.com/blog/2021/08/data-preprocessing-in-data-mining-a-hands-on-guide/">https://www.analyticsvidhya.com/blog/2021/08/data-preprocessing-in-data-mining-a-hands-on-guide/</a></h6>
<blockquote>
<p>빅데이터는 광범위한 정보를 담고있기에 분석시 모든 특성을 반영하기 어렵고, 용량적으로도 부하가 커 효율적으로 활용하기 위해 간결성을 갖춰놓아야 한다.<br>
따라서, 원데이터를 그대로 사용하기보다 원하는 형태로 가공하는 과정을 거치는데,이를 <strong>데이터 전처리</strong>라고 한다.<br>
이는 일종의 <strong>필터링</strong>작업으로 볼 수 있는데, 기껏 시간과 돈을 들여 수집한 데이터를 허비하지 않고 솎아내기 위해 데이터와 산업에 대한 이해도가 요구된다.</p>
</blockquote>
<hr>
<h2 id="2-도메인-지식domain-knowledge">2. 도메인 지식(Domain Knowledge)</h2>
<p><img src="https://velog.velcdn.com/images/chan_p/post/26eec601-a720-4268-b765-f4726e51d03d/image.png" alt=""></p>
<h6 id="이미지-출처--httpsthenounprojectcomiconexpert-2263180">이미지 출처 : <a href="https://thenounproject.com/icon/expert-2263180/">https://thenounproject.com/icon/expert-2263180/</a></h6>
<blockquote>
<p>도메인 지식이란 전문화된 학문/분야의 지식을 뜻하며, <strong>이해도</strong>로 표현할 수 있다.<br>
전처리 과정에서 도메인 지식 없이 기계적으로 어떤 데이터를 줄이거나 재구성한다면 데이터에 녹아 있는 정보가 유실된다.<br>
따라서, 어떤 데이터가 군더더기인지 알아봐야 하고, 데이터에 포함된 의미와 이를 어떻게 재구성해야 하는지 계획을 세우는데 있어 분석가의 배경지식이 영향을 미친다.<br>
ex) 같은 단어이지만 배경지식에 따라 해석이 다름
<img src="https://velog.velcdn.com/images/chan_p/post/7d76a6e7-00d9-4a2c-a899-e4e972dd74f3/image.jpg" alt=""></p>
</blockquote>
<h6 id="이미지-출처--httpsmblognavercompostviewnaverishttpsredirecttrueblogidcorncake123logno220432526573">이미지 출처 : <a href="https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&amp;blogId=corncake123&amp;logNo=220432526573">https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&amp;blogId=corncake123&amp;logNo=220432526573</a></h6>
<p>데이터를 효율적이고 정확하게 활용하기 위해 전문화된 이해도를 갖추도록 하자. </p>
<hr>
<h2 id="3-예고데이터-전처리-시리즈">3. 예고(데이터 전처리 시리즈)</h2>
<blockquote>
<p><strong>데이터 전처리</strong>의 유사어들은 많이 존재하지만, <strong>개인적인 각색</strong>을 통해 
<strong>데이터 가공(Data Manipulation)</strong>과 <strong>데이터 정제(Data Cleanging)</strong>
로 나누어 알아보겠다.<br><br></p>
</blockquote>
<ul>
<li><strong>개인적 각색</strong> :<ul>
<li>1) 데이터 가공 : 부족한 정보를 외부에서 가져와 합치거나(Integration), 데이터의 형태를 변환(Transformation, Reduction)</li>
<li>2) 데이터 정제 : 원 데이터 내에서 잡음(Noisy), 결측치(Missing Values), 이상치(Outlier)를 처리</li>
</ul>
</li>
</ul>
<h4 id="today_summary--야생의-데이터를-좋은-원료로-가공하기-위해-전문지식을-갖추자">Today_Summary : 야생의 데이터를 좋은 원료로 가공하기 위해 전문지식을 갖추자</h4>
]]></description>
        </item>
        <item>
            <title><![CDATA[추천시스템과 검색시스템 차이]]></title>
            <link>https://velog.io/@chan_p/%EC%B6%94%EC%B2%9C%EC%84%9C%EB%B9%84%EC%8A%A4%EA%B3%BC-%EA%B2%80%EC%83%89%EC%84%9C%EB%B9%84%EC%8A%A4-%EC%B0%A8%EC%9D%B4</link>
            <guid>https://velog.io/@chan_p/%EC%B6%94%EC%B2%9C%EC%84%9C%EB%B9%84%EC%8A%A4%EA%B3%BC-%EA%B2%80%EC%83%89%EC%84%9C%EB%B9%84%EC%8A%A4-%EC%B0%A8%EC%9D%B4</guid>
            <pubDate>Thu, 07 Jul 2022 13:16:08 GMT</pubDate>
            <description><![CDATA[<h1 id="추천시스템과-검색시스템">추천시스템과 검색시스템</h1>
<ul>
<li>유사한듯 하지만 상이한 관계<blockquote>
<p><strong>&quot;요즘 검색내용이 갑자기 생각안날때가 있는데, 한 단어만 검색해도 알아서 추천해주니 너무 좋아.&quot;</strong>
위 경우에서 말하는 시스템은 어떤 시스템일까?<br></p>
</blockquote>
</li>
<li><em>내 관심사와 관련된 것들을 먼저 제시하는 추천시스템
내가 입력한 정보를 바탕으로 관련 키워드를 제공하는 검색시스템*</em><br>
후자에 성향이 더욱 강할 것이다.<br>
둘 모두 <strong>&quot;관련된&quot;</strong>를 <strong>&quot;제공&quot;</strong>한다는 측면에서 핵심 키워드가 동일해 같은 개념으로 보는일이 허다하다.<br>
그러나, 핵심으로 봐야할 단어는 </li>
<li>*&quot;먼저 제시&quot;<strong>와 **&quot;입력한 정보를 바탕으로&quot;</strong>
이다.<br>
즉, 사용자의 요구 이전에 제안을 하는가, 요구 이후에 제안을 하는가의 분류가 주요 쟁점이며, 이는 기술적인 측면에서 정 반대의 시스템임을 알 수 있다.
<img src="https://velog.velcdn.com/images/chan_p/post/d55449e0-1291-41cf-96b8-67a6bd1370ac/image.png" alt="">각 시스템의 성격을 떠올려보자.</li>
</ul>
<hr>
<h2 id="1-검색시스템">1. 검색시스템</h2>
<ul>
<li>입력값을 보고 연관키워드를 알려줄게<blockquote>
<p>검색은 사용자의 목적성이 뚜렷한 행위인데, 수십억개의 카테고리와 단어들이 존재하는 풀에서 목적을 맞추는건 불가능에 가깝다.
(힌트도 없이 좋아하는 단어를 맞추란 격)<br>
따라서 사용자의 요구를 파악하기 위해 &quot;선입력&quot;으로 범위를 좁히고, &quot;연관키워드&quot;를 제공하는 선입력-후출력 구조로 작동하게 되며, 연관키워드를 선택해 나갈수록 더욱 범위를 좁혀나간다.<br>
우리가 검색을 할 때를 떠올려보자.
대략적으로라도 검색하고싶은 키워드가 있을것이므로, 광범위한 단어를 입력하여 전체적인 배경을 파악한뒤, 연관검색어를 통해 더 깊은 개념을 이해하게 됨의 반복일 것이다.<br>
이렇게 시스템이 입력값을 받아 연관검색어를 제안하는 구조를 Pull Information이라 명칭한다.</p>
</blockquote>
</li>
</ul>
<hr>
<h2 id="2-추천시스템">2. 추천시스템</h2>
<ul>
<li>뭔가 하고싶어서 방문했을텐데, 뭘할지 모르겠다면 추천받아봐<blockquote>
<p>옷을 사기 위해 패션 플랫폼에 방문만 했을 뿐인데 사용자의 이름을 부르며 상품들을 나열한다. <br>
검색시스템은 도메인의 풀 자체가 굉장히 넓어 키워드를 한정해야 했으나, 추천시스템은 &quot;소비&quot;를 위해 해당 도메인에 접속한 것만으로도 한정이 되어있다고 판단했기 때문이다.<br>
식료품을 사기 위해 넷플릭스에 들어가는 일은 없을것이며, 영화를 보기 위해 쿠팡에 들어갈일 또한 없을것이다.<br>
따라서 접속만으로 소비욕구를 지닌 사용자라 특정할 수 있고, 추천시스템으로 소비할 컨텐츠의 구체화를 도와주는 것이 가능하다.<br>
더군다나, 소비자가 쌓아온 데이터는 플랫폼 내에서 다루는 도메인에 대해서만 쌓여 있을 것이기 때문에 취향을 구체화 하는것 또한 어려운일이 아니다.<br>
이렇게 입력값이 없어도 사용자에게 연관상품을 자동으로 제안하는 구조를 Push Information이라 명칭한다.</p>
</blockquote>
</li>
</ul>
<hr>
<h2 id="3-정리">3. 정리</h2>
<blockquote>
<p>두 시스템의 가장 큰 차이점은 <strong>&quot;범위&quot;</strong>라고 할 수 있다.<br>
구글이 홈 화면에 검색창만 띄워 놓은 것은 최소한의 관심범위를 파악해야 서비스를 제공할 수 있다는 무언의 어필일것이며,
쇼핑플랫폼에서 상품들을 미리 나열해 놓는것은 소비를 위해 방문한 것이 분명하기 때문이다.<br>
<strong>힌트를 얻고자 하는 검색
힌트를 알고있는 추천</strong>
출발점이 다르기에, 시스템 측면에선 엄밀히 다르다고 말할 수 있겠다.<br>
다만, 사용자의 입장에서는 시스템이 자신이 찾는 정보를 보여주는 것과 알아서 자신에게 정보를 보내주는 것이 둘 다 중요하기에 검색과 추천 기능의 통합이 요구된다.<br>
여기서 통합은 단순히 두 기능을 동시에 제공하는 것이 아니라, 두 기능의 동작을 유기적으로 결합하는 것을 뜻한다.<br>
예를들어, 사용자가 추천 알고리즘의 결과에서 어떤 항목을 선택했다면, 이를 검색 결과에도 반영하고, 반면에 검색 질의어 및 선택결과가 추천 결과에도 반영되는 것이다.<br>
검색을 검색으로, 추천을 추천으로 바라보는 관점을 이해하고, 결합해야 하는 이유를 깨닫는다면, 전범위적으로 아우르는 사용자 경험을 제공할 수 있을 것 이다.</p>
</blockquote>
]]></description>
        </item>
        <item>
            <title><![CDATA[22.07.07]]></title>
            <link>https://velog.io/@chan_p/%EB%8D%B0%EC%9D%BC%EB%A6%AC-7.07</link>
            <guid>https://velog.io/@chan_p/%EB%8D%B0%EC%9D%BC%EB%A6%AC-7.07</guid>
            <pubDate>Thu, 07 Jul 2022 13:15:48 GMT</pubDate>
            <description><![CDATA[<h2 id="1-daily-reflection">1. Daily Reflection</h2>
<blockquote>
<ul>
<li>기상시간 : 05:30</li>
</ul>
</blockquote>
<ul>
<li>학습목표 달성(1~10) : 6</li>
<li>기분점수(1~10) : 6<ul>
<li>추천시스템 설계시 필요한 Pytorch, Tensorflow 딥러닝 프레임워크에 대한 이해가 쉽지않다.  배열부분과 마찬가지로 초석을 쌓는단 마음으로 천천히 학습하자</li>
</ul>
</li>
</ul>
<hr>
<h2 id="2-today-review">2. Today Review</h2>
<blockquote>
<h3 id="--today-i-did-">- Today I Did :</h3>
</blockquote>
<ul>
<li>범주형 데이터 시각화 방법 정리</li>
<li>추천시스템과 검색시스템의 차이 포스팅</li>
<li>딥러닝 프레임워크(Pytorch, Tensorflow)학습<h3 id="--today-i-learn-">- Today I Learn :</h3>
</li>
<li>Pytorch</li>
<li>Tensorflow</li>
</ul>
<hr>
<h2 id="3-tomorrows-goal-">3. Tomorrow&#39;s goal :</h2>
<blockquote>
<ul>
<li>5시 30분 기상_월간과제</li>
</ul>
</blockquote>
<ul>
<li>포스팅 방법(폼 통일화)체계화_월간과제</li>
<li>추천시스템에 사용되는 배열(numpy) 포스팅</li>
<li>데이터 전처리과정 포스팅</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[범주형 변수 탐색 (시각화를 통한 EDA #3)]]></title>
            <link>https://velog.io/@chan_p/%EB%B2%94%EC%A3%BC%ED%98%95-%EB%B3%80%EC%88%98-%ED%83%90%EC%83%89-%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-3</link>
            <guid>https://velog.io/@chan_p/%EB%B2%94%EC%A3%BC%ED%98%95-%EB%B3%80%EC%88%98-%ED%83%90%EC%83%89-%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-3</guid>
            <pubDate>Thu, 07 Jul 2022 13:15:26 GMT</pubDate>
            <description><![CDATA[<h2 id="seaborn-matplotlib으로-진행하는-시각화-eda-범주형">seaborn, matplotlib으로 진행하는 시각화 EDA (범주형)</h2>
<ul>
<li>일정한 범위 내에서 어떻게 분포되어있는지 확인<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/61bc7e49-2e4b-4529-86a3-c095bad624be/image.png" alt="">특징의 형태가 파악되었다면, 적합한 시각화를 통해 직관적인 탐색을 진행한다.</p>
</blockquote>
</li>
</ul>
<p>수치형과 동일하게 Colab환경에서 seaborn, matplotlib library를 이용하여 시각화를 통한 EDA를 실습해보자.</p>
<p>실습데이터 : seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터
<img src="https://velog.velcdn.com/images/chan_p/post/1defd7db-9d9a-44f8-b501-85c59d59f1fc/image.png" alt=""></p>
<ul>
<li>total_bill: 총 합계 요금표
tip: 팁
sex: 성별
smoker: 흡연자 여부
day: 요일
time: 식사 시간
size: 식사 인원</li>
</ul>
<h3 id="1-범주형변수-1개">1) 범주형변수 1개</h3>
<blockquote>
<h5 id="snscountplot-pltpie">sns.countplot(), plt.pie()</h5>
</blockquote>
<h4 id="11-카운트도표_snscountplot">1.1) 카운트도표_sns.countplot()</h4>
<p><img src="https://velog.velcdn.com/images/chan_p/post/d4b4bda7-5859-4540-b51c-0de0b30211f2/image.png" alt=""></p>
<ul>
<li>day변수(명목형)의 카테고리별 빈도수(y축)를 알 수 있다.
<img src="https://velog.velcdn.com/images/chan_p/post/c8ca93d6-5c33-41dc-87d5-b50fd61279a2/image.png" alt=""><br><h4 id="12-파이차트_pltpie">1.2) 파이차트_plt.pie()</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/eacefde6-8c30-4810-9e5b-ae643183a1bc/image.png" alt=""><ul>
<li>sex변수(명목형)의 각 부분의 차지 비율을 알 수 있다.(남성 64.34% / 여성 35.66%)
<img src="https://velog.velcdn.com/images/chan_p/post/c069a62c-292a-4f06-befe-992a00fb59b9/image.png" alt=""><br></li>
</ul>
</li>
</ul>
<p>기초적인 수치를 통해 해당 변수가 어떤 분포를 띄고있는지 알 수 있는 도표를 먼저 사용해보자.</p>
<hr>
<h3 id="2-범주형변수수치형변수">2) 범주형변수+수치형변수</h3>
<blockquote>
<h5 id="snslineplot-snsscatterplot-snsbarplot-snspointplot-snsboxplot-snsviolineplot">sns.lineplot(), sns.scatterplot(), sns.barplot(), sns.pointplot(), sns.boxplot(), sns.violineplot()</h5>
</blockquote>
<h4 id="21-선도표_snslineplot">2.1) 선도표_sns.lineplot()</h4>
<h5 id="feat범주형명목형수치형연속형이산형">feat.범주형(명목형)+수치형(연속형+이산형)</h5>
<p><img src="https://velog.velcdn.com/images/chan_p/post/85155cf8-824b-4f71-9c88-20c1db5446ba/image.png" alt=""></p>
<ul>
<li>수치형(연속형) + 수치형(이산형) 일때 쓰였던 선도표에 범주형(명목형)을 표기할 수 있다.</li>
<li>식사자리에 흡연자 여부에 따라 식사인원과 팁의 상관관계를 확인할 수 있다.
(흡연자가 자리한다면 3명이내의 식사에선 비흡연자 테이블보다 tip의 상승폭이 크지만, 4명 이상일 경우 tip이 오히려 줄어들며, 흡연자 존재시 식사인원이 결정될 수도 있다는 인사이트 확보)<br><br><h4 id="22-산점도_snsscatterplot">2.2) 산점도_sns.scatterplot()</h4>
<h5 id="feat범주형명목형수치형연속형연속형">feat.범주형(명목형)+수치형(연속형+연속형)</h5>
<img src="https://velog.velcdn.com/images/chan_p/post/74503715-6c38-42fc-b005-107218674385/image.png" alt=""></li>
<li>수치형(연속형) + 수치형(연속형) 일때 쓰였던 산점도에 범주형(명목형)을 표기할 수 있다.</li>
<li>total_bill(지불금액)과 tip(팁)의 상관관계를 확인하되, sex(성별)을 포함하여 구체적인 확인이 가능하다.
(지불금액이 30 이상인 식사는 남성들의 식사가 많았고, 같은 구역에서 팁 또한 남성이 더 많이 준다는 인사이트 확보)<br><br><h4 id="23-막대그래프_snsbarplot">2.3) 막대그래프_sns.barplot()</h4>
<h5 id="feat범주형명목형수치형연속형">feat.범주형(명목형)+수치형(연속형)</h5>
<img src="https://velog.velcdn.com/images/chan_p/post/0a35d052-766d-4f0d-afc7-469a999daeaf/image.png" alt=""></li>
<li>x축과 y축에 각각 범주형과 수치형을 도식하여 카테고리별 평균,중위수,최댓값 등 확인가능</li>
<li>day(요일)에 따른 total_bill(지불금액) 평균치 확인 가능 (중앙에 그려진 검은 선은 95%의 신뢰구간 정보를 담음)
(평일식사보다 주말식사에 지불하는 비용의 평균이 더 높다는 인사이트 확보)<br><br><h4 id="24-포인트도표_snspointplot">2.4) 포인트도표_sns.pointplot()</h4>
<h5 id="feat범주형명목형수치형연속형-1">feat.범주형(명목형)+수치형(연속형)</h5>
<img src="https://velog.velcdn.com/images/chan_p/post/c1ead1fc-c87d-467b-8804-20df56c46bee/image.png" alt=""></li>
<li>막대그래프와 같은 개념으로 같은 기능을 한다.</li>
<li>x축과 y축에 각각 범주형과 수치형을 도식하여 카테고리별 평균,중위수,최댓값 등 확인가능
(주말식사에 지불하는 비용의 평균이 더 높으며, 금요일 식사에 지불하는 비용의 분포가 넓다는 인사이트 확보)<br><br><h4 id="25-상자수염도표_snsboxplot">2.5) 상자수염도표_sns.boxplot()</h4>
<h5 id="feat범주형명목형수치형연속형-2">feat.범주형(명목형)+수치형(연속형)</h5>
<img src="https://velog.velcdn.com/images/chan_p/post/208dc033-16dd-4c89-a953-ce7f770b08fb/image.png" alt=""></li>
<li>막대그래프와 포인트도표는 y축이 평균,중위수,최댓값과 같은 특정값 확인에 특화되어있으나, 상자수염도표는 분포를 확인할 수 있다.</li>
<li>x축과 y축에 각각 범주형과 수치형을 도식한다.
(점심식사와 저녁식사의 지불금액 분포를 확인하였을때 중위값은 저녁식사가 더 높으며, 점심식사의 상자크기가 더 작으므로, 점심식사는 중위수 근처에 데이터가 몰려있다는 인사이트 확보)<br><br><h4 id="26-바이올린도표_snsviolineplot">2.6) 바이올린도표_sns.violineplot()</h4>
<h5 id="feat범주형명목형수치형연속형-3">feat.범주형(명목형)+수치형(연속형)</h5>
<img src="https://velog.velcdn.com/images/chan_p/post/0a3b222c-0d8a-40e1-9a17-b0a87ca4304b/image.png" alt=""></li>
<li>상자수염도표에서 표현이 취약한 분산 정보를 커널밀도함수를 통해 표현한다.</li>
<li>중앙 검은색 직사각형 모양이 Q1(1사분위수)~Q3(3사분위수)를 나타내며 흰색점이 Q2(2사분위수)를 표현한다.
(양쪽으로 볼록 튀어나온 부분이 중위수 값이며, 돌출길이가 저녁식사보다 점심식사가 길기에 중위수 부근에 더 많은 값들이 분포했다는 인사이트를 보다 직관적으로 확보)
<img src="https://velog.velcdn.com/images/chan_p/post/18c23ad4-a84c-44ca-9fcf-3c34307c1e95/image.png" alt=""></li>
<li>범주형(명목형) + 범주형(명목형) + 수치형(연속형) 에 대한 정보도 담을 수 있다.
(식사시간 + 성별 + 지불금액)
<img src="https://velog.velcdn.com/images/chan_p/post/41ea1a74-429a-4960-b1f3-b470d73b183c/image.png" alt=""></li>
<li>split 옵션을 통해 성별에 따른 분포를 더 직관적으로 확인할 수 있다.</li>
<li>점심식사에서 돌출길이를 보면, 남성의 지불금액(좌츨 푸른색)보다 여성의 지불금액(우측 주황색)이 더 길단것을 알 수 있고, 여성의 지불금액이 중위수에 몰린 분포란 인사이트를 얻을 수 있다.</li>
<li>저녁식사에서 돌출길이는 남녀가 비슷하지만, 돌출부분의 높이에서 여성이 더 낮은곳에 위치하고 있으므로, 여성 지불금액은 남성 지불금액보다 낮다고 볼 수 있으며, 남성이 돈을 더 썼다는 인사이트를 얻을 수 있다.</li>
</ul>
<p>복합적인 변수들의 정보를 담고있는 도표를 사용하여 직관적으로 파악하자.</p>
<hr>
<p>분석가가 데이터를 개인적으로 간편히 파악하기 위해 사용하는 대중적인 도표들을 소개해 보았다.</p>
<p>측정 척도의 유형에 따라 활용할 수 있는 도표들을 익히고 내포하는 의미들을 이해하여 신뢰도 갖춘 분석의 시작점을 찾길 바란다.</p>
<p>추가적으로 새로운 특징을 만들거나, 삭제하는 등 타인에게 근거로 제시하는 과정에선 심미성을 향상시켜 더 높은 직관성을 갖춰야 하기에 도표의 색, 점모양 등의 변경으로 심미성 향상이 가능함을 추가적으로 시사한다.</p>
<h4 id="today_summary-">Today_Summary :</h4>
<h4 id="수박을-고를때-줄무늬가-선명한지-수박꼭지가-마르지-않았는지-두드렸을때-소리가-청명한지-등-복합적으로-확인하여-선택하듯-내포하는-정보들을-복합적으로-종합하여-이해하자">수박을 고를때 줄무늬가 선명한지, 수박꼭지가 마르지 않았는지, 두드렸을때 소리가 청명한지 등 복합적으로 확인하여 선택하듯 내포하는 정보들을 복합적으로 종합하여 이해하자.</h4>
<hr>
<h3 id="references">References</h3>
<p><a href="https://rpubs.com/Evan_Jung/measurement_scale">측정척도의 유형과 내용</a>
<a href="https://matplotlib.org/stable/users/index.html">Matplotlib가이드</a>
<a href="https://seaborn.pydata.org/">Seaborn가이드</a></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[수치형 변수 탐색 (시각화를 통한 EDA #2)]]></title>
            <link>https://velog.io/@chan_p/%EC%88%98%EC%B9%98%ED%98%95-%EB%B3%80%EC%88%98-%ED%83%90%EC%83%89-%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-2</link>
            <guid>https://velog.io/@chan_p/%EC%88%98%EC%B9%98%ED%98%95-%EB%B3%80%EC%88%98-%ED%83%90%EC%83%89-%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-2</guid>
            <pubDate>Wed, 06 Jul 2022 12:54:06 GMT</pubDate>
            <description><![CDATA[<h2 id="seaborn-matplotlib으로-진행하는-시각화-eda-수치형">seaborn, matplotlib으로 진행하는 시각화 EDA (수치형)</h2>
<ul>
<li>일정한 범위 내에서 어떻게 분포되어있는지 확인<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/ff66c31a-be95-4f9c-897b-0e000720967d/image.png" alt="">특징의 형태가 파악되었다면, 적합한 시각화를 통해 직관적인 탐색을 진행한다.</p>
</blockquote>
</li>
</ul>
<p>Colab환경에서 seaborn, matplotlib library를 이용하여 시각화를 통한 EDA를 실습해보자.</p>
<p>실습데이터 : seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터
<img src="https://velog.velcdn.com/images/chan_p/post/1defd7db-9d9a-44f8-b501-85c59d59f1fc/image.png" alt=""></p>
<ul>
<li>total_bill: 총 합계 요금표
tip: 팁
sex: 성별
smoker: 흡연자 여부
day: 요일
time: 식사 시간
size: 식사 인원</li>
</ul>
<h3 id="1-수치형변수-1개">1) 수치형변수 1개</h3>
<blockquote>
<h5 id="plthist-snsdistplot-snsboxplot">plt.hist(), sns.distplot(), sns.boxplot()</h5>
</blockquote>
<h4 id="11-히스토그램_plthist">1.1) 히스토그램_plt.hist()</h4>
<p><img src="https://velog.velcdn.com/images/chan_p/post/daddaa0d-b2b0-4285-96a8-15009dfe1c2e/image.png" alt=""></p>
<ul>
<li>total_bill변수(연속형)의 구간별(x축) 빈도수(y축)를 알 수 있다.<br><br><h4 id="12-분포도_snsdisplot">1.2) 분포도_sns.displot()</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/793f73cd-b917-4727-a3e2-e52f2266ca5e/image.png" alt=""><ul>
<li>히스토그램에 커널밀도함수가 추가된 그래프로, 부드러운 확률밀도함수를 동시확인 가능하다.</li>
<li>히스토그램의 경우 y축이 빈도수였으나, 분포도의 경우 비율로 표기된다.<br><br><h4 id="13-상자수염그림_snsboxplot">1.3) 상자수염그림_sns.boxplot()</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/1a042619-d80c-4879-be6d-1aad1cee121f/image.png" alt=""></li>
<li>최소값(가장 아래), 최대값(가장 위), Q1(1사분위수_하위25%), Q2(2사분위수_50%),
Q3(3사분위수_75%), 이상치(outlier) 확인이 가능하다.</li>
<li>자료의 퍼짐과 순위를 한번에 담고있으며, 이상치를 확인하는데 용이하다.
<img src="https://velog.velcdn.com/images/chan_p/post/b5550ee2-c9e1-430e-aafa-f6fb1f4073a9/image.png" alt=""></li>
<li>이상치 판단 기준은 IQR = Q3-Q1 = 24.1275-13.3475 = 10.78 을 먼저 구한뒤
Q1 - 1.5 X IQR &gt; Outlier
Q3 + 1.5 X IQR &lt; Outlier
에 의해</li>
</ul>
13.3475 - 1.5 X 10.78 = -2.8225 보다 작거나
24.1275 + 1.5 X 10.78 = 40.2975 보다 큰 값이 이상치가 된다.<br>
total_bill은 지불금액이기 때문에 음의값이 존재하지 않으며, boxplot상에서도 아랫부분 이상치를 확인할 수 없다.
하지만, 40.2975보다 큰 값들은 boxplot상에서 점으로 표기된 이상치로 확인이 된다.</li>
</ul>
<p>변수 한개에 한정하여 확인되기에, 전체 변수를 확인하기 어렵다면, 주요변수는 확인하자. </p>
<hr>
<h3 id="2-수치형변수-2개">2) 수치형변수 2개</h3>
<blockquote>
<h5 id="snsheatmap-snslineplot-snsscatterplot-snsregplot">sns.heatmap(), sns.lineplot(), sns.scatterplot(), sns.regplot()</h5>
</blockquote>
<h4 id="21-히트맵_snsheatmap">2.1) 히트맵_sns.heatmap()</h4>
<p><img src="https://velog.velcdn.com/images/chan_p/post/29e03e58-c61e-4b3c-86f4-dfb19a7aa664/image.png" alt=""></p>
<ul>
<li>변수들간의 상관관계를 알 수 있다.
<img src="https://velog.velcdn.com/images/chan_p/post/30129ac0-4ad7-41e3-9760-1b12e631da16/image.png" alt=""></li>
<li>corr()함수를 시각화 한 것으로 상관관계에 따라 타일의 색이 변화한다.</li>
<li>tip이 많을수록 total_bill(총지불금액)이 증가하는 tip과 total_bill은 높은 양의 상관관계이다.
(size 또한 상대적으로 약할 뿐 높은 양의 상관관계)<br><br><h4 id="22-선도표_snslineplot-feat연속형이산형">2.2) 선도표_sns.lineplot() feat.연속형+이산형</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/80cd5a4c-30c3-4581-be3b-ac8d4677a646/image.png" alt=""></li>
<li>연속형 데이터와 이산형 데이터의 관계를 선으로 나타내며, 상관관계를 알 수 있다.</li>
<li>size(식사인원)이 5명일때를 제외하곤 식사인원이 많아질수록 tip도 많아진다.
<img src="https://velog.velcdn.com/images/chan_p/post/c5887a1e-8428-4c60-908a-fd54e4b3051b/image.png" alt=""></li>
<li>데이터가 둘 다 연속형일 경우, 모든 경우의수를 반영하는 선도표가 그려져 파악이 어렵다.
(산점도로 대체)<br><br><h4 id="23-산점도_snsscatterplot-feat연속형연속형">2.3) 산점도_sns.scatterplot() feat.연속형+연속형</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/ffd822ef-8cd5-4f64-afb5-ee6d5a1e5d7b/image.png" alt=""></li>
<li>수치형 데이터 간 상관관계를 점으로 나타내며, x와 y 모두 연속형일때 선호된다.</li>
<li>전체적으로 우상향 하고 있기 때문에, 다시한번 tip과 total_bill은 양의 상관관계임을 알 수 있다.
<img src="https://velog.velcdn.com/images/chan_p/post/7400d269-a693-4608-a062-70eb2a94445d/image.png" alt=""></li>
<li>연속형+이산형 조합일 경우 도식은 가능하나, 선도표가 더욱 직관적이다.<br><br><h4 id="24-회귀도표_snsregplot-feat연속형연속형">2.4) 회귀도표_sns.regplot() feat.연속형+연속형</h4>
<img src="https://velog.velcdn.com/images/chan_p/post/8be4d0ce-8f4d-496c-a1f8-c074e54f058a/image.png" alt=""></li>
<li>회귀선을 도식하여 산점도보다 구체적인 선형관계를 확인할 수 있다.
(선의 음영으로 신뢰구간 정보 파악 가능)</li>
</ul>
<p>새로운 특징을 만들어내거나, 통합하는 과정에서 특징간의 관계를 참고하자.
ex) <a href="https://datascienceschool.net/02%20mathematics/03.05%20PCA.html">주성분 분석</a></p>
<hr>
<p>연속형과 이산형 데이터를 구분하여 알맞은 시각화를 통해 직관적이고 효율적인 데이터탐색을 진행하며 필요시 근거로 제시할 수 있도록 한다.</p>
<h4 id="today_summary--수박을-고를때-줄무늬가-선명한지-보듯-직관성을-갖춘-탐색을-진행하자">Today_Summary : 수박을 고를때 줄무늬가 선명한지 보듯 직관성을 갖춘 탐색을 진행하자</h4>
<hr>
<h3 id="references">References</h3>
<p><a href="https://matplotlib.org/stable/users/index.html">Matplotlib가이드</a>
<a href="https://seaborn.pydata.org/">Seaborn가이드</a></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[22.07.05]]></title>
            <link>https://velog.io/@chan_p/22.07.05</link>
            <guid>https://velog.io/@chan_p/22.07.05</guid>
            <pubDate>Tue, 05 Jul 2022 14:57:59 GMT</pubDate>
            <description><![CDATA[<h2 id="1-daily-reflection">1. Daily Reflection</h2>
<blockquote>
<ul>
<li>기상시간 : 05:30</li>
</ul>
</blockquote>
<ul>
<li>학습목표 달성(1~10) : 10</li>
<li>기분점수(1~10) : 7<ul>
<li>어제보다 정량적으로 달성한 목표는 많았으나, </li>
<li><em>정리를 위한 포스팅*</em>과 <strong>설명을 위한 포스팅</strong> 간 정체성을 찾지 못한 나머지 모든 욕심을 해소하진 못했다. 
암묵지를 형식지로 풀어내면서 효율적인 포스팅이 되도록 노력하자. </li>
</ul>
</li>
</ul>
<hr>
<h2 id="2-today-review">2. Today Review</h2>
<blockquote>
<h3 id="--today-i-did-">- Today I Did :</h3>
</blockquote>
<ul>
<li>pandas의 내장 method를 이용한 조회기반 EDA</li>
<li>데이터가 갖는 특징(자료구조) 분류법 정리</li>
<li>추천시스템의 전반적 개념 파악<ul>
<li>탄생배경, 종류, 한계점<h3 id="--today-i-learn-">- Today I Learn :</h3>
</li>
</ul>
</li>
<li>pandas 내장 method<ul>
<li>head(), tail(), shape, dtypes, info(), count(), value_counts(), mean(), median(), max(), min(), std(), describe(), corr()</li>
</ul>
</li>
<li>Explicit Feedback</li>
<li>Implicit Feedback</li>
<li>ColdStart</li>
</ul>
<hr>
<h2 id="3-tomorrows-goal-">3. Tomorrow&#39;s goal :</h2>
<blockquote>
<ul>
<li>5시 30분 기상_월간과제</li>
</ul>
</blockquote>
<ul>
<li>포스팅 방법(폼 통일화)체계화_월간과제</li>
<li>시각화를 통한 EDA 포스팅</li>
<li>추천시스템에 쓰이는 HartSkill 학습</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[추천시스템에 대한 전반적 시사]]></title>
            <link>https://velog.io/@chan_p/%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%A0%84%EB%B0%98%EC%A0%81-%EC%8B%9C%EC%82%AC</link>
            <guid>https://velog.io/@chan_p/%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%A0%84%EB%B0%98%EC%A0%81-%EC%8B%9C%EC%82%AC</guid>
            <pubDate>Tue, 05 Jul 2022 14:38:21 GMT</pubDate>
            <description><![CDATA[<h1 id="추천시스템">추천시스템</h1>
<ul>
<li>정보의 바다에서 헤매지 않게끔 폭을 좁혀주는 서비스</li>
</ul>
<blockquote>
<p>컴퓨터와 휴대폰 없이 살아갈 수 없는 시대에 맞게 플랫폼 또한 진화를 거듭해 왔다.<br>
그 결과로 플랫폼(유튜브, 쿠팡 등) 없이는 살아갈 수 없는 현재가 되었으며, 폭증한 유저들이 생성한 데이터는 &quot;추천시스템&quot;이라는 서비스로 탄생하였다.<br>
그리고 우리의 결정에 도움을 주는 서비스로 자리를 잡았기에, 아래 사진과 같이 원리에 대한 궁금증이 증폭되었다.
<img src="https://velog.velcdn.com/images/chan_p/post/2591b9a8-f994-4692-a99e-b6c000ad8c3b/image.png" alt="">
이러한 추천 시스템에 대한 전반적인 호기심을 해결해보자.</p>
</blockquote>
<hr>
<h2 id="1-추천시스템의-탄생">1. 추천시스템의 탄생</h2>
<blockquote>
<p>웹서비스의 탄생 이후 시간과 장소에 구애받지 않는 컨텐츠 소비가 가능해졌으나, 만족도가 높다고 보기엔 무리가 있었다. 
<span style = " font-size:0.8em;">(몸이 편해졌으나 그것마저 익숙해져 당연시 된 것.)</span><br>
이 &quot;만족도&quot;라는 주관적이며 복합적인 감정을 정복하기 위해, 공통점을 찾아냈으니 그것은 바로 <strong>&quot;시간&quot;</strong><br>
정보의 다양화를 넘어 범람이라고 일컬을 만큼 선택지가 많아졌기에 탐색비용(시간)이 증가하는 부작용이 초래되었으니, 결과적으로 의사결정 난이도가 상승하였다는 것을 캐치한 것이다.<br>
<strong>&quot;고객의 관심분야를 한정해 정보의 질은 챙기되, 선택지의 폭을 줄인다.&quot;</strong><br></p>
</blockquote>
</center>는 시각으로 접근한 시스템이 탄생하게 되었고 그 목적이 달성되어 현재의 추천시스템이 되었다.

<h4 id="메뉴가-많은-식당은-주문이-오래걸리니-메뉴를-간소화해주는-일종의-컨설팅-역할-br취향저격-필터링">메뉴가 많은 식당은 주문이 오래걸리니 메뉴를 간소화해주는 일종의 컨설팅 역할 <br>(취향저격 필터링)</h4>
<hr>
<h2 id="2-추천알고리즘-종류">2. 추천알고리즘 종류</h2>
<ul>
<li>추천시스템을 구성하는 대중적인 알고리즘의 종류와 원리</li>
</ul>
<h3 id="1-컨텐츠-기반-추천-알고리즘contents-based">1) 컨텐츠 기반 추천 알고리즘(Contents-based)</h3>
<ul>
<li>사용자가 관심있는 제품을 파악하고 유사한 제품 추천</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/404947f5-a3a3-43a4-8a5a-78d24ebb8d23/image.png" alt=""></p>
</blockquote>
<h5 id="httpsrpubscomehahm627319"><a href="https://rpubs.com/ehahm/627319">https://rpubs.com/ehahm/627319</a></h5>
<p>사용자가 &#39;스파이더맨&#39;을 시청한 이력이 있다면, 이력을 반영하여 히어로 액션물인 &#39;토르&#39;를 추천하는 방식<br><br></p>
<ul>
<li>실생활 예시
온라인 쇼핑몰에서 게이밍 헤드셋을 검색한 결과, 유사한 상품들이 출력
<img src="https://velog.velcdn.com/images/chan_p/post/c6cb40b7-825f-4ef8-a4ac-4c7df065f88f/image.png" alt=""></li>
</ul>
<hr>
<h3 id="2-협업-필터링-colaborative-filtering">2) 협업 필터링 (Colaborative Filtering)</h3>
<ul>
<li>사용자와 관심사가 유사한 타 사용자들이 관심있는 아이템을 추천</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/23151c07-af4e-4027-9b52-e077ac702aac/image.png" alt=""></p>
</blockquote>
<h5 id="httpsrpubscomehahm627319-1"><a href="https://rpubs.com/ehahm/627319">https://rpubs.com/ehahm/627319</a></h5>
<p>사용자가 &#39;스파이더맨&#39;을 시청한 이력이 있다면, 이력을 반영하여 취향이 비슷한 유저들이 시청한 &#39;어벤저스2&#39;를 추천하는 방식<br><br></p>
<ul>
<li>실생활 예시
온라인 쇼핑몰에서 게이밍 헤드셋을 검색한 결과, 게이밍 제품에 관심도를 가진 사람들이 구매한 제품을 추천
<img src="https://velog.velcdn.com/images/chan_p/post/2c8bf013-90c8-462a-ae2d-dd5602b0bc8e/image.png" alt=""></li>
</ul>
<hr>
<h3 id="3-맥락기반-추천context-based">3) 맥락기반 추천(Context-based)</h3>
<ul>
<li>사용자의 관심도는 물론, 시간이나 위치 정보를 추가활용하여 적합한 제품을 추천</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/34f2e9a3-92c6-4855-b09b-c4f623d8d93f/image.png" alt="">
#####
&quot;사용자가 술을 좋아한다고 해서, 시도때도 없이 추천해선 안된다.&quot;란 것을 인지하여 낮에는 카페를, 밤에는 바를 추천하는 상호작용형 추천<br>
유저-상품 간 상호작용을 넘어 유저-상품-시간(장소)까지 고려한 추천방식</p>
</blockquote>
<hr>
<h3 id="4커뮤니티기반-추천community-based">4)커뮤니티기반 추천(Community-based)</h3>
<ul>
<li>사용자의 친구의 친구 같이 형성된 관계에 기초한 추천방법</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/cc020b3a-3ed6-4111-894e-be8eb7ffdeaa/image.png" alt=""></p>
</blockquote>
<h6 id="httpswwwresearchgatenetfigurean-example-of-community-influence-of-users-in-social-networks-there-are-four-communities_fig1_335497815"><a href="https://www.researchgate.net/figure/An-example-of-community-influence-of-users-in-social-networks-There-are-four-communities_fig1_335497815">https://www.researchgate.net/figure/An-example-of-community-influence-of-users-in-social-networks-There-are-four-communities_fig1_335497815</a></h6>
<p>u와 v는 친구사이기 때문에, 친구의 친구목록을 통해 알고있던 사람을 찾을수도, 새로운 인연이 만들어 질수도 있는 추천<br></p>
<ul>
<li>실생활 예시
SNS 플랫폼 내에서 함께 아는 친구가 있는지, 같은 커뮤니티에 속하는지 등을 참고하여 관계기반 추천
<img src="https://velog.velcdn.com/images/chan_p/post/1dbfdb96-84dd-4e52-9592-f0a5552f021a/image.png" alt=""></li>
</ul>
<h3 id="5-지식기반-추천knowledge-based">5) 지식기반 추천(Knowledge-based)</h3>
<ul>
<li>특정 도메인 지식을 바탕으로 제품의 특징을 한정하며 추천</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/8b510edc-3774-4cbf-8f13-0c4eba30765c/image.png" alt="">
패밀리카로 활용할 조용하고 힘좋은 4000만원이하 연비 13km/L이상의 차량을 사고싶다는 조건을 입력받아 한정된 추천<br><br></p>
</blockquote>
<ul>
<li>실생활 예시
<img src="https://velog.velcdn.com/images/chan_p/post/9c763f41-76f0-4bc3-a2d0-51289d532508/image.png" alt=""><h6 id="httpswwwhyundaicomkrkoevehiclesexplorerbase"><a href="https://www.hyundai.com/kr/ko/e/vehicles/explorer/base">https://www.hyundai.com/kr/ko/e/vehicles/explorer/base</a></h6>
사용자의 니즈를 입력받아 해결책과 협의점을 찾아 추천하는 사례기반 추천으로, 해당 도메인에 대한 이해(차 구매시 주요지표가 무엇인가?)를 바탕으로 설계해야한다. <br>
자주 구매하지 않아 데이터가 적은 아이템에 효과적_부동산,자동차,명품 등</li>
</ul>
<h2 id="3-추천시스템의-한계">3. 추천시스템의 한계</h2>
<blockquote>
<p>1) 확장성(Scalability)</p>
</blockquote>
<ul>
<li>실제 서비스는 학습에 국한되지 않은 다양한 종류의 데이터<br>
학습 또는 분석에 사용한 데이터와 실전 데이터가 다를 가능성이 높다. 쇼핑몰 플랫폼을 예시로 들어보겠다. 고객들이 최근에 많이 구매한 제품을 학습용 데이터로 사용했다면 당장은 들어맞을 수 있으나 트렌드가 바뀌었을때 이를 반영하지 못하고 한물 간 추천이 되어버린다.<br>
이를 해소하기 위해선 매번 모델을 다르게 생성해야 하는데, 트렌드는 빠르게 변화하기 때문에, 생성도중 또 다른 트렌드를 맞이할 수 있다.<br>
즉, 모든 경우의수를 반영하지 못한다.</li>
</ul>
<blockquote>
<p>2) 낮은 능동성(Low Proactive)</p>
</blockquote>
<ul>
<li>특별한 요청이 없어도 사전에 먼저 제공하는 것이 불가<br>
사용자가 새로운 상품에 대한 갈증을 느끼고 있음을 알아차리고, 끈임없이 좋은 정보를 추천해줘서 플랫폼을 떠나지 않게 하는것이 가장 이상적일 것이다.
다만, &quot;열 길 물속은 알아도 한 길 사람속은 모른다.&quot;란 말이 있듯 구체적으로 어떤 새로운 상품을 원하는지 명령대로 움직이는 알고리즘이 알 방법이 없다.<br>결국 인간이 현 추천시스템에도 익숙함을 느낀다면 능동성이 장착된 추천시스템 정도는 등장해야 호기심을 느낄 것이기에 개인적으로 가장 큰 숙제라고 보여진다.
(옷장에 옷은 많지만 내가입을 옷은 없고, 넷플릭스에 볼건 많지만 보고싶은건 없는 느낌을 해결하긴 어려울 것 같다.)</li>
</ul>
<blockquote>
<p>3) Cold-Start</p>
</blockquote>
<ul>
<li>데이터가 부족할 때 낮은 정확도의 추천<br>
사용자가 플랫폼을 이용한 기간이 짧거나, 특정 제품군이 압도적인 우세를 보인다면 판단할 수 있는 데이터 또한 많지 않다는 얘기가 된다. 이로인해 추천의 정확도는 낮아지게 되며, 데이터가 쌓이기도 전에 사용자가 플랫폼을 떠날 가능성이 발생한다.
휴대폰을 구매할때 애플과 삼성은 여러 유저들이 택했지만, 샤오미는 선택하지 않았다고 가정 해 보겠다. 애플과 삼성제품에 대한 데이터는 존재하지만, 샤오미를 선택한 기록은 없기 때문에, 샤오미를 추천해 줄 수 없는 상황을 마주한다.
사용자가 애플, 삼성제품을 원하지 않는다면 다른 플랫폼으로 이동할 수 있다.<br>
이를 해결하기 위해 일정 수준의 데이터를 확보하기 전까진 데이터 의존도가 적은 추천시스템(하나의 상품만 검색했어도 연관상품을 알려주는 &quot;컨텐츠 기반&quot; 등)이 작동할 수 있도록 접목하는 Hybrid 추천시스템을 설계하기도 한다.</li>
</ul>
<blockquote>
<p>4) 개인정보 보호(Privacy preserving)</p>
</blockquote>
<ul>
<li>추천시스템은 편리한데, 관찰당하는 느낌은 싫다.<br>
개인화된 추천시스템을 위해선 사용자 파악이 우선이기에 개인정보가 가장 정확한 데이터이지만 윤리적인 문제에 부딛히게 된다.<br>
거주지 : 강원도 XX읍
출생년도 : 1992.XX.XX
육아유무 : O<br>
위 개인정보 만으로 
&quot;시골에서 아이를 양육하는 30대 초반 엄마&quot;
라는 특정이 가능하고
&quot;편의시설이 적은 시골에 거주-대용량제품 추천&quot;, &quot;육아제품 추천&quot;,
&quot;30대가 선호하며 집에서 할 수 있는 취미용품 추천&quot;
처럼 처음부터 구체적인 추천이 가능한데, 윤리적 문제로 수집이나 사용이 어렵다면 난항을 겪을것으로 예상된다.<br>
사용자의 성향을 파악할 수 있는 충분한 시간이 주어진다면 대체가 가능할 수 있으나, 성향을 파악하는 동안 만족도가 낮은 추천이 이뤄질텐데 사용자가 충성고객으로 남아있을지는 미지수다.<br>
편의성과 보안성의 협의점을 찾아 제도적으로 접근해야 할 것이다.</li>
</ul>
<blockquote>
<p>5) 부족한 자원(Starvation and Diversity)</p>
</blockquote>
<ul>
<li>모든걸 반영하기엔 시스템이 무거워<br>
사용자 또는 제품에 대한 세부 카테고리를 반영할 수록 추천의 정확도는 높아지게 된다. 하지만 따져보는게 많을수록 결과도출이 늦어지기에, 정확도와 시간효율성의 협의점을 찾을 수 밖에 없다.<br>
모든 데이터를 활용해 12시간 뒤에 정확한 추천을 진행하는 모델과,
정확도는 낮을지언정 빠르게 여러번의 추천을 진행하는 모델이 있다면 후자를 선택하듯 협의점은 고객유치에 중요한 지표이다.<br>
컴퓨팅 파워가 향상되어 세부 카테고리를 반영해 정확도가 높은 추천이 같은 시간에 이뤄진다고 하면 금상첨화일 것이므로, 컴퓨터 성능에 대한 발전이 요구된다.</li>
</ul>
<h2 id="4-추천시스템의-미래">4. 추천시스템의 미래</h2>
<ul>
<li>추천시스템의 성능이 해당 도메인을 지배한다.<blockquote>
</blockquote>
&quot;추천시스템&quot;은 성공할 수 밖에 없었다.
<img src="https://velog.velcdn.com/images/chan_p/post/77aefac6-96d5-4eb9-a08b-86c938be0ef8/image.png" alt="">구조적으로 보았을때, 고객이 쌓은 데이터는 추천시스템에 반영이 되어 성능이 좋아지며, 더 많은 고객을 유치하고 더 많은 데이터가 되는 선순환이 이뤄진다.
뿐만아니라 고객유치로 인해 매출이 늘어나 재투자 비용이 증가한다.<br>
즉, 추천시스템이 가진 파급력은 굉장하며, 이는 좋은 모델을 선점하기 위한 기업간 경쟁이 발전을 수반했다는 증거이다.<br>
경쟁의 끝에선 압도적 추천성능을 갖춘 플랫폼이 탄생해 해당 도메인을 지배할 것이라 보아 독과점 문제가 두렵지만, 한편으론 인간의 끝없는 욕구를 어떻게 만족시켜줄수 있을지 기대된다.</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[특징(feature)의 형태
(시각화를 통한 EDA #1)]]></title>
            <link>https://velog.io/@chan_p/%ED%8A%B9%EC%A7%95feature%EC%9D%98-%ED%98%95%ED%83%9C%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-1</link>
            <guid>https://velog.io/@chan_p/%ED%8A%B9%EC%A7%95feature%EC%9D%98-%ED%98%95%ED%83%9C%EC%8B%9C%EA%B0%81%ED%99%94%EB%A5%BC-%ED%86%B5%ED%95%9C-EDA-1</guid>
            <pubDate>Tue, 05 Jul 2022 08:07:36 GMT</pubDate>
            <description><![CDATA[<h3 id="특징feature의-형태">특징(feature)의 형태</h3>
<ul>
<li><strong>데이터를 구성하는 특징의 구성 종류와 형태</strong><br>

</li>
</ul>
<blockquote>
<p>조회를 통해 데이터를 파악하는 방식을 다뤘지만, 상세값들이 들어있는 Table형태, 수치화된 통계정보를 직관적으로 받아들이기엔 쉽지 않다.</p>
</blockquote>
<h6 id="분산이-10이란걸-알게-되었어도-전체-분포를-모르기에-10이-갖는-크기가-큰지-작은지-쉽게-와닿지-않음">(분산이 10이란걸 알게 되었어도, 전체 분포를 모르기에 10이 갖는 크기가 큰지 작은지 쉽게 와닿지 않음)</h6>
<p>따라서 보편화하여 한눈에 볼 수 있는 그래프와 차트를 통해 데이터를 탐색하는 방법을 소개하려 한다.<br>
다만, 특징(feature)의 형태별로 활용해야 하는 시각화가 다르기에, 탐색법을 나열하기 앞서, 특징의 종류를 파악해보자.</p>
<hr>
<h3 id="특징-분류-방법">특징 분류 방법</h3>
<p><img src="https://velog.velcdn.com/images/chan_p/post/a585920a-d825-4689-8d7a-6805ad724fc6/image.png" alt=""></p>
<!--
<table border="2">
  <tr>
    <th>대분류</th>
    <th>소분류</th>
    <th>설명 및 예시</th>
  </tr>

  <tr>
    <td rowspan="2"><center><b>
      <br>
      <br>
      Categorical Variable (Qualitative)<br>
      범주형 변수(질적변수)</b>
      <br>
      <br>
      [값이 수치적 의미를 갖지 않음<br>
      -><br>
      양적요소가 아닌 질적요소]
      <br>
      <br>
      </center>
        </td>
        <td><b><center>
          &nbsp &nbsp Nominal Data &nbsp &nbsp
          <br></b>
          명목형 데이터
          </center></td>
        <td><center>값이 달라짐에 따라 좋고 나쁨을
          <br>
          분간하지 못하는 경우 <b>(순위개념 없음)</b>
          <br>
          <br>
          <b>ex) 남자-0, 여자-1</b>
          </center></td>
      <tr>
    <td><b><center>&nbsp &nbsp Ordinal Data &nbsp &nbsp
      <br></b>
      순서형 데이터
      </center></td>
    <td><center>값이 달라짐에 따라 좋고 나쁨을
      <br>
      분간할 수 있는 형태 <b>(순위개념 존재)</b>
      <br>
      <br>
      <b>ex) 암 초기-1, 중기-2, 말기-3</b>
      </center></td>
  </tr>
  <tr>
     <td rowspan=2><center><b>
       <br>
       <br>
      Numeric Variable (Quantitative)<br>
       수치형 변수(양적변수)</b>
      <br>
      <br>
      [값이 수치 자체로 의미를 지님<br>
      -><br>
      양적요소]
       <br>
       <br>
       <br>
      </center>
    </td>
    <td><center><b>&nbsp &nbsp Continuous Data &nbsp &nbsp
      </b><br>
      연속형 데이터
      </center></td>
    <td><center> 셀수 있으며, 연속량인 형태 <b>(소수)</b>
      <br>
      <br>
      <b>ex) 키 : 175.3cm</b>
      </center></td>
  </tr>
  <tr>
    <td><center><b>&nbsp &nbsp Discrete Data &nbsp &nbsp
      </b><br>
      이산형 데이터
      </center></td>
    <td><center> 셀수 있으며, 비연속량인 형태 <b>(정수)</b>
      <br>
      <br>
      <b>ex) 불량품의 갯수 : 5개 &nbspO</b>
      <br>
      &nbsp&nbsp&nbsp&nbsp&nbsp 불량품의 갯수 : 5.2개 X
      </center></td>
  </tr>
</table>
-->

<hr>
<p>Today_Summary :
데이터에 기입된 수치가 무엇을 뜻하는지 확인하고 (대분류)
의미를 파악하여 (소분류) 탐색 방향성을 결정하자.</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[조회를 통한 EDA (Non-Graphic)]]></title>
            <link>https://velog.io/@chan_p/Table%EC%A1%B0%ED%9A%8C%EB%A5%BC-%ED%86%B5%ED%95%9C-EDANon-Graphic</link>
            <guid>https://velog.io/@chan_p/Table%EC%A1%B0%ED%9A%8C%EB%A5%BC-%ED%86%B5%ED%95%9C-EDANon-Graphic</guid>
            <pubDate>Tue, 05 Jul 2022 05:17:54 GMT</pubDate>
            <description><![CDATA[<h2 id="pandas-method로-진행하는-eda">pandas method로 진행하는 EDA</h2>
<ul>
<li>데이터를 다루고 파악하기 용이한 문법
<img src="https://velog.velcdn.com/images/chan_p/post/524cab31-3b07-4840-84e3-20669830394b/image.png" alt=""></li>
</ul>
<blockquote>
<p>데이터의 형태는 매우 다양(csv, json, API, ect..)하지만 대부분의 과정에서 데이터를 Table구조(표 형태)로 변형하여 확인한다.<br>
행(가로)과 열(세로)의 간단한 구성이지만, 묶거나 분리하거나 정렬하는 등 확인을 거쳐가며 <strong>체계적인</strong> 작업이 용이하기 때문이다.<br>
Table 형태의 데이터를 다룰때 필수적인 pandas의 내장method를 이용하여 데이터의 전신을 파악할 수 있다.</p>
</blockquote>
<hr>
<p>Colab환경에서 Pandas library를 통해 Table구조를 기반으로 한 EDA를 실습해보자.</p>
<p>실습데이터 : <a href="https://raw.githubusercontent.com/ByoungChan-Park/Create_velog_contents/main/tips_na.csv">tips_na</a></p>
<ul>
<li><p>seaborn 라이브러리를 통해 불러 올 수 있는 tips 데이터에 인위적으로 결측치, 이상치를 첨가한 데이터셋</p>
</li>
<li><p>total_bill: 총 합계 요금표
tip: 팁
sex: 성별
smoker: 흡연자 여부
day: 요일
time: 식사 시간
size: 식사 인원</p>
</li>
</ul>
<h2 id="1-데이터-구성-미리보기-">1) 데이터 구성 미리보기 :</h2>
<blockquote>
<h5 id="head-tail">head(), tail()</h5>
</blockquote>
<h3 id="11-head">1.1) head()</h3>
<p><img src="https://velog.velcdn.com/images/chan_p/post/e09bf448-94df-4f2b-ae8f-c6e6cf9543c6/image.png" alt=""></p>
<h4 id="12-tail">1.2) tail()</h4>
<p><img src="https://velog.velcdn.com/images/chan_p/post/6f8e7e03-9666-4e83-b052-063150daac89/image.png" alt=""></p>
<ul>
<li>head()와 tail()은 각각 데이터의 상단 5개, 하단 5개를 불러와 어떤 구성으로 되어있는지 미리보기 위해 사용된다.</li>
</ul>
<h4 id="데이터를-핸들링하는-과정에서-원하는대로-편집-되었는지-간략히-확인">데이터를 핸들링하는 과정에서 원하는대로 편집 되었는지 간략히 확인</h4>
<hr>
<h2 id="2-데이터-요약정보-확인하기-">2) 데이터 요약정보 확인하기 :</h2>
<blockquote>
<h5 id="shape-dtypes-info">shape, dtypes, info()</h5>
</blockquote>
<h3 id="21-shape">2.1) shape</h3>
<p><img src="https://velog.velcdn.com/images/chan_p/post/2cebdddf-7022-48a6-a4ff-acc766b00250/image.png" alt=""></p>
<ul>
<li>shape을 통해 데이터의 전체 형태(행, 열)을 알 수 있다.
(244 행, 7개 열) 형태<h3 id="22-dtypes">2.2) dtypes</h3>
<img src="https://velog.velcdn.com/images/chan_p/post/8dbecea0-17a0-4db4-93d0-e1000a0b7047/image.png" alt=""></li>
<li>데이터 변수(열)들의 타입(자료형태)을 보여준다.
(total_bill = 소숫점형태, size = 정수형태, sex = 객체형태)</li>
<li>head()로 확인했을때 tip 은 숫자였는데, 객체형태로 확인된다면, 하나라도 객체형 데이터가 삽입되어있다는 것을 간접적으로 알 수 있다. <h3 id="23-info">2.3) info()</h3>
<img src="https://velog.velcdn.com/images/chan_p/post/73d0a766-307e-42dd-8778-278383c5a96e/image.png" alt=""></li>
<li>데이터의 기본 정보(데이터 형태, 결측치여부, 변수타입, 메모리)를 보여준다.</li>
</ul>
<h4 id="데이터의-형태-구성에-대해-확인하고-이상한-점을-대략적으로-파악">데이터의 형태, 구성에 대해 확인하고, 이상한 점을 대략적으로 파악</h4>
<hr>
<h2 id="3-통계정보-확인하기-">3) 통계정보 확인하기 :</h2>
<blockquote>
<h5 id="count-value_counts-mean-median-max-min-std-describe-corr">count(), value_counts(), mean(), median(), max(), min(), std(), describe(), corr()</h5>
</blockquote>
<h3 id="31-count">3.1) count()</h3>
<p><img src="https://velog.velcdn.com/images/chan_p/post/1a767f6b-d3bc-4ca0-888e-b0209610318f/image.png" alt=""></p>
<ul>
<li>각 변수별 몇개의 값이 채워져 있는지 보여준다.
(244개의 행이 있으나, 이보다 작은 값을 가진 변수의 경우 값이 없는 결측치가 존재한다는 것을 간접적으로 알 수 있다.)<h3 id="32-value_counts">3.2) value_counts()</h3>
<img src="https://velog.velcdn.com/images/chan_p/post/273fe863-d80a-4b38-a624-2c536730cb04/image.png" alt=""></li>
<li>특정 열의 고유값 갯수를 확인한다.
(전체 데이터를 예시로 들기엔, 광범위하여 smoker 변수로 한정. No 145개, Yes 93개 값을 지닌다.)</li>
</ul>
<h3 id="33-max-min-mean-median-var-std">3.3) max(), min(), mean(), median(), var(), std()</h3>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/382c7b2a-7810-452e-8281-f9b9991f621e/image.png" alt=""></p>
</blockquote>
<ul>
<li>max()로 데이터 프레임 내 각 변수들의 최대값을 알 수 있다.
(값이 object 자료형일땐 첫번째 글자의 아스키코드를 기준으로 최대,최소값이 결정)
<img src="https://velog.velcdn.com/images/chan_p/post/8e2591bc-755c-4a17-9599-f086162b4e86/image.png" alt=""></li>
<li>수치형 변수에 대해서만 보기 위해선 &quot;numeric_only = True&quot; 조건을 추가</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/d008bbb9-bfd5-4635-a7b7-4f10983d83e7/image.png" alt=""></p>
</blockquote>
<ul>
<li>min()으로 데이터 프레임 내 각 변수들의 최소값을 알 수 있다.</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/644943ac-6a9e-49c1-9c35-c3334d244d6c/image.png" alt=""></p>
</blockquote>
<ul>
<li>mean()으로 데이터 프레임 내 각 변수들의 평균값을 알 수 있다.</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/f92078c5-5192-44a9-9616-49749c6de4e5/image.png" alt=""></p>
</blockquote>
<ul>
<li>median()으로 데이터 프레임 내 각 변수들의 중앙값을 알 수 있다.</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/4f2bef27-1f72-4484-8330-2540bd85ea8c/image.png" alt=""></p>
</blockquote>
<ul>
<li>var()로 데이터 프레임 내 각 변수들의 분산을 알 수 있다.</li>
</ul>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/dc60a2a8-a6cd-402a-bb9c-3a38bf97d626/image.png" alt=""></p>
</blockquote>
<ul>
<li>std()로 데이터 프레임 내 각 변수들의 표준편차를 알 수 있다.</li>
</ul>
<h3 id="34-describe">3.4) describe()</h3>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/4f94db20-2d94-4111-9d2a-cf32dc79b1cc/image.png" alt=""></p>
</blockquote>
<ul>
<li>값의 수, 고유값의 수, 최빈값, 빈도수, 평균, 표준편차, 최소값, 사분위수, 최대값 순으로 출력되며, 자료형에 적합하지 않으면 &#39;NaN&#39;으로 생략된다.</li>
</ul>
<h3 id="35-corr">3.5) corr()</h3>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chan_p/post/a846e4a7-5fa9-4fed-8b5e-cc1d3017a83a/image.png" alt=""></p>
</blockquote>
<ul>
<li>수치형 변수간의 상관계수(비례관계의 정도)를 확인할 수 있다. </li>
<li><table>
<thead>
<tr>
<th>상관계수</th>
<th align="center">의미</th>
</tr>
</thead>
<tbody><tr>
<td><code>0.7~1.0</code></td>
<td align="center"><code>매우 높은 음/양의 상관관계</code></td>
</tr>
<tr>
<td><code>0.3~0.7</code></td>
<td align="center"><code>높은 음/양의 상관관계</code></td>
</tr>
<tr>
<td><code>0.1~0.3</code></td>
<td align="center"><code>약한 음/양의 상관관계</code></td>
</tr>
<tr>
<td><code>0.0~0.1</code></td>
<td align="center"><code>상관관계 없음</code></td>
</tr>
</tbody></table>
</li>
<li>total_bill과 size는 높은 양의 상관관계이다.
(식사인원이 증가할수록 총 지출금액이 증가한다.)</li>
</ul>
<h4 id="값들의-분포-관계에-대해-대략적으로-확인">값들의 분포, 관계에 대해 대략적으로 확인</h4>
<hr>
<p>이 외에도 다양한 내장메소드들이 있으며, 조합에 따라 부분적으로 확인 하는 것 또한 가능하다.
표 형태의 데이터를 가장 간편히 다룰 수 있는 도구로 꼭 익혀놓아야 할 가치가 있으니, 아래 Reference를 참고하여 학습을 진행하길 바란다.</p>
<h4 id="today_summary--재료를-손질하기-위해-pandas로-요목조목-살펴보자">Today_Summary : 재료를 손질하기 위해 pandas로 요목조목 살펴보자.</h4>
<br>

<h2 id="references">References</h2>
<p><a href="https://pandas.pydata.org/docs/user_guide/index.html">pandas가이드</a>
<a href="https://www.datamanim.com/dataset/99_pandas/pandasMain.html">pandas 연습 튜토리얼</a></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[22.07.04]]></title>
            <link>https://velog.io/@chan_p/22.07.04</link>
            <guid>https://velog.io/@chan_p/22.07.04</guid>
            <pubDate>Mon, 04 Jul 2022 12:38:34 GMT</pubDate>
            <description><![CDATA[<h2 id="1-daily-reflection">1. Daily Reflection</h2>
<blockquote>
<ul>
<li>기상시간 : 06:30</li>
</ul>
</blockquote>
<ul>
<li>학습목표 달성(1~10) : 10</li>
<li>기분점수(1~10) : 7<ul>
<li>개념정리와 더불어 &#39;비전공자에게 설명한다.&#39;는 가정 하에 포스팅하는것이 목표였으나, 몇시간째 작성하는 내 모습은 비효율 그 자체였다. 한달정도 과도기를 겪는단 마인드로 익숙해질때까지 꾸준하게 임해보자!</li>
</ul>
</li>
</ul>
<hr>
<h2 id="2-today-review">2. Today Review</h2>
<blockquote>
<h3 id="--today-i-did-">- Today I Did :</h3>
</blockquote>
<ul>
<li>나만의 언어로 EDA해석 및 포스팅</li>
<li>추천시스템 알고리즘 종류, 개념 파악<h3 id="--today-i-learn-">- Today I Learn :</h3>
</li>
<li>EDA의 중요성</li>
<li>EDA 구체적방법</li>
<li>Contents-Based RecSys</li>
<li>Collaborative Filtering RecSys</li>
<li>Hybrid RecSys</li>
<li>Context-Based Recsys</li>
<li>Community-Based Recsys</li>
<li>Knowledge-Based Recsys_(Case-Based, Constraint-Based)</li>
</ul>
<hr>
<h3 id="3-tomorrows-goal-">3. Tomorrow&#39;s goal :</h3>
<blockquote>
<ul>
<li>5시 30분 기상</li>
</ul>
</blockquote>
<ul>
<li>포스팅 방법(폼 통일화)체계화</li>
<li>추천시스템의 한계 학습 후 포스팅</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[About EDA]]></title>
            <link>https://velog.io/@chan_p/EDA</link>
            <guid>https://velog.io/@chan_p/EDA</guid>
            <pubDate>Mon, 04 Jul 2022 05:01:59 GMT</pubDate>
            <description><![CDATA[<h2 id="edaexploratory-data-analysis-탐색적-데이터-분석">EDA(Exploratory Data Analysis) 탐색적 데이터 분석</h2>
<ul>
<li><strong>당신이 데이터에 대해 알아보는 &quot;모든&quot; 행위</strong></li>
</ul>
<blockquote>
<p>본론에 들어가기 앞서 <strong>EDA</strong>는 명확하게 &quot;어떠한 방법&quot;이라고 정의하기 어려운 과정이다.<br>
이유인 즉슨 </p>
</blockquote>
<p>1) <strong>탐색</strong> 이라는 단어가 갖는 의미가 광범위하기 때문
2) <strong>방법</strong> 이 한가지로 규정되어 있지 않기 때문
이다.<br>
장님이 코끼리를 만진다고 가정해보자.
<img src="https://velog.velcdn.com/images/chan_p/post/0460ad48-52c0-410c-908f-cccc7adf2bf0/image.jpg" alt=""></p>
<h6 id="이미지-출처--httpst1daumcdnnetcfileblog121399414ffd16cf28original">이미지 출처 : <a href="https://t1.daumcdn.net/cfile/blog/121399414FFD16CF28?original">https://t1.daumcdn.net/cfile/blog/121399414FFD16CF28?original</a></h6>
<p>부분적으로 판단한다면 부위별로 우스운 답변이 도출될 것이나, 모든 부위를 만져본다면 <strong>코끼리</strong> 라는 결론에 다다를 수 있을 것이다.<br>
즉, 데이터를 통해 Insight(통찰)에 다다르기 위해선 다각도, 다방면에서 탐색적 데이터 분석을 통한 <strong>이해</strong>가 필요하다.</p>
<hr>
<h3 id="1-절차">1. 절차</h3>
<blockquote>
<p><strong><em>&quot;그래도 대표적으로 시행해야하는 절차가 있지 않을까요?&quot;</em></strong>
라고 묻는다면, 기본적으로 아래의 과정을 소개해 주고 싶다.<br></p>
</blockquote>
<ul>
<li>1) 결측치(Missing Value) 가 있는지 확인 하는 것</li>
<li>2) 이상치(Outlier) 가 있는지 확인하는 것</li>
<li>3) 데이터 타입(dtypes)을 확인하는 것 </li>
<li>4) 행과 열의 수를 확인하는 것 (shape)</li>
<li>5) 기존 데이터를 통해 새로운 데이터를 생성 하는 것</li>
<li>6) 결측치를 채우는 것 (fillna)<br>
이 외에도 데이터에 대해 파악할 수 있는 모든 행위가 포함된다.</li>
</ul>
<hr>
<h3 id="2-직무-내-eda의-비중">2. 직무 내 EDA의 비중</h3>
<blockquote>
<p><a href="https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=26a5b3b46f63">Forbes선정 데이터직군의 작업별 소요시간</a>
<img src="https://velog.velcdn.com/images/chan_p/post/230b3a8e-d549-4566-8f7e-ce93210a2bbe/image.webp" alt=""></p>
</blockquote>
<h6 id="이미지-출처--httpswwwforbescomsitesgilpress20160323data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-sayssh26a5b3b46f63">이미지 출처 : <a href="https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=26a5b3b46f63">https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=26a5b3b46f63</a></h6>
<p>위 지표를 보면 60%(연두색)를 전처리를 포함한 EDA가 차지하고 있으며, 여담으로 데이터 분석가, 과학자들이 가장 고통스러워 하는 단계이다.
수학문제집을 푸는것은 재밌지만, 개념을 배우는 고통스러운 수업이 선행되어야 하는 느낌과 비슷하다고 볼 수 있지 않을까?
<del>&quot;나는 분석스킬을 가지고 있는데, 분석은 커녕 대부분의 시간을 확인작업에 쓰고있네...&quot;라는 자괴감</del></p>
<hr>
<h3 id="3-마인드셋">3. 마인드셋</h3>
<blockquote>
<p>고통스러울지언정, 양질의 분석결과를 얻기 위해 감내하자.<br>
데이터의 상태를 확인하고, 적절한 전처리를 해주며 어떻게 분석을 진행할지 설계하는 과정으로 받아들이자.<br>
그래야 깨끗한 데이터를 통해 정확한 결과를 얻을 수 있을테니 말이다.
(Garbage in, Garbage out 방지)</p>
</blockquote>
<h4 id="today_summary--eda란-맛있는-요리를-만들기-위해-재료를-잘-손질하는-과정">Today_Summary : EDA란 맛있는 요리를 만들기 위해 재료를 잘 손질하는 과정</h4>
]]></description>
        </item>
    </channel>
</rss>