<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>grit_ey.log</title>
        <link>https://velog.io/</link>
        <description>안녕하세요</description>
        <lastBuildDate>Tue, 07 Nov 2023 07:55:51 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>grit_ey.log</title>
            <url>https://velog.velcdn.com/images/grit_ey/profile/d2235cc7-f640-4947-8d6c-e81ff72db64d/social_profile.png</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. grit_ey.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/grit_ey" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[mpg(mile per gallon) 실습]]></title>
            <link>https://velog.io/@grit_ey/mpgmile-per-gallon-%EC%8B%A4%EC%8A%B5</link>
            <guid>https://velog.io/@grit_ey/mpgmile-per-gallon-%EC%8B%A4%EC%8A%B5</guid>
            <pubDate>Tue, 07 Nov 2023 07:55:51 GMT</pubDate>
            <description><![CDATA[<h4 id="라이브러리-및-데이터-불러오기">라이브러리 및 데이터 불러오기</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/009fb8e7-75f0-4ef4-b488-ef794f67868d/image.png" alt=""></p>
<h4 id="요약통계량-확인">요약통계량 확인</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/2058cd58-0486-458d-94cc-6aedb6417bb6/image.png" alt=""></p>
<h4 id="컬럼명-바꾸기rename">컬럼명 바꾸기(rename)</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/d4e34d89-f6d3-42df-91d0-4f3dcf5eff13/image.png" alt=""></p>
<h4 id="파생변수컬럼-만들기">파생변수(컬럼) 만들기</h4>
<ul>
<li>total 컬럼 생성하기 = 도시와 고속도로의 연비의 평균</li>
</ul>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/1574cde1-feb8-4d29-8e34-593fcf1afde3/image.png" alt=""></p>
<ul>
<li>통합연비 평균 구하기
<img src="https://velog.velcdn.com/images/grit_ey/post/acaeaee2-6204-4a53-8b34-6b9bec4c6c20/image.png" alt=""></li>
</ul>
<h4 id="연비의-기준값을-설정해-기준값을-넘으면-pass--넘지-못하면-fail으로-분류">연비의 기준값을 설정해 기준값을 넘으면 &#39;pass&#39; , 넘지 못하면 &#39;fail&#39;으로 분류</h4>
<ul>
<li>기준값 정하기</li>
<li>*평균연비(total)의 평균과 중앙값 확인
<img src="https://velog.velcdn.com/images/grit_ey/post/0000b799-bfa9-4e4b-a682-c658c69e49c0/image.png" alt=""></li>
</ul>
<p>**자동차들의 연비 분포 확인</p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/c094d965-dc5c-4122-a93c-dfe06be856fd/image.png" alt=""></p>
<p>**요약통계량과 히스토그램을 통해 기준값 설정</p>
<ul>
<li>total 연비의 평균과 중앙값이 약 20이다</li>
<li>total 연비가 20~22.5 사이인 모델이 가장 많다</li>
<li>total 연비는 대부분 25이하이고, 25넘기는 모델은 많지 않다</li>
<li>total 변수가 20을 넘으면 합격(pass), 넘지 못하면 불합격(fail)</li>
</ul>
<h4 id="npwhere-패키지-함수-사용">np.where 패키지 함수 사용</h4>
<ul>
<li>평균연비가 20이상이라면 pass,아니라면 fail 값을 출력</li>
<li>test 라는 새로운 컬럼 생성 후 값 담아주기
<img src="https://velog.velcdn.com/images/grit_ey/post/efafdc46-220a-42cc-b58a-adb4911746e0/image.png" alt=""></li>
</ul>
<h4 id="합격-판정-자동차-수-확인하기">합격 판정 자동차 수 확인하기</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/e69dfa17-0153-4093-9c6b-213eaff59b2b/image.png" alt=""></p>
<h4 id="막대그래프로-빈도-표현하기">막대그래프로 빈도 표현하기</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/9a68f89d-1419-4049-99b4-e24b1d757053/image.png" alt=""></p>
<ul>
<li>total이 30이상이면 &#39;A&#39;, 20-29이면 &#39;B&#39;, 20미만이면 &#39;C&#39;등급으로 분류</li>
<li>&#39;grade&#39; 컬럼 생성해서 값 담아주기
<img src="https://velog.velcdn.com/images/grit_ey/post/0ca5565e-8d56-4dec-abc7-7823fb873b5e/image.png" alt=""></li>
</ul>
<h4 id="등급별-빈도-확인하기">등급별 빈도 확인하기</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/7e9c667d-800d-4fce-b280-5e8db9fdc8ab/image.png" alt=""></p>
<h4 id="알파벳-순으로-정렬">알파벳 순으로 정렬</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/858aeebc-d99e-465e-8161-cebb4ea7365f/image.png" alt=""></p>
<h4 id="막대-그래프-연비-등급-확인하기">막대 그래프 연비 등급 확인하기</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/2f0a7af2-90ad-4ead-8636-f22a4bc8aeb0/image.png" alt=""></p>
<h3 id="조건을-이용하여-파생변수-만들기">조건을 이용하여 파생변수 만들기</h3>
<p>** 여러 조건시, &amp;(and) / |(or)
    조건을 ( )묶어주기
<img src="https://velog.velcdn.com/images/grit_ey/post/b303bec9-ce2b-44d5-9768-53daaab8a088/image.png" alt=""></p>
<p>** isin메서드 활용(변수의 값이 입력한 목록에 해당하는지 확인)
<img src="https://velog.velcdn.com/images/grit_ey/post/6c74e976-bb65-4adb-a670-491ef68ba950/image.png" alt=""></p>
<h3 id="실습-아우디와-도요타-도시-연비-평균-구하기">(실습) 아우디와 도요타 도시 연비 평균 구하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/182d2454-0052-457d-9c33-d17aae3bda0b/image.png" alt=""></p>
<p>** mean() 평균
<img src="https://velog.velcdn.com/images/grit_ey/post/fbde3a78-b4c1-4bba-809d-5fd4b667a375/image.png" alt=""></p>
<h3 id="카테고리가-suvcompact의-차종의-도시-연비-평균-비교">카테고리가 suv,compact의 차종의 도시 연비 평균 비교</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/a5ca7835-cc9b-44a2-908e-b936c8ec38d1/image.png" alt=""></p>
<h3 id="쉐보레포드혼다-자동차의-고속도로-연비-평균을-구해보기">쉐보레,포드,혼다 자동차의 고속도로 연비 평균을 구해보기</h3>
<p>**in연산자/변수명 in 리스트
<img src="https://velog.velcdn.com/images/grit_ey/post/6a3fb8ca-34de-4789-b881-5fea3f70e443/image.png" alt=""></p>
<h3 id="groupby-사용">groupby 사용</h3>
<ul>
<li>데이터를 그룹화하여 연산을 수행하는 메서드</li>
</ul>
<p>**제조사별 도시연비 평균 구하기</p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/18671346-088c-4d6f-a625-3ec451dbfd3b/image.png" alt=""></p>
<p>**제조사별 city_mean과 high_mean의 값 확인하기
<img src="https://velog.velcdn.com/images/grit_ey/post/ffb6ec68-463d-4506-80f1-76c248a9bf85/image.png" alt=""></p>
<p>**제조사별 등급나누기
  제조사별로 등급의 개수(A,B,C)
<img src="https://velog.velcdn.com/images/grit_ey/post/dde95a4d-7cbb-4363-9b2b-f091e8a85010/image.png" alt=""></p>
<h3 id="실습">(실습)</h3>
<ul>
<li><p>고속도로 연비가 가장 높은 제조사를 확인하기 위해 고속도로 연비 평균이 높은 회사 3곳 출력
<img src="https://velog.velcdn.com/images/grit_ey/post/a9003d34-552d-484f-8ea2-777e714bac56/image.png" alt=""></p>
</li>
<li><p>어떤 회사에서 compact 차종을 가장 많이 생산했는지 내림차순으로 정렬
<img src="https://velog.velcdn.com/images/grit_ey/post/8d294644-4edc-42c3-b795-4ddb0e8c6508/image.png" alt=""></p>
</li>
</ul>
<h3 id="산점도scatter그래프">산점도(scatter)그래프</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/39ba127b-63e0-4819-b078-1e5d2ab6a002/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/e086c4ee-c864-403e-82c8-82d4bc06b535/image.png" alt=""></p>
<p>**x축, y축 설정 (xlim,ylim)
<img src="https://velog.velcdn.com/images/grit_ey/post/c1f6b9e7-d35b-4519-b403-070bb8fb7bdb/image.png" alt=""></p>
<h3 id="막대-그래프">막대 그래프</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/b521f3b0-3db3-4e18-8f46-d3a387e03aa5/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/61a6c56a-3d10-4c09-a4ac-36e4920632d9/image.png" alt=""></p>
<ul>
<li>그래프 정렬하기
<img src="https://velog.velcdn.com/images/grit_ey/post/a9172536-98ad-4135-ac6d-2b6bc8aef3b3/image.png" alt=""></li>
</ul>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/acaa7b66-dae0-4625-a98f-94068777c1ad/image.png" alt=""></p>
<h3 id="구동방식별-빈도표-만들기">구동방식별 빈도표 만들기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/18cf9f28-6785-4db6-89cc-98b0c6e1473d/image.png" alt=""></p>
<ul>
<li>막대그래프 그리기
<img src="https://velog.velcdn.com/images/grit_ey/post/f790c1c2-3028-4477-a7b4-72fe724f114b/image.png" alt=""></li>
</ul>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/664b13e6-803d-4448-8e97-084ed5d610db/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[자연어 처리(NLP)]]></title>
            <link>https://velog.io/@grit_ey/%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%ACNLP</link>
            <guid>https://velog.io/@grit_ey/%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%ACNLP</guid>
            <pubDate>Tue, 07 Nov 2023 01:49:01 GMT</pubDate>
            <description><![CDATA[<h3 id="자연어-처리">자연어 처리</h3>
<ul>
<li>토큰화, 정제, 정규화, 정수 인코딩의 기본적인 자연어 전처리 과정을 이해한다</li>
<li>감성어휘 사전을 활용해 감성분석을 진행해보자</li>
</ul>
<h3 id="단어-토큰화word-tokenization">단어 토큰화(Word Tokenization)</h3>
<ul>
<li>토큰 : &#39;의미있는 작은 단위&#39;를 뜻함</li>
<li>코퍼스(corpus) : 분석에 활용하기 위한 자연어 데이터 / 말뭉치</li>
<li>토큰화 : 하나의 코퍼스를 여러개의 토큰으로 나누는 과정</li>
</ul>
<h4 id="영어-자연어-처리-패키지-설치--nltk">영어 자연어 처리 패키지 설치 : NLTK</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/3d985f71-13c2-47fc-8089-6a45cd2f41d6/image.png" alt=""></p>
<h4 id="단어-토큰화">단어 토큰화</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/5b2e52bb-75e0-4a18-8834-c6bfa3eb79cd/image.png" alt=""></p>
<h4 id="실습">실습</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/9718ce21-a44c-4402-a975-f5848f0684fc/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/7647da6d-f379-4bd0-9d92-45f805b5f0d1/image.png" alt=""></p>
<h3 id="정제cleaning">정제(Cleaning)</h3>
<ul>
<li>코퍼스에는 아무 의미도 없거나 목적에 부합하지 않는 단어들도 포함</li>
<li>전처리 과정에서 제거하는 작업을 <strong>정제</strong></li>
<li>등장빈도, 단어길이, 불용어 등을 기준으로 사용</li>
</ul>
<h3 id="등장빈도가-적은-단어-정제">등장빈도가 적은 단어 정제</h3>
<ul>
<li>코퍼스에 등장하는 빈도가 너무 적은 단어는 분석에 도움이 되지 않음</li>
<li>Counter() 함수 활용
<img src="https://velog.velcdn.com/images/grit_ey/post/0867771a-1b0c-4abf-9ec5-6cb76724bc8f/image.png" alt=""></li>
</ul>
<p>**빈도수가 2 이하인 단어 리스트를 추출
<img src="https://velog.velcdn.com/images/grit_ey/post/8093947d-99d7-411c-9bd0-db94500f9667/image.png" alt=""></p>
<p>**빈도수가 2이하인 단어들만 제거한 결과를 저장</p>
<ul>
<li>if 변수 not in
<img src="https://velog.velcdn.com/images/grit_ey/post/8a0f0e5b-4b08-44a9-8687-656ae8b7a2d1/image.png" alt=""></li>
</ul>
<p>**길이가 2이하인 단어 제거</p>
<ul>
<li>len()
<img src="https://velog.velcdn.com/images/grit_ey/post/424707e9-6e96-4d4e-af09-d01ec9df95d1/image.png" alt=""></li>
</ul>
<h3 id="정제-함수-만들기">정제 함수 만들기</h3>
<ul>
<li>등장 빈도 기준 정제 함수
<img src="https://velog.velcdn.com/images/grit_ey/post/d938d38b-a2b7-4bdb-b464-9807d697a669/image.png" alt=""></li>
</ul>
<ul>
<li><p>함수호출
<img src="https://velog.velcdn.com/images/grit_ey/post/fd1c6ca1-d5b0-49cb-89b5-08a81cd086ca/image.png" alt=""></p>
</li>
<li><p>단어 길이 기준 정제 함수
<img src="https://velog.velcdn.com/images/grit_ey/post/b1086d51-304e-4a20-b961-fbbd4fe9e149/image.png" alt=""></p>
</li>
<li><p>함수호출
<img src="https://velog.velcdn.com/images/grit_ey/post/862c926a-009e-4475-9532-32e7055c8b59/image.png" alt=""></p>
</li>
</ul>
<h3 id="불용어stopwords">불용어(Stopwords)</h3>
<ul>
<li>코퍼스에서 큰 의미가 없거나, 분석 목적에서 벗어나는 단어들</li>
</ul>
<ol>
<li>불용어를 모아 놓은 불용어 세트 준비</li>
<li>코퍼스의 각 단어/토큰들이 불용어 세트에 포함되는지 확인</li>
<li>불용어 세트에 있는 단어 토큰을 분석에서 제외</li>
</ol>
<ul>
<li><ol>
<li>불용어를 모아 놓은 불용어 세트 준비
<img src="https://velog.velcdn.com/images/grit_ey/post/90bbfb82-7674-49ed-a746-e6967c692790/image.png" alt=""></li>
</ol>
</li>
</ul>
<p>** 집합 자료형 set (인덱싱, 슬라이싱 불가)
<img src="https://velog.velcdn.com/images/grit_ey/post/d04b9c9b-9006-4348-bea6-bb27f4ef1e7e/image.png" alt=""></p>
<ul>
<li><ol start="2">
<li>코퍼스의 각 단어/토큰들이 불용어 세트에 포함되는지 확인</li>
</ol>
</li>
</ul>
<p>**불용어 목록에 새로운 단어/토큰 추가,제거
<img src="https://velog.velcdn.com/images/grit_ey/post/bb664ba0-a4a5-44a9-bc16-a87e4403d66a/image.png" alt=""></p>
<h3 id="불용어-제거하기">불용어 제거하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/8252dbc3-edb3-41e5-a771-7ec7ac9ee124/image.png" alt=""></p>
<h3 id="불용어-처리-함수-정의하기">불용어 처리 함수 정의하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/838b6229-f65d-4dc6-9f71-94294de9a7f8/image.png" alt=""></p>
<ul>
<li>함수호출
<img src="https://velog.velcdn.com/images/grit_ey/post/d7051b82-7873-46d5-9010-cb839e1177de/image.png" alt=""></li>
</ul>
<h3 id="정규화normalization">정규화(normalization)</h3>
<ul>
<li>의미가 같은 단어라면 하나의 형태로 통일</li>
<li>형태가 다르지만 같은 의미를 나타내는 단어들이 많을수록 분석이 어려워짐</li>
<li>남한,Korea,대한민국,한국-&gt;통일</li>
</ul>
<h4 id="정규화방법1--대소문자-통합">정규화방법1 : 대소문자 통합</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/212ffce7-41e6-43e8-9492-a3ba998109d8/image.png" alt=""></p>
<h4 id="정규화방법2--규칙기반-정규화">정규화방법2 : 규칙기반 정규화</h4>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/942cb2e1-2195-4740-8b9c-5b47a2a14635/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/f05fe884-71f9-4f44-b360-24f6381aef23/image.png" alt=""></p>
<h3 id="감성분석이란">감성분석이란</h3>
<ul>
<li>자연어에 담긴 어조가 긍정적인지, 부정적인지, 혹은 중립적인지를 확인하는 작업</li>
<li>제품개발, 서비스개선, 시장조사 등 다양한 용도로 활용가능</li>
</ul>
<h4 id="vader">VADER</h4>
<ul>
<li>감성 분석을 위한 어휘사전이자 알고리즘</li>
<li>축약형과 기호 등을 고려해 감성지수를 추출할 수 있음
<img src="https://velog.velcdn.com/images/grit_ey/post/56cbcdca-f07c-4970-8af6-13e84bbae5e7/image.png" alt=""></li>
</ul>
<p>**VADER 감성분석
<img src="https://velog.velcdn.com/images/grit_ey/post/683162f2-d4b5-4320-af96-f6a76bcc7e35/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/eb5fb52d-e029-4599-ba79-a08c15ad77db/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[텍스트 마이닝 실습]]></title>
            <link>https://velog.io/@grit_ey/%ED%85%8D%EC%8A%A4%ED%8A%B8-%EB%A7%88%EC%9D%B4%EB%8B%9D-%EC%8B%A4%EC%8A%B5</link>
            <guid>https://velog.io/@grit_ey/%ED%85%8D%EC%8A%A4%ED%8A%B8-%EB%A7%88%EC%9D%B4%EB%8B%9D-%EC%8B%A4%EC%8A%B5</guid>
            <pubDate>Mon, 06 Nov 2023 03:28:20 GMT</pubDate>
            <description><![CDATA[<h3 id="기사댓글-데이터-불러오기">기사댓글 데이터 불러오기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/9ace557c-2cea-44d5-9f0b-c1e54cd626e7/image.png" alt="">
<img src="https://velog.velcdn.com/images/grit_ey/post/90a171ed-c594-4ebb-b884-d6557acdd073/image.png" alt=""></p>
<h3 id="불필요한-문자-제거하기">불필요한 문자 제거하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/bcca7749-8524-445b-9b30-4750450a75df/image.png" alt=""></p>
<h3 id="명사-추출하기">명사 추출하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/e986dc5a-db84-4237-9bf0-cba366a9670f/image.png" alt=""></p>
<h3 id="두-글자-이상-단어-남기고-빈도표-생성하기">두 글자 이상 단어 남기고, 빈도표 생성하기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/f33a6f02-12b0-4542-bb7d-c61bd5acc8b8/image.png" alt="">
<img src="https://velog.velcdn.com/images/grit_ey/post/68b4c851-e856-4d94-956c-5bafa60f0210/image.png" alt=""></p>
<h3 id="단어-빈도-상위-20개-추출">단어 빈도 상위 20개 추출</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/ef30464f-4392-42e4-9fd0-33729e98a1a7/image.png" alt=""></p>
<h3 id="top20을-통해-막대-그래프-만들기">top20을 통해 막대 그래프 만들기</h3>
<p><img src="https://velog.velcdn.com/images/grit_ey/post/b7960e60-2b23-4ca7-aedc-2dafc0e992ec/image.png" alt=""></p>
<h3 id="워드클라우드-만들기">워드클라우드 만들기</h3>
<ul>
<li><p>데이터프레임을 딕셔너리로 변환
dic_word=df_word.set_index(&#39;word&#39;).to_dict()[&#39;word_count&#39;]</p>
</li>
<li><p>wc 만들기
<img src="https://velog.velcdn.com/images/grit_ey/post/50564023-c7ed-4c80-9e9b-a4236fb3c4dc/image.png" alt=""></p>
</li>
<li><p>워드클라우드 만들기
img_wordcloud=wc.generate_from_frequencies(dic_word)</p>
</li>
<li><p>워드클라우드 출력하기
<img src="https://velog.velcdn.com/images/grit_ey/post/b06c5fc8-bb9a-4567-b093-be2a653bcc44/image.png" alt="">
<img src="https://velog.velcdn.com/images/grit_ey/post/2b0e4878-60e2-4c01-8882-5fa686b38054/image.png" alt=""></p>
</li>
</ul>
]]></description>
        </item>
    </channel>
</rss>