<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>code_kiki.log</title>
        <link>https://velog.io/</link>
        <description>흩어진 조각을 맞추어나가다 보면</description>
        <lastBuildDate>Sat, 22 Feb 2020 06:30:35 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>code_kiki.log</title>
            <url>https://images.velog.io/profiles/code_kiki/thumbnails/1581150362.734.png</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. code_kiki.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/code_kiki" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[형태소 분석기 성능 테스트 - 한나눔, 트위터, 코모란 | 개발일지 #3-3]]></title>
            <link>https://velog.io/@code_kiki/%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EC%84%B1%EB%8A%A5-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%95%9C%EB%82%98%EB%88%94-%ED%8A%B8%EC%9C%84%ED%84%B0-%EC%BD%94%EB%AA%A8%EB%9E%80-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3-3</link>
            <guid>https://velog.io/@code_kiki/%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EC%84%B1%EB%8A%A5-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%95%9C%EB%82%98%EB%88%94-%ED%8A%B8%EC%9C%84%ED%84%B0-%EC%BD%94%EB%AA%A8%EB%9E%80-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3-3</guid>
            <pubDate>Sat, 22 Feb 2020 06:30:35 GMT</pubDate>
            <description><![CDATA[<p>같은 문장을 분석해본다. 
&quot;&quot;언제부터 YouTube에서 수익을 창출할 수 있나요?&quot;라는 질문을 받습니다&quot;</p>
<blockquote>
<p>print(hannanum.pos(&#39;&quot;언제부터 YouTube에서 수익을 창출할 수 있나요?&quot;라는 질문을 받습니다&#39;))
print(&#39;\n&#39;)
print(twitter.pos(&#39;&quot;언제부터 YouTube에서 수익을 창출할 수 있나요?&quot;라는 질문을 받습니다&#39;))
print(&#39;\n&#39;)
print(komoran.pos(&#39;&quot;언제부터 YouTube에서 수익을 창출할 수 있나요?&quot;라는 질문을 받습니다&#39;))</p>
</blockquote>
<p>결과값</p>
<blockquote>
<p>한나눔 
[(&#39;&quot;&#39;, &#39;S&#39;), (&#39;언제&#39;, &#39;N&#39;), (&#39;부터&#39;, &#39;J&#39;), (&#39;YouTube&#39;, &#39;F&#39;), (&#39;에서&#39;, &#39;J&#39;), (&#39;수익&#39;, &#39;N&#39;), (&#39;을&#39;, &#39;J&#39;), (&#39;창출&#39;, &#39;N&#39;), (&#39;하&#39;, &#39;X&#39;), (&#39;ㄹ&#39;, &#39;E&#39;), (&#39;수&#39;, &#39;N&#39;), (&#39;있&#39;, &#39;P&#39;), (&#39;나&#39;, &#39;E&#39;), (&#39;요&#39;, &#39;J&#39;), (&#39;?&quot;&#39;, &#39;S&#39;), (&#39;라&#39;, &#39;N&#39;), (&#39;는&#39;, &#39;J&#39;), (&#39;질문&#39;, &#39;N&#39;), (&#39;을&#39;, &#39;J&#39;), (&#39;받&#39;, &#39;P&#39;), (&#39;습니다&#39;, &#39;E&#39;)]</p>
</blockquote>
<blockquote>
<p>트위터
[(&#39;&quot;&#39;, &#39;Punctuation&#39;), (&#39;언제&#39;, &#39;Noun&#39;), (&#39;부터&#39;, &#39;Josa&#39;), (&#39;YouTube&#39;, &#39;Alpha&#39;), (&#39;에서&#39;, &#39;Josa&#39;), (&#39;수익&#39;, &#39;Noun&#39;), (&#39;을&#39;, &#39;Josa&#39;), (&#39;창&#39;, &#39;Noun&#39;), (&#39;출&#39;, &#39;Verb&#39;), (&#39;할&#39;, &#39;Verb&#39;), (&#39;수&#39;, &#39;Noun&#39;), (&#39;있나요&#39;, &#39;Adjective&#39;), (&#39;?&quot;&#39;, &#39;Punctuation&#39;), (&#39;라는&#39;, &#39;Josa&#39;), (&#39;질문&#39;, &#39;Noun&#39;), (&#39;을&#39;, &#39;Josa&#39;), (&#39;받습니다&#39;, &#39;Verb&#39;)]</p>
</blockquote>
<blockquote>
<p>코모란
[(&#39;&quot;&#39;, &#39;SS&#39;), (&#39;언제&#39;, &#39;NP&#39;), (&#39;부터&#39;, &#39;JX&#39;), (&#39;YouTube&#39;, &#39;SL&#39;), (&#39;에서&#39;, &#39;JKB&#39;), (&#39;수익&#39;, &#39;NNG&#39;), (&#39;을&#39;, &#39;JKO&#39;), (&#39;창출&#39;, &#39;NNG&#39;), (&#39;하&#39;, &#39;XSV&#39;), (&#39;ㄹ&#39;, &#39;ETM&#39;), (&#39;수&#39;, &#39;NNB&#39;), (&#39;있&#39;, &#39;VX&#39;), (&#39;나요&#39;, &#39;EF&#39;), (&#39;?&#39;, &#39;SF&#39;), (&#39;&quot;&#39;, &#39;SS&#39;), (&#39;이&#39;, &#39;VCP&#39;), (&#39;라는&#39;, &#39;ETM&#39;), (&#39;질문&#39;, &#39;NNG&#39;), (&#39;을&#39;, &#39;JKO&#39;), (&#39;받&#39;, &#39;VV&#39;), (&#39;습니다&#39;, &#39;EC&#39;)]</p>
</blockquote>
<p>&#39;할 수 있나요?&#39;의 &#39;수&#39;를 한나눔과 트위터에선 &#39;수익&#39;과 같은 &#39;Noun(체언)&#39;으로 인식해버린다. 반면 코모란은 좀더 세분화하여 &#39;NNB&#39;로 인식한다. (&#39;수익&#39;=&#39;NNG&#39;)</p>
<p>다른 글을 찾아보니 코모란이 속도면에서도 나쁘지 않다고 한다.</p>
<blockquote>
<p>정확성, 시간 모두 중요할 때 : 코모란
<a href="https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/">https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/</a>
자소 분리나 오탈자에 대해서도 어느 정도 분석 품질이 보장되야 한다면 KOMORAN 사용을 고려
<a href="https://iostream.tistory.com/144">https://iostream.tistory.com/144</a></p>
</blockquote>
<p>이에 이전 코드를 한나눔에서 코모란으로 바꿔주었다. 
코모란의 품사 태그도 다시 알아봐야하는데 아래에서 확인했다.</p>
<blockquote>
<p><a href="https://docs.komoran.kr/firststep/postypes.html">https://docs.komoran.kr/firststep/postypes.html</a>
<img src="https://images.velog.io/images/code_kiki/post/94b5ee8b-ba57-4410-a34d-ae66f0594f2c/image.png" alt=""></p>
</blockquote>
<p>[i] 일반명사 Top 10 키워드 &amp; 횟수</p>
<blockquote>
<p>[(&#39;수익&#39;, 11), (&#39;창출&#39;, 11), (&#39;채널&#39;, 11), (&#39;프로그램&#39;, 8), (&#39;충족&#39;, 7), (&#39;가입&#39;, 6), (&#39;검토&#39;, 6), (&#39;정책&#39;, 6), (&#39;기준&#39;, 5), (&#39;자격&#39;, 5)]</p>
</blockquote>
<p>[ii] 일반명사,고유명사 Top 10 키워드 &amp; 횟수</p>
<blockquote>
<p>[(&#39;채널&#39;, 14), (&#39;수익&#39;, 11), (&#39;창출&#39;, 11), (&#39;프로그램&#39;, 8), (&#39;충족&#39;, 7), (&#39;가입&#39;, 6), (&#39;검토&#39;, 6), (&#39;정책&#39;, 6), (&#39;동영상&#39;, 5), (&#39;파트너&#39;, 5)]</p>
</blockquote>
<p><em><em>위 결과와 달리 &#39;채널&#39;의 반복횟수가 3회 더 상승했다. 아마 띄어쓰기가 안 된 부분에서 가져온 것이 아닌가 싶다</em></em></p>
<p>[iii] 일반명사,고유명사,의존명사 Top 10 키워드 &amp; 횟수</p>
<blockquote>
<p>Top keyword:  [(&#39;수&#39;, 15), (&#39;채널&#39;, 14), (&#39;수익&#39;, 11), (&#39;창출&#39;, 11), (&#39;프로그램&#39;, 8), (&#39;충족&#39;, 7), (&#39;가입&#39;, 6), (&#39;검토&#39;, 6), (&#39;정책&#39;, 6), (&#39;동영상&#39;, 5)]</p>
</blockquote>
<p><em>_(이전글에서 고문관이었던) &#39;수&#39;가 다시 등장한다. 그 외에 다른 값들의 횟수는 위 [ii]와 변함이 없다.)</em></p>
<p>**결론</p>
<ol>
<li>코란도가 속도면 정확도면에서 유리하다. </li>
<li>일반명사~고유명사까지만 포함하여 키워드로 전제하기로 한다. </li>
</ol>
<p>**</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[최다 반복된 한글 형태소 추출  | 유튜버 말싸미 | 개발일지 #3-2]]></title>
            <link>https://velog.io/@code_kiki/%EC%B5%9C%EB%8B%A4-%EB%B0%98%EB%B3%B5%EB%90%9C-%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EC%B6%94%EC%B6%9C-%EC%9C%A0%ED%8A%9C%EB%B2%84-%EB%A7%90%EC%8B%B8%EB%AF%B8-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3-2</link>
            <guid>https://velog.io/@code_kiki/%EC%B5%9C%EB%8B%A4-%EB%B0%98%EB%B3%B5%EB%90%9C-%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EC%B6%94%EC%B6%9C-%EC%9C%A0%ED%8A%9C%EB%B2%84-%EB%A7%90%EC%8B%B8%EB%AF%B8-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3-2</guid>
            <pubDate>Sat, 22 Feb 2020 05:59:10 GMT</pubDate>
            <description><![CDATA[<p>이전 글에서 예고한 대로 &#39;오늘 할 것&#39;을 처리한다.</p>
<p><strong><em>오늘 할 것</em></strong>
1.형태소 분석 후 [명사]/[형용사](이하 키워드) 만 추출하여 리스트 담기
2.최다 반복된 키워드를 10위까지 추출하기 (전체 영상에서)
3.영상 전체를 구간화 시키기 (5분할 or 10분할)
4. 구간 중 최다 반복 키워드 추출하기</p>
<p><em>이 글에선 2번까지 하다가 &#39;형태소 분석기&#39;를 조금더 공부할 필요가 있어서 다음글로 넘어간다</em></p>
<p>##1. pytube를 활용하여 CC로 저장된 정보를 리스트에 담았다
-리트스의 요소는 딕셔너리다
-각각의 자막정보를 순서, 시작 타임코드, 종료 타임코드, 자막을 인덱스로 한 딕셔너리에 담았다
<img src="https://images.velog.io/images/code_kiki/post/1309cda1-610a-426c-a2e6-4c6cdf0695d4/image.png" alt="">
<img src="https://images.velog.io/images/code_kiki/post/5a3f9c5f-6570-4973-af72-5a8c53df17b9/image.png" alt=""></p>
<p>##2. &#39;cc&#39;자막만 하나의 리스트 안에 넣어주었다 </p>
<p><img src="https://images.velog.io/images/code_kiki/post/21329fad-ef6c-4e11-b4be-710aa137a247/image.png" alt=""></p>
<ol start="3">
<li>특정 형태소만 리스트에 넣기 (체언)</li>
</ol>
<p>체언, 수식어만 담기
<img src="https://images.velog.io/images/code_kiki/post/c158c4d2-9707-4a51-a075-383a63f42f3a/image.png" alt=""></p>
<blockquote>
<p>결과값
<img src="https://images.velog.io/images/code_kiki/post/1e068725-2760-4846-b906-b473fb305aed/image.png" alt="">
&#39;드&#39;, &#39;수&#39; 등 키워드라 보기 어려운 것만 나옴
따라서 체언만(N)만 추출하기로 함
형태소 분석기를 한나눔 -&gt; 트위터 / 코모란 / 미캡 으로 바꾸는 방법이 나을 수 있음 (이후에 진행하기로)</p>
</blockquote>
<p><img src="https://images.velog.io/images/code_kiki/post/ba3fc553-65a7-4538-b188-30c17ba84848/image.png" alt=""></p>
<blockquote>
<p>결과값
<img src="https://images.velog.io/images/code_kiki/post/86b2acc5-2990-4aec-b525-f8d222b4d149/image.png" alt="">
해보니 여전히 &#39;수&#39;가 많다. 이것은 키워드로 삼을 수 없기에 다른 방법을 찾아야한다. 
<img src="https://images.velog.io/images/code_kiki/post/6803e487-b182-41cd-9b66-7b17b1387e5e/image.png" alt="">
또 &#39;확인하세요&#39;도 &#39;확인&#39;을 따로 추출하지 않음을 확인할 수 있다. 다른 형태소 분석기를 사용하기로 하고 일단 다음단계로 넘어간다.</p>
</blockquote>
<p>##3. 최다반복어를 탑10까지 보여주기
collection에서 counter라는 라이브러리를 불러와서 하단 코드만 입력하면 잘 추출된다. </p>
<blockquote>
<p>from collections import Counter</p>
</blockquote>
<blockquote>
<p>counts = Counter(noun_adj_list)
print(counts.most_common(10))</p>
</blockquote>
<p>##4. 최선의 형태소 분석기 찾기  --&gt; 다음글에서 </p>
]]></description>
        </item>
        <item>
            <title><![CDATA[한글 형태소 분석 & 전체에서 최대 & 구간별 추출 | 개발일지 #3  ]]></title>
            <link>https://velog.io/@code_kiki/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D-%EC%A0%84%EC%B2%B4%EC%97%90%EC%84%9C-%EC%B5%9C%EB%8C%80-%EA%B5%AC%EA%B0%84%EB%B3%84-%EC%B6%94%EC%B6%9C-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3</link>
            <guid>https://velog.io/@code_kiki/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D-%EC%A0%84%EC%B2%B4%EC%97%90%EC%84%9C-%EC%B5%9C%EB%8C%80-%EA%B5%AC%EA%B0%84%EB%B3%84-%EC%B6%94%EC%B6%9C-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-3</guid>
            <pubDate>Sat, 22 Feb 2020 04:29:46 GMT</pubDate>
            <description><![CDATA[<h2 id="유튜버-말ㅆㅏ미">유튜버 말ㅆㅏ미</h2>
<p><strong>한 것</strong>
-CC에서 자막만 추출하여 리스트에 담기
-형태소 분석을 위한 konlpy 모듈 설치
-형태소 분석</p>
<p><strong>오늘 할 것</strong>
-형태소 분석 후 [명사]/[형용사](이하 키워드) 만 추출하여 리스트 담기
-최다 반복된 키워드를 10위까지 추출하기 (전체 영상에서)
-영상 전체를 구간화 시키기 (5분할 or 10분할)
-구간 중 최다 반복 키워드 추출하기</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[개발은 뒷전? 브레인스토밍만 하면 아이디어로만 끝나 [개발일지+2]]]></title>
            <link>https://velog.io/@code_kiki/%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%802.-%EA%B0%9C%EB%B0%9C%EC%9D%80-%EB%92%B7%EC%A0%84-%EB%B8%8C%EB%A0%88%EC%9D%B8%EC%8A%A4%ED%86%A0%EB%B0%8D%EB%A7%8C-%ED%95%98%EB%A9%B4-%EC%95%84%EC%9D%B4%EB%94%94%EC%96%B4%EB%A1%9C%EB%A7%8C-%EB%81%9D%EB%82%98</link>
            <guid>https://velog.io/@code_kiki/%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%802.-%EA%B0%9C%EB%B0%9C%EC%9D%80-%EB%92%B7%EC%A0%84-%EB%B8%8C%EB%A0%88%EC%9D%B8%EC%8A%A4%ED%86%A0%EB%B0%8D%EB%A7%8C-%ED%95%98%EB%A9%B4-%EC%95%84%EC%9D%B4%EB%94%94%EC%96%B4%EB%A1%9C%EB%A7%8C-%EB%81%9D%EB%82%98</guid>
            <pubDate>Sat, 15 Feb 2020 04:20:29 GMT</pubDate>
            <description><![CDATA[<p>20200215 1pm 개발일지 </p>
<p>한 것
-새 아이디어를 제안하여 현실적으로 쪼렙 개발자가 개발가능한 안을 선택하였다 </p>
<p> <img src="https://images.velog.io/images/code_kiki/post/212fd3b9-9e30-4efa-9ea5-26218b259cf7/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202020-02-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%201.17.36.png" alt=""></p>
<p>안 한 것
-지난 주 해오라고 하셨던 [voice to txt 모듈 사용해보기] </p>
<p>할 것 
-CC자막 추출 -&gt; 분석하는 모듈 적용</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[누가 뭐를 개발해 [개발일지+1] ]]></title>
            <link>https://velog.io/@code_kiki/2020-02-08-1802-%EC%9E%91%EC%84%B1%EB%90%A8-otk6ddtehl</link>
            <guid>https://velog.io/@code_kiki/2020-02-08-1802-%EC%9E%91%EC%84%B1%EB%90%A8-otk6ddtehl</guid>
            <pubDate>Sat, 08 Feb 2020 09:20:50 GMT</pubDate>
            <description><![CDATA[<p>오늘 교수님 말싸미... </p>
<p>// 유튜버 말싸미... 등으로 활용 가능</p>
<p>첫 화면은 아래처럼 URL, 파일 업로드하는 칸만 있다
<img src="https://images.velog.io/post-images/code_kiki/596b0bb0-4a53-11ea-894a-3d6776378744/-2020-02-08-6.13.29.png" alt="스크린샷 2020-02-08 오후 6.13.29.png"></p>
<p>분석 중이다
<img src="https://images.velog.io/post-images/code_kiki/60832590-4a53-11ea-894a-3d6776378744/-2020-02-08-6.13.32.png" alt="스크린샷 2020-02-08 오후 6.13.32.png"></p>
<p>시간대 별 키워드 결과 노출 
<img src="https://images.velog.io/post-images/code_kiki/62609820-4a53-11ea-894a-3d6776378744/-2020-02-08-6.13.36.png" alt="스크린샷 2020-02-08 오후 6.13.36.png">
-파형 확대-축소할 때마다 해당 구간에서 가장 많이 반복된 어휘 키워드를 띄움
-키워드 클릭하면 해당 구간 플레이 됨 </p>
<p><img src="https://images.velog.io/post-images/code_kiki/6597f560-4a53-11ea-894a-3d6776378744/-2020-02-08-6.13.39.png" alt="스크린샷 2020-02-08 오후 6.13.39.png">
-반복된 단어 횟수&amp;추출로 강조하는 단어를 알려줌
-어휘사용 습관을 보여줄 수 있음</p>
<p>예시
<img src="https://images.velog.io/post-images/code_kiki/f04ed2a0-4a53-11ea-8565-dfbc8a950ab8/-2020-02-08-6.18.09.png" alt="스크린샷 2020-02-08 오후 6.18.09.png">
-&#39;피바다&#39; 10회 사용</p>
<p>2020-02-08 18:02 작성됨</p>
]]></description>
        </item>
    </channel>
</rss>