<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>jeong-soyoon.log</title>
        <link>https://velog.io/</link>
        <description></description>
        <lastBuildDate>Sun, 07 Aug 2022 14:34:30 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>jeong-soyoon.log</title>
            <url>https://images.velog.io/images/jeong-soyoon/profile/2ce2db40-a102-4ec4-add2-cb3e4966ad86/social.png</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. jeong-soyoon.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/jeong-soyoon" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[[Machine Learning] Random Forest 랜덤 포레스트 ]]></title>
            <link>https://velog.io/@jeong-soyoon/Machine-Learning-Random-Forest-%EB%9E%9C%EB%8D%A4-%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8</link>
            <guid>https://velog.io/@jeong-soyoon/Machine-Learning-Random-Forest-%EB%9E%9C%EB%8D%A4-%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8</guid>
            <pubDate>Sun, 07 Aug 2022 14:34:30 GMT</pubDate>
            <description><![CDATA[<p><img src="https://velog.velcdn.com/images/jeong-soyoon/post/53e2e71c-4517-459c-8154-93fddca8cc5f/image.png" alt="">
&quot;<strong>여러 개의 트리 모델</strong>&quot;에서 &quot;<strong>서로 다른 데이터</strong>&quot;를 투입하여 나온 결과를 종합하여 가장 많은 투표를 얻은 결과를 최종 결과로 선택하는 방식으로 작동 </p>
<h3 id="랜덤-포레스트는-대표적인-배깅-방식-알고리즘">랜덤 포레스트는 대표적인 &quot;배깅&quot; 방식 알고리즘</h3>
<p><strong>배깅(Bagging)</strong> : 앙상블의 한 방식, 같은 알고리즘의 여러 개의 개별 분류기가 부트스트래핑 방식으로 샘플링된 데이터 세트에 대해서 학습을 통해 개별적인 예측을 수행한 결과를 보팅을 통해 최종 예측 결과로 선정하는 방식 </p>
<h3 id="랜덤-포레스트의-기반-알고리즘은-결정-트리">랜덤 포레스트의 기반 알고리즘은 &quot;결정 트리&quot;</h3>
<p><strong>결정 트리(Decision Tree)</strong> : 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만들어 내는 것 
<img src="https://velog.velcdn.com/images/jeong-soyoon/post/80f279a9-1ede-4f0e-b427-93c55284adbc/image.png" alt="">
<strong>PROBLEM *<em>: 트리의 깊이가 깊어질수록 *</em>과적합</strong>으로 이어져 결정 트리의 예측 성능이 저하될 가능성이 높음 
<strong>SOLUTION</strong> : 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정 노드의 규칙이 정해져야 함 -&gt; 깊이가 덜 깊어짐 
=&gt; <strong>최대한 균일</strong>한 데이터 세트 만들기! 
높은 정보 이득(낮은 엔트로피), 낮은 지니계수(불평등 지수)</p>
<p>&lt;결정 트리 생성 과정&gt;</p>
<ol>
<li>모든 독립 변수, 기준값(threshold)에 대해 &quot;정보 획득량&quot;을 구해 정보 획득량이 큰 독립 변수와 기준값을 선택 (<strong>높은 정보 이득, 낮은 지니계수</strong>)</li>
<li>전체 학습 데이터 집합을 해당 독립 변수의 값보다 작은 데이터 그룹(자식노드1)과 해당 독립 변수의 값보다 큰 데이터 그룹(자식노드2)로 나눔</li>
<li>각각의 자식 노드에 대해 1~2단계를 반복하여 하위의 자식 노드 만듦, 데이터가 모두 특정 분류에 속하면 반복 중지 </li>
</ol>
]]></description>
        </item>
        <item>
            <title><![CDATA[[Machine Learning] StandardScaler]]></title>
            <link>https://velog.io/@jeong-soyoon/StandardScaler</link>
            <guid>https://velog.io/@jeong-soyoon/StandardScaler</guid>
            <pubDate>Sat, 06 Aug 2022 07:32:11 GMT</pubDate>
            <description><![CDATA[<p>StandardScaler는 간단히 말하자면 &quot;표준화&quot;이다</p>
<h4 id="표준화란">표준화란?</h4>
<p>평균을 빼고 단위 분산에 맞게 조정하여 변수의 범위를 scaling 해주는 것이다. 
간단히 말하면 특성들의 평균을 0으로 분산을 1로 스케일링하는 것이다. </p>
<h4 id="scaling스케일링">scaling(스케일링)</h4>
<p>머신러닝을 위해 데이터셋을 정제할 때 특성별로 데이터 스케일이 다르다면 성능이 낮아질 수 있다
따라서 모든 특성의 범위를 같게 만들어줘 성능을 높힐 수 있다.</p>
<p>scikit-learn에서 StandardScaler를 사용할 때</p>
<ul>
<li>fit : 훈련 데이터의 분포 학습</li>
<li>transform : 학습한 분포를 적용해 스케일링 조정 </li>
</ul>
<p>데이콘에서 &lt;쇼핑몰 지점별 매출액 예측&gt;을 하는데 
<img src="https://velog.velcdn.com/images/jeong-soyoon/post/d72abca3-19f2-4424-a4e3-9dcc4d6e3c01/image.png" alt="">
이와 같이 각 특성이 다른 분포를 가지고 있을 때
StandardScaler를 통해 스케일링을 한다고 한다. </p>
]]></description>
        </item>
    </channel>
</rss>