<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>hong_computer.log</title>
        <link>https://velog.io/</link>
        <description>공학자</description>
        <lastBuildDate>Fri, 13 Mar 2026 08:59:02 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>hong_computer.log</title>
            <url>https://velog.velcdn.com/images/hong_computer/profile/c0922874-f9cb-4740-8b88-0f3a0f42087c/social_profile.png</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. hong_computer.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/hong_computer" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[AWS 데이터베이스]]></title>
            <link>https://velog.io/@hong_computer/AWS-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4</link>
            <guid>https://velog.io/@hong_computer/AWS-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4</guid>
            <pubDate>Fri, 13 Mar 2026 08:59:02 GMT</pubDate>
            <description><![CDATA[<h1 id="nosql-데이터베이스">NoSQL 데이터베이스</h1>
<h2 id="정통적-데이터베이스">정통적 데이터베이스</h2>
<ul>
<li>RDBMS활용</li>
<li>SQL언어 활용</li>
<li>데이터 모델링 중요</li>
<li>조인, 총계처리 등 복잡한 계산 처러ㅣ</li>
<li>수평, 수직적 확장</li>
</ul>
<h2 id="nosql-데이터베이스-1">NoSQL 데이터베이스</h2>
<ul>
<li>관계형 X, 분산처리</li>
<li>몽고DB, 다이나모DB 등 ....</li>
<li>쿼리문 지원 X(혹은 제한된 쿼리문)</li>
</ul>
<h1 id="amazon-dynamodb">Amazon DynamoDB</h1>
<ul>
<li>여러 AZ에 거쳐 복제 될 수 있음</li>
<li>NoSQL데이터베이스</li>
<li>거대한 워크로드, 분산된 데이터베이스</li>
<li>빠르고 성능에 일관성이 있음<h2 id="이럴땐-다이나모db-x">이럴땐 다이나모DB X</h2>
</li>
<li>이미 관계형 데이터메이스 모델링이 되어있는 경우</li>
<li>조인 혹은 복잡한 트랜젝션 사용시</li>
<li>I/O가 낮은 경우 그냥 S3쓰자</li>
</ul>
<h1 id="amazon-rds">Amazon RDS</h1>
<h2 id="rds란">RDS란?</h2>
<ul>
<li>예시<ul>
<li>Amazon Aurora</li>
<li>MySQL</li>
<li>PostgreSQL</li>
<li>MariaDB</li>
<li>Oracle</li>
</ul>
</li>
<li>빅데이터를 위한거 아님</li>
</ul>
<h2 id="acid">ACID</h2>
<ul>
<li>Atomicity</li>
<li>Consistency</li>
<li>Isolation</li>
<li>Durability</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[아마존 저장소(S3, EBS, EFS)]]></title>
            <link>https://velog.io/@hong_computer/%EC%95%84%EB%A7%88%EC%A1%B4-%EC%A0%80%EC%9E%A5%EC%86%8CS3-EBS-EFS</link>
            <guid>https://velog.io/@hong_computer/%EC%95%84%EB%A7%88%EC%A1%B4-%EC%A0%80%EC%9E%A5%EC%86%8CS3-EBS-EFS</guid>
            <pubDate>Wed, 25 Feb 2026 12:54:27 GMT</pubDate>
            <description><![CDATA[<h1 id="s3">S3</h1>
<ul>
<li>가장 큰 AWS요소 중 하나</li>
<li>무한 확장 저장소</li>
<li>많은 웹 사이트 들이 S3를 백본으로 사용 중</li>
<li>사용 예시<ul>
<li>백업, 저장소</li>
<li>재난 복구</li>
<li>아카이브</li>
<li>하이브리드 클라우드 저장소</li>
<li>어플리케이션 호스팅</li>
<li>미디어 호스팅</li>
<li>데이터 레이크, 빅데이터 분석</li>
<li>정적 웹사이트</li>
</ul>
</li>
</ul>
<h2 id="s3---buckets">S3 - Buckets</h2>
<ul>
<li>버킷이라 불리는 곳에 객체들을 저장한다</li>
<li>모든 지역, 계정을 통틀어 유일한 이름을 가져야한다</li>
<li>리전 레벌에 따라 정의 된다</li>
<li>글로벌 서비스로 보이나 리전에 따라 생성된다</li>
</ul>
<h2 id="s3---objects">S3 - Objects</h2>
<ul>
<li>객체들은 키를 가진다</li>
<li>키는 전체 경로를 말함<ul>
<li>s3://my-bucket/my_file.txt</li>
<li>s3://my-bucket/my_folder1/another_folder/my_file.txt</li>
</ul>
</li>
<li>디렉토리 개념 X</li>
<li>객체 값은 내용을 말함<ul>
<li>한 객체 최대 크기 5TB</li>
<li>5GB 넘는 파일은 multi-part upload를 이용해야 한다.</li>
</ul>
</li>
<li>메타데이터, 태크들을 가진다.</li>
</ul>
<h2 id="s3---security">S3 - Security</h2>
<ul>
<li><p>User-Based</p>
<ul>
<li>IAM Policies: 어떤 API호출은 특정 유저의 IAM에 따라 허용 여부 판별</li>
</ul>
</li>
<li><p>Resource-Based</p>
<ul>
<li>Bucket Policies: 버킷의 전체 규칙 정의, 여러 계정이 한 버킷 사용 가능</li>
<li><h2 id="s3---versioning">S3 - Versioning</h2>
</li>
</ul>
</li>
<li><p>파일들을 버전으로 관리 가능</p>
</li>
<li><p>버킷 레벨에서 사용</p>
</li>
<li><p>사용 예시</p>
<ul>
<li>의도치 않은 파일 삭제로 부터 보호</li>
<li>이전 버전으로 쉽게 롤백 가능</li>
</ul>
</li>
</ul>
<h2 id="s3---replication-crr--srr">S3 - Replication (CRR &amp; SRR)</h2>
<ul>
<li>원천과 목표지 둘다 Versioning되어야한다!</li>
<li>다른 계정의 버킷 사용 가능</li>
<li>적합한 IAM권한을 주어야한다.</li>
<li>복제한 이후로 새로 생성되는 객체에 한다 복사된다.</li>
<li>이미 존재하는 객체들은 S3 Batch Replication 사용하자</li>
<li>연쇄X<ul>
<li>버킷2가 버킷1을 복제하고, 버킷3이 버킷 2를 복제하였다면</li>
<li>버킷 1에 생성된 객체는 버킷3에 생성되지 않음</li>
</ul>
</li>
</ul>
<h2 id="s3-여러-저장소-클래스들">S3 여러 저장소 클래스들</h2>
<ul>
<li>Amazon S3 Standard - General Purpose</li>
<li>Amazon S3 Standard-Infrequent Access (IA)</li>
<li>Amazon S3 One Zone-Infrequent Access</li>
<li>Amazon S3 Glacier Instant Retrieval</li>
<li>Amazon S3 Glacier Flexible Retrieval</li>
<li>Amazon S3 Glacier Deep Archive</li>
<li>Amazon S3 Intelligent Tiering
수동 혹은 Life cycle 설정에 따라 이동 가능</li>
</ul>
<h1 id="ebs">EBS</h1>
<ul>
<li>인스턴스가 켜져있는 동안 사용할 수 있는 네트워크 드라이브</li>
<li>종료된 후에도 데이터는 유지된다</li>
<li>한번에 한개의 인스턴스에만 연결 가능</li>
<li>하나의 AZ에 국한되어 있음<h2 id="ebs-elastic-voltumes">EBS Elastic Voltumes</h2>
</li>
<li>변경을 위해 인스턴스를 뺼 필요가 없음</li>
<li>볼륨 사이즈 증가<ul>
<li>감소시킬 순 없다</li>
</ul>
</li>
<li>볼륨 타입 변환<ul>
<li>Gp2 -&gt; Gp3</li>
</ul>
</li>
<li>성능 변경 가능<h1 id="efs---elastic-file-system">EFS - Elastic File System</h1>
</li>
<li>여러 EC2에 사용 할 수있는 NFS(network file system)</li>
<li>여러 AZ에 사용 될 수 있음</li>
<li>높은 가용성, 하지만 비쌈<h2 id="ebs-vs-efs">EBS vs EFS</h2>
</li>
<li>EBS<ul>
<li>하나의 인스턴스에만 사용가능</li>
<li>하나의 AZ에 국한</li>
</ul>
</li>
<li>여러 AZ로 EBS를 이동 시키는 법<ul>
<li>스냅샷 이용</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>EFS<ul>
<li>여러 인스턴스에 마운팅 가능</li>
<li>EBS보다 비쌈</li>
</ul>
</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[Data Engineering 
Fundamentals 데이터 엔지니어링 기초 지식]]></title>
            <link>https://velog.io/@hong_computer/Data-Engineering-Fundamentals-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EB%A7%81-%EA%B8%B0%EC%B4%88-%EC%A7%80%EC%8B%9D</link>
            <guid>https://velog.io/@hong_computer/Data-Engineering-Fundamentals-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EB%A7%81-%EA%B8%B0%EC%B4%88-%EC%A7%80%EC%8B%9D</guid>
            <pubDate>Fri, 20 Feb 2026 11:15:25 GMT</pubDate>
            <description><![CDATA[<h1 id="데이터-유형">데이터 유형</h1>
<ul>
<li>정형</li>
<li>비정형</li>
<li>반정형</li>
</ul>
<h2 id="정형데이터">정형데이터</h2>
<ul>
<li>정의: 스키마 혹은 일정한 형태로 정의 되어있음. 일반적으로 관계형 데이터 베이스</li>
<li>특징<ul>
<li>쉽게 퀴리</li>
<li>행열 형태로 정제</li>
</ul>
</li>
<li>ex<ul>
<li>데이터베이스 테이블</li>
<li>열이있는 CSV</li>
<li>엑셀 스프레드시트</li>
</ul>
</li>
</ul>
<h2 id="비정형데이터">비정형데이터</h2>
<ul>
<li>정의: 일정한 구조 혹은 스키마가 없는 데이터</li>
<li>특징:<ul>
<li>쉽게 쿼리하지 못함(사전 준비를 거쳐야한다)</li>
<li>다양한 형식으로 존재</li>
</ul>
</li>
<li>예시:<ul>
<li>일정한 형식이 없는 텍스트데이터</li>
<li>비디오, 오디오 파일</li>
<li>이미지</li>
<li>이메일, 문서</li>
</ul>
</li>
</ul>
<h2 id="반정형-데이터">반정형 데이터</h2>
<ul>
<li>정의: 일정한 형태로 정제 되어있지 않지만 테그 등 일정한 계층 구조를 가지고 있는 데이터</li>
<li>특징<ul>
<li>테그 혹은 특징이 구분되어있음</li>
</ul>
</li>
<li>예시<ul>
<li>XML, JSON 파일</li>
<li>이메일 헤더</li>
<li>로그파일</li>
</ul>
</li>
</ul>
<h1 id="빅데이터-3요소">빅데이터 3요소</h1>
<ul>
<li>Volume</li>
<li>Velocity</li>
<li>Variety</li>
</ul>
<h1 id="데이터웨어하우스-vs-데이터-레이크">데이터웨어하우스 VS 데이터 레이크</h1>
<h2 id="데이터웨어하우스">데이터웨어하우스</h2>
<ul>
<li>정의 : 정형데이터로 정제된 데이터 분석을 위한 중앙화된 저장소</li>
<li>특징:<ul>
<li>여러 쿼리와 분석을 위함</li>
<li>데이터는 정제, 변환, 적제되어야함(ETL)</li>
<li>일반적으로 스타스키마, 스노우플레이크 스키마 사용</li>
<li>읽기가 많은 작업을 위해 최적화됨</li>
</ul>
</li>
<li>예시:<ul>
<li>아마존 레드쉬프트</li>
<li>구글 빅쿼리</li>
<li>애져 SQL 데이터웨어 하우스
<img src="https://velog.velcdn.com/images/hong_computer/post/9dc478e4-024d-4f82-9675-7a52f4f8b089/image.png" alt=""></li>
</ul>
</li>
</ul>
<h2 id="데이터레이크">데이터레이크</h2>
<ul>
<li>정의: 여러형태의 방대한 양의 로우데이터 저장소</li>
<li>특징<ul>
<li>사전 정의된 스키마 없이 많은양의 로우데이터 저장 가능</li>
<li>사전 준비 필요X</li>
<li>배치, 실시간 처리 가능</li>
<li>데이터 변환, 탐색을 위해 쿼리 가능</li>
</ul>
</li>
<li>예시<ul>
<li>아마존 S3</li>
<li>애져 데이터 레이크 스토리지</li>
<li>하둡 분산 파일 시스템</li>
</ul>
</li>
</ul>
<h2 id="레이크-웨어하우스-비교">레이크 웨어하우스 비교</h2>
<ul>
<li>스키마<ul>
<li>데이터 웨어 하우스: Schema-on-write(쓰기전 사전 정의된 스키마)<ul>
<li>Extract - TransForm -Load(ETL)</li>
</ul>
</li>
<li>데이터 레이크: Schema-on-read(읽을 떄 스키마 정의됨)<ul>
<li>Extract- Load- Transform(ELT)</li>
</ul>
</li>
</ul>
</li>
<li>데이터 형식<ul>
<li>데이터 웨어하우스: 주로 정형데이터</li>
<li>데이터 레이크: 비정형, 정형 데이터 모두</li>
</ul>
</li>
<li>속도<ul>
<li>데이터 웨어하우스: 사전 스키마 떄문에 느림</li>
<li>데이터 레이크: 스키마 준비 없이 바로 로우 데이터 적재 덕분에 빠름</li>
</ul>
</li>
<li>비용<ul>
<li>데이터 웨어하우스: 복잡한 쿼리를 위해 최적화 되어 비쌈</li>
<li>데이터 레이크: 저장엔 저렴하나 데이터양이 증가함에 따라 비싸짐</li>
</ul>
</li>
</ul>
<h2 id="웨어하우스-레이크-선택">웨어하우스 레이크 선택</h2>
<ul>
<li><p>데이터 웨어하우스 사용</p>
<ul>
<li>빠르고 복잡한 쿼리문을 사용해야하고, 정형데이터를 가지고 있을떄</li>
<li>여러 데이터 원천으로 부터 데이터 통합이 팔요할떄</li>
<li>비지니스 분석을 위할떄</li>
</ul>
</li>
<li><p>데이터 레이크 사용</p>
<ul>
<li>여러 형태의 데이터를 가지고 있을떄</li>
<li>많은 양의 데이터와 싸게 하기 위해</li>
<li>미래 어떻게 데이터를 사용하기 모르기에 일단 저장하기 위함</li>
<li>머신러닝, 데이터 탐색, 어려운 분석을 위함</li>
</ul>
</li>
<li><p>조직은 두가지 모두 사용한다. 로데이터는 레이크에 저장, 분석을 할떄 변환해 웨어하우스에 저장</p>
</li>
</ul>
<h2 id="데이터-레이크-하우스">데이터 레이크 하우스</h2>
<ul>
<li><p>정의: 위 두가지 형태가 합쳐저 높은 성능, 안전성, 많은 데이터 저장, 비용효율성을 가짐</p>
</li>
<li><p>특징</p>
<ul>
<li>비정형, 정형 모두 데이터 처리</li>
<li>Schema on write, shema on read 모두 허용</li>
<li>고급 분석과 머신러닝 작업을 위한 성능을 가짐</li>
<li>클라우드의 맨 위, 분선처리 환경 위에 있음</li>
<li>빅데이터에 ACID를 적용함</li>
</ul>
</li>
<li><p>예시</p>
<ul>
<li>AWS LAKE Formation</li>
<li>Delta Lake</li>
<li>Databricks Lakehouse Platform</li>
<li>Azure Synapse Analytics</li>
</ul>
</li>
</ul>
<h1 id="데이터-매쉬-data-mesh">데이터 매쉬 Data Mesh</h1>
<ul>
<li>조직, 거버넌스 관점에서 발생</li>
<li>각기 팀이 도메인에 해당하는 데이터를 가짐</li>
<li>조직 전체의 유즈케이스를 가져다줌</li>
<li>도메인 중심의 데이터 관리</li>
<li>전체적인 기준만 가지고 각기 팀이 해당하는 데이터 보유</li>
</ul>
<h1 id="etl-pipelines">ETL Pipelines</h1>
<ul>
<li>Extract, Transform, Load</li>
<li>다른 원천에서 데이터웨어하우스에 데이터를 옮기는 것</li>
</ul>
<h2 id="extract">Extract</h2>
<ul>
<li>원천 시스템에서 로우 데이터를 가져오는거 데이터베이스, crm, 파일, api를 통해 가져옴</li>
<li>데이터 무결성 중요</li>
<li>배치처리, 혹은 실시간처리</li>
</ul>
<h2 id="transform">Transform</h2>
<ul>
<li>데이터웨어하우스 적재를 위해 일정한 형태로 변환</li>
<li>아래 작업과 연관<ul>
<li>데이터 클랜징(중복제거, 에러 수정)</li>
<li>Data enrichment(다른 원천으로부터 데이터 추가)</li>
<li>형태 변환(날짜 변환, 문자열 조작)</li>
<li>총계처리</li>
<li>인코딩 디코딩</li>
<li>결측값 처리</li>
</ul>
</li>
</ul>
<h2 id="load-적재">Load 적재</h2>
<ul>
<li>변환된 데이터를 데이터웨어하우스 혹은 다른 데이터 저장소에 적재</li>
</ul>
<h2 id="etl-pipeline-관리">ETL Pipeline 관리</h2>
<ul>
<li>신뢰할 수 있게 자동화 되어야함</li>
<li>AWS Glue</li>
<li>Orchestration services<ul>
<li>EventBridge</li>
<li>Amazon Managed Workflows for apache Airflow(MWAA)</li>
<li>AWS step functions</li>
<li>Lambda</li>
<li>Glue Workflows<h1 id="데이터-원천-data-soruces">데이터 원천 Data soruces</h1>
</li>
</ul>
</li>
<li>JDBC</li>
<li>ODBC</li>
<li>Raw logs</li>
<li>API</li>
<li>Streams</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 기말 최종 정리]]></title>
            <link>https://velog.io/@hong_computer/BI-%EA%B8%B0%EB%A7%90-%EC%B5%9C%EC%A2%85-%EC%A0%95%EB%A6%AC</link>
            <guid>https://velog.io/@hong_computer/BI-%EA%B8%B0%EB%A7%90-%EC%B5%9C%EC%A2%85-%EC%A0%95%EB%A6%AC</guid>
            <pubDate>Mon, 08 Dec 2025 16:02:53 GMT</pubDate>
            <description><![CDATA[<h1 id="텍스트-마이닝9주차">텍스트 마이닝(9주차)</h1>
<p>텍스트로부터 숨어있는 지식들을 발굴해 내는 기술
*비정형 데이터로부터 정형데이터를 만들어 유의미하게 이용</p>
<h2 id="전체적-프로세스">전체적 프로세스</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/227c9a35-55e5-4900-9453-05943ce74f6f/image.png" alt="">
웹크롤링(데이터 수집): 웹사이트, 이메일 등 비구조적 원시데이터
텍스트 전처리(데이터 전처리): 구조적 유형으로 변환
토픽 분석(데이터 분석): 군집화, 분류 등의 모든 설명적, 예측적 기법을 사용</p>
<h3 id="텍스트-전처리">텍스트 전처리</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/08c3e119-ef47-4b25-b9bf-e01f3741b3b8/image.png" alt="">
토큰화: 뛰어쓰기 단위로 잘라냄
정규화: 모두 소문자로 변환
불용어 제거: &quot;a&quot;, &quot;the&quot;, &quot;!&quot;등 특별한 의미가 없는 단어 제거(불용어 사전을 이용함)</p>
<h2 id="문서화--term-document-matrix">문서화 / Term Document Matrix</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/397b1d5b-1a53-4f10-b3cd-5f446cd42b32/image.png" alt="">
문서(문장)을 텍스트 전처리 과정을 통해 매트릭스 형태로 나타낸다</p>
<h2 id="문장-유사도-계산">문장 유사도 계산</h2>
<p>코사인 유사도를 이용한다.
$$\cos(q, d) = \frac{d \cdot q}{| d | \cdot | q |}$$</p>
<p>ex)
Document 1: dark blue jeans blue denim fabric
Document 2: skinny jeans in bright blue
Query: dark jeans</p>
<table>
<thead>
<tr>
<th align="center"></th>
<th align="center">dark</th>
<th align="center">blue</th>
<th align="center">jeans</th>
<th align="center">denim</th>
<th align="center">fabric</th>
<th align="center">skinny</th>
<th align="center">in</th>
<th align="center">bright</th>
<th align="center">$| \cdot |$(크기)</th>
</tr>
</thead>
<tbody><tr>
<td align="center"><strong>$d_1$</strong></td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">$\sqrt{5}$</td>
</tr>
<tr>
<td align="center"><strong>$d_2$</strong></td>
<td align="center">0</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">1</td>
<td align="center">$\sqrt{5}$</td>
</tr>
<tr>
<td align="center"><strong>$q$</strong></td>
<td align="center">1</td>
<td align="center">0</td>
<td align="center">1</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">0</td>
<td align="center">$\sqrt{2}$</td>
</tr>
</tbody></table>
<h3 id="문장-유사도-계산-결과">문장 유사도 계산 결과</h3>
<p>$$\cos(\mathbf{q}, \mathbf{d}_1) = \frac{1 + 1}{\sqrt{2}\sqrt{5}} = 0.632$$</p>
<p>$$\cos(\mathbf{q}, \mathbf{d}_2) = \frac{1}{\sqrt{2}\sqrt{5}} = 0.316$$</p>
<h2 id="tf-idf">TF IDF</h2>
<p>특정 단어가 문서에서 얼마나 중요한지 계산할 때 사용</p>
<h3 id="tf">TF</h3>
<p>TF: term frequency, 특정 단어가 특정 문서에서 사용된 횟수 (비율)</p>
<h3 id="idf">IDF</h3>
<p>DF: document frequency, 특정 단어가 사용된 문서의 수
일반적으로 많은 문서에서 동시 출현하는 빈도가 높을수록 중요도가 떨어지기에 역수값을 취한 IDF를 사용한다.</p>
<h3 id="tf-idf-1">TF-IDF</h3>
<p>흔하지 않은 단어인데 특정 텍스트에서 자주 사용될수록 큰 값을 가짐
$$w_{i,j} = tf_{i,j} \times \log \left( \frac{N}{df_i} \right)$$</p>
<h3 id="계산-예">계산 예</h3>
<table>
<thead>
<tr>
<th align="center">S.No.</th>
<th align="left">Sentences</th>
</tr>
</thead>
<tbody><tr>
<td align="center">1.</td>
<td align="left">inflation increased unemployment</td>
</tr>
<tr>
<td align="center">2.</td>
<td align="left">company increased sales</td>
</tr>
<tr>
<td align="center">3.</td>
<td align="left">fear increased pulse</td>
</tr>
</tbody></table>
<h4 id="tf-1">TF</h4>
<table>
<thead>
<tr>
<th align="left">Words</th>
<th align="center">inflation increased unemployment</th>
<th align="center">company increased sales</th>
<th align="center">fear increased pulse</th>
</tr>
</thead>
<tbody><tr>
<td align="left"><strong>inflation</strong></td>
<td align="center">1/3</td>
<td align="center">0/3</td>
<td align="center">0/3</td>
</tr>
<tr>
<td align="left"><strong>company</strong></td>
<td align="center">0/3</td>
<td align="center">1/3</td>
<td align="center">0/3</td>
</tr>
<tr>
<td align="left"><strong>increased</strong></td>
<td align="center">1/3</td>
<td align="center">1/3</td>
<td align="center">1/3</td>
</tr>
<tr>
<td align="left"><strong>sales</strong></td>
<td align="center">0/3</td>
<td align="center">1/3</td>
<td align="center">0/3</td>
</tr>
<tr>
<td align="left"><strong>fear</strong></td>
<td align="center">0/3</td>
<td align="center">0/3</td>
<td align="center">1/3</td>
</tr>
<tr>
<td align="left"><strong>pulse</strong></td>
<td align="center">0/3</td>
<td align="center">0/3</td>
<td align="center">1/3</td>
</tr>
<tr>
<td align="left"><strong>unemployment</strong></td>
<td align="center">1/3</td>
<td align="center">0/3</td>
<td align="center">0/3</td>
</tr>
</tbody></table>
<h4 id="idf-1">IDF</h4>
<table>
<thead>
<tr>
<th align="left">Words</th>
<th align="left">Inverse Document Frequency (IDF)</th>
</tr>
</thead>
<tbody><tr>
<td align="left"><strong>inflation</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left"><strong>company</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left"><strong>increased</strong></td>
<td align="left">$\log(3/3) = 0$</td>
</tr>
<tr>
<td align="left"><strong>sales</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left"><strong>fear</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left"><strong>pulse</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left"><strong>unemployment</strong></td>
<td align="left">$\log(3/1) = 0.477$</td>
</tr>
<tr>
<td align="left">#### TF-IDF</td>
<td align="left"></td>
</tr>
<tr>
<td align="left"></td>
<td align="left">inflation</td>
</tr>
<tr>
<td align="left">:---</td>
<td align="left">:---:</td>
</tr>
<tr>
<td align="left"><strong>inflation increased unemployment</strong></td>
<td align="left">$1/3 \times 0.477$</td>
</tr>
<tr>
<td align="left"><strong>company increased sales</strong></td>
<td align="left">$0/3 \times 0.477$</td>
</tr>
<tr>
<td align="left"><strong>fear increased pulse</strong></td>
<td align="left">$0/3 \times 0.477$</td>
</tr>
</tbody></table>
<h2 id="tf-idf-bow-장단점">TF-IDF, BOW 장단점</h2>
<p>장점: 비교적 단순하며, 문서의 특징을 효울적으로 포착
단점: 단어의 순서를 고려하지 않기 떄문에 문맥적인 의미가 무시됨. 희소 행렬 발생</p>
<h3 id="해소-방안">해소 방안</h3>
<p>최근 사용되는 Bert, GPT등의 딥러닝 계열 텍스트 마이닝은 워드 임베딩 기반의 구조화된 기법을 사용.
이는 각 단어들을 벡터로 표현한 후, 순서대로 입력값으로 사용함</p>
<h2 id="텍스트-마이닝-실습">텍스트 마이닝 실습</h2>
<h2 id="개요">개요</h2>
<p>영화 리뷰의 감성 분석</p>
<p>데이터: 영화 리뷰데이터로 긍정/부정 극성을 포함
목적: 상품평을 TF-IDF의 구조호된 형태로 변환
TF-IDF를 활용하여 의사결정나무로 긍정/부정을 분류하는 감성 분석</p>
<h2 id="프로세스-화면">프로세스 화면</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/ce795014-d4aa-4eab-ac5c-4ff7a3627dfe/image.png" alt=""></p>
<h3 id="프로세스-도큐먼트-서브-프로세스">프로세스 도큐먼트 서브 프로세스</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/63fea426-b0fd-4516-abb6-661340fffbb4/image.png" alt=""></p>
<h1 id="토픽-모델링10주차">토픽 모델링(10주차)</h1>
<h2 id="개념">개념</h2>
<ul>
<li>텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법</li>
<li>개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함
ex)
문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3)
문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)</li>
<li>토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임<h2 id="lda잠재디리클레할당모델">LDA(잠재디리클레할당)모델</h2>
</li>
<li>디리클레(Dirichlet): 확률분포의 명칭</li>
<li>전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악</li>
<li>토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함</li>
</ul>
<h2 id="토픽-모델링의-활용">토픽 모델링의 활용</h2>
<ul>
<li>대량의 문서들을 직접 읽어보지 않고도 주제를 파악</li>
<li>문서들을 주제별로 분류할 수 있음</li>
<li>토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함</li>
<li>그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.</li>
</ul>
<h2 id="토픽모델링-실습">토픽모델링 실습</h2>
<h3 id="개요-1">개요</h3>
<p>워드클라우드&amp;토픽모델링 실습</p>
<p>데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건
데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]</p>
<h3 id="토픽모델링lda-프로세스">토픽모델링(LDA) 프로세스</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/09d944f1-418a-4301-81be-f5dd04212869/image.png" alt=""></p>
<h3 id="워드클라우드-프로세스">워드클라우드 프로세스</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/df6ade46-0b29-4ee0-a948-16aab84b5ea3/image.png" alt=""></p>
<h1 id="데이터시각화1-11주차">데이터시각화1 (11주차)</h1>
<h2 id="개요-2">개요</h2>
<p>같은 데이터셋(평균, 분산, 상관계수, 회귀식이 동일)을 이용해 그래프를 그려도 차이가 발생할 수 있음.
즉 데이터를 분석 전에 그래프로 확인해 볼 필요가 있음</p>
<h2 id="시각화의-기능">시각화의 기능</h2>
<ul>
<li>효과적으로 데이터를 보여주기</li>
<li>공유와 설득을 용이하게</li>
<li>데이터에서 가장 중요한 부분을 강조하여</li>
<li>시각화를 활용한 분석 -&gt; 데이터의 패턴 파악에 효과적</li>
</ul>
<h2 id="좋은-디자인에-대한-고민-단순화">좋은 디자인에 대한 고민: 단순화</h2>
<ul>
<li>단순한 색상 구성</li>
<li>주요 트랜드에 집중</li>
<li>일관된 스타일과 형태</li>
<li>텍스트 단순화</li>
</ul>
<h2 id="좋은-디자인에-대한-고민-선택적-레이블링">좋은 디자인에 대한 고민: 선택적 레이블링</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/b3ee897d-cedf-4d57-aa0a-d2abae5de6ac/image.png" alt=""></p>
<h2 id="좋은-디자인에-대한-고민-multiples">좋은 디자인에 대한 고민: Multiples</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/07088c89-302a-409a-991b-880e9b77ea5b/image.png" alt=""></p>
<h2 id="태블루-사용법">태블루 사용법</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/819b3de0-5792-47d8-88d6-d11e2b7b5208/image.png" alt="">
A. 왼쪽 패널 - 연결된 데이터 원본과 데이터에 대한 기타 세부 정보 표시
B. 캔버스 - 데이터 원본 설정 방법과 데이터 결합 옵션에 대한 정보를 표시
C. 데이터 그리드 - Tableau 데이터 원본에 포함된 데이터의 첫 1,000개 행을 표시
D. 메타데이터 그리드 - 데이터 원본의 필드 정보 표시(변수 타입 변경 까지)</p>
<h2 id="병합join">병합(Join)</h2>
<h3 id="inner내부조인">inner(내부조인)</h3>
<p>두 테이블 모두에 일치 항목이 있는 값으로 구성된 테이블</p>
<h3 id="left왼쪽-조인">Left(왼쪽 조인)</h3>
<p>왼쪽 테이블의 모든 값과 오른쪽 텡블에서 해당하는 일치 항목으로 구성</p>
<h3 id="right오른쪽-조인">Right(오른쪽 조인)</h3>
<p>상동</p>
<h3 id="full-outer-join완전외부">Full outer join(완전외부)</h3>
<p>두 테이블의 모든 값 포함</p>
<h3 id="조인-예시">조인 예시</h3>
<p>테이블1</p>
<table>
<thead>
<tr>
<th align="left">ID</th>
<th align="left">이름</th>
<th align="left">성</th>
<th align="left">출판사 유형</th>
</tr>
</thead>
<tbody><tr>
<td align="left">20034</td>
<td align="left">Adam</td>
<td align="left">Davis</td>
<td align="left">Independent</td>
</tr>
<tr>
<td align="left">20165</td>
<td align="left">Ashley</td>
<td align="left">Garcia</td>
<td align="left">Big</td>
</tr>
<tr>
<td align="left">20233</td>
<td align="left">Susan</td>
<td align="left">Nguyen</td>
<td align="left">Small/medium</td>
</tr>
</tbody></table>
<p>테이블 2</p>
<table>
<thead>
<tr>
<th align="left">제목</th>
<th align="left">가격</th>
<th align="left">로열티</th>
<th align="left">ID</th>
</tr>
</thead>
<tbody><tr>
<td align="left">Weather in the Alps</td>
<td align="left">19.99</td>
<td align="left">5,000</td>
<td align="left">20165</td>
</tr>
<tr>
<td align="left">My Physics</td>
<td align="left">8.99</td>
<td align="left">3,500</td>
<td align="left">20800</td>
</tr>
<tr>
<td align="left">The Magic Shoe Lace</td>
<td align="left">15.99</td>
<td align="left">7,000</td>
<td align="left">20034</td>
</tr>
</tbody></table>
<h4 id="이너조인">이너조인</h4>
<table>
<thead>
<tr>
<th align="left">ID</th>
<th align="left">이름</th>
<th align="left">성</th>
<th align="left">출판사 유형</th>
<th align="left">제목</th>
<th align="left">가격</th>
<th align="left">로열티</th>
<th align="left">ID</th>
</tr>
</thead>
<tbody><tr>
<td align="left">20034</td>
<td align="left">Adam</td>
<td align="left">Davis</td>
<td align="left">Independent</td>
<td align="left">The Magic Shoe Lace</td>
<td align="left">15.99</td>
<td align="left">7,000</td>
<td align="left">20034</td>
</tr>
<tr>
<td align="left">20165</td>
<td align="left">Ashley</td>
<td align="left">Garcia</td>
<td align="left">Big</td>
<td align="left">Weather in the Alps</td>
<td align="left">19.99</td>
<td align="left">5,000</td>
<td align="left">20165</td>
</tr>
<tr>
<td align="left">#### 아우터조인</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
</tr>
<tr>
<td align="left">ID</td>
<td align="left">이름</td>
<td align="left">성</td>
<td align="left">출판사 유형</td>
<td align="left">제목</td>
<td align="left">가격</td>
<td align="left">로열티</td>
<td align="left">ID</td>
</tr>
<tr>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
</tr>
<tr>
<td align="left">20034</td>
<td align="left">Adam</td>
<td align="left">Davis</td>
<td align="left">Independent</td>
<td align="left">The Magic Shoe Lace</td>
<td align="left">15.99</td>
<td align="left">7,000</td>
<td align="left">20034</td>
</tr>
<tr>
<td align="left">20165</td>
<td align="left">Ashley</td>
<td align="left">Garcia</td>
<td align="left">Big</td>
<td align="left">Weather in the Alps</td>
<td align="left">19.99</td>
<td align="left">5,000</td>
<td align="left">20165</td>
</tr>
<tr>
<td align="left">20233</td>
<td align="left">Susan</td>
<td align="left">Nguyen</td>
<td align="left">Small/medium</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
</tr>
<tr>
<td align="left">20800</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left">My Physics</td>
<td align="left">8.99</td>
<td align="left">3,500</td>
<td align="left"></td>
</tr>
<tr>
<td align="left">#### left조인</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
</tr>
<tr>
<td align="left">ID</td>
<td align="left">이름</td>
<td align="left">성</td>
<td align="left">출판사 유형</td>
<td align="left">제목</td>
<td align="left">가격</td>
<td align="left">로열티</td>
<td align="left">ID</td>
</tr>
<tr>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
</tr>
<tr>
<td align="left">20034</td>
<td align="left">Adam</td>
<td align="left">Davis</td>
<td align="left">Independent</td>
<td align="left">The Magic Shoe Lace</td>
<td align="left">15.99</td>
<td align="left">7,000</td>
<td align="left">20034</td>
</tr>
<tr>
<td align="left">20165</td>
<td align="left">Ashley</td>
<td align="left">Garcia</td>
<td align="left">Big</td>
<td align="left">Weather in the Alps</td>
<td align="left">19.99</td>
<td align="left">5,000</td>
<td align="left">20165</td>
</tr>
<tr>
<td align="left">20233</td>
<td align="left">Susan</td>
<td align="left">Nguyen</td>
<td align="left">Small/medium</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
</tr>
<tr>
<td align="left">#### right 조인</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
</tr>
<tr>
<td align="left">ID</td>
<td align="left">이름</td>
<td align="left">성</td>
<td align="left">출판사 유형</td>
<td align="left">제목</td>
<td align="left">가격</td>
<td align="left">로열티</td>
<td align="left">ID</td>
</tr>
<tr>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
<td align="left">:---</td>
</tr>
<tr>
<td align="left">20034</td>
<td align="left">Adam</td>
<td align="left">Davis</td>
<td align="left">Independent</td>
<td align="left">The Magic Shoe Lace</td>
<td align="left">15.99</td>
<td align="left">7,000</td>
<td align="left">20034</td>
</tr>
<tr>
<td align="left">20165</td>
<td align="left">Ashley</td>
<td align="left">Garcia</td>
<td align="left">Big</td>
<td align="left">Weather in the Alps</td>
<td align="left">19.99</td>
<td align="left">5,000</td>
<td align="left">20165</td>
</tr>
<tr>
<td align="left">20800</td>
<td align="left"></td>
<td align="left"></td>
<td align="left"></td>
<td align="left">My Physics</td>
<td align="left">8.99</td>
<td align="left">3,500</td>
<td align="left"></td>
</tr>
</tbody></table>
<h2 id="화면-소개">화면 소개</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/10530eea-ca47-46a2-8279-dbcf6ecb885a/image.png" alt=""></p>
<ul>
<li><p><strong>열 및 행 선반</strong></p>
<ul>
<li>행 또는 열 선반에 차원을 배치하면 해당 차원 멤버의 머리글이 만들어짐. 복수 개 가능</li>
</ul>
</li>
<li><p><strong>마크 카드</strong></p>
<ul>
<li>마크 카드는 Tableau의 시각적 분석을 위한 핵심 요소로, 마크유형, 색상, 크기, 모양, 텍스트 및 세부정보등을 설정. 마크 카드의 여러 속성에 필드를 끌어 놓으면 뷰의 마크에 컨텍스트 및 세부 정보가 추가됨.</li>
</ul>
</li>
<li><p><strong>필터 선반</strong></p>
<ul>
<li>포함하거나 제외할 데이터를 지정</li>
</ul>
</li>
<li><p><strong>페이지 선반</strong></p>
<ul>
<li>특정 필드가 뷰의 나머지 데이터에 미치는 영향을 쉽게 분석할 수 있도록 분석. 우측에 페이지 컨트롤이 추가되며, 이를 활용하여 페이지 탐색</li>
</ul>
</li>
</ul>
<h2 id="데이터-계층">데이터 계층</h2>
<p>주소, 제품 등 많은경우, 데이터가상하위로구성됨
• Ex. 국가-시도-군구 /제품군-하위범주-제품명
계층구성후일괄관리가능</p>
<h2 id="실습">실습</h2>
<h3 id="실습1">실습1</h3>
<p>연도별 총 매출액을 분석하시오
<img src="https://velog.velcdn.com/images/hong_computer/post/ca2330eb-3ba4-4d45-8d44-5b08b09e8f8f/image.png" alt=""></p>
<h3 id="실습2">실습2</h3>
<p>아시아 태평양 시장에서 반품 정보만 확인하고자할 떄</p>
<ul>
<li>&quot;시장&quot;을 드래그하여 필터에 위치 - 아시아 태평양 선택
<img src="https://velog.velcdn.com/images/hong_computer/post/7a36136d-de3d-4e3b-8eb5-c7ab0e6b949b/image.png" alt=""><h3 id="실습3">실습3</h3>
</li>
<li>전세계“지역”별로어떤“범주”의어떤“하위범주”(segment)제품들이몇개(quantity)팔렸는지그래프로작성하시오. </li>
<li>“시장” 별로색상을다르게표시하시오. 
•행: Category(범주), Segment(하위범주) /열: Market(지역), 합계(수량)설정
•지역을Color로드래그</li>
<li>2022년자료만표시하시오
<img src="https://velog.velcdn.com/images/hong_computer/post/35a08392-e152-4986-bfaf-6dedc3753cb5/image.png" alt=""></li>
</ul>
<h1 id="시각화2-12주차">시각화2 (12주차)</h1>
<h2 id="워드클라우드">워드클라우드</h2>
<p>특정 차원(dimension)필드를 지정된 측장값(measure) 기준에 따른 크기로 나타내기</p>
<ul>
<li>워드클라우드로나타내고자하는차원(dimension)을 마크카드의텍스트에드래그해서위치</li>
<li>크기로설정하고자하는필드를마크카드의크기에드래그해서위치</li>
<li>크기에있는필드는측정값(measure)이어야동작함</li>
<li>마크타입을채워진맵, 버블, 텍스트등으로선택가능</li>
<li>워드클라으두의마크카드의색상을설정</li>
</ul>
<h3 id="워드클라우드-실습">워드클라우드 실습</h3>
<p>동영상 보고 추가할것(미완!!!!!!!!!!!!!!!!!!!!!!)</p>
<h2 id="맵기능">맵기능</h2>
<h3 id="개요-3">개요</h3>
<ul>
<li>Tableau의 맵기능은 내부 보유DB로 국가, 주/시/도, 도시 등을 자동으로 인식할 수있음.</li>
<li>DB에 등록되어있지않은지명은자동인식이안되며, 이경우, 약자, 스펠링오류, 동일한지명
등의문제로인식이안되는것일수있음. </li>
<li>그외, 회사의지점등, 세부 지역은DB에없기때문에, 위경도를넣어 주어야표기됨. – (ex. 서울과학기술대학교) 
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ</li>
<li>위치는기본적으로마크(Mark)로 표시됨.</li>
<li>그러나, 국가(Country), 시/도(State), 우편코드등은 채워진 맵으로 표시가 가능함. 
단, 도시 또는 군/구(City) level에서는 채워진 맵 사용 안됨. </li>
<li>Mapbox통합: 위도를 추가한 후, 추가한 위도의 우측에서 이중축으로 설정하면 두개의
서로다른맵을합칠수도있음</li>
</ul>
<h3 id="실습-1">실습</h3>
<h4 id="실습1-1">실습1</h4>
<p>■실습) Bank of China의 글로벌지사를 보려면? (위경도 정보를 활용)
• 파일: Bank of China branches.csv  (텍스트로 열기)
• 위도: latitude, 경도: longtitude, 레이블: Branch
<img src="https://velog.velcdn.com/images/hong_computer/post/cac03638-7493-463d-bcf8-d8de018de724/image.png" alt=""></p>
<h4 id="실습2-1">실습2</h4>
<p>각구의응급실분포현황을지도로분석하시오.
<img src="https://velog.velcdn.com/images/hong_computer/post/2d9bf73e-506c-48d0-8166-a97d500a81e7/image.png" alt=""></p>
<h1 id="시각화3-13주차">시각화3 (13주차)</h1>
<h2 id="데이터-분석">데이터 분석</h2>
<h3 id="추세선">추세선</h3>
<h4 id="뷰에-추세선-추가">뷰에 추세선 추가</h4>
<ul>
<li>분석 패널에서 추세선을 뷰로 끌어온 다음 선형, 로그, 지수, 다항식 또는 거든제곱 모델 유형 선택
<img src="https://velog.velcdn.com/images/hong_computer/post/5d5496c9-ab2d-4439-8255-7b65a0b7a9a7/image.png" alt=""></li>
</ul>
<h4 id="추세선-또는-추세선-모델의-설명-보기">추세선 또는 추세선 모델의 설명 보기</h4>
<ul>
<li>추세선을 추가한 후, 마우스 오버하여 R제곱 및 p 값을 표시</li>
<li>또는 뷰에서 추세선을 마우스 오른쪽 단추로 클릭한 다음 추세선 설명을 선택<h4 id="추시선-시각화-실습">추시선 시각화 실습</h4>
열: 주문날짜 행: 매출 또는 수익
좌측 패널의 분석 - 추세선을 드래그하여 뷰에 놓고 원하는 추세선을 선택
추세선 우클릭 - 추세선 설명 확인</li>
<li>주의
다중 회귀 분석 불가
<img src="https://velog.velcdn.com/images/hong_computer/post/27ed864a-ecf0-4347-8820-7f80ff09e767/image.png" alt=""><h4 id="참조선-추가">참조선 추가</h4>
참조선, 구간, 분포 또는 박스 플롯을 추가하여 Tablue뷰의 연속 축에서 특정 값, 영역 또는 범위를 식별</li>
<li>여러 하위 범주의 매출을 분석하는 경우, 평균 매출 마크에 참조선 표시</li>
<li>좌측패널 - 분석- 참조선을 끌어서 뷰에 놓고 원하는 참조선 형태를 선택
<img src="https://velog.velcdn.com/images/hong_computer/post/fea85f30-47e1-4408-ae0e-e209232b0691/image.png" alt=""></li>
</ul>
<h3 id="시계열-자료의-예측">시계열 자료의 예측</h3>
<ul>
<li>지수 평활법을 활용해 시계열 자료를 예측</li>
<li>구델 브라운이 송급망 수요를 예측을 위해 제안</li>
<li>미래의 매출액 등을 예측하기 위해 쓰이는 정량적 예측 방법 중 하나</li>
<li>가까운 과거의 종속변수 값을 예측에 더 많이 반영하고, 먼 과거일 수록 더 저게 반영함</li>
<li><strong>가중치: $$D = \alpha(1 - \alpha)^{\text{과거시점}}$$</strong>
<img src="https://velog.velcdn.com/images/hong_computer/post/005b41d7-0ce8-4a4a-ae3a-3a5698bf096d/image.png" alt=""><h4 id="실습-2">실습</h4>
</li>
<li>날짜와 측정값만 있으면 가능
<img src="https://velog.velcdn.com/images/hong_computer/post/4ab6b034-3bae-4c4a-ae83-7ea2180fe9c0/image.png" alt=""><h4 id="예측-옵션-적용">예측 옵션 적용</h4>
</li>
<li>기본값은 자동이나 naive forecasting되면 가장 최근 값으로 예측이 끝날 수있음</li>
<li>추세: 시간의 흐름에 따른 수준(관측값의 크기)의 변화</li>
<li>계절: 단위 시각내에서 순환 주기의 영향
<img src="https://velog.velcdn.com/images/hong_computer/post/d67b9181-9517-43e8-8b54-60586dd00a76/image.png" alt=""></li>
</ul>
<h2 id="대쉬보드">대쉬보드</h2>
<ul>
<li>작업한 여러 뷰를 종합적으로 관리하며 분석하고자 할 떄 사용
<img src="https://velog.velcdn.com/images/hong_computer/post/4b13f6f1-61d2-4b7c-84e9-d86f9fc3d9b9/image.png" alt=""></li>
</ul>
<h1 id="데이터분석의-함정마지막주">데이터분석의 함정(마지막주)</h1>
<h2 id="gerber의-체리피킹">Gerber의 체리피킹</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/2aff22f3-abfd-4f15-bb84-419898893d94/image.png" alt="">
<strong>소아과 의사중 5명중 4명은 Gerber를 추천했어요!</strong></p>
<ul>
<li>불공정 여부 조사</li>
<li>562명을 조사. 이중 408명이 이유식을 먹을 것을 추천</li>
<li>408명 중 332명이 어떤 특정 브랜드를 명시해 추천하지 않았음</li>
<li>76명중 67명이 Gerber를 추천함</li>
</ul>
<p>결국 562명 중 Gerver를 추천한 사람은 67명
<img src="https://velog.velcdn.com/images/hong_computer/post/dea7a234-8b80-4e34-8463-759ea0bfa26e/image.png" alt=""></p>
<h2 id="허위-상관관계spurious-relationship">허위 상관관계(Spurious Relationship)</h2>
<p>둘 이상의 변수가 통계적으로 상관되어 있지만 인솨관계가 없는 관계</p>
<h2 id="역-인과관계">역 인과관계</h2>
<p>원인과 결과가 뒤바뀌어, 실제로는 결과가 원인의 원인이 되는 현상</p>
<h2 id="simsons-paradox">Simson’s Paradox</h2>
<p>여러 개의 그룹을 합쳐놓았을 때 각 그룹의 우열관계가 뒤바뀌는 현상
<img src="https://velog.velcdn.com/images/hong_computer/post/1436d7ae-5f89-49ba-9ea7-51afdf9a5471/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/7ea0329e-f463-43a8-9537-44309b8bc33d/image.png" alt=""></p>
<h2 id="시각화의-함정">시각화의 함정</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/05272543-fb86-4cf1-ada6-cd13ec66218b/image.png" alt=""></p>
<h3 id="시사점">시사점</h3>
<ul>
<li>시각화수행시간단하고정확하게데이터에대한진실을전달</li>
<li>타인의그래프를읽을때에는왜곡이있는지살펴보고데이터와비교를통한검토</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 13주차(시각화 분석, 시각화 대쉬보드)]]></title>
            <link>https://velog.io/@hong_computer/BI-13%EC%A3%BC%EC%B0%A8%EC%8B%9C%EA%B0%81%ED%99%94-%EB%B6%84%EC%84%9D-%EC%8B%9C%EA%B0%81%ED%99%94-%EB%8C%80%EC%89%AC%EB%B3%B4%EB%93%9C</link>
            <guid>https://velog.io/@hong_computer/BI-13%EC%A3%BC%EC%B0%A8%EC%8B%9C%EA%B0%81%ED%99%94-%EB%B6%84%EC%84%9D-%EC%8B%9C%EA%B0%81%ED%99%94-%EB%8C%80%EC%89%AC%EB%B3%B4%EB%93%9C</guid>
            <pubDate>Sun, 07 Dec 2025 11:51:59 GMT</pubDate>
            <description><![CDATA[<p><img src="https://velog.velcdn.com/images/hong_computer/post/09eadc3b-a68f-4af8-bf71-03e60b7f389e/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/11371278-3bdb-43f3-a863-ed1c8f8bfa7f/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/3e490f6e-4c62-4b12-bdb3-faa2c266ec19/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/d56e6b92-46cd-4a06-adfa-fe411d7f9228/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/8c658ecd-1e76-42f9-aeb1-5dee6f5862a8/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/b17dadd3-7fee-43df-971d-9d5e644fca94/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/acacaced-68a7-48df-a8f4-e60233d439ca/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/0ceb900d-9696-4567-81c2-e6a378af6bd7/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/6dfcb066-3c83-4243-956e-7e1d29e07f8c/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 12주차 태블루(워드 클라우드, 맵기능)]]></title>
            <link>https://velog.io/@hong_computer/BI-12%EC%A3%BC%EC%B0%A8-%ED%83%9C%EB%B8%94%EB%A3%A8%EC%9B%8C%EB%93%9C-%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-%EB%A7%B5%EA%B8%B0%EB%8A%A5</link>
            <guid>https://velog.io/@hong_computer/BI-12%EC%A3%BC%EC%B0%A8-%ED%83%9C%EB%B8%94%EB%A3%A8%EC%9B%8C%EB%93%9C-%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-%EB%A7%B5%EA%B8%B0%EB%8A%A5</guid>
            <pubDate>Sat, 06 Dec 2025 14:19:40 GMT</pubDate>
            <description><![CDATA[<p><img src="https://velog.velcdn.com/images/hong_computer/post/2ffa15e6-12c3-42fc-9dee-f7aa7bab65eb/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/025bd2bc-b071-4414-b159-e43dc6538633/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/f0e43b8f-d8b7-41fa-9370-94c715885433/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/01025023-e917-4e93-b25d-bec273c7b048/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/5c5229d8-1c85-4044-a01b-fa7b131bc95d/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/b1e62c3f-f2ef-4f5d-9f49-1513e5e85a2a/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/a1c2390c-18ff-4d0c-a19f-0701c1677f95/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/7e9365e1-45cf-436a-b087-d508a6da319f/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 11주차 데이터 시각화(태블루)]]></title>
            <link>https://velog.io/@hong_computer/BI-10%EC%9E%A5-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8B%9C%EA%B0%81%ED%99%94</link>
            <guid>https://velog.io/@hong_computer/BI-10%EC%9E%A5-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8B%9C%EA%B0%81%ED%99%94</guid>
            <pubDate>Sat, 06 Dec 2025 14:15:52 GMT</pubDate>
            <description><![CDATA[<h1 id="시각화-개념">시각화 개념</h1>
<h2 id="시각화의-기능">시각화의 기능</h2>
<ul>
<li>효과적으로 데이터 보여주기</li>
<li>공유와 설득을 용이하게</li>
<li>데이터에서 가장 중요한 부분을 강조하여</li>
<li>시각화를 활용한 분석 -&gt; 데이터의 패턴 파악에 효과적</li>
</ul>
<h2 id="좋은-디자인에-대한-고민-단순화">좋은 디자인에 대한 고민: 단순화</h2>
<ul>
<li>단순한 색성 구성</li>
<li>주요 트렌드에 집중</li>
<li>일관된 스타일과 형태</li>
<li>텍스트 단순화<h1 id="태블루-소개-및-설치">태블루 소개 및 설치</h1>
<h2 id="태블루란">태블루란?</h2>
</li>
<li>Tableau 는 데이터 시각화 솔루션으로 가장 주목받고 있는 시각화 SW중 하나임</li>
<li>Tableau의 기업 모토: &quot;데이터를 보고, 이해하게 하다&quot;</li>
<li>2003년 Standford 출신의 컴퓨터과학자 3인이 연구과정을 통해서 설립</li>
<li>Gartner그룹에서 선정한 Business Intelligence Analytics Platform분야에서 4년 연속 Leader로 선정됨</li>
<li>2019년 Sales force에 인수됨</li>
</ul>
<h1 id="태블루-활용">태블루 활용</h1>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/b60ccfc9-678b-4371-a5ba-568ac5ca6037/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/4a0e037f-04f8-4283-a62c-10ede42f1da8/image.png" alt=""></p>
<h2 id="병합join활용">병합(JOIN)활용</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/134ef898-ef2b-469f-ace8-ef831ac4b6c0/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/56f95f56-2419-4846-92b7-4dd778d4a64b/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/8335c61e-5822-42cd-ab66-d2b51fbb3a9e/image.png" alt=""></p>
<h2 id="기본기능">기본기능</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/f30092db-0de9-4695-935f-e6724cb6383b/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/b5a40b4b-d032-432b-a836-fe755d49ddd3/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/3a2d5af0-f9c0-4098-a706-e2c1651b6970/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/b501daea-258d-4aee-bcdf-8d10a3215159/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/d0f512cd-e77d-455b-8499-2691fa61a482/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 10장 토픽모델링]]></title>
            <link>https://velog.io/@hong_computer/BI-10%EC%9E%A5-%ED%86%A0%ED%94%BD%EB%AA%A8%EB%8D%B8%EB%A7%81</link>
            <guid>https://velog.io/@hong_computer/BI-10%EC%9E%A5-%ED%86%A0%ED%94%BD%EB%AA%A8%EB%8D%B8%EB%A7%81</guid>
            <pubDate>Sat, 06 Dec 2025 14:06:26 GMT</pubDate>
            <description><![CDATA[<h1 id="토픽모델링">토픽모델링</h1>
<ul>
<li>텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법</li>
<li>개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함
ex)
문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3)
문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)</li>
<li>토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임<h2 id="lda잠재디리클레할당모델">LDA(잠재디리클레할당)모델</h2>
</li>
<li>디리클레(Dirichlet): 확률분포의 명칭</li>
<li>전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악</li>
<li>토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함</li>
</ul>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/6dcec18c-c4f6-42e0-b819-359fdbb3a954/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/c874e744-da89-4c80-9a09-244253775715/image.png" alt=""></p>
<h2 id="토픽모델링의-활용">토픽모델링의 활용</h2>
<ul>
<li>대량의 문서들을 직접 읽어보지 않고도 주제를 파악</li>
<li>문서들을 주제별로 분류할 수 있음</li>
<li>토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함</li>
<li>그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.</li>
</ul>
<h1 id="실습">실습</h1>
<p>워드클라우드&amp;토픽모델링 실습</p>
<p>데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건
데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]
<img src="https://velog.velcdn.com/images/hong_computer/post/3e7d3aa5-5c7f-4347-af2a-cd91d66763d9/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[BI 9장 텍스트 마이닝]]></title>
            <link>https://velog.io/@hong_computer/BI-9%EC%9E%A5-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EB%A7%88%EC%9D%B4%EB%8B%9D</link>
            <guid>https://velog.io/@hong_computer/BI-9%EC%9E%A5-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EB%A7%88%EC%9D%B4%EB%8B%9D</guid>
            <pubDate>Sat, 06 Dec 2025 13:38:18 GMT</pubDate>
            <description><![CDATA[<h1 id="텍스트-마이닝">텍스트 마이닝</h1>
<p>텍스트로 부터 숨어있는 지식들을 발굴해 내는 기술
ex) SNS글로 부터 트렌드 분석, 문서내 주요 키워드 인식, 연관어 분석</p>
<p>정형 데이터: 엑셀같은
비정형 데이터: 영상, 이미지, 텍스트 데이터</p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/ecf8dfb8-2bc3-4889-9aec-125b5a2e9915/image.png" alt="">
웹크롤링(데이터 수집): 웹사이트, 이메일, 트위터 등 비구조적 유형의 원시데이터
텍스트 전처리(데이터 전처리): 구조적 유형으로 변환
토픽 분석(데이터 분석): 군집화, 분류 등의 모든 설명적, 예측적 기법들을 사용</p>
<h2 id="텍스트-전처리">텍스트 전처리</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/0f781d8c-844e-490e-b771-693de270743a/image.png" alt="">
토큰화: 뛰어쓰기 단위로 단어들을 잘라냄
정규화: 표준화를 시킴. 여기서는 캐피탈라이즈시킴
불용어 제거: 느낌표 마침표 제거 불용어 사전이 정의되어있음 거기 정의된것들은 제거 시킴 
Stemming: 어근 찾기, fahionable -&gt; fashion</p>
<h2 id="과정">과정</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/d29b04e9-4b8f-4335-9512-bbeae3166c0e/image.png" alt=""></p>
<p>말뭉치: 컴퓨터가 이해할수 있는 구조</p>
<h2 id="문장-유사도-계산">문장 유사도 계산</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/d361dd1a-d925-498c-8598-a8fcf78d720e/image.png" alt="">
두 문장이 같은지 비교할 떄는 코사인 유사도를 많이 이용함
코사인 유사도: 벡터의 크기와 상관없이 사용가능
<img src="https://velog.velcdn.com/images/hong_computer/post/8b7f70e3-6385-40cd-aece-b3b7535bde6a/image.png" alt="">
두번쨰는 Tdm형태로 카운팅한 예임</p>
<h3 id="tf-idf">TF IDF</h3>
<p>&quot;A팀이 B팀을 이기다&quot;, &quot;B팀이 A팀을 이기다&quot;는 TDM관점에선 유사도가 같음 
<img src="https://velog.velcdn.com/images/hong_computer/post/7c27e43a-9b12-49a4-b40a-56435cd7b491/image.png" alt=""></p>
<p>DF:가 높으면 모든 문서에 있으면 높으므로 의미가 없는 경우가 있음
그래고 iDF(역수값)을 사용함
<img src="https://velog.velcdn.com/images/hong_computer/post/f27a63a2-a9ed-4ede-9f4e-0c21daf24711/image.png" alt=""></p>
<h3 id="bow의-정단점">BOW의 정단점</h3>
<p>장점: 비교적 단순하며, 문서의 특징을 효율적으로 포착함
단점: 단어의 순서를 고려하지 않기 떄문에 문맥적인 의미가 무시됨. 희소행렬 발생
ex)&quot;A팀이 B팀을 이기다&quot;, &quot;B팀이 A팀을 이기다&quot;는 BOW관점에선 유사도가 같음 
, &quot;누구도 그를 훌륭하지 않다고 할 수 없었다&quot; 는 이해 불가능
<img src="https://velog.velcdn.com/images/hong_computer/post/0544f4fb-cff7-4a75-80dc-95b51a1aa9a3/image.png" alt=""></p>
<h1 id="실습">실습</h1>
<p>영화 리뷰의 감성 분석</p>
<p>데이터: 영화 리뷰데이터로 긍정/부정 극성을 포함
목적: 상품평을 TF-IDF의 구조호된 형태로 변환
TF-IDF를 활용하여 의사결정나무로 긍정/부정을 분류하는 감성 분석</p>
<h2 id="프로세스-화면">프로세스 화면</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/c7748de7-7d4b-452e-b224-ec73c86abd53/image.png" alt=""></p>
<h3 id="nominal-to-text">Nominal to Text</h3>
<p>데이터를 가저온 후 text 형태로 수정
감성 분석 수행을 위해 긍정/부정을 종속변수 레이블로 설정</p>
<h3 id="process-documents-from-data">Process Documents From Data</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/6324379f-31e7-494a-aa08-c9d1db65d8a3/image.png" alt="">
서브 프로세스
<img src="https://velog.velcdn.com/images/hong_computer/post/0b1f8a77-8402-4765-94f4-1e100fb660c4/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[비지니스 인텔리전스 중간총정리]]></title>
            <link>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EC%9D%B8%ED%85%94%EB%A6%AC%EC%A0%84%EC%8A%A4-%EC%A4%91%EA%B0%84%EC%B4%9D%EC%A0%95%EB%A6%AC</link>
            <guid>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EC%9D%B8%ED%85%94%EB%A6%AC%EC%A0%84%EC%8A%A4-%EC%A4%91%EA%B0%84%EC%B4%9D%EC%A0%95%EB%A6%AC</guid>
            <pubDate>Sun, 12 Oct 2025 14:19:44 GMT</pubDate>
            <description><![CDATA[<h1 id="서론">서론</h1>
<p>4차 산업 혁명의 기반 구성요소 : AI + 빅데이터</p>
<p>머신러닝에는 여러 가지 데이터 분석기술이 포함되는데 특시, 데이터를 분석하는데 특화된 분석 기법과 방법론을 총칭해&#39;데이터 애널리틱스(Data Analytics)&#39;라고 한다.</p>
<h2 id="데이터-애널리틱스-기법의-종류와-절차">데이터 애널리틱스 기법의 종류와 절차</h2>
<ul>
<li><p>감독학습 기법 : 분석 대상 데이터에 분석을 감독할 요소가 있는것으로 일반적으로 <strong>종속변수가 존재</strong>하는경우</p>
</li>
<li><p>무감독학습(비지도학습) : 데이터간 유사도 추적하는 경우, *<em>감독요소(종속변수) 불필요 *</em></p>
<h2 id="데이터-애널리틱스의-과업">데이터 애널리틱스의 과업</h2>
</li>
<li><p>분류 : 감독학습 과업, 감독의 역할을 하는 요인이 <strong>이산형</strong>
ex) 신용 상태의 정상/불량 판별</p>
</li>
<li><p>회귀 : 감독학습 과업, 감독의 역할을 하는 요인이 <strong>연속형 수치값</strong>
회귀를 통해 만들어진 모형을 회귀모형이라 함
ex) 내년도 전기 수요양 예측</p>
</li>
<li><p>군집화 : 무감독학습
ex) 마케팅에서 유사한 고객을 그룹으로 분리해, 그룹 특성의 따른 차별화된 마케팅 전략 사용</p>
</li>
<li><p>차원축소 : 데이터의 특성을 단순화하기위해 주성분 분석
정보의 유실은 최소화 하면서도 정대적인 양이나 차원을 축소하는 것을 목표로 한다.</p>
</li>
<li><p>동시출현분석 : 동시에 발생할 가능성이 높은 이벤트를 찾는 과업
ex) 장바구니 분석</p>
</li>
<li><p>프로파일링 : 현상에 대한 기술 또는 설명을 위해 데이터의 공통된 속성 값을 도출하는 과정</p>
</li>
</ul>
<h1 id="데이터-전처리">데이터 전처리</h1>
<p>데이터 분석 시 </p>
<blockquote>
<p>표본추출-&gt;데이터 탐색-&gt; 데이터 변환-&gt;데이터 모델링-&gt;모형 평가 과정</p>
</blockquote>
<p>을 거침</p>
<h2 id="표본추출">표본추출</h2>
<ul>
<li><p>모집단(Population)으로 부터 표본(Sample)을 반드는 과정</p>
</li>
<li><p>샘플의 최소치 : Delmaster and Hancock의 연구의 따르면 최소 6 x  클래수 수 x 속성수
ex)클래스 수 2, 속성 10개일 경우 최소 120개의 샘플 데이터 필요</p>
</li>
<li><p>통계의 Sampling이 모집단의 분포와 유사한 것을 추구하는 것과 달리, 머신러닝은 모델 수립에 최적화된 Sampling 수행 필요(분류 문제에서 불균형 데이터 셋일 경우 샘플링 주의)
ex)
높은 빈도의 클래스는 낮은 비중으로 샘플링(Under-sampling)
낮은 빈도의 클래스는 높은 비중으로 샘플링(Over-sampling/Up-Sampling)</p>
</li>
</ul>
<h3 id="ai-studio에서-표본-추출">AI studio에서 표본 추출</h3>
<ul>
<li>Sample오퍼레이터 사용
<img src="https://velog.velcdn.com/images/hong_computer/post/7c66e72d-22a7-4228-b0f9-326eb67be71b/image.png" alt="">
size 만큼 샘플을 뽑고, 동일한 결과를 얻고 싶으면 seed 설정</li>
<li>Balanced data</li>
<li>Stratified</li>
<li>SMOTE (over-samping)
등 여러 옵션 사용 가능<h3 id="데이터-탐색">데이터 탐색</h3>
ExampleSet에서 Visualizations 에서 시각화 선택 할 수 있음
너무 많은 변수는 시각화 의미가 없을 수 있음.</li>
</ul>
<h3 id="데이터-전처리-1">데이터 전처리</h3>
<p>종속변수, 독립변수의 NULL 이있으면  Filter Examples 오퍼레이터를 사용해 NULL이 포함된 튜플을 없애거나 평균값으로 대체 할 수있음.</p>
<h4 id="명목형-데이터의-수치형으로-변경">명목형 데이터의 수치형으로 변경</h4>
<p>One-Hot Encoding Operator, Numerical to Binomial 오퍼레이터 사용.</p>
<h1 id="회귀분석">회귀분석</h1>
<p>감독학습, 연속형데이터의 종속 변수를 예측 하는 기법
<img src="https://velog.velcdn.com/images/hong_computer/post/98f8ce7c-8a0b-4336-a828-a307514dc483/image.png" alt="">
잔차 제곱의 합이 최소인 추세선을 회귀선을 선택한다.
y = a + bx
y는 종속변수의 예측 값, a는 절편, b는 회귀계수, x는 설명요인</p>
<p>회귀변수의 성능 평가는 R^2값 이용(1에 가까울 수록 성능 굿)</p>
<h2 id="회귀분석-실습">회귀분석 실습</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/a45c8969-fc1f-4818-a668-5a928173390f/image.png" alt=""></p>
<ul>
<li>오퍼레이터, 어떻게 연락되는지 숙지할 것</li>
</ul>
<ol>
<li>Split Data -&gt; 학습, 평가용 데이터 분할 </li>
<li>Linear Regression -&gt; 회귀모형 만들기</li>
<li>Apply Model -&gt; R^2값 알아내기(모델 성능)</li>
</ol>
<h1 id="의사결정나무">의사결정나무</h1>
<p>분류분석 기법, 동질적인 개체를 찾아가는 것을 목표로 함
<img src="https://velog.velcdn.com/images/hong_computer/post/7ae038c7-f460-48cc-8d05-a00f6b19e554/image.png" alt=""></p>
<ul>
<li>정보이득을 크게하는 분류 기준 택하기!</li>
</ul>
<p>분류 기준을 너무 많이 만들어 매우 작은 집단이 만ㄴ들어지는 &quot;과적합&quot;하면 안댐!</p>
<h2 id="의사결정나무-실습">의사결정나무 실습</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/aa075435-88c5-45c7-a6f4-77514dab6361/image.png" alt="">
오퍼레이터, 어떻게 연결되는지 숙지 할 것!</p>
<h1 id="장바구니-분석">장바구니 분석</h1>
<p>연관규칙분석
연관성 판단기준 : 지지도(Support), 신뢰도(Confidence), 향상도(Lift)</p>
<ul>
<li>지지도 : 전체 확률 중 두 사건이 동시에 일어날 확률</li>
<li>신뢰도 : 사건1이 있어났을때 사건2가 일어날 확률</li>
<li>향상도 : 그냥 사건2가 일어났을때 보다 사건 1이 일어났을떄 사건2가 일어날 증가분</li>
</ul>
<h2 id="장바구니-분석-실습">장바구니 분석 실습</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/18415898-7e7b-4bb4-8af1-1486b06078d0/image.png" alt=""></p>
<h1 id="시장세분화분석">시장세분화분석</h1>
<p>군집분석, K평균군집분석알고리즘을 이용
<img src="https://velog.velcdn.com/images/hong_computer/post/f6c31bec-671f-480c-af84-dcc93cda3c10/image.png" alt=""></p>
<h2 id="실습">실습</h2>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/be4fd1e0-b984-4277-91f7-b03ab69b91dc/image.png" alt=""></p>
<ul>
<li><p>Normalize : 속성의 단위는 다양하기에 정규화 수행</p>
</li>
<li><p>Clustering : 군집화하는 거임
<img src="https://velog.velcdn.com/images/hong_computer/post/b3c74644-52d1-4d21-8b61-b63835cb12bc/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/5682da37-41b4-4861-8c33-8dd637a5d488/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/472fe87f-7fcc-46fc-bb99-4f63c9182f00/image.png" alt=""></p>
</li>
<li><p>ClusterModelVisualizerOObject : 클러스터 결과 시각화</p>
</li>
</ul>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/94906600-6000-450e-938c-021c25094c42/image.png" alt="">
특정 클러스터의 결과 보기</p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/f3cc2970-cf74-41b6-91de-0ab73e90f122/image.png" alt="">
각 클러스터의 결과값 한번에 보기</p>
<p>작성중........</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[의사결정나무]]></title>
            <link>https://velog.io/@hong_computer/%EC%9D%98%EC%82%AC%EA%B2%B0%EC%A0%95%EB%82%98%EB%AC%B4</link>
            <guid>https://velog.io/@hong_computer/%EC%9D%98%EC%82%AC%EA%B2%B0%EC%A0%95%EB%82%98%EB%AC%B4</guid>
            <pubDate>Sat, 04 Oct 2025 12:36:56 GMT</pubDate>
            <description><![CDATA[<p>C 5.0알고리즘을이용한다.
CART, CHEAD, QUEST 등 여러 알고리즘이 존재함</p>
<p>이진분류문제(Binary classification)을 확장해 다지분류문제(Mulyiclass classification)</p>
<h1 id="사례">사례</h1>
<p>속성들 :</p>
<ul>
<li>머리형태 : 사각형, 원형</li>
<li>몸 형태 : 직사각형, 타원형</li>
<li>옥 색상 : 흑색, 흰색
목표성성 : Yes, No
<img src="https://velog.velcdn.com/images/hong_computer/post/54654685-47a3-4e69-bf56-94457fce2a33/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/581bae77-5c29-45ac-8df5-ecaa307a7b1a/image.png" alt=""></li>
</ul>
<p>동질성(속성)적인 개체들만 모으는것 -&gt; 순수하다</p>
<p>나무를 분류하는 속성에 따라 나무의 크기가 달라짐</p>
<h1 id="엔트로피entropy와-정보이득">엔트로피(Entropy)와 정보이득</h1>
<ul>
<li>목표속성이두개또는그이상의범주를가진경우: 1, 2 (,…m)</li>
<li>범주1에대한P1의확률</li>
<li>범주2에대한P2의확률
<img src="https://velog.velcdn.com/images/hong_computer/post/1f1afb3d-f947-4143-a4cc-7e959733a5d7/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/28af9e9c-532b-45c1-bd86-bd46c3a74e01/image.png" alt=""></li>
</ul>
<h2 id="정보이득">정보이득</h2>
<p>IG (parent, children) = 
entropy(parent)−[p(c1)×entropy(c1)+p(c2)×entropy(c2) +…] 
<img src="https://velog.velcdn.com/images/hong_computer/post/5dade4ef-65e9-4880-b2d6-3e7041d89ef6/image.png" alt="">
엔트로피(정보의 불순도)를 많이 낮춰야 함</p>
<h3 id="정보이득-사례">정보이득 사례</h3>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/5d797d99-50b8-4e8c-b59a-f25b5b01ce05/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/a56b064b-904c-4c26-b13f-e280af7a2938/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/12986bf5-b4ff-413c-80b9-7de5a55ce913/image.png" alt=""></p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/ff74cc2e-6877-45e3-a364-bfd0f728bfe2/image.png" alt=""></p>
<h1 id="공간분리">공간분리</h1>
<p>사례 : 잔디깎이 기계
<img src="https://velog.velcdn.com/images/hong_computer/post/1e85ef30-3fef-432d-903b-9d37be97be72/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/2c52d285-e98d-4400-a294-536f53ed0b56/image.png" alt="">
가능한 동질도를 높게 할 수있도록 분리하는 것을 목표로 함
<img src="https://velog.velcdn.com/images/hong_computer/post/aa0cb44b-550e-4537-81d2-e570cc1cd189/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/ae9a7026-dcf0-451d-afaa-a47a4ea8cc6a/image.png" alt=""></p>
<h1 id="나무분리-기존">나무분리 기존</h1>
<ul>
<li><p>이진분류 분제
  2개의 클래스
  우량/불량 등</p>
</li>
<li><p>가장좋은분리기준은각각의잎(node)에하나의클래스에해당하는 데이터들이모이도록분류하도록하는것</p>
</li>
<li><p>하나의클래스-&gt; “순수하다”</p>
</li>
<li><p>순수도(purity), 불순도(impurity)</p>
</li>
</ul>
<ul>
<li>계속 나누면 ...
  가지치기(pruning) 필요
  가지치기 방법 : 잎 내의 데이터 수, 가지의 깊이</li>
</ul>
<p>이를 통래 과대적합 문제를 해결할 수 있다.</p>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/51e5b84a-c203-4f29-8daf-bf2b68bb035b/image.png" alt=""></p>
]]></description>
        </item>
        <item>
            <title><![CDATA[회귀 분석]]></title>
            <link>https://velog.io/@hong_computer/%ED%9A%8C%EA%B7%80-%EB%B6%84%EC%84%9D</link>
            <guid>https://velog.io/@hong_computer/%ED%9A%8C%EA%B7%80-%EB%B6%84%EC%84%9D</guid>
            <pubDate>Sat, 04 Oct 2025 04:16:21 GMT</pubDate>
            <description><![CDATA[<p>단순회귀분석, 다중회귀분석을 배움</p>
<h1 id="단순회귀-분석">단순회귀 분석</h1>
<p>독립변수 1개에 대해 독립 변수 1개를 예측하는 문제</p>
<h2 id="최소자승법">최소자승법</h2>
<p>잔차의 제곱합을 최소화하는 방법
<img src="https://velog.velcdn.com/images/hong_computer/post/eb87674f-5adb-4f54-b5fe-55614b6106bf/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/73b33abd-a4e5-48d5-9eee-ec2c27da0361/image.png" alt="">
<img src="https://velog.velcdn.com/images/hong_computer/post/f8ef46f4-b567-444f-b6d0-19f6774cdfc7/image.png" alt="">
R^2값이 1에 가까우면 설명력이 높은거임</p>
<h1 id="다중회귀분석">다중회귀분석</h1>
<ul>
<li>i개의연속형변수의집합과하나의변수(y)와의관계</li>
<li>부분회귀계수
   다른모든xi들이그대로인상태에서xi가한단위변화할때y의평균변화량</li>
<li>예시
  혈압과나이, 몸무게, 키등</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[비지니스 기초 실습(SEMMA)]]></title>
            <link>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EA%B8%B0%EC%B4%88-%EC%8B%A4%EC%8A%B5SEMMA</link>
            <guid>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EA%B8%B0%EC%B4%88-%EC%8B%A4%EC%8A%B5SEMMA</guid>
            <pubDate>Fri, 03 Oct 2025 14:49:48 GMT</pubDate>
            <description><![CDATA[<p>AI studio(구 rapid miner)를 통해 데이터 전처리 실습을 해보자</p>
<h1 id="sampling">Sampling</h1>
<h2 id="ai-studio에서-제공하는-주요-샘플링-operator">AI studio에서 제공하는 주요 샘플링 operator</h2>
<ul>
<li>Sample, Sample(stratified), Sample(Boot_strapping)</li>
<li>SMOTE Upsampling</li>
</ul>
<ol>
<li>Sample : 단순임의추출</li>
</ol>
<ul>
<li>absolute : 표분 수 지정</li>
<li>relative : 비율지정</li>
<li>probability : 각 데이터 포인트(사례)별로 추출될 확률을 지정
<img src="https://velog.velcdn.com/images/hong_computer/post/8e30e166-53f6-4013-8c24-ddbfdebfa95e/image.png" alt="">
balance data 설정 : 각 클래스별 추출 수 / 비율 설정</li>
</ul>
<ol start="2">
<li>Sample (stratified) : 층화추출</li>
</ol>
<ul>
<li>층화추출 : 모집단을 동질적인 특성을 가진 여러 개의 &#39;층(strata)&#39;으로 나눈 후, 각 층에서 독립적으로 표본을 추출하는 통계학적 표본 추출 방법</li>
</ul>
<ol start="3">
<li>Sample(Boot-strapping):복원 추출</li>
<li>SMOTE Upsampling<ul>
<li>적은 수의 클래스만 Sample(Bootstrapping)해서 클래스 분포
를 균등하게 맞춰 줌</li>
</ul>
</li>
</ol>
<h1 id="데이터-분할">데이터 분할</h1>
<p>Split Data operator 사용</p>
<h2 id="partitions">partitions</h2>
<p>몇개로 분할할지, 각 크기(0 ~ 1) 지정</p>
<h2 id="sampling-type">Sampling type</h2>
<ul>
<li>Liner sampling: 순서대로 분할</li>
<li>Shuffled sampling: 임의로 섞어서 분할<ul>
<li>Stratified sampling: 클래스의 분포를 보고,
각 subset에 클래스가 유사한 분포로 구성되도록 분할</li>
</ul>
</li>
</ul>
<h1 id="데이터-탐색">데이터 탐색</h1>
<h2 id="rapidminer를-활용한-기술통계량">RapidMiner를 활용한 기술통계량</h2>
<h3 id="stistics">stistics</h3>
<p>• 평균, Min(Least)/Max(Most), deviation(numeric일 때) 확인
• 각 속성(attribute)별 Missing 확인
• 속성 click시 chart 보임
• Chart 클릭 – open chart시, “Chart”로 연결됨. 
<img src="https://velog.velcdn.com/images/hong_computer/post/2a6f29f0-4382-49b2-a75c-49094021a97d/image.png" alt=""></p>
<h3 id="charts">Charts</h3>
<ul>
<li>다양한 Chart들로 표시 가능 (Bar chart, Pie chart,
Histogram/Histogram(color), Distribution, Scatter diagram,
Box plot/Box plot(color)</li>
<li>Histogram등 chart종류에 따라서 편집 가능
예) Histogram은 Ctrl키로 여러 attribute를 한꺼번에 그래프로 표현, bin크기
조절 등 가능</li>
<li>상관관계 분석을 위해서는 scatter diagram확인
예) 집값 vs 방의 개수, 집값 vs 범죄율 등<h3 id="histogram-vs-histogram-color">Histogram vs Histogram (color)</h3>
</li>
<li>좀 더 깊이 있는 인사이트를 얻기 위해서는 다른 클래스들을 포
함시켜 히스토그램을 수정</li>
<li>Histogram(color): color – 분류의 문제일 경우 클래스명<h3 id="산점도scatterscatter-multiplescatter-matrix-chart">산점도(Scatter/Scatter Multiple/Scatter Matrix chart)</h3>
</li>
<li>데이터 포인트들을 데카르트 좌표 공간에 표시하여, 변수들 간
상관관계를 파악하는데 유용하게 사용되는 차트</li>
<li>일반적으로 변수들은 연속형</li>
<li>산점도로부터 알 수 있는 중요 정보<ol>
<li>두 변수들 사이의 상관관계 존재 여부</li>
<li>변수 사이에 상관관계가 있다면 직선에 가깝게 모여 있게 되며, 상관
관계가 없다면 데이터 포인트들은 흩어짐</li>
<li>주 변수를 x축에 표시, y축은 나머지 변수들끼리 공유</li>
</ol>
</li>
</ul>
<h2 id="데이터-변환modification">데이터 변환(Modification)</h2>
<p>결측치 처리, 속성변경, 정규화</p>
<h2 id="결측치missing-value-처리-방법">결측치(Missing Value) 처리 방법</h2>
<h3 id="1-결측치-제거">1. 결측치 제거</h3>
<ul>
<li>데이터 셋이 크고, 결측치가 많지 않을 때</li>
<li>특정한 행 또는 열에 결측치가 집중적으로 몰려있을 때, 해당 행 또는 열을 제거<h3 id="2-결측치-대체-replace-missing-values-오퍼레이터">2. 결측치 대체 (Replace Missing Values 오퍼레이터)</h3>
</li>
<li>결측치가 다양한 행 또는 열에 흩어져 있어, 제거 시 데이터 셋이 너무
작아질 때</li>
<li>데이터 셋 규모가 작아서 최대한 데이터를 보존해야 할 때</li>
<li>최소값, 최댓값, 평균, 0, 사용자 지정값 등으로 대체 가능</li>
</ul>
<h3 id="언제-어떤-방식의-결측치-처리가-좋을까">언제 어떤 방식의 결측치 처리가 좋을까</h3>
<blockquote>
<p>데이터 셋 크기가 500개이고, attribute7에 260개의 결측치가
집중되어 있을 때
-&gt; attribute7을 제거하는 것이 좋음</p>
</blockquote>
<blockquote>
<p>데이터 셋 크기가 500개이고, 20개의 attributes에 각 10개씩
의 결측치가 있을 때
-&gt; 수치형일 경우 평균, 명목형일 경우 최빈값 등으로 대체 가능</p>
</blockquote>
<blockquote>
<p>종속변수에 결측치가 있을 때
-&gt; 종속변수에 결측치가 있는 데이터들을 제거하는 것이 좋음 </p>
</blockquote>
<h2 id="속성데이터-타입-변경">속성(데이터 타입) 변경</h2>
<p>Raw data(원시데이타)에 특정 알고리즘을 적용하기 위해 데이터 type
변환이 필요한 경우가 있음. (예) 회귀분석</p>
<h3 id="명목형을-수치형으로-one-hot-encoding">명목형을 수치형으로 (One-Hot Encoding)</h3>
<p>회귀분석 등 명목형 변수 처리 못하는 머신러닝 기법 위해 더미변수
형태로 변환
ex. 회귀분석, 군집분석 시 필요</p>
<h3 id="수치형에서-이진형으로numerical-to-binominal">수치형에서 이진형으로(numerical to binominal)</h3>
<p>기본은 true이고, flase로 처리될 구간의 min값/max값 지정 가능. 연관성
분석 또는 회귀의 문제를 분류의 문제로 변환하고자 할 때 등 사용
ex. 연관성 분석 시 필요</p>
<h2 id="정규화normalizing-data">정규화(Normalizing Data)</h2>
<p>-속성별 측정방식 또는 단위의 차이로 인해, 속성이 모형에 미치는 영향에
차이가 생길 수 있음. (단위 효과, effect of unit)
ex. 연령, 연봉, 자녀 수</p>
<ul>
<li>단위 효과의 제거가 필요함.</li>
<li>일부 머신러닝 모형은 RapidMiner에서 단위효과를 자동으로 고려하여 분
석을 수행하거나, 단위효과에 영향을 받지 않는 머신러닝 기법도 존재.<h3 id="rapidminer-operator">RapidMiner Operator</h3>
Parameter – Method</li>
<li>Z-transformation: 각 속성들의 평균 0, 표준편차 1이 되도록 변환</li>
<li>Range transformation: 각 속성들의 데이터 값이 Min~Max 사이가
되도록 변환</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[비지니스 인텔리전스 기초]]></title>
            <link>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EC%9D%B8%ED%85%94%EB%A6%AC%EC%A0%84%EC%8A%A4-%EA%B8%B0%EC%B4%88</link>
            <guid>https://velog.io/@hong_computer/%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EC%9D%B8%ED%85%94%EB%A6%AC%EC%A0%84%EC%8A%A4-%EA%B8%B0%EC%B4%88</guid>
            <pubDate>Wed, 01 Oct 2025 12:55:37 GMT</pubDate>
            <description><![CDATA[<h1 id="관련-기술">관련 기술</h1>
<ul>
<li>통계학(Statistics)</li>
<li>기계학습(Machine learning)</li>
<li>데이터베이스(Database)</li>
<li>데이터 웨어하우징(Data Warehousing)</li>
<li>On-line Analytical Processing(OLAP)</li>
</ul>
<h1 id="비지니스-데이터-분석-과업">비지니스 데이터 분석 과업</h1>
<p><img src="https://velog.velcdn.com/images/hong_computer/post/f802bdf1-9deb-4081-85c9-babcd1356bef/image.png" alt=""></p>
<h2 id="분류classfication">분류(Classfication)</h2>
<p>정의 : 범주화 된 데이터를 예측하는 문제
예 :  신용 양호/불량, 성적 예측</p>
<h2 id="회귀regression">회귀(Regression)</h2>
<ul>
<li>정의 : 연속형의 수치형 데이터를 예측하는 문제</li>
<li>예 :  내일의 주식 종가 예측, 혈압 예측</li>
<li>방법론 : 회귀 분석<h2 id="군집화clustering">군집화(Clustering)</h2>
</li>
<li>정의 : 데이터 속성의 유사성을 가지고 그룹핑하고 군집 간 상이성 분석<h2 id="연결-예측link-prediction">연결 예측(Link Prediction)</h2>
</li>
<li>예 : SNS 친구 추천<h2 id="차원-축소">차원 축소</h2>
</li>
<li>예 : 유사도 매칭같은 방법을 이용해 속성의 수를 줄이는 경우<h2 id="인과관계-모델링">인과관계 모델링</h2>
</li>
<li>결과에 해당하는 원인을 찾는 분석</li>
<li>예 : 주가 예측 이유<h2 id="동시출현분석">동시출현분석</h2>
</li>
<li>하나의 사건이 일어날 때 다른 사건이 일어날 확률 분석</li>
<li>장바구니 분석 등<h2 id="프로파일링">프로파일링</h2>
</li>
<li>데이터의 대표적인 특성을 기술하는 방법</li>
</ul>
<h1 id="데이터-분석-프로세스semma">데이터 분석 프로세스(SEMMA)</h1>
<ol>
<li>표본 추출(Sampling)</li>
<li>데이터 탐색(Exploration)</li>
<li>데이터 변환(Modification) 및 변수선정</li>
<li>데이터 모델링(Modeling)</li>
<li>모형 평가(Assessment)</li>
</ol>
<h2 id="표본추출">표본추출</h2>
<ul>
<li>모집단(Population)으로 부터 표본(Sample)을 반드는 과정</li>
<li>데이터 셋의 규모가 커질 수록 계산 비용 및 학습시간 증가</li>
<li>이를 줄이기 위해 샘플링 수행</li>
<li>샘플의 최소치 : Delmaster and Hancock의 연구의 따르면 최소 6 * 클래수 수 * 속성수
ex)클래스 수 2, 속성 10개일 경우 최소 120개의 샘플 데이터 필요</li>
<li><strong>통계의 Sampling이 모집단의 분포와 유사한 것을 추구하는 것과 달리, 머신러닝은 모델 수립에 최적화된 Sampling 수행 필요(분류 문제에서 불균형 데이터 셋일 경우 샘플링 주의)</strong></li>
<li>학습 데이터 : 평가데이터 비율은 7:3, 6:4 가 일반적<h3 id="모형-구축용-표본">모형 구축용 표본</h3>
<ul>
<li>학습데이터 표본<h3 id="모형-평가용-표본">모형 평가용 표본</h3>
</li>
<li>평가 데이터 표본</li>
<li>검증 데이터 표본<h3 id="불균형-데이터셋-해소-방안">불균형 데이터셋 해소 방안</h3>
</li>
</ul>
</li>
<li>데이터 모델을 구축하는데 특정 클래스 데이터가 극히 적은 경우, 이러한 데이터를 사용하여 분류 모델을 구축 시, 그 모델은 편향 적일 수있고, 극히 적은 클래스는 예측을 하지 못함
ex) 카드 사기의 데이터는 극히 적으므로, 사기 예측을 잘 못할 수 있음.
높은 빈도의 클래스는 낮은 비중으로 샘플링(Under-sampling)
낮은 빈도의 클래스는 높은 비중으로 샘플링(Over-sampling/Up-Sampling)</li>
</ul>
<h2 id="데이터-탐색">데이터 탐색</h2>
<p> 박스플롯, 히스토그램 등을 이용</p>
<h2 id="데이터-변환">데이터 변환</h2>
<p>속성별로 최댓값, 최솟값 차이가 클때(스케일링)이 예측/분류에 큰 영향을 미칠 수 있으므로 표준화(정규화)를 적용</p>
<h2 id="데이터-모델링">데이터 모델링</h2>
<p>학습용 데이터에서 유의미한 데이터 추출(Data mining)과정을 거쳐 모형을 만든다. 이후 평가 데이터를 이용함</p>
<h2 id="모형-평가">모형 평가</h2>
<h3 id="분류-정확도-평가">분류 정확도 평가</h3>
<ul>
<li>분류 결과의 정확성을 평가해 최적의 분류 모형을 선택하는 방법</li>
</ul>
<table>
<thead>
<tr>
<th>구분</th>
<th align="center">모형 예측 0</th>
<th align="center">모형 예측 1</th>
</tr>
</thead>
<tbody><tr>
<td>실제 0</td>
<td align="center">A</td>
<td align="center">B</td>
</tr>
<tr>
<td>실제 1</td>
<td align="center">C</td>
<td align="center">D</td>
</tr>
</tbody></table>
<table>
<thead>
<tr>
<th>용어</th>
<th>정의</th>
</tr>
</thead>
<tbody><tr>
<td>정분류율(Accuracy)</td>
<td>[(실제0,예측0)의빈도+(실제1.예측1)의빈도] /전체빈도=(A+D)/(A+B+C+D)</td>
</tr>
<tr>
<td>오분류율(Error Rate)</td>
<td>[(실제0,예측1)의빈도+(실제1.예측0)의빈도] /전체빈도=(B+C)/(A+B+C+D)</td>
</tr>
<tr>
<td>민감도(Sensitivity)</td>
<td>(실제1,예측1)인관찰치의빈도/실제1인관찰치의빈도=P(예측1</td>
</tr>
<tr>
<td>특이도(Specificity)</td>
<td>(실제0,예측0)인관찰치의빈도/실제0인관찰치의빈도=P(예측0</td>
</tr>
</tbody></table>
]]></description>
        </item>
        <item>
            <title><![CDATA[난 이긴다]]></title>
            <link>https://velog.io/@hong_computer/%EB%82%9C-%EC%9D%B4%EA%B8%B4%EB%8B%A4</link>
            <guid>https://velog.io/@hong_computer/%EB%82%9C-%EC%9D%B4%EA%B8%B4%EB%8B%A4</guid>
            <pubDate>Tue, 30 Sep 2025 14:17:25 GMT</pubDate>
            <description><![CDATA[<h1 id="가나다라">가나다라</h1>
<p>가나다람</p>
]]></description>
        </item>
    </channel>
</rss>