hong_computer.log

AWS 데이터베이스

Fri, 13 Mar 2026 08:59:02 GMT

NoSQL 데이터베이스

정통적 데이터베이스

RDBMS활용
SQL언어 활용
데이터 모델링 중요
조인, 총계처리 등 복잡한 계산 처러ㅣ
수평, 수직적 확장

NoSQL 데이터베이스

관계형 X, 분산처리
몽고DB, 다이나모DB 등 ....
쿼리문 지원 X(혹은 제한된 쿼리문)

Amazon DynamoDB

여러 AZ에 거쳐 복제 될 수 있음
NoSQL데이터베이스
거대한 워크로드, 분산된 데이터베이스
빠르고 성능에 일관성이 있음
이럴땐 다이나모DB X
이미 관계형 데이터메이스 모델링이 되어있는 경우
조인 혹은 복잡한 트랜젝션 사용시
I/O가 낮은 경우 그냥 S3쓰자

Amazon RDS

RDS란?

예시
- Amazon Aurora
- MySQL
- PostgreSQL
- MariaDB
- Oracle
빅데이터를 위한거 아님

ACID

Atomicity
Consistency
Isolation
Durability

아마존 저장소(S3, EBS, EFS)

Wed, 25 Feb 2026 12:54:27 GMT

S3

가장 큰 AWS요소 중 하나
무한 확장 저장소
많은 웹 사이트 들이 S3를 백본으로 사용 중
사용 예시
- 백업, 저장소
- 재난 복구
- 아카이브
- 하이브리드 클라우드 저장소
- 어플리케이션 호스팅
- 미디어 호스팅
- 데이터 레이크, 빅데이터 분석
- 정적 웹사이트

S3 - Buckets

버킷이라 불리는 곳에 객체들을 저장한다
모든 지역, 계정을 통틀어 유일한 이름을 가져야한다
리전 레벌에 따라 정의 된다
글로벌 서비스로 보이나 리전에 따라 생성된다

S3 - Objects

객체들은 키를 가진다
키는 전체 경로를 말함
- s3://my-bucket/my_file.txt
- s3://my-bucket/my_folder1/another_folder/my_file.txt
디렉토리 개념 X
객체 값은 내용을 말함
- 한 객체 최대 크기 5TB
- 5GB 넘는 파일은 multi-part upload를 이용해야 한다.
메타데이터, 태크들을 가진다.

S3 - Security

User-Based
- IAM Policies: 어떤 API호출은 특정 유저의 IAM에 따라 허용 여부 판별
Resource-Based
- Bucket Policies: 버킷의 전체 규칙 정의, 여러 계정이 한 버킷 사용 가능
- S3 - Versioning
파일들을 버전으로 관리 가능
버킷 레벨에서 사용
사용 예시
- 의도치 않은 파일 삭제로 부터 보호
- 이전 버전으로 쉽게 롤백 가능

S3 - Replication (CRR & SRR)

원천과 목표지 둘다 Versioning되어야한다!
다른 계정의 버킷 사용 가능
적합한 IAM권한을 주어야한다.
복제한 이후로 새로 생성되는 객체에 한다 복사된다.
이미 존재하는 객체들은 S3 Batch Replication 사용하자
연쇄X
- 버킷2가 버킷1을 복제하고, 버킷3이 버킷 2를 복제하였다면
- 버킷 1에 생성된 객체는 버킷3에 생성되지 않음

S3 여러 저장소 클래스들

Amazon S3 Standard - General Purpose
Amazon S3 Standard-Infrequent Access (IA)
Amazon S3 One Zone-Infrequent Access
Amazon S3 Glacier Instant Retrieval
Amazon S3 Glacier Flexible Retrieval
Amazon S3 Glacier Deep Archive
Amazon S3 Intelligent Tiering 수동 혹은 Life cycle 설정에 따라 이동 가능

EBS

인스턴스가 켜져있는 동안 사용할 수 있는 네트워크 드라이브
종료된 후에도 데이터는 유지된다
한번에 한개의 인스턴스에만 연결 가능
하나의 AZ에 국한되어 있음
EBS Elastic Voltumes
변경을 위해 인스턴스를 뺼 필요가 없음
볼륨 사이즈 증가
- 감소시킬 순 없다
볼륨 타입 변환
- Gp2 -> Gp3
성능 변경 가능
EFS - Elastic File System
여러 EC2에 사용 할 수있는 NFS(network file system)
여러 AZ에 사용 될 수 있음
높은 가용성, 하지만 비쌈
EBS vs EFS
EBS
- 하나의 인스턴스에만 사용가능
- 하나의 AZ에 국한
여러 AZ로 EBS를 이동 시키는 법
- 스냅샷 이용

EFS
- 여러 인스턴스에 마운팅 가능
- EBS보다 비쌈

Data Engineering Fundamentals 데이터 엔지니어링 기초 지식

Fri, 20 Feb 2026 11:15:25 GMT

데이터 유형

정형
비정형
반정형

정형데이터

정의: 스키마 혹은 일정한 형태로 정의 되어있음. 일반적으로 관계형 데이터 베이스
특징
- 쉽게 퀴리
- 행열 형태로 정제
ex
- 데이터베이스 테이블
- 열이있는 CSV
- 엑셀 스프레드시트

비정형데이터

정의: 일정한 구조 혹은 스키마가 없는 데이터
특징:
- 쉽게 쿼리하지 못함(사전 준비를 거쳐야한다)
- 다양한 형식으로 존재
예시:
- 일정한 형식이 없는 텍스트데이터
- 비디오, 오디오 파일
- 이미지
- 이메일, 문서

반정형 데이터

정의: 일정한 형태로 정제 되어있지 않지만 테그 등 일정한 계층 구조를 가지고 있는 데이터
특징
- 테그 혹은 특징이 구분되어있음
예시
- XML, JSON 파일
- 이메일 헤더
- 로그파일

빅데이터 3요소

Volume
Velocity
Variety

데이터웨어하우스 VS 데이터 레이크

데이터웨어하우스

정의 : 정형데이터로 정제된 데이터 분석을 위한 중앙화된 저장소
특징:
- 여러 쿼리와 분석을 위함
- 데이터는 정제, 변환, 적제되어야함(ETL)
- 일반적으로 스타스키마, 스노우플레이크 스키마 사용
- 읽기가 많은 작업을 위해 최적화됨
예시:
- 아마존 레드쉬프트
- 구글 빅쿼리
- 애져 SQL 데이터웨어 하우스

데이터레이크

정의: 여러형태의 방대한 양의 로우데이터 저장소
특징
- 사전 정의된 스키마 없이 많은양의 로우데이터 저장 가능
- 사전 준비 필요X
- 배치, 실시간 처리 가능
- 데이터 변환, 탐색을 위해 쿼리 가능
예시
- 아마존 S3
- 애져 데이터 레이크 스토리지
- 하둡 분산 파일 시스템

레이크 웨어하우스 비교

스키마
- 데이터 웨어 하우스: Schema-on-write(쓰기전 사전 정의된 스키마)
  - Extract - TransForm -Load(ETL)
- 데이터 레이크: Schema-on-read(읽을 떄 스키마 정의됨)
  - Extract- Load- Transform(ELT)
데이터 형식
- 데이터 웨어하우스: 주로 정형데이터
- 데이터 레이크: 비정형, 정형 데이터 모두
속도
- 데이터 웨어하우스: 사전 스키마 떄문에 느림
- 데이터 레이크: 스키마 준비 없이 바로 로우 데이터 적재 덕분에 빠름
비용
- 데이터 웨어하우스: 복잡한 쿼리를 위해 최적화 되어 비쌈
- 데이터 레이크: 저장엔 저렴하나 데이터양이 증가함에 따라 비싸짐

웨어하우스 레이크 선택

데이터 웨어하우스 사용
- 빠르고 복잡한 쿼리문을 사용해야하고, 정형데이터를 가지고 있을떄
- 여러 데이터 원천으로 부터 데이터 통합이 팔요할떄
- 비지니스 분석을 위할떄
데이터 레이크 사용
- 여러 형태의 데이터를 가지고 있을떄
- 많은 양의 데이터와 싸게 하기 위해
- 미래 어떻게 데이터를 사용하기 모르기에 일단 저장하기 위함
- 머신러닝, 데이터 탐색, 어려운 분석을 위함
조직은 두가지 모두 사용한다. 로데이터는 레이크에 저장, 분석을 할떄 변환해 웨어하우스에 저장

데이터 레이크 하우스

정의: 위 두가지 형태가 합쳐저 높은 성능, 안전성, 많은 데이터 저장, 비용효율성을 가짐
특징
- 비정형, 정형 모두 데이터 처리
- Schema on write, shema on read 모두 허용
- 고급 분석과 머신러닝 작업을 위한 성능을 가짐
- 클라우드의 맨 위, 분선처리 환경 위에 있음
- 빅데이터에 ACID를 적용함
예시
- AWS LAKE Formation
- Delta Lake
- Databricks Lakehouse Platform
- Azure Synapse Analytics

데이터 매쉬 Data Mesh

조직, 거버넌스 관점에서 발생
각기 팀이 도메인에 해당하는 데이터를 가짐
조직 전체의 유즈케이스를 가져다줌
도메인 중심의 데이터 관리
전체적인 기준만 가지고 각기 팀이 해당하는 데이터 보유

ETL Pipelines

Extract, Transform, Load
다른 원천에서 데이터웨어하우스에 데이터를 옮기는 것

Extract

원천 시스템에서 로우 데이터를 가져오는거 데이터베이스, crm, 파일, api를 통해 가져옴
데이터 무결성 중요
배치처리, 혹은 실시간처리

Transform

데이터웨어하우스 적재를 위해 일정한 형태로 변환
아래 작업과 연관
- 데이터 클랜징(중복제거, 에러 수정)
- Data enrichment(다른 원천으로부터 데이터 추가)
- 형태 변환(날짜 변환, 문자열 조작)
- 총계처리
- 인코딩 디코딩
- 결측값 처리

Load 적재

변환된 데이터를 데이터웨어하우스 혹은 다른 데이터 저장소에 적재

ETL Pipeline 관리

신뢰할 수 있게 자동화 되어야함
AWS Glue
Orchestration services
- EventBridge
- Amazon Managed Workflows for apache Airflow(MWAA)
- AWS step functions
- Lambda
- Glue Workflows
  데이터 원천 Data soruces
JDBC
ODBC
Raw logs
API
Streams

BI 기말 최종 정리

Mon, 08 Dec 2025 16:02:53 GMT

텍스트 마이닝(9주차)

텍스트로부터 숨어있는 지식들을 발굴해 내는 기술 *비정형 데이터로부터 정형데이터를 만들어 유의미하게 이용

전체적 프로세스

웹크롤링(데이터 수집): 웹사이트, 이메일 등 비구조적 원시데이터 텍스트 전처리(데이터 전처리): 구조적 유형으로 변환 토픽 분석(데이터 분석): 군집화, 분류 등의 모든 설명적, 예측적 기법을 사용

텍스트 전처리

토큰화: 뛰어쓰기 단위로 잘라냄 정규화: 모두 소문자로 변환 불용어 제거: "a", "the", "!"등 특별한 의미가 없는 단어 제거(불용어 사전을 이용함)

문서화 / Term Document Matrix

문서(문장)을 텍스트 전처리 과정을 통해 매트릭스 형태로 나타낸다

문장 유사도 계산

코사인 유사도를 이용한다. $$\cos(q, d) = \frac{d \cdot q}{| d | \cdot | q |}$$

ex) Document 1: dark blue jeans blue denim fabric Document 2: skinny jeans in bright blue Query: dark jeans

	dark	blue	jeans	denim	fabric	skinny	in	bright	$\| \cdot \|$(크기)
$d_1$	1	1	1	1	1	0	0	0	$\sqrt{5}$
$d_2$	0	1	1	0	0	1	1	1	$\sqrt{5}$
$q$	1	0	1	0	0	0	0	0	$\sqrt{2}$

문장 유사도 계산 결과

$$\cos(\mathbf{q}, \mathbf{d}_1) = \frac{1 + 1}{\sqrt{2}\sqrt{5}} = 0.632$$

$$\cos(\mathbf{q}, \mathbf{d}_2) = \frac{1}{\sqrt{2}\sqrt{5}} = 0.316$$

TF IDF

특정 단어가 문서에서 얼마나 중요한지 계산할 때 사용

TF

TF: term frequency, 특정 단어가 특정 문서에서 사용된 횟수 (비율)

IDF

DF: document frequency, 특정 단어가 사용된 문서의 수 일반적으로 많은 문서에서 동시 출현하는 빈도가 높을수록 중요도가 떨어지기에 역수값을 취한 IDF를 사용한다.

TF-IDF

흔하지 않은 단어인데 특정 텍스트에서 자주 사용될수록 큰 값을 가짐 $$w_{i,j} = tf_{i,j} \times \log \left( \frac{N}{df_i} \right)$$

계산 예

S.No.	Sentences
1.	inflation increased unemployment
2.	company increased sales
3.	fear increased pulse

TF

Words	inflation increased unemployment	company increased sales	fear increased pulse
inflation	1/3	0/3	0/3
company	0/3	1/3	0/3
increased	1/3	1/3	1/3
sales	0/3	1/3	0/3
fear	0/3	0/3	1/3
pulse	0/3	0/3	1/3
unemployment	1/3	0/3	0/3

IDF

Words	Inverse Document Frequency (IDF)
inflation	$\log(3/1) = 0.477$
company	$\log(3/1) = 0.477$
increased	$\log(3/3) = 0$
sales	$\log(3/1) = 0.477$
fear	$\log(3/1) = 0.477$
pulse	$\log(3/1) = 0.477$
unemployment	$\log(3/1) = 0.477$
#### TF-IDF
	inflation
:---	:---:
inflation increased unemployment	$1/3 \times 0.477$
company increased sales	$0/3 \times 0.477$
fear increased pulse	$0/3 \times 0.477$

TF-IDF, BOW 장단점

장점: 비교적 단순하며, 문서의 특징을 효울적으로 포착 단점: 단어의 순서를 고려하지 않기 떄문에 문맥적인 의미가 무시됨. 희소 행렬 발생

해소 방안

최근 사용되는 Bert, GPT등의 딥러닝 계열 텍스트 마이닝은 워드 임베딩 기반의 구조화된 기법을 사용. 이는 각 단어들을 벡터로 표현한 후, 순서대로 입력값으로 사용함

텍스트 마이닝 실습

개요

영화 리뷰의 감성 분석

데이터: 영화 리뷰데이터로 긍정/부정 극성을 포함 목적: 상품평을 TF-IDF의 구조호된 형태로 변환 TF-IDF를 활용하여 의사결정나무로 긍정/부정을 분류하는 감성 분석

프로세스 화면

프로세스 도큐먼트 서브 프로세스

토픽 모델링(10주차)

개념

텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법
개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함 ex) 문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3) 문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)
토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임
LDA(잠재디리클레할당)모델
디리클레(Dirichlet): 확률분포의 명칭
전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악
토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함

토픽 모델링의 활용

대량의 문서들을 직접 읽어보지 않고도 주제를 파악
문서들을 주제별로 분류할 수 있음
토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함
그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.

토픽모델링 실습

개요

워드클라우드&토픽모델링 실습

데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건 데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]

토픽모델링(LDA) 프로세스

워드클라우드 프로세스

데이터시각화1 (11주차)

개요

같은 데이터셋(평균, 분산, 상관계수, 회귀식이 동일)을 이용해 그래프를 그려도 차이가 발생할 수 있음. 즉 데이터를 분석 전에 그래프로 확인해 볼 필요가 있음

시각화의 기능

효과적으로 데이터를 보여주기
공유와 설득을 용이하게
데이터에서 가장 중요한 부분을 강조하여
시각화를 활용한 분석 -> 데이터의 패턴 파악에 효과적

좋은 디자인에 대한 고민: 단순화

단순한 색상 구성
주요 트랜드에 집중
일관된 스타일과 형태
텍스트 단순화

좋은 디자인에 대한 고민: 선택적 레이블링

좋은 디자인에 대한 고민: Multiples

태블루 사용법

A. 왼쪽 패널 - 연결된 데이터 원본과 데이터에 대한 기타 세부 정보 표시 B. 캔버스 - 데이터 원본 설정 방법과 데이터 결합 옵션에 대한 정보를 표시 C. 데이터 그리드 - Tableau 데이터 원본에 포함된 데이터의 첫 1,000개 행을 표시 D. 메타데이터 그리드 - 데이터 원본의 필드 정보 표시(변수 타입 변경 까지)

병합(Join)

inner(내부조인)

두 테이블 모두에 일치 항목이 있는 값으로 구성된 테이블

Left(왼쪽 조인)

왼쪽 테이블의 모든 값과 오른쪽 텡블에서 해당하는 일치 항목으로 구성

Right(오른쪽 조인)

상동

Full outer join(완전외부)

두 테이블의 모든 값 포함

조인 예시

테이블1

ID	이름	성	출판사 유형
20034	Adam	Davis	Independent
20165	Ashley	Garcia	Big
20233	Susan	Nguyen	Small/medium

테이블 2

제목	가격	로열티	ID
Weather in the Alps	19.99	5,000	20165
My Physics	8.99	3,500	20800
The Magic Shoe Lace	15.99	7,000	20034

이너조인

ID	이름	성	출판사 유형	제목	가격	로열티	ID
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
#### 아우터조인
ID	이름	성	출판사 유형	제목	가격	로열티	ID
:---	:---	:---	:---	:---	:---	:---	:---
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20233	Susan	Nguyen	Small/medium
20800				My Physics	8.99	3,500
#### left조인
ID	이름	성	출판사 유형	제목	가격	로열티	ID
:---	:---	:---	:---	:---	:---	:---	:---
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20233	Susan	Nguyen	Small/medium
#### right 조인
ID	이름	성	출판사 유형	제목	가격	로열티	ID
:---	:---	:---	:---	:---	:---	:---	:---
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20800				My Physics	8.99	3,500

화면 소개

열 및 행 선반
- 행 또는 열 선반에 차원을 배치하면 해당 차원 멤버의 머리글이 만들어짐. 복수 개 가능
마크 카드
- 마크 카드는 Tableau의 시각적 분석을 위한 핵심 요소로, 마크유형, 색상, 크기, 모양, 텍스트 및 세부정보등을 설정. 마크 카드의 여러 속성에 필드를 끌어 놓으면 뷰의 마크에 컨텍스트 및 세부 정보가 추가됨.
필터 선반
- 포함하거나 제외할 데이터를 지정
페이지 선반
- 특정 필드가 뷰의 나머지 데이터에 미치는 영향을 쉽게 분석할 수 있도록 분석. 우측에 페이지 컨트롤이 추가되며, 이를 활용하여 페이지 탐색

데이터 계층

주소, 제품 등 많은경우, 데이터가상하위로구성됨 • Ex. 국가-시도-군구 /제품군-하위범주-제품명 계층구성후일괄관리가능

실습

실습1

연도별 총 매출액을 분석하시오

실습2

아시아 태평양 시장에서 반품 정보만 확인하고자할 떄

"시장"을 드래그하여 필터에 위치 - 아시아 태평양 선택
실습3
전세계“지역”별로어떤“범주”의어떤“하위범주”(segment)제품들이몇개(quantity)팔렸는지그래프로작성하시오.
“시장” 별로색상을다르게표시하시오. •행: Category(범주), Segment(하위범주) /열: Market(지역), 합계(수량)설정 •지역을Color로드래그
2022년자료만표시하시오

시각화2 (12주차)

워드클라우드

특정 차원(dimension)필드를 지정된 측장값(measure) 기준에 따른 크기로 나타내기

워드클라우드로나타내고자하는차원(dimension)을 마크카드의텍스트에드래그해서위치
크기로설정하고자하는필드를마크카드의크기에드래그해서위치
크기에있는필드는측정값(measure)이어야동작함
마크타입을채워진맵, 버블, 텍스트등으로선택가능
워드클라으두의마크카드의색상을설정

워드클라우드 실습

동영상 보고 추가할것(미완!!!!!!!!!!!!!!!!!!!!!!)

맵기능

개요

Tableau의 맵기능은 내부 보유DB로 국가, 주/시/도, 도시 등을 자동으로 인식할 수있음.
DB에 등록되어있지않은지명은자동인식이안되며, 이경우, 약자, 스펠링오류, 동일한지명 등의문제로인식이안되는것일수있음.
그외, 회사의지점등, 세부 지역은DB에없기때문에, 위경도를넣어 주어야표기됨. – (ex. 서울과학기술대학교) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
위치는기본적으로마크(Mark)로 표시됨.
그러나, 국가(Country), 시/도(State), 우편코드등은 채워진 맵으로 표시가 가능함. 단, 도시 또는 군/구(City) level에서는 채워진 맵 사용 안됨.
Mapbox통합: 위도를 추가한 후, 추가한 위도의 우측에서 이중축으로 설정하면 두개의 서로다른맵을합칠수도있음

실습

실습1

■실습) Bank of China의 글로벌지사를 보려면? (위경도 정보를 활용) • 파일: Bank of China branches.csv (텍스트로 열기) • 위도: latitude, 경도: longtitude, 레이블: Branch

실습2

각구의응급실분포현황을지도로분석하시오.

시각화3 (13주차)

데이터 분석

추세선

뷰에 추세선 추가

분석 패널에서 추세선을 뷰로 끌어온 다음 선형, 로그, 지수, 다항식 또는 거든제곱 모델 유형 선택

추세선 또는 추세선 모델의 설명 보기

추세선을 추가한 후, 마우스 오버하여 R제곱 및 p 값을 표시
또는 뷰에서 추세선을 마우스 오른쪽 단추로 클릭한 다음 추세선 설명을 선택
추시선 시각화 실습
열: 주문날짜 행: 매출 또는 수익 좌측 패널의 분석 - 추세선을 드래그하여 뷰에 놓고 원하는 추세선을 선택 추세선 우클릭 - 추세선 설명 확인
주의 다중 회귀 분석 불가
참조선 추가
참조선, 구간, 분포 또는 박스 플롯을 추가하여 Tablue뷰의 연속 축에서 특정 값, 영역 또는 범위를 식별
여러 하위 범주의 매출을 분석하는 경우, 평균 매출 마크에 참조선 표시
좌측패널 - 분석- 참조선을 끌어서 뷰에 놓고 원하는 참조선 형태를 선택

시계열 자료의 예측

지수 평활법을 활용해 시계열 자료를 예측
구델 브라운이 송급망 수요를 예측을 위해 제안
미래의 매출액 등을 예측하기 위해 쓰이는 정량적 예측 방법 중 하나
가까운 과거의 종속변수 값을 예측에 더 많이 반영하고, 먼 과거일 수록 더 저게 반영함
가중치: $$D = \alpha(1 - \alpha)^{\text{과거시점}}$$
실습
날짜와 측정값만 있으면 가능
예측 옵션 적용
기본값은 자동이나 naive forecasting되면 가장 최근 값으로 예측이 끝날 수있음
추세: 시간의 흐름에 따른 수준(관측값의 크기)의 변화
계절: 단위 시각내에서 순환 주기의 영향

대쉬보드

작업한 여러 뷰를 종합적으로 관리하며 분석하고자 할 떄 사용

데이터분석의 함정(마지막주)

Gerber의 체리피킹

소아과 의사중 5명중 4명은 Gerber를 추천했어요!

불공정 여부 조사
562명을 조사. 이중 408명이 이유식을 먹을 것을 추천
408명 중 332명이 어떤 특정 브랜드를 명시해 추천하지 않았음
76명중 67명이 Gerber를 추천함

결국 562명 중 Gerver를 추천한 사람은 67명

허위 상관관계(Spurious Relationship)

둘 이상의 변수가 통계적으로 상관되어 있지만 인솨관계가 없는 관계

역 인과관계

원인과 결과가 뒤바뀌어, 실제로는 결과가 원인의 원인이 되는 현상

Simson’s Paradox

여러 개의 그룹을 합쳐놓았을 때 각 그룹의 우열관계가 뒤바뀌는 현상

시각화의 함정

시사점

시각화수행시간단하고정확하게데이터에대한진실을전달
타인의그래프를읽을때에는왜곡이있는지살펴보고데이터와비교를통한검토

BI 13주차(시각화 분석, 시각화 대쉬보드)

Sun, 07 Dec 2025 11:51:59 GMT

BI 12주차 태블루(워드 클라우드, 맵기능)

Sat, 06 Dec 2025 14:19:40 GMT

BI 11주차 데이터 시각화(태블루)

Sat, 06 Dec 2025 14:15:52 GMT

시각화 개념

시각화의 기능

효과적으로 데이터 보여주기
공유와 설득을 용이하게
데이터에서 가장 중요한 부분을 강조하여
시각화를 활용한 분석 -> 데이터의 패턴 파악에 효과적

좋은 디자인에 대한 고민: 단순화

단순한 색성 구성
주요 트렌드에 집중
일관된 스타일과 형태
텍스트 단순화
태블루 소개 및 설치

태블루란?
Tableau 는 데이터 시각화 솔루션으로 가장 주목받고 있는 시각화 SW중 하나임
Tableau의 기업 모토: "데이터를 보고, 이해하게 하다"
2003년 Standford 출신의 컴퓨터과학자 3인이 연구과정을 통해서 설립
Gartner그룹에서 선정한 Business Intelligence Analytics Platform분야에서 4년 연속 Leader로 선정됨
2019년 Sales force에 인수됨

태블루 활용

병합(JOIN)활용

기본기능

BI 10장 토픽모델링

Sat, 06 Dec 2025 14:06:26 GMT

토픽모델링

텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법
개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함 ex) 문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3) 문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)
토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임
LDA(잠재디리클레할당)모델
디리클레(Dirichlet): 확률분포의 명칭
전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악
토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함

토픽모델링의 활용

대량의 문서들을 직접 읽어보지 않고도 주제를 파악
문서들을 주제별로 분류할 수 있음
토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함
그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.

실습

워드클라우드&토픽모델링 실습

데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건 데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]

BI 9장 텍스트 마이닝

Sat, 06 Dec 2025 13:38:18 GMT

텍스트 마이닝

텍스트로 부터 숨어있는 지식들을 발굴해 내는 기술 ex) SNS글로 부터 트렌드 분석, 문서내 주요 키워드 인식, 연관어 분석

정형 데이터: 엑셀같은 비정형 데이터: 영상, 이미지, 텍스트 데이터

웹크롤링(데이터 수집): 웹사이트, 이메일, 트위터 등 비구조적 유형의 원시데이터 텍스트 전처리(데이터 전처리): 구조적 유형으로 변환 토픽 분석(데이터 분석): 군집화, 분류 등의 모든 설명적, 예측적 기법들을 사용

텍스트 전처리

토큰화: 뛰어쓰기 단위로 단어들을 잘라냄 정규화: 표준화를 시킴. 여기서는 캐피탈라이즈시킴 불용어 제거: 느낌표 마침표 제거 불용어 사전이 정의되어있음 거기 정의된것들은 제거 시킴 Stemming: 어근 찾기, fahionable -> fashion

과정

말뭉치: 컴퓨터가 이해할수 있는 구조

문장 유사도 계산

두 문장이 같은지 비교할 떄는 코사인 유사도를 많이 이용함 코사인 유사도: 벡터의 크기와 상관없이 사용가능 두번쨰는 Tdm형태로 카운팅한 예임

TF IDF

"A팀이 B팀을 이기다", "B팀이 A팀을 이기다"는 TDM관점에선 유사도가 같음

DF:가 높으면 모든 문서에 있으면 높으므로 의미가 없는 경우가 있음 그래고 iDF(역수값)을 사용함

BOW의 정단점

장점: 비교적 단순하며, 문서의 특징을 효율적으로 포착함 단점: 단어의 순서를 고려하지 않기 떄문에 문맥적인 의미가 무시됨. 희소행렬 발생 ex)"A팀이 B팀을 이기다", "B팀이 A팀을 이기다"는 BOW관점에선 유사도가 같음 , "누구도 그를 훌륭하지 않다고 할 수 없었다" 는 이해 불가능

실습

영화 리뷰의 감성 분석

프로세스 화면

Nominal to Text

데이터를 가저온 후 text 형태로 수정 감성 분석 수행을 위해 긍정/부정을 종속변수 레이블로 설정

Process Documents From Data

서브 프로세스

비지니스 인텔리전스 중간총정리

Sun, 12 Oct 2025 14:19:44 GMT

서론

4차 산업 혁명의 기반 구성요소 : AI + 빅데이터

머신러닝에는 여러 가지 데이터 분석기술이 포함되는데 특시, 데이터를 분석하는데 특화된 분석 기법과 방법론을 총칭해'데이터 애널리틱스(Data Analytics)'라고 한다.

데이터 애널리틱스 기법의 종류와 절차

감독학습 기법 : 분석 대상 데이터에 분석을 감독할 요소가 있는것으로 일반적으로 종속변수가 존재하는경우
무감독학습(비지도학습) : 데이터간 유사도 추적하는 경우, *감독요소(종속변수) 불필요 *

데이터 애널리틱스의 과업
분류 : 감독학습 과업, 감독의 역할을 하는 요인이 이산형 ex) 신용 상태의 정상/불량 판별
회귀 : 감독학습 과업, 감독의 역할을 하는 요인이 연속형 수치값 회귀를 통해 만들어진 모형을 회귀모형이라 함 ex) 내년도 전기 수요양 예측
군집화 : 무감독학습 ex) 마케팅에서 유사한 고객을 그룹으로 분리해, 그룹 특성의 따른 차별화된 마케팅 전략 사용
차원축소 : 데이터의 특성을 단순화하기위해 주성분 분석 정보의 유실은 최소화 하면서도 정대적인 양이나 차원을 축소하는 것을 목표로 한다.
동시출현분석 : 동시에 발생할 가능성이 높은 이벤트를 찾는 과업 ex) 장바구니 분석
프로파일링 : 현상에 대한 기술 또는 설명을 위해 데이터의 공통된 속성 값을 도출하는 과정

데이터 전처리

데이터 분석 시

표본추출->데이터 탐색-> 데이터 변환->데이터 모델링->모형 평가 과정

을 거침

표본추출

모집단(Population)으로 부터 표본(Sample)을 반드는 과정
샘플의 최소치 : Delmaster and Hancock의 연구의 따르면 최소 6 x 클래수 수 x 속성수 ex)클래스 수 2, 속성 10개일 경우 최소 120개의 샘플 데이터 필요
통계의 Sampling이 모집단의 분포와 유사한 것을 추구하는 것과 달리, 머신러닝은 모델 수립에 최적화된 Sampling 수행 필요(분류 문제에서 불균형 데이터 셋일 경우 샘플링 주의) ex) 높은 빈도의 클래스는 낮은 비중으로 샘플링(Under-sampling) 낮은 빈도의 클래스는 높은 비중으로 샘플링(Over-sampling/Up-Sampling)

AI studio에서 표본 추출

Sample오퍼레이터 사용 size 만큼 샘플을 뽑고, 동일한 결과를 얻고 싶으면 seed 설정
Balanced data
Stratified
SMOTE (over-samping) 등 여러 옵션 사용 가능
데이터 탐색
ExampleSet에서 Visualizations 에서 시각화 선택 할 수 있음 너무 많은 변수는 시각화 의미가 없을 수 있음.

데이터 전처리

종속변수, 독립변수의 NULL 이있으면 Filter Examples 오퍼레이터를 사용해 NULL이 포함된 튜플을 없애거나 평균값으로 대체 할 수있음.

명목형 데이터의 수치형으로 변경

One-Hot Encoding Operator, Numerical to Binomial 오퍼레이터 사용.

회귀분석

감독학습, 연속형데이터의 종속 변수를 예측 하는 기법 잔차 제곱의 합이 최소인 추세선을 회귀선을 선택한다. y = a + bx y는 종속변수의 예측 값, a는 절편, b는 회귀계수, x는 설명요인

회귀변수의 성능 평가는 R^2값 이용(1에 가까울 수록 성능 굿)

회귀분석 실습

오퍼레이터, 어떻게 연락되는지 숙지할 것

Split Data -> 학습, 평가용 데이터 분할
Linear Regression -> 회귀모형 만들기
Apply Model -> R^2값 알아내기(모델 성능)

의사결정나무

분류분석 기법, 동질적인 개체를 찾아가는 것을 목표로 함

정보이득을 크게하는 분류 기준 택하기!

분류 기준을 너무 많이 만들어 매우 작은 집단이 만ㄴ들어지는 "과적합"하면 안댐!

의사결정나무 실습

오퍼레이터, 어떻게 연결되는지 숙지 할 것!

장바구니 분석

연관규칙분석 연관성 판단기준 : 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

지지도 : 전체 확률 중 두 사건이 동시에 일어날 확률
신뢰도 : 사건1이 있어났을때 사건2가 일어날 확률
향상도 : 그냥 사건2가 일어났을때 보다 사건 1이 일어났을떄 사건2가 일어날 증가분

장바구니 분석 실습

시장세분화분석

군집분석, K평균군집분석알고리즘을 이용

실습

Normalize : 속성의 단위는 다양하기에 정규화 수행
Clustering : 군집화하는 거임
ClusterModelVisualizerOObject : 클러스터 결과 시각화

특정 클러스터의 결과 보기

각 클러스터의 결과값 한번에 보기

작성중........

의사결정나무

Sat, 04 Oct 2025 12:36:56 GMT

C 5.0알고리즘을이용한다. CART, CHEAD, QUEST 등 여러 알고리즘이 존재함

이진분류문제(Binary classification)을 확장해 다지분류문제(Mulyiclass classification)

사례

속성들 :

머리형태 : 사각형, 원형
몸 형태 : 직사각형, 타원형
옥 색상 : 흑색, 흰색 목표성성 : Yes, No

동질성(속성)적인 개체들만 모으는것 -> 순수하다

나무를 분류하는 속성에 따라 나무의 크기가 달라짐

엔트로피(Entropy)와 정보이득

목표속성이두개또는그이상의범주를가진경우: 1, 2 (,…m)
범주1에대한P1의확률
범주2에대한P2의확률

정보이득

IG (parent, children) = entropy(parent)−[p(c1)×entropy(c1)+p(c2)×entropy(c2) +…] 엔트로피(정보의 불순도)를 많이 낮춰야 함

정보이득 사례

공간분리

사례 : 잔디깎이 기계 가능한 동질도를 높게 할 수있도록 분리하는 것을 목표로 함

나무분리 기존

이진분류 분제 2개의 클래스 우량/불량 등
가장좋은분리기준은각각의잎(node)에하나의클래스에해당하는 데이터들이모이도록분류하도록하는것
하나의클래스-> “순수하다”
순수도(purity), 불순도(impurity)

계속 나누면 ... 가지치기(pruning) 필요 가지치기 방법 : 잎 내의 데이터 수, 가지의 깊이

이를 통래 과대적합 문제를 해결할 수 있다.

회귀 분석

Sat, 04 Oct 2025 04:16:21 GMT

단순회귀분석, 다중회귀분석을 배움

단순회귀 분석

독립변수 1개에 대해 독립 변수 1개를 예측하는 문제

최소자승법

잔차의 제곱합을 최소화하는 방법 R^2값이 1에 가까우면 설명력이 높은거임

다중회귀분석

i개의연속형변수의집합과하나의변수(y)와의관계
부분회귀계수 다른모든xi들이그대로인상태에서xi가한단위변화할때y의평균변화량
예시 혈압과나이, 몸무게, 키등

비지니스 기초 실습(SEMMA)

Fri, 03 Oct 2025 14:49:48 GMT

AI studio(구 rapid miner)를 통해 데이터 전처리 실습을 해보자

Sampling

AI studio에서 제공하는 주요 샘플링 operator

Sample, Sample(stratified), Sample(Boot_strapping)
SMOTE Upsampling

Sample : 단순임의추출

absolute : 표분 수 지정
relative : 비율지정
probability : 각 데이터 포인트(사례)별로 추출될 확률을 지정 balance data 설정 : 각 클래스별 추출 수 / 비율 설정

Sample (stratified) : 층화추출

층화추출 : 모집단을 동질적인 특성을 가진 여러 개의 '층(strata)'으로 나눈 후, 각 층에서 독립적으로 표본을 추출하는 통계학적 표본 추출 방법

Sample(Boot-strapping):복원 추출
SMOTE Upsampling
- 적은 수의 클래스만 Sample(Bootstrapping)해서 클래스 분포 를 균등하게 맞춰 줌

데이터 분할

Split Data operator 사용

partitions

몇개로 분할할지, 각 크기(0 ~ 1) 지정

Sampling type

Liner sampling: 순서대로 분할
Shuffled sampling: 임의로 섞어서 분할
- Stratified sampling: 클래스의 분포를 보고, 각 subset에 클래스가 유사한 분포로 구성되도록 분할

데이터 탐색

RapidMiner를 활용한 기술통계량

stistics

• 평균, Min(Least)/Max(Most), deviation(numeric일 때) 확인 • 각 속성(attribute)별 Missing 확인 • 속성 click시 chart 보임 • Chart 클릭 – open chart시, “Chart”로 연결됨.

Charts

다양한 Chart들로 표시 가능 (Bar chart, Pie chart, Histogram/Histogram(color), Distribution, Scatter diagram, Box plot/Box plot(color)
Histogram등 chart종류에 따라서 편집 가능 예) Histogram은 Ctrl키로 여러 attribute를 한꺼번에 그래프로 표현, bin크기 조절 등 가능
상관관계 분석을 위해서는 scatter diagram확인 예) 집값 vs 방의 개수, 집값 vs 범죄율 등
Histogram vs Histogram (color)
좀 더 깊이 있는 인사이트를 얻기 위해서는 다른 클래스들을 포 함시켜 히스토그램을 수정
Histogram(color): color – 분류의 문제일 경우 클래스명
산점도(Scatter/Scatter Multiple/Scatter Matrix chart)
데이터 포인트들을 데카르트 좌표 공간에 표시하여, 변수들 간 상관관계를 파악하는데 유용하게 사용되는 차트
일반적으로 변수들은 연속형
산점도로부터 알 수 있는 중요 정보
1. 두 변수들 사이의 상관관계 존재 여부
2. 변수 사이에 상관관계가 있다면 직선에 가깝게 모여 있게 되며, 상관 관계가 없다면 데이터 포인트들은 흩어짐
3. 주 변수를 x축에 표시, y축은 나머지 변수들끼리 공유

데이터 변환(Modification)

결측치 처리, 속성변경, 정규화

결측치(Missing Value) 처리 방법

1. 결측치 제거

데이터 셋이 크고, 결측치가 많지 않을 때
특정한 행 또는 열에 결측치가 집중적으로 몰려있을 때, 해당 행 또는 열을 제거
2. 결측치 대체 (Replace Missing Values 오퍼레이터)
결측치가 다양한 행 또는 열에 흩어져 있어, 제거 시 데이터 셋이 너무 작아질 때
데이터 셋 규모가 작아서 최대한 데이터를 보존해야 할 때
최소값, 최댓값, 평균, 0, 사용자 지정값 등으로 대체 가능

언제 어떤 방식의 결측치 처리가 좋을까

데이터 셋 크기가 500개이고, attribute7에 260개의 결측치가 집중되어 있을 때 -> attribute7을 제거하는 것이 좋음

데이터 셋 크기가 500개이고, 20개의 attributes에 각 10개씩 의 결측치가 있을 때 -> 수치형일 경우 평균, 명목형일 경우 최빈값 등으로 대체 가능

종속변수에 결측치가 있을 때 -> 종속변수에 결측치가 있는 데이터들을 제거하는 것이 좋음

속성(데이터 타입) 변경

Raw data(원시데이타)에 특정 알고리즘을 적용하기 위해 데이터 type 변환이 필요한 경우가 있음. (예) 회귀분석

명목형을 수치형으로 (One-Hot Encoding)

회귀분석 등 명목형 변수 처리 못하는 머신러닝 기법 위해 더미변수 형태로 변환 ex. 회귀분석, 군집분석 시 필요

수치형에서 이진형으로(numerical to binominal)

기본은 true이고, flase로 처리될 구간의 min값/max값 지정 가능. 연관성 분석 또는 회귀의 문제를 분류의 문제로 변환하고자 할 때 등 사용 ex. 연관성 분석 시 필요

정규화(Normalizing Data)

-속성별 측정방식 또는 단위의 차이로 인해, 속성이 모형에 미치는 영향에 차이가 생길 수 있음. (단위 효과, effect of unit) ex. 연령, 연봉, 자녀 수

단위 효과의 제거가 필요함.
일부 머신러닝 모형은 RapidMiner에서 단위효과를 자동으로 고려하여 분 석을 수행하거나, 단위효과에 영향을 받지 않는 머신러닝 기법도 존재.
RapidMiner Operator
Parameter – Method
Z-transformation: 각 속성들의 평균 0, 표준편차 1이 되도록 변환
Range transformation: 각 속성들의 데이터 값이 Min~Max 사이가 되도록 변환

비지니스 인텔리전스 기초

Wed, 01 Oct 2025 12:55:37 GMT

비지니스 데이터 분석 과업

분류(Classfication)

정의 : 범주화 된 데이터를 예측하는 문제 예 : 신용 양호/불량, 성적 예측

회귀(Regression)

정의 : 연속형의 수치형 데이터를 예측하는 문제
예 : 내일의 주식 종가 예측, 혈압 예측
방법론 : 회귀 분석
군집화(Clustering)
정의 : 데이터 속성의 유사성을 가지고 그룹핑하고 군집 간 상이성 분석
연결 예측(Link Prediction)
예 : SNS 친구 추천
차원 축소
예 : 유사도 매칭같은 방법을 이용해 속성의 수를 줄이는 경우
인과관계 모델링
결과에 해당하는 원인을 찾는 분석
예 : 주가 예측 이유
동시출현분석
하나의 사건이 일어날 때 다른 사건이 일어날 확률 분석
장바구니 분석 등
프로파일링
데이터의 대표적인 특성을 기술하는 방법

데이터 분석 프로세스(SEMMA)

표본 추출(Sampling)
데이터 탐색(Exploration)
데이터 변환(Modification) 및 변수선정
데이터 모델링(Modeling)
모형 평가(Assessment)

표본추출

모집단(Population)으로 부터 표본(Sample)을 반드는 과정
데이터 셋의 규모가 커질 수록 계산 비용 및 학습시간 증가
이를 줄이기 위해 샘플링 수행
샘플의 최소치 : Delmaster and Hancock의 연구의 따르면 최소 6 * 클래수 수 * 속성수 ex)클래스 수 2, 속성 10개일 경우 최소 120개의 샘플 데이터 필요
통계의 Sampling이 모집단의 분포와 유사한 것을 추구하는 것과 달리, 머신러닝은 모델 수립에 최적화된 Sampling 수행 필요(분류 문제에서 불균형 데이터 셋일 경우 샘플링 주의)
학습 데이터 : 평가데이터 비율은 7:3, 6:4 가 일반적
모형 구축용 표본
- 학습데이터 표본
  모형 평가용 표본
- 평가 데이터 표본
- 검증 데이터 표본
  불균형 데이터셋 해소 방안
데이터 모델을 구축하는데 특정 클래스 데이터가 극히 적은 경우, 이러한 데이터를 사용하여 분류 모델을 구축 시, 그 모델은 편향 적일 수있고, 극히 적은 클래스는 예측을 하지 못함 ex) 카드 사기의 데이터는 극히 적으므로, 사기 예측을 잘 못할 수 있음. 높은 빈도의 클래스는 낮은 비중으로 샘플링(Under-sampling) 낮은 빈도의 클래스는 높은 비중으로 샘플링(Over-sampling/Up-Sampling)

데이터 탐색

박스플롯, 히스토그램 등을 이용

데이터 변환

속성별로 최댓값, 최솟값 차이가 클때(스케일링)이 예측/분류에 큰 영향을 미칠 수 있으므로 표준화(정규화)를 적용

데이터 모델링

학습용 데이터에서 유의미한 데이터 추출(Data mining)과정을 거쳐 모형을 만든다. 이후 평가 데이터를 이용함

모형 평가

분류 정확도 평가

분류 결과의 정확성을 평가해 최적의 분류 모형을 선택하는 방법

구분	모형 예측 0	모형 예측 1
실제 0	A	B
실제 1	C	D

용어	정의
정분류율(Accuracy)	[(실제0,예측0)의빈도+(실제1.예측1)의빈도] /전체빈도=(A+D)/(A+B+C+D)
오분류율(Error Rate)	[(실제0,예측1)의빈도+(실제1.예측0)의빈도] /전체빈도=(B+C)/(A+B+C+D)
민감도(Sensitivity)	(실제1,예측1)인관찰치의빈도/실제1인관찰치의빈도=P(예측1
특이도(Specificity)	(실제0,예측0)인관찰치의빈도/실제0인관찰치의빈도=P(예측0

난 이긴다

Tue, 30 Sep 2025 14:17:25 GMT

가나다라

가나다람

hong_computer.log

AWS 데이터베이스

NoSQL 데이터베이스

정통적 데이터베이스

NoSQL 데이터베이스

Amazon DynamoDB

이럴땐 다이나모DB X

Amazon RDS

RDS란?

ACID

아마존 저장소(S3, EBS, EFS)

S3

S3 - Buckets

S3 - Objects

S3 - Security

S3 - Versioning

S3 - Replication (CRR & SRR)

S3 여러 저장소 클래스들

EBS

EBS Elastic Voltumes

EFS - Elastic File System

EBS vs EFS

Data Engineering Fundamentals 데이터 엔지니어링 기초 지식

데이터 유형

정형데이터

비정형데이터

반정형 데이터

빅데이터 3요소

데이터웨어하우스 VS 데이터 레이크

데이터웨어하우스

데이터레이크

레이크 웨어하우스 비교

웨어하우스 레이크 선택

데이터 레이크 하우스

데이터 매쉬 Data Mesh

ETL Pipelines

Extract

Transform

Load 적재

ETL Pipeline 관리

데이터 원천 Data soruces

BI 기말 최종 정리

텍스트 마이닝(9주차)

전체적 프로세스

텍스트 전처리

문서화 / Term Document Matrix

문장 유사도 계산

문장 유사도 계산 결과

TF IDF

TF

IDF

TF-IDF

계산 예

TF

IDF

TF-IDF, BOW 장단점

해소 방안

텍스트 마이닝 실습

개요

프로세스 화면

프로세스 도큐먼트 서브 프로세스

토픽 모델링(10주차)

개념

LDA(잠재디리클레할당)모델

토픽 모델링의 활용

토픽모델링 실습

개요

토픽모델링(LDA) 프로세스

워드클라우드 프로세스

데이터시각화1 (11주차)

개요

시각화의 기능

좋은 디자인에 대한 고민: 단순화

좋은 디자인에 대한 고민: 선택적 레이블링

좋은 디자인에 대한 고민: Multiples

태블루 사용법

병합(Join)

inner(내부조인)

Left(왼쪽 조인)

Right(오른쪽 조인)