j_hyun11.log

12. 사이킷런으로 구현해 보는 머신러닝

Fri, 20 May 2022 07:16:16 GMT

1. 다양한 머신러닝 알고리즘

1-1. 지도학습 (Supervised Learning)

분류(Classification) : 예측해야할 데이터가 범주형(categorical) 변수일때 분류 라고 함 회귀(Regression) : 예측해야할 데이터가 연속적인 값 일때 회귀 라고 함 예측(Forecasting) : 과거 및 현재 데이터를 기반으로 미래를 예측하는 과정

1-2. 비지도학습 (Unsupervised Learning)

클러스터링 : 특정 기준에 따라 유사한 데이터끼리 그룹화함 차원축소 : 고려해야할 변수를 줄이는 작업, 변수와 대상간 진정한 관계를 도출하기 용이

정답 유무, 데이터의 종류, 특성, 문제 정의에 따라 머신러닝 알고리즘은 굉장히 복합적으로 사용

1-3. 강화학습 (Reinforcement Learning)

학습하는 시스템을 에이전트라고 하고, 환경을 관찰해서 에이전트가 스스로 행동하게 한다. 모델은 그 결과로 특정 보상을 받아 이 보상을 최대화하도록 학습한다.

<강화학습 알고리즘의 대표적인 종류>

Monte Carlo methods
Q-Learning
Policy Gradient methods

2. 사이킷런에서 가이드하는 머신러닝 알고리즘

< 사이킷런에서 알고리즘의 Task>

Classification
Regression
Clustering
Dimensionality Reduction

<사이킷런에서 알고리즘을 나눈 기준>

데이터 수량
라벨의 유무(정답의 유무)
데이터의 종류 (수치형 데이터(quantity), 범주형 데이터(category) 등)

3. Hello Scikit-learn

train_test_split() : 훈련 데이터와 테스트 데이터를 나누는 기능을 제공하는 함수
transformer() : ETL(Extract Transform Load) 기능을 수행하는 함수
Estimator : fit()과 predcict()만을 이용해 간단하게 학습과 예측 결과를 반환

4. 사이킷런의 주요 모듈

4-1. 데이터 표현법

<특성 행렬(Feature Matrix)>

입력 데이터를 의미
특성(feature): 데이터에서 수치 값, 이산 값, 불리언 값으로 표현되는 개별 관측치를 의미. 특성 행렬에서는 열에 해당하는 값
표본(sample): 각 입력 데이터, 특성 행렬에서는 행에 해당하는 값
n_samples: 행의 개수(표본의 개수)
n_features: 열의 개수(특성의 개수)
X: 통상 특성 행렬은 변수명 X로 표기
[n_samples, n_features]은 [행, 열] 형태의 2차원 배열 구조를 사용하며 이는 NumPy의 ndarray, Pandas의 DataFrame, SciPy의 Sparse Matrix를 사용하여 나타낼 수 있다.

<타겟 벡터 (Target Vector)>

입력 데이터의 라벨(정답) 을 의미
목표(Target): 라벨, 타겟값, 목표값이라고도 부르며 특성 행렬(Feature Matrix)로부터 예측하고자 하는 것
n_samples: 벡터의 길이(라벨의 개수)
타겟 벡터에서 n_features는 없다.
y: 통상 타겟 벡터는 변수명 y로 표기
타겟 벡터는 보통 1차원 벡터로 나타내며, 이는 NumPy의 ndarray, Pandas의 Series를 사용하여 나타낼 수 있다.
(단, 타겟 벡터는 경우에 따라 1차원으로 나타내지 않을 수도 있다. 이 노드에서 사용되는 예제는 모두 1차원 벡터)

특성 행렬 X의 n_samples와 타겟 벡터 y의 n_samples는 동일해야 함

30. 컴퓨터 파워 UP

Wed, 23 Feb 2022 03:19:06 GMT

멀티태스킹

1. 동시성(Concurrency)

하나의 processor가 여러 가지 task를 동시에 수행하는 개념
다른 task를 수행할 수 있는 시간에는 task를 전환해서 효율적으로 여러 개의 task를 동시에 수행하는 것처럼 보임

2. 병렬성(Parallelism)

유사한 task를 여러 processor가 동시에 수행하는 것

동기 vs 비동기 (Synchronous vs Asynchronous)

동기 : 어떤 일이 순차적으로 실행됨, 앞 작업이 종료되기를 무조건 기다렸다가 다음 작업을 수행
비동기 : 어떤 일이 비순차적으로 실행됨, 바운드되고 있는 작업을 기다리는 동안 다른 일을 처리하는 것

I/O Bound vs CPU Bound

I/O 바운드 : 입력과 출력에서의 데이터(파일)처리에 시간이 소요될 때
CPU 바운드 : 복잡한 수식 계산이나 그래픽 작업과 같은 엄청난 계산이 필요할 때

Process(프로세스)

프로그램을 구동하여 프로그램 자체와 프로그램의 상태가 메모리상에서 실행되는 작업 단위

Thread(스레드)

어떠한 프로그램 내, 특히 프로세스 내에서 실행되는 흐름의 단위
같은 작업을 좀 더 빠르게 처리하기 위해 여러 개의 스레드를 생성하기도 함

프로파일링(Profiling)

코드에서 시스템의 어느 부분이 느린지 혹은 어디서 RAM을 많이 사용하고 있는지를 확인하고 싶을 때 사용하는 기법

Scale Up vs Scale Out

Scale-Up : 한 대의 컴퓨터의 성능을 최적화시키는 방법
Scale-Out : 여러 대의 컴퓨터를 한 대처럼 사용

29. 사이킷런을 활용한 추천 시스템 입문

Tue, 22 Feb 2022 09:20:10 GMT

코사인 유사도(Cosine Similarity)

유사도를 계산하는 방법 중 가장 잘 알려진 방법
두 벡터 간의 코사인 값을 이용해 두 벡터의 유사도를 계산

코사인 유사도 범위 : -1 ~ 1사이의 값을 가짐
코사인 유사도가 1에 가까울 수록 유사도가 높음

기타 다른 유사도 계산법

유클리드 거리
자카드 유사도
피어슨 상관계수 등

콘텐츠 기반 필터링

어떤 사람이 한 영화를 좋아했다면, 비슷한 콘텐츠의 아이템을 추천하는 방식
순수하게 콘텐츠의 내용만을 비교해서 추천하는 방식
특성(Feature)이 비슷한 콘텐츠를 고르는 요인이 됨

협업 필터링

과거의 사용자 행동 양식(User Behavior) 데이터를 기반으로 추천하는 방식

사용자 기반

유사도를 계산하는 방식
평점행렬로 변환한 후, 평점행렬의 유사도를 계산하여 추천하는 방식
"당신과 비슷한 고객들이 다음 상품을 구매했습니다."

아이템 기반

유사도를 계산하는 방식
평점행렬로 변환한 후, 평점행렬의 유사도를 계산하여 추천하는 방식
"이 상품을 선택한 다른 고객들은 다음 상품을 구매했습니다."

잠재요인

행렬 인수분해(matrix factorization)를 이용해 잠재요인을 분석
평점행렬을 분해하여 더 많은 정보들을 고려하는 방식

행렬 인수분해

SVD(Singular Vector Decomposition)

특잇값 분해 : "정보 복원"을 위해 사용됨 출처 : https://angeloyeo.github.io/2019/08/01/SVD.html
ALS(Alternating Least Squares)
NMF(Non-Negative Factorization)

실제 추천 시스템

CTR(Click Through Rate) : 클릭률
CTR은 마케팅에서도 중요한 지표로 작용
이러한 데이터들을 모아 추천을 한 뒤, 해당 아이템이 적절한 추천인지 여부를 평가

28. 정보이론 톺아보기

Fri, 18 Feb 2022 05:50:00 GMT

1. Information Content

정보이론 : 추상적인 '정보'라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야

정보를 정량적으로 표현하기 위해 필요한 세 가지 조건

일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것이나 마찬가지이다.
일어날 가능성이 낮은 사건은 정보량이 높다.
두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같다.

Goodfellow, Bengio, Courville의 책 Deep Learning

2. Entropy

특정 확률분포를 따르는 사건들의 정보량 기댓값
확률 변수가 가질 수 있는 값의 가짓수가 같을 때 사건들의 확률이 균등할수록 엔트로피 값은 증가
앞면과 뒷면의 확률이 같은 동전을 던질 때 결과를 예측하기가 더 어렵기 때문에 불확실성이 커서 엔트로피 값이 최대가 됨

For Discrete Random Variables

X가 연속적인 값을 갖는 연속 확률 변수일 때는 유한합 대신 적분의 형태로 정의
연속 확률 변수의 엔트로피를 이산 확률 변수와 구분하여 미분 엔트로피(differential entropy)라고 부르기도 함

3. Kullback Leibler Divergence

결정 모델(discriminative model) : 데이터의 실제 분포를 모델링 하지 않고 결정 경계(decision boundary)만을 학습
생성 모델(generative model) : 데이터와 모델로부터 도출할 수 있는 여러 확률 분포와 베이즈 이론을 이용해서 데이터의 실제 분포를 간접적으로 모델링
쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence) : 생성 모델을 학습시킬 때는 두 확률 분포의 차이를 나타내는 지표

4. Cross Entropy Loss

정답셋의 확률분포 P와 우리 모델의 추론 결과의 확률분포 Q 의 차이 KL divergence를 최소화하는 것
즉, 모델의 추론 결과가 정답셋과 최대한 유사하게 하는 것과 교차 엔트로피(Cross Entropy)를 최소화하는 것이 수학적으로 같다
결론: KL divergence를 최소화하는 것이 cross entropy를 최소화하는 것과 같다
cross entropy도 손실 함수의 한 종류

손실 함수(loss function)

머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함
이 차이를 최소화시키는 게 중요한 목적
모델의 확률 분포는 파라미터에 따라 달라지기 때문에 손실 함수 역시 파라미터에 의해 결정됨

25. Regularization

Fri, 11 Feb 2022 01:35:43 GMT

Normalization(정규화)

데이터의 형태를 좀 더 의미 있게, 혹은 트레이닝에 적합하게 전처리하는 과정
데이터를 z-score로 바꾸거나 minmax scaler를 사용하여 0과 1사이의 값으로 분포를 조정하는 것들이 해당
모든 피처의 범위 분포를 동일하게 하여 모델이 풀어야 하는 문제를 좀 더 간단하게 바꾸어 주는 전처리 과정

Regularization(정칙화)

오버피팅을 해결하고자 하는 방법 중에 하나
L1, L2 Regularization, Dropout, Batch normalization
모델이 train set의 정답을 맞히지 못하도록 오버피팅을 방해(train loss가 증가) 하는 역할
validation loss나 최종적인 test loss를 감소시키려는 목적

L1 Regularization

사이킷런이나 케라스, 텐서플로우 등의 패키지에서는 Lasso
X가 2차원 이상인 여러 컬럼 값이 있는 데이터일 때 실제 효과를 볼 수 있음
Linear Regression과 L1, L2 Regularization의 차이 중 하나는 alpha(α)라는 하이퍼파라미터(수식에서는 lambda(λ))가 하나 더 들어간다는 것이고, 그 값에 따라 error에 영향을 미침

L1 Regularization이라는 건 결국 L1 Loss 에 Regularization Term을 붙인 것
기존 Loss에 절댓값만큼의 어떤 족쇄(패널티)를 달아줌으로써 Cost가 더 커지게 만든 셈인데, 이를 통해 특정 Weight의 중요도가 커지는 걸 막는다는 느낌(Cost가 커지면 Weight 중요도가 줄어드니 깐)

출처 : https://velog.io/@oneofakindscene/%EC%A0%95%EA%B7%9C%ED%99%94Regularization-%EC%9A%94%EC%95%BD

L2 Regularization

L1 / L2 Regularization의 차이점

L1 Regularization은 가중치가 적은 벡터에 해당하는 계수를 0으로 보내면서 차원 축소와 비슷한 역할을 하는 것이 특징
L2 Regularization은 0이 아닌 0에 가깝게 보내지만 제곱 텀이 있기 때문에 L1 Regularization보다는 수렴 속도가 빠름

Lp norm

1. vector norm

어떤 벡터를 길이나 사이즈같은 양적인 수치로 mapping하기 위한 함수

출처 : https://hichoe95.tistory.com/58

2. matrix norm

참고 : https://ghebook.blogspot.com/2021/03/matrix-norm-and-condition-number.html

Dropout

몇 가지의 값들을 모든 뉴런에 전달하는 것이 아닌 확률적으로 버리면서 전달하는 기법
오버피팅을 막는 Regularization layer 중 하나
확률을 너무 높이면, 제대로 전달되지 않으므로 학습이 잘되지 않고, 확률을 너무 낮추는 경우는 fully connected layer와 같음

Batch Normalization

gradient vanishing, explode 문제를 해결하는 방법

24. 딥러닝 레이어의 이해(2)

Wed, 09 Feb 2022 05:33:45 GMT

분포 가설과 분산 표현

1. 희소 표현(Sparse Representation)

벡터의 특정 차원에 단어 혹은 의미를 직접 매핑하는 방식

2. 분포 가설

유사한 맥락에서 나타나는 단어는 그 의미도 비슷하다라는 가정을 함

3. 분산 표현

유사한 맥락에 나타난 단어들끼리는 두 단어 벡터 사이의 거리를 가깝게 하고, 그렇지 않은 단어들끼리는 멀어지도록 조금씩 조정한 단어 벡터
단어 간의 유사도를 계산으로 구할 수 있음

Embedding 레이어

단어의 분산 표현을 구현하기 위한 레이어 ex. 컴퓨터용 단어 사전
Embedding 레이어만을 훈련하기 위한 방법 : ELMo, Word2Vec, Glove, FastText 등
Weight는 단어의 개수, Embedding 사이즈로 정의됨
입력으로 들어온 단어를 분산 표현으로 연결해 주는 역할 -> 룩업 테이블(Lookup Table)
원-핫 인코딩을 위한 단어 사전을 구축하고 단어를 사전의 인덱스로 변환만 해주면 Embedding 레이어를 완벽하게 사용할 수 있음

주의사항

Embedding 레이어는 단어를 대응만 한 것이라서 미분이 불가능함
따라서 어떤 연산 결과를 Embedding 레이어에 연결시키는 것은 불가능
원-핫 인코딩된 단어 벡터의 형태인 입력에 직접 연결되게 사용해야 함

원-핫 인코딩(One-hot Encoding)

텍스트를 유의미한 숫자(벡터)로 바꾸는 가장 손쉬운 방법론
N개의 단어를 각각 N차원의 벡터로 표현하는 방식
단어 하나에 인덱스 정수를 할당한다는 점에서 ‘단어 주머니(bag of words, BoW)’라 부르기도 함

단점

컴퓨터가 단어의 의미 또는 개념 차이를 전혀 담지 못함
‘차원의 저주(curse of dimensionality)’ 문제 : 하나의 단어를 표현하기 위해 말뭉치(corpus)에 존재하는 수만큼의 차원을 가지게 되면 계산 복잡성이 기하급수적으로 늘어남

Recurrent 레이어 (1) RNN

문장이나 영상, 음성 등의 데이터-> 순차적인(Sequential) 특성
딥러닝에서 말하는 시퀀스 데이터는 순차적인 특성을 필수로 가짐
Recurrent Neural Network 또는 Recurrent 레이어(이하 RNN)
(입력의 차원, 출력의 차원)에 해당하는 단 하나의 Weight를 순차적으로 업데이트하는 것
RNN은 스스로를 반복하면서 이전 단계에서 얻은 정보가 지속되도록 한다.
문장을 모두 읽은 후 최종 Step에 대한 Output만 필요한 경우,(return_sequences=False)]
문장을 생성했을 때 든 Step에 대한 Output이 필요한 경우,(return_sequences=True)

단점

한 문장을 읽고 처리하는 데에도 여러 번의 연산이 필요해 다른 레이어에 비해 느림

딥러닝 네트워크는 에러에 대한 각 가중치의 미분을 구해 업데이트하는 백프로퍼게이션을 통해 학습할 때,

기울기 소실(Vanishing Gradient) 문제

입력의 앞부분이 뒤로 갈수록 옅어져 손실이 발생
미분 값이 너무 작음
가중치 업데이트가 잘 안되니 학습이 거의 이뤄지지 않음

Exploding Gradient

미분 값이 너무 큼
가중치 업데이트가 너무 크니 학습이 불안정

Recurrent 레이어 (2) LSTM

Long Short-Term Memory
기울기 소실 문제를 해결하기 위해 고안된 RNN 레이어
sigmoid함수의 output이기 때문에 (0,1)의 값을 갖게 되는데, 1에 가까운 값을 갖게되면 미분값(gradient)이 소멸(vanished)되는 것을 최소한으로 줄일 수 있게됨

** LSTM은 3개의 Gate Layer**

Forget Gate Layer : cell state의 기존 정보를 얼마나 잊어버릴지를 결정하는 gate
Input Gate Layer : 새롭게 만들어진 cell state를 기존 cell state에 얼마나 반영할지를 결정하는 gate
Output Gate Layer : 새롭게 만들어진 cell state를 새로운 hidden state에 얼마나 반영할지를 결정하는 gate

GRU(Gated Recurrent Unit)

LSTM의 Forget Gate와 Input Gate를 Update Gate로 합침
Cell State와 Hidden State를 합쳤다.

참고 : https://dgkim5360.tistory.com/entry/understanding-long-short-term-memory-lstm-kr

양방향(Bidirectional) RNN

진행 방향이 반대인 RNN을 2개 겹쳐놓은 형태
tf.keras.layers.Bidirectional()
주로 기계번역 같은 테스크에 유리

23. 딥러닝 레이어의 이해(1)

Wed, 09 Feb 2022 02:52:05 GMT

데이터의 형태

이미지 데이터

Red 채널, Green 채널, 그리고 Blue 채널까지 총 3개의 채널을 가짐
표기 방법 : Channel, Width, Height의 이니셜로 (C, W, H), (W, H, C)

레이어

하나의 물체가 여러 개의 논리적인 객체들로 구성되어 있는 경우, 이러한 각각의 객체를 하나의 레이어라 한다.

Linear 레이어
- Fully Connected Layer, Feedforward Neural Network, Multilayer Perceptrons, Dense Layer... 등
- 선형 변환(Linear Transform)을 활용해 데이터를 특정 차원으로 변환하는 레이어
- (입력의 차원, 출력의 차원)에 해당하는 Weight를 가지는 특성을 가짐
- 입력 피처 전체가 매 출력에 미치는 영향의 가중치를 모든 입력 피처 사이에 전부 고려
- 이미지처럼 지역성(Locality) 그 자체가 엄청나게 중요한 정보가 되는 경우, Linear 레이어는 그 중요한 정보가 모두 소실된 채 엄청나게 큰 파라미터 속에서 입력과 출력 사이의 관계 가중치를 찾아내야 하는 어려운 문제가 발생

Convolution 레이어

목적에 도움이 되는 정보는 선명하게, 그렇지 않은 정보는 흐리게 만드는 수십 개의 중첩된 필터를 훈련을 통해 찾아주는 것
필터 구조 안에 Locality 정보가 온전히 보존됨
인접한 픽셀들 사이에서의 패턴만 추출할 수 있다는 것 자체만으로도 불필요한 파라미터 및 연산량을 제거하고 훨씬 정확하고 효율적으로 정보를 집약시킬 수 있게 됨

Receptive Field

Neural Network의 출력부가 충분한 정보를 얻기 위해 커버하는 입력 데이터의 Receptive Field가 충분히 커서 그 안에 detect해야 할 object의 특성이 충분히 포함되어 있어야 정확한 detection이 가능하게 됨

Pooling 레이어

1. Receptive Field

Neural Network의 출력부가 충분한 정보를 얻기 위해 커버하는 입력 데이터의 Receptive Field가 충분히 커서 그 안에 detect해야 할 object의 특성이 충분히 포함되어 있어야 정확한 detection이 가능하게 됨

2. Max Pooling 레이어

영역 안에서 가장 값이 큰 대표 선수 하나를 뽑고 나머지는 무시하는 역할

장점

translational invariance 효과
- 동일한 특징을 안정적으로 잡아낼 수 있는 긍정적 효과
- object 위치에 대한 오버피팅을 방지하고 안정적인 특징 추출 효과를 가져옴
Non-linear 함수와 동일한 피처 추출 효과
- 중요한 피처만을 상위 레이어로 추출해서 올려줌으로써 결과적으로 분류기의 성능을 증진시키는 효과를 가짐
Receptive Field 극대화 효과
- Convolutional 레이어를 아주 많이 쌓아서 Receptive Field를 크게 한다면 오버피팅, 연산량 증가, Gradient Vanishing 등의 문제가 발생
- 이를 해결하는 방법으로 Max Pooling 레이어, Dilated Convolution가 있음

Deconvolution 레이어

1. Auto Encoder

Convolution의 결과를 역재생해서 원본 이미지와 최대한 유사한 정보를 복원해냄

2. Decoder 레이어

Convolution 레이어를 거쳐 정보가 집약되는 것이 아니라 오히려 정보량이 많아지고 있음
우리의 AutoEncoder 구조가 얼마나 정보손실 없이 원본 데이터를 잘 압축하고 있느냐에 따라 Decoder가 뽑아낼 수 있는 최종적인 이미지의 퀄리티가 결정됨
Convolution의 수학적 역연산으로서의 Deconvolution과는 다름

3. Upsampling 레이어

Max pooling 레이어를 통해 Downsampling의 반대 작업을 수행

복원 방법 Nearest Neighbor : 복원해야 할 값을 가까운 값으로 복제 Bed of Nails : 복원해야 할 값을 0으로 처리 Max Unpooling : Max Pooling 때 버린 값을 실은 따로 기억해 두었다가 그 값으로 복원

4. Transposed Convolution

Upsampling 기법의 일종
Transposed Convolution을 계산하는 과정이 마치 convolution 연산을 거꾸로 계산하는 것과 비슷

참고 : https://realblack0.github.io/2020/05/11/transpose-convolution.html

21. TF2 API

Fri, 28 Jan 2022 06:25:52 GMT

TensorFlow2 API로 모델 구성하기

Sequential

import tensorflow as tf
from tensorflow import keras

model = keras.Sequential()
model.add(__넣고싶은 레이어__)
model.add(__넣고싶은 레이어__)
model.add(__넣고싶은 레이어__)

model.fit(x, y, epochs=10, batch_size=32)

입력 1가지, 출력 1가지 방식 -> 입출력이 여러 개인 경우 적합하지 않은 모델

Functional

import tensorflow as tf
from tensorflow import keras

inputs = keras.Input(shape=(__원하는 입력값 모양__))
x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(input)
x = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)
outputs = keras.layers.__넣고싶은 레이어__(관련 파라미터)(x)

model = keras.Model(inputs=inputs, outputs=outputs)
model.fit(x,y, epochs=10, batch_size=32)

keras.Model을 사용
입력과 출력을 규정함으로써 모델 전체를 규정 -> 더 자유로운 모델링 진행 가능
다중 입력, 출력을 가지는 모델을 구성

Model Subclassing

import tensorflow as tf
from tensorflow import keras

class CustomModel(keras.Model):
    def __init__(self):
        super(CustomModel, self).__init__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()
        self.__정의하고자 하는 레이어__()

    def call(self, x):
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)
        x = self.__정의하고자 하는 레이어__(x)

        return x

model = CustomModel()
model.fit(x,y, epochs=10, batch_size=32)

keras.Model을 상속받은 모델 클래스를 만드는 방식
제일 자유로운 모델링 진행 가능

20. 비지도학습

Wed, 26 Jan 2022 03:36:49 GMT

1. 비지도학습(Unsupervised Learning)

지도학습과 다르게 training data로 정답(label)이 없는 데이터가 주어지는 학습방법
주어진 데이터가 어떻게 구성되어 있는지 스스로 알아내는 방법
아무도 정답을 알려주지 않은 채 오로지 데이터셋의 특징이나 패턴을 기반으로 모델 스스로가 판단

예시

군집화(clustering)
차원축소(dimensionlity reduction)
생성 모델(generative model)

2. 클러스터링(1) K-means

데이터X가 무엇인지에 대한 정답(label)과 y가 될 수 있는 분류 기준이 없는 비지도학습에서 클러스터링이란 명확한 분류 기준이 없는 상황에서도 데이터들을 분석하고 유사한 것들끼리 묶어 주는 대표적 알고리즘
k값이 주어졌을 때, k개의 기준점을 중심으로 가장 가까운 데이터들을 뭉침
좌표축 위에 있는 데이터들 사이의 거리를 계산하기 위해서 "유클리드 거리"를 사용

K-mean 알고리즘의 순서

1) 원하는 k(클러스터의 수)를 결정 2) 무작위로 클러스터의 수와 같은 k개의 중심점을 선정 3) 나머지 점들과 모든 중심점 간의 유클리드 거리를 계산 -> 가장 가까운 거리에 있는 중심점의 클러스터에 속하도록 함 4) 각 K개의 클러스터의 중심점을 재조정 -> 특정 클러스터에 속하는 모든 점들의 평균값이 해당 클러스터 다음 iteration의 중심이 됨 5) 재조정된 중심점을 바탕으로 모든 점들과 새로 조정된 중심점간의 유클리드 거리를 다시 계산 -> 가장 가까운 거리를 가지는 클러스터에 해당 점을 재배정 6) 4, 5번을 반복 수행 -> 특정 iteration이상이 되면 수렴하게 됨

K-means가 적합하지 않은 경우

K값을 알거나 예측하기 어려운 경우에는 사용하기 어려움
데이터의 분포에 따하 유클리드 거리가 멀고 밀접하게 연관되어 있는 데이터들인 경우에 클러스터링을 성공적으로 수행하지 못할 수 있음

3. 클러스터링(2) DBSCAN

Density Based Spatial Clustering of Applications with Noise
밀도 기반의 군집 알고리즘
K-means알고리즘으로 해결하기 어려운 문제들을 해결할 수 있음
K-means알고리즘과 다르게 군집개수(K)를 미리 지정하지 않아도 됨
유클리드 거리를 사용한 K-means알고리즘와 다르게 밀접하게 있는 클러스터를 군집화

DBSCAN 알고리즘 순서

1) 임의의 점 p를 설정, p를 포함한 클러스터의 반경 안에 있는 점들의 개수를 셈 2) 만약 해당 원에 minPts(클러스터를 이루는 개체의 최솟값)개 이상의 점이 포함되어 있으면 해당 점 p를 core point로 하고 원에 포함된 점들들 하나의 클러스터로 묶음 3) 해당 원에 minPts개 미만의 점이 포함되어 있으면 pass 4) 모든 점에 대해 돌아가면선 1~3번의 과정을 반복 5) 클러스터링 과정을 끝낸 후 어떤 점을 줌심으로 클러스터에 속하지 못한 점을 noise point(군집에 포함되지 못하는 점)으로 간주. 특정 군집에 속하지만 core point가 아닌 점들은 border point(군집의 중심이 되지는 못하지만, 군집에 속하는 점)이라고 함

DBSCAN 알고리즘 단점

군집화할 데이터의 수가 많아질수록 K-means 알고리즘에 비해 DBSCAN의 알고리즘 수행 시간이 늘어남
데이터 분포에 맞는 epsilon, minPts의 값을 지정해야 함

4. 차원 축소(1) PCA

대표적인 차원 축소(Dimensionality reduction) 알고리즘
데이터를 나타내는 여러 특징들 중에서 어떤 특징이 가장 그 데이터를 잘 표현하는지 알게 해주는 특징을 추출하는 용도로 사용
데이터 분포의 주성분(데이터의 분산이 가장 큰 방향벡터)을 찾아주는 방법
데이터들의 분산을 최대로 보존, 서로 직교하는 기저(bias)들을 찾아 고차원 공간을 저차원 공간으로 projection
기존 feature 중 중요한 것을 선택하는 방식이 아닌 기존의 feature를 선형 결합하는 방식

5. 차원 축소(2) T-SNE

T-Stochastic Neighbor Embedding
시각화에 많이 쓰이는 알고리즘
기존 차원의 공간에서 가까운 점들은 차원축소된 공간에서도 가깝게 유지
PCA는 데이터가 가진 고유한 물리적 정보량을 보존(차원축소를 하면서 두 점 사이의 거리도 정보 손실 발생)한다면 T-SNES는 데이터들 간의 상대적 거리를 보존함(고차원에서 먼 거리의 두점은 저차원에서도 먼 거리를 유지)

19. 선형 회귀와 로지스틱 회귀

Mon, 24 Jan 2022 05:53:24 GMT

1. 회귀분석

회귀분석(Regression Analysis)

관찰된 여러 데이터를 각 연속형 변수 간의 관계를 모델링하고 이에 대한 적합도를 측정하는 분석 방법

예시)

부모와 자식의 키 관계
부동산 가격 예측
1인당 국민 총소득과 배기가스 배출량 사이의 관계 예측

선형 회귀분석의 기본 가정

(1) 선형성 : 예측하고자 하는 종속변수 y와 독립변수 x간에 선형성을 만족하는 특성. 그러므로 비선형회귀분석에서는 해당하지 않는다.

(2) 독립성 : 독립변수 x간에 상관관계가 없이 독립성을 만족하는 특성. 다중 회귀분석에서 중요한 기본가정으로 단순회귀분석에서는 해당하지 않는다.

(3) 등분산성 : 분산이 같다. 이는 잔차가 특정한 패턴 없이 고르게 분포했다는 의미

(4) 정규성 : 잔차가 정규성을 만족하는지 여부. 정규분포를 띄는지 확인

-> 4가지 기본가정을 만족해야 유의한 회귀모델이 나온다. 그렇지 못할 경우 Stepwise로 4가지 기본가정을 위배시키는 변수를 제거

_출처: https://kkokkilkon.tistory.com/175 [꼬낄콘의 분석일지] _

지도학습의 두 종류

분류 : 데이터 x의 여러 feature값들을 이용하여 해당 데이터의 클래스 y를 추론 -> 클래스별 확률 값을 출력
회귀 : 데이터의 x의 여러 feature값들을 이용하여 연관된 다른 데이터 y의 정확한 값을 추론 -> 연관된 종속변수 값을 직접 출려하는 형태로 모델의 구성이 달라지게 됨

2. 선형 회귀분석

종속변수 Y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법
1개의 독립변수이면 단순 선형회귀, 2개이상의 독립변수이면 다중 선형회귀

y=βx+ϵ

β : 회귀계수 (파라미터)
ϵ : 종속변수와 독립변수 사이의 오차 (파라미터)
x,y에 데이터를 넣음 -> 데이터로부터 β와 ϵ를 추정 -> 모델링을 수행 -> 새로운 데이터의 x값들을 입력으로 넣음 -> 해당하는 y 값을 추론
주어진 데이터에 선형식이 잘 맞도록 회귀계수와 오차를 구함

H=Wx+b (머신러닝에서의 선형회귀모델 표기법)

H : 가정(Hypothesis)
W : 가중치(Weight)
b : 편향(bias)
보통 W, b는 고차원의 행렬 형태

선형회귀에서의 손실함수

회귀모델을 이용해 추정한 값과 실제 데이터의 차이
최소제곱법 : n개의 데이터에 대해 잔차의 제곱의 합을 최소로 하는 W,b를 구하는 방법. (잔차를 이용한 회귀모델을 찾는 가장 대표적인 방법)

경사하강법

출처 : https://lsh424.tistory.com/9

적절한 회귀모델의 회귀계수를 찾기 위해서는 손실함수를 잘 설정하는 것이 중요
손실함수를 최소화 시키는 W, b를 구해야함
머신러닝에서는 가중치의 그래디언트(미분값)가 최소가 되는 지점을 손실함수가 최소가 되는 지점이라고 가정
w 파라미터 개수가 많을 경우 시간이 많이 걸림

출처 : https://lsh424.tistory.com/9

α : learning rate. 적절한 크기로 선정해서 더 빠르게 수렴시킴
머신러닝&딥러닝에서는 굉장히 중요

3. 로지스틱 회귀분석

분류해주는 지도학습 알고리즘
데이터가 어떤 범주에 속할 확률을 0~1사이의 값으로 예측, 확률에 따라 가능성이 더 높은 범주에 속함
이진분류 문제 풀 때 많이 사용

sigmoid function

Log-odds 값을 구한 다음, 이를 sigmoid function에 넣어서 0에서 1 사이의 값으로 변환해 주는 것
어느 기점 이하에는 0을 어느 기점 이상에서는 1을 즉, 2분법적으로 나타낼 수 있는 그래프 출처 : https://lsh424.tistory.com/9
실제 데이터를 대입 -> Odds, 회귀계수를 구함 -> Log-odds를 계산한 후 sigmoid function의 입력으로 넣음 -> 특정 범주에 속할 확률 값을 계산 -> 설정한 threshold에 맞추어 설정값 이상이면 1, 이하면 0으로 이진 분류를 수행

4. Softmax 함수와 Cross Entropy

Softmax 함수

여러 범주로 분류하는 함수 출처 : https://lv99.tistory.com/7
softmax의 값을 전부 더했을 때 그 합이 1
log-odds와 작은 log-odds의 차이를 극대화시킴
softmax 함수에 모든 범주의 log-odds를 통과시키면 해당 데이터가 어떤 범주로 분류되는지 확실히 알 수 있음
one-hot encoding(0과 1)을 통해 표현

Cross Entropy

softmax 함수의 손실함수
분류(classification) 문제를 풀 때 Cross Entropy를 이용해서 손실(loss, cost) 함수를 정의

출처 : https://androidkt.com/choose-cross-entropy-loss-function-in-keras/

로지스틱 회귀모델이 추론한 확률 분포 q(x)와 실제 데이터의 분포 p(x)의 차이를 계산한 것 -> 차이가 적을 수록 Cross Entropy도 작아짐

정리

로지스틱 함수, sigmoid 함수, softmax 함수 출처 : https://ericabae.medium.com/ml-softmax-%EC%86%8C%ED%94%84%ED%8A%B8%EB%A7%A5%EC%8A%A4-%ED%95%A8%EC%88%98-7a8c0362b2a3

선형 회귀분석

종속변수가 연속형인 경우, 독립변수의 변화에 따른 종속변수 값의 추정
중요하게 사용되는 함수 : 보편적으로 최소제곱법을 이용
손실함수 : 보편적으로 최소제곱법을 이용

로지스틱 회귀분석

종속변수의 범주가 2개인 경우 범주별 확률을 추정->최대확률 범주를 결정하는 분류모델로 활용
중요하게 사용되는 함수 : logits(= log-odds), sigmoid 함수
손실함수 : cross entropy(class = 2)

다중 로지스틱 회귀분석

종속변수의 범주가 여러 개인 경우의 로지스틱 회귀분석
중요하게 사용되는 함수 : cross entropy 함수, softmax 함수
손실함수 : cross entropy

10. 데이터 전처리

Wed, 05 Jan 2022 07:21:18 GMT

1. 결측치

1) 결측치 처리 방법

결측값을 제거
결측값을 다른 값으로 대체 (새로운 범주내 특정값, 최빈값, 예측값,... )

2) 결측치 여부 확인

# 컬럼별 결측치 개수
print('전체 데이터 수:', len(df))

# 행별 결측치 확인
df[df.isnull().any(axis=1)]

2. 중복된 데이터

행별로 값이 유일해야 한다면 중복된 데이터를 제거

# 중복된 데이터 여부
df[df.duplicated()]

# 중복된 데이터 제거
df.drop_duplicates(inplace=True)

# id가 중복된 경우 맨 나중에 들어온 값 남기고 제거
df.drop_duplicates(subset=['id'], keep='last')

3. 이상치

대부분 값의 범위에서 벗어나 극단적으로 크거나 작은 값

1) 이상치 처리 방법

이상치 삭제
이상치를 다른 값으로 대체(최댓값, 최솟값, ...)
예측값 활용
수치형 데이터를 범주형으로 바꿈
Min-Max Scaling

2) 이상치 확인

z-score method : 평균과 표준편차를 이용
IQR method : 사분위 범위수 이용

4. 정규화(Outlier)

표준화(Standardization) : 데이터의 평균은 0, 분산은 1로 변환
Min-Max Scaling : 데이터의 최솟값은 0, 최댓값은 1로 변환

5. 원-핫 인코딩(One-Hot Encoding)

카테고리별 이진 특성을 만들어 해당하는 특성만 1, 나머지는 0으로 만드는 방법

# get_dummies으로 국가명을 0, 1로 변경
pd.get_dummies(df['국가명'])

6. 구간화(Binning/bucketing)

연속적인 데이터를 구간을 나눠 분석할 때 사용

pandas의 cut 과 qcut을 이용

# 6개 구간으로 나눠짐
pd.cut(salary, bins=6)

백분율 기반으로 5개 구간으로 나눠짐

pd.qcut(salary, q=5)

11. Visualization

Wed, 05 Jan 2022 05:48:03 GMT

1. 데이터 준비

1) 데이터 불러오기

Seaborn의 load_dataset() 메서드를 이용

import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

2) EDA

결측값 확인
수치형, 범주형 데이터인지 확인

2. 범주형 데이터 vs 수치형 데이터

1) 범주형

주로 막대그래프
Pandas와 Matplotlib를 활용

Seaborn과 Matplotlib을 활용

plt.bar(x = x, height = y)
sns.barplot(data= , x= , y= )

2) 수치형

산점도

sns.scatterplot(data= , x= , y= , palette= , hue=)

선 그래프
```
sns.lineplot(x= , y= )
```
히스토그램
```
sns.histplot(data= , label = )
```

3. 시계열 데이터

- 예) 1949년-1960년도별 탑승객 예제 데이터

# 막대그래프
sns.barplot(data=flights, x='year', y='passengers')

# 선 그래프, 점 추정치 및 신뢰구간을 표시
sns.pointplot(data=flights, x='year', y='passengers')

# 선 그래프1
sns.lineplot(data=flights, x='year', y='passengers')

# 선 그래프2
sns.lineplot(data=flights, x='year', y='passengers', hue='month', palette='ch:.50')
plt.legend(bbox_to_anchor=(1.03, 1), loc=2) #legend

# 히스토그램
sns.histplot(flights['passengers'])

4. Heatmap

데이터와 현상을 수치에 따라 색상으로 나타냄
2차원으로 시각화
데이터를 pivot해서 사용

sns.heatmap(pivot)
sns.heatmap(pivot, linewidths=.2, annot=True, fmt="d")
sns.heatmap(pivot, cmap="YlGnBu")

9. 배열(array)과 표(table)

Fri, 31 Dec 2021 05:12:35 GMT

1. NumPy 주요 기능

ndarray만들기

ndarray 객체는 arange()와 array([])로 만들 수 있습니다.

import numpy as np

# 아래 A와 B는 결과적으로 같은 ndarray 객체를 생성합니다. 
A = np.arange(5)
B = np.array([0,1,2,3,4])  # 파이썬 리스트를 numpy ndarray로 변환

# '4'가 있어서 모두 문자열로 바뀝니다
C = np.array([0,1,2,3,'4'])

# D도 A, B와 같은 결과 
D = np.ndarray((5,), np.int64, np.array([0,1,2,3,4]))

크기 (size, shape, ndim)

ndarray.size :행렬 내 원소의 개수
ndarray.shape : 행렬의 모양
ndarray.ndim : 행렬의 축 개수
reshape() : 행렬의 모양을 바꿈

type

NumPy: numpy.array.dtype
파이썬: type()

특수 행렬

# 단위행렬
np.eye(3)

# 0 행렬
np.zeros([2,3])

# 1행렬
np.ones([3,3])

브로드캐스트

브로드캐스팅 : ndarray와 상수, 또는 서로 크기가 다른 ndarray끼리 산술연산이 가능한 기능

A = np.arange(9).reshape(3,3)
B = np.array([1, 2, 3])
print("\nA+B:", A+B)

슬라이스와 인덱싱

NumPy도 파이썬 내장 리스트와 비슷한 슬라이스와 인덱싱 연산을 제공

random

np.random.randint(): ~ 사이 1개 난수 하나를 생성
np.random.choice(): 리스트에 주어진 값 중 하나를 랜덤하게 골라줍니다.
np.random.permutation(): 무작위로 섞인 배열을 만들어 줍니다.
np.random.normal(): 정규분포를 따르는 변수를 임의로 표본추출해 줍니다.
np.random.uniform(): 균등분포를 따르는 변수를 임의로 표본추출해 줍니다.

전치행렬

arr.T: 행렬의 행과 열 맞바꾸기 np.transpose: 축을 기준으로 행렬의 행과 열 바꾸기

2. 데이터의 행렬 변환_이미지

이미지와 관련된 파이썬 라이브러리

matplotlib
PIL

간단한 이미지 조작

open : Image.open()
size : Image.size
filename : Image.filename
crop : Image.crop((x0, y0, xt, yt)) 이미지 자르기
resize : Image.resize((w,h))
save : Image.save()

from PIL import Image, ImageColor
import os
img_path = os.getenv("HOME") + "이미지 경로"
img = Image.open(img_path)

import numpy as np
img_arr = np.array(img)

PIL.Image.Image 클래스는 리스트를 상속받지 않았지만 array_interface라는 속성이 정의되어 있어서 Numpy ndarray로 변환 가능

img_g = Image.open(img_path).convert('L') # 흑백으로 반환

# 색상
red = ImageColor.getcolor('RED','RGB')
reda = ImageColor.getcolor('red','RGBA')
yellow = ImageColor.getcolor('yellow','RGB')

3. 구조화된 데이터와 pandas

Series

일련의 객체를 담을 수 있는, 1차원 배열과 비슷한 자료 구조
배열 형태인 리스트, 튜플, 딕셔너리를 통해서 만들거나 NumPy 자료형(정수형, 실수형 등)으로도 만들 수 있습니다.

data = {'Region' : ['Korea', 'America', 'Chaina', 'Canada', 'Italy'],
        'Sales' : [300, 200, 500, 150, 50],
        'Amount' : [90, 80, 100, 30, 10],
        'Employee' : [20, 10, 30, 5, 3]
        }
s = pd.Series(data)
s

DataFrame

표(table)와 같은 자료 구조
DataFrame은 여러 개의 컬럼을 나타낼 수 있습니다.
csv 파일이나 excel 파일을 DataFrame으로 변환하는 경우가 많습니다.

d = pd.DataFrame(data)
d

4. pandas와 함께 EDA 시작하기

EDA - 통계

.value_counts(): 각 범주(Case 또는Category)별로 값 반환
.value_counts().sum(): 컬럼별 통계 수치의 합을 확인
.sum(): 해당 컬럼 값의 총합
.corr(): 두 컬럼 내 데이터가 얼마만큼의 상관관계가 있는지를 나타낸것(2개의 매개변수가 필요)

pandas 통계 관련 메서드

count(): NA를 제외한 수를 반환
describe(): 요약 통계를 계산
min(), max(): 최소, 최댓값을 계산
sum(): 합을 계산
mean(): 평균을 계산
median(): 중앙값을 계산
var(): 분산을 계산
std(): 표준편차를 계산
argmin(), argmax(): 최소, 최댓값을 가지고 있는 값을 반환
idxmin(), idxmax(): 최소, 최댓값을 가지고 있는 인덱스를 반환
cumsum(): 누적 합을 계산
pct_change(): 퍼센트 변화율을 계산