0_lingual.log

기계학습심화 - 7. Convolutional Neural Network (CNN)

Thu, 25 Apr 2024 02:02:20 GMT

Convolutional Neural Network (CNN)

Convolutional Layer

위 그림에 나와 있는 식은 Input Size, Kernel Size, Zero-Padding과 Stride에 따른 Output Size를 계산하는 식이다.

Dilation

Dilation한 Convolution Layer는 Input을 몇 칸씩 띄어가면서 반영한다. Conv2D에서 dilation_rate을 지정함으로서 구현할 수 있다.

Transposed Convolution

Transposed Convolution이란 데이터를 원래 크기로 되돌리기 위한 과정이다. Output Size는 Convolutional Layer의 Output Size 계산식에서 i와 O를 치환해서 구한 식을 통해 얻을 수 있다.

Pooling Layer

Pooling Layer란 데이터 사이즈를 줄이기 위한 Layer이다. Pooling Layer의 종류로는 Max Pooling, Average Pooling, L2-norm Pooling이 있다.

Max Pooling

Max Pooling이란 filter 크기 중에 가장 큰 값만을 선택하는 것이다. 이렇게 함으로써 데이터 사이즈를 줄일 수 있다.

Max Pooling을 통해 데이터를 Downsampling한 모습이다.

Softmax Layer

Softmax Layer에서는 Output을 타겟 확률과 매핑한다. 이때, 두 변수 사이에 미분 관계가 성립하도록 하기 위해 사용하는 방법이 Softmax이다.

위의 수식을 사용해 나온 Softmax 결과값과 타켓 확률은 미분 가능해진다.

위의 그림처럼, Softmax를 거치면 결과값이 합쳐서 1이 되고, 차이가 커진다.

Cross Entropy Loss

Cross Entropy Loss를 통해 확률 분포끼리 비교할 수 있다. 밑의 그림은 True Label이 1일 때 x축을 p_i, y축을 -log(p_i)로 하는 그래프이다.

p_i 값이 1에 가까울수록 Loss가 작은 것을 확인할 수 있다.

Activation Function

위의 그림처럼 Linear한 관계만 있다면 복잡한 계층도 결국엔 하나의 Matrix 곱으로 귀결된다. 이렇게 되면 CNN의 다층 구조의 의미가 퇴색해진다.

따라서 Activation Function을 이용해 Nonlinearity하게 만드는 것이 CNN의 핵심이다.

이때 Backpropagation을 수행하기 위해선 CNN의 전 계층이 미분 가능해야 한다. 미분 가능하도록 해주는 함수가 Activation Function이다.

각 Activation Function들은 장단점이 있다. 몇 가지 Activation Function의 장단점에 대해 알아보자.

Sigmoid

Backpropagation 시에 Chain Rule에 의해 Activation Function의 값이 0에 가까우면 전체 미분값 자체가 0에 가까워져서 미분값이 거의 쓸모 없어지는데, 이것을 Gradient Vanishing라고 한다.

Sigmoid는 미분값이 0에 가까워 Gradient Vanishing이 일어나는 구간이 많다는 단점이 있다.

ReLU

ReLU는 Sigmoid에 비해 적어도 x > 0 인 절반의 영역에서는 Gradient Vanishing이 일어나지 않는다는 장점이 있다. 또한, 계산이 단순해서 계산 속도가 빠르다.

그러나 이것은 반대로 말하면 나머지 절반의 영역에서는 여전히 Gradient Vanishing이 일어난다는 말이다.

Leaky ReLU / ELU

Leaky ReLU나 ELU에서는 Gradient Vanishing이 일어나지 않는다는 장점이 있다. Leaky ReLU의 경우 Transposed Convolution에 사용되기도 한다.

CNN 수행 과정

Encoder

Decoder

기계학습심화 - 6. Neural Networks, Convolution

Sun, 21 Apr 2024 09:38:51 GMT

CNN 계층

위의 그림은 CNN 중 하나인 AlexNet의 계층 구조이다. 물론 저 아이를 꽃으로 판별하긴 했지만.. 꽃 같은 아이 하하하~

CNN에는 크게 4개의 계층이 있다. 하나씩 알아보자.

Fully Connected Layer

Fully Connected Layer에서는 input 데이터를 stretch한다.

이런 FC는 너무 많은 파라미터를 요구한다. 이에 대한 해결책으로 Locally Connected Layer, 더 나아가 Convolutional Layer가 있다.

Convolutional Layer에서는 다른 위치의 데이터에 같은 파라미터를 공유한다. 이때 파라미터는 학습된 가중치이다.

Convolution을 거친 결과벡터의 크기는 H(input - filter + 1) x W(input - filter + 1) x 1 이다.

filter를 이동하는 단위를 Stride라고 한다. Stride까지 고려한 결과벡터의 크기는 ⌊ (input - filter + 1) / Stride ⌋ + 1 이다. (⌊⌋는 내림 연산 기호)

Convolution 연산에서 모서리 쪽에 있는 데이터들은 중앙 쪽에 있는 데이터들에 비해 영향력이 적어진다.

이러한 문제를 해결하기 위한 방법이 바로 Zero-Padding이다.

위의 그림은 Zero-Padding을 2로 준 경우이다. Zero-Padding의 크기는 'filter의 크기 - 1' 로 구할 수 있다.

이런 식으로 여러가지 filter를 사용해서 Convolution 연산을 수행할 수 있다.

기계학습심화 - 5. Linear Classification, Neural Network

Fri, 19 Apr 2024 18:14:49 GMT

용어 정리

• Loss Function : f(x)의 Loss가 얼마인지 계산하는 함수 • Optimizer : 최적화(Optimization)을 수행하는 알고리즘 ex. SGD, Adam • One-hot Class Vector : 각 클래스에 대한 확률을 표현한 벡터 ex. <0, 0, 0, 1, 0> • Ground Truth : 기계학습에서는 데이터 원본 혹은 실제 값을 의미함

Linear Classification

f(W, b) = Wx + b

위의 예시에서 각 요소의 행렬의 크기를 알아보자.

f(W, b) : 3 (클래스의 개수) W : 12 (클래스의 개수 * 데이터의 개수) x : 4 (데이터의 개수) b : 3 (클래스의 개수)

Loss Function

L1 Loss

L2 Loss

L2 Loss는 MSE(Mean Squared Error, 평균 제곱 오차)라고도 부른다.

Cross Entrophy Loss

Cross Entrophy Loss는 L1, L2 Loss와는 달리, 확률끼리 비교하는 것이다.

Cross Entrophy Loss에서 Loss를 계산하는 식은 다음과 같다.

다음은 Loss Function별로 Loss 값을 나타낸 그래프이다.

같은 W, b를 사용하더라도 어떤 Loss Function을 사용하는지에 따라 결과가 달리진다.

Regularization (정규화)

Underfitted는 모델의 복잡도가 너무 낮아서 데이터를 잘 판별하지 못하는 경우를 말한다.

이와 반대로, Overfitted는 모델의 복잡도가 너무 높아서 예측 능력이 망가지는 경우이다. 이 경우 학습 데이터에 대해서는 error가 적지만, 모델이 예측하는 데이터의 전체적인 경향성이 망가지기 때문에 새로운 데이터가 들어왔을 때의 예측력이 낮아진다.

cf. 모델의 복잡도가 높다는 건 학습할 파라미터가 많다는 말이다.

Ockham's Razor

Ockham's Razor(오캄의 면도날 법칙)은 경쟁하는 여러가지 가설 중에 가장 간단한 것이 가장 좋은 것이라는 법칙이다. 위의 그래프의 경우 초록색 그래프가 더 좋다는 말로, Overfitted 모델보다 Good Fit / Robust 모델이 더 좋다는 말에 힘을 실어준다.

Regularization (정규화)

위 식의 파란색 부분은 Data Loss를 구하는 부분으로, 이 Loss를 최소화함으로써 학습 데이터에 fitting하는 과정이다. 이 과정을 Optimization(최적화)라고 부른다. 하지만, Overfitting의 경우 예측력이 떨어진다는 것을 알게 되었다. 따라서 초록색 부분인 Regularization(정규화)를 통해서 Simple Model로 만들어주는 과정이 필요하다.

Optimization을 하는 방법으로 총 3가지가 있다.

Ramdom Search -> 시간이 너무 오래 걸린다.
Analytic Solution(방정식 풀기) -> 차수가 높아지면 방정식을 푸는 것이 거의 불가능하다.
Numerical Solution(Gradient Descent) -> Local Minima에 갇힐 수 있고, 미분값이 수렴하지 않고 발산할 수 있다

각각의 방법들에는 이러한 문제점들이 있다. 이에 대한 해결책으로 등장한 것이 Neural Networks(인공신경망)이다.

Neural Networks (인공신경망)

Neural Network란?

딥러닝은 인간의 뇌 구조에서 착안한 기계학습 방법이다. 인간의 뇌는 위의 그림과 같은 복잡한 연쇄를 통해 Output을 도출한다.

Neural Network란 뉴런(Atomic Functions)이 Non-linear하게 연결되어 있는 구조를 말한다.

위의 그림은 Neural Network가 Forward Propagation(순전파)을 통해 Output을 찾아가는 과정을 보여준다.

그렇다면, 각각의 Atomic Functions를 어떻게 알 수 있을까? 이를테면 각 Atomic Functions의 W(Weight) 말이다. 바로 Backward Propagation(역전파)를 통해 계산할 수 있다.

Back Propagation (역전파)

위의 f(x, W)에 대한 역전파 과정을 살펴보자.

Chain Rule을 통해 f에서 역행하는 방향으로 이동하면서 미분값을 구할 수 있다.

다음으로는 Loss Function인 L2-Loss와 Activation Function(활성화 함수)인 Sigmoid와 ReLU의 Computational Graph를 살펴보자.

이런식으로 Chain Rule을 통해 Y에서 X로 가면서 미분값을 구하는 것이 Back Propagation이다.

기계학습심화 - 4. Traditional Unsupervised Learning (K-means, PCA)

Thu, 18 Apr 2024 12:25:41 GMT

Traditional Unsupervised Learning (전통적 비지도학습)

K-means

K-means란?

K-means는 비지도학습 방법 중 하나로, Clustering(군집화) Method이다. 비지도학습은 지도학습과는 달리 정답이 주어지지 않기 때문에 Classification을 하지는 못하고, clustering을 할 수밖에 없다.

K-means는 주어진 n개의 데이터를 K개의 Cluster로 나눈다. 이때 각 cluster의 중앙값을 Centroid라고 한다.

K-means에서는 첫 시행에 랜덤으로 Centroid를 K개 정하고, 모든 점에 대해 어떤 Centroid에 가장 가까운지 계산해서 해당 Centroid의 Cluster로 편입한다. 위 그림은 K가 2인 경우 K-means의 첫번째 실행이다.

이후 각 Cluster의 중앙값을 새로운 Centroid로 정하고, 더 이상 Centroid가 바뀌지 않을 때까지 같은 과정을 계속 반복한다. 첫번째 실행에서 Centroid와 Cluster 결과 모두 다른 것을 확인할 수 있다.

K를 어떻게 결정할까?

K-means에서 K는 Hyper Parameter이다. 따라서 우리가 튜닝해야 되는 대상이다. 하지만, Clustering Method에는 label이 없기 때문에 Cross Validation을 사용할 수 없다. 그렇다면 어떻게 K를 결정할 수 있을까?

다음은 K를 1씩 증가하면서 각각의 SSE(Sum of Squared Errors)를 계산하는 코드이다.

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans

X = np.array([
[6,3], [11,15], [17,12], [24,10], [20,25], [22,30],
[85,70], [71,81], [60,79], [56,52], [81,91], [80,81]])

plt.scatter(X[:,0],X[:,1])

n_clusters = range(1, 10)
kmeans = [KMeans(n_clusters=i) for i in n_clusters]

# For every sample, the squared error is calculated and added to the list.
score = [kmeans[i].fit(X).inertia_ for i in range(len(kmeans))]

plt.plot(n_clusters, score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

위의 코드를 실행하면 나오는 결과이다. 이때, Score(SSE)가 급격하게 줄어드는 Elbow Curve를 찾을 수 있고, 이 Elbow Curve 지점에서의 Number of Clusters를 K값으로 결정하는 것이다.

K-means의 장단점

장점

간단하고 빠르다.
수렴을 보장한다.
일반화가 쉽다. (새로운 데이터에 적용되기 쉽다.)

단점

K를 고르기 위해 노력을 기울여야 한다.
시작점에 민감하다. (최초의 Centroid에 따라 최종 Clustering이 달라진다.)
Outliers에 민감하다. (평균에서 멀리 떨어진 Outlier들에 의해 영향을 많이 받는다.)

해결책 : 평균값이 아닌 중앙값(Median)을 사용하면 Outlier의 영향을 적게 받을 수 있음.

ex. 평균 제곱 오차를 사용하는 L2 Distance 대신 중앙값을 사용하는 L1 Distance을 사용하면 Outlier의 영향을 적게 받을 수 있다.

PCA(Principle Component Analysis)

Curse of Dimensionality (차원의 저주)

KNN을 공부할 때 계산량이 너무 많다는 단점을 다뤘다. 계산량은 데이터의 차원이 높아질수록 점점 더 많아진다.

예를 들어, 위와 같은 영상 파일의 경우 Width x Height x Frames x RGB 만큼의 차원이기 때문에 데이터의 차원이 매우 크다. 이 경우 계산량이 매우 크고 계산 속도가 매우 느릴 것이다.

따라서 우리는 머신러닝의 성능은 어느 정도 유지하면서 데이터의 차원을 낮추고 싶다.

PCA란?

위 그림처럼 완벽하게 정렬된 데이터셋이 있다고 가정하자. 이 경우 오른쪽 맨 위의 데이터를 x, y축 Basis Vector로 표현하면 다음과 같다.

이때 Data Align에 따라 Principal Component(주성분)을 새로 설정해보자.

새로 설정한 Principal Component를 새로운 축으로 하여 데이터를 재정렬하면 오른쪽 그림과 같이 데이터들이 PC1 축에 평행하게 정렬된다. 이 경우 벡터 합으로 표현하면 다음과 같다.

재정렬하기 전에 비해 한 차원 감소한 것을 알 수 있다. 이렇게 Principal Component을 재설정함으로써 데이터를 더 낮은 차원으로 표현하는 방식이 PCA이다.

하지만, 실제 데이터셋은 보통 완벽하게 정렬되어 있지 않다. 이 경우에도 여전히 PCA를 사용할 수 있다. 그렇다면 Principal Component을 어떻게 정할 수 있을까?

바로, SSE를 최소로 만드는 벡터를 찾아 Principal Component로 정한다. 위의 GIF는 그 과정을 보여준다.

PCA는 행렬곱 연산이며, 다음과 같은 수식으로 나타낼 수 있다.

이때 X_r은 PCA를 통해 차원이 감소한 데이터, U는 Principal Component Vector의 행렬, X는 원본 데이터이다.

PC를 거친 이후에 데이터의 중요한 정보를 최대한 보존하기 위해 Reconstruction을 통해 Basis Vector을 축으로 하는 좌표 평면에Projection한다.

PCA 성능

K-nearest neighbor with MNIST

• Originally (784 dimensions x 60,000 training data): • Accuracy: 96.9 • Running time: 1 minutes

After PCA (10 dimensions x 60,000 training data): • Accuracy: 92.8 • Running time: 1.5 sec

위의 지표는 MNIST 데이터에 대해 KNN을 PCA를 사용하지 않고 수행했을 때와 PCA를 사용해서 수행했을 때의 Accuracy와 Running Time 수치를 나타내고 있다.

이때 PCA를 통해 수행했을 때는 차원이 784에서 10으로 많이 줄어든 것을 확인할 수 있다. 또, Accuracy가 4.1% 감소했지만, Running Time은 약 40배 가량 감소한 것을 확인할 수 있다. PCA를 사용하면 정확도는 조금 낮아지지만 속도는 훨씬 빨라진다는 것을 알 수 있다.

PCA 사용 분야

• 차원 축소 : 데이터 크기를 줄여서 Computation Time을 감소시킬 수 있음. • 이미지 압축 : 메모리 사용을 줄이고, PCA는 선형 기법 중에 Loss가 가장 작은 기법이다. • Noise 제거 : 이미지 데이터의 Noise를 제거할 수 있다. (Denoising)

PCA의 한계점

PCA의 한계점은 PCA가 Orthogonal Basis(직교 기반)라는 점에서 나타난다.

왼쪽 그림의 데이터는 어느 정도 선형으로 정렬되어 있기 때문에 PCA를 통해 차원 축소를 하는 것이 의미 있을 수 있다.

반면, 오른쪽 그림의 데이터 분포에서는 직교하는 PC 성분을 통해 차원 축소를 하는 것이 거의 무의미할 정도로 무질서하게 정렬되어 있다. 따라서 PCA는 항상 최선의 방법은 아니다.

데이터를 가장 잘 설명할 수 있는 축을 찾는 PCA 알고리즘과는 달리, 독립성이 최대가 되는 축을 찾으며, 기준 축이 반드시 직교할 필요가 없는 ICA(Independent Component Analysis, 독립 성분 분석) 알고리즘도 있다.

기계학습심화 - 3. Traditional Classification Method (SVM), Norms, Loss

Thu, 18 Apr 2024 00:23:04 GMT

Traditional Classification Method

SVM (Support Vector Machine)

SVM이란?

위의 점들을 구별하는 Classifier를 구할 때 가장 좋은 방법은 무엇일까? Data Point를 만나기 전까지 늘어날 수 있는 경계선 사이의 폭을 Margin이라고 한다. 이 Margin이 최대가 되도록하는 직선을 구하면 가장 좋은 Classifier라고 가정한다. 평균에서 멀리 떨어진 Outliner들에 대한 구분 능력이 좋기 때문에 강력한 일반화 능력을 갖기 때문이다.

이때 Margin을 결정하는 두 직선을 Support Vector라고 부른다. 이 Support Vector만이 Decision Surface를 결정한다.

Margin이 최대가 되도록하는 직선을 구하는게 목표인데, 그렇다면 이걸 어떻게 구할 수 있을까? 두 Support Vector를 각각 wx - b = 1, wx - b = -1 이라고 하자. 이때 이 두 직선 사이의 거리가 최대가 되도록 하는 w와 b값을 구하면 된다.

평행한 두 직선 사이의 거리를 구하는 공식은 다음과 같다. 이에 따라 Support Vector 간의 거리를 계산해보면 2 / |w| 가 되고, 이를 최대로 만드는 것은 역수인 |w| / 2 를 최소로 만드는 것과 같다. 따라서 |w|를 최소로 만들면 되는 것이다.

Kernel Method

데이터 자체가 비선형(Nonlinear)으로 분포되어 있다면 SVM을 통한 Classification이 불가능할 수 있다. 이런 경우에는 Kernel Method를 사용해 Classification할 수 있다. 위의 사진은 RBF Kernel을 사용해 Classification한 결과이다.

Kernel Method는 비선형 데이터를 고차원으로 세울 수 있게 도와준다. 위의 그림에서는 데이터를 3차원으로 옮겼더니 Decision Surface를 통해 Classification에 성공한 모습이다.

Norms

Norms란 벡터의 크기를 결정하는 방식이다. 위와 같은 벡터의 크기를 결정하는 방식은 여러가지가 있다.

Lp-norm

Lp-norm의 계산식은 위와 같다. 이때 p는 데이터의 차수이다. 예를 들어, p가 1일 때의 Lp-norm(L1-norm)은 다음과 같다.

p가 2일 때의 Lp-norm(L2-norm)은 다음과 같다.

Loss

Loss란 Lp-norm을 통해 계산한 error의 크기이다. 지금까지 배운 Error 계산 공식과 L1-norm, L2-norm 계산 공식을 통해 Loss는 다음과 같다.

기계학습심화 - 2. GD, SGD, Traditional Classification Method (KNN)

Tue, 16 Apr 2024 08:01:20 GMT

Gradient Descent (경사하강법)

경사하강법을 다차원으로 확장

지난 1번 글에서 학습한 위의 W, b에 대한 경사하강법 수식을 행렬 수식으로 표현하면 다음과 같다.

이때, 마지막 항에서 Learning Rate γ를 제외한 부분이 Loss의 변화량을 벡터로 모아놓은 것이 된다.

이제 W, b, Loss(W, b)를 세 축으로 하는 3차원 공간 위에 올려보자. (왼쪽 그림) 그리고 W, b를 두 축으로 하는 2차원 평면 위에 Loss를 미분한 값에에 - 부호를 붙여서 벡터로 나타내면 다음과 같다. (오른쪽 그림, -∇Loss(W, b) )

Stochastic Gradient Descent (확률적 경사하강법)

Stochastic Gradient Descent의 필요성

위의 수식들은 각각 Loss를 W, b에 대해 미분한 것이다. 기존의 경사하강법을 컴퓨터로 계산하면 모든 데이터셋에 대한 총합을 구하는 연산을 해야 되기 때문에 계산량이 너무 많아 시간과 메모리가 너무 많이 필요하다. 이에 따라 등장하게 된 것이 바로 Stochastic Gradient Descent(확률적 경사하강법)이다.

Stochastic Gradient Descent란?

기존 Gradient Descent(이하 GD)가 전체 데이터셋을 대상으로 학습했다면, Stochastic Gradient Descent(이하 SGD)는 전체 데이터셋을 작은 데이터셋 여러 개로 쪼개서 학습한 뒤, 한 번의 학습이 끝날 때마다 W, b를 업데이트한다. 이때 전체 데이터셋을 full-batch, 쪼개진 데이터셋의 일부를 mini-batch라고 한다. SGD에서는 mini-batch 단위로 GD를 수행하며, 이를 계속 반복한다. 이때 각각의 수행을 epoch이라고 부른다.

이러한 SGD의 단점으로는 왼쪽 그림과 같이 마지막에 한 값으로 수렴하지 못하고 Oscillation(진동)이 발생한다. 이에 대한 해결책으로 일반적인 GD에서는 Learning Rate를 바꾸지 않는 것과는 달리, SGD에서는 epoch마다 점점 Learning Rate을 줄여서 최대한 한 값으로 수렴할 수 있도록 한다.

GD, SGD는 모두 W와 b를 학습하기 위한 방법들이고, 이러한 방법들에는 ADAM, RMSPROP 등 여러가지 방법이 있다. 이들을 옵티마이저라고도 부른다.

Traditional Classification Method

KNN (K- Nearest Neighbor)

KNN이란?

KNN은 Traditional Classification Method 중 하나이다. KNN은 K-Nearest Neighbor의 약자로, 새로운 데이터가 들어왔을 때 말 그대로 K개의 이웃한 점들을 기준으로 다수결 투표를 해서 Class를 결정하는 방법이다.위의 예시에서 k가 3일 때는 class2, k가 5일 때는 class1이 선택된다. 이때 K는 Hyper Parameter로, 우리가 직접 튜닝해야 되는 파라미터이다. 동점 방지를 위해 K는 주로 홀수를 택하여 사용한다.

KNN을 수행하는 절차는 위의 그림과 같다. 이때, 거리를 계산하는 방식에는 여러가지가 있는데, 아래 표를 참고하자.

위의 표에는 대표적인 Distance Metric(거리 측정법)들이 소개되어 있다. Manhattan Distance는 L1, Euclidean Distance는 L2라고도 부른다.

위의 그림을 보면서 KNN의 특징을 정리해보자.

K값에 따라 Boundary가 다르게 결정된다. 즉, 같은 데이터라도 다른 Class로 분류될 수 있다.
투표 결과 동점이 발생하는 경우, 분류가 불가능하기 때문에 사각지대가 생긴다.
평균에서 멀리 떨어진 Outlier들에 의해 Noise가 발생하기도 한다. (동그라미 친 점들)

Hyper Parameter

Hyper Parameter란, 학습 결과로는 알 수 없고, 인간이 직접 튜닝해야 되는 파라미터를 말한다. KNN에서는 K값이나 Distance Metric 등이 Hyper Parameter라고 할 수 있다. 그렇다면 Hyper Parameter를 설정하는 방법에 대해 알아보자.

먼저, 전체 데이터셋을 대상으로 학습하여 Hyper Parameter를 결정하면 새로운 데이터가 들어왔을 때 어떻게 동작할지 예측할 수 없다. 따라서, 전체 데이터셋을 Train Dataset, Validation Dataset, Test Dataset으로 나누고, Validation Dataset을 통해 Hyper Parameter를 결정하고, Test Dataset으로 성능을 검증하는 것이 더 나은 방법이다. 하지만, 학습 데이터가 매우 적은 경우에는 이렇게 하면 각 데이터셋의 다양성이 줄어들기 때문에 신뢰도가 낮아지는 문제가 발생할 수도 있다.

신뢰도가 낮아지는 문제를 해결하기 위해 고안된 방법이 (K-fold) Cross-Validation이다. Cross-Validation에서는 데이터셋을 여러 개의 fold로 나누고, 각각의 fold를 Validation Dataset으로 사용한 뒤 평균을 낸다. 이러한 Cross-Validation를 통해 Hyper Parameter를 튜닝할 수 있다. 하지만 Cross-Validation은 딥러닝에서 그렇게 많이 사용되고 있지는 않다고 한다.

KNN의 장단점

먼저, KNN의 장점으로는 Training Time Complexity가 O(1)로, 학습이 거의 필요하지 않다는 점을 꼽을 수 있다.

반면, KNN의 단점으로는 거리 측정과 다수결 투표를 매 시행마다 해야 하기 때문에 연산량이 과도하게 많다는 점이 있다. 이로 인해 수많은 메모리 공간과 계산 시간이 필요하게 된다.

기계학습심화 - 1. Linear Regression, Gradient Descent

Mon, 15 Apr 2024 16:18:37 GMT

머신러닝이란?

머신러닝의 목표

머신러닝은 input (X)로부터 ouput (Y)를 추출하도록 하는 f(x)를 찾는 과정이다. 정확한 함수를 찾는다기보다는 충분히 근사치를 도출하는 함수를 찾는 것이 머신러닝의 목표이다.

학습의 종류

학습의 종류에는 크게 네 가지가 있다. 적절한 f(x)를 찾기 위해 다음과 같은 방법 중에 택하여 학습할 수 있다. 머신러닝에서는 다음의 학습 방법 중에 상황에 맞는 학습 방법을 택하여 학습을 한다.

1. Supervised Learning (지도학습)

지도학습이란 Training Dataset에 x와 함께 Label 즉, y가 주어지는 경우이다. 학습 데이터 안에 정답을 함께 제공하는 것이다.

2. Unsupervised Learning (비지도학습)

비지도학습에서는 지도학습과는 반대로 y 없이 x만 주어진다.

3. Weekly / Semi-supervised Learning (반지도학습)

반지도학습에서는 일부 Training Dataset에는 x와 함께 y가 주어지고, 일부 Training Dataset에는 y 없이 x만 주어진다.

4. Reinforcement Learning (강화학습)

강화학습이란 action에 따른 reward(보상)을 주면서 계속 훈련시키는 것을 말한다.

Linear Regression (선형회귀)

Linear Method

위의 그림처럼 데이터를 2차원 평면 위의 점들의 집합으로 옮긴 뒤, 그 점들을 가장 잘 대표할 수 있는 적절한 f(x)를 구하기 위해서는 어떻게 해야 할까? 그 방법 중 하나로 Linear Method가 있다. f(x) = wx + b 의 형태로 설정하고 가장 적절한 w값과 b값을 찾는 방법이다. 이때 w는 slope(경사), b는 bias(편향)으로 부른다.

Regression vs Classification

Regression은 데이터의 경향성을 가장 잘 나타낼 수 있는 선을 찾는 행위이며, 데이터의 패턴을 분석할 때 주로 사용한다. 이와 달리 Classification은 데이터를 분류할 수 있는 구분선을 찾는 행위이며, 클래스를 나눌 때 주로 사용한다.

Linear Regression

본론으로 돌아와서, Linear Method와 Regression에 대한 이해를 바탕으로, Linear Regression(선형회귀)은 선형의 경향성을 가장 잘 나타내는 선을 찾는 행위임을 알 수 있다.

선형회귀가 사용되는 경우는 정말 많은데, 주로 두 변수의 관계를 분석하는 경우에 주로 사용된다. 예를 들어, 부모와 키와 자식의 키의 관계를 예측하는 것이나 기업의 순이익과 주가와의 관계를 분석하는 경우 등에서 선형회귀가 사용된다.

위의 그림과 같이 세 개의 점이 주어져있다고 하자. 선형회귀에서는 파란색으로 표시된 오차의 제곱의 합을 최소로 하는 f(x)를 찾는 것을 목표로 한다. 이때, 오차의 제곱인 (y - f(x))^2 의 총합을 일반화한 식은 다음과 같다.

이 Loss를 최소로 만드는 W값과 b값을 구하기 위한 방법이 바로 Gradient Descent(경사하강법)이다.

Gradient Descent (경사하강법)

경사하강법은 반복을 통한 최적화 알고리즘이다. 미분값에 반대 부호를 붙여 기울기의 반대 방향으로 이동함으로써 기울기가 0인 지점으로 수렴하는 것이 목적인 알고리즘이다. 이때 γ_w와 γ_b는 Learning Rate이라고 한다.

위의 그림에서 확인할 수 있다시피, Starting point에서 출발하여 기울기의 반대방향으로 계속 이동하다보면 언젠가는 기울기가 0인 지점에 수렴한다는 것이 경사하강법의 아이디어이다.

Learning Rate는 Hyper Paramenter로서, 우리가 직접 튜닝해줘야 하는 파라미터이다. Learning Rate가 너무 작으면 최저점을 찾는데 너무 오래 걸리고, Learning Rate가 너무 크면 최저점으로 수렴하지 못하고 발산할 수 있기 때문에 적절한 Learning Rate를 설정하는 것이 결과에 지대한 영향을 준다고 한다.

이러한 경사하강법은 Global minimun에 도달하지 못한 채 Local minimun에 수렴해 갇혀버리는 경우가 대부분인데, 이것만으로도 충분히 유의미한 결과를 도출할 수 있다고 한다.

기계학습심화 - 0. Intro

Mon, 15 Apr 2024 07:20:26 GMT

Velog를 쓰게 된 계기

작년 한 해 동안 Django를 이용한 백엔드 개발과 iOS 앱 개발 등 진로 탐색을 위해 열중했지만, 기록의 필요성을 알지 못해 기억이 빠르게 휘발되는 것을 느꼈다. 늦었다고 생각했을 때가 가장 빠르다는 생각으로 지금부터 배우는 것들은 확실하게 내 것으로 만들고자 Velog를 시작하게 되었다.

AI와 딥러닝이라는 키워드는 이제 더 이상 미래의 이야기가 아닌 현재의 이야기가 되었다. 특히, OpenAI 사의 ChatGPT 3.5 공개를 기점으로 LLM의 상용화가 급속도로 이루어지면서 사람들의 삶의 방식이 많이 달라진 것을 체감할 수 있다. 이러한 배경에서 미래에 무슨 일을 하던 간에 AI가 무엇인지 정확히 이해하고 잘 사용할 줄 알아야만 한다는 필요성을 느끼게 되었고, 이에 따라 기계학습심화 과목을 수강신청하여 수강하게 되었다. 한 학기 동안 수강하며 알게 된 것들을 정리하며 복습하고자 한다.

AI, ML, CV, DL 이란?

AI(Artificial Intelligence), ML(Machine Learning), CV(Computer Vision), DL(Deep Learing) 등의 용어들은 지난 방학 동안 무료 강의들을 통해 데이터분석을 학습하며 한 번씩은 들어봤던 것들이다. 하지만, 각각의 뜻과 서로 무엇이 다른지 정확히 설명하라고 하면 자신이 없었다. AI(Artificial Intelligence)는 말 그대로 사람의 지능을 모방하는 모든 것을 통칭한다. CV(Computer Vision)는 사람의 눈을 모방하고자 만든 것으로, 이미지 인식 등에 사용된다. ML(Machine Learning)은 AI를 구현하는 방법론이다. 이때 AI 구현 방법은 데이터를 통한 학습으로 이루어진다. DL(Deep Learing)은 ML에 속하면서 CV와도 겹치는 것으로, ML의 일부이다. 이 강의에서는 DL 중 CV와의 교집합에 포함되는 영역 즉, '딥러닝을 활용해서 컴퓨터비전 문제를 푸는 것'에 대해 주로 다룬다.

활용 분야

이 강의에서 다루는 분야의 활용 분야에 대해 알아보자. 자율주행, 공장 자동화, 얼굴 인식, 생체 인식 시스템, 문서 인식, 문자 인식, 사물 인식, 의료 진단, 언어 모델(ex. ChatGPT) 등 이미 셀 수 없이 많은 분야에서 사용되고 있다.

기계를 어떻게 학습시킬까?

기계가 인식하는 데이터

컴퓨터 입장에서 데이터는 숫자의 모음일 뿐이다. 이미지 데이터는 픽셀의 RGB 값이다. 위의 그림에서처럼, 인간의 눈을 통해 2D 이미지로 인식되는 저것은 컴퓨터에게는 단지 픽셀의 RGB 값들의 집합일 뿐이다.

Rule-based 방식과 ML/DL 방식

논리 구조에 따라 선택되는 Rule-based 방식과는 다르게, ML/DL 방식은 데이터를 이용한 학습을 통해 정립된 함수 계산을 통해 결과를 도출한다. 위의 도식을 보면, 머신러닝 과정에는 조건식에 따른 분기가 없는 것을 확인할 수 있다. ML/DL의 복잡한 결과 도출 과정은 아래 그림을 통해 이해할 수 있다.