머신러닝/딥러닝/추천/랭킹

[텍스트 임베딩] one-hot encoding의 한계점과 word2vec

Wed, 03 Jul 2024 11:54:34 GMT

텍스트 임베딩은 단어를 벡터로 변환하여 기계 학습 모델이 이해할 수 있도록 하는 중요한 과정입니다.

이 과정에서 사용되는 원-핫 인코딩(one-hot encoding)의 한계점과 word2vec의 장점은?

One-Hot Encoding의 한계점

차원의 저주 (Curse of Dimensionality)

One-hot encoding에서는 단어의 개수만큼 차원이 생깁니다. 예를 들어, 10,000개의 단어가 있는 어휘 집합이 있다면, 각 단어는 10,000차원 벡터로 표현됩니다. 이는 매우 고차원으로, 데이터의 희소성(sparsity) 문제를 야기합니다.

의미 정보 부족

One-hot encoding에서는 단어 간의 의미적 유사성을 반영하지 않습니다. 예를 들어, '고양이'와 '강아지'는 의미적으로 유사하지만, one-hot 벡터에서는 완전히 독립적이고 아무런 연관성이 없는 벡터로 표현됩니다.

메모리 비효율성

고차원 벡터는 많은 메모리를 차지합니다. 대부분의 원소가 0이기 때문에, 실제로는 비효율적입니다.

확장성 문제

새로운 단어가 추가될 때마다 벡터의 차원이 늘어나야 하므로, 실시간 또는 동적인 어휘 집합에 대해 적용하기 어렵습니다.

Word2Vec의 장점

저차원 임베딩

Word2Vec은 단어를 고정된 크기의 저차원 밀집 벡터(dense vector)로 변환합니다. 일반적으로 100-300차원의 벡터를 사용하므로, 차원의 저주 문제를 극복할 수 있습니다.

의미적 유사성 반영

Word2Vec은 단어의 의미적 유사성을 반영합니다. 예를 들어, '고양이'와 '강아지'는 Word2Vec 벡터 공간에서 가까운 위치에 있게 됩니다. 이는 Word2Vec이 단어의 주변 맥락(context)을 학습하여 유사한 맥락에서 사용되는 단어들이 유사한 벡터를 갖도록 하기 때문입니다.

메모리 효율성

저차원 밀집 벡터로 표현되기 때문에 메모리를 효율적으로 사용할 수 있습니다. 이는 특히 대규모 텍스트 데이터셋을 다룰 때 큰 장점입니다.

확장성

Word2Vec 모델은 새로운 단어가 추가되더라도 기존 모델을 유지하면서 새로운 단어에 대해 벡터를 학습할 수 있습니다. 또한, 사전 학습된 Word2Vec 모델을 다양한 자연어 처리 작업에 전이 학습(transfer learning) 형태로 사용할 수 있습니다.

다양한 활용 가능성 Word2Vec 벡터는 단어 유사도 계산, 군집화, 차원 축소 및 다양한 자연어 처리 작업에 유용하게 사용될 수 있습니다.

이러한 이유들로 인해, Word2Vec은 많은 자연어 처리(NLP) 작업에서 원-핫 인코딩을 대체하여 사용되고 있습니다. Word2Vec은 단어 간의 의미적 관계를 보다 잘 반영하여, 자연어 이해와 처리 성능을 크게 향상시킬 수 있습니다.

임베딩레이어란? (embedding layer)

Tue, 02 Jul 2024 14:21:20 GMT

딥러닝에서 임베딩 레이어(embedding layer)는 텍스트나 범주형 데이터와 같은 이산형(discrete) 데이터를 연속적인 벡터 공간으로 변환해주는 역할을 합니다.

주로 자연어 처리(NLP)에서 많이 사용되며, 단어, 문장, 문서와 같은 텍스트 데이터를 수치화하여 컴퓨터가 이해할 수 있는 형태로 변환합니다.

임베딩 레이어는 일반적으로 딥러닝 모델의 첫 번째 레이어로 사용되며, 입력 데이터를 특정 차원의 밀집 벡터(dense vector)로 매핑합니다. 이 과정에서 단어나 범주는 고유한 인덱스를 가지고 있으며, 각 인덱스는 임베딩 레이어를 통해 해당 단어나 범주에 대응하는 실수값 벡터로 변환됩니다.

예를 들어, 단어 "apple"이라는 텍스트를 임베딩 레이어를 통해 100차원의 벡터 [0.5, -0.3, 0.1, ...]로 매핑할 수 있습니다. 이렇게 변환된 임베딩 벡터는 해당 단어의 의미와 특성을 반영하며, 유사한 의미를 가진 단어들은 벡터 공간 상에서 서로 가까이 위치할 가능성이 높습니다.

임베딩 레이어는 데이터의 밀도를 높이고, 불필요한 차원을 줄이며, 딥러닝 모델의 성능을 향상시키는 데 기여합니다. 또한, 사전 훈련된 임베딩을 사용하면 일반화 성능을 향상시킬 수 있으며, 특정 작업에 맞게 임베딩을 Fine-tuning 할 수도 있습니다.

loss function 종류

Tue, 02 Jul 2024 14:17:30 GMT

딥러닝에서 손실 함수(loss function)는 모델의 예측값과 실제값 사이의 차이를 측정하여 모델이 얼마나 잘 작동하는지를 평가하는 데 사용됩니다. 대표적인 손실 함수들을 살펴보겠습니다.

1. 평균 제곱 오차 (Mean Squared Error, MSE)

회귀 문제 설명: 예측값과 실제값 사이의 차이의 제곱을 평균한 값입니다. 차이의 제곱을 사용하므로 큰 오류가 더 크게 반영됩니다.

2. 평균 절대 오차 (Mean Absolute Error, MAE)

회귀 문제 설명: 예측값과 실제값 사이의 절대 차이를 평균한 값입니다. MSE와 달리 큰 오류에 덜 민감합니다.

3. 교차 엔트로피 손실 (Cross-Entropy Loss)

분류 문제 설명: 예측 확률 분포와 실제 클래스의 분포 사이의 차이를 측정합니다. 주로 이진 분류와 다중 클래스 분류에 사용됩니다.

이진 교차 엔트로피

이진 분류 문제에 사용되며, 두 클래스 간의 교차 엔트로피를 계산합니다.

범주형 교차 엔트로피

다중 클래스 분류 문제에 사용됩니다.

4. 후버 손실 (Huber Loss)

회귀 문제 설명: MSE와 MAE의 장점을 결합한 손실 함수입니다. 작은 오류에 대해서는 MSE처럼 동작하고, 큰 오류에 대해서는 MAE처럼 동작합니다.

5. Hinge Loss

서포트 벡터 머신(SVM)에서 주로 사용 설명: 분류 문제에서 사용되며, 올바른 클래스의 예측 점수가 충분히 크도록 유도합니다.

6. Kullback-Leibler Divergence (KL Divergence)

확률 분포 비교 설명: 두 확률 분포 사이의 차이를 측정합니다. 주로 분포의 유사성을 평가할 때 사용됩니다.

XGboost / LightGBM / CatBoost

Tue, 02 Jul 2024 13:54:00 GMT

XGBoost (2014), LightGBM (2017), CatBoost(2018)는 모두 그라디언트 부스팅(Gradient Boosting) 알고리즘을 기반으로 하지만, 각기 다른 최적화와 특징을 가지고 있습니다.

각 모델은 어떤 특징을 가지고있으며 어떤 데이터에 좋은 성능을 보일까요?

XGBoost

XGBoost (Extreme Gradient Boosting)는 성능과 효율성을 고려하여 설계된 그라디언트 부스팅 프레임워크입니다.

Regularization

L1 및 L2 정규화를 사용하여 모델의 복잡도를 제어하고 과적합을 방지합니다.

Parallel Processing

병렬 처리를 통해 학습 속도를 크게 향상시킵니다.

Tree Pruning

"최소 손실을 고려한 가지치기" 방법을 사용하여 불필요한 노드를 제거하고 트리를 최적화합니다.

Handling Missing Values

결측값을 자동으로 처리하여 데이터 전처리의 부담을 줄입니다.

좋은 성능을 보이는 데이터

(1) 크고 복잡한 데이터셋

XGBoost는 매우 큰 데이터셋과 복잡한 특징을 가진 데이터에 대해 잘 작동합니다.

(2) 다양한 타입의 문제

분류, 회귀, 순위 예측 등 다양한 문제에 효과적입니다.

(3) 정형 데이터

특히 테이블 형식의 정형 데이터에 대해 좋은 성능을 보입니다.
LightGBM

LightGBM (Light Gradient Boosting Machine)은 마이크로소프트에서 개발한 그라디언트 부스팅 프레임워크로, 학습 속도와 메모리 사용을 최적화한 것이 특징입니다.

Leaf-wise Tree Growth

전통적인 level-wise 방식 대신 leaf-wise 방식을 사용하여 트리를 확장합니다. 이는 더 깊고 예측력이 높은 트리를 생성합니다.

Histogram-based Algorithm

연속형 변수를 히스토그램으로 변환하여 연산 효율성을 높입니다.

Categorical Feature Handling

범주형 변수를 자동으로 처리하여 효율성을 높입니다.

좋은 성능을 보이는 데이터

(1) 대규모 데이터셋

LightGBM은 특히 매우 큰 데이터셋에서 빠르고 효율적인 학습을 제공합니다.

(2) 많은 특징을 가진 데이터

많은 수의 특징을 가진 데이터에서도 잘 작동합니다.

(3) 온라인 학습

실시간 데이터와 온라인 학습 시나리오에서 유용합니다.

CatBoost

CatBoost (Categorical Boosting)는 Yandex에서 개발한 그라디언트 부스팅 프레임워크로, 범주형 데이터를 효과적으로 처리하는 데 초점을 맞추고 있습니다.

Categorical Feature Handling

범주형 변수를 자동으로 처리하여 원-핫 인코딩 없이도 범주형 변수의 정보를 잘 반영합니다.

Ordered Boosting

부스팅 과정에서 데이터 순서를 고려하여 과적합을 방지합니다.

Robustness to Overfitting

과적합에 강한 모델을 제공하며, 작은 데이터셋에서도 잘 작동합니다.

좋은 성능을 보이는 데이터

(1) 범주형 변수가 많은 데이터

CatBoost는 범주형 변수가 많은 데이터에 대해 매우 좋은 성능을 보입니다.

(2) 작고 복잡한 데이터셋

상대적으로 작은 데이터셋에서도 좋은 성능을 발휘합니다.

(3) 정형 데이터

테이블 형식의 데이터에서 특히 강력한 성능을 보입니다.

요약

XGBoost

매우 큰 데이터셋과 복잡한 특징을 가진 데이터에 적합하며, 정형 데이터에 대해 좋은 성능을 보입니다.

LightGBM

학습 속도와 메모리 사용이 최적화되어 있어 대규모 데이터셋과 많은 특징을 가진 데이터에 적합합니다.

CatBoost

범주형 변수가 많은 데이터와 상대적으로 작은 데이터셋에서도 좋은 성능을 발휘하며, 범주형 변수를 효과적으로 처리합니다.

Min-Max정규화, Max정규화 차이

Tue, 02 Jul 2024 13:28:05 GMT

Min-Max 정규화와 Max 정규화는 데이터의 스케일을 조정하는 방법으로, 머신 러닝 모델의 성능을 향상시키기 위해 자주 사용됩니다.

보통 Min-Max 정규화가 주로 사용되지만 어떠한 경우에 Max 정규화가 필요할까요?

Min-Max Normalization

Min-Max 정규화는 데이터를 특정 범위로 조정하는 방법입니다. 일반적으로 0과 1 사이로 조정합니다. 이 방법은 데이터의 최소값을 0으로, 최대값을 1로 맞추고 나머지 값들을 비례적으로 변환합니다.

Max Normalization

Max 정규화는 데이터의 최대값을 기준으로 데이터를 정규화하는 방법입니다. 이 방법에서는 모든 값을 데이터의 최대값으로 나누어 범위를 0과 1 사이로 맞춥니다.

차이점

범위

Min-Max 정규화는 데이터의 최소값과 최대값을 0과 1로 맞추지만, Max 정규화는 최대값을 1로 맞춥니다.

변화량

Min-Max 정규화는 모든 데이터의 범위가 동일하게 변하지만, Max 정규화는 각 값이 최대값에 대해 상대적으로 변합니다.

Max 정규화가 유리한 Case

특정 피처의 상대적인 크기만 중요할 때

데이터에서 각 피처의 상대적인 크기만 중요하고, 절대적인 범위가 크게 중요하지 않을 때 유용합니다. 예를 들어, 어떤 값이 전체에서 차지하는 비율이 중요할 때 사용할 수 있습니다.

스파스 데이터(sparse data)

데이터의 대부분 값이 0이고, 소수의 큰 값이 있는 경우 Max 정규화가 효과적일 수 있습니다. 이러한 경우 Min-Max 정규화는 극단적인 값들에 의해 왜곡될 수 있습니다.

빠르게 변화하는 데이터

데이터가 지속적으로 빠르게 변화하는 환경에서 최대값에 대해 상대적으로 정규화하는 것이 더 유용할 수 있습니다. 예를 들어, 실시간으로 변하는 센서 데이터나 주식 가격 등에서 사용할 수 있습니다.

계산의 간소화

Max 정규화는 계산이 간단하여 빠르게 처리할 수 있습니다. 따라서 계산 자원이 제한된 환경에서 유리할 수 있습니다.