s_gyu.log

[Paper Review] - Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting(AAAI, 2025)

Thu, 29 May 2025 03:24:20 GMT

[Main contribution]

장기 시계열 예측 문제에서 MLP에 Patching을 적용한 PatchMLP라는 새로운 모델을 제안
Transformer가 장기 시계열 예측(Long-Term Time Series Forecasting, LTSF) 과제의 해법이 될 수 있는지 회의적.
패치 메커니즘을 적용한 간단한 선형 계층(linear layer)이 복잡한 Transformer 기반 LTSF 모델을 능가할 수도 있음을 시사.
다중 스케일 패치 임베딩(Multi-Scale Patch Embedding, MPE) 방식 제안: 단일 스케일이 아닌 다양한 크기의 패치를 활용
- 짧은 길이의 패치를 통해 국소적 패턴 포착
- 긴 길이의 패치는 계절성, 추세 같은 장기 패턴을 포착
- 서로 다른 스케일의 패치를 함께 사용하면, 다양한 기간 길이에 걸친 대표 특징을 유연하게 학습할 수 있어 예측 정확도와 일반화 능력이 향상
저자는 원본 시계열에 내재된 지나치게 복잡한 시간적 관계가 단순한 분해 기술로는 효과적인 결과를 얻을 수 없으며, Latent Vector Decomposition으로 이러한 문제를 우회할 수 있다고 주장

[Patch]

패치는 데이터를 압축하고 입력 차원을 줄이며 중복 특징을 감소시킴.
또한 패치는 일종의 스무딩 효과를 제공하여 이상치(outlier)의 영향을 어느 정도 줄이고, 시계열의 불규칙한 변동과 랜덤 노이즈를 걸러내면서 더 안정적이고 대표적인 정보를 유지할 수 있음.

[PatchMLP]

[Multi-Scale Patch Embedding]

Patching
- 각 변수별로 원시 시계열을 서로 다른 길이의(스케일)의 패치를 만듬
embedding
- 각 패치를 embedding 레이어를 통과시켜 고정 차원 D의 벡터로 변환
- 이 과정에서 패치 내 시간축 정보가 압축되어, 패치 하나당 하나의 임베딩 벡터가 생성
flatten & concat
- 임베딩된 D차원의 벡터를 1차원으로 flatten시켜 Token으로 만듬
- 한 변수 내 각 스케일의 토큰을 concat하여 하나의 긴 토큰 시퀀스를 만듬.
Concat (변수 간)
- 변수 A의 긴 토큰 시퀀스, 변수 B의 긴 토큰 시퀀스, … 를 차례대로 concat하여
- 전체 변수에 걸친 하나의 긴 토큰 시퀀스 구성

[Feature Decomposition]

$X_s = \mathrm{AvgPool}(X)$

$X_r = X - X_s$

생성된 토큰 시퀀스에 대해 Average Pooling 연산을 수행하여 “스무딩된 추세(Smooth Component)”를 추출
- → 데이터의 변동과 노이즈를 줄임
- 스무딩 과정에서 시계열의 길이가 변하지 않도록 패딩(padding) 연산을 적용
잔차 성분 계산 (Residual Component)
- 원본 토큰 시퀀스에서 스무딩된 추세를 빼서 잔차 성분 계산
  
  💡
  이렇게 하면
- Xs에는 “장기적 추세나 완만한 변화” 정보가 담기게 됨.
- Xr에는 “단기적 변동·노이즈” 정보가 담기게 됨.

두 경로 분기
- 이렇게 분해된 두 종류의 토큰(추세, 잔차)이 병렬로 준비되어,
- 스무딩된 추세 Xs는 “위쪽” MLP Layer 블록으로만 가고,
- 잔차 성분 Xr는 “아래쪽” MLP Layer 블록으로만 감.

[MLP Layer]

[Inter-Variable MLP]:

fully connected layer - GELU - dropout 구조
“한 시점에 걸친” 다변량 시계열(MTS) 변수들 간의 상호 영향을 모델링하는 것을 목표
한 시점에 걸친 모든 변수 값을 하나의 입력 벡터로 보고, 변수들 간의 상호작용을 학습하는 MLP 블록

[Intra-Variable MLP]:

fully connected layer - GELU - dropout 구조
단일 변수의 시간축 상관 패턴(추세·주기·의존성 등) 학습

실험

[Paper Review] - Not All Data are Good Labels: Onthe Self-supervised Labeling for Time Series Forecasting(2025.02)

Mon, 31 Mar 2025 07:59:51 GMT

[Main Contribution]

Self-supervised leaerning을 활용한 라벨 보정 :
- 기존의 원시 라벨(raw labels)이 가진 노이즈와 과적합 문제를 완화하기 위해, 재구성(reconstruction) 네트워크를 이용하여 후보 데이터셋(candidate datasets)을 생성하고, 이로부터 얻은 pseudo-label로 예측 모델을 보정하는 새로운 패러다임 제시
SCAM (Self-Correction with Adaptive Mask):
- 재구성 과정 중 과적합된 구성요소를 식별하여 해당 부분의 라벨을 선택적으로 대체함으로써, 모델이 더 일반화된 정보를 학습하도록 유도.
- 기존의 강제적인 라벨 대체 대신, 데이터 내에서 ‘어디서’ 수정이 필요한지를 적응적으로 판단하는 마스크(Mask) 기법 도입.
Spectral Norm Regularization (SNR) 적용:
- 모델의 파라미터(특히, 선형 계층)에 SNR을 적용하여 과적합 문제를 추가적으로 억제하고, 안정적인 학습을 도모.
Detailed Analysis :
- 예측기로 다양한 백본 모델(MLP기반, transformer기반) 사용과 여러 데이터셋에 대해 성능 향상을 확인.

[문제점]

딥러닝기반 시계열 예측 방법들은 여전히 과적합, 고품질 데이터셋에 대한 의존, 데이터가 작거나 노이즈가 많을때 제대로 학습하기 어렵

→ 이로 인해 모델이 잘못된(과적합된) 라벨에 너무 의존하게 될 수 있음.
실제 시계열 데이터는 노이즈, 이상치, 불규칙 이벤트 등이 있어 모든 라벨이 정확하지 않을 수 있다.

[해결 아이디어]

일반적으로 TSF(Time Series Forecasting) 모델들은 데이터셋이 작거나 노이즈가 많은 경우에 어려움을 겪음

1. Initial Case - gridsearch

| 재구성 네트워크 $g(\cdot; \phi)$ : 원시 타깃 시계열 $Y$를 점진적으로 재구성

재구성 네트워크 $g$는 풀배치(Full-Batch) 경사하강법으로 학습. 이때 손실은
예측 모델 $f(\cdot; \theta)$ (여기서는 MLP 같은 간단한 모델)은 미니배치 SGD로 학습. 각 에폭(학습 단계)마다, $g(\cdot; \phi_i)$를 “현재 상태”로 고정하고, 그 상태로 만든 데이터셋 $D_i$를 사용해 예측 모델 $f(\cdot; \theta)$를 학습.

→ 2단계

Grid Search 방식으로도 후보 데이터셋을 생성해 볼 수 있으나, 학습 안정성과 비용 측면에서 비효율적.
훈련 곡선이 불안정하여, 잠재적으로 우수한 후보 데이터셋($g(⋅;ϕ)$ 관점에서) 놓칠 수 있다.

2. Co-objective Training(공동 최적화)

그리드 탐색은 최적 후보 데이터셋을 찾기 위해 두 개의 별도 목표(재구성 최적화, 예측 최적화)가 얽힌 2단계 최적화 과정으로 구성

후보 데이터셋을 하나씩 따로 만들어서 각각 예측기를 학습하는 방식(grid sesarch)은 매우 비효율적
그래서 논문에서는 재구성 네트워크$g(⋅;ϕ)$와 예측기( $f(\cdot; \theta)$)를 동시에 업데이트.

💡
이렇게 하면 g가 만드는 후보 데이터셋과 그 데이터셋으로 학습된 예측기의 성능이 서로 영향을 주면서, 둘다 점진적으로 개선.

[하나의 통합 loss function 사용]

재구성 네트워크 g가 원래 데이터 y와 가깝도록 학습 & 동시에 예측 모델 f가 g가 만들어낸 $\tilde{y}$에 잘 맞추도록 최적화
- 그 결과 재구성된 라벨($\tilde{y}$)과 실제 라벨(y)의 차이가 줄어들 뿐만 아니라, 예측 모델이 재구성된 라벨을 잘 학습하게 되어 전체적으로 예측 성능이 좋아지는 효과

[gradient 제약과 정규화 효과]

재구성된 라벨 $\tilde{y}$가 $\theta$와 $\phi$의 업데이트에 대해 너무 민감하게 반응하지 않도록, 그라디언트의 크기가 $\delta$ 이하로 유지되도록 제약을 걸어둠.
이렇게 하면 학습 과정에서 $\tilde{y}$가 지나치게 급격하게 변하지 않도록 안정성을 확보할 수 있음.
co-objective training이 진행됨에 따라 과적합 위험이 커지지만
- 이 과적합 문제 해결을 위해 SCAM과 SNR를 제안

3. Self-Correction with Adaptive Mask (SCAM)

[Loss function]

지도 손실(supervised loss) + 보조손실(Auxiliary loss)

보조 손실의 역할 : 예측기 $\hat{y}$가 보정된 라벨 $\tilde{y}$에 가까워지도록 학습시키면서, 동시에 $\tilde{y}$와 원래 라벨 $y$ 사이의 관계를 반영하도록 유도.

(4)의 수식은 L2 norm(MSE) 버전

(5)의 수식은 L1 norm(MAE) 버전
- 논문에서는 MAE를 쓰면 에러에 더 견고해지는 장점이 있다고 말함.

[마스크 기반의 최종 Loss function]

[notation]

마스크한다 = 과적합 된 부분

$m: (\tilde{y} - \hat{y})(\tilde{y} - y)$로 정의되어, $\tilde{y}$가 $\hat{y}$와 $y$를 같은 쪽에서 바라보는지(양수) 혹은 교차하는지(음수/0)를 나타냄.
$M: { m > 0 }$ 여부로 정의된 이진 마스크. $M$=1 적용
$\bar{M} = { m \le 0 }$ 이 아닌 부분. $M$=0 적용
$M_<$: ${, |\tilde{y} - \hat{y}| < |\tilde{y} - y| ,}$를 만족하는 이진 마스크. 조건이 만족되면 $M_<$=1
- $M_<$는 보정이 과도하지 않도록, 즉 $\tilde{y}$가 예측값 $\hat{y}$ 쪽에 적절히 가깝게 위치하는지를 판단하는 역할
$\overline{M_<}$: $M_<$가 아닌 지점(조건을 만족하지 않는 지점), $M_<$=0

[SCAM의 최종 목표]

예측 모델의 출력 $\hat{y}$가 보정된 라벨 $\tilde{y}$에 가까워지도록 만드는 것.
즉, 모델이 정제된 라벨 정보를 효과적으로 학습하여 노이즈나 이상치에 의한 오류를 줄이고, 안정적이고 정확한 예측을 할 수 있도록 하는 것이 핵심.
다만, 동시에 $\tilde{y}$는 원래 라벨 $y$의 핵심 정보를 보존해야 하므로, 두 요소가 균형을 이루는 것이 중요

4. Spectral Norm Regularization(SNR)

MLP 모델 같은 단순 모델은 그라디언트 값이 작아 쉽게 수렴하지만, Transformer 기반 모델에서는 예측 오차가 주로 $\ell_{\text{pred}}$(예측 손실)에서 발생하는 경향.

Transformer처럼 복잡한 모델의 경우, 2차 도함수를 계산하는 그라디언트 페널티 방식은 계산 비용이 많이 들기 때문에, 더 간단하고 직접적인 방법이 필요

SNR은 모델의 가중치 $W$를 정규화하여, 파라미터의 크기가 너무 커지지 않도록 조절. 여기서 $|W|_2$는 가중치 행렬의 spectral norm (가장 큰 고윳값)이며, $\gamma$는 학습 가능한 스케일 인자. 이렇게 하면, 가중치가 너무 커져서 손실 함수가 지나치게 뾰족해지는것을 방지, 이로 인해 과적합을 줄일 수 있음.

5. 실험

논문에서는 실험에서 세 가지 주요 질문을 다룸.

Q1: SCAM이 다양한 백본 모델과 특징이 다른 데이터셋에서 효과적인가?
Q2: SCAM과 SNR이 모델 성능 개선에 어떻게 기여하는가?
Q3: 자기지도 재구성 과업이 예측 모델에 어떤 이점을 제공하는가?

데이터셋

Electricity, Weather, Traffic
네 개의 ETT 데이터셋(ETTh1, ETTh2, ETTm1, ETTm2) : 전력 변압기 온도 데이터

[예측기 모델들(f)] - MLP: (Li et al., 2023)에서 제시한 vanilla 2-레이어 모델로, RevIN(Kim et al., 2021)이 적용됨. - CYCLENET: (Lin et al., 2024b)에서는 주기적 추세(cyclic trend)를 명시적으로 포착하는 SOTA MLP 기반 모델 - PATCHTST(Nie et al., 2022)와 ITRANSFORMER(Liu et al., 2024b)는 각각 채널 독립적(channel-independent) 방법과 채널 종속적(channel-dependent) 방법을 대표하는 Transformer 기반 모델

5.1. 주요 실험(Q1)

Q1: SCAM이 다양한 백본 모델과 특징이 다른 데이터셋에서 효과적인가?

[SCAM+SNR] → 모든 주요 예측 모델에서 일관된 성능 향상이 있었다?

Transformer 기반 모델(예: PATCHTST와 ITRANS)은 일반적으로 이러한 데이터셋에서 경량 모델(MLP, CYCLENET)에 비해 성능이 낮았으나, SCAM을 적용함으로써 일반화 성능이 크게 향상

5.2 Ablation Study (Q2)

Q2: SCAM과 SNR이 모델 성능 개선에 어떻게 기여하는가?
ITRANS(Transformer 기반)와 CYCLENET(MLP 기반)을 대표 모델로 하여 ablation study를 수행

논문에서는 SCAM은 성능 향상의 주된 원동력으로 작용하며, SNR은 독립적인 방법으로도 성능을 향상시키지만 주로 SCAM을 보완하는 역할이라고 함.

[IN-DEPTH EXAMINATION ON SNR]

손실 지형(loss landscape)을 분석하여 SNR의 효과를 추가로 검증
ITRANS 모델의 다양한 구성 요소(Embedding, Encoder, Projector에 대해 SNR을 적용했을 때와 적용하지 않았을 때의 샤프니스를 비교

SNR 없이 사용하면 Embedding(입력 선형 계층)이 가장 높은 샤프니스를 보여 과적합되었음을,
pre-SNR, post-SNR, 그리고 두 영역 모두에 SNR을 적용했을 때 샤프니스가 낮아져서 손실 지형이 부드러워진 것을 확인할 수 있음.

SNR의 다양한 변형에 따른 성능(MSE) 비교 결과
post-SNR 또는 두 영역 모두에 SNR을 적용하는 방법이 가장 효과적이라는 결론

5.3. SCAM: A Multiple Instance Learning View (Q3)

Q3: 자기지도 재구성 과업이 예측 모델에 어떤 이점을 제공하는가?

SCAM은 구간별로 노이즈 수준이나 과적합 여부를 판단해, 재구성($\tilde{y}$)과 예측($\hat{y}$) 중 어느 쪽에 더 중점을 둘지 결정.

6. Conclusion

self supervised 접근 방식인 SCAM을 제안
중간 재구성 결과에서 얻은 의사 라벨(pseudo labels)을 통해 과적합된 구성 요소들을 선택적으로 대체함으로써 TSF(Time Series Forecasting) 모델을 개선
SNR과 결합함으로써, SCAM은 다양한 TSF 모델 전반에서 일반화 성능 향상

[Paper Review] - W-MSE(Whitening Mean Squared Error, 2021, ICML)

Mon, 17 Mar 2025 12:21:13 GMT

[Main Contribution]

Whitening MSE(W-MSE)라는 새로운 Self supervised learning loss function을 제안.
- 배치 샘플을 구형 분포(spherical distribution)에 놓이도록 제약하며, 기존 positive-negative instance contrastive learning기반 방법론 대체 가능
negatives 샘플들을 필요로 하지 않기 때문에, 배치 내에서 더 많은 positive 샘플을 포함할 수 있다.
- (실험적으로 하나의 이미지에서 다수의 양성 샘플을 추출하는 것이 성능을 향상시킴을 입증)
기존 contrastive loss 방법론보다 뛰어난 성능을 보이며, 최신 self supervised learning 방법들과 비교했을때 경쟁력이 있다. (vs BYOL(2020), SimSiam(2020))

cf) collapse(개념 숙지!!)

argumentation에서 뽑은 두 embedding vector 사이의 MSE가 줄어들도록 학습을하면

ex) [1,1,1], [1,1,1] 이런식으로 되면 encoder 가 의미있는 정보를 못뽑음.
- Encoder(인코더)가 의미 있는 특징 벡터를 추출해야 하는데, Collapse가 발생하면 제대로 추출하지 못함.
- 우리는 그 Encoder를 학습시켜서 각각의 입력 데이터에 대해 의미 있는 표현(embedding)을 생성하도록 만듦.
- 하지만 Collapse가 발생하면 → Encoder가 모든 입력 데이터에 대해 거의 동일한 벡터를 반환하게 됨 → 모델이 구별할 수 있는 정보가 사라짐.

[The Whitening MSE Loss]

문제점

contrasive learning 문제점

negative sample을 확보하는것이 어려움.

non contrastive learning(distiliation method)

positive pair만을 가지고 학습할 경우 생기는 collapse를 방지하기 위해 asymmetric architecture, stop gradient(distiliation 방법론)등의 구조적 제약이 존재

[overview]

notation

x : image
d : 데이터 증강 횟수
E(⋅) : ResNet
h : average pooling
g(⋅) : BN(Batch Normalization) 레이어가 포함된 1개의 은닉층을 가진 MLP
z : whitening transform 적용한 임베딩 벡터

[objective function & constraints]

positive pairs 사이의 거리 를 최소화
임베딩 벡터 z의 공분산 행렬이 단위 행렬이 되도록

→ 이를 통해 collapse 방지.

1. [Whitening transformation]

$\mu_V = \frac{1}{K} \sum_k v_k$

$\Sigma_V = \frac{1}{K - 1} \sum_k (v_k - \mu_V)(v_k - \mu_V)^T$

$W_V^T W_V = \Sigma_V^{-1}$

모든 embedding vector를 평균이 0이고, 공분산 행렬이 단위 행렬인 분포로 변환하는 선형변환
Whitening transformation을 통해 임베딩 벡터 V를 Z벡터로 선형변환

[Loss function]

[Batch slicing]

모든 데이터에 한번에 whitening transform을 적용하는것이 아님
배치에 따라 구해지는 $\mu_V$, $W_V$가 다르기 때문에 안정성을 위해 batch slicing 기법을 제안
d : 한 이미지에서 생성된 양성 샘플수(데이터 증강 횟수)

[학습의 불안정성?]

배치 크키가 작을경우 공분산 행렬이 불안정해져서 학습이 불안정 할 수 있지만

→ 이 과정을 같은 배치내에서 여러 번 반복하여 평균을 냄

→ Whitening 행렬이 특정 샘플에 과하게 의존하지 않도록 학습 가능.

실험

데이 증강 횟수(d)가 2일때, 4일때에 대해 실험진행.
SimCLR(constrastive learning), BYOL(distiliation)

Conclusion

Self-Supervised Learning(SSL)에서 사용되는 손실함수들과 다른 차별화된 새로운 손실함수인 W-MSE 제안.
BYOL, SimSiam(오직 양성 샘플 사용) : 비대칭 학습(asymmetry in learning) 특정 학습 프로토콜 적용
본인들의 W-MSE가 훨씬 단순한 방식 사용하면서도 기존의 SOTA 방법들과 동등하거나 더 나은 분류 정확도를 낸다.
비대칭 학습(asymmetry in learning)과 Whitening 변환(whitening transformation)은서로 대체 가능한 해결책이지만, 이를 결합하는 것도 가능하며, 이는 향후 연구의 방향이 될 수 있다

[Paper Review] - Soft Contrastive Learning for Time Series (SoftCLT), ICLR 2024

Sun, 09 Mar 2025 07:10:58 GMT

[Main Contribution]

시계열 데이터에 특화된 Soft Contrasive Learning 전략을 제안
다양한 다운스트림 작업에서 기존 contrasive learning 방법론 모델들보다 좋은 성능을 보임
plug - and - play 방식이기 때문에 다른 모델 프레임워크에 쉽게 적용시킬 수 있음. (모듈화)

기존 Contrasive Learning을 활용한 방법론들은 시계열 특성을 반영하기 위해 다양한 시도를 함.

instance - wise
Temporal
Hierarchical

그러나 시계열 특성을 고려하면서 hard assignment에서 soft assignment로 바꾼 시도는 없었음

이 논문에서 제안한 SoftCLT는 instance-wise, Temporal, Hierarchical, Soft assignment를 모두 고려함

또한, SoftCLT는 대부분의 Contrasive learning 들이 Embedding space 상에서 유사도를 측정하는 반면에

시계열 데이터는 Data space 상에서 유사도를 비교하는것이 효과적이라고 주장

[SoftCLT overview]

기존 Hard assignment경우, positive는 1, negative는 0으로 판별

문제점 : 임의로 threshold에 대해서 데이터가 강제적으로 분리되면서 모호함에 대한 문제

Soft assignment의 경우, 시계열 특성을 반영하여 유사도를 측정하고, 보다 더 풍부한 정보를 학습할 수 있도록 유도(모호한 부분이 없도록 유도할수 있다. )

(시계열 특성을 반영하기 위한 두가지 방법론 제시)

instance-wise CL : 시계열 데이터 간의 거리를 기반으로 인스턴스 간의 관계를 학습
Temporal CL : timestamp간의 차이를 기반으로 동일 시계열 내의 시간적 관계를 학습

[논문 Definition]

$\text{Non-linear embedding function} \Rightarrow f_{\theta}: x \to r$

비선형 임베딩 함수 $fθ$ *를 학습하여 *임베딩 벡터 $r_i$ 를 생성하는 것이 목표

$\text{Time series data} \Rightarrow X = {x_1, ..., x_N}; \quad N: batch_num, \quad x_i \in \mathbb{R}^{T \times D}$

$\text{Embedding vector} \Rightarrow r_i = [r_{i,1}, ..., r_{i,T}]^\top \in \mathbb{R}^{T \times M}$

$T: \text{sequence length}$

$D: \text{input feature dimension}$

$M: \text{embedded feature dimension}$

1.** [Soft Instance-wise Contrasive Learning]**

$w_I(i, i') = 2\alpha \cdot \sigma(-\tau_I \cdot D(x_i, x_{i'}))$ → Soft assignment Definition

$\sigma(a) \text{는 시그모이드 함수}$

$\tau_l \text{는 assignment의 sharpness를 조절하는 하이퍼파라미터}$

$\alpha \text{는 } [0,1] \text{ 범위의 soft assignment의 상한값}$
- Soft Assignment의 최대값을 제한하는 역할
$D(x_i, x_{i'}) \text{는 시계열 데이터 } x_i \text{와 } x_{i'} \text{ 간의 거리}$
- 두 샘플이 얼마나 유사한지 측정하는 거리 함수 (DTW, Euclidean distance, cosine distance, TAM(time allignment measurement)).

(positive든 negative든 sampling을 하기위해서는)

Argumentation을 통해 시계열 데이터를 증가하고, 아래를 정의를 가정

Contrasive learning은 cross entropy loss로 학습가능

따라서 유사도 학습을 위해 softmax 수식을 정의

cf) InfoNCE loss Contrasive learning에서 주로 쓰이는 loss function

loss function

$\ell_{I}^{(i,t)} = -\log p_I((i, i+N), t) - \sum_{j=1, j \neq {i,i+N}}^{2N} w_I(i, j \mod N) \cdot \log p_I((i, j), t)$

첫번째 Term은 instance i와 positive pair i+N의 유사성을 나타내는 소프트맥스 확률
- 첫번째 텀은 positive pair의 loss를 나타내고, 두번째 텀은 positive pair 제외하고 나머지 pair들의 loss를 soft assignment값으로 가중하여 계산하는 텀
- 이것을 통해 positive pair는 가까워지게 나머지 pair멀어지게 학습

[Soft Temporal Contrastive Learning]

$w_T(t, t') = 2 \cdot \sigma(-\tau_T \cdot |t - t'|)$ → Soft Assignment Definition

$\sigma(a) \text{는 시그모이드 함수}$

$\tau_l \text{는 assignment의 sharpness를 조절하는 하이퍼파라미터}$

$|t - t'| \text{는 두 타임스탬프 간의 차이}$

Argumentation을 통해 시계열 데이터를 증가하고, 아래를 정의를 가정

Contrasive learning은 cross entropy loss로 학습가능

따라서 유사도 학습을 위해 softmax 수식을 정의

[Soft Temporal Contrastive Learning]

TS2Vec 논문의 hierarchical contrastive loss 차용
- hierarchical contrastive loss , hierarchical representation 은 시계열 데이터의 복잡한 패턴, 구조를 효과적으로 학습할 수 있도록 함.
Max pooling을 통해 각 타임스탬프를 통합
Depth가 깊어질수록 그 의미가 점점 모호해지기 때문에 dissimiliarity가 증가함.
이러한 특성을 토대로 soft assignment를 조절하는 $\tau_T$를 조정
- sharpness가 낮을수록 완만하게 assignment
이런식으로 계측정 표현 특징들을 잘 학습할 수 있도록 loss function을 구성

loss function

$\ell_{T}^{(i,t)} = -\log p_T(i, (t, t+T)) - \sum_{s=1, s \neq {t,t+T}}^{2T} w_T(t, s \mod T) \cdot \log p_T(i, (t, s))$

최종 손실 함수 정의

$L = \frac{1}{4NT} \sum_{i=1}^{2N} \sum_{t=1}^{2T} (\lambda \ell_{I}^{(i,t)} + (1 - \lambda) \ell_{T}^{(i,t)})$

람다 1-람다는 각각의 가중치를 나타냄

실험결과

SCL자체가 plug and play 방식이기 때문에 기존의 CL 모델에 이걸 모듈처럼 넣어서 성능이 얼마나 높아졌는지를 확인 가능

classification UCR : 단변량 시계열 벤치마크 데이터셋

UEA : 다변량 시계열 분류를 위한 벤치마크 데이터

TS2Vec(2022)은 hierarchical contrastive loss를 도입한 논문

Semi & Self-supervised classification

1% label 데이터를 사용한 경우 실험
5% label 데이터를 사용한 경우 실험

in & Cross domain transfer learning

Anomaly Detection

Conclusion

이 연구는 시계열 데이터 특성을 고려하여 Soft Contrasive Learning을 적용
plug and play 방식으로 구현해서 다른 프레임워크에 자유롭게 적용가능
- 확실히 기존 contrastive learning 방법론들보다 시계열 task에서 뛰어난 성능을 보이는것은 맞으나, 지금 현 시점에서는 SOTA인지는 확인이 필요함.

Batch Normalization(배치 정규화)

Wed, 31 Jul 2024 12:43:12 GMT

1. Batch Normalization란?

Batch Normalization은 학습 과정에서 각 배치 단위 별 다양한 분포를 가진 데이터를 각 배치별로 평균과 분산을 이용해 정규화하는 것이다.
Batch Normalization는 별도의 과정으로 있는 것이 아닌, 신경망 안에 포함되어 학습시 평균과 분산으로 조정하는 과정이다.
평균은 0, 표준 편차는 1로 데이터의 분포를 조정할 수 있다.

즉, 배치 정규화란 말 그대로 배치 단위로 normalization(표준정규화)을 해주는 layer를 말한다.

2. Batch Normalization 필요성

기울기 소실 문제
- 배치 normalization이 없었을때, 뉴럴 네트워크의 학습이 잘 안 되는 이유는 기울기 소실 문제 때문이다.
- 뉴럴 네트워크는 손실 함수(Loss Function)에 대한 기울기(Gradient)를 이용해 역전파(Backpropagation) 과정을 통해 학습을 한다.
- 하지만 밑의 그림과 같이 활성화 함수로 들어오는 값이 매우 크거나 매우 작아질 경우, Tanh 함수의 기울기는 0에 가깝기 때문에 역전파 과정에서 뉴럴 네트워크의 파라미터가 거의 업데이트되지 않게 된다.

💡 뉴럴 네트워크에 들어오는 값들을 정규분포를 그리도록 보정해주면 활성화 함수를 통한 gradient가 매우 잘되어 역전파 과정도 원활하게 되고, 결과적으로 뉴럴 네트워크가 잘 학습된다. 이것이 Batch Normalization이 필요한 이유이다.

** 참고** pytorch를 사용하면 간단하게 forward pass 안에서 print를 함으로서 활성화 함수로 들어오는 값이 매우 크거나 매우 작아질 경우를 알 수 있다. 하지만 대부분 간단한 네트워크에서 학습이 잘 안된다면, vanishing gradient 문제인 경우가 많다고 한다 :)

Batch Normalization에서 가장 중요한 것은 training 단계와 test 단계에서 다르게 적용되어야 한다.

3. training 단계의 배치 정규화

Image Resize Example

다음과 같은 뉴럴 네트워크가 있다고 하자.

여기서 동그라미 친 뉴럴 네트워크의 중간 layer를 한번 살펴보자. 문제는 활성화 함수로 들어오는 값이 너무 크거나 작아서 gradient가 0이 된다는 것이다. 이때 활성화 함수로 들어가기 전에 배치 방향으로 배치 정규화를 시켜준다면 활성화 함수로 들어가는 값들은 0을 중심으로 표준화되어 들어가게 된다.

그렇다면 우리는 배치 정규화를 통해 input을 모두 정규화하면, 활성화 함수에는 정규화된 input이 들어가게 된다. 하지만 여기까지만 수행하면 뉴럴 네트워크가 학습되지 않는다. 왜냐하면 모든 레이어에 똑같이 0의 평균을 가지고 1의 분산을 가진 정규화된 input만 들어오면, 늘 어디서든 똑같은 분포만 들어오게 되기 때문이다.

이러면 뉴럴 네트워크가 구분하거나 학습해야 할 의미 있는 input이 들어오지 않게 된다. 활성화 함수(non-linear 함수)가 의미가 있기 위해서는 어떤 input은 좁은 정규분포를 가진 input, 어떤 input은 넓은 분포를 가진 input, 오른쪽이나 왼쪽으로 치우친 분포를 가진 input들이 들어와야 한다.

즉, layer 마다 다른 형태의 정규분포의 input 들이 들어와야 한다는 말이다

Image Resize Example

이제 수식을 통해 살펴보자

Image Resize Example

여기에 추가적으로 parameter인 γ(scale), β(shift)가 나온다.

γ는 정규화된 input에 곱해지면서 정규화된 input이 더 좁거나 넓어지게 만들고 (scale을 의미)
β는 그 정규분포를 오른쪽 왼쪽으로 움직이는 값을 의미한다

Image Resize Example

그림을 보면 현재 feature는 4개이고 각각의 feature에 대한 γ(scale), β(shift)가 추가된다. 이런 학습 가능한 parameter들이 추가되면 뉴런에는 다양한 형태의 인풋들이 들어오게 되어, training 속도를 빠르고 안정적으로 만든다.

이렇게 배치 normalization을 적용하면 bias는 의미가 없어지게 되므로, 배치 normalization 이전에는 bias를 더해주지 않아도 된다.

Training 단계 정리

깊은 뉴럴 네트워크의 vanishing gradient 문제를 완화하기 위해 배치 normalization을 적용한다.
배치 normalization은 배치 방향으로 표준화하고, activation 함수의 의미 있는 값을 전달하기 위해 각 feature별로 γ(scale), β(shift)를 역전파 과정을 통해 학습한다.
배치 normalization을 적용하면 bias term이 의미가 없어지므로, 삭제하는 것이 좋다.

4. test 단계의 배치 정규화

test 단계에서는 test 데이터에 대해 답을 내야 하므로 평균과 분산을 계산할 수 없다.
그렇기 때문에 , test 단계에서 BN을 적용할때는 training data를 모두 가져와서 이때의 평균과 분산을 사용해야한다.
하지만 실제 뉴럴 네트워크를 training 시킬때에는 데이터가 무수히 많아서 전체 데이터에 대한 통계를 내는것은 불가능하다.

이동 평균(Moving average)

$$ \hat{\mu} \leftarrow \alpha \hat{\mu} + (1-\alpha)\mu_\beta^{(i)} $$

$$ \hat{\sigma} \leftarrow \alpha \hat{\sigma} + (1-\alpha)\sigma_\beta^{(i)} $$

최종적으로 하나의 배치 놈에서 하나의 feature에 대한 parameter는 총 4개가 된다.

γ, β → 역전파 과정을 통해 학습
μ^, σ^ → moving average를 통해 학습

그렇기 때문에 Batch norm layer는 training 과정과 test 과정에서 특성이 달라진다.

5. 왜 Learning rate를 키워도 될까?**

평균 0, 표준 편차 1인 가운데로 값들을 뿌려주기 때문에, 입력 값들에 대한 update 해야하는 편차들이 크지 않는다. 즉, Learning rate를 크게 해도 상관없다.

6. 최종 정리

배치 정규화는 평균과 분산을 구하는 것이 아닌 γ(Scale), β(Shift)을 학습 파라미터로 사용하여 비선형성을 유지하며 학습한다.
배치 정규화는 별도의 과정으로 있는 것이 아닌, 신경망 안에 포함되어 학습시 평균과 분산으로 조정하는 과정이다.
기존 방법에서는 Learning rate를 높게 잡을 경우 gradient vanishing/explode 하는 경향이 있었었다.
gradient의 scale, 초기값에 대한 dependency 감소 -> 배치 정규화를 사용할 경우 파라미터의 scale에 영향을 받지 않게 되기 때문에 Learning rate를 높게 설정할 수 있다. -> 빠르고 안정적인 학습이 가능해짐.
Regularization 효과가 있기 때문에 dropout을 안해도 되는 장점이 있다.

가중치 초기화(Weight initialization)

Thu, 25 Jul 2024 10:39:49 GMT

1. 가중치 초기화란?

같은 모델을 훈련하더라도 가중치가 초기에 어떤 값을 가졌느냐에 따라서 모델의 훈련 결과가 달라지기도 한다.
다시 말해 가중치 초기화만 적절히 해줘도 기울기 소실 문제와 같은 문제를 완화시킬 수 있다.

2. Zero Initialization (제로 초기화)

모든 가중치를 0으로 초기화 하는 방법이다.

여기서 의문..

Q) 가중치의 초깃값을 모두 0으로 설정하면 어떻게 될까?

결론적으로 말하면 가중치 초깃값을 0으로로 하면 학습이 올바로 이루어지지 않게 된다. (정확히는 가중치를 균일한 값으로 설정해서는 안된다)

그 이유는 :

오차역전파 계산시 모든 가중치의 값이 똑같이 갱신되기 때문이다. (해당그림에서는 0으로 같음)
그래서 가중치들은 같은 초깃값에서 시작하고 갱신을 거쳐도 여전히 같은 값을 유지하게된다.
이는 가중치를 여러개를 갖는 의미를 사라지게한다.

그림의 계산 과정을 보면 이해하는데 도움이 된다.

→ 따라서 우리는 가중치 초깃값을 무작위로 설정해야한다.!!

3. Xavier Initialization (자비에 초기화)

기본 아이디어

Xavier Initialization의 기본 아이디어는 각 층의 입력과 출력의 분산을 균형 있게 유지하여, 신경망의 각 층에서 신호가 너무 커지거나 작아지지 않도록 하는 것이다.
이를 위해서 이전 layer의 뉴런 개수와 다음 layer의 뉴런 개수를 이용하여 가중치를 초기화한다.

수식

Xavier Initialization에는 두 가지 방법이 있다.
정규 분포 (Gaussian distribution)와 균등 분포 (Uniform distribution)를 사용하는 방법이 있다.

1) 정규분포(Gaussian distribution):

2) 균등 분포(Uniform distribution):

정리

Xavier Initialization는 여러 층의 기울기 분산 사이에 균형을 맞춰서 특정 층이 너무 주목을 받거나 다른 층이 뒤쳐지는 것을 막는다.
Xavier Initialization는 시그모이드 함수나 하이퍼볼릭 탄젠트 함수와 같은 S자 형태인 활성화 함수와 함께 사용할 경우에는 좋은 성능을 보이지만,
RELU 함수와 함께 사용할 경우에는 성능이 좋지 않다.

4. He 초기화(He initialization)

기본 아이디어

ReLU 에 특화된 초기값이다. (Xavier Initialization에서는 ReLU 함수를 사용할때 비효율적)
He 초기화는 Xavier Initialization과 다르게 다음층의 뉴런의 수를 반영하지 않고, 이전 layer의 뉴런수를 이용한다.

ex) 앞 계층의 노드가 n개일때, 표준편차가 \sqrt{\frac{2}{n_{\text{in}}}} 정규분포를 사용한다.

수식

He 초기화는 가중치를 다음과 같은 방식으로 초기화한다.

정리

시그모이드 함수나 하이퍼볼릭탄젠트 함수를 사용할 경우에는 Xavier Initialization이 효율적이다.
ReLU 계열 함수를 사용할 경우에는 He 초기화 방법이 효율적이다.
ReLU + He 초기화 방법이 좀 더 보편적임.

최적화 알고리즘 - RMSProp,Adam

Sat, 13 Jul 2024 11:10:11 GMT

1. RMSProp

RMSProp 개요

RMSProp(Root Mean Square Propagation)은 Adagrad의 단점을 보완하기 위해 등장했다. Adagrad는 학습이 진행될수록 학습률이 점점 작아져 학습이 멈추는 문제가 있는데, RMSProp은 이를 해결하려고 고안된 알고리즘이다.

RMSProp 동작 방식

RMSProp의 핵심 아이디어는 최근 기울기를 지수 이동 평균(Exponential Moving Average, EMA)으로 계산하여 학습률을 조정하는 것이다. 이는 학습률이 너무 작아지는 문제를 방지해준다.

구체적인 수식은 이러하다.

$$ \mathbf{h}{t} = \rho \mathbf{h}{t-1} + (1 - \rho) \nabla J(\mathbf{W}, b)^2 $$

$$ \mathbf{W} = \mathbf{W} - \frac{\eta}{\sqrt{\mathbf{h}_{t}} + \epsilon} \nabla J(\mathbf{W}, b) $$

여기서 "$\rho$"는 decay rate로 보통 0.9로 설정한다.
Adagrad식의 "$h$"와 squared gradient에 각각 "$\rho$", "$(1−\rho)$"의 decay rate가 붙는다. 보통 "$\rho = 0.9$" 정도로 설정되는데, 이렇게 되면 이전 스텝의 기울기를 더 크게 반영하여 "$h$" 값이 단순 누적되는 것을 방지할 수 있다.

RMSProp의 장점

적응형 학습률: Adagrad처럼 매개변수마다 다른 학습률을 적용하지만, 학습률이 지나치게 작아지는 문제를 방지한다.
효율적 계산: 지수 이동 평균을 사용해 최근 기울기의 평균을 계산하여 안정적인 학습이 가능하다.

2. Adam

Adam 개요

Adam(Adaptive Moment Estimation)은 RMSProp과 모멘텀의 장점을 결합한 알고리즘으로 딥러닝에서 가장 많이 사용되는 옵티마이저이다.

Adam은 1차 모멘트(gradient를 중심으로 하는 모멘텀 계열)와 2차 모멘트(gradient 제곱에 반비례하는 ada, rmsprop 계열)를 동시에 고려하여 학습을 진행한다.

Adam 동작 방식

Adam은 Momentum 방식과 유사하게 지금까지 계산해온 기울기의 지수 평균을 저장하며, RMSProp과 유사하게 기울기의 제곱값에 지수평균을 저장한다. 이를 통해 기울기 값과 기울기의 제곱값의 지수이동평균을 활용하여 step 변화량을 조절한다. 또한, 초기 몇 번의 업데이트에서 0으로 편향되어 출발 지점에서 멀리 떨어진 곳으로 이동하는, 초기 경로의 편향 문제가 있는 RMSProp의 단점을 보정하는 매커니즘이 반영된다.

Adam의 구체적인 수식은 다음과 같다.

1차 모멘트 추정값 (기울기의 평균)

$$ \mathbf{m}{t} = \beta_1 \mathbf{m}{t-1} + (1 - \beta_1) \nabla J(\mathbf{W}, b) $$

2차 모멘트 추정값 (기울기의 분산)

$$ \mathbf{v}{t} = \beta_2 \mathbf{v}{t-1} + (1 - \beta_2) \nabla J(\mathbf{W}, b)^2 $$

편향 보정

$$ \hat{\mathbf{m}}{t} = \frac{\mathbf{m}{t}}{1 - \beta_1^t} $$

$$ \hat{\mathbf{v}}{t} = \frac{\mathbf{v}{t}}{1 - \beta_2^t} $$

매개변수 업데이트

$$ \mathbf{W}{t+1} = \mathbf{W}{t} - \frac{\eta}{\sqrt{\hat{\mathbf{v}}{t}} + \epsilon} \hat{\mathbf{m}}{t} $$

여기서, "$\beta_1$"과 "$\beta_2$"는 각각 1차 모멘트와 2차 모멘트의 decay rate로, 보통 0.9와 0.999로 설정합니다. "$\epsilon$"은 수치적 안정성을 위한 아주 작은 값입니다.

1차 모멘트와 2차 모멘트

Adam은 1차 모멘트와 2차 모멘트를 사용하는데, 여기서 모멘트는 수리통계학에서 사용되는 적률(moments) 개념을 말한다

1차 모멘트는 데이터의 평균을 나타냅니다. 수식으로는 기울기 "$\nabla J(\mathbf{W}, b)$"의 평균을 의미한다.
2차 모멘트는 데이터의 분산을 나타내며, 기울기 제곱 "$\nabla J(\mathbf{W}, b)^2$"의 평균을 의미한다.

Adam에서의 1차 모멘트 추정치는 기울기의 지수 이동 평균으로, 2차 모멘트 추정치는 기울기 제곱의 지수 이동 평균으로 계산됩니다. 이 추정치들은 각각 기울기의 방향과 크기를 조절하는 데 사용된다.

불편 추정치

초기 몇 번의 업데이트에서 모멘트 값이 0에 가까워지는 편향 문제가 발생할 수 있다. 이를 해결하기 위해 Adam은 편향 보정을 사용한다. 이는 불편 추정치를 계산하여 초기 편향 문제를 해결한다.

1차 모멘트 불편 추정치

$$ \hat{\mathbf{m}}{t} = \frac{\mathbf{m}{t}}{1 - \beta_1^t} $$

2차 모멘트 불편 추정치

$$ \hat{\mathbf{v}}{t} = \frac{\mathbf{v}{t}}{1 - \beta_2^t} $$

Adam의 강점

빠른 수렴: RMSProp과 모멘텀의 장점을 결합하여 빠른 수렴 속도를 자랑한다.
적응형 학습률: 매개변수마다 다른 학습률을 적용하므로, 학습이 안정적이다.
편향 보정: 초기 단계에서의 편향 문제를 보정하여 학습이 더욱 안정적으로 진행된다.
넓은 범위에서 효과적: Adam은 매우 다양한 신경망 구조에서 잘 작동하며, 현재 가장 많이 사용되는 알고리즘 중 하나이다.

Adam의 하이퍼파라미터 설정

Adam의 하이퍼파라미터로는 "$\beta_1$", "$\beta_2$", "$\epsilon$", 그리고 학습률 "$\eta$"가 있다. 일반적으로 "$\beta_1 = 0.9$", "$\beta_2 = 0.999$", "$\epsilon = 10^{-8}$"로 설정하고, 학습률 "$\eta$"는 여러 값을 시도하여 최적의 값을 찾는 것이 좋다.

옵티마이저 정리

최적화 알고리즘 - SGD, Momentum, Nesterov momentum, Adagrad

Sat, 13 Jul 2024 09:38:29 GMT

참고자료

밑바닥부터 시작하는 딥러닝

들어가기에 앞서

신경망 학습의 목적은 손실 함수의 값을 가능한 낮추는 매개변수를 찾는것이다.

이는 곧 매개변수의 최적값을 찾는 문제라고 할 수 있으며 이러한 문제를 푸는것이 “최적화”라고 한다.

이 부분에서는 SGD, Momentum, Nesterov momentum, Adagrad, RMSProp, Adam 등 다양한 최적화 최적화 알고리즘(=옵티마이저)에 대해서 정리하고자 한다.

1. 옵티마이저

옵티마이저란 딥러닝과 머신러닝에서 모델의 매개변수를 최적화하는 알고리즘을 의미한다.

구체적으로, 옵티마이저는 손실 함수(loss function)를 최소화하는 방향으로 모델의 가중치(weight)와 편향(bias)을 업데이트한다.

2. 확률적 경사 하강법(Stochastic Gradient Descent)

다시 한번 개념 정리

배치 경사 하강법(Batch Gradient Descent, BGD)은 전체 데이터셋(=배치)에 대한 손실함수의 기울기(gradient)를 한 번만 계산하여 모델의 parameter를 업데이트하는 방식이다

즉, 전체 훈련 데이터셋에 대해 가중치를 편미분, 업데이트 하는 방식이다.

W=W−α∇J(W,b)

배치 경사 하강법은 한 스텝에 모든 훈련 데이터셋을 사용하기 떄문에 학습 시간이 오래 걸린다

이러한 단점을 개선한 방법이 SGD 이다.

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 임의로 선택한 데이터에 대해 손실함수의 기울기(gradient)를 계산하여 모델의 parameter를 업데이트 하는 방법이다

적은 데이터를 사용하므로 BGD보다 계산이 빠르다.

아래의 그림을 보면 비교가 가능하다.

확률적 경사 하강법 장점

parameter의 변경 폭이 불안정하고, 정확도가 낮을 수 있지만 속도가 빠르다는 장점

미니 배치 경사 하강법(mini-batch gradient descent)은 전체 데이터셋을 미니 배치(mini-batch) 여러 개로 나눈 뒤,

미니 배치 한 개마다 기울기를 구합니다. 그 평균 기울기를 이용하여 모델을 업데이트해서 학습하는 방법이다.

미니 배치 경사 하강법 장점

미니 배치 경사 하강법은 전체 데이터를 계산하는 것보다 빠름
확률적 경사 하강법보다 안정적이어서 가장 많이 사용됨
변경 폭이 확률적 경사 하강법에 비해 안정적이면서 속도도 빠름

<확률적 경사 하강법 VS 미니 배치 경사 하강법>

SGD의 parameter 변경 폭은 불안정합니다. 이 문제를 해결하기 위해 학습 속도와 운동량을 조절하는 optimizer를 적용할 수 있다

SGD의 단점을 개선해주는 Momentum, Adagrad, Adam의 세 가지 방법이 있다.

learning rate(η)

학습률이란 최적화 할 때의 속도를 조절하는 하이퍼파라미터이며, step size라고도 합니다. 모델의 parameter를 업데이트할 때 적용되는 스텝의 크기를 결정합니다.

학습률이 너무 크면:

매개변수가 최적점 근처에서 진동하거나 발산할 수 있다
손실 함수의 최솟값에 도달하지 못하고 계속해서 이동한다.
학습이 불안정하고 수렴하지 않는다.

학습률이 너무 작으면:

매개변수 업데이트가 매우 작아져 학습 속도가 느려진다.

3. SGD의 단점.

SGD는 단순하고 구현도 쉽지만, 문제에 따라서는 비효율적일 때가 있다.

SGD의 단점을 알아보고자 다음 함수의 최솟값을 구하는 문제를 생각해보자.

<그래프와 등고선>

<기울기를 시각화한 모습>

이 기울기는 y축 방향은 크고 x축 방향은 작습니다. 여기에서 주의할 점은 최솟값이 되는 장소는 (x, y) = (0, 0)이지만, 그림이 보여주는 기울기 대부분은 (0, 0) 방향을 가리키지 않는다.

SGD에 의한 최솟값 갱신경로를 확인해 보자.

SGD는 위 그림과 같이 상당히 비효율적인 움직임을 보인다

즉, SGD의 단점은 비등방성함수(방향에 따라 성질, 기울기가 달라지는 함수)에서는 탐색 경로가 비효율적이라는 것이다.

SGD가 지그재그로 탐색하는 근본 원인은 기울어진 방향이 본래의 최솟값과 다른 방향을 가리키는 점이다.

4. Momentum

모멘텀은 최적해를 향해 진행하던 속도에 관성을 주어 SGD가 갖고 있던 문제

느린 학습 속도
saddle point에서 학습 종료
진동이 심한 점

등을 해결한 알고리즘이다.

Momentum은 '운동량'을 뜻하는 단어이다.

물리적 법칙을 이용해서 이렇게 설명할 수 있다.

위 α는 실제로 공기 저항이나 마찰 등에 해당하는 역할이며, 마찰 계수라 불린다

보통 *α는 0.9나 0.99로 설정

*αV항은 물체가 아무런 힘을 받지 않을때 서서히 하강시키는 역할을 한다.*

V는 물체의 속도(velocity)이다.

모멘텀의 이동은 이렇다.

관성은 변수가 가던 방향으로 계속 가도록 하는 속도항을 추가하는 것인데, 기울기가 0이더라도 속도가 있어 더 잘 탈출하게 된다.

즉 , 진행하던 속도에 관성이 적용되니까 saddle point를 만나거나 local minima에 빠지더라도 그 지점을 벗어날 수 있다.

SGD는 기울기가 계속해서 바뀔 때, 다른쪽으로 튕겨나갈 수 있는데 관성이 작용하면 진행하던 속도를 유지하며 부드럽게 이동하게 된다.

위 그림에서도 실제로 곡선의 형태로 부드럽게 이동하는 것을 볼 수 있다.

△ 부드럽게 이동, SGD, Momentum 속도 차이

overshooting 문제

Momentum*의 단점으로 *overshooting 문제가 있다.

경사가 가파른 곳을 빠른 속도로 내려오다 관성을 이기지 못하고 최소 지점을 지나쳐 버리는 현상이다.

그레디언트가 완만하다면 최적해를 잘 찾겠지만, 가파를수록 overshooting될 가능성이 크다.

위의 오른쪽 그림을 보면, gradient보다 속도가 더 크기 때문에 실제 step이 커지고 지나치게 된다.

다음은 Momentum의 식입니다.

5. Nesterov momentum

네스테로프 모멘텀은 위에서 오버슈팅의 문제를 해결하기 위한 방법으로,

현재의 속도 벡터와 현재 속도로 한 걸음 미리 가 본 위치의 그레디언트 벡터를 더해 다음 위치를 정합니다.

다음 속도vt+1v_{t+1}

vt+1는 현재 속도에 마찰 계수

ρ\rho

ρ를 곱한 뒤 한 걸음 앞서서 예상 위치의 기울기를 빼서 계산된다.

네스테로프 모멘텀은 진행하던 속도에 관성을 주는 점은 SGD 모멘텀과 같다.

하지만 오버슈팅을 막기 위해 현재 속도로 한 걸음 미리 가 보고 오버 슈팅이 된 만큼 다시 내리막길로 내려가는 방식이다.

네스테로프 모멘텀은 관성이 커지더라도 오버슈팅이 될지 살펴본 다음에 교정하기 때문에 오버슈팅이 억제된다.

정리

모멘텀은 모멘텀 값과 기울기 값이 더해져서 실제 스텝을 결정하는데 반면,

네스테로프 모멘텀은 모멘텀 값이 적용된 지점에서 기울기 값을 계산한다.

모멘텀은 속도는 빠르지만 멈추어야 할 시점에서도 관성에 의해 훨씬 멀리 간다는 단점이 있지만,

네스테로프 방법은 모멘텀으로 절반 정도 이동한 후 어떤 방식으로 이동할지 다시 계산해서 스텝을 결정하기 때문에 단점을 극복합니다.

learning rate decay (학습률 감소)

초반에는 큰 폭으로 이동하여 최대한 빠르게 내려가고, 점차 학습률을 줄여 조심스럽게 내려가는 방법입니다.

초반엔 높은 학습률로 시작해 학습률을 조금씩 낮춰 작게 학습하는 방법

6. AdaGrad

아다그라드(Adagrad)라고 읽으며, Adaptive gradient의 줄임말이다.

Adagrad는 이름에서도 살짝 알 수 있듯이, 손실 함수 곡면의 변화에 따라 적응적으로 학습률을 정하는 알고리즘이다.

학습률이 너무 작으면 학습 시간이 너무 길고, 너무 크면 발산해서 학습이 제대로 이루어지지 않기 때문에 Adagrad는 이런 문제를 학습률 감소를 통해 해결한다.

즉, 많이 변화한 매개변수는 최적해에 근접했을 거란 가정하에 작은 크기로 이동하면서 세밀하게 값을 조정하고 반대로 적게 변화한 변수들은 많이 변화하도록 학습률을 크게 하여 빠르게 오차 값을 줄이고자 하는 방법이다.

지금까지 많이 변화한 매개변수는 적게 변화하도록하고, 적게 변화한 매개변수는 많이 변화하도록 learning rate의 값을 조절하는 개념이다.

아래 식은 AdaGrad의 갱신 방법에 대한 수식이다.

연산 기호⊙ 는 element wise multiplication으로 행렬의 원소별 곱셈을 의미한다.

h는 이전 기울기의 제곱들이 누적되어 더해지게 되고,

w(parameter)를 업데이트 할때 1/ √h 를 곱해 학습률을 조정하게 된다.

매개변수의 원소 중에서 많이 움직인(크게 갱신된) 원소는 학습률이 낮아진다는 뜻인데

즉, Adagrad는 학습률 감소가 적응적으로 매개변수의 원소마다 다르게 적용되어 학습을 진행하게 된다.

기울기 소실 문제(Problem Vanishing Gradient)

Fri, 28 Jun 2024 11:30:52 GMT

참고자료 https://ydseo.tistory.com/41

1. 기울기 소실 문제(Problem Vanishing Gradient)

[문제]

gradient 기반의 method는 parameter value의 작은변화가 network output에 얼마나 영향을 미칠지를 이해하는 것을 기반으로 parameter value를 학습시킨다.

만약 parameter value의 변화가 network output에 매우 작은 변화를 야기한다면, 네트워크는 parameter를 효과적으로 학습시킬 수 없게 되는데 이것이 문제다.

이 문제로 초기 레이어에서 각각의 parameter들에 대한 network ouput의 gradient가 극도로 작아지게 되는데 이 상황이 바로 기울기 소실의 문제이다.

<간단 정리>

기울기 소실 문제는 역전파 알고리즘을 통해 가중치를 업데이트할 때, 처음 입력층(input layer)으로 진행할수록 기울기가 점차적으로 작아지다가 나중에는 거의 기울기의 변화가 없어지는 문제를 말한다.
특히 이 문제는 네트워크에서 앞쪽 레이어의 파라미터들을 학습시키고, 튜닝하기 정말 어렵게 만든다. 또한 신경망 구조에서 레이어가 늘어날수록 악화된다.

2. 기울기 소실의 원인

기울기 소실의 문제는 활성화 함수를 선택하는 문제에 의존적으로 일어난다.

기울기 소실의 예로 시그모이드 함수를 사용한 예시를 통해 알아보도록 하자. 시그모이드 함수를 사용하는데 시그모이드 함수의 특성으로 인해 기울기 소실 문제가 발생한다.

다음은 시그모이드(로지스틱 함수) 함수와 시그모이드 함수의 미분그래프이다.

<시그모이드 함수>

<시그모이드 미분 그래프 >

sigmoid 함수를 미분한 함수의 그래프를 보니 기울기가 최대가 0.25이고 최소가 0에 수렴한다. 즉 0 ~ 0.25사이의 값을 가진다.

역전파에서 입력층에 가까운 앞쪽의 layer로 갈수록 sigmoid 함수의 미분을 연쇄적으로 곱하는데 기울기가 1보다 작으므로 곱할수록 값은 점점 작아진다. layer가 아주 많으면 입력층에 가까운 앞쪽의 layer로 갈수록 기울기의 값은 거의 0에 가깝게 작아져서 가중치의 변화가 거의 없게 되고 error값도 더 이상 줄어들지 않게 된다.

구체적인 예시를 통해 확인해보자.

z1,z2,z3: 각 레이어의 노드 출력과 가중치의 합성곱.
h1,h2,h3h_1, h_2, h_3h1,h2,h3: 각각 z1,z2,z3 값의 활성화 함수, 즉 시그모이드 함수의 결과 (각 노드의 출력).

z1,z2,z3z_1, z_2, z_3
J: 시스템의 에러를 집계하여 반환하는 손실 함수 (loss function).

손실 함수 J의 출력을 최소화하기 위해 경사 하강법(gradient descent)을 사용하여 가중치를 업데이트하기 위해 역전파(Backpropagation)를 수행한다.

<가중치 w1에 대해 미분수행 (chain rule) >

layer가 진행될 수록 sigmoid 함수가 연속으로 곱해지는 것을 알 수 있다. sigmoid 함수의 미분은 0 ~ 0.25로 1보다 작으므로 곱해지는 횟수가 많을 수록 값은 점점 더 작아진다. 즉 layer가 많을 수록 기울기의 값은 더 작아진다.

이를 해결하기 위하 나온 활성함수가 바로 ReLU(Rectified Linear Unit)이다.

2. ReLU 함수

Neural Network를 처음 배울 때 activation function으로 sigmoid function을 사용한다. sigmoid function이 연속이여서 미분가능한 점과 0과 1사이의 값을 가진다는 점 그리고 0에서 1로 변하는 점이 가파르기 때문에 사용해왔다. 그러나 기존에 사용하던 Simgoid fucntion을 ReLu가 대체하게 된 이유 중 가장 큰 것이 Gradient Vanishing 문제이다. Simgoid function은 0에서 1사이의 값을 가지는데 gradient descent를 사용해 Backpropagation 수행시 layer를 지나면서 gradient(sigmoid함수의 gradient)를 계속 곱하므로 gradient는 점점 0으로 수렴하게 된다. 따라서 layer가 많아지면 잘 작동하지 않게 된다.

따라서 이러한 문제를 해결하기위해 ReLu를 새로운 activation function을 사용한다. ReLu는 입력값이 0보다 작으면 0이고 0보다 크면 입력값 그대로를 내보낸다.

$$ f(x) = \begin{cases} 0 & \text{if } x < 0 \ x & \text{if } x \geq 0 \end{cases} $$

다음과 같이 간단히 표시할 수 있다.

$$ f(x) = \max(0, x) $$

그래프는 다음과 같다.

ReLU 함수의 장점과 단점

장점

빠른 학습 속도: 다른 활성화 함수보다 학습이 빠르다. (tanh 함수 대비 6배 빠른 학습 속도)
기울기 소실 문제 없음: 기울기 소실(Gradient Vanishing) 문제가 발생하지 않는다. (은닉층에 많이 사용되는 이유)
기울기 0 문제 방지: 학습을 느리게 하는 원인인 기울기(gradient)가 0이 되는 것을 막아준다.
빠른 가중치 업데이트: 가중치 업데이트 속도가 매우 빠르다.
높은 활용도: 가장 많이 사용되는 활성화 함수(activation function)이다.

단점

음수 값 처리 문제: 음수 값을 입력 받으면 항상 0으로 반환한다.
기울기 0 문제: 입력값이 음수인 경우 기울기가 0이 되어 가중치 업데이트가 안될 수 있다. (가중치가 업데이트 되는 과정에서 가중치 합이 음수가 되면 0만 반환되어 아무것도 변하지 않는 현상 발생)
- 이 현상을 죽은 뉴런(Dead Neuron) 또는 죽어가는 렐루(Dying ReLU)라고 한다.
지그재그 현상: 출력값은 0 또는 양수이고, 기울기도 0 또는 1인 양수이다. (최적의 가중치를 찾는 지그재그 현상 발생)
미분 불가: 0에서 미분이 안된다.

3. 다양한 ReLU 함수의 정리

ReLU 함수의 기본 형태 외에도, ReLU 함수의 단점을 보완하고 다양한 문제에 더 효과적으로 대처하기 위해 여러 변형된 ReLU 함수들이 개발되었다.

3.1 Leaky ReLU (LReLU)

Leaky ReLU는 ReLU의 단점 중 하나인 "죽은 뉴런(Dead Neuron)" 문제를 해결하기 위해 고안된 함수다. Leaky ReLU는 음수 영역에서 작은 기울기를 가지도록 함으로써 음수 값을 허용한다.

$$ f(x) = \begin{cases} 0.01x & \text{if } x < 0 \ x & \text{if } x \geq 0 \end{cases} $$

장점: 음수 입력에서도 뉴런이 죽지 않도록 한다.
단점: 추가적인 하이퍼파라미터인 음수 기울기 계수를 선택해야 한다.

3.2 Parametric ReLU (PReLU)

Parametric ReLU는 Leaky ReLU와 유사하지만, 음수 영역의 기울기를 학습 가능한 파라미터로 둔다.

$$ f(x) = \begin{cases} \alpha x & \text{if } x < 0 \ x & \text{if } x \geq 0 \end{cases} $$

장점: 데이터에 맞춰 음수 영역의 기울기를 학습할 수 있어 더 유연하다.
단점: 학습할 파라미터가 추가되어 계산 비용이 증가할 수 있다.

3.3 Exponential Linear Unit (ELU)

ELU는 ReLU의 장점을 가지면서도 음수 영역에서의 값을 부드럽게 만들어준다. 음수 영역에서는 지수 함수를 사용한다.

$$ f(x) = \begin{cases} \alpha (e^x - 1) & \text{if } x < 0 \ x & \text{if } x \geq 0 \end{cases} $$

장점: 음수 값에서도 기울기가 존재하며, ReLU보다 더 높은 정확도를 보이는 경우가 많다.
단점: 지수 연산이 들어가므로 계산 비용이 증가할 수 있다.

3.4 Scaled Exponential Linear Unit (SELU)

SELU는 ELU의 변형으로, 네트워크의 자동 정규화를 유도하는 기능이 있다. SELU 함수는 고정된 스케일링과 이동을 사용하여 평균과 분산을 조절한다.

$$ f(x) = \lambda \begin{cases} \alpha (e^x - 1) & \text{if } x < 0 \ x & \text{if } x \geq 0 \end{cases} $$

장점: 네트워크의 자동 정규화를 통해 더 깊은 신경망에서도 안정적으로 학습할 수 있다.
단점: 특정 초기화와 정규화 조건을 필요로 한다.

3.5 ReLU6

ReLU6는 ReLU의 변형으로, 값의 범위를 0과 6 사이로 제한한다. 이는 임베디드 시스템과 같은 환경에서 사용하기 위해 설계되었다.

$$ f(x) = \min(\max(0, x), 6) $$

장점: 값의 범위를 제한하여 계산의 안정성을 높일 수 있다.
단점: 특정 응용 분야에만 유용하다.

3.6 Maxout

Maxout은 선형 함수 중 최댓값을 취하는 방식으로 동작한다. 이는 뉴런의 활성화 함수로 사용되며, 주어진 입력에 대해 여러 가중치와 바이어스를 통해 계산된 값 중 최댓값을 반환한다.

$$ f(x) = \max(w_1^T x + b_1, w_2^T x + b_2) $$

장점: 더 복잡한 함수를 모델링할 수 있어 표현력이 높다.
단점: 계산 비용이 증가하며, 가중치의 수가 늘어난다.

학습 회고

손으로 공부하는 역전파(BackPropagation)

Fri, 28 Jun 2024 08:56:50 GMT

역전파(BackPropagation)

예시

z1,z2,z3: 각 레이어의 노드 출력과 가중치의 합성곱.
h1,h2,h3h_1, h_2, h_3h1,h2,h3: 각각 z1,z2,z3 값의 활성화 함수, 즉 시그모이드 함수의 결과 (각 노드의 출력).

z1,z2,z3z_1, z_2, z_3
J: 시스템의 에러를 집계하여 반환하는 손실 함수 (loss function).

손실 함수 J의 출력을 최소화하기 위해 경사 하강법(gradient descent)을 사용하여 가중치를 업데이트하기 위해 역전파(Backpropagation)를 수행한다.

가중치 w1에 대해 미분하려면 chain rule에 따라 다음과 같이 미분이 된다.

학습 회고

기울기 소실에 대해서 공부하다가 역전파 과정에 대해서 손으로 직접 풀어보았다. 손으로 풀 생각은 없었다. 다음부턴 코드로 띡 쓸란다

과적합 방지 기법(딥러닝)

Wed, 26 Jun 2024 06:35:57 GMT

과적합(overfitting)이 발생하는 이유

데이터 수가 적은 경우
모델의 파라미터가 많은 경우
- 딥러닝 모델은 고전 머신러닝 모델에 비해 압도적으로 파라미터가 많기 때문에 과적합이 되기 쉽다

과적합 방지 기법

1. 데이터 관련 기법

데이터 양 증가: 충분한 데이터가 있으면 모델이 일반적인 패턴을 학습하여 과적합을 방지할 수 있습니다. 데이터가 부족한 경우에는 데이터 증강(Data Augmentation) 기법을 사용하게 된다.
- 데이터 증강(Data Augmentation): 모델의 학습 과정에서 데이터의 양과 다양성을 인위적으로 늘리는 기법입니다. 이는 모델의 일반화 성능을 향상시키고 과적합을 방지하는 데 매우 효과적입니다. 데이터 증강은 특히 이미지 처리와 같은 비정형 데이터에서 자주 사용됩니다.
- 예를 들어, 이미지 데이터의 경우 이미지를 회전, 확대, 축소하거나 노이즈를 추가하는 등의 방법이 있습니다.
이미지 데이터 증강 기법

다양한 이미지 변형 기법을 사용하여 데이터 증강을 수행할 수 있습니다.
- 회전(Rotation): 이미지를 일정 각도로 회전시킵니다.
- 이동(Translation): 이미지를 수평 또는 수직 방향으로 이동시킵니다.
- 확대 및 축소(Scaling): 이미지를 확대하거나 축소합니다.
- 뒤집기(Flipping): 이미지를 좌우 또는 상하로 뒤집습니다.
- 잘라내기(Cropping): 이미지의 일부분을 잘라내어 사용합니다.
- 노이즈 추가(Add Noise): 이미지에 무작위 노이즈를 추가합니다.
- 밝기 변화(Change Brightness): 이미지의 밝기를 조절합니다.
- 왜곡(Distortion): 이미지를 비틀거나 왜곡시킵니다.

2. 모델 관련 기법

드롭아웃(Dropout): 학습 과정에서 임의의 뉴런을 비활성화(즉, "드롭")하여 모델의 복잡도를 줄이고, 특정 뉴런에 대한 의존도를 낮추어 일반화 성능을 향상시킵니다.

작동 원리

뉴런 비활성화: 학습 중에 각 학습 단계에서 뉴런을 무작위로 비활성화합니다. 비활성화된 뉴런은 해당 학습 단계 동안 입력 및 출력을 무시합니다.
확률적 드롭: 각 뉴런이 드롭아웃될 확률을 설정합니다. 일반적으로 0.5 (50%)의 비율이 많이 사용되며, 이는 뉴런의 절반을 비활성화한다는 의미입니다.
앙상블 효과: 드롭아웃은 학습 과정에서 다양한 서브 네트워크를 훈련시키는 것과 유사합니다. 이는 마치 여러 모델을 앙상블하여 사용하는 효과를 냅니다.
예측 시 활성화: 예측 단계에서는 모든 뉴런을 사용합니다. 학습 시 드롭아웃으로 비활성화된 뉴런의 효과를 보상하기 위해 뉴런의 출력을 드롭아웃 확률로 나눕니다.

예시

예를 들어 드롭아웃의 비율을 0.5로 한다면 학습 과정마다 랜덤으로 절반의 뉴런을 사용하지 않고, 절반의 뉴런만을 사용합니다.
드롭아웃은 신경망 학습 시에만 사용하고, 예측 시에는 사용하지 않는 것이 일반적입니다. 학습 시에 인공 신경망이 특정 뉴런 또는 특정 조합에 너무 의존적이게 되는 것을 방지해주고, 매번 랜덤 선택으로 뉴런들을 사용하지 않으므로 서로 다른 신경망들을 앙상블하여 사용하는 것 같은 효과를 내어 과적합을 방지합니다.

Early Stopping: 학습 과정에서 검증 데이터(validation set)의 성능을 지속적으로 모니터링하여, 성능이 더 이상 향상되지 않으면 학습을 중단

작동 원리

훈련 데이터와 검증 데이터: 모델을 학습할 때 데이터를 훈련 데이터(training set)와 검증 데이터(validation set)로 나눕니다. 훈련 데이터는 모델의 가중치를 학습하는 데 사용되고, 검증 데이터는 모델의 일반화 성능을 평가하는 데 사용됩니다.
모니터링: 학습 과정에서 각 에포크(epoch)마다 검증 데이터에 대한 성능(예: 손실(loss) 또는 정확도(accuracy))을 평가합니다.
중단 조건: 검증 데이터의 성능이 일정 횟수(patience) 동안 향상되지 않으면 학습을 중단합니다. 여기서 patience는 성능이 향상되지 않는 에포크 수를 의미합니다. 이 값을 설정하여 모델이 너무 빨리 멈추지 않도록 조절할 수 있습니다.

주요 매개변수

monitor: 모니터링할 성능 지표를 지정합니다. 일반적으로 'val_loss' 또는 'val_accuracy'를 사용합니다.
patience: 성능이 향상되지 않는 에포크 수를 지정합니다. 이 값 동안 성능이 향상되지 않으면 학습을 중단합니다.
restore_best_weights: 학습 종료 시점에 검증 성능이 가장 좋았을 때의 가중치를 복원합니다. 이를 통해 최적의 모델을 얻을 수 있습니다.

3. 규제화(Regularization)

L1 및 L2 정규화: 손실 함수에 가중치 패널티를 추가하여 모델의 복잡도를 제한.
- L1 규제: 모든 가중치의 절대값 합을 비용 함수에 추가합니다. 이로 인해 일부 가중치가 0이 되어 특정 특성이 모델에 사용되지 않게 됩니다.
  - 비용 함수에 λ∑|w|를 추가.
- L2 규제: 모든 가중치의 제곱합을 비용 함수에 추가합니다. 이로 인해 가중치 값이 0에 가깝게 되지만 완전히 0이 되지는 않습니다.
  - 비용 함수에 λ∑w²를 추가.
  - 인공 신경망에서는 가중치 감쇠(weight decay)라고도 불립니다.
배치 정규화(Batch Normalization): 각 배치마다 입력을 정규화하여 학습을 안정화하고 과적합을 방지합니다.

요약

딥러닝 모델의 과적합을 방지하기 위해서는 데이터 양을 늘리거나 모델의 복잡도를 줄이는 등 여러 가지 기법을 사용가능.

데이터 증강, 드롭아웃, 가중치 규제 등 다양한 방법들을 적절히 조합하여 사용하면 과적합 문제를 효과적으로 완화할 수 있습니다. 각 기법을 잘 이해하고 상황에 맞게 적용하는 것이 중요

학습 회고

기존 ML을 배우면서 overfitting 방지 방법에 대해서 배워 L1,L2 regularization에 대해서는 알고있었다.
이외의 내용에 대해서는 이번의 정리를 통해서 알게되었고 아직 이미지 데이터를 다뤄보진 않아 데이터 증강 방법에 대해서는 후에 더 공부를 해야 좀 더 이해 할 수 있을거같다.

다중 클래스 분류와 소프트맥스 함수

Tue, 25 Jun 2024 10:57:27 GMT

다중 클래스 분류는 여러 개의 클래스 중 하나를 예측하는 문제이다. 이를 위해 신경망을 사용하여 각 클래스에 대한 확률을 계산하고, 가장 높은 확률을 가진 클래스를 선택하게 된다.

신경망 구조

입력층 (Input Layer):
- 입력 데이터 ( x_1 ), ( x_2 )를 포함
- 보통 bias 항도 포함됨.
은닉층 (Hidden Layer):
- 입력층의 데이터를 처리하여 중간 표현을 만듭니다. 이 예시에서는 ( u_1, u_2, u_3 ) 세 개의 은닉층 뉴런이 있습니다.
- 각 입력 특성은 은닉층의 모든 뉴런과 연결됩니다.
출력층 (Output Layer):
- 최종적으로 각 클래스에 대한 예측 값을 출력합니다. 여기서는 ( y_1, y_2, y_3 ) 세 개의 뉴런이 있습니다.
- 이 예측 값들은 소프트맥스 함수를 통해 확률로 변환됩니다.

소프트맥스 함수 적용

소프트맥스 함수는 신경망의 출력값을 확률 값으로 변환합니다. 다음과 같이 정의됩니다:

P(y = k|x) = ℼ k ∕ 1 exp(z_k) / Σ_c=1^C exp(z_c)

여기서:

P(y = k|x): 입력 x가 주어졌을 때 클래스 k에 속할 확률.
z_k: 클래스 k에 대한 신경망의 출력값.
Σ_c=1^C exp(z_c): 모든 클래스에 대한 출력값의 지수 함수 값의 합.

❓ FAQ

Q) 소프트맥스함수와 시그모이드 함수의 차이점은 무엇인가?

시그모이드 함수는 이진 분류 문제에서 사용되며, 개별 출력 값이 0과 1 사이에 있음
소프트맥스 함수는 다중 클래스 분류 문제에서 사용되며, 출력 값들이 확률 분포를 형성하여 전체 합이 1이 됨.

차이점 요약

특징	시그모이드 함수	소프트맥스 함수
정의	(\sigma(z) = \frac{1}{1 + \exp(-z)})	(P(y = k
출력 범위	0 ~ 1	0 ~ 1 (출력 값 합이 1)
주요 용도	이진 분류	다중 클래스 분류
출력 특징	개별 출력 값	확률 분포 (출력 값 합이 1)
적용 사례	스팸 이메일 분류	이미지 분류

느낀점

기존에 애매하게 알고있던 소프트맥스 함수가 시그모이드 함수랑 어떤 차이점을 가지는지에 대해서 알게됨.
아직 갈길이 멀다...

Gradient descent

Wed, 19 Jun 2024 12:52:42 GMT

✔ Gradient Descent란?

Gradient Descent는 함수의 parameter 값을 반복적으로 조정하여 주어진 함수를 최소화하는 최적화 알고리즘입니다. 이 알고리즘의 목적은 함수의 최소값을 제공하는 parameter를 찾는 것입니다. 머신 러닝에서는 주로 비용 함수나 손실 함수의 최소값을 찾는 데 사용됩니다.

✔ Gradient Descent Algorithm

Gradient Descent 알고리즘은 다음과 같은 단계로 작동합니다:

초기 매개변수 설정:
- 함수의 매개변수 (\theta)의 초기 값을 설정합니다.
- 이 값은 랜덤으로 선택되거나 특정 값으로 설정될 수 있습니다.
기울기 계산:
- 현재 매개변수 값에서 비용 함수의 기울기(Gradient)를 계산합니다.
- 이 기울기는 비용 함수가 가장 급격히 증가하는 방향을 나타냅니다.
매개변수 업데이트:
- 매개변수 값을 기울기의 음의 방향으로 업데이트합니다.
- 기울기의 일부를 매개변수 값에서 빼는 방식입니다.
- 이 비율을 학습률(Learning Rate)이라고 하며, 학습률은 매개변수 업데이트의 스텝 크기를 결정합니다. $$ \theta := \theta - \alpha \nabla J(\theta) $$ 여기서:

θ는 매개변수입니다.
α는 학습률입니다.
∇J(θ)는 손실 함수 J(θ)의 기울기입니다.

반복:
- 비용 함수가 최소값에 수렴할 때까지 위 과정을 반복합니다.

✔ Learning Rate(학습률)

학습률은 Gradient Descent 알고리즘에서 중요한 하이퍼파라미터입니다. 학습률은 매개변수 값을 얼마나 크게 업데이트할지를 결정합니다.

학습률이 너무 작은 경우: 매개변수 업데이트가 매우 작아져서 알고리즘이 최소값에 도달하는 데 오랜 시간이 걸릴 수 있습니다.
학습률이 너무 큰 경우: 매개변수 업데이트가 너무 커서 최소값을 지나치게 되어 알고리즘이 수렴하지 않거나 발산할 수 있습니다.

따라서 적절한 학습률을 선택하는 것이 중요합니다. 적절한 학습률을 선택하면 알고리즘이 적절한 반복 횟수 내에 최소값에 수렴할 수 있습니다.

✔ Gradient Descent의 변형

경사 하강 알고리즘에는 매개 변수 값을 업데이트하는 방식이 다른 여러 가지 변형이 있습니다.

1️⃣ Stochastic Gradient Descent(SGD)

설명: 데이터 샘플 1개씩 loss를 계산하고 모델을 업데이트
장점: 더 빠른 반복, 큰 데이터셋에서도 효과적.
단점: local minima에 빠질 위험이 있음

2️⃣ Mini-Batch Gradient Descent

설명:
- 데이터 샘플 (K)개씩 loss를 계산하고 모델을 업데이트
- Full batch gradient descent와 Stochastic gradient descent의 절충안
장점:
- SGD의 속도와 Batch Gradient Descent의 안정성을 결합.
- local minima에 빠질 위험 적어짐
- global minima를 찾아가기에 적절한 stochastic이 있어서 local minima를 탈출하기에 좋음
단점: 적절한 배치 크기 선택이 필요함

3️⃣ Momentum-based Gradient Descent

설명: 이전 기울기 값을 사용해 현재 기울기에 가속도를 부여.
장점: 학습 속도 증가, 지역 최적값에서 벗어나는 데 도움.
단점: 적절한 모멘텀 값 설정이 필요함.

4️⃣ Adam Optimization

설명:

아담 최적화는 각 파라미터에 대한 적응형 학습률을 사용하는 Gradient Descent의 인기 있는 변형.
Momentum과 RMSprop을 결합하여, 각 파라미터에 대한 학습률을 계산
장점: 대부분의 문제에서 잘 작동, 자동으로 학습률 조정.
단점: 추가 하이퍼파라미터 설정 필요.

✔ 결론

경사 하강은 머신러닝과 딥러닝에서 비용 함수 또는 손실 함수를 최소화하기 위해 널리 사용되는 최적화 알고리즘입니다. 이 알고리즘은 함수의 매개변수 값을 음의 기울기 방향으로 반복적으로 조정하는 방식으로 작동합니다.

학습 속도는 신중하게 선택해야 하는 중요한 하이퍼파라미터입니다. 경사 하강에는 확률적 경사 하강, 미니 배치 경사 하강, 운동량 기반 경사 하강, 아담 최적화 등 여러 가지 변형이 있습니다. 각 변형에는 장단점이 있으므로 당면한 문제의 요구 사항에 따라 선택해야 합니다.

❓ FAQ

1️⃣ Gradient decent의 목적은 무엇인가요?

경사 하강은 주어진 함수의 최소값을 찾는 것을 목표로 하는 최적화 알고리즘입니다. 머신 러닝의 맥락에서 비용 함수 또는 손실 함수를 최소화하는 데 사용됩니다.

2️⃣ Batch Gradient Descent and Stochastic Gradient Descent의 차이점은 무엇인가요?

일괄 경사 하강은 전체 훈련 데이터 세트를 처리한 후 매개변수 값을 업데이트하는 반면, 확률적 경사 하강은 각 훈련 예제를 처리한 후 매개변수 값을 업데이트합니다.

3️⃣ 경사 하강에서 학습률이란?

학습률은 음의 경사 방향으로의 스텝 크기를 결정하는 하이퍼파라미터입니다. 학습률이 작으면 수렴이 느려지고 학습률이 크면 최소값을 초과할 수 있습니다.

Loss function, cost function 차이점

Wed, 19 Jun 2024 12:38:22 GMT

Loss Function

정의: 개별 훈련 예측의 오차를 측정한다.
용도: 각 데이터 포인트에 대해 모델의 예측이 실제 값과 얼마나 다른지를 계산한다.
예시: MSE (Mean Squared Error), MAE (Mean Absolute Error), Cross-Entropy Loss 등.

Cost Function

정의: 전체 훈련 세트의 오차를 측정한다
용도: 모델의 전체 성능을 평가하기 위해 모든 훈련 샘플에 대한 손실 함수의 평균 또는 합계를 계산한다.
예시: 전체 훈련 세트에 대한 평균 손실(MSE, Cross-Entropy 등).

요약

Loss Function: 개별 데이터 포인트에 대한 오차를 계산.
Cost Function: 전체 데이터 세트의 평균 오차를 계산.

+α

Cost Function은 Loss Function의 평균 또는 합계이다
Loss Function이 개별 샘플의 성능을 측정하는 반면, Cost Function은 모델 전체의 성능을 평가한다
Cost Function은 여러 Loss Function 값을 합산하거나 평균하여 계산된다

학습회고

기존에 데이터마이닝 수업을 통해 Loss function과 Cost function에 대해서 알고있다고 생각했다.
but 딥러닝 공부를 시작하게 되면서 다시 개념을 되집어 보니 잘못 알고있음을 알게되었고 앞으로 딥러닝 공부를 하면서 헷갈리는과 새롭게 알게된 개념에 대해서 정리하고자 한다.

[Data_mining] 재난문자 유형별 분류 프로젝트

Wed, 12 Jun 2024 06:09:56 GMT

[데이터마이닝] 재난문자 유형별 분류 프로젝트

2024년 1학기 서울과학기술대학교 산업정보시스템전공 데이터마이닝 팀 프로젝트

사용 언어

python

1. 배경 및 필요성

과도한 양의 재난문자로 인해 시민들의 피로도가 증가하고, 재난문자에 대한 신뢰도가 하락했다. 일부 시민들은 아예 재난문자 수신 기능을 해제해 놓기도 한다.

2. 분석 목적

수신자가 원하는 유형의 재난문자만 받아볼 수 있게 하기 위해, 재난문자를 각 유형별로 분류하는 것을 목적으로 한다.

3. 사용 데이터 및 획득 방법

행정안전부에서 제공하는 서울시 구청 재난문자 발송 현황 데이터를 활용했다. 공공데이터포털에서 획득했으며, 2020년 1월 ~ 2021년 1월 데이터, 2021년 2월 ~ 2021년 12월 데이터, 2022년 1월 ~ 2023년 8월 데이터 3개의 파일을 합쳐서 하나의 데이터프레임으로 만들었다.

4. 분석 과정

4.1 데이터 전처리

4.1.1 토큰화 및 불용어 제거

Okt 형태소 분석기를 사용하여 문장을 토큰화하고 각 토큰에 품사를 붙여 추출.
한글 불용어 사전을 이용하여 불용어를 제거.

# 한글 불용어 사전 파일 경로
stopwords_path = '/content/drive/MyDrive/데이터마이닝/stopwords-ko.txt'

# 파일 읽기
with open(stopwords_path, "r", encoding="utf-8") as file:
    stopwords = file.readlines()

# 각 불용어의 좌우 공백과 개행문자 제거
stopwords = [word.strip() for word in stopwords]
# 추가 불용어
stopwords.extend(['[', ']'])
print(stopwords)

```python
# Okt 형태소 분석기 생성
okt = Okt()

# 특수 단어 리스트 정의
special_words = ['확진자', '서울의료원']

# 텍스트 전처리 함수 정의
def preprocess_text_korean(text):
    # 특수 문자 제거
    text = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]', '', text)

    # 형태소 분석 및 불용어 제거
    tokens = okt.pos(text, stem=True)

    # 명사와 동사/형용사만 남기기 및 불용어 제거
    tokens = [word for word, pos in tokens if pos in ['Noun', 'Verb', 'Adjective'] and word not in stopwords]

    # 특정 단어들을 하나의 토큰으로 결합
    for special_word in special_words:
        while special_word in tokens:
            index = tokens.index(special_word)
            tokens[index:index + len(special_word)] = [special_word]

    # 토큰을 다시 문자열로 합침
    preprocessed_text = ' '.join(tokens)
    return preprocessed_text

# '송출내용' 열에 전처리 적용
df['preprocessed_송출내용'] = df['송출내용'].apply(preprocess_text_korean)

# 변경된 내용을 확인하기 위해 데이터프레임의 처음 몇 행 출력
df[['송출내용', 'preprocessed_송출내용']].head(10)

# 전처리된 송출내용만 남긴 데이터프레임: new_df
new_df = df.drop(columns=['송출내용'])
new_df.head()

4.1.2 TF-IDF 벡터화

TF-IDF (Term Frequency-Inverse Document Frequency) 기법을 사용하여 텍스트 데이터를 벡터화.
특정 단어가 문서에서 자주 사용될수록 높은 값을 가지며, 자주 등장하지 않는 단어는 낮은 값을 가짐.
최대 특징 수를 100으로 설정하여 (9348 * 100) 행렬을 생성하고, 희소 행렬을 밀집 행렬로 변환.

# TF-IDF 벡터라이저 생성

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=100)  # max_features는 필요에 따라 조정 가능

# 텍스트 데이터를 학습 및 변환
tfidf_matrix = vectorizer.fit_transform(new_df['preprocessed_송출내용'])

# 결과 매트릭스의 형태 출력
print(tfidf_matrix.shape)
tfidf_matrix

4.1.3 데이터 라벨링

클러스터링 알고리즘을 사용하여 데이터를 라벨링.

4.2 Clustering

4.2.1 DBSCAN을 통한 클러스터링 진행

hyperparameter: eps는 0.01 ~ 10, min_samples는 5 ~ 60까지 바꾸면서 클러스터링을 진행했다.

import pandas as pd
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

# 2. DBSCAN 클러스터링 수행
# DBSCAN 파라미터 설정 (eps와 min_samples는 데이터에 따라 조정 필요)
dbscan = DBSCAN(eps=0.1, min_samples=55)
cluster_labels = dbscan.fit_predict(scaled_tfidf)

# 클러스터링 결과를 데이터프레임에 추가
df['cluster'] = cluster_labels

# 클러스터 수 및 각 클러스터에 속하는 포인트 수 확인
num_clusters = len(set(cluster_labels)) - (1 if -1 in cluster_labels else 0)
print(f'Number of clusters: {num_clusters}')
cluster_counts = pd.Series(cluster_labels).value_counts()
print(cluster_counts)

클러스터별 주요 키워드 추출 및 출력

def get_top_keywords(data, clusters, vectorizer, top_n=10):
    cluster_keywords = {}
    for cluster in np.unique(clusters):
        if cluster == -1:  # 노이즈 클러스터는 무시
            continue
        # 클러스터에 속한 문서들 추출
        cluster_data = data[clusters == cluster]
        # 클러스터 중심 벡터 계산 (평균)
        centroid = cluster_data.mean(axis=0)
        # 상위 top_n 키워드 추출
        keywords = [vectorizer.get_feature_names_out()[i] for i in centroid.argsort()[-top_n:]]
        cluster_keywords[cluster] = keywords
    return cluster_keywords

# 주요 키워드 추출
top_keywords = get_top_keywords(scaled_tfidf, cluster_labels, vectorizer, top_n=10)

# 주요 키워드 출력
for cluster, keywords in top_keywords.items():
    print(f"Cluster {cluster}: {', '.join(keywords)}")

T-SNE로 시각화

from sklearn.manifold import TSNE

# TSNE를 사용하여 2차원으로 축소
tsne = TSNE(n_components=2, random_state=42)
tsne_results = tsne.fit_transform(scaled_tfidf)

# TSNE 결과를 시각화
plt.figure(figsize=(10, 6))
plt.scatter(tsne_results[:, 0], tsne_results[:, 1], c=cluster_labels, cmap='viridis', marker='o')
plt.title('Hierarchical Clustering on TSNE-reduced TF-IDF')
plt.xlabel('TSNE Component 1')
plt.ylabel('TSNE Component 2')
plt.grid(True)
plt.show()

비슷한 클러스터끼리 병합

Cluster 0, 1, 2, 3: 공통적으로 '홈페이지', '블로그', '발생', '내용', '확인', '구청', '상세' 등으로 일반적인 정보를 나타냄.
라벨: 0 할당.

Cluster 5, 6, 7, 11, 12, 13: 공통적으로 '홈페이지', '블로그', '역학', '조사', '방역', '참조', '완료', '세부' 등으로 역학 조사 클러스터.
라벨: 1 할당.

Cluster 18, 19: 공통적으로 '발생', '바라다', '블로그', '코로나', '내용', '상세', '참조', '안내', '강서', '강서구' 등으로 코로나 관련 공지 클러스터.
라벨: 2 할당.

Cluster 4, 8, 10, 14, 15: 공통적으로 '공개', '동선', '예정', '사항' 등의 키워드로 공개된 이동 경로와 일정.
이동 경로 및 일정 공지 클러스터.
라벨: 3 할당.

Cluster 9, 16: 공통적으로 '역학', '코로나', '조사', '방역', '준수', '마스크' 등의 키워드로 역학 조사 및 방역 조치.
방역 조치 및 마스크 클러스터.
라벨: 4 할당.

Cluster 17: '사고', '중구청', '접종', '모임', '사적' 등의 키워드로 사고 및 예방 조치.
사적 모임 자제 클러스터.
라벨: 5 할당.

병합

# 클러스터 재할당을 위한 매핑 딕셔너리

cluster_mapping = {
    0: 0, 1: 0, 2: 0, 3: 0,  # 일반적인 정보 클러스터
    5: 1, 6: 1, 7: 1, 11: 1, 12: 1, 13: 1,  # 역학 조사 클러스터
    18: 2, 19: 2,  # 코로나 관련 공지 클러스터
    4: 3, 8: 3, 10: 3, 14: 3, 15: 3,  # 이동 경로 및 일정 공지 클러스터
    9: 4, 16: 4,  # 방역 조치 및 마스크 클러스터
    17: 5,  # 사고 및 예방 조치 클러스터
    -1: -1  # 노이즈 클러스터 (제외)
}

# 클러스터 재할당
df['merged_cluster'] = df['cluster'].map(cluster_mapping)

# -1(noise) 제외한 새로운 데이터프레임 생성
new_df = df[df['merged_cluster'] != -1][['preprocessed_송출내용', 'cluster', 'merged_cluster']]

# 결과 확인
new_df

# 클러스터 수 및 각 클러스터에 속하는 포인트 수 확인
num_clusters = len(set(df['merged_cluster'])) - (1 if -1 in df['merged_cluster'].values else 0)
print(f'Number of clusters: {num_clusters}')
cluster_counts = df['merged_cluster'].value_counts()
print(cluster_counts)

최종

클러스터명	내용	데이터 수
0	일반적인 정보 나타냄 ('홈페이지', '블로그', '발생', '내용', '확인', '구청', '상세')	447
1	역학 조사 클러스터 ('홈페이지', '블로그', '역학', '조사', '방역', '참조', '완료', '세부')	572
2	코로나 관련 공지 클러스터 ('발생', '바라다', '블로그', '코로나', '내용', '상세', '참조', '안내', '강서', '강서구')	147
3	이동 경로 및 일정 공지 클러스터 ('공개', '동선', '예정', '사항')	509
4	방역 조치 및 마스크 클러스터 ('역학', '코로나', '조사', '방역', '준수', '마스크')	187
5	사적 모임 자제 클러스터 ('사고', '중구청', '접종', '모임', '사적')	81

DBSCAN은 많은 데이터들을 -1, 즉 noise로 처리함을 확인했으며, 적절치 않은 clustering 결과를 확인했다.

4.2.2 k-means를 통한 클러스터링 진행

hyperparameter는 cluster 개수 -> [5,10,15,30], 중심 클러스터 선정방법(init_methods) -> ['k-means++', 'random']를 조정하여 탐색하였고, silhouette score를 참고하여 최적의 하이퍼파라미터를 선정하였다.

그 결과 20개의 cluster를 만들고 k-means++방법으로 중심 클러스터를 찾아 보았다.

# KMeans 모델 생성 및 학습
kmeans = KMeans(n_clusters=20, random_state=42)  # 클러스터 개수를 적절히 설정
kmeans.fit(scaled_tfidf)

#레이블 추출
kmeans_labels = kmeans.labels_

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 하이퍼파라미터 범위 설정
n_clusters_range = [5,10,15,20]
init_methods = ['k-means++', 'random']

# 최적의 파라미터를 저장할 변수 초기화
best_score = -1
best_params = {}

# 모든 하이퍼파라미터 조합을 탐색
for n_clusters in n_clusters_range:
    for init in init_methods:
                kmeans = KMeans(n_clusters=n_clusters, init=init, random_state=42)
                cluster_labels = kmeans.fit(scaled_tfidf)
                labels = kmeans.labels_
                centroids = kmeans.cluster_centers_
                score = silhouette_score(scaled_tfidf, labels)

                if score > best_score:
                    best_score = score
                    best_params = {
                        'n_clusters': n_clusters,
                        'init': init,
                    }

print("Best parameters found: ", best_params)
print("Best silhouette score: ", best_score)

Best parameters found: {'n_clusters': 20,'init': 'k-means++'} Best silhouette score: 0.16555712518201277

T-SNE로 2차원 시각화

from sklearn.manifold import TSNE

# TSNE를 사용하여 2차원으로 축소
tsne = TSNE(n_components=2, perplexity=2, random_state=42)
tsne_results = tsne.fit_transform(scaled_tfidf)

# TSNE 결과를 시각화
plt.figure(figsize=(10, 6))
plt.scatter(tsne_results[:, 0], tsne_results[:, 1], c=kmeans_labels, cmap='Spectral', marker='o')
plt.title('K-Means Clustering on t-SNE-reduced Data')
plt.xlabel('t-SNE Component 1')
plt.ylabel('t-SNE Component 2')
plt.grid(True)
plt.show()

from sklearn.feature_extraction.text import TfidfVectorizer

texts = new_df['preprocessed_송출내용'].fillna('')
vectorizer = TfidfVectorizer(max_features=100)
vectored_df = vectorizer.fit_transform(texts)
dense_df = vectored_df.todense() #vectored_df는 희소행렬이기 때문에 dense 형태로 전환.
feature_names = vectorizer.get_feature_names_out()

keyword_df = pd.DataFrame(dense_df, columns=feature_names)

kmeans = KMeans(n_clusters=20, init='k-means++', random_state=42)
kmeans.fit(tfidf_dense)

centroids = kmeans.cluster_centers_

# 클러스터 중심을 데이터프레임으로 변환
centroids_df = pd.DataFrame(centroids, columns=keyword_df.columns)

# 각 클러스터의 주요 피처 확인
top_features = {}
for i, centroid in centroids_df.iterrows():
    top_features[i] = centroid.sort_values(ascending=False).head(10).index.tolist()

# 각 클러스터의 주요 피처가 문자열인지 확인하고, 그렇지 않은 경우 문자열로 변환
top_features_str = {cluster: [str(feature) for feature in features] for cluster, features in top_features.items()}

# 결과 출력
for cluster, features in top_features_str.items():
    print(f"Cluster {cluster}: {', '.join(features)}")

클러스터	내용
Cluster 0	진자, 코로나, 발생, 신청, 검사, 하다, 관련, 격리, 입국, 자가
Cluster 1	공개, 조사, 역학, 사항, 예정, 이다, 결과, 조치, 홈페이지, 진자
Cluster 2	마스크, 착용, 거리, 준수, 두기, 방역, 진자, 바라다, 발생, 공개
Cluster 3	시기, 확인, 완치, 하다, 블로그, 상세, 홈페이지, 내용, 바라다, 진자
Cluster 4	이용자, 알림, 검사, 시간대, 동선, 확인, 관내, 진자, 바람, 보건소
Cluster 5	참고, 내용, 진자, 자세하다, 홈페이지, 바라다, 발생, 조사, 역학, 결과
Cluster 6	하다, 안전, 유의, 되다, 바라다, 예상, 사고, 지역, 자제, 이용
Cluster 7	운영, 시선, 검사, 진료, 보건소, 되다, 하다, 주말, 구청, 드리다
Cluster 8	격리, 이송, 방역, 소독, 완료, 진자, 발생, 동선, 은평, 채널
Cluster 9	사후, 구청, 공개, 동선, 참고, 역학, 홈페이지, 블로그, 발생, 진자
Cluster 10	모임, 사적, 자제, 금지, 준수, 발생, 진자, 방역, 내용, 바라다
Cluster 11	거주지, 완료, 사항, 방역, 참고, 자세하다, 블로그, 홈페이지, 바라다, 발생
Cluster 12	안내, 참조, 블로그, 강서구, 상세, 진자, 발생, 내용, 양천구, 바라다
Cluster 13	참조, 완료, 세부, 조사, 역학, 진자, 홈페이지, 내용, 바라다, 블로그
Cluster 14	받다, 검사, 진료, 가깝다, 방문자, 바라다, 방문, 증상, 코로나, 보건소
Cluster 15	진행중, 현재, 참고, 추가, 조사, 역학, 내용, 홈페이지, 관련, 코로나
Cluster 16	확인, 상세, 구청, 코로나, 내용, 진자, 발생, 홈페이지, 바라다, 알림
Cluster 17	접종, 예약, 코로나, 센터, 신청, 주민, 오늘, 방문, 되다, 하다
Cluster 18	진행, 이다, 예정, 조사, 역학, 공개, 추후, 홈페이지, 완료, 발생
Cluster 19	방문자, 검사, 보건소, 바라다, 받다, 코로나, 소독, 주말, 증상, 완료

silhouette score = 0.16으로 높지 않았고, 직접 확인 하였을 때도 모든 cluster가 코로나 관련 내용으로 뭉쳐있으므로 주제에 적합한 cluster 모델은 아니라고 판단했다.

4.2.3 계층적 클러스터링을 활용한 데이터 라벨링

앞의 두 클러스터링 알고리즘이 적절한 결과를 내지 못해서, Agglomerative Clustering 알고리즘을 사용했다.

덴드로그램을 그린 후 높이 150에서 군집화하여 총 19개의 클러스터로 만들었다. 그 후 유사한 클러스터끼리 병합하여 총 8개의 클러스터로 만들었다.

계층적 클러스터링을 통해 데이터를 다음 8종류의 라벨로 라벨링했다.

import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster

# 덴드로그램 시각화 (계층적 클러스터링)
linked = linkage(scaled_tfidf, method='ward')

plt.figure(figsize=(15, 10))
dendrogram(linked, orientation='top', distance_sort='ascending', show_leaf_counts=True, color_threshold=150)
plt.title('Dendrogram')
plt.xlabel('Samples')
plt.ylabel('Distance')
plt.grid(True)
plt.show()

from sklearn.cluster import AgglomerativeClustering
# 덴드로그램에서 클러스터를 잘라내기 위해 특정 높이 설정
color_threshold = 150  # 이 값을 적절히 설정하여 클러스터 수를 조절
clusters = fcluster(linked, color_threshold, criterion='distance')

# 결정한 클러스터 수 출력
num_clusters = len(set(clusters))
print(f'Number of clusters determined from dendrogram: {num_clusters}')

# Agglomerative Clustering 수행
hierarchical = AgglomerativeClustering(n_clusters=num_clusters, affinity='euclidean', linkage='ward')
cluster_labels = hierarchical.fit_predict(scaled_tfidf)
new_df['cluster'] = cluster_labels

# 클러스터링 결과 확인
print(new_df[['preprocessed_송출내용', 'cluster']].head(10))

# 클러스터 수 및 각 클러스터에 속하는 포인트 수 확인
print(f'Number of clusters: {num_clusters}')
cluster_counts = pd.Series(cluster_labels).value_counts()
print(cluster_counts)

TSNE 시각화

비슷한 클러스터끼리 병합

2, 3번 병합(추후 다시 클러스터링 필요) -> 23번으로 병합 1, 8, 12, 17번 병합 -> 117번으로 병합 5, 16번 병합 -> 516번으로 병합 7, 9번 병합 -> 79번으로 병합

2, 3번 병합: 확진자 발생 안내+일반 기상상황 혼합 new_df['merged_cluster'] = new_df['cluster'] 클러스터 2와 3을 병합하여 새로운 클러스터 20으로 지정 new_df.loc[new_df['cluster'].isin([2, 3]), 'merged_cluster'] = 20

1, 5, 8, 12, 16, 17, 18번 병합: 역학조사 클러스터 1, 8, 12, 17번을 병합하여 새로운 클러스터 21번으로 지정 new_df.loc[new_df['cluster'].isin([1, 5, 8, 12, 16, 17, 18]), 'merged_cluster'] = 21

7, 9번 병합: 코로나검사 권장 클러스터 7, 9번을 병합하여 새로운 클러스터 23번으로 지정 new_df.loc[new_df['cluster'].isin([7, 9]), 'merged_cluster'] = 23

10, 11, 13, 14번 병합: 방역 클러스터 10, 13번을 병합하여 새로운 클러스터 24번으로 지정 new_df.loc[new_df['cluster'].isin([10, 11, 13, 14]), 'merged_cluster'] = 24

결과 확인 new_df

1차 병합된 데이터프레임: new_df에서 병합 전 클러스터 컬럼 제거, 클러스터명 순으로 정렬 -> new_df2 클러스터명 순으로 정렬 후 클러스터명 0부터 다시 지정

new_df2 = new_df.drop(columns=['cluster']).sort_values(by='merged_cluster') print(new_df2['merged_cluster'].value_counts())

클러스터명 재할당 new_df2['merged_cluster'] = pd.factorize(new_df2['merged_cluster'])[0] print(new_df2['merged_cluster'].value_counts()) new_df2

merged_cluster 20 3022 21 2320 23 1045 4 784 24 777 0 753 6 385 15 262 Name: count, dtype: int64 merged_cluster 4 3022 5 2320 6 1045 1 784 7 777 0 753 2 385 3 262 Name: count, dtype: int64

유사한 것끼리 병합 후

클러스터명 | 데이터 수 | 내용

0 753 확진자 발생안내 1 784 기상 2 385 백신, 교통, 확진자발생 3 262 임시선별소 4 3022 확진자 발생, 기상 5 2320 역학조사 6 1045 검사 권장 7 777 방역

new_df2 = new_df2.sort_index().rename(columns={'merged_cluster': 'label'})
new_df2 # 라벨링한 데이터프레임

최종

클러스터명	내용
0	확진자 발생안내
1	기상 관련
2	백신, 교통, 확진자발생
3	전염병 임시선별소 관련
4	확진자 발생, 기상 관련
5	역학조사
6	전염병 검사 권장
7	방역 관련

2번, 4번 클러스터의 경우 유형이 완벽하게 나누어지지 않는 문제가 있었다.

4.3 재난문자 유형별 분류

4.3.1 사용 모델

분류 모델은 SVM, XGBoost, Random Forest, Catboost를 사용했다.

4.3.2 SVM

최적 hyperparameter

C	gamma
50	0.1

SVM 모델 성능
train accuracy	0.927
valid accuracy	0.839

4.3.3 Random Forest

최적 hyperparameter

max_depth	max_features	min_samples_leaf	min_samples_split	n_estimators
20	auto	1	5	300

Random Forest 모델 성능
train accuracy	0.923
valid accuracy	0.834

4.3.4 XGBoost

최적 hyperparameter

max_depth	learning_rate	colsample_bytree	subsample	n_estimators
7	0.05	1	0.6	300

XGBoost 모델 성능
train accuracy	0.923
valid accuracy	0.828

4.3.5 Catboost

최적 hyperparameter

depth	learning_rate	l2_leaf_reg	iterations
10	0.05	1	500

CatBoost 모델 성능
train accuracy	0.919
valid accuracy	0.833

4.3.6 최적 모델 선정

선정된 최적 모델의 학습을 위해 train 데이터와 valid 데이터를 병합: X_train_final, y_train_final
X_train_final, y_train_final으로 교차검증 진행

model	cross-validation score(cv=5)
SVM	0.848
Random Forest	0.843
XGBoost	0.840
CatBoost	0.846

각각의 최적 하이퍼파라미터 모델에서의 정확도와 X_train_final, y_train_final로 진행한 교차검증 모두 SVM이 가장 좋은 성능을 보였다. → SVM을 최적 모델로 선정

4.4 재난문자 유형별 분류 - 분석 결과

최적 모델을 test data로 평가했다. 결과는 다음과 같다.

cluster	precision	recall	f1-score	support
0(확진자 발생)	0.91	0.95	0.93	143
1(기상 관련)	0.68	0.79	0.73	157
2(백신, 교통, 확진자발생)	0.6	0.65	0.62	77
3(임시선별소)	0.68	0.67	0.67	57
4(확진자 발생, 기상 관련)	0.82	0.81	0.82	596
5(역학조사)	0.97	0.95	0.96	470
6(전염병 검사 권장)	0.91	0.85	0.88	198
7(방역)	0.86	0.8	0.83	172
accuracy	0.849			1870

2번, 4번 클러스터는 라벨링 과정에서 깔끔하게 분리되지 않은 혼합된 클러스터이다.
2번과 3번 클러스터는 precision과 recall이 모두 낮아 성능 개선이 필요하다.
전체 클래스 중 성능이 좋지 않은 2, 3번 클래스의 데이터는 각각 384개, 262개로 다른 클래스에 비해 적은 수이다. 따라서 불균형 데이터셋이 모델의 분류 성능에 부정적인 영향을 주었을 가능성이 높다.
전체적인 정확도의 경우, 최적 모델로 선정된 SVM 외의 다른 모델에서도 약 0.84의 비슷한 성능을 보였다.

5. 한계점 및 개선 방안

한계점

라벨링을 위한 클러스터링 과정에서 데이터가 완벽하게 분류되지 못함.
전염병 관련 문자의 양이 매우 많아 일반 기상 경보 관련 문자들을 잘 분류하지 못함(TF-IDF로 벡터화 시킬 때 전염병 문자 관련 단어들만 feature로 선정되는 문제 존재)

개선 방안

서로 다른 유형의 문자에 자주 등장하는 단어가 한 문자에 동시에 존재할 수 있으므로, 문장의 맥락 파악이 필요 → 딥러닝 기반 모델의 사용
데이터의 특성 상(2020년~2023년 데이터, 펜데믹) 전염병 유형 문자의 수가 다른 유형의 문자보다 매우 많음 → 데이터 수집 확대 및 텍스트 데이터 증강(SR, RI, RS, RD, Back Translation)

s_gyu.log

[Paper Review] - Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting(AAAI, 2025)

[Main contribution]

[PatchMLP]

[MLP Layer]

실험

[Paper Review] - Not All Data are Good Labels: Onthe Self-supervised Labeling for Time Series Forecasting(2025.02)

[Main Contribution]

[문제점]

[해결 아이디어]

1. Initial Case - gridsearch

2. Co-objective Training(공동 최적화)

3. Self-Correction with Adaptive Mask (SCAM)

[Loss function]

4. Spectral Norm Regularization(SNR)

5. 실험

5.1. 주요 실험(Q1)

5.2 Ablation Study (Q2)

5.3. SCAM: A Multiple Instance Learning View (Q3)

6. Conclusion

[Paper Review] - W-MSE(Whitening Mean Squared Error, 2021, ICML)

[Main Contribution]

[The Whitening MSE Loss]

문제점

[overview]

실험

Conclusion

[Paper Review] - Soft Contrastive Learning for Time Series (SoftCLT), ICLR 2024

[Main Contribution]

[SoftCLT overview]

[논문 Definition]

실험결과

Conclusion

Batch Normalization(배치 정규화)

1. Batch Normalization란?

2. Batch Normalization 필요성

3. training 단계의 배치 정규화

Training 단계 정리

4. test 단계의 배치 정규화

5. 왜 Learning rate를 키워도 될까?**

6. 최종 정리

가중치 초기화(Weight initialization)

목차

1. 가중치 초기화란?

2. Zero Initialization (제로 초기화)

3. Xavier Initialization (자비에 초기화)

4. He 초기화(He initialization)

정리

최적화 알고리즘 - RMSProp,Adam

1. RMSProp

RMSProp 개요

RMSProp 동작 방식

RMSProp의 장점

2. Adam

Adam 개요

Adam 동작 방식

1차 모멘트와 2차 모멘트

불편 추정치

Adam의 강점

Adam의 하이퍼파라미터 설정

옵티마이저 정리

최적화 알고리즘 - SGD, Momentum, Nesterov momentum, Adagrad

참고자료

들어가기에 앞서

1. 옵티마이저

2. 확률적 경사 하강법(Stochastic Gradient Descent)

다시 한번 개념 정리

learning rate(η)

3. SGD의 단점.

4. Momentum

overshooting 문제

5. Nesterov momentum

정리

learning rate decay (학습률 감소)

6. AdaGrad

기울기 소실 문제(Problem Vanishing Gradient)

1. 기울기 소실 문제(Problem Vanishing Gradient)

[문제]

<간단 정리>

2. 기울기 소실의 원인