studying_tz.log

Transfer learning

Tue, 28 Mar 2023 04:45:05 GMT

Transfer learning이란 기존의 task에 맞게 이미 학습된(pre-trained)의 모델을 활용하여 다른 Task를 푸는 방법론이다. 주로 Image문제를 풀기위해 학습한 CNN네트워크를 활용하여 이미지 분류 혹은 다른 문제를 푼다. 개념은 이러하고, 이를 얼마나 Transfer하고 얼마나 learning할지에 따라 세부 방법론은 달라진다.

파인튜닝(fine-tuning) : 다운스트림 태스크 데이터 전체를 사용합니다. 다운스트림 데이터에 맞게 모델 전체를 업데이트합니다.
프롬프트 튜닝(prompt tuning) : 다운스트림 태스크 데이터 전체를 사용합니다. 다운스트림 데이터에 맞게 모델 일부만 업데이트합니다.
인컨텍스트 러닝(in-context learning) : 다운스트림 태스크 데이터의 일부만 사용합니다. 모델을 업데이트하지 않습니다.

in-context learning

제로샷러닝(zero-shot learning) : 다운스트림 태스크 데이터를 전혀 사용하지 않습니다. 모델이 바로 다운스트림 태스크를 수행합니다.
원샷러닝(one-shot learning) : 다운스트림 태스크 데이터를 1 건만 사용합니다. 모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행합니다.
퓨샷러닝(few-shot learning) : 다운스트림 태스크 데이터를 몇 건만 사용합니다. 모델은 몇 건의 데이터가 어떻게 수행되는지 참고한 뒤 바로 다운스트림 태스크를 수행합니다.

스태킹 앙상블(Stacking Ensemble)

Tue, 20 Dec 2022 05:15:51 GMT

전통적인 방법인 train학습, test예측 외에 test에서 예측된 값을 다시 train으로 쓰는 것. 예를 들어 SVM, LGBM, XGboost로 예측한 값들을 모아서, 최종 model의 train값으로 쓴다. 이때 overfitting의 이슈가 있어 실제로는 CV stacking ensemble을 많이 쓴다

베이지안 최적화(Bayesian Optimization)

Mon, 19 Dec 2022 14:22:10 GMT

다양한 하이퍼파라미터 튜닝 방법 중 베이지안 최적화에 대해 정리해본다.

Grid search: 시간이 너무 오래 걸림 Random search: Random하므로 최적값을 모름

베이지안 최적화는 사전정보를 활용해 미지의 함수를 찾아가는 과정이다.

사전정보는 surrogate model을 학습하며 acquisition fuction의 최대값을 찾아 그 포인트의 surrogate model을 업데이트한다.

위 그림의 설명을 더하면,

t = 2일 때의 Acquisition Function이 최대화 되는 값은 t = 3 시점에서 새로 관찰할 점으로 들어가게 된다.
이에 따라, t = 3에서 새로 관찰한 함수값 주변의 파란 영역이 크게 줄어들며, 동시에 Acquisition Function 또한 업데이트 된다.
마찬가지로 t = 3의 Acquisition Function이 최대가 된 지점에서 t = 4의 새로운 관찰값이 생성되고, 그 주변의 파란 영역이 줄어들며 Acquisition Function이 다시 업데이트된다.
이러한 과정이 계속 반복되면서 추정값이 실제 목적 함수에 근사하게 되고, 근사한 함수에서 최종 최적값을 찾을 수 있다.