leo_kim.log

[data&ML] R2 (결정계수)가 크면 Error(오차)가 작나요?

Wed, 05 Oct 2022 07:49:04 GMT

R-squared (결정계수) 값이 크면, Error가 작아질까요?

결정계수와 오차, Hmm.. 둘의 관계가 어떻게 될까 일단 둘은 회귀모델의 평가지표이다.

R^2 (결정계수)

$$ R^2 = 1-\frac{( \displaystyle\sum(오차 ^2))}{(\displaystyle\sum(편차^2))} $$ 오차 = 실제값 - 예측값 편차 = 실제값 - 평균값

수식을 통분하여 해석해보면, {(편차제곱합)-(오차제곱합)} / (편차제곱합) 이 되니깐,

평균값으로 예측한 것보다 오차를 얼마나 줄였어?

라고 할 수 있다.

수식을 보면 오차가 작으면 R^2 값이 커지긴한다.

MSE, MAE와의 관계

사실 모델의 성능을 평가할 때 MSE(Mean Squared Error)를 사용한다면 R^2 가 커질 때 MSE는 작아질 것이다. 둘다 제곱합으로 계산하기 때문!

하지만 모델 성능 지표로써 MAE(Mean Absolute Error)를 사용한다면 R^2 가 큰 모델이더라도 MAE가 작을 수 있다. 무조건 'error'가 작아지는 것이 아니다.

간단하게 생각해보면 MAE는 절대값의 합을 구하는 것이고, R^2 는 오차의 제곱합을 구하기 때문에 달라질 수 있겠다.

(실제값-예측값)으로 0~1 사이 값이 포함된다면 제곱과 절대값을 취하는 과정에서 경향성이 달라지는 것이다.

간단한 내용이지만 고민해보면서,

모델 성능 평가 지표로 어떤 것을 선택하는지, 수식이 어떻게 생겼더라 한번 더 생각해보는 것의 중요성을 다시금 리마인드 해보았다 😊

[data&ML] t-test 와 ANOVA의 은밀한 관계

Mon, 03 Oct 2022 07:25:58 GMT

t-test와 ANOVA는 어떤 관계인가?

~~일단 이름만 보면 전혀 닮지 않았다..~~ 먼저 Independent Sample t-test 와 ANOVA를 먼저 비교해보자.

공통점 먼저 알아보자.

가설을 검증하는 통계적 방법이다.
적용할 수 있는 상황에 대한 가정이 동일하다. a. 랜덤 샘플링을 통해 얻은 샘플이다. b. 등분산: 비교하려는 집단들의 분산이 동일
```
 (등분산이 아니면 Welch's t-test)
```
c. 정규성: 샘플이 뽑힌 모집단은 정규분포를 따름
```
 (정규성은 Shapiro-wilk normality test 혹은 Q-Q plot, Histogram으로 확인)
```
d. 독립성: 그룹간 서로 독립
```
 (독립성을 가정하지 못하면 Paired Sample t-test)
```

차이점은 표로 정리해보자.

/	t-test	ANOVA
정의	두 모집단의 평균을 비교하는 가설 검증 방법	3개 이상의 모집단의 평균을 비교하는 가설 검증 방법
Null Hypothesis	H0: µ(x) = µ(y)	H0: All population means are the same
Alternative Hypothesis	H1: µ(x) ≠ µ(y)	H1: At least one population mean is different

검증하려는 가설을 보면 명확하다. t-test는 두 집단의 평균이 같은지 다른지를 보려는 것이고, ANOVA는 세 집단 이상이 있을 때 평균이 같은지 다른지를 보려는 것이다.

다른 t-test

사실 t-test는 종류가 많다.

One Sample t-test: 그룹이 1개일 때, 알고있는 모집단의 평균이 맞는지 검증

(예시) 애플은 맥북의 무게가 1.24Kg이라고 알려져있다. 애플의 주장이 신뢰할 만한지 샘플을 가져와서 검정을 진행해보려 할 때.

Paired Sample t-test: 같은 항목에 대해서 짝지어진 데이터가 존재할 때 얻은 두 관측치의 평균을 비교한다.

(예시) Independent가 그냥 남녀의 체온을 비교한다고 하면, Paired는 부부의 체온을 비교한다고 생각하자.

3개 그룹일 때 t-test를 세 번 하면 안되나요?

네.. 곤란합니다.. 한 번 t-test를 했을 때 1종오류를 저지를 확률이 (유의수준 5% 일 때) 5% 인 것인데, 3번 하게되면 14.3%까지 1종오류 확률이 커지게 된다. (=0.95^3)

1종오류: 실제로는 H0이 맞는데, H0를 기각해버릴 확률 (신중하지 못함!)
3개의 집단 예시로 들자면, 실제로는 차이가 없는데 차이가 있다고 결론을 내려버리는 것.

그룹이 3개 이상일 때는 1종오류를 피하기 위해 ANOVA를 사용한다.

ANOVA 사후검정

3개의 그룹이 다르다는 것은 알겠는데,,, 어떤 애들이 다르다는거지? 에 대한 답은 사후검정(Post-hoc)을 통해 알 수 있다. 대표적으로 몇가지만 소개하자면,

Tukey

집단 별 표본수가 동일할 때 사용하는 것으로 고안됐지만 현재는 집단수가 다르면 Tukey-Kramer를 사용
모든 집단 조합에 대해 분석

Duncan

Tukey와 마찬가지로 집단 별 표본수가 동일할 때.
가장 loose한 방법

Scheffe

집단 별 표본수가 달라도 됨
가장 보수적인 사후검정

구체적으로 어떻게 다른지는 아직 잘 이해하지 못했다. Scheffe > Tukey > Duncan 정도로 민감하다는 점 // 추후에 조금 더 찾아보고 업데이트 예정!

[data&ML] 부스팅 계열 앙상블 알고리즘 (Part. 1)

Sun, 18 Sep 2022 15:05:05 GMT

왜 XGBoost, LightGBM 모델을 사용하셨나요?

이 글은 위 질문에 대해 단순히

트리 부스팅 계열의 알고리즘이 Tabular 데이터에 좋기 때문에 사용했어요~

라고 답하지 않기 위해 작성하기로 했다.

먼저 앙상블,

질문에 답하기 위해서는 먼저 알아야할 개념이 있다. 부스팅과 앙상블.

앙상블 먼저 짚고 넘어가자.

Ensemble(앙상블) 여러 개의 약한 모델(weak learner)을 활용하여 강력한 모델(strong learner)을 만드는 방법

당연하게도 여러가지 방법으로 앙상블을 시도할 수 있다.

Voting
- 여러 개의 모델이 투표를 통해 최종 결과를 결정한다 (일반적으로 서로 다른 알고리즘 사용)
- 사용하는 데이터 셋은 모두 같다
- Hard voting: 다수의 모델이 예측한 결과값을 최종 결과로 선정한다
- Soft voting: 각 모델이 계산한 확률을 평균하여 가장 확률이 높은 결과물을 최종 결과로 선정한다
Bagging (Bootstrap Aggregating)
- 데이터 샘플을 여러 번 뽑아서 (bootstrap sampling, 중복 허용) 모델을 학습시킨 후 결과를 집계하는 방법
- 이 때의 모델은 모두 같은 모델, 학습하는 데이터가 다름
- 모델의 variance는 줄이고, overfitting을 줄여준다 ~~(사실 같은말)~~
- 대표적으로 random forest

Boosting
- 여러 개의 모델이 순차적으로 학습을 수행한다
- 이전 모델이 틀린 데이터에 대해 가중치를 부여하기 때문에 더 높은 예측 성능을 기대할 수 있다
- 성능이 좋지만 속도가 느리고 overfitting이 발생할 가능성이 존재한다
- 대표적으로 XGBoost, LightGBM
Stacking
- 여러 모델이 예측한 결과를 가지고 meta 모델이 새로 예측하는 방법

앙상블에 여러가지 방법이 있는 것은 알았고, 그 중에서 XGBoost와 LightGBM이 속한 부스팅 계열의 앙상블 알고리즘에 대해 자세히 보자.

그 중에서 부스팅 Boosting

대표적인 4가지 Boosting 앙상블이 어떻게 작동하는지 알아보자

AdaBoost
GradientBoost
XGBoost
LightGBM

#1 AdaBoost (Adaptive Boosting)

1995년 고안된 방법, 유튜브 영상 node 하나에 2 개의 leaf를 가진 트리를 stump라고 한다. 피쳐를 하나만 쓴다는 것!

Single Stump / Source: StatQuest

AdaBoost는 가중치가 있는 stump들을 모아둔 모델이다. (random forest는 리프가 여러개인 full tree)

Stumps with different weights / Source: StatQuest

Algorithm

1) 처음에는 모든 데이터의 sample weight를 동일하게 두고 stump를 만들어 각 stump의 지니계수를 계산한다. 2) 지니계수가 가장 작은 (=잘 분류해낸) stump가 첫 stump로 선정된다. 3) 첫 stump에서 잘못 분류한 샘플에 대해서는 sample weight가 커지게 되고, 잘 분류해낸 샘플에 대해서는 sample weight가 작아지게 된다. 4) 업데이트 한 sample weight를 가진 데이터에서 데이터를 중복을 허용하여 샘플링하는데, sample weight가 큰 샘플은 확률적으로 더 많이 뽑히게 된다. 5) 뽑힌 sample에 대해 다시 모든 sample weight를 동일하게 두고 1번 과정을 반복한다.

#2 Gradient Boost

출처 유튜브 영상

AdaBoost에서 stump의 weight가 달라지면서 학습이 진행됐다면, Gradient Boost는 leaf가 많은 형태의 tree를 사용한다. (일반적으로 8~32 leaves) 그리고 tree들의 가중치는 모두 같다.

아주아주 요약하자면, 예측하려는 데이터들의 Y값을 모두 Y값의 평균이라고 두고 그 차이를 줄여나가는 방식으로 학습한다.

Algorithm

먼저 예측하고자 하는 Y값의 평균을 구한다.
각 데이터들의 실제 Y값과 평균값의 차이인 'residual'을 계산한다.
residual값에 따라 데이터를 분류하는 decision-tree를 생성한다.

(여기서 hyperparameter 로써 max_num_leaves를 제한하여 학습과정을 제어할 수 있다)
같은 leaf로 들어간 데이터의 residual을 그들의 평균값으로 대체한다. (-14.2, -15.2 --> -14.7)
첫 예측값인 Average 값에 첫번째로 만들어진 decision-tree의 residual 값을 가중치 (learning-rate)를 곱하여 새로운 예측값을 계산한다.
이제는 (1)단계에서 average로 모든 예측값을 초기화했었던 것처럼 (5)단계에서 계산한 새로운 예측값을 이용하여 residual = (observed-predicted) 을 계산한다. residual 값이 점점 작아질 것이다!
새로운 residual을 기반으로 (3)단계 부터 과정을 반복한다.
처음 average 예측값에 이전 트리를 더한 값에 새로운 트리까지 더해서 또 다른 예측값을 계산해낸다.
위 과정을 반복한다.
한 번의 사이클마다 residual 크기가 작아진다.

Source: StatQuest YouTube

나머지 XGBoost 와 LightGBM 은 Part.2에서 계속...

(cf) The bias and variance of a classifier

모델의 bias와 variance는 뭐지?? Leo Breiman, 1996 = 모델이 내어놓는 prediction 들의 bias(예측값과 실제값의 차이)와 variance(예측값들이 얼마나 흩어져있는지)를 얘기하는 것 쉬운 한글 설명은 여기

Reference

[Tips for ML] 머신러닝을 위한 M2 맥북에어 (애플 실리콘) 세팅하기

Sun, 18 Sep 2022 14:11:08 GMT

최근에 M2맥북에어를 구입하고, 드디어 로컬에서 파이썬을 써야할 일이 생겨 설치해보려고 한다.

Homebrew

맥북에서 파이썬 설치는 처음이기 때문에 홈브루 부터 설치하자. Hombrew 위 링크를 타고 들어가 Install 부분의 코드를 복사하고 터미널에 붙여 넣어 하라는 대로 하면 된다. (비밀번호 입력, 엔터, 그리고 기다림...) 5분 정도 기다린 것 같다.

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Homebrew 설치완료

MiniForge

다음은 conda를 설치해야 하는데, 애플실리콘 환경에서는 MiniForge를 사용하라고 한다. 위에서 homebrew를 성공적으로 설치했다면 cmd+k 를 입력하여 터미널 초기화! (꿀팁) brew install miniforge 를 입력하여 설치 진행하자.

여기서 zsh: command not found: brew 메시지가 뜬다면 % eval $(/opt/homebrew/bin/brew shellenv) 이렇게 입력한 후 miniforge를 설치하면 해결된다.

MiniForge 까지 설치 완료!

Shell 설정

conda init zsh 명령어를 입력한다. 터미널을 종료했다가 다시 들어와보면, (base) 가 추가돼있을 것이다.

Jupyter Notebook 설치

주피터 노트북은 간단하게 pip install로 할 수 있다. pip install jupyter

추가 Scikit Learn 설치

conda 명령어로 설치가능하다. conda install scikit-learn

설치 끝!

[Tips for ML] Jupyter Notebook 원격 접속하기 / 주피터노트북 연구실 pc

Thu, 01 Sep 2022 13:34:27 GMT

기존에는 연구실 윈도우 pc에 원격 접속하여 리소스를 사용했는데, 앱을 통해서 접속하는 과정이 번거로웠었다. 이상하게도 외부 인터넷 환경에서는 접속도 안되고,, 새로운 방법을 찾아나섰다!

코드 중간에 나오는 CAPS_ONLY 대문자로 이뤄진 부분은 사용하는 환경 따라 다른, 다르게 설정해줘야하는 부분입니다.

Jupyter Notebook 원격접속 세팅하기

Anaconda

Config 파일 생성

Anaconda Prompt를 실행한다
jupyter notebook --generate-config 입력
위 명령어를 입력하면 평소 사용하던 노트북 디렉토리에 jupyter_notebook_config.py 파일이 생성될 것이다.
저자의 경우는 C:\Users\USER_NAME\.jupyter 이었다.

노트북 암호 설정

Anaconda prompt 에서 ipython 입력 (config 파일 수정하는 방법도 있긴한데, 아마 같은 과정)
from notebook.auth import passwd 입력
passwd() 입력
설정하고 싶은 비밀번호 입력, verify 에도 동일하게 입력
긴 문자열로 된 ssh 값을 복사해두자
quit() 입력

config 파일 수정

1번 과정에서 만들어진 jupyter_notebook_config.py 을 워드패드로 연다
아래 코드 블럭에 있는 부분들을 찾아서 주석을 해제한 후 (# 부분) 수정한다
수정해야할 부분들이 붙어있진 않아서 ctrl+f로 찾아서 하면 빠르다

#c.NotebookApp.ip = 'localhost'         (수정 전)
c.NotebookApp.ip = '*'                    (이렇게 되도록 수정)

#c.NotebookApp.password = ''
c.NotebookApp.password = 'sha1:SHA_VALUES' (2에서 복사해둔 값)

#c.NotebookApp.password_required = False
c.NotebookApp.password_required = True

#c.NotebookApp.port = 8888
c.NotebookApp.port = YOUR_PORT_NUMBER    (설정하고 싶은 포트번호 5자리 숫자)

방화벽 허물어주기

실제로 허무는 정도는 아니고, 방화벽 설정이 필요하다 (다른 블로그에서는 이 부분이 설명이 안된 글이 많던데 저자의 경우 위까지 했는데 잘 안됐었다..)

윈도우 키를 눌러 '방화벽' 검색하면 '방화벽 상태 확인' 메뉴를 선택
'고급 설정' 선택
'인바운드 규칙'에서 '새 규칙' 선택
'포트' 선택
'TCP' 선택 후 '특정 로컬 포트' 선택, 3에서 본인이 설정한 포트번호 5자리 숫자 입력
'연결 허용' 선택
'도메인', '개인', '공용' 모두 선택
'이름'에 본인이 설정하고 싶은 이름 입력하고 마침 (ex. Jupyter_notebook_remote)
jupyter notebook 재시작

실제 접속하려면

이제 설정은 끝났고, 실제 원격으로 접속할 때는 아래 내용을 해주면 접속이 될 것이다.

원격을 제공할 pc의 Anaconda prompt 실행
jupyter notebook --ip=YOUR_IP 본인 pc의 IP 주소를 입력해주면 된다
원격으로 접속하려는 기기에서 웹 브라우저 실행
주소창에 YOUR_IP:YOUR_PORT_NUMBER 입력한다
본인이 설정한 비밀번호를 입력하면 된다!

맥북으로 잘 사용하는 중입니다!

[KAX Ep.3] TabNet baseline - Kaggle AMEX

Wed, 17 Aug 2022 11:00:46 GMT

2022.08.17 현재 4,560팀 5,575명이 75,221번의 제출 엔트리를 통해 참여하고 있다. 대회 종료까지는 8일이 남았고,

우리 팀은 46등, 은메달 권에 위치해있다. 며칠째 0.800 점수에서 벗어나지 못하고 있다.... 0.001점을 올려 금메달권에 가고자 여러가지 방법을 시도중이고, 새로운 모델로서 TabNet을 고려하게 되었다.

한 번도 접하지 못한 모델이라 논문과 여러 요약본, 베이스라인 코드를 보면서 공부하고 적용해보고자 한다.

출처 논문의 링크는 여기

Tabular data & DL?

AMEX 캐글에서 다루는 데이터는 Tabular 데이터라고 할 수 있다. 쉽게 생각하면 엑셀에서 row & column으로 표현될 수 있는 데이터이다. 자세한 설명은 여기.

현재 참여하는 데이터의 특성상 딥러닝보다는 전통적인? Tree 계열의 앙상블 모델이 우수하다고 알려져있다. ~~배울때는 대략적으로 이해했는데, 다시 고민해보게 되었다.~~

Why Tree?

트리 기반 앙상블을 사용하는 이유

분류/회귀 문제를 해결할 때 경계를 결정하기 쉽다.
학습시키기에 빠르고 쉽다.
높은 해석력 (feature importance) 위 3가지로 요약될 수 있다.

Why Deep-learning in Tabular data?

그렇다면 위 3가지 장점을 딥러닝의 장점과 결합하면 더 좋은 성능을 가지지 않을까 하는 시도인 것 같다.

딥러닝의 장점을 결합시킨다면,

전처리, 피쳐엔지니어링 없이 학습 가능하다.
딥러닝 모델에 해석력을 부여하자 (Sequential Attention Mechanism 적용)

좋다는 것은 실제 데이터에 적용해보면 알게될 것 같다..!

Architecture

실제 TabNet이 어떻게 구성돼있는지 이해해보고 AMEX 데이터로 베이스라인을 돌려보자.

전체적인 구조를 봤을 때 (논문 제목에도 있지만) Attentive Transformer가 눈에 들어온다. 구글에서 만든 BERT 모형의 논문에서 많이 본 단어였다. Transformer를 연구하면서 파생된 것 같다..!

자세한 설명은 여기 블로그에서 정말 쉽게 설명해주셨다.

Baseline - TabNet

1st try

(기본적인) 피쳐엔지니어링 해준 데이터셋을 가지고 먼저 돌려보았다. 총 1275개 피쳐 그리고 파라미터는 TabNet-training 코드에서 그대로 가져와서 사용했다.

처음 Pytorch pip 인스톨에서 에러가 난다면

!pip install --user pytorch-tabnet

위 명령어를 시도해보시길!

참고한 코드에서는 60 epoch 까지가면 0.795까진 나오는것 같은데 피쳐엔지니어를 추가한 게 오히려 성능 저하시키는 느낌이었다.

2nd try

참고한 캐글 코드에서는 아래 리스트 것들만 전처리를 해주었다.

Average, Max, Min, Last (컬럼 골라서)
One Hot Encoding (범주형 변수)
fillna(0)

-> 435 features

따라서 나도 아주아주 기본적인 FE만 해주기로 했다.

Mean, Std, Last (모든 수치형 컬럼)
last (범주형 변수)
inf, fillna(-999)

3rd try

Reference

[KAX Ep.2] 레퍼런스 코드들 - Kaggle AMEX

Thu, 14 Jul 2022 12:39:57 GMT

2022년 7월 15일 기준으로 Kaggle AMEX(캐글 아멕스) 대회에 2,767 팀이 참여하고 있다. 코드를 처음부터 빌드해가는 방법도 있겠지만, 오픈소스가 많고 다들 공유하는 분위기라... baseline은 많이 참고하는 듯 하다. 우리팀이 참고했던 코드를 이해해보고 잘 활용해보자.

Data Preprocessing

먼저 전처리하는 코드이다. 주최측에서 제공한 파일은 csv 포맷에 총 크기가 50.31GB 이라서 다루기가 쉽지 않다. 다른 아티클을 참고하여 .parquet, .pickle, .feather 등의 포맷을 사용한다고 알게되었다.

Radder - amex data int types - train 다른 코드들에서 많이 가져다쓰는 데이터셋이길래 일단 적용해보았다.
- 랜덤 노이즈 제거 floorify
- category 컬럼 라벨인코딩
- dtype 변경

최종적으로 .parquet 포맷으로 변경되어 사용할 수 있다. 데이터 파일

Baseline Model

LightGBM Quick start - by Ambrosm

Code Here 가장 먼저 참고한 베이스라인 모델코드였다. LGBM은 가볍지만 좋은 성능으로 쉽게 돌려보는 용도로 많이 쓰인다. User defined Function (UDF)를 제외하고 코드를 조금 이해해보자면 아래와 같은 순서로 되어있다.

Feature Engineering

Customer_id 당 data point로 이뤄진 df로 변환
이 과정에서 Customer_id 당 mean, min, max, last 값을 계산하게 된다.
최종 shape: (924621, 469) - Train set

Model Training

Stratified K-Fold (5 folds) : default 데이터이다 보니까 0,1 의 binary 값을 가지게 된다. 따라서 fold 마다 1 [default] 값이 골고루 들어가도록 하기 위해서 stratified k-fold를 사용한다.
Parameters 모델의 하이퍼파라미터를 설정해준다. 따로 튜닝은 해주지 않은 듯하다. ~~(언급이 있었는데 제가 못찾은 것일지도)~~

Prediction 학습한 모델에 test 데이터를 집어 넣고 prediction 값을 리턴한다.

	fold0	fold1	fold2	fold3	fold4	OOF
Result	0.79374	0.79152	0.79357	0.79545	0.79488	0.79383
위 표와 같은 결과를 얻을 수 있다.
캐글 사이트에서 제출했을 때 0.793 점수가 나왔었다.
OOF 결과와 비슷하게 나온 것 같다.

개선해볼점

다른 피쳐를 추가해보자: std, first 값 등

파라미터 튜닝 (아직은 하지 않았다. 거의 최종단계에서 돌려보자)

NA 값 채우기

처리해준 피쳐가 전부 같은 처리를 한 것이 아니라 선택적으로 처리를 해줬는데, 이에 대한 래셔널이 맞는지 확인해볼 필요가 있다.

Keras Neural Network - by Ambrosm

Code Here 간단한 뉴럴넷 모델로 돌려보려고 참고한 코드이다. 통상적으로 tabular 데이터에는 뉴럴넷보다는 머신러닝 알고리즘(lgbm, xgb, rf)이 성능이 더 좋다고 알려져있지만 다른 모델도 적용해보고자 참고하였다.

Feature Engineering

위에서 언급한 lgbm과 동일한 사람이 작성한 코드이기 때문에 해준 처리는 동일하다.

Model Training

다른점만 언급하자면 모델만 다르다. 4개의 hidden layer, skip connection, dropout을 포함한 아래와 같은 모델을 선택했다.
lgbm과 마찬가지로 stratified K-fold를 적용했는데, 폴드 수만 10으로 증가시켰다. 이 부분은 저자에게 discussion 탭을 통해 물어보니 10 fold로 바꿔서 LB 스코어가 증가될 것을 기대했다고 한다.
무작정 폴드 수를 늘리는 것이 스코어를 늘린다는 보장은 없으나, 달리 해보는 것은 의미가 있을 듯하다.

Prediction 예측하는 부분 코드도 크게 달라진점은 없었다.

	fold0	fold1	fold2	fold3	fold4
Result	0.79485	0.78556	0.78797	0.79310	0.78511
	fold5	fold6	fold7	fold8	fold9	OOF
Result	0.79027	0.79326	0.79456	0.79074	0.78690	0.79023

OOF 점수가 0.79023 이 나왔고 실제 제출결과는 0.790 으로 거의 동일하게 나왔다.

개선해볼점

마찬가지로 Feature 추가

모델의 변경 - feature를 추가함에 따른 모델의 노드 개수 변경 & 히든레이어나 구조자체를 바꿀 수 있겠다.

[KAX Ep.1] Kaggle에 도전하기로 했다.

Mon, 11 Jul 2022 05:46:17 GMT

2022년 7월 4일 캐글에 참여하기로 했다.

고민을 시작한 것은 6월 27일 부터였고, 대회 선정에 2~3일 정도 걸렸다. 최종적으로 선택한 대회는 AMEX의 monthly customer profile 데이터로 각 고객의 default probabilty를 예측하는 것.

선정이유

관심있는 금융 도메인의 대회
많은 참여자 + 활발한 reference code 공유
적당히 큰 데이터셋
Tabular 데이터셋
~~다른 선택지가 그리 많지 않았다..~~

DataSet

train : 384 cols, 458,913 rows (16.4GB)
test : 384 cols, 924,621 rows (33.82GB)

Team

트레인셋과 테스트셋의 만남 ^^; 2인 팀으로 참여하고 있다. 팀명은 GossariMuchim. K-캐글의 힘을 보여주겠다.

Goal

이 대회의 1등 상금이 40,000$ 인데, 우리의 목표는 1등!

Timeline

May 25, 2022 - Start Date
August 24, 2022 - Final Submission Deadline

앞으로 한 달 조금 더 남았는데, 현재는 EDA를 1차적으 마치고 baseline + FE 몇 가지를 실험해보고 있다.

종종 상황을 업데이트 올리겠다. Good Luck 🍀

KoGPT 써보기

Wed, 29 Jun 2022 13:36:00 GMT

KoGPT는 2021년 카카오브레인에서 발표한 GPT-3 한국어 버젼이다. 언어모델을 써야하는 일이 있어 써보기로 했다.

... 근데 어떻게 쓰는거지?

코드를 일단 돌려보고 고민해보자.

코드는 카카오브레인 Github, Huggingface에서 가져왔다. https://huggingface.co/kakaobrain/kogpt

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM 

tokenizer = AutoTokenizer.from_pretrained(
  'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16',  # or float32 version: revision=KoGPT6B-ryan1.5b
  bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'
)
model = AutoModelForCausalLM.from_pretrained(
  'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16',  # or float32 version: revision=KoGPT6B-ryan1.5b
  pad_token_id=tokenizer.eos_token_id,
  torch_dtype='auto', low_cpu_mem_usage=True
).to(device='cuda', non_blocking=True)
_ = model.eval()

prompt = '인공지능아, 너는 말을 할 수 있니?'
with torch.no_grad():
  tokens = tokenizer.encode(prompt, return_tensors='pt').to(device='cuda', non_blocking=True)
  gen_tokens = model.generate(tokens, do_sample=True, temperature=0.8, max_length=64)
  generated = tokenizer.batch_decode(gen_tokens)[0]

print(generated)

첫번째 오류.

위 코드를 돌리니 가장 처음 뜨는 오류는,

ModuleNotFoundError: No module named 'torch'

torch 가 없대,,,ㅎㅎ

가상환경에서 pytorch를 설치하는 블로그를 보고 해결! 감사합니다

https://eunji7267.tistory.com/6

두번째 오류.

ModuleNotFoundError: No module named 'transformers'

첫 번째 오류가 해결되니, 기다렸다는듯이 다른 오류! -> 두 번째 오류는 anaconda prompt 에서

conda install transformers

로 해결~

몇 분의 다운로딩 과정을 기다리면 된다. 어김없이 에러인데, Runtime Error

개인 pc에서는 안될것 같다. 연구실 pc에서 해보자!

K-means Clustering

Fri, 24 Jun 2022 07:26:35 GMT

k-means Clustering 할 때 여러번 돌리고 난 후 제일 좋은 결과 하나를 뽑는다고 할 때. "제일 좋은 결과"란 무엇인가?

분류한 결과를 앙상블 한다. (majority voting)
군집 내 거리는 짧고, 군집 간 거리는 크게 분류된 결과를 취한다.
k-means silhouette 실루엣 스코어가 높을 때 좋다!

Clustering Post-processing

Fri, 24 Jun 2022 06:44:29 GMT

정답은 없다!

비즈니스 맥락을 파악하면서 내가 클러스터링하는 게 맞는지 계속 검증하는 것이 필요