bo-lim.log

C로 컴퓨터비전 구현해보기(1)

Fri, 17 Mar 2023 13:35:19 GMT

한동안 교환학생을 갔다온다고 블로그 업로드를 미뤘는데... 다시 시작해보려한다. 한동안은 교환가서 배운 내용들을 정리겸 올릴 계획이다. 교환 가서 들은 수업들이 석사수업들이라 쉬운 내용이 없어 차근차근 다시 공부하며 올릴 예정이다.

가장 먼저는 C언어로 작성한 이미지 프로세싱 프로그램이다.

프랑스는 다들 리눅스를 사용하고 학교의 모든 컴퓨터도 리눅스다.

심지어 과제도 리눅스로 컴파일 하도록 한다...

리눅스를 못하지는 않아 어려움은 없었는데 불편하긴 했다ㅎㅎㅎ

이참에 리눅스와 친해져왔다.

Local Filtering

사실 가장 먼저 한 것은 C로 PGM 파일 읽고 쓰는 것이었다.

하지만 이 부분은 따로 파일이 안남아있어 다음 과제들에 삽입되어있는 코드 참고하기를 부탁드린다.

영상에 Local filtering을 이용하여 해당 픽셀 값을 이웃 픽셀들을 고려한 값들로 대체하여 Smoothing, 즉 noise를 없애는 효과를 낼 수 있다.

Local Filtering에는 3가지 방법이 있다.

1) Averaging 2) Median Filter 3) Bilateral Filter

Averaging

말 그대로 평균값을 이용한 방법이다.

$$ I'(i,j) = \sum_{(m,n)\in N}h(m,n)I(i-m,j-n) $$ $$ \sum_{(m,n)\in N}h(m,n)=1 $$

이 방법에는 Binomial filter 방식도 포함되어있다.

Binomial filter는 가우시안 필터의 이산분포와 유사하며 가우시안 노이즈와 잘 맞다.

Binomial filter는 파스칼의 삼각형으로 coefficient values를 구할 수 있다.

ex) $$ 1/16 \begin{bmatrix}1&2&1\2&4&2\1&2&1\end{bmatrix} $$

출처:타이완의 Shang Shou, Communication and Multimedia

Median Filter

위의 averaging 방식은 이미지의 노이즈도 없애지만 정보도 많이 없어진다.

그래서 평균을 취하지 않고 이웃 픽셀 중 최빈값으로 대체하는 방식도 있다.

Bilateral Filter

이 방식은 1998년 Tomasi와 Manduchi에 의해 소개되었다.

비선형 가우시안 필터를 사용하여 이전 방식들 보다 노이즈를 제거해주면서도 엣지를 잘 유지한다.

비선형 가우시안 필터는 센터픽셀과의 유사성을 고려하면서 가중치를 부여하여 엣지가 더 잘 유지된다.

이 이미지는 소개되었을 당시 논문에 실려있던 이미지이다.

$$ I'(i,j) = \sum_{(m,n)\in N}h(m,n)I(i-m,j-n) $$ $$ \sum_{(m,n)\in N}h(m,n)=1 $$ 여기에 $$k,l$$ 2개의 가우시아 커널들이 사용된 bilateral filter 은 아래 식과 같이 계산된다.

$$ h(m,n) = \frac 1ck(\sqrt{m^2 + n^2})\space l(\sqrt{(I(i,j) - I(i-m,j-n))^2} $$

$$ c = \sum_{(m,n)\in N}k(\sqrt{m^2 + n^2})\space l(\sqrt{(I(i,j) - I(i-m,j-n))^2} $$

커널 $$l$$은 중심픽셀과 다른 값의 영향을 줄여준다.

C로 구현한 코드로 직접 얻은 결과이다. - Github 링크

TIL(Today I Learned) - 7월 셋째 주

Wed, 20 Jul 2022 09:56:03 GMT

07/19

부스트캠프하면서 더 듣고 싶었던 부분인 Transformer 부분을 다시 복습하였다! 주재걸 교수님 강의는 언제 들어도 정말 좋은 것 같다.

밤에는 보아즈 동아리에서 하는 폰드 생성모델 후처리를 erosion, denosing을 이용하여 진행해보았다.

07/20

'텐서플로2와 머신러닝으로 시작하는 자연어처리' 책을 부스트캠프 하는 동안 샀었는데, 막상 당시에는 너무 바빠서 못 읽었다. 이제 다시 읽으려고 챕터 1, 2(~토크나이징) 를 빠르게 복습하였다.

밤에는 토요일에 있을 보아즈 동아리 발표를 위해 폰트 생성 코드를 다시 공부하였다.

07/22

BOAZ 동아리 발표를 위해 내가 맡은 부분이 아닌 손으로 그린 것처럼 사진을 바꿔주는 그림팀의 내용을 공부하였다.

07/23

BOAZ 동아리 발표.

DALL-E 논문 정리

Fri, 29 Apr 2022 02:08:57 GMT

DALL-E

Intro.

이번 DALL-E 논문은 MultiModal task에 관심이 많아져서 읽고 싶었던 논문이다.

이미지 생성 모델답게 어려운 수식들이 있었지만 저걸 어떻게 하지?로 시작해서 어떤 아이디어로 이 모델이 학습되었구나를 알아가는 과정을 즐길 수 있었다.

이전에는 논문 형식을 지키면서 정리해온다는 느낌이었는데 이번에는 중요한 거 위주로 이해하기 쉽게 정리해보려고 한다.

paper : https://arxiv.org/pdf/2102.12092.pdf

DALL-E란?

DALL-E

120억 개 파라미터의 autoregressive transformer 모델(GPT-3 기반의 모델)을 2억 5천만 장의 이미지-텍스트 쌍으로 학습
데이터셋은 인터넷에서 수집하여 학습, 결과적으로 MS-COCO 데이터셋에서 추가 정보없이 zero-shot으로도 높은 성능을 보임
Human Evaluation시 기존 모델보다 90% 더 높게 선호한다는 결과
Image-To-Image translation에서도 기본적인 수행 능력을 가지는 것을 확인 가능(Image->Text->Image)

2 Stage 학습

문제점

DALL-E의 학습 목표는 텍스트와 이미지 토큰을 하나의 시퀀스로 입력받아 트랜스포머를 학습시키는 것이다.

이 과정에서 트랜스포머의 연산량은 시퀀스 길이의 제곱에 비례하기 때문에 이미지의 픽셀별로 입력을 넣는 것은 엄청난 자원을 소비하는 것이다.

이 문제점으로 인해 2Stage로 진행된다.

전반적인 프로세스

전체적인 학습 프로세스는 joint distribution에 대한 ELB(evidence lower bound)를 최대화 하는 과정이다. 아래와 같이 식을 분해할 수 있다.(이미지 x, 캡션 y, 토큰 z)

그리고 이 모델의 lower bound는 아래와 같다.(VAE의 ELB 식과 유사)

전반적인 진행과정은 텍스트와 이미지 토큰들이 들어가고 예측된 인덱스로 codebook에서 벡터를 꺼내 이미지 토큰에 추가시키고 이 과정이 결과 이미지를 생성할 때까지 계속 반복된다.

입력부분을 구체적으로 보면 아래처럼 start-of-text 스페셜 토큰으로 시작해서 text를 넣고 남은 부분은 padding으로 채운다. 이미지 입력 전에는 start-of-image 스페셜 토큰으로 시작해 임베딩된 이미지 토큰을 입력한다.

Stage 1: Learning the Visual Codebook

첫 번째 stage에서는 256x256 RGB 이미지를 32x32의 이미지 토큰으로 압축한다.

여기서 VQ-VAE에 대한 사전지식이 필요하다. VQ-VAE에서는 위와 같이 이미지 토큰으로 자른 후 K개의 벡터가 들어있는 CodeBook에서 가장 가까운 하나로 대체하여 discrete한 이미지데이터에서 VAE를 이용한 학습을 보여준다.

DALL-E에서도 K(codebook사이즈)는 8,192로 transformer를 고정한 상태로 discrete-VAE 인코더 $q_\phi$와 디코더 $p_\theta$ 를 학습한다. 위의 이미지가 original image이고 아래가 discrete VAE의 결과이다. -> 디테일 손실은 보이지만 사물을 인식할 정도의 정보들은 남아있는 상태로 압축된다.

Discrete 데이터라서 발생하는 문제가 Back Propagation에서도 발생한다. 위에서 CodeBook에서 가장 가까운 값을 선택할 때, argmax를 이용해 인덱스를 선택하는 방식으로 진행하면 gradient를 구할 수 없다. -> 그래서 gumble softmax relaxation을 이용하여 구해야한다. 여기서 temperature $\tau$는 0에 가까워질 수록 hard한 distribution을 만든다.

Stage 2

두 번째 stage에서는 256의 BPE-인코딩된 텍스트 토큰과 1,024(32x32)개의 이미지 토큰들을 concat하여 연속적으로 입력한다. 이번에는 discrete-VAE 인코더 $q_\phi$와 디코더 $p_\theta$를 고정한 상태로 트랜스포머 $p_\psi$를 학습한다.

이 과정에서 아래와 같이 다양한 attention mask를 활용하며 모두 칸 6개는 모두 비워두어 text에 대해서는 항상 attention을 하고 이미지는 다양한 형태로 mask에 변형을 준다.

결과

N을 설정하여 N개의 다양한 이미지를 생성하고 CLIP사용해 k번째로 similarity가 높은 이미지를 선택한다.

이미지 출처 및 내용 참고 논문-https://arxiv.org/pdf/2102.12092.pdf 논문해설-https://youtu.be/CQoM0r2kMvI

논문 속 RE Task 관련 데이터셋 이해하기 | TAC Relation Extraction Dataset | KLUE

Wed, 13 Apr 2022 03:34:47 GMT

RE 데이터셋을 구축하기 위해 RE 관련 논문 2개를 데이터셋 구축 위주로 보았다.

TAC Relation Extraction Dataset

Position-aware Attention Supervised Data Improve Slot filling 논문 안에 있는 내용이다. Slot filling 과제는 Subject 엔티티와 Object 엔티티의 relation tag를 채우는 것을 말한다.

이 논문의 경우는 새로운 데이터셋인 TACRED를 생성하였다. 이전에 TAC KBP로 Knowledge base를 확장하기 위한 데이터셋이나 SemEval-2010등이 있었는데 양이 적거나 task에 적합하지 않아서 새로 만들었다고 한다.

TAC KBP 챌린지를 통해서 데이터를 가져왔으며 2009-2015년까지의 데이터를 사용하였으며 Mechanical Turk를 이용해서 주석을 달았다.

총 106,264개의 데이터들을 모았으며 2009-2012년도 까지의 데이터를 training, 2013은 dev set, 2014은 test set으로 나누었다. 2015년은 slot filling evaluation을 위해서 따로 뺐다.

연도별로 자르는 이 방식이 편리할 수는 있지만 엔티티 종류나 개수, 레이블등이 연도마다 불균형할 수도 있어서 좋지 않을 것 같다.

그래도 기존 데이터셋에 비해 10배 정도 더 많은 데이터를 갖고있다는 것이 장점이며 그리고 더 많은 relation을 갖고있어 slot filling task에 더 좋은 성능을 보여준다. 문장의 길이도 길어져 조금 더 복잡한 문장으로 task 난이도를 높였다고 볼 수 있다.

데이터 수집 방식으로는

1) LDC example - Document에 해당 개체명이 어떻게 나와있는지 부터 태깅을 시작해서 2단계를 거쳐 완성한다. + HIT방식 (Generated example에 비해 처음부터 태깅하는 방식) 2) Generated example - 기존의 시스템을 가지고 개량을 해서 태깅하는 방식으로 진행한다.(주체, 대상이 나오는 상황에서 관계만 지정)

LDC example로 1만개, Generated example로 11만개를 만들고 중복을 제거하였다. 그랬더니 4천개 정도 문장이 지워졌기에 여유분을 두어 데이터 제작이 중요하다는 것을 알 수 있다.

작업자들의 작업 신뢰를 위해 데이터셋에 대한 질문을 제공해서 얼마나 잘 푸는지로 검증하였다. 만약 25%이상의 에러가 넘으면 재작업을 하는 방식으로 진행하였다. 데이터 작업자들의 Fleiss Kappa를 측정하고 54.4%가 나온 것을 확인하였다.

***KBP - Knowldege Base를 확장하기 위한 것들로 Slotfilling과 Entity Linking으로 구별된다.

KLUE-RE

이 논문에서는 RE task를 Single sentence classification task로 보고 sub, obj로 relation triplet을 만드는 것이 목적이다. 30개의 label을 사용하고 있으며 no-relation이 빠진 micor f1 score를 계산하여 모델을 평가하였다.

WIKIPEDIA, WIKITREE, POLICY - 위키피디아는 온라인 백과사전과 비슷하며 위키트리는 언론사이며 폴리시는 정부정책에 대한 기사들을 모아놓은 말뭉치이다. 이렇게 구어가 아닌 문어성이 짙은 말뭉치들을 가져왔다. 그리고 social bias나 korean hate speech에 관련된 것을 필터링하였다.

TAC-KBP를 참고하였으나 한국어의 특성상 새로운 relation들도 추가를 하였다.

NER단계와 관계를 주석하는 2가지 단계로 진행하였으며 첫번째 단계에서

1) KB-based sampling - knowledge base를 기반으로한 샘플링 방법(위키피디아, 나무위키 등으로 구축) 2) uniform sampling - no-relation 데이터도 포함하기 위해 인위로 만든 문장 2가지 접근방법을 사용하였다.

두번째 단계에서는 5개 중에 4개 이상의 파일럿 질문을 맞춘 163명의 사람들로 관계를 정의하는 작업을 수행했다. 추가로 작업과정에서 데이터 자체에 에러가 있는 경우나 개인정보, 비윤리적인 정보인 경우 따로 체크를 할 수 있게 하였다.

특징적으로 Train, Dev, Test set에서 Dev, Test set으로 갈 수록 no-relation 비율을 높였으며 5%이상의 relation인 것들도 몇가지 있었다.

마무리

논문들을 보면서 짧게나마 어떻게 데이터셋을 모았는지 알 수 있었으며, 데이터셋을 만드는 것이 막막했는데 어떤 과정을 거치는 지 알 수 있었다. 그리고 혐오표현이나 이런 것들을 필터링하는 윤리에 관한 부분도 신경 써야한다는 것도 다시 상기시킬 수 있어서 좋았다.

Linux(Ubuntu)에 Konlpy 설치 & 에러 해결하기

Thu, 24 Mar 2022 04:32:51 GMT

GPU 서버에 Konlpy를 설치하면서 겪었던 과정을 정리해보았다.

Konlpy 설치

우선 konlpy만 먼저 설치할 경우 JAVA HOME에 대한 에러가 난다. 그래서 이 부분 먼저 해결해줘야한다.

apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl (Error 1)
pip install --upgrade pip
pip install konlpy

Mecab 설치

apt-get install curl git (Error 2)
bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Error 1

첫 과정에서

E: Could not get lock /var/lib/dpkg/lock-frontend - open (11: Resource temporarily unavailable) E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), is another process using it?

이러한 에러가 날 수 있다.

아래 코드로 해결하였다.

lock 걸린 파일들 지우기

(필요한 경우 sudo 맨 명령어 앞에 sudo 추가)

rm /var/lib/apt/lists/lock
rm /var/cache/apt/archives/lock
rm /var/lib/dpkg/lock*

업데이트

dpkg --configure -a
apt update
Error 2
이후 다시 아래와 같은 에러가 발생할 수도 있다.

E:Sub-process /usr/bin/dpkg returned an error code(1)

아래 코드로 해결하였다.

rm /var/lib/dpkg/info/*
dpkg --configure -a
apt update -y

Improving Language Understanding by Generative Pre-training | GPT-1 | 논문 정리

Sun, 20 Mar 2022 09:55:03 GMT

GPT-1

최근 NLP 블로그들이나 커뮤니티에서 GPT-3에 대한 많은 언급들을 보게되었다. 우리 팀원들과 무슨 논문을 읽을까에 대한 얘기가 나왔을 때 강력 추천해서 읽게 되었다ㅎㅎㅎ

Author: Alec Radford, OpenAI Reading date: March 20, 2022 Summary: GPT-1

Improving Language Understanding by Generative Pre-training

Abstract

unlabeled 텍스트 corpus들은 많은 반면에 특정 task들에 맞는 labelded된 데이터는 희귀하다.

unlabeled 텍스트로 language model의 generative pre-training을 하고

각 task별로 다른 fine-tuning을 하면 많은 이득이 있다.

이전 접근들과 다르게, fine-tuning에서 task-aware 입력 transformation을 사용하여 효과적으로 전달할 수 있다. (+ 약간의 모델구조 변형)

이러한 방식으로 Natural Language Understanding 분야에서 다방면으로 높은 성능을 보여준다.

Introduction

raw text를 얼마나 효과적으로 학습할 수 있는 지는 supervised learning에 대한 의존도를 완화시키는데 중요하다.

대부분의 딥러닝 모델은 어느정도 충분한 labeled 데이터가 필요한데 이러한 데이터는 많은 도메인에서 적용하기 힘들다. 그래서 이러한 데이터를 이용해 가치있는 representation을 만든다. 이는 확실히 성능을 높여준다.

그러나 unlabeled text에서 단어단위를 넘는 효과를 얻기는 힘들다.

각기 다른 task마다 다양한 objectives를 가지기 때문에 효과적인 transfer를 위한 text representation을 최적화하려는 목표가 명확하지 않기 때문이다.
학습된 representation을 transfer하는 가장 효과적인 방법이 task마다 달라서 일치하지 않는다.

목표 : 다양한 task에 transfer 가능한 보편적인 representation을 학습
- 논문에서는 semi-supervised 접근을 보여준다 → (unsupervised pre-training + supervised fine-tuning)
- unlabeled text + target task에 맞는 몇몇 datasets ( unlabeled corpus와 같은 도메인이라면 target task의 dataset 필요없음)
- 2-stage의 학습과정이 있다.*
1. unlabeled 데이터로 파라미터 초기화를 학습
2. target task의 supervised objective에 맞게 파라미터 학습

모델 안에서 Transformer를 사용한다.

구조적인 메모리로 long-term dependencies를 효과적으로 다루기 위해 사용한다. rnn계열 모델에 비해 다양한 task에 대해 robust한 결과를 얻는다.

본 모델은

natural language inference
question answering
semantic similarity
text classification

이 4가지 타입의 NLU task를 평가하였다.

당시 12 task 중 9개에 SOTA를 달성하였다.

Semi-supervised learning for NLP

본 논문의 모델은 semi-supervised learning에 속하며 이 분야는 sequence labeling이나 text classification과 같은 task에 잘 적용된다.

가장 먼저 supervised 모델 안에서 unlabeled data의 word-level 또는 phrase-level에 대해 연구하였다.

몇 년 후, 워드 임베딩의 이점들로 다양한 task의 성능이 올라갔다.

저자는 단어 이상의 전달을 하고자 했다. 당시 최근 연구들도 unlabeled 데이터에서 Phrase-level, sentence-level에 대한 연구가 되고 있었다.

Unsupervised pre-training

컴퓨터 비전 연구부터 pre-training에 대한 대한 연구를 보여줬었다. NLP분야에서도 언어적인 정보를 잡아내는 데 도움이 되는 pre-training LSTM 모델을 보여주었으나 RNN 계열 모델이기에 비교적 짧은 범위에서만 가능했다.

그래서 본 논문의 모델은 transformer를 선택하여 긴 범위에도 가능하게 하였으며, 뿐만 아니라 다양한 task도 가능하게 하였다.

Auxiliary training objectives

보조적인 unsupervised training objectives를 더하는 것은 semi-supervised learning의 변형 중 하나이다.

이전 연구에서 POS tagging과 같은 보조적인 language 모델링 objective를 추가하여 sequence labeling에서 성능 향상을 보여줬다.

본 논문의 모델도 보조적인 objective를 추가하는데, unsupervised pre-training은 이미 target task와 연관된 언어적 특성을 학습한다.

Framework

2-stage로 학습과정이 구성된다.

Unsupervised pre-training
Supervised fine-tuning

Unsupervised pre-training

unlabeled된 많은 corpus를 가진 Text로 높은 수용력을 가진 모델을 학습하는 과정이다.

$L_1(U) = \sum_{i}logP(u_i|u_{i-k},\cdots,u_{i-1};\Theta)$ → likelihood를 maximize하기 위한 modeling objective

U = {u_1,...,u_n} : unsipervised corpus of tokens ( unlabeled 데이터 )

k : window size, P : conditional probability(파라미터 $\Theta$에 의해 만들어진다.)

→ 이 식은 이전 토큰들을

파라미터들은 확률적 경사하강법으로 학습된다.

transformer를 변형한 multi-layer Transformer decoder를 사용한다.
multi-headed self-attention 을 적용하였다.
$h_0 = UW_e + W_p$
$h_l = transformer_block(h_{l-1})\forall i \in [1,n]$
$P(u) = softmax(h_nW_e^T)$
- U = (u_-k, ..., u_-1) : context vector of tokens,
- n : 레이어 개수,
- W_e : 토큰 임베딩 matirx,
- W_p : position 임베딩 matrix

Supervised fine-tuning

실제 target task에 맞게 labeled 데이터를 가지고 fine-tuning하는 과정이다.

$P(y|x^1,...,x^m) = softmax(h_l^mW_y)$
$L_2(C) = \sum_{(x,y)} log P(y|x^1, ..., x^m)$ → maximize하는 objective
C : labeled 데이터, $h_l^m$ : 마지막 transformer 블럭을 얻기위해 pre-trained 모델을 지나온 이 과정에서의 입력 데이터, W_y : 추가된 output 레이어의 파라미터

위의 2개의 objective를 아래 식으로 하나로 합친다.

$L_3(C) = L_2(C) + \lambda * L_1(C)$

fine-tuning동안 추가되는 파라미터는 W_y와 토큰 구분을 위한 임베딩에서 뿐이다.

Task-specific input transformations

text 분류 task 같은 경우에는 앞 뒤에 start와 end token만 붙여 넣어주면 된다.

반면에 다른 task같은 경우에는 변형을 주고 넣어야 된다.

이전 연구에서는 task specific한 구조에 맞춰 넘겼기에 상관없지만 본 논문 모델에서는 pre-training 과정에서는 task를 고려하지 않기에 변형을 주어야한다.

structed input → ordered sequence로 pre-trained 모델이 바꿔준다. 이러한 변형으로 나중에 task에 맞게 fine-tuning하는 과정에서 많은 변화를 주지 않아도 된다.

Experiments

Setup

Unsupervised pre-training
- BookCorpus dataset 이용
- 어드벤처, 판타지 로맨스를 포함한 다양한 장르의 7000 서로 다른 출판되지 않은 책이 있는 데이터 셋 → long-range 구조
- 1B Word Benchmark
- 대략 같은 사이즈지만 문장단위로 섞여있다. → long-range 구조 파괴
- 이 corpus에 대해 매우 낮은 perplexity ( 18.4 )
Model specifications
- position-wise feed-forward 네트워크에서 3072차원의 inner states
- Adam optimizer ( max lr : 2.5e-4, 2000 iter까지는 선형적으로 0부터 증가하다가 consine 스케줄러로 0까지 그래프를 따라 바뀐다. )
- 64 mini-batch로 랜덤하게 샘플링하여 100 epoch 학습
- Layernorm에서는 가중치 초기화 N(0,0.2)
- 40000dml BPE vocabulary
- 드롭아웃 0.1
- 변형된 L2 regulariation
- Gaussian Error Linear Unit(GELU) - activation function
Fine-tuning
- unsupervised learing의 하이퍼 파라미터 재사용
- classifier의 드롭아웃 0.1
- 3 epoch정도 학습
- 배치사이즈 32, lr : 6.25e-5
- learning rate decay 스케줄 ( warmup 0.2%, lambda : 0.5 )

Supervised fine-tuning

NLI, QA & commonsense reasoning, Semantic Similarity, Classification 많은 dataset에서 SOTA 달성

Analysis

transfer할 때의 layer 개수에 따른 성능을 그래프로 보여준다.

→ 층의 개수가 많아질수록 성능이 좋아지는 것을 볼 수 있다.

→ update를 많이 할 수록 전체적으로 성능이 좋아지는 것을 볼 수 있다. ( 다양한 NLP task를 위한 다양한 특성 학습 )

Ablation studies

3가지 다른 연구 진행

w/o 보조적인 LM
- 보조적인 objective는 NLI task와 QQP에 도움을 준다.
- 큰 데이터셋에 좋다.
LSTM과 Transformer 비교
- LSTM에서 평균 5.6의 성능이 더 떨어진다.
- pre-training하지 않았을 때도 비교해 보았을 때, 논문의 모델 성능이 더 좋았다.

마무리

내가 이번 논문으로 Transformer의 대단함과 비교적 NLP에서 더 Input transformation처럼 실제 학습이 진행되기 전까지의 전처리 과정이 중요한 것 같다는 생각이 들었다.

생각보다 모델 안의 구조가 단순해서 놀랐으며 마지막 output layer를 조금 더 복잡한 형태나 task specific하게 바꾸면 성능이 더 오를 수도 있지 않을까....?하는 작은 의문이 들었다.

이후 GPT-2,3도 읽을 예정인데, 앞으로 어떠한 단점을 가지고 변화하였을 지 궁금하다.

GPT-1 간단하게 알아보기

Wed, 16 Mar 2022 02:58:02 GMT

GPT-1

Open AI에서 개발한 모델로 다양한 자연어처리 task를 처리할 수 있는 통합된 모델이 중요한 특징이다.

모델 구조와 학습 방식

우선 Text를 position 임베딩을 더한다.
self-attention 블럭을 12개 쌓는다.
Text Prediction : 첫 단어부터 다음 단어까지 순차적으로 예측하는 모델이다.
동시에 모델의 큰 변형없이 classification도 수행하기 위해 Text Classifier에 Extract 벡터를 최종 output layer에 전달하도록 한다.
Classification이 외에 Entailment, Similarity, Multiple Choice와 같이 다른 task에도 사용가능하다.

다른 task의 transfer learning에 활용하고 싶다면

output layer인 Linear를 떼어낸다.
Transformer output인 워드별 인코딩 벡터를 이용하여 추가적인 하나의 레이터를 더 붙인 후 전체 레이어를 학습한다.
마지막 레이어는 random initialization이 되는 반면에 이전 레이어들은 학습이 되어있기 때문에 이전 레이어들은 많이 변하지 않으면서 마지막 레이어는 충분히 학습이 되도록 training한다.

다음 단어 예측하는 방향으로 학습된 모델을 문서분류에 활용하기에는 서로 다르다. 이러한 차이를 대규모 데이터를 가지고 self-supervised learning을 하여 이를 활용하는 방향으로 처리한다.

해당 task만을 위해 customized된 정확도 보다 더 높은 성능을 보여주는 것을 확인할 수 있다.

팀원들끼리 다음 논문 발표을 GPT로 정했기 때문에 간단하게 알아간다는 느낌으로 정리해보았다!

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding | 논문 정리

Mon, 14 Mar 2022 07:22:29 GMT

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

Author: Google AI Language, Jacob Devlin Link: https://arxiv.org/pdf/1810.04805.pdf Reading date: March 13, 2022 Type: Paper

Abstract

BERT - Bidirectional Encoder Representations from Transformers

목적 : 레이블링 되지 않은 텍스트를 모든 레이어에서 오른쪽, 왼쪽 문맥 모두 같이 고려하면서 deep bidirectional representations을 pretrain 하는 것이다.

이렇게 pretrained BERT모델로 output layer를 붙여 다양한 task에서 높은 성능을 보인다.

Introduction

하위 task에 pre-trained language representations를 적용하기 위한 2가지 방법이 있다.

feature-based

특정 task를 위한 모델 구좌에 추가적인 feature를 붙이는 것이다.

ex) ELMo
fine-tuning

pre-trained된 파라미터들을 fine-tuning하는 것이다.

ex) Generative Pre-trained Transformer(OpenAI GPT)

이런 방식들은 pre-training할 때, 동일한 objective function을 가지는 unidirectional language models를 사용한다.

→ 한계 : 일반적인 language 모델은 unidirectional(n-gram 방식), 아키텍처 선택에 제한을 준다.

이러한 규제는 문장단위 task에 최적이 아니며, 양방향으로 문맥 통합하는 것이 중요한 QA와 같이 토큰단위 task들에 fine-tuning 할 때, 안좋은 영향을 준다.

논문에서 BERT는 MLM(Masked Language Model)로 unidirectionality 규제를 완화한다.

MLM

입력 데이터에서 랜덤하게 몇몇 토큰을 가리고, 가려진 토큰의 id를 예측한다.

이 방식은 전체적인 문맥을 파악하도록 도와준다.

next sentence prediction

문장들이 서로 이어지는 지를 pre-train한다.

BERT의 contributions
- 랜덤하게 토큰들을 mask하여 pre-trained deep bidirectional representations를 가능하게 했다.(문맥 파악)
- pre-trained representations가 task별로 아키텍처가 매우 세분화되는 것을 줄여주었다.
  
  당시 문장단위와 토큰단위에 SOTA를 달성한 첫번째 fine-tuning based reprsentation 모델이었다.
- 11개의 NLP task에 SOTA를 달성했었다.

일반적인 pre-training language representation에 대한 긴 역사

Unsupervised Feature-based Approaches

word embedding을 pre-train 하기 위해서, left-to-right language 모델링 기법들이 사용되었다.

이러한 방식은 문장 임베딩 같이 더 굵직하거나 paragrah 임베딩으로 일반화되간다.

ELMo와 그 이전 방법들은 left-to-right으로 문맥에 대한 피처들과 right-to-left language모델을 추출한다.

left-to-right과 right-to-left representation을 연결하여 각 토큰의 contextual representation을 만든다.

그렇지만 deep한 bidirectional은 아니다.

Unsupervised Fine-tuning Approaches

contextual token representation을 생성하는 인코더들을 레이블링 되지 않은 텍스트로 pre-train하고 fine-tuning하는 방법이다.

이 방법의 장점은 파라미터 수가 적다는 것이다.

이 예시로 OpenAI GPT가 있다.

Transfer Learning from Supervised Data

큰 데이터셋의 supervised task에서는 효과적인 transfer를 보여줬다.

컴퓨터 비전 연구에서도 큰 pre-trained 모델들에서 transfer learning의 중요성을 보였다.

→ImageNet으로 pre-train된 모델을 fine-tuning

BERT

2가지 스텝으로 구성
1. pre-training
  1. 레이블링이 안된 pre-training task와 다른 데이터로 학습
2. fine-tuning
  1. pre-trainined 모델의 파라미터를 초기값으로 가진다.
  2. 레이블링된 데이터를 가지고 fine-tuning을 진행한다.

→ 서로 다른 하위 task에 사용할 때도 같은 pre-trained 파라미터를 사용한다.

Model Architecture

BERT의 모델 구조는 multi-layer bidirectional Transformer 인코더이다.

L : layer 수

H : hidden 사이즈

A : self-attention head 수

로 아래 수식에서 표현한다.

$BERT_{BASE} (L=12, H=768, A=12, Total Parameters=110M)$

$BERT_{LARGE} (L=24, H=1024, A=16, Total Parameters=340M)$

base 경우는 OpenAI GPT 모델과 모델 사이즈가 같다.

그러나, constrained self-attention을 사용과 bidirectional self-attention 사용의 차이를 가진다.

Input/Output Representations

3만개의 토큰 vocabulary를 가진 WordPiece 임베딩 사용하였다.
문장 제일 앞에는 [CLS] 토큰이다.

CLS는 special classification token으로 final hidden vector에서(그림1에서 C) token sequence의 결합된 의미를 가지고, 간단한 classifier를 붙여 분류문제를 해결할 수 있다. 만약 분류문제가 아니라면 이 토큰을 무시하면 된다.
하나의 sequence 안에는 문장 쌍들이 있다.

이 문장들을 구별하기 위해 [SEP]-special token과 어느 문장에 속하는지 알려주는 임베딩을 한다.

그림2처럼 Input represnetation은 상응하는 토큰과 segment와 position 임베딩을 합해서 구한다.

Pre-training BERT

기존 모델들과 다르게 2가지의 unsupervised task를 이용한다.

Masked LM

deep bidirectional representation을 위해 랜덤하게 몇몇 input 토큰들을 가리고 이를 예측한다. → “masked LM(MLM)”

[MASK] 토큰을 예측했던 pre-train과 달리 fine-tuning은 [MASK]토큰이 없다. 그래서 항상 masked 토큰을 실제 [MASK]토큰으로 대체하지 않는다.

논문에서는 전체 input token 포지션의 15%를 랜덤하게 고르고

이 중 80%만 [MASK]토큰으로 바꾼다.

나머지 10%는 랜덤한 토큰으로 바꾸고

나머지 10%는 바꾸지 않는다.

-> 이 부분을 MASK상의 DropOut이라고 혼자 이해했다...ㅎㅎ

cross-entropy loss로 원래 토큰과 비교한다.
Next Sentence Prediction (NSP)

많은 중요한 task들은 문장들간의 relationship의 이해를 기반으로 둔다.

그래서 BERT에서는 이를 두 문장이 연결되어있는지 아닌지를 예측한다.

실제로 문장B의 50%는 문장A 다음 나오는 문장들이고 → IsNext로 레이블링 된다.

나머지 50%는 랜덤한 문장이다. → NotNext로 레이블링 된다.

이는 QA나 NLI에서 특히 높은 성능을 보여준다.

Pre-training data

BookCorpus ( 800M words)
English Wikipedia (2,500M words)

Fine-tuning BERT

트랜스포머의 self-attention으로 인해 BERT가 많은 하위 task들에 적용할 수 있기 때문에 Fine-tuning이 간단하다.

간단하게 input과 output 데이터들을 BERT에 잘 맞추고 end-to-end로 모델을 fine-tune한다.

입력 데이터에서 pretraining에 사용한 문장 A - B 관계는 아래와 비슷하다.

패러프래이징 문장 쌍
가설 - 전제
질문 - 지문
생성 - 없음

아웃풋에서는 token representation은 output layer에 시퀀스 tagging이나 QA처럼 토큰단위 task를 위해 제공된다. [CLS]는 분류문제일때 제공된다.

pre-training에 비해 fine-tuning은 덜 비싸다.

Experiments

논문에서는 BERT를 11개의 NLP task에 fine-tuning했다.

GLUE

The General language Understanding Evaluation benchmark
다양한 자연어 understanding task들의 모음

일반적인 분류 문제에서 C : 마지막 히든 벡터, W : 분류 레이어 가중치들

$log(softmax(CW^T))$

매우 적은 학습 데이터에서 BERT_LARGE가 BERT_BASE를 크게 능가한다.

SQuAD v1.1

Question Answering 쌍 100k개로 이뤄져있다.

GLUE와 달리 질문과 지문이 주어지고 정답을 맞추는 것이다.

질문 → A 임베딩, 지문 → B 임베딩

S : start 벡터, E : end 벡터를 나타내고

word i의 probability는 해당 토큰과 S의 dot product 연산 이후, softmax를 통해 구해진다.

$P_i = \frac{e^{S\cdot T_i}}{\sum_j e^{S\cdot T_i}}$

Answer span의 끝부분에서도 유사한 공식이 사용된다.

후보 span의 스코어는 $S\cdot T_i + E \cdot T_j$ 로 구한다.

에측할 때는 $(j\leq i)$범위만 가능하다.

SQuAD v2.0

v1.1에 비해 더 현실적으로 answer가 짧지 않도록 변경하였다.

예측시 비교를 위해

no-answer span 스코어와 best non-null span을 비교한다.

→ $s_{null} = S\cdot C + E\cdot C$, $s_{\hat i, j} = max_{j\leq}S\cdot T_i + E\cdot T_j$

여기서 $s_{\hat i, j} > s_{null}+\tau$ 이면 non-null answer로 예측한다.

SWAG

SWAG - The Situations With Adversarial Generations dataset으로 113k 문장쌍으로 이루어져 있고

grounded common-sense inference를 평가하기 위해 사용한다. 4가지 선택 중 가장 그럴 듯한 하나를 고른다.

SWAG 데이터셋으로 fine-tuning할 때는,

input 문장들을 4개로 구성하고

주어진 문장의 concat → 문장 A,

가능한 연결 → 문장 B

task specific한 V를 학습시키고, [CLS]토큰을 표현한 C를 dot product, softmax 연산을 진행한다.

Ablation Studies

Effect of Pre-training Tasks

No NSP : MLM을 이용한 bidirectional 모델, 그러나 NSP가 없다.
LTR & No NSP : LTR(Left-to-Right) LM을 사용하고, NSP가 없다.

→ LTR보다는 MLM이 좋고, NSP없는 것보다 있는 것이 좋다.

추가로 LTR + RTL을 연결하여 표현하면 2배로 비용이 비싸지고, QA와 같은 task에서 직관적이지 않다. 그리고 덜 강력하다.

Effect of Model Size

BERT모델의 레이어 수, hidden units, attention heads를 다르게 하여 모델 사이즈를 조절하여 실험하였다.

→ 모델이 커질수록 정확도도 증가하였다.

하위 task를 위한 dataset이 작아도 pre-training 을 해줬기 때문에 모델 크기가 클수록 정확도도 좋았다.

Feature-based Approach with BERT

BERT는 fine-tuning 방법이었지만 ELMo와 같이 feature-based 방법도 사용할 수 있다.

장점

트랜스포머 인코더는 모든 NLP task에 적용할 수 없기 때문에, network를 붙여 사용할 수 있다.
미리 학습 데이터에 대한 비싼 representation을 먼저 계산하고 더 저렴한 모델로 많은 실험을 진행할 수 있다는 부분에서 Computational 이점을 가질 수 있다.

→ fine-tuning없이 activations를 추출하고 마지막 레이어에 Bi-LSTM을 붙여서 해당 레이어만 학습을 진행하여 비교하였다. 결과 Four Hidden이 높게 나왔다.

마무리

많은 task에서 높은 성능을 보여줘서 매우 놀랐다. 내가 느끼기로는 주로 내용의 이해가 필요한 부분 위주로 잘 된다고 생각하고 문장 생성이나 다른 NLP task에서의 성능은 잘 모르겠다... 엄청 복잡한 것보다 간단한 아이디어로 성능이 높이는 것이 더욱 의미있고 가치있는 아이디어라고 생각하는데, BERT가 MLM과 NSP로 NLP에 많은 의미를 가져온 것 같다.

BLEU Score 알아보기

Mon, 14 Mar 2022 06:40:27 GMT

BLEU Score

NLP 논문을 읽다보면 정말 자주 나오는 것 같다.

우선 precision과 recall을 먼저 알고 넘어가야한다.

Precision & Recall

이미지 분류 모델처럼 cross-entropy loss와 같이 일반적인 loss 방법들을 사용하면 NLP에서 맞지 않을 수 있다.

가령 문장 생성 task에서 한 문장이나 단어를 빼먹거나 문장을 더 많이 생성한다면 현재 상황을 제대로 반영하지 못한다.

예를 들어 I love you -> Oh I love you로 예측했다고 하면, 결론적으로 이 모델은 하나도 맞추지 못한 것이다. 하지만 이 경우는 Oh를 제외하기만 하면 모두 맞는 모델인데 기존 평가방법들은 이러한 정보를 반영하지 못한다.

그래서 precision과 recall 개념을 이용한다.

Reference : Half of my heart is in Havana ooh na na Predicted : Half as my heart is in Obama ooh na

위와 같은 문장에서

Precision은 예측된 결과를 받는 우리가 실질적으로 느끼는 정확도이다.
Recall은 예측된 결과를 받는 우리가 못 보고 모른 채 넘어가는 정보 없이 얼마나 정보를 받는 지를 말해준다.

위에서 precision 결과인 78과 recall 결과인 70의 산술평균을 구할 수도 있고 기하평균을 구할 수도, 조화평균을 구할 수도있다.

이 평균내는 방법들은 산술평균이 가장 크고 그 다음이 기하, 마지막이 조화순으로 크다.(산술 > 기하 > 조화) 조화평균을 이용하여 보다 작은 값에 더 많은 가중치를 부여한다.

F-measure는 precision과 recall의 조화평균이다.

하지만

Reference : Half of my heart is in Havana ooh na na Predicted : Havana na in heart my is Half ooh oh na

이러한 경우에서는 Precision, recall, F-measure 모두 100%가 된다. 하지만 순서가 전혀 맞지 않은 상태이다.

그래서 더 나아가 성능평가로 BLEU score를 사용한다.

BLEU Score

하나하나 ground truth와의 비교뿐만 아니라 N-gram으로 연속된 단어와의 비교도 한다.
Recall은 무시하고 Precision만을 가지고 구한다.
이는 NLP 번역의 특성을 생각해보면 이해가 간다. 얼마나 빠짐없이 번역을 했는가 보다는 번역이 된 문장이 얼마나 의미를 잘 담고있는지가 더 중요하기 때문이다.

$BLEU = min(1,\frac{length_of_prediction}{length_of_reference})(\prod_{i=1}^4 precision_i)^{\frac{1}{4}}$

$(\prod_{i=1}^4 precision_i)^{\frac{1}{4}}$
이 부분은 precision의 기하평균을 내기위한 수식이다. 여기서 조화평균을 쓰지 않은 것은 여기서는 작은 값에 지나치게 가중치를 주기 때문이다.
recall을 따로 구하지 않아도, 만약 모든 단어가 매칭된 상황이나 예측 문장 수가 더 많을 경우 recall이 높은 것을 당연하게 생각할 수 있다.

model 1 : Half as my heart is in Obama ooh na model 2 : Havana na in heart my is Half ooh of na 이러한 상황일 때 각 n-gram Precision과 BLEU는 아래와 같다. (brevity penalty는 문장의 길이를 말한다.)

마무리

BLEU Score가 왜 NLP에서 중요한 지를 느낄 수 있었다. 그리고 요즘 Action Segmentation에 대해서 공부하고 있는데, 이 task도 시계열 예측을 따르고 이 문장생성과 비슷한 점이 많아보여 BLEU를 사용해도 좋을 것 같다는 생각이 문득 들었다.

Beam Search 알아보기

Mon, 14 Mar 2022 05:21:54 GMT

Beam Search

Greedy decoding

매 타임 스텝마다 높은 확률을 가지는 단어 하나만을 선택해서 진행한다. 이를 Greedy decoding이라고 한다.

알고리즘 공부했을 때 배운, 그리디 알고리즘처럼 당시 상황에서의 최선의 선택을 하기 때문에 앞에 Greedy가 붙은 것 같다.

이 단점중 하나는 뒤로 못 돌아가는 것이다.

Exhaustive Search

그래서 joint probability를 수식으로 사용해서 해결한다.

이렇게 해서 $P(y_1|x)$에서 작은 값을 가졌더라고 이후 값들에서 큰 값을 얻어 바뀔 수 있다.

time step t까지의 모든 가능성을 따진다.
너무 큰 시간 복잡도

Beam Search
하나의 가능성만 보는 Greedy decoding과 모든 가능성을 보는 Exhaustive Search 사이에 있는 것이 Beam Search이다.

-> k개의 경우의 수를 고려하는 방식 k : beam size (일반적으로 5 ~ 10)

그리고 위의 수식에서 단어를 하나씩 생성하면서 그때의 확률값을 하나씩 모두 곱하였다. 이를 Log를 붙여 곱셈에서 덧셈으로 식을 변경한다.

-> 여기서 beam size는 2로 가지도 2개씩 만들어지는 것을 볼 수 있다. 그리고 누적 확률로 동일한 단어라도 이전 단어가 무엇이었냐에 따라 다르게 계산된다. 다시 상위 K개를 선택하고 이 과정을 반복한다.

디코딩을 끝낼 때, greedy decoding은 <'end'>토큰으로 끝내면 되지만 beam Search decoding시에는 서로 다른 시점에서 <'end'> 토큰을 만 들 수 있기 때문에 어느 하나라도 각 hypothesis에서 END 토큰을 만들면 해당 hypothesis를 종료한다.

Stopping criterion

timestep T를 미리 설정해두었다가 T가 되면 종료할 수도 있고
n을 미리 설정하여 <'eos'>가 적어도 n개 이상이 되면 종료하는 방법도 있다.

Finishing up

완성된 hypotheses중에서 가장 높은 스코어 하나를 고른다.
이때, log버전의 join probability가 가장 큰 하나를 고른다.

-> 여기서 상대적으로 짧은 문장에서 joint probability가 높은 스코어를 가지는 문제점이 있다. ( 기존의 log값에 계속 -값을 계속 더하기 때문)

이 해결책으로 길이로 나눈다.

마무리

Beam Search공부하면서 슬라이딩 윈도우나 truncated backpropagation이 생각났다. 딥러닝에서는 매우 길어서 연산량이나 메모리에 부담스러우면 이런 식으로 하이터파라미터를 생성하고 자르는 것 같다...

Sequence-to-Sequence | Attention

Fri, 11 Mar 2022 04:48:53 GMT

Attention은 transformer 논문을 보면서 들었다.

이번에 포스팅으로 정리하면서 왜 attention이라고 부르는 지 궁금했는다. RNN기반의 모델에 비해 각 단어들의 hidden vector들과 연산을 통해 무엇을 선별적으로 선택할 지를 말해주는 vector를 만들어서 무엇을 attention할 지를 말해주기 때문이라고 생각했다.

Seq2Seq

Sequence to Sequence 모델은 NLP 중 many-to-many 타입에 해당되는 모델이다

인코더와 디코더로 구성되어 인코더는 input을 받고 디코더는 output을 낸다.
서로 share하지 않는다.
세부구조를 보면 여기서는 lstm을 선택한 것을 볼 수 있다.
인코더 마지막 hidden state vector는 이전 타입 스텝의 hidden state 역할을 한다.
디코더에서는 시작 전 첫 토큰을 를 넣는다.
디코더에서 가 나올때까지 생성한다.

RNN기반의 모델들은 hidden state vector의 dimension이 정해져있어서, 짧은 문장이든 긴 문장이든 마지막 타임스텝인 hidden state vector(주황색)에 앞서 나온 정보들을 모두 넣어야한다. -> 매우 긴 문장이면 매우 압축된 형태, 앞부분 정보들이 많이 소실될 수 있다.

만약

I go home

을 모델에 넣는다면, I에 대한 정보가 유실될 수 있다. 그러면 주어에 대한 정보를 잃는 것이기 때문에 성능에 치명적인 영향을 준다.

=> 연구자들은 문장 순서를

home go I

식으로 바꾸는 방법을 제안하기도 하였다.

Attention

위의 문제를 해결하기 위해 attention 모델을 사용한다.

인코더의 마지막 스텝인 hidden state vector(주황색)에만 의존하는 것이 아니라, 각 단어를 입력 받았을 때마다 나오는 hidden state를 모두 디코더에 넘겨, 디코더에서는 이를 선별적으로 가져다가 사용한다.

인코더에서 각 단어마다 hidden state가 만들어진다.
마지막 타임스텝이 디코더에 $h_0$에 입력으로 들어가고 가 $x_1$으로 들어간다.
입력 받은 것을 바탕으로 디코더에서 $h_1^d$을 만든다.
단어들의 각 hidden state에서 선별적으로 정보들을 골라내는 과정을 수행하기 위해 각각 단어의 hidden state와 내적연산을 한다.
내적을 해서 나오는 값들을 유사도 score로 본다.
이 값들을 softmax를 통과시켜 확률값을 구한다.
이렇게 구한 확률값은 인코더의 가중치로 사용되고 가중 평균을 구할 수 있다.
마지막에 가중 평균된 벡터인 attention의 output과 디코더의 hidden state를 concat이 되어 output layer의 입력으로 들어간다.

이전 디코더의 hidden state vector를 입력으로 받고 이전 output도 입력으로 받아 새로운 hidden state vector를 생성한다.
이전과 동일하게 각 단어의 hidden state vector와의 내적으로 유사도를 구하고 확률분포를 구한 후 인코더에 적용하여 output을 구한다.그리고 디코더 hidden state vector와 attention output을 concat하여 다음 결과를 만든다.

-> 중간 attention distribution벡터를 attention vector라고 부른다.

그때마다 서로 다른 가중치를 인코더 hidden state vector에 적용해서 나오는 가중평균된 벡터를 각 output layer에 입력으로 사용하여 예측 성능을 높인다.

디코더 hidden state 역활: attention 가중치 결정과 단어 예측을 위한 output layer의 입력

Teacher forcing

학습 할 때는 이전 예측된 결과를 학습에 쓰지 않고, ground truth값을 넣어 잘못 학습되지 않도록 막는다. -> 그러나 이 방식은 실제 test할 때의 상황과는 다르다.

그래서 초반에는 teacher forcing 방식을 이용하다가 어느 지점 이후에서는 사용하지 않는 방식도 존재한다.

Attention Score

Attention Score를 구하는 데는 3가지 방식이 있다.

1) Dot은 말 그대로 dot product로 연산하는 것 2) general은 가운데 $W_a$를 두어 가중치 역할을 하도록 한다. 3) concat은 디코더 hidden state와 인코더 벡터를 concat하고 fully connected layer 하나를 두어 최종 스카라 값을 구한다. 이는 여러 layer로 확장할 수 있다.

기존 연산만을 통해 구해졌던 attention score가 학습 가능한 가중치 연산이 추가되었다.

TIL(Today I Learned) - 3월 첫째 주

Tue, 08 Mar 2022 10:48:34 GMT

03.07

부스트캠프

NLP 트랙의 첫 시작으로 NLP의 여러가지 task들과 Bag-of-Words와 word embedding에 대하여 공부하였다. 실습과제로 직접 워드 임베딩 과정을 구현해보고 spacy, konlpy를 사용해보았다. 그리고 새로운 팀원들과 앞으로 피어세션 시간때 월요일에는 논문리뷰, 화요일, 목요일에는 알고리즘 3문제, 수요일, 금요일에는 ai 인터뷰 질문 3개씩 준비해오기로 하였다.

연구실

ms-tcn 공식 구현 코드에 따로 전처리를 한 데이터셋을 사용해야된다. 그래서 데이터를 다운 받아 서버에 올리려는데 너무 용량이 커서 잘 안올려진다.ㅜㅜ

03.08

부스트캠프

오늘은 RNN, LSTM과 GRU에 대해 공부하였다. 그리고 알고리즘 공부를 위해 백준 3문제를 풀었다.

이력서에 대한 특강을 들었는데, 얼른 나의 상황과 목표, 무엇을 해왔고 어떤 의미가 있었는 지를 정리해서 앞으로 의미있는 결정들을 하고싶다는 생각이 들었다.

03.09

Seq2Seq with Attention를 공부하고 AI 면접 예상문제에 대해 고민하였다.

transformer 논문을 읽었지만 정학히 어텐션 개념에 대한 이해가 부족했었다는 것을 알았다. 그리고 어텐션이 무엇인지 확실히 알 수 있었다.

03.10

오늘은 과제에 집중하였으며 Data Processing과 Vocabulary만드는 알고리즘을 짜는 과제를 하였다. 그리고 RNN based 모델을 구현하고 데이터들을 배치에 맞게 shape를 바꾸는 과제도 수행하였다. 그리고 백준 3문제도 풀면서 알고리즘 공부를 하였다.

03.11

오늘도 과제를 하였는데 Subword 임베딩에 대한 과제였다. 생각보다 힘들어서 많은 시간을 투자했는데 알고보니 논문에 pseudo code가 있었는데 모르고 풀었다가 나중에 피어세션때 팀원분이 알려주셨다...😯

Word Embedding | Word2Vec, GloVe

Mon, 07 Mar 2022 06:41:23 GMT

Word Embedding

단어들을 특정한 차원으로 이루어진 공간 상의 한 점, 좌표로 변환해주는 기법
text dataset을 학습 데이터로 제공하고 dimension수를 사전에 정하여 알고리즘에 전달하면 결과 값으로 각각의 단어의 최적의 벡터 표현형이 나온다.
비슷한 단어는 가까운 공간에 표현되도록 한다.
이후 다른 task 모델에 데이터를 넣을 때, 성능을 향상시킨다.
Word2Vec
워드 임베딩 중 유명한 알고리즘이다. 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이라는 가정을 사용한다. e.g
The cat purrs.
This cat hunts mice.

cat 주변 단어들의 확률분포를 예측한다.

주어진 학습 데이터: "I study math." -> Tokenizing -> 단어들을 모아 사전 구축 -> 사전 사이즈 만큼의 one-hot vector로 표현 -> sliding window로 한 단어를 중심으로 앞뒤로 나타난 단어 각각과 입출력 단어쌍 구성(window size: 3이면 [(I,study),(study,I),(study,math)...]) -> 위의 단어쌍을 갖고 예측 task를 수행하는 fully layer 아래는 (study,math)를 가지고 진행된 알고리즘의 이미지이다. (study[0,1,0], math[0,0,1])

Input, Output layer는 3차원, hidden layer는 2차원이다.
x : study, y : math
원-핫 벡터이기 때문에 결국 파란색으로 칠해진 부분의 연산만 이루어진다.

https://ronxin.github.io/wevi/ 를 이용하여 시각적으로 볼 수 있다.

Word2Vec 결과 아래처럼 벡터 연산으로 표현이 가능하다. vec[queen] – vec[king] = vec[woman] – vec[man]

Word2Vec을 통해 여러 단어가 있을때 나머지 단어와 가장 상이한 단어를 찾는 task인 Intrusion detection도 해결할 수 있다.

이외의 다양한 task에서도 사용된다.

GloVe

또 다른 워드 임베딩 방법이다.

Word2Vec과의 가장 큰 차이점은 데이터의 입출력 단어쌍에 대해서 하나의 window 내에서 얼마나 동시에 자주 나오는지를 사전에 미리 계산하고 입출력 워드 임베딩 벡터의 내적과 logP가 서로 가까워 지도록 loss function을 만든다는 것이다

$u_i$ : 입력word의 임베딩 벡터
$v_j$ : 출력word의 임베딩 벡터
$P_{ij}$ : 두 단어가 한 윈도우 내에서 얼마나 동시에 자주 나타났는자

장점 :

중복되는 계산을 줄여준다. -> 학습속도 향상
더 적은 데이터에 대해서 잘 학습된다.

Bag-of-Words & NaiveBayes Classifier | NLP

Mon, 07 Mar 2022 05:18:00 GMT

Bag-of-words

단어 등을 숫자형태로 나타내는 기법

Step 1. Vocabulary 구축

유니크한 단어들을 모아서 사전에 등록한다. 예시로 "John really really loves this movie","Jane really likes this song." 문장이 있다면 사전 Vocabulary에는 {"John","really","loves","this","movie","Jane","likes","song"}이 등록된다.
Step 2. Encoding
Categorical 데이터를 모델에 적용하기 위해 one-hot vector로 바꿔준다.
어떤 단어쌍이든 유클리드 distance : $\sqrt 2$
cosine 유사도 : 0 => 의미에 상관없이 모두가 동일한 관계

Step 3. 확장
각 문장에 포함된 워드 벡터들을 합한다. -> Bag-of-Words
NaiveBayes Classifier
이제 위에서 표현한 벡터들을 이용해서 분류기를 생성한다.

Class : C documet : d 이면 $C_{MAP} = argmax_{c\in C} P(c|d) \ ; = argmax_{c\in C} \frac{P(d|c)P(c)}{P(d)}\ ; = argmax_{c\in C} P(d|c)P(c)$

1) MAP : Maximum a posteriori 2) P(d)를 상수값으로 보고 무시한다.

여기서 P(C_cv) = P(C_nlp) = 1/2 이다

그리고 각 P(d|c)를 구하면 아래와 같다.

그래서 마지막 test 문장을 구하려면 아래와 같은 식을 세운다.

문제점 : 학습 데이터 안에서 특정 클래스 내에서 특정 단어가 나오지 않았을 경우 그 단어가 해당 클래스로 분류될 가능성이 0이 된다.

Alleviating Over-segmentation Errors by Detecting Action Boundaries | ASRF | 논문 정리 | Action Segmentation

Fri, 04 Mar 2022 07:13:51 GMT

Alleviating Over-segmentation Errors by Detecting Action Boundaries

Author: AIST, Keio Univ., Yuchi Ishikawa Reading date: February 26, 2022 Submitted date: July 14, 2020 Summary: ASRF Type: Paper

Abstract & Introduction

ASRF - Action Segment Refinement Framework

모델은 long-term feature extractor와

2개의 branch( the Action Segmentation Branch (ASB) & the Boundary Regression Branch (BRB))로 구성되어있다.

Long-term feature extractor는 공유된 feature들을 넓은 temporal receptive field와 함께 2개의 branch에 제공한다.

ASB는 action classes를, BRB는 action boundary probabilities를 예측한다.

ASB에서 나온 output들을 BRB의 예측한 action바운더리를 이용하여 refine한다.

둘은 서로 보완해주는 관계로 action segmentation에서 조심해야할 over-segmentation error를 줄여준다.

ASRF로 frame별 action classification하고 action boundary regression을 한다.
action 변환인 smoothing하게 loss function을 정의한다.
3개의 데이터셋(50 Salads, GTEA, Breakfast dataset)에 SOTA 달성

action segmentation 모델들의 흐름 등을 설명하였는데 이후 Action Proposal Generation에 대하여 나왔다.

이 분야는 생소해서 유의깊게보았다. 2가지 타입의 접근이 있는데 하나는 anchor-based와 anchor-free approaches이다.

이 논문 모델은 anchor-free approaches에서 영감을 받아 action boundary regression network를 추가적으로 사용하였다.

Our Proposed Method

Long-term feature extractor
2 branched
1. ASB : Action Segmentation Branch
2. BRB : Boundary Regression Branch
  
  2개의 브랜치 모두 features를 입력으로 받고 frame-level action predictions, action boundary probabilities를 아웃풋으로 내보낸다.

Long-term Feature Extractor

목적 : action segments사이 long-term depedencies를 잡아내고 rich features를 추출하는 것

→ $X^’ \in \mathbb{R}^{T*D^’}$

dilated residual layer가 있는 TCN을 사용하였다. 그래야 full temporal resolution과 넓은 receptive field로 컨볼루션 연산을 할 수 있기 때문이다.

long-term depedencies를 잡아내고 이후 브랜치들에 공유되는 피처들을 추출한다.

논문에서는 각 0.5비율의 dropout layer가 붙고 64개의 필터가 있는 10 dilated residual layers, 그리고 dilation rate는 매번 residual conv마다 2배씩 늘어난다.

Action Segmentation Branch

목적 : frame-wise action classes C 를 예측하는 것

1D convolutional layer와 softmax를 사용한다. 그러나 여기서 over-segmentation error가 잘 발생하기 때문에 multi-stage architecture를 추가했다.

첫 레이어에서는 $X^’$를 입력으로 받아 첫 predictions 결과를 내고 이후 레이어에서 이를 계속 refine하는 과정을 거친다.

이러한 구조는 over-segmentation 에러를 막으면서 temporal depedencies를 알아내고 action segments를 예측하기에 좋다.

논문에서는 각 stage는 커널 사이즈가 1, 64개의 필터를 가진 single temporal convolution, 10 dilated residual convolutions, 그리고 feature dimenstion을 action 클래스 크기까지 감소를 위한 다른 temporal convolution을 포함한다.

첫 prediction이후 stage는 3개

Boundary Regression Branch

몇몇 TCN들로 부터 action segmentation 성능을 좋게 만들수 있지만, 여전히 over-segmentation 문제가 남아있다.

목적 : action boundary probabilities 예측 (0 ~ 1)

→ action class에 상관없이 시작과 끝인지 아닌지,

나중에 결과를 refine하는 과정에서 사용된다.

클래스를 알고 학습하는 방법보다 이렇게 클래스에 상관없이 진행하는 BRB는 taining data를 훨씬 적게 필요로하고 robustness를 향상시킨다.

Refining Action Segmentation Results

ASB로 부터 class결과 C를 action boundary probabilities $P_b$를 이용하여 refine한다.

$P_b$로 부터 action boundaries($B \in {0, 1}^T$) 결정
B를 frame-level prediction으로 정의한다.

B : action boundary에 대한 prediction

Loss function

frame별 action 예측 결과와 action boundary 예측결과 이렇게 ASB, BRB에서 2개의 아웃풋이 나오기 때문에 loss도 2개에 대한 loss를 합한다.

$L = L_{asb} + \lambda L_{brb}$

논문에서는 GTEA에서는 $\lambda$를 0.2, 50 Salads와 Breakfast dataset에서는 0.1로 설정하였다.

Loss function for ASB

분류문제에서 자주 사용하는 cross-entropy loss를 사용한다.

$L_{ce} = \frac{1}{T}\sum_t - log(y_{t,c})$

그러나 이 방법은 temporal transtion에 대한 제재가 없기 때문에 over-segmentation을 막기에는 부족하다.

그래서 추가적은 Truncated Mean Squared Error(TMSE)를 사용하였다.

$L_{TMSE} = \frac{1}{TN}\sum_{t,c}\tilde{\Delta}^2_{t,c}$

$\tilde{\Delta}{t,c} = \binom{\Delta{t,c}: \Delta_{t,c} \leq \gamma}{\gamma ; : otherwise}$

$\Delta_{t,c} = |log , y_{t,c} - log , y_{t-1,c}|$

T : video길이, N : 클래스 개수, $\gamma$ : probabilities transition 에 대한 threshold

2개의 다른 Loss 함수.

class weight에 대한 cross entropy loss $L_{ce,cw}$ - action segment가 얼마나 자주 바뀌는지

학습시키는 동안 imbalance하기 때문에 median frequency balancing(각 class별 가중치를 계산하여 class frequency의 median으로 나눈다.)을 사용한다. 이후 실험에서 Focal Loss와 비교한다.
TMSE를 변형시킨 Gaussian Similarity-weighted TMSE(GS-TMSE) - TMSE는 프레임 사이 action probabilities transition을 smooth하기 위해 모든 프레임에 불이익을 준다. 그러나 이렇게 하면 실제로 바뀌어야할 부분에도 불이익을 준다.

이 부분을 해결하기 위해 가우시안 커널을 추가한다.

$L_{GS-TMSE} = \frac{1}{TN}\sum_{t,c}exp(-\frac{||x_t-x_{t-1}||^2}{2\sigma ^2})\tilde{\Delta}_{t,c}^2$

$x_t$: frame t의 similarity 인덱스 , $\sigma$ : 분산

가우시안 커널은 프레임의 similarity를 기반으로 하기 때문에, 이 함수는 비슷한 weight인데 큰 차이가 있는 근접한 프레임에 불이익을 준다.

논문에서는 $\sigma =1.0$으로 맞췄다.

ASB에서 각 prediction의 loss function →

$L_{as} = L_{ce} + L_{GS-TMSE}$

ASB에서 각 prediction loss의 평균 →

$L_{asb} = \frac{1}{N_{as}}\sum_{i}L_{as,i}$

$N_{as}$: ASB에서 predictions 수 ( 논문 프레임워크에서는 4 )

Loss Function for BRB

$L_{bl} = \frac {1}{T}\sum^{T}_{t=1}(w_py_t * log , p_t + (1 - y_t) * log(1 - p_t))$

$y_y, p_t$ : frame t에 대한 ground truth, action boundary probability

action boundary의 프레임 수들이 다른 것들보다 매우 작기 때문에 $w_p$ 양수 샘플들에 가중치를 둔다.
양의 데이터 점 비율을 계산하고 이것의 역수를 가중치로 사용

그리고 ASB처럼 평균 →

$L_{brb} = \frac{1}{N_{br}}\sum_iL_{bl,i}$

Experiments

Evaluation Metrics for action segmentation

frame-wise accuracy
segmental edit distance
- $S_{edit}(G,P)$
- G(ground truth)와 P(predicted segments)사이의 차이 측정
segmental F1 score
- class 별 평균낸다.
- 분류 예측이 맞았는지(조건 : threshold보다 더 큰 IoU)
- temporal shift와 상관 없음

Evaluation Metrics for Boundary Regression

action boundary regression
- semantic segmentation의 boundary F1 score 참고
- $B_{gt}$: boundary인지 아닌지
- $P_b$ : 예측된 바운더리 확률 맵
- $B_{pred}$ : frame별 예측($P_{b,t}$가 threshold를 넘고 local maximum)

$I[*]$ : indicator function
$d(*)$ : L1 distance
논문에서는 $\theta_b : 5, ; \theta_p : 0.5$로 설정

$BF(Boundary F1 metric) = \frac{2 * Precision * Recall}{Precision + Recall}$

Learning Scheme

Adam optimizer - lr : 0.0005, bs:1
nested cross-validation

Comparing ASRF with the state-of-the-art

(d)에서 잘못된 예측값을 확인할 수 있는데

이는 ASB에서부터 잘못된 segment로 나오면 완전히 다른 segment로 재할당할 수 없다는 것을 보여주기도 한다.

Effect of our refining paradigm

BRB이외의 다른 postprocessing methods

Relabeling - 특정 시간 span이 $\theta_t$보다 짧으면 이전 segment로 relabel
Smoothing - 1D 가우시안 필터를 사이즈 K인 커널로 action probabilities smoothing
Similarity - frame별 유사도를 기반으로 예측된 action boundaries를 refinement, 이전 ASB loss에서도 유사성 측정했으며, 유사성이 local minimum인 action boundary

논문에서는 smoothing 방식은 ASRF보다 영향력이 적고, Similarity는 부정적인 영향을 끼치며, relabeling은 다른 두 방법들 보다는 좋지만 하이퍼파라미터 $\theta_t$의 영향을 많이 받기 때문에 ASRF 방식이 다른 방법들보다 우수하다고 한다.

Comparision with segment-level classifier

single TCN vs ASRF

Ablation Study

Effect of the number of stages

각 네트워크 stage는 10 dilated convolutions & 2 convolutions (BRB와 같은)

3 stages가 가장 좋았다. 이상 넘어가면 오버피팅(특히 50 Salads dataset에서)

BRB의 precision이 낮아도 overdetected boundaries는 refinement를 여전히 잘 돕는다.

낮은 precision은 사람의 annotation과 action boundary의 모호함으로 인해 정밀하게 action boundary를 예측하기 어렵기 때문에 낮게 나온다.

IProgress not found. Please update jupyter and ipywidgets

Mon, 28 Feb 2022 08:21:42 GMT

파이토치 Efficient Net이나 RegNet을 쓰려고 하니까

IProgress not found. Please update jupyter and ipywidgets

이런 에러가 떴다.

jupyter와 ipywidgets를 업데이트도 해봤는데 계속해서 떴다.

그러다가 콘솔에 downloading "http~~" to 현재dir/torch/hub/checkpoints 라는 출력을 보았다. 해당 url에 들어가니까 직접 pth파일을 다운 받을 수 있었고 이를 위의 dir로 이동시켜주니 바로 해결되었다.

ASFormer 논문 정리 | Action Segmentation

Sat, 26 Feb 2022 07:26:19 GMT

이 논문은 2021년에 나온 Transformer를 action segmentation task에 맞게 변형시킨 모델에 대해 나와있다.

NLP의 Transformer가 CV에서도 활용되어 여러 논문들이 나왔다고 들었는데 action segmentation task에도 나온 걸 보니 신기하다.

내 개인적인 생각으로는 action segmentation도 NLP 기계번역 분야처럼 순서나 위치, 이웃간의 상관관계 같은 것들이 중요하기 때문에 Transformer와 잘 맞을 것 같다는 생각이 들었다.

ASFormer: Transformer for Action Segmentation

Author: Hangqiu Yi, Hongyu Wen, Tingting Jiang Submitted dat: August 16, 2021

Abstract

NLP에서 유명한 Transformer를 변형하여 만든 모델이다.

모델의 3가지 특징

feature들의 high locality로 인해 local connectivity inductive bias를 가져올 수 있다. 이는 action segmentation taks에서 적은 학습 데이터를 가지고 적절한 target function을 학습시킬 수 있다.
pre-defined hierarchical representation pattern을 적용할 수 있다. → 이는 긴 input sequences를 효율적으로 다룰 수 있다.
인코더로부터 initial predictions를 수정할 수 있는 디코더를 디자인했다.

Introduction

기존 vanilla transformer를 action segmentation task에 적용했을 때, 주요 문제점과 해결

training set의 작은 사이즈로 인해 inductive biases 부족은 병목현상을 초래한다.

→ action segmentation의 특징 중 하나는 높은 locality 피처들이다. 그래서 local connectivity inductive bias가 굉장히 중요하다. 그래서 모델은 hypothesis space를 reliable 범위안으로 제한해서
긴 비디오에 대한 self-attention 적용은 transformer가 효과적으로 표현하기 힘들다. 이는 비디오의 길이로 인해 의미있는 locations에 집중하도록 하는 적절한 weigths 학습이 힘들다는 것이다.

→ pre-defined hierarchical representation pattern을 각 self-attention layer들에 적용한다. 이는 low-level self-attention layer들을 local relation에 먼저 집중하도록 한 후, 점진적으로 high-level layer들 쪽으로 넓히는 것이다.

이 결과 수렴 시간과 성능을 높일 수 있다. 그리고 이러한 계층적으로 표현하는 패턴은 time complexity와 total space도 줄일 수 있다.
기존의 인코더-디코더 구조는 action segmentation task의 refinement 부분과 맞지 않다. 원래 action segmentation 모델들은 initial prediction 이후 다시 refine하는 과정을 반복하는데 트랜스포머는 이와 맞지 않다.

→ 디코더에 cross-attention 구조를 넣는다. 이는 인코더의 모든 포지션이 refinement 과정에 들어가도록 한다. 동시에 학습된 피처 space에 대한 인코더의 방해도 막는다.

(b)는 반복적인 refinement를 위한 구조

인코더에서 video sequences를 받고 intial predictions를 내보낸다. 인코더안에는 pre-defined hierachical representation patterns가 들어잇다.

디코더에는 predictions를 input으로 받고 인코더와 비슷한 구조를 갖고 있다.

(a)에서 인코더 블록은 dilated conv를 가진 feed-forward layer와 self-attention layer, residual connections를 가지고 있다.

(c)에서 디코더 블록을 보면 인코더에서 정보를 가져오기 위해 cross-attention 구조를 갖고 있다.

Methods

Transformer 구조로 된 인코더 디코더 구조를 가진다.

인코더가 미리 추출된 frame-wise 비디오 feature sequence를 인풋으로 받고 첫 predictions를 내보낸다. 그러면 디코더가 이를 인풋으로 받아 refinement 하는 과정을 반복한다.

인코더에서 적은 학습데이터셋과 긴 비디오 시퀀스를 어떻게 다루는 지 보여주고

디코더에서 여러 action segments 사이의 temporal relation의 이점을 다룬다.

Encoder

미리 추출된 입력 sequence의 크기는 TxD

T: video 길이, D: feature dimension

인코더의 첫 레이어는 fully connected layer로 입력 피처를 받아 predicitions $y_e \in R^{T*C}$ 를 아웃풋으로 내보낸다.

C: action class 수

각 인코더 layer는 2개의 sub-layers를 가진다. → feed-forward layer와 single-head self-attention layer. 추가로 각 sub-layers 사이에 residual connection도 있다.(위의 그림 참고)

기존 Transformer와 다르게 dilated temporal convolution을 feed-forward layer로 넣었다.(원래는 point-wise fully connected layer)

→ training set의 부족과 high locality of features를 고려한 변형

self-attention layersms 의미있는 location을 찾기 힘들고 서로 모여서 효과적인 representation을 형성하기 힘들다.

→ 이 문제를 해결하기 위해 pre-defined hierachical representation pattern을 적용한다.

그리고 w사이즈의 local window 로 self-attention layer의 receptive fields를 제한한다. 이 사이즈는 레이어마다 2배씩 증가한다.

인코딩 depth가 증가할수록, temporal conv 레이어의 dilation rate도 2배씩 증가시킨다.self-attention 레이어에서는 그대로 유지한다.

이런 계층적인 패턴은 우선 local feature에 집중하도록 하고 점진적으로 receptive field를 넓혀 global information을 볼 수 있게 한다.

추가로 기존 transformer의 메모리 사용량은 대략 JTT이다.

이를 계층적 표현 패턴으로 $((2-\epsilon ) * 2^J * T)$로 줄일 수 있다.

Decoders

take bottle, pour water 다음은 drink water와 같이 multiple action segments간에는 temporal relations가 존재한다. 이는 action segmentation task에서 매우 중요한 역할을 한다.

디코더에서는 temporal relations를 잘 찾아서 인코더가 전달한 initial predictions를 refinement 과정을 통해 성능을 높인다.

A Single Decoder

먼저 설명을 위해 하나의 디코더를 살펴보자면,

디코더의 첫번째 레이어는 차원을 맞추기 위해 fully-connected layer로 구성되어있다. 그 뒤에 디코더 블럭들이 차례로 붙는다.

구조는 인코더와 비슷하게 feed-forward layer와 hierarchical pattern이 있으며, cross-attention layer가 적용되는 점이 다르다.

self-attention과 다르게 cross-attention은 우선 Q(query), K(key)를 인코더와 이전 레이어의 output의 concat에서 얻는 반면에 V(value)는 concat전 이전 레이어의 output에서 얻는다는 점이 다르다.

→ 이러한 구조로 refinement 과정에서도 모든 포지션의 인코더가 관여할 수 있도록 하였다. V는 인코더의 방해없이 오로지 input predictions으로부터 만들어진다.

이전 연구들에서도 보여줬듯이 refinement 과정은 학습된 feature space의 방해에 매우 민감하다.

Multiple Decoders

iteratice refinement를 위해 위의 single decoder를 확장시킨다.

cross-attention은 외부 정보를 가져오는데, error accumulation 문제를 피하기 위해서 외부에서 가져오는 정보의 weight를 줄인다.

$out = feed_forward(x)$

$out = \alpha * cross_att(out) + out$

첫번째 디코더는 $\alpha=1$로 설정하고 점차 감소한다.

Loss Function & Implementation details

loss function은 classification loss($L_{cls}$)와 smooth loss($L_{smo}$)의 합으로 이루어져있다.

classification은 cross-entropy loss, smooth loss는 frame-wise probabilities의 mean squared error로 계산한다.

$L = L_{cls} + \lambda L_{smo} = \frac{1}{T}\sum_t-log(y_{t,\hat{c}}) + \lambda\frac{1}{TC}\sum_{t}\sum_{c}(y_{t-1,c}-y_{t,c})^2$

$y_{t,\hat{c}}$: predicted probability for the groung truth label $\hat{c}$ at time $t$

$\lambda$: 논문에서는 0.25로 설정

final ASFormer는 1개의 인코더와 3개의 디코더로 구성되어있으며,

인코더와 디코더는 각각 9개의 블럭을 갖고있다.

차원 셋팅을 위한 각 첫번째 fc layer는 64 dimension으로 설정한다

그리고 논문에서는 dropout rate을 0.3으로 인코더의 input feature에 dropout을 적용했다. 120epoch를 adam optimizer로 lr 0.0005로 훈련시켰다.

Experiments

Impact of position encoding and multi-head self-attention

구현에서 vanilla transformer와 다른 점이 2가지 있다.

position encoding X
multi-head attention X, 각 인코더 디코더 블럭에 single-head attention 사용

실험1 : position encoding이 ASFormer에 필요한가 아닌가

아래 표는 50Salads dataset의 결과이다. 확실히 성능이 떨어지는 것을 볼 수 있다.

→ 가능성있는 근거로는 temporal conv에서 이미 모델의 상대적인 relationships을 가질 수 있기 때문이다. 그러므로 absolute한 position encoding은 필요없으며 오히려 방해가 된다.

실험2 : multi-head self-attention의 영향력

single head와 다른 multi heads와 성능차이가 거의 없다.

→ convolution operation은 multi-head self-attention operation과 비슷하기 때문이다.

결론적으로 computation, memory budgets를 고려하여 single-head self-attention을 default로 사용한다.

Effect of the local connective inductive bias

이번에는 local connective inductive bias의 효과에 대해 살펴본다.

vanilla transformer와 같이 feed-forward layer로 사용되는 MLP와 비교하였다.

temporal conv를 없애려면 vanilla transformer처럼 position encoding이 필요하다.

먼저 refinement 과정의 영향력을 제외하기 위해 인코더 부분에서만 사용해보았다.

성능이 크게 줄어드는 것을 확인할 수 있다. 특히 F1 score와 edit이 많이 떨어지는데 이는 모델이 frame들 사이에서 temporal relationship을 알아내지 못한 것을 의미한다.

Effect of the hierarchical representation pattern

ASFormer의 hierarchical representation pattern은 중요한 역할을 한다. 이를 보여주기 위해 계층구조가 아닌 모든 attention layer의 local window사이즈를 512로 맞춘 모델을 준비했다. 여기서 512는 마지막 인코더, 디코더 블록에서 메모리 용량을 고려한 가장 큰 window size이다.

확실한 성능 저하가 보인다.

→ 왜 이러한 성능 차이가 나는 지 더 잘 이해하기 위해 아래 그림을 첨부하였다. 아래 그림은 각 인코더의 self-attnetion 레이어의 attention weights를 그린 것이다.

비계층 버전이 high-level 블럭에서 더 많은 활동이 있다. 이것은 attention weights가 더 많은 위치에서 더 가까운 값과 더 비슷한 사소한 균일 분포를 가진다는 것을 의미한다.

반대로 계층 버전에서는 몇몇 의미있는 위치에 집중한다.
‘freely’ attention 은 스스로 계층적인 패턴을 데이터에서 학습하지 못한다는 것을 볼 수 있다. self-attention layer가 자유로울때 low-level 블럭들은 주위 이웃들에게 집중을 하지 않는다는 것을 위의 이미지에서 볼 수 있다.

Effect of the multiple decoders

이번에는 디코더가 가져오는 이점을 보여주기 위해 디코더 개수를 다르게 하여 연구하였다. 인코더와 비교하여 디코더가 성능이 크게 변하였다.

논문에서는 3개의 디코더를 쌓았을 때 성능이 가장 좋았다.

Ablations of the number of blocks

블럭 개수를 정하는 하이퍼파라미터는 더 넣은 receptive fields와 더 높은 메모리 비용을 발생시키기 때문에 중요하다.

그래서 블럭 개수를 다르게 하여 실험을 진행하였다.

블럭(J)가 9일때 가장 성능이 좋았다.

Comparison with SOTA

TIL(Today I Learned) - 2월 넷째 주

Tue, 22 Feb 2022 14:14:12 GMT

02.22 (Tue.)

Boostcamp

이번 주와 다음 주는 Mask, Age, gender classification이 주제인 competition이 있다. 그래서 그런지 강의도 이전에 배운 내용을 컴피티션을 위한 내용을 중점적으로 나온 듯 했다.

강의는 수월하게 들을 수 있었다.

competition을 위한 gpu를 할당받아봤는데 vs-code로 연결하려니 자꾸 password를 입력하라고 뜬다. 아무래도 key 경로가 틀렸던지 하는 것 같은데 내일 해결해봐야겠다.

연구실

학회 gpu 있어서 따로 연구실 gpu 안쓰고 있었는데 이제 학회도 끝나서 금요일에 연구실 gpu를 받고 싶다고 교수님께 말씀드렸다.

아직 gpu 할당을 못받아서 2020년에 나온 ms-tcn++를 기존 프로젝트에 붙였다. 저자가 같아서 그런지 코드 구조도 ms-tcn과 비슷해서 쉽게 추가할 수 있었다.

02.22

오늘은 그냥 tmi로 머리 잘랐다. 거의 매직하고 자르고의 반복이었는데 이번에 처음으로 레이어드컷으로 잘랐다. 너무 마음에 드는데 머리 감고 나서도 예쁠지 의문이다.ㅎ

Boostcamp

오늘도 나머지 강의 모두 듣고 서버 연결했다. vs-code보다 파이참 연결이 더 쉽다고 하길래 우선 파이참 먼저 서버 연결을 했다.

기존 서버에도 데이터셋이 올라가있는데 데이터셋이 들어있는 내 로컬 폴더와 동기화하다가 메모리 경고가 떴다... 그래서 그냥 빈 로컬폴더와 데이터셋 있는 서버 내 폴더와 동기화했다.

연구실

gpu 메일이 와서 여기서도 서버 연결을 했다.

iTerm2와 파일질라를 다운받아서 연결을 하는데 잘못할까봐 무서웠다😱

서버 연결만 하고 gpu 사용은 안해봤는데 무사히 잘 되었으면 좋겠다ㅎㅎㅎ

CS231n

내일 스터디있기 때문에 부랴부랴 11강과 12강을 보았다. 사실 아직 12강은 다 못봤는데 자기 전에 다 보려고 한다. 11강은 Detection & Segmentation, 12강은 Visualizing and Understanding이 제목이다.

R-cnn, Faster r-cnn등 여러 논문들을 읽었던 것 같은데 사실 조금 까먹은 것 같다...ㅎㅎㅎ 이번 기회에 다시 기억을 살릴 수 있어서 다행이다.

Docker Compose | 여러 컨테이너 관리하기

Sat, 19 Feb 2022 09:02:31 GMT

Docker Compose

이번 포스팅은 도커 컴포즈에 관한 내용이다. 멘토님이 실제 서비스에서는 여러 컨테이너를 띄우기 때문에 docker compose 공부를 추천해주셨다!👍

docker compose란

Docker compose는 compose 파일로 여러 컨테이너를 관리하기 쉽게 해주는 기능이다.

아래 실습 내용들은 도커의 공식 document를 따라 실습 후, 작성하였다.

installation

우선 나는 Docker desktop을 설치하였다.

이 경우 docker-compose는 설치되어있으며, 터미널에

docker-compose

입력 시 아래 결과로 설치되어있음을 확인할 수 있다.

app.py

다음은 redis와 flask를 이용한 간단한 웹페이지 작성이다.

get_hit_count 함수로 페이지가 갱신될 때 마다 값을 1 증가시키며 반환한다.

가장 기본 path인 ~~/ 로 접근할 경우 hello 함수가 작동하며 get_hit_count에서 받아온 값을 Hello Wordl!~~ ~times. 사이에 넣어서 보여준다.

requirements.txt

그 다음 redis와 flask는 docker 안에서 따로 설치가 필요하기 때문에 작성해준다.

flask
redis

Dockerfile

이번에는 Dockerfile을 작성한다.

# syntax=docker/dockerfile:1
FROM python:3.7-alpine
WORKDIR /code
ENV FLASK_APP=app.py
ENV FLASK_RUN_HOST=0.0.0.0
RUN apk add --no-cache gcc musl-dev linux-headers
COPY requirements.txt requirements.txt
RUN pip install -r requirements.txt
EXPOSE 5000
COPY . .
CMD ["flask","run"]

Python 3.7 image에서 시작한다.
working directory 를 /code로 설정한다.
flask를 위한 환경설정을 한다.
gcc등 다른 dependencies를 설치한다.
requirements.txt를 복사하고 이를 설치한다.
EXPOSE로 5000번 포트를 외부에 공개할 예정이라고 알려준다.
현재 디렉토리를 workdir .으로 복사한다.
마지막으로 flask run 로 웹을 실행한다.

docker-compose.yml

docker compose를 위한 파일을 작성한다.

version: "3.9"
services:
  web:
    build: .
    ports:
      - "8000:5000"
  redis:
    image: "redis:alpine"

Build and run my app

터미널에서

docker-compose up

을 실행한다.

그리고 localhost:8000을 확인한다.

새로고침하면 숫자가 계속해서 늘어나는 것을 확인할 수 있다.

내릴 때는

docker-compose down

를 입력한다.

그리고 image를 확인하면 여러 이미지가 생성된 것을 볼 수 있다.

docker images

Edit the compose file

이번에는 bind mount를 추가하려고 한다.

docker-compose.yml에 volumes와 environment를 추가한다.

version: "3.9"
services:
  web:
    build: .
    ports:
      - "8000:5000"
    volumes:
      - .:/code
    environment:
      FLASK_ENV: development
  redis:
    image: "redis:alpine"

volumnes로 현재 프로젝트 디렉토리를 host의 /code안 컨테이너에 마운트한다. 그러면 코드를 수정해도 이미지를 rebuild 할 필요가 없다.
Re-build and run the app
위에서 했던 것처럼 다시
```
docker-compose up
```
를 입력한다.

잘 업데이트 되는지 확인하기 위해서 app.py의 hello function의 return 부분을 아래와 같이 바꿔준다.

return 'Hello from Docker! I have been seen {} times.\n'.format(count)

rebuild 없이 잘 변경된 것을 확인할 수 있다.

background 실행

background에서 돌리고 싶으면 -d flag를 추가한다.

docker-compose up -d

stop 할 때는

docker-compose stop

down과 함께 volumes 데이터를 삭제하고 싶을 때는

docker-compose down --volumes

를 입력한다.

TIL(Today I Learned) - 2월 셋째 주

Fri, 18 Feb 2022 11:05:55 GMT

이번 주 Hot Issues

교환학생 결과

월요일에 2022-2학기 교환학생 결과가 나왔다. 프랑스 Grenoble-Alphes University에 합격이 돼서 신났다ㅎㅎㅎㅎ막상 가려니까 더 일찍 준비시작해서 영어권으로 갈 수 있었으면 좋았을텐데 라는 후회도 들었다ㅠㅠㅠ그래도 바쁜 3학년 2학기랑 토플 공부 병행하면서 열심히 했기 때문에 더 준비를 오래할 걸 이라는 후회는 들어도 당시에 더 열심히 공부할걸이라는 후회는 안들었다.ㅋㅋㅋ

주말에는 영어회화 학원을 다녀볼까 고민 중이다. 아직 어디를 다닐지 고민은 안했는데 그래도 토플 학원보다는 재밌을 것 같아서 설렌다🥰

베이징 올림픽

우선 일단 베이징 동계올림픽 컬링 너무 재밌다ㅎㅎㅎㅎ 피겨도 너무 예뻐서 보는데 점프 종류가 궁금해서 유튜브 보면서 공부도 했다.

02.14

부스트캠프

머신러닝 프로젝트의 전반적인 순서와 플로우에 대해서 공부하였다.

CV 연구실

그리고 연구를 위해 부스트캠프에서 추천해준 pytorch template에 ms-tcn 코드를 붙이고 있는데 오늘은 train epoch 부분을 수정했다.

02.15

부스트캠프

CV 연구실

오늘은 tcn코드에서 batch_gen 부분과 util 부분을 수정하였다. tcn은 데이터를 파일 입출력으로 읽어들이고 출력하기 때문에 파이토치의 Dataset, loader로 작성하기 힘들어서 다르게 바꿨다.

CS231n 스터디

수요일에 CS231n 스터디 10강 스터디 하기 때문에 10강 듣고 질문 올렸다. 10강은 RNN에 대한 내용이었는데, 얼마전 부스트캠프에서 공부해서 수월하게 넘어갈 수 있었다.

02.16

부스트캠프

오늘은 피어세션에서 Transformer 논문 Why self-attention & Training 부분에 대해서 발표해야하기 때문에 읽고 정리하였다. 이 부분에서 BLEU 평가 방법이나 transformer의 learning rate schedule이 특히 인상깊었다.

그리고 도커와 MLflow에 대해 공부하였다.

도커에서 Mac M1칩 때문에 mysql pull 과정에서 워닝이 계속 나와서 지웠다 깔았다를 계속 반복하다 보니까 뒤에 강의에서 배우는 많이 사용된다는 명령어들이 암기가 되었다. 워닝에 대해서 slack 채널에 남겼는데 많은 분들이 쓰레드 남겨주셔서 이것저것 도전해보았다. 우분투를 안까는 방향으로 모두 시도해봤는데 해결이 안되서 결국 우분투 깔아서 다시 도전해봐야겠다...ㅠㅠ

mlflow는 아직 완전히 PyTorch에 사용가능한게 아니라 PyTorch Lightning에 된다고 해서 아쉽다.😭

BOAZ

내일 BOAZ 동아리에서 클로바 폰트생성 모델 fewshot-font-generation 학습 해오기로 해서 코랩에서 7시간 정도 학습시켰다. 처음에는 Out-Of-Memory 에러가 나서 batch_size와 num_workers를 줄였다. 8000steps이 돌아가니까 할당된 GPU를 모두써서 멈췄다. 아래는 그 결과이다. 코드를 보니 한참 남아서 내일 회의시간때 코랩 프로 결제하자고 말을 꺼내볼 예정이다!

02.17

부스트 캠프

피어세션에서 리눅스 강의 과제 중 하나인 카톡 대화내용 csv로 저장하고 2020년 대화를 많이 한 사람 top3를 뽑는 명렁어를 단 한 줄로 작성하기 를 해보았다.

우리팀 카톡 대화 데이터를 사용해서 2022년 1월로 기준을 바꾸고 진행하였다.

내가 만든 답은 -> cat kakaotalk.csv| awk -F, '/2022-01/ {print $2 }' | sort | uniq -c | sort -r | head -n 3

순간 내가 제일 먼저 풀어야지 라는 승부욕이 올라와 시간가는 줄 모르고 했다ㅎㅎㅎㅎ 유치하지만 제일 먼저 풀어서 기분 좋았다😂 (팀원분들이 내 블로그 안보시겠지...?)

CV 연구실

오늘은 loss function을 수정해주었다. action segmentation 논문들은 보면 각자 정의한 loss도 다르고 action segmentation은 과도한 segmentation을 막아주기 위해 loss function을 하나의 loss만 정의하는 것이 아니라 여러 개를 더하면서 정의한다.

내가 지금 구현하고 있는 ms-tcn은 cross entropy loss와 truncated mean squared error over the frame-wise log-probabilities를 아래처럼 합한다.

02.18

부스트캠프

멘토님이 도커란? 에 대해서 쓴 글에 Docker Compose에 대해서 공부하는 것을 추천해주셔서 지금 공부하고 있다. 정리해서 포스팅 도전해볼 생각이다!

CV 연구실

교수님이랑 미팅하였는데, cuai 학회 이제 그만둬서 gpu가 없다고 말씀드렸다. 그래서 연구실 gpu 할당받고 ms-tcn 돌려보라고 말씀해주셨다.

애매하게 만들어 넘어가지 말고 확실하게 제대로 구현하고 학습해야 나중에 논문 비교에 넣을 수 있다고 조언해주셨다.

이후 계획으로 ms-tcn++랑 원래 구현 목적인 Yifei Huang의 Improving Action Segmentation via Graph Based Temporal Reasoning 논문의GTRM을 모델을 구현할까 했는데 Graph based 모델 코드 공부를 작성해본 적이 없어서 MS-tcn++ 먼저 구현해보기로 했다.

추가적으로 action segmentation에 대해 2020년 논문까지 읽었어서 이후 2021년 위주의 논문을 계속해서 읽어볼 예정이다.

논문 읽은 거 정리해서 올리면 좋을 것 같은데 시간이 얼마나 걸릴지...😭

bo-lim.log

C로 컴퓨터비전 구현해보기(1)

Local Filtering

Averaging

Median Filter

Bilateral Filter

TIL(Today I Learned) - 7월 셋째 주

07/19

07/20

07/22

07/23

DALL-E 논문 정리

DALL-E

Intro.

DALL-E란?

2 Stage 학습

문제점

전반적인 프로세스

Stage 1: Learning the Visual Codebook

Stage 2

결과

논문 속 RE Task 관련 데이터셋 이해하기 | TAC Relation Extraction Dataset | KLUE

TAC Relation Extraction Dataset

KLUE-RE

마무리

Linux(Ubuntu)에 Konlpy 설치 & 에러 해결하기

Konlpy 설치

Error 1

lock 걸린 파일들 지우기

업데이트

Error 2

Improving Language Understanding by Generative Pre-training | GPT-1 | 논문 정리

GPT-1

Improving Language Understanding by Generative Pre-training

Abstract

Introduction

Related Work

Semi-supervised learning for NLP

Unsupervised pre-training

Auxiliary training objectives

Framework

Unsupervised pre-training

Supervised fine-tuning

Task-specific input transformations

Experiments

Setup

Supervised fine-tuning

Analysis

Ablation studies

마무리

GPT-1 간단하게 알아보기

GPT-1

모델 구조와 학습 방식

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding | 논문 정리

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

Abstract

Introduction

MLM

next sentence prediction

Related Work

Unsupervised Feature-based Approaches

Unsupervised Fine-tuning Approaches

Transfer Learning from Supervised Data

BERT

Model Architecture

Input/Output Representations

Pre-training BERT

Pre-training data

Fine-tuning BERT

Experiments

GLUE

SQuAD v1.1

SQuAD v2.0

SWAG

Ablation Studies

Effect of Pre-training Tasks

Effect of Model Size

Feature-based Approach with BERT

마무리

BLEU Score 알아보기