tobigs-text1415.log

Lecture 22 - BERT and Other Pre-trained Language Models

Wed, 23 Jun 2021 10:33:57 GMT

작성자 : 서울시립대학교 경제학부 박준영

목차
1. Contextual representation
2. History of Contextual Representation
   2-1) semi-supervised sequence learning, Google, 2015
   2-2) Elmo(Deep contextual word embedding)
   2-3) GPT-1
       * Transformer VS LSTM

3. BERT
   3-1) problem with previous methods
      문제1) 잘 수행하는 확률 분포를 만들기 위해 방향성이 필요했다.
      문제2) 단어의 'See themselves'문제
   3-2) 문제를 해결한 BERT
      해결방법 : Masked LM(language model)
      * Bert vs GPT vs ELMO
   3-3) Bert pretraining
      3-3-1) Bert pretraining 방법
         방법1) masked language model
         방법2) Next sentence prediction
      3-3-2) Bert pretraining의 input
         -Token Embedding
            *WordPiece
         -segment Embedding
         -Position Embedding
      3-3-3) Bert pretraining procedure
   3-4) Bert fine tuning
      a) Sentence Pair Classification Tasks
      b) single sentence Classification Tasks
      c) Question Answering Tasks
      d) single Sentence Tagging Tasks
   3-5) Experiment            
4. Post-Bert pre-training Advancement
   4-1) ROBERTA
   4-2) XLNET
   4-3) ALBERT
   4-4) T5
   4-5) ElecTra
5. Distillation
   5-1) Distillation
   5-2) Distillation의 기술
   5-3) Distillation이 성능이 좋은 이유
6.conclusion
reference

1. Contextual representation

이전 강의에서 word2vec, FastText, Glove와 같은 워드 임베딩 방법들을 배웠다. 위의 임베딩 방법들의 문제는 하나의 단어가 하나의 벡터로 mapping되어 context을 고려하지 못한다는 점이다. 위의 problem을 보면

open a bank account
on the river bank 위의 bank가 [0.3, 0.2, -0.8,....]으로 문맥을 고려하지 못하고 동음의의어를 구분하지 못하는 문제점이 있었다. EX) 사과하다, 사과를 먹다의 "사과"라는 단어 벡터로 mapping되어 의미 구별이 힘들다.

그래서 이를 해결하기 위해 텍스트 corpus 문맥상의 표현을 학습하는 Train contextual representation on corpus가 제안되었다.

2. History of Contextual Representation

문맥상의 표현을 학습하기 위한 Train contextual representation on corpus는 어떻게 발전했을까????

2-1) semi-supervised sequence learning, Google, 2015

https://arxiv.org/pdf/1511.01432.pdf
2015년도 구글에서 발표한 semi-supervised sequence learning 논문이다.

이 논문은 전체 모델을 pretrain한 뒤에 classification을 위해 fine tuning을 진행하는 방식으로 영화 리뷰데이터 감성분석을 진행하였다. 이 논문으로 충분한 데이터가 없기 때문에 좋은 결과를 얻지 못했다는 것을 알게되었다.

2-2) ELMO(Deep contextualized word representations)

https://arxiv.org/pdf/1802.05365.pdf 그 후 ELMO가 등장한다.

ELMO는 큰 언어 corpus를 순방향 역방향 LSTM으로 학습하는 양방향 모델이다. 역방향 언어 모델도 사용함으로써 기존의 GLOVE 등에 있던 워드 임베딩 문제점을 해결하였다.

2-3) GPT-1(improving language understanding by generative pre-training, openAI, 2018)

https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf

Transformer(attention is all you need): https://arxiv.org/pdf/1706.03762.pdf

Transformer가 등장하게 되고 언어 모델 학습시 Transformer를 이용한 연구가 이루어지게 되었다.

** * Transformer VS LSTM 기법 비교 **

self-attention == no locality bias

LSTM은 단어를 순차적으로 입력 받아서 처리하기때문에 각 단어의 위치 정보를 가질 수 있었고 멀리 있는 단어보다 가까이 있는 단어가 관련성이 높다고 판단하는 locality bias 문제가 발생한다.

그러나 transformer은 단어 입력을 순차적으로 받는 것이 아니라 각 단어의 embedding벡터에 positional encoding을 통해 위치정보를 더하여 locality bias문제를 해결한다.

self-attention에선 맥락을 concatenate함으로써 long-distance context가 "equal opportunity"를 가지도록한다.

single multiplication per layer == efficiency on TPU LSTM은 문장(몇개의 과거 데이터를 볼지)를 이용하고 Transformer는 단어 임베딩을 사용한다. 만약 500개의 단어와 32개의 sentence가 있다면 Transformer는 512*32개의 batch 사이즈를 사용하면 된다. 따라서 TPU와 GPU를 효율적으로 사용할 수 있다.

GPT-1은 표준 Transformer의 Encoder는 사용하지 않고 Decoder만 사용하므로 Decoder에서 Encoder의 출력과 Attention을 하는 부분인 Encoder-Decoder Multi-Head attention 부분을 제거하였다. 그리고 12개의 transformer 층을 쌓은 후 방대한 텍스트 데이터를 이용하여 GPT-1 모델을 만들었다.

GPT-1은

1) 큰 말뭉치에서 대용량의 언어모델 학습 2) 분류 데이터를 써서 과제에 맞춰 모델을 fine-tuning하는 방식으로 진행된다. GPT-1은 12개 중 9개의 nlp task에서 sota(state of art)를 달성

3. BERT

3-1) problem with previous methods

problem: LM(언어 모델)은 left, right 맥락으로만 사용되었다. 그러나 언어는 양방향 이해가 필요하다.
LM(언어 모델)이 단방향이었던 이유

확률 분포를 잘 형성하기 위해서 방향성이 필요했다.
양방향 encoder에서는 단어가 자기를 볼 수 있다.
기존의 단반향 LM은 가 들어가면 다음 단어를 예측하는 방식이었다. 양방향 LM이 am을 예측할때 순방향 모델의 정보(, I)와 역방향 모델의 정보(a, am, i)를 가지고 있다. ** 즉, am을 예측하기 위해 am의 정보를 가지고 있는 상황이 발생한다**
#### ??? : 아까 ELMO도 양방향이라면서요? 그건 단어가 자기자신을 보는게 아닌가요? -> 위 질문에 대한 답은 뒤에서 서술하겠습니다.

3-2) problem with previous methods

- Masked LM

양방향 학습의 문제를 해결하기 위해서 Masked LM이 탄생했다. Masked LM이란 입력 텍스트 단어 집합의 15%의 단어를 랜덤으로 masking하고 masking된 단어를 예측하는 방법이다. 이때 masking 개수가 적으면 학습하는데 많은 비용이 들고, 너무 많다면 맥락의 수가 적어져 예측이 어렵다.

Masked LM 을 통한 양방향 학습을 사용하는 모델이 Bert이다.

Bert는 transformer에서 디코더를 제외하고 인코더만 사용한다. Bert의 작동구조는 Bert를 이용하여 pretrained-model에 분류를 위해 fined tuning을 하는 구조이다.

- Bert VS GPT vs ELMO

ELMO는 정방향/역방향 LSTM을 각각 훈련시키고 합쳐 양방향 언어 모델을 만들었다.
- GPT-1은 transformer의 decoder를 이전 단어로 다음 단어를 예측하는 단방향 언어모델을 만들었다.
- Bert는 GPT와 달리 Masked LM을 사용하여 양방향 학습을 사용하는 모델이다.

3-3) Bert pretraining

3-3-1) Bert pretraining 방법

Bert pretraining 방법은 *Masked LM(MLM)/Next sentence prediction(NSP) * 2가지로 나뉜다.
** 방법1) Masked LM(MLM) ** Bert는 사전 훈련을 위해 신경망 input으로 들어가는 입력 text의 15%를 랜덤으로 masking하고 masking을 예측한다.

위의 예시처럼 My dog is cute. He likes playing이라는 문장에 대해 masked language 모델을 학습하려고 할 때 [my, dog, is, cute, he, likes, play, ##ing]로 토큰화가 되어 bert에 입력으로 사용된다. 여기서 dog가 [mask]되었는데 Bert 모델이 [mask]된 단어를 맞추려고 하고 이때 dog 위치의 출력층 벡터만 사용한다.

위 사진 처럼 [Mask] 토큰만 사용하면 mask token이 파인튜닝 단계에서 나타나지 않는다. 이를 해결하기 위해 15%의 80%는 [mask]로 EX) went to the store -> went to the [mask] 15%의 10%는 랜덤으로 단어 변경 EX) went to the store -> went to the running 15%의 10%는 동일하게 EX) went to the store -> went to the store

여기서는 He -> king / play를 play 그대로 사용한다. [mask], 'king', 'play'에서도 원래 단어를 예측한다.

따라서, Bert에서는 input과 masked된 token을 Transformer encoder에 넣고 token을 예측하므로 양방향 학습을 한다.

** 방법2) Next sentence prediction(NSP) ** Next sentence prediction(NSP)는 QA나 Natureal language inference와 같이 두 문장 사이의 관계를 이해하도록 두 문장을 이어서 맞추는 것이다.

pre-training 시에는 50:50 비율로 실제 이어지는 문장과 랜덤한 문장을 넣어서 Bert가 맞추도록 한다.

Bert의 입력에 [Sep]라는 토큰을 넣어 문장을 구분한다. 문장 분류 문제를 위해 [CLS] 토큰을 추가하여 [CLS]의 출력층에서 NSP 분류 문제를 푼다. 이때 NSP와 MLM은 loss를 합하여 학습이 이루어진다.

3-3-2) Bert pretraining의 input

Bert의 input은 3가지 embedding 값의 합으로 이루어짐

Token Embedding : WordPiece Embedding 사용. Embedding 벡터의 종류는 단어 집합의 크기
WordPiece : 단어보다 더 작은 단위로 쪼개는 tokenizer 자주 등장하는 단어는 단어집합에 추가하고 자주 등장하지 않는 단어는 더 작은 단위의 서브워드로 분리되어 서브 워드들이 단어집합에 추가된다. 해당 토큰의 첫번째 서브워드를 제외한 나머지 서브워드들은 앞에 ##을 붙인 것을 토큰으로 한다. 위의 예시인 Playing의 경우 Play, ####ing로 분리 되었다. 이때 ###은 단어의 중간부터 등장하는 서브워드라는 것을 알리기위해 표시해둔 기호. 단어 집합을 기반으로 토큰화를 수행한다.
segment Embedding : QA 등과 같은 두개의 문장 입력이 필요한 task를 풀 때 segment embedding 사용한다. 만약 문장이 하나면?? Sentece A embedding만 사용
position Embedding : 위치 정보를 학습하기 위한 Embedding이다. Embedding 벡터의종류는 문장의 최대 길이인 512개, Transformer에서 positional encoding 방법과 같다.
모든 sentence의 첫번째 token은 언제나 [CLS](special classification token)이다. 이 token이 transformer층을 통과하고 나면 token sequence의 결합된 의미를 가지게 된다. 이때 [CLS]에 classifier을 붙이면 classification을 쉽게 할 수 있다. Classification task가 아니면 [CLS]무시.

3-3-3) Bert pretraining procedure

1단계 : 위키피디아, book corpus 데이터 이용

2단계 : NSP를 위해 sentence를 뽑아서 Sentence embedding을 넣는다(이때, 50%는 진짜 sentence, 나머지는 random sentence)

3단계: masking 작업을 하고 masking 예측

** -pretraing hyper parameter**

이제 pre-train 과정이 끝났으니 task를 위한 fine tuning에 대해 알아보자

3-4) Bert fine tuning

** a,b는 sequence-level task / c,d는 token-level task다.**

a) Sentence Pair Classification Tasks: 텍스트의 쌍에 대한 분류 문제 task: NLI(자연어 추론) - 두문장이 주어졌을때 하나의 문장이 다른 문장과 어떤 관계가 있는지 추론 입력텍스트가 1개가 아니므로 text 사이에 [sep]토큰을 넣고 두 종류의 segment embedding 사용

*b) single sentence Classification Tasks: 하나의 텍스트에 대한 텍스트 분류 유형 * 영화 리뷰 감성분류, 뉴스 분류 등 입력한 문서에 대해서 분류를 하는 유형으로 [CLS] 토큰을 사용하여 토큰의 위치 출력층에서 Dense layer또는 FC layer를 추가하여 분류에 대한 예측 실행

a,b는 Sequnce-level task이고 이 task에 대한 BERT-fine tuning과정은

[CLS] token의 output값을 사용하고
이때 [CLS] token의 벡터는 H차원(hidden size)
classify하고 싶은 K에 따라 classification layer를 붙여 K*H의 classification layer를 만듦
softmax를 통과하여 label probabilities 도출하는 과정이다.

c) Question Answering Tasks : 질의응답 ** **task: 텍스트의 쌍을 입력 받는 QA 질문과 본문을 입력 받으면 분문의 일부를 추출해서 질문에 답변하는 것이다. token들에서 Stand/end span을 찾아낸다.

d)single Sentence Tagging Tasks : 하나의 텍스트에 대한 태깅 작업 Named entity Recognition(NER)이나 형태소 분석과 같이 single sentence에서 각 토큰이 어떤 class를 갖는지 모두 classifier적용

3-5) Experiment

모든 NLP task에서 sota 달성
** - Effect of pre-training Task** Pre-training task를 하나라도 제거하면 성능이 떨어진다. NSP가 문장간의 논리적구조 파악에 중요한 역할을 하고 있기때문에 NO NSP의 경우에는 NLI(자연어 추론)에서 성능이 떨어지는 것을 볼 수 있다. MLM대신 LTR(left to right)을 사용하면 BI-LSTM을 사용하더라도 성능이 많이 떨어진다. MLM이 더 Bidirectional한 것을 볼 수 있다.
- Effect of directionality and training Time MLM은 수렴까지 시간이 좀 걸리지만 결과는 훨씬 좋다.

- Effect of model size 모델이 커질수록 정확도가 올라감 그러나 그렇게 눈에 띄는 변화는 아니다.

4. Post-Bert pre-training Advancement

4-1) ROBERTA(A Robustly Optimized BERT Pretraining Approach)

https://arxiv.org/pdf/1907.11692.pdf

Bert가 underfit한 상황으로 생각하여 모델을 더 오래 학습하고 더 많은 데이터를 넣어서 성능을 높임

학습데이터 : Bert에 비해 더 많은 데이터로 더 오래 더 큰 배치로 학습진행 pre-training에 이용하는 데이터(BERT:16GB -> Robert:160GB)
결과 : 데이터의 양과 다양성이 중요하고 오래학습해도 overfitting이 보이지 않았다.

#### **4-2) XLNET(Generalized Autoregressive Pretraining for Language Understanding)** ######
임베딩의 모델의 흐름은 2가지
1. AR(autoregressive)모델 :* 데이터를 순차적으로 처리하는 기법 EX) ELMO, GPT EX) 나는 사과를 먹는다 : 나는 → 사과를 → 먹는다
단점:* 문맥을 양방향으로 볼 수 없다는 문제
2. AE(AutoEncoding) 모델 :* 입력값을 복원하는 기법들 EX) BERT-masking기법(masking 토큰을 예측) EX) 나는 [mask] 먹는다 : 나는 → [mask] ← 먹는다.
단점:* masking한 토큰을 서로 독립으로 가정하여 token들 사이의 의존관계(dependency) 고려할 수 없다.

AR, AE 모델의 한계를 극복하기위해 permuation language model인 XLNET을 제안했다.

input sequence index의 모든 permuation(순열)을 고려한 AR방식. Zt는 index의 permuation 조합을 사용하여 다양한 sequence 고려 EX) input sequence가 4면 Zt는 4! 각 순열에 AR Language model의 objective fuction 적용하여 특정 token에 양방향 context 고려

EX) 발 없는 말이 천리 간다 -> permuation하여 발, 없는, 천리, 이, 말, 간다 집합이 아왔고 천리를 예측할때의 입력 시퀀스는 발, 없는이 된다.
- 시퀀스를 순차적으로 학습하는 AR 모델이지만 permuation을 통해 문장의 양방향 문맥을 고려하게 된다.**
[3,2,4,1]에서 3을 학습할때
[2, 4, 3, 1]에서 3을 학습할때 2, 4로 3을 예측

permutation은 attetion mask로 실현한다.

3번 단어를 맞추기 위해서는 정보를 사용할 수 없고, 2번을 맞출땐 3번 단어 정보를 이용하는 방식으로 사용된다.
하지만 위 방법은 학습시 permuation 하기때문에 예측할 token이 명확하지 않아 Standard Transformer에서 작동하지 않는다.*

따라서 Transformer에 XLNET의 object function을 적용하기 위해 Two-stram self-attention 제안.
Two-stram self-attention*은 쿼리 스트림과 컨텐트 스트림을 합하여하여 2개의 hidden representation를 가진고 업데이트하는 기법. ** * 컨텐트 스트림 :** t 시점과 t이전 시점의 token정보(transformer와 같은 연산) [3, 2, 4, 1]인 경우 x: 토큰 임베딩 h: 컨텐트 스트림 벡터

** * 쿼리 스트림 :** 토큰과 위치 정보를 활용한 self-attention 기법(t 이전 시점의 token정보 + t시점의 정보) [3, 2, 4, 1]

4-3) ALBERT(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS)

https://arxiv.org/pdf/1909.11942.pdf

-워드 임베딩을 embedding size로 설정해서 파라미터수를 줄였다. -attention과 FFNN 레이어 간 파라미터를 공유하는 Cross-layer parameter sharing기법을 사용하여 파라미터 수를 줄이고, 학습도 안정적으로 가능하였다.

Bert에 비해 param 수도 적고 Training speed가 빠르다

4-4) T5(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)

https://arxiv.org/pdf/1910.10683.pdf

모든 NLP task를 통합할 수 있도록 Text-to-Text 프레임 워크 사용 모든 NLP task에서 T5라는 동일한 모델, loss, hyperparameter 사용가능 파라미터 수가 Bert의 2배이므로 Expensive한 모델이다.

4-5) ElecTra(ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS)

https://arxiv.org/pdf/2003.10555.pdf

Generator G : Bert MLM Discriminatior D: 입력 토큰 sequnce에서 토큰이 original인지 replaced인지 분류

대용량 corpus에서 Generator loss와 discriminator loss 합을 최소화 하도록 학습한다.

5. Distillation

5-1) Distillation

제품에 모델을 적용할 때, Bert와 다른 pretrained language models는 매우 크고 비용이 많이 드는 모델이다. -> Distillation을 통해 model compression

5-2) Distillation의 기술

Train Teacher : Traing set으로 sota pre-training + fine-tuning하여 모델 정확성 극대화(large model 학습)
Label a large amount of unlabeled input examples with teacher
Train student : Teacher output을 흉내내는 작은 모델 훈련
MSE, CE로 loss를 최소화

Distillation의 목표는 성능을 유지하면서 model을 압축하고자함.

5-3) Distillation이 성능이 좋은 이유

거대한 language model을 학습하는 것은 다른 NLPtask에도 유용하다.
Fine-tuning은 대부분 존재하는 latent feature를 조정한다.
기능중 일부만 지정된 작업에 유용하기 때문에 distillation이 일부 feature만 집중하게 해준다.

Q. Distillation을 이용해서 만들어낸 모델에 추가 학습을 시키고 싶다면 다시 큰 모델에 추가 학습을 시켜서 압축하는 방식인가요? 아니면 작은 모델에 추가로 학습을 진행하나요??

A. 정확도를 극대화 시키는부분은 Teacher 파트이므로 큰 모델에 추가 학습을 진행한다. <참고>: https://blog.est.ai/2020/03/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%AA%A8%EB%8D%B8-%EC%95%95%EC%B6%95-%EB%B0%A9%EB%B2%95%EB%A1%A0%EA%B3%BC-bert-%EC%95%95%EC%B6%95/

6.conclusion

-Pre-trained된 양방향 language models은 성능이 좋다. 하지만 매우 expensive하고 성능을 개선하려면 더 expensive한 모델과 더 많은 data가 요구된다.

-위 모델을 servivng/inference에 사용하기 위해서는 distillation을 통해서 해결해야한다.

reference

https://tmaxai.github.io/post/BERT/#4-experiments https://wikidocs.net/115055 https://www.youtube.com/watch?v=knTc-NQSjKA&t=1049s https://arxiv.org/pdf/1810.04805.pdf https://baekyeongmin.github.io/paper-review/roberta-review/ XLNET:https://ratsgo.github.io/natural%20language%20processing/2019/09/11/xlnet ElecTra:https://blog.pingpong.us/electra-review/

Lecture 18 - Constituency Parsing and Tree Recursive Neural Networks

Wed, 23 Jun 2021 10:01:17 GMT

작성자 : 건국대학교 응용통계학과 정재윤

Constituency Parsing

컴퓨터가 자연어를 이해하기 위해 필요한 과정인 parsing은 이미 이전의 강의에서 여러번 다뤘으니 깊게 설명하지는 않겠습니다. 위의 이미지는 parsing의 종류에 대해서 직관적으로 이해할 수 있게 cs224n에서 제공하는 이미지입니다. 왼쪽이 Bag of word를 표현하는 것입니다. 오른쪽은 언어학자들이 표현하는 parsing 방식으로 오늘 다룰 내용입니다.

본격적으로 설명하기에 앞서 Compositionality의 의미에 대해서 먼저 알아보겠습니다. 사전적인 뜻으로는 '구성'을 의미합니다. 그림과 같이 작은 부품들이 모여서 하나의 새로운 것을 만든다는 것을 내포하는 단어인거죠. 이는 언어적인 측면에서도 보입니다. 즉, 여러 개의 단어들을 이용하여 하나의 문장 혹은 새로운 단어로 표현 가능하게 됩니다. 반대로 생각한다면 컴퓨터는 모르는 단어를 자신이 아는 단어로 표현하여 읽어낼 수 있다로 볼 수 있습니다.

대표적인 예시가 위의 그림인데요. snowboarder와 A person on a snowboard는 같은 의미임에도 불구하고 후자는 여러개의 단어들을 사용해서 하나의 단어로 표현한 것을 알 수 있습니다.

즉, 언어를 단어의 조각들로 파악하고 이러한 구조를 세워 그 의미를 찾아보자는 것이 이번 강의의 주내용인 것입니다. (사족으로 하나 알아두셨으면 하는 점은 언어가 재귀적으로 가능하냐에 대한 것인데요. 인간의 언어라고 하는 것이 무한할 수 없기에 불가능하다 가능하다로 이야기가 많다고 합니다.)

이제 구체적으로 어떻게 문장을 vector space에 맵핑하는지 알아봅시다. 각 단어들을 Tree RNN에 넣어서 일련의 과정을 통해 문장의 의미를 추출하여 최종 벡터를 구하게 됩니다. 규칙은 그림과 같습니다. 이러한 Tree RNN 구조는 RNN구조보다 의미파악에 있어서 훨씬 유용합니다.

RNN의 경우, Tree RNN과는 달리 단어들을 합친 문장의 의미를 파악하는데에는 한계를 가집니다. RNN은 여러 layer를 거친 뒤, 최종 벡터를 파악하는 데에 중점을 두고 있기 때문이죠. 반면 Tree RNN의 구조는 마지막에 집중하는 것이 아닌 관계에 집중하고 있는 구조입니다.

Simple Tree RNN

구체적으로 Tree RNN에 대해서 이야기해보겠습니다. 우선 Tree RNN을 진행하기 위해서는 크게 2가지가 선행되어야 합니다. 첫 째로 단어의 의미를 알고 있어야하고, 둘 째로 단어들이 결합하는 방식에 대해서 알아야 합니다.

단어를 모두 안다는 가정하에 규칙에 대해서 알아봅시다. 우선 두 벡터를 NN에 태워서 (8,3)이라는 부모 벡터와 1.3이라는 score를 구합니다. 여기서 부모 벡터는 c1과 c2를 concat하여 공식과 같은 방식으로 구하게 됩니다. 이 때 중요한 건 어떤 부모 벡터를 구하든 모두 같은 W를 사용한다는 점입니다.

score는 조합할 단어를 선택할 때 반영하는 값입니다. 즉, 단어를 선택하는 기준으로 해당 단어가 얼마나 말이 되는지를 평가합니다. 우선 인접한 단어들의 조합을 통해 부모 벡터와 score를 greedily하게 모두 구합니다. 그리고 score가 높은 단어들로 다음 부모 벡터와 score값을 계산합니다. 이렇게 되면 아래와 같은 그림이 나오게 됩니다. 이 과정을 부모벡터가 가장 위에 하나만 남을 때까지 계속해서 반복하게 됩니다. 즉, 아래의 그림과 같이 나올 때까지 계속 진행하는 것입니다. 이러한 모델의 backpropagation은 일반적인 backpropagation과 크게 차이가 없습니다. 이런 과정을 거치면 simple Tree RNN은 그렇게 성능이 떨어지지는 않지만, 앞서 W가 모든 노드에서 동일하다는 단점을 가집니다. 즉, 언어가 복잡하고 고차 구성이며 긴 문장으로 들어오면 적절하지 못하다는 것이죠. 또한 인풋 단어간 상호작용이 없다는 점과 조합 함수가 모든 경우에 대해서 동일 하기 때문에 다양성이 떨어지게 됩니다.

Syntactically-United RNN

simple Tree RNN은 이러한 단점을 가지기에 사람들은 더 나은 모델을 고안했습니다. 그 모델이 바로 Syntactically-United RNN이라는 모델입니다. 이전의 simple Tree RNN과 가장 큰 차이점은 모든 조합에서 똑같이 사용되었던 행렬 W를 각기 다르게 설정한다는 점입니다. 그러나 이런 방식으로 진행할 때의 문제는 바로 speed입니다. 아무래도 각 matrix를 찾아야하기에 학습에 시간이 오래걸리게 됩니다. 이에 대한 해결법으로 나온 것이 바로 PCFG방식입니다. PCFG란 한 문장에 k개의 문장 구조를 만들고 적절한 문장 구조를 바탕으로 학습을 진행하는 방식입니다. 즉, 만든 문장 구조를 바탕으로 Tree RNN에 적용하는 방식입니다.

Recursive Matrix - Vector RNN

그림과 같이 연산을 진행하는 모델이 바로 MV-RNN이다. MV-RNN에서 중요한 점은 단어에 대한 정보를 단순히 벡터에 국한하지 않았다는 점입니다. 단어의 Matrix를 만들어 정보의 손실을 줄이는 방법을 선택하여 문장의 의미를 더 담을 수 있게 만들었습니다.

과정은 이러합니다. 우선 각 단어의 벡터와 행렬을 준비합니다. 한 단어의 벡터와 다른 단어의 행렬을 연산을 통해 값을 구해줍니다. 그리고 나온 벡터값을 일련의 함수처리를 통해 최종값을 구해줍니다.

RNTN

RNTN에 대해서 설명하려면 감성분석에 대해서 잠깐 언급해야 합니다. 전통적으로 감성분석은 꾸준히 발전했습니다. 따라서 굳이 새로운 모델을 만들지 않아도 love, great과 같은 단어를 찾아서 의미를 부여하면 꽤나 높은 성능을 갖기 때문입니다. 하지만 아래와 같이 조롱이 섞인 문장의 경우, 그 안의 감성을 잘못 찾았습니다.

이러한 문제는 MV-RNN에서도 계속해서 발견되면서 이를 분석하기 위한 새로운 모델이 필요했습니다. 그래서 제시된 모델이 바로 RNTN입니다.

오른쪽의 그림이 RNTN의 구조입니다. 즉, 핵심은 계속된 행렬의 계산이 아닌 Tensor(3차원)으로 연산을 진행하면서 정보의 양은 동일하면서 파라미터를 줄여 연산 속도를 줄이는 것입니다.

이렇게 만들어진 RNTN은 일반적인 데이터셋에서는 큰 효과를 못 얻었지만 TreeBank에 관한 데이터셋에서는 큰 Accuracy를 얻었습니다.

Limitation

지금까지 여러 TreeRNN에 대해서 알아봤습니다. 굉장히 좋은 것 같으나 현재 저희들의 인식에서는 조금 생소한 개념이었던 것 같습니다. 그 이유는 현실적으로 TreeRNN을 사용하기 어렵기 때문입니다. 대표적인 이유는 GPU연산이 힘들기 때문입니다. 동일하게 병렬적 연산이 진행되는 것이 아닌 연산의 구조나 Tree모델이 다르다는 점 때문입니다. 또한 데이터 구축이 일반 데이터보다 훨씬 어렵기 때문입니다.

Reference

Lecture 15 - Natural Language Generation

Wed, 02 Jun 2021 09:32:59 GMT

작성자 : 건국대학교 응용통계학과 정재윤

Recap : LMs and Decoding Algorithms

NLG?

Natural Language Understanding (NLU) : 자연어 형태의 문장을 기계가 이해할 수 있게 만드는 기술 Natural Language Generation (NLG) : 학습 결과로 기계가 자연어 문장을 생성하는 기술 Natural Language Processing (NLP) : 자연어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일. 즉, NLG + NLU

대표적인 Task에는 Machine Translation, Summarization, Dialogue, Creative Writing 등이 있다.

LM and Conditional LM

LM : 언어 모델링이란 지금까지 주어진 단어를 바탕으로 다음에 나올 단어를 예측하는 작업입니다. 그 대표적인 예시들이 우리가 앞서 배웠던 RNN-LM입니다. Conditional LM : 주어진 단어들과 어떠한 입력으로부터 다음 단어를 예측하는 모델입니다. 어떻게 보면 지금까지 저희가 지금까지 배웠던 과정의 대부분은 이 과정이었습니다. 예시로 Machine Translation의 경우, source sentence를 x로, Target sentence를 y로 받는 것이죠.

이러한 Conditional LM을 학습시키는 방법 중에서 강의에서는 Teacher Forcing을 언급합니다. 그림을 보면 알 수 있듯, Teacher Forcing이란, Encoder의 input으로 Source sentence를 넣고, Decoder의 input으로는 Decoder를 빠져나온 output이 아닌 Target sentence를 그대로 넣어서 학습시키는 것입니다.

Decoding Algorithms

그렇다면 위의 LM이나 Conditional LM을 학습시키고 나선 어떻게 문장을 생성할 수 있을까요? 바로 Decoding Algorithm을 사용하는 것입니다. 우리가 앞서 배운 Decoding Algorithm에서는 Greedy와 Beam search가 있었습니다.

Greedy Algorithm 우선 Greedy Decoding입니다. Greedy Decoding은 각 출력을 예측하는데 매 스텝에서 가장 가능성이 높은 단어 한 개를 선택합니다. 매 스텝마다 최적값 하나만 찾기 때문에 속도는 월등하죠. 하지만 한 번 단어를 잘못 산출하게 되면 그 이후의 값들 역시 영향을 받기 때문에 결과가 좋지 않을 수 있습니다.
Beam search 두 번째로 Beam search 방식입니다. Beam Search는 k개의 가능한 가설들을 두고 가장 높은 확률을 갖는 문장을 찾아 나가는 방식입니다. 이때 k는 beam size를 의미하며, k = 1 이라면 greedy algorithm과 같은 방식이 됩니다. 이 때 최적의 K를 찾는 것이 가장 중요합니다. beam size가 너무 작으면 주제에 맞는 대답은 하지만 말이 안되는 답변을 하게 되고, 반대로 beam size가 너무 크면 일반적이고, 짧은 답변을 산출하지만 BLEU score가 낮을 위험성이 있습니다.
Sampling based decoding 이러한 Beam search의 단점을 보완하기 위해 나온 방식입니다. 즉, 큰 k를 가지더라도 너무 일반적인 답안을 얻지 않게 하기 위해 나온 방식입니다. 1) Pure sampling : Greedy Decoding과 비슷하지만 argmax 대신에 랜덤 샘플링을 사용합니다. 2) Top-n sampling : Pure sampling과는 다르게 확률이 가장 큰 n개의 단어들 중에서 랜덤 샘플링을 진행하는 것입니다. n이 커질수록 다양하지만 적절하지 않은 문장이 생성되고, n이 작을수록 일반적이면서 평범한 문장이 나오게 됩니다.

NLG tasks and neural approaches to them - text summarization

text summarization?

text summarization이란 입력 텍스트 x를 바탕으로 중요한 정보만을 정제해서 요약문인 y를 생성하는 작업을 의미합니다. Summarization은 single-document와 multi-document로 나눌 수 있습니다. 하나의 문서에 대해서 요약을 하면 single, 여러 개의 문서에 대한 요약이라면 multi-document가 됩니다.

그리고 summarization은 다른 기준으로 Extractive summarization과 Abstractive summarization으로 나눌 수 있습니다. 강의에서는 형광펜과 만년필로 비유하면서 소개했습니다. Extracitve summarization은 문서의 원본 문장을 그대로 추출하는 방식으로 쉽지만 제한적이고, Abstractive summarization은 중요한 내용을 추출하고 아예 새로운 문장을 만드는 방식으로 더 어렵지만 더 다양한 결과를 얻을 수 있습니다.

Pre-neural summarization

Neural Nerwork 기반의 연구가 진행되기 전에는 Extractive summarization을 연구해왔습니다. 그리고 Extracitve summarization은 전형적인 pipeline을 가지는데요. 아래의 그림과 같습니다.

content selection : 포함할 중요한 문장을 선택 Information ordering : 선택한 문장들을 중요도에 따라 정렬 Sentence realization : 요약 문장을 구성하는 단계

ROUGE?

ROUGE란 Recall Oriented Understudy for Gisting Evaluation의 줄인 말로 텍스트 요약 모델의 성능 평가 지표입니다. 모델이 생성한 요약본을 사람이 미리 만들어 놓은 요약본과 대조하여 성능 점수를 계산하죠. 구체적인 예시를 통해 알아보겠습니다.

시스템 요약 : the cat was found under the bed.

참조 요약 : the cat was under the bed.

ROUGE는 recall과 precision을 모두 구할 수 있습니다. 먼저 Recall은 위의 수식처럼 참조요약본을 구성하는 단어 중 몇 개의 단어가 시스템 요약본과 겹치는지 보는 점수입니다. 예시를 보면 1이란 값이 나올 겁니다. 이 값은 정말 좋은 점수이지만 모델 성능을 모두 나타내지는 못합니다. 생성된 문장이 엄청 긴 문장이라면 높은 점수를 얻을 가능성이 존재하기 때문입니다.

이런 문제를 해결하기 위해서 Precision을 계산하는 것입니다. Precision은 Recall과는 반대로 모델이 생성한 시스템 요약본 중 참조 요약본과 겹치는 단어들이 얼마나 많이 존재하는지를 파악하는 지표입니다. 즉, Recall보다는 값이 떨어지게 됩니다. 시스템 요약문의 길이가 길어지면 길어질수록 값은 줄어들게 될 겁니다.

따라서 정확하게 성능 평가를 하기 위해서는 Precision과 Recall을 모두 계산해야하며 F-measure를 구한다면 더 바람직할 것입니다.

Neural summarization (2015 - present)

2015년, Rush et al 등은 single document abstractive summarization은 번역과 다를 바 없다는 가설을 바탕으로 seq2seq + attention을 적용했습니다. 하지만 seq2seq과 attention만을 적용한 모델은 디테일에 제대로 잡히지 않는 문제점을 가지고 있었습니다. 즉, OOV문제나 고유명사들을 출력하는 성능은 떨어지는 것이죠.

그래서 이러한 문제점을 보완하고자 summarization에 copy mechanism을 적용했습니다. copy mechanism이란 input으로 들어오는 문장에서 output 생성에 필요한 단어나 구문을 복사해오는 방법입니다. 즉, copy와 generation을 모두 쓰는 방식으로 extractive approach와 abstractive appoarch를 모두 고려하여 디테일을 잡아내고자 한 것입니다.

그러나 이 copy mechanism에도 너무 많이 copy를 진행해 결국 hybrid가 아닌 extractive 형태가 된다는 점과 전반적으로 좋은 content selection을 하지 못하는 문제가 발생했습니다. 이에 대한 해결책으로 bottom up summarization이 나왔습니다. 단어가 포함되었는지 아닌지를 0과 1로 태깅하여 모델은 단어가 포함되지 않은 부분에는 집중하지 않게 만든 것입니다.

Dialogue

Dialogue란 대화 시스템으로 task-oriented dialogue와 social dialogue로 구분지을 수 있습니다. Neural dialogue 이전에는 predefined template 기반으로 시스템을 구축하거나 responses 코퍼스에서 검색하는 방식을 사용했습니다. 그리고 2015년 이후, seq2seq 방식이 도입되면서 open-ended freeform 대화시스템을 만들게 됐습니다. 하지만 seq2seq based dialogue는 심각한 결함들을 가지고 있습니다.

Genericness Irrelevant responses Repetition Lack of context Lack of consistent persona

NLG evaluation

우선 NLP task에서는 BLEU, ROUGE, F1 등 굉장히 다양한 평가지표들이 있습니다. 그러나 그 어느 하나 명확히 이상적인 지표는 아닙니다.

모델을 평가하는 방법으로 perplexity도 존재합니다. 이 값이 낮으면 낮을수록 토픽 모델은 실제 문헌 결과를 잘 반영한다는 뜻이므로 학습이 잘 되었다고 평가를 할 수 있겠습니다. 하지만 이 값이 generation을 평가하지는 않습니다.

즉, Fluency, Diversity, Relevance 등 NLG의 각 측면을 평가하는 지표는 있으나 전반적인 NLG 성능을 평가하는 지표는 없는 것이죠.

가장 이상적인 기준에 가까운 지표는 바로 Human Judgement입니다. 사람이 직접 평가하는 것이죠. 그러나 사람이 하는 평가는 너무 오래걸리고 비용이 많이 나간다는 단점이 있습니다. 뿐만 아니라 집중력을 잃거나 일관적이지 않거나 하는 등의 문제들도 있다는 점을 유의하여야 합니다.

특히 chatbot의 경우, 다른 평가 지표들에 비해 사람이 평가하는 것이 굉장히 유의하지만 그렇기에 더 조심스럽게 사용해야한다고 강의에서는 언급하고 있습니다.

https://arxiv.org/pdf/1603.08023.pdf

NLG Using Unpaired Corpus

지금까지 저희가 배워왔던 자연어 생성 문제 해결 방법들은 입력 정보에 대응하는 출력문장을 준비시켜 학습시키는 Supervised Training에 기반했습니다. 즉, Paired Corpus로 학습을 진행하는 것입니다. 그러나 문제는 이런 데이터가 대량으로 필요하다는 점과 현실적으로 이런 데이터를 구축하는 것은 굉장히 어려운 점이라는 것입니다.

그리고 최근 이 문제점을 돌파하기 위해 Unsupervised training을 연구하고 있습니다. 한 사례를 찾아서 이야기를 해보겠습니다. 중요한 점은 아래와 같습니다.

어떤 스타일의 문장이 들어오더라도 본질적인 Latent vector 형태로 인코딩한다.

인코딩된 Latent vectors가 주어졌을 때, 각 스타일에 해당되는 디코더는 해당 스타일의 문장을 생성할 수 있어야 한다.
위의 포인트들을 학습하기 위해 인공 신경망은 Autoencoder loss, Cycle loss를 최소화하는 방향으로 학습하게 됩니다.

여기서, Autoencoder loss: X 스타일의 문장 x를 latent vectors로 변환한 후, 이를 다시 X 디코더를 이용해 문장 x’가 생성되었을 때, x’과 원래의 문장 x와 얼마나 다른지, Cycle loss: X 스타일 문장 x를 변환 과정을 통해 Y 스타일의 문장 y로 변환하였을 때, 이 문장 y를 다시 X 스타일로 변환한 문장 x’’과 원래의 문장 x는 얼마나 다른지 입니다.

Reference

CS224n Lecture 15 강의 및 강의자료
DSBA CS224n Seminar Lecture 15 발표 및 발표자료
https://velog.io/@tobigs-text1314/CS224n-Lecture-15-Natural-Language-Generation
https://blog.ncsoft.com/%EC%BB%A4%EB%AE%A4%EB%8B%88%EC%BC%80%EC%9D%B4%EC%85%98%EA%B3%BC-ai-4-%EC%82%AC%EB%9E%8C%EC%9D%98-%EB%A7%90%EB%A1%9C-%ED%91%9C%ED%98%84%ED%95%98%EB%8A%94-%ED%8E%98%EC%9D%B4%EC%A7%80paige/
https://misconstructed.tistory.com/64
https://bab2min.tistory.com/587
https://huffon.github.io/2019/12/07/rouge/

Lecture 14 - Transformer and Self-Attention

Wed, 02 Jun 2021 09:32:19 GMT

작성자: 고려대학교 언어학과 조효원

Contents

Introduction
Self-Attention and Transformer
Local self-attention and Image Transformer
Relative Positional self-attentoin and Music Transformer

1. Introduction

1-1. RNN, CNN, and Self-Attention

RNN

순차적으로 계산되므로 병렬화가 불가능
Long-term dependency 처리에 약하다
계층 구조를 모델링할 수 없다

CNN

병렬화 가능
Local dependency에는 강하지만, Long-term dependency를 표현하기 위해서는 많은 계층이 필요

Self-Attention

병렬화 가능
각 token이 최단거리로 연결되어 long-term dependency 문제도 해결

Complexity

2. Self-Attention and Transformer

Seq2seq model with self-attention

2-1. Self-Attention Details

	Attention	Self-Attention
Definition	Input과 Target 토큰 사이의 관계	Input 내 모든 토큰들의 관계
Q,K,V	Q = t시점의 Decoder output K = 모든 시점의 Encoder output V = 모든 시점의 Encoder output	Q = 입력 문장의 모든 단어 vector K = 입력 문장의 모든 단어 vector V = 입력 문장의 모든 단어 vector
Procedure	1. Q에 대해 모든 K와의 유사도를 구한다. 2. 유사도를 K와 매핑되어있는 V에 반영한다. 3. 유사도가 반영된 V를 모두 더해 반환한다.	1. 독립적인 Q,K,V 벡터를 얻는다. 2. Scaled dot-product Attention을 수행한다. 3. Head들을 연결한다. 4. Fc-layer를 통과한다.

0) Transformer Hyperparameters

$d_{model} = 512$ Encoder와 Decoder의 입출력 크기
$num_layers = 6$ Encoder Stack과 Decoder Stack의 층 개수
$num_head = 8$ Attention의 병렬화 수
$d_{ff} = 2048$ Feed Forward 계층의 은닉층 크기

1) Q,K,V 벡터 얻기

Self-Attention은 Encoder의 입력 단어 벡터를 사용하지 않는다
우선, 각 단어 벡터로부터 Q벡터, K벡터, V벡터를 얻는다.
- 이 벡터들은 ${d_{model} \over num_head}$의 크기를 가진다.

2) Scaled dot-product Attention 수행

Scaling 하는 이유
- dot product 값이 상당히 커지기 때문에! Q 와 K 의 차원이 커질 수록 QK(T) 값이 커지기에 softmax 시 큰 값은 매우 커지고 작은 값은 매우 작아지는 문제 발생
- 임의로 Q와 K가 평균이 0이고 분산이 1인 i.i.d normal distribution을 따른다고 가정해보면, 분산은 $d_k$가 된다.
- Q 와 K 의 곱해지는 값들이 모두 독립이라 가정하면 이상적인 분산은 1이다.

3) Head 통합하기

앞서 구한 n번째 head 의 Attention Value Matrix를 Attention head라고 부른다.
모든 head를 합쳐서 최종 Attention Value를 구한다.
각 head는 동시다발적으로 구해진다. (병렬 처리)

한 문장 내에도 다양한 정보가 존재하며, 한 번의 attention으로는 모든 정보를 적절하게 반영하기 어렵다.

각 head는 하나의 시점 및 시각으로 기능한다. 즉, multihead attention을 통해 여러 시점 및 시각으로 정보를 수집할 수 있다.

4) Fc layer 통과하기

가중치를 곱해 Multihead Attention을 구한다.

2-2. Transformer

1) 3가지 Attention block

Encoder Self attention
- Encoder는 하나의 특정한 단어를 '잘 표현(encode)'하기 위해 input sequence 내 모든 단어들과의 관계를 살펴 learned representation을 산출한다.
Decoder Self attention
- Decoder는 input sequence에 대해 잘 표현하기 위해 multihead attention을 수행한다.
- 이때, Look ahead mask를 씌운 상태로 진행한다.
- Look ahead mask란, 문장을 생성할 때 뒤의 단어를 참고하는 것을 방지하기 위한 마스크이다. 시점 t 이후 모든 key에 대한 masking이 되어있다.
Encoder-Decoder Attention
- Encoder의 output과 Decoder의 input 사이의 다리를 놓아주는 역할을 합니다.
- Q = Decoder 벡터, K,V = Encoder의 마지막 층 벡터

2) Positional Encoding

단어의 위치와 순서는 모든 언어의 필수 부분이다. RNN (Recurrent Neural Networks)은 단어별로 문장을 순차적으로 구문 분석하기에 본질적으로 단어의 순서를 고려한다. 하지만 Transformer 아키텍처는 recurrent 메커니즘을 버렸기에 단어의 위치 정보를 활용하지 못한다. 문장의 각 단어가 Transformer의 인코더 / 디코더 스택을 동시에 통과하기 때문에 모델 자체에는 각 단어의 위치/순서에 대한 감각이 없다.

Positional Encoding은 RNN 계열의 '순서/위치 정보 반영'이라는 장점을 유지하기 위해 고안된 방법으로, 문장에서의 위치에 대한 정보를 각 단어에 추가한다. 이때, 각 단어의 위치는 cos, sin 함수를 통해 표현된다.

Why cos & sin, not int

정수를 사용하면?
- 정수값 위치 표현은 값이 모델에 미치는 영향이 너무 크다
- 따라서 모델의 robustness가 떨어진다
cos, sin 함수는 다음의 조건을 충족하므로 위치를 표현하기에 좋다.
1. 각 토큰의 위치값은 고유해야 한다.
2. 서로 다른 두 토큰이 떨어져있는 거리가 일정해야한다.
3. 긴 길이의 문장도 표현할 수 있어야한다.
4. 함수에 따른 결과로 토큰의 위치값을 예측할 수 있어야한다.
짝수에 sin, 홀수에 cos를 사용하면 위치가 커질 때마다 값이 다시 작아져 특정 두 토큰의 위치값이 겹치는 것을 방지할 수 있다.

3) Feed Forward NN

$FFNN(x) = Max(0, x \cdot W_1 +b_1 ) \cdot W_2 + b_2$

즉, Relu activation function을 거치는 nn
$x$는 multihead self-attention의 결과인 $(seq_len, d_{model})$ 크기의 벡터
$W_1 = (d_{model}, d_{ff})$, $W_2 = (d_{ff}, d_{model})$

4) Add & Norm

3. Local self-attention and Image Transformer

3-1. Using Self-attention for Image tasks

Self-Similarity in Image
Image Transformer Tasks
- Unconditional Image Generation 대규모의 데이터로 특정한 이미지를 제작하는 태스크
- Conditional Image Generation 클래스 각각의 임베딩 벡터를 입력으로 받거나, seed 이미지를 받아 이미지를 제작하는 태스크
- Super Resolution 저화질의 이미지를 입력으로 받아 고화질의 이미지를 출력하는 태스크

강의에서 초점을 둔 것은 Original Transfomer와 완전히 같은 구조를 사용하는 마지막 Super Resolution Task이다.

Transformer에서 입력은 문장에서 사진으로 전환되며, 따라서 처리 단위도 토큰에서 픽셀로 바뀐다. 그런데, 여기서 Complexity에 문제가 생긴다.

앞서 Self-Attention이 효율적인 이유는 model dimension보다 sequence length가 작기 때문이었다. 하지만 이미지 처리를 픽셀 단위로 한다면 sequence length는 픽셀을 나열한 크기가 된다. 이미지 픽셀의 길이는 일반적으로 32x32x3=3072이므로, self-attention을 적용하는 것이 굉장히 비용이 커지게 된다.

3-2. Local Self-Attention

이러한 배경을 바탕으로 Local self-attention이 등장한다. 말 그대로, attention window를 전체가 아닌 근처의 픽셀들로만 설정해 어텐션을 수행한다.

이때, Sequence 내 일정 부분을 Memory block이라고 하며, memory block 내에서만 self-attention 적용한다.

Super Resolution에서의 decoder가 이미지를 생성하는 순서는

Input을 겹치지 않는 Block으로 구분, 마지막으로 생성된 픽셀을 포함하는 block을 Query block이라고 한다. 이때 마지막으로 생성된 픽셀을 Current Query pixel, 그 다음 생성되야할 픽셀을 Target pixel이라고 한다.
위쪽 방향으로 $h_{m}$ 픽셀, 양 옆으로 $w_{m}$ 픽셀만큼을 둘러싸는 Memory block을 지정한다. 이는 Key와 Value의 역할을 한다.
Memory block 내 픽셀을 key, value로, Current Query pixel을 query로 하는 self-attention 수행(Transformer Decoder의 Multihead self attention)
Encoder-Decoder Attention, FFNN을 거쳐 output 생성

Results

Super Resolution
Conditional Image Completion

4. Relative Positional self-attentoin and Music Transformer

4-1. Using Self-attention for Music generation tasks

Self-Similarity
Music Transformer Tasks
- Unconditional Music Generation 대규모의 데이터로 특정한 음악을 제작하는 태스크
- Conditional Music Generation 클래스 각각의 임베딩 벡터를 입력으로 받거나, seed 음악을 받아 음악을 제작하는 태스크

4-2. Relative Positional Self-Attention

Attention + Convolution

어텐션을 통해 우리는 지나간 정보들에 대한 weighted average를 알 수 있다. 또한, 어텐션의 큰 강점 중 하나는 어떤 토큰이든 직접적인 접근을 할 수 있다는 것이다. 그러나 이는 다르게 이야기하면 모든 토큰들이 마치 bag of words처럼 여겨져 한 토큰과 다른 토큰의 거리는 알 수 없다는 것이다.

여기에 Convolution의 장점을 결합한 것이 Relative Positional Self-Attention이다. convolution은 이동하는 고정된 크기의 필터가 있고 이것은 각 토큰 사이의 상대적인 거리를 잡아낸다. 즉, self attention에 거리라는 요소를 추가한 것이다.

Relative Positional Self-Attention

거리 정보를 고려해야 했던 이유는 무엇일까. 살펴보았듯이 음악은 특정 주기를 가지고 비슷한 음들이 반복된다. 흔히 듣는 음악의 훅만 생각해보아도 그렇다. Music Transformer의 Relative Positional Self-Attention은 각 단위의 내용뿐만 아니라 그 단위가 한 스텝 떨어져있는지 두 스텝 떨어져 있는지 등을 함께 고려한다. 즉 주기성을 고려하는 것이다.

Relative Positional Self-Attention는 단순히 일반적인 Self-attention에 Relative Positional Vector를 더해 query와 key의 sequence 내 거리를 attention weight에 반영하는 형태다.

Relative Positional Self-Attention에서 $S^{rel}$을 만드는 순서는 다음과 같다:

Relative Positon Embedding Matrix($E^T)$를 만든다.
Relative Positon Embedding Matrix($E^T)$를 Query Vector를 곱한다.
기존 attention과 더할 수 있도록 모양을 변형한다. (Skewing)
기존 attention score와 relative positional attention score를 더하여 output을 산출한다.

Results

Relative self-attention이 적용된 music transformer는 다양하고 반복적인 곡을 생성함과 동시에 training data보다 2배나 긴 sequence에 대한 generation 또한 가능했다.

Reference

CS224n: Natural Language Processing with Deep Learning in Stanford / Winter 2019 중 Transformers and Self-Attention For Generative Models (guest lecture by Ashish Vaswani and Anna Huang)
고려대학교 산업경영공학과 DSBA 연구실 CS224n Winter 2019 세미나 중 14. Transformers and Self-Attention For Generative Models 강의자료와 강의 영상 (노영빈님)
https://wikidocs.net/31379
https://jalammar.github.io/illustrated-transformer/
https://towardsdatascience.com/transformers-explained-visually-part-3-multi-head-attention-deep-dive-1c1ff1024853
https://velog.io/@tobigs-text1314/CS224n-Lecture-14-Transformer-and-Self-Attention#3-image-transformer

Lecture 13 – Contextual Word Embeddings

Wed, 26 May 2021 07:47:14 GMT

작성자 : 동국대학교 통계학과 이윤정

Contents

Reflections on word representations
Pre-ELMo and ELMO
ULMFit and onward
Transformer architectures
BERT

Contextual Word Embeddings

이번 강의에서는 문맥을 반영한 Word Embedding과 관련 Model에 대해 배웁니다.

Reflections on word representations

1. Representations for a word

컴퓨터는 어떻게 자연어를 이해하고 효율적으로 처리하고 있을까요? 컴퓨터는 Word Embedding을 통해 단어를 벡터로 표현함으로써 자연어를 이해합니다. 우리가 앞선 강의에서 배운 Word2Vec, GloVe, fastText 역시 단어를 벡터로 표현하는 방법들입니다.

2. Pre-trained word vectors

** Until 2011 ** 2011년까지 POS tag 및 NER task에 대한 성능 비교표입니다. 1번째 방법론인 State-of-the-art은 Rule-based 방법론으로 Word Representation (Word2Vec, GloVe 등)을 사용하지 않습니다. 3번째 방법론인 Unsupervised pre-training followed by supervised NN은 2번째 방법론과 Word Representation를 함께 사용한 방법으로 Rule-based보다 성능은 뒤쳐지지만, 성장 가능성을 확인할 수 있습니다.
** After 2014 ** Random initialization word vector와 Pre-trained word vector에 대한 그래프로 pre-trained word vector를 사용하는 것이 성능 향상에 도움이 되는 것을 알 수 있습니다. pre-trained word vector의 경우 task에 쓰이는 labeled 데이터보다 훨씬 더 많은 unlabeled 데이터에 의해 학습되기 때문에 성능 향상에 도움이 됩니다.

3. Usefulness of Pre-trained word vector

Pre-trained word vector는 성능 향상 뿐만 아니라 Unknown word vector, 통칭 UNK Token을 처리하는 데에도 효과적입니다.

일반적으로 train 시 약 5회 이하로 등장하는 단어는 UNK로 처리를 하며, test 시 Out-Of-Vocabulary(OOV) 단어를 UNK로 매칭합니다. 그러나, UNK로 매칭된 단어가 중요한 의미를 지니고 있어도 이를 고려하지 못한다는 문제점이 발생합니다. 본 강의에서는 이러한 문제점을 해결하기 위해 다음과 같은 해결책을 제시합니다.

Character level의 embedding model을 이용하여 word vector 생성
Pre-trained word vector 사용 → 가장 많이 사용되는 방법
Random vector을 부여하여 vocabulary에 추가 → 각 단어가 고유한 정체성을 가지는 효과

4. Problem of having one representation of words

Star라는 단어가 하늘에 있는 별을 의미하기도 하지만 할리우드 스타와 같은 연예인을 의미하듯 하나의 단어도 여러 의미가 존재합니다. 하지만, 하나의 단어를 하나의 word vector로 표현하는 경우 한 문맥의 word vector로 매칭되기 때문에 동음이의어 혹은 문맥에 따라 단어의 type이 달라지는 측면을 고려하지 못하게 됩니다. 이러한 문제점을 해결하기 위해 Contextual Word Vector의 필요성이 대두됩니다.

본 강의에서는 Neural Language Model을 통해 contextual word vector를 생성하는 방법을 소개합니다. LSTM layer의 경우 문장의 Sequence를 고려하여 다음 단어를 예측할 수 있으므로 Context-specific word representation 역시 예측할 수 있을 것입니다. 이러한 아이디어를 활용한 대표적인 모델로는 ELMo가 있습니다.

Pre-ELMo and ELMo

1. TagLM -"Pre-ELMo"

본 강의에서 TagLM 혹은 Pre-ELMo라고 지칭되는 해당 모델은 ELMo 발표 저자가 ELMo 이전에 발표한 모델로 ELMo와 아주 유사한 형태의 구조를 지닙니다. Pre-ELMo는 small-task labeled data를 학습에 주로 사용하기 때문에 RNN을 통해 Context 속 의미를 학습하기 어렵다는 문제점을 Large Unlabeled Corpus로 먼저 학습을 시키는 Semi-supervised approach를 적용하여 해결하였습니다. 이러한 Pre-ELMo의 구조는 크게 3단계로 구분할 수 있습니다.

STEP1

Pre-trained Bi-LM은 Input String을 순방향 LM, 역방향 LM에 별도로 들어오게 됩니다. 이때, 각 LM에서의 output은 concat되며 수식으로 표현 시 다음과 같습니다. $$( = h_{k}^{LM})$$

STEP2

Pre-trained model이 훈련하는 동안 모델은 현재 입력 단어가 주어지면 다음 단어를 예측합니다. 이때, Input String은 Token embedding(word2Vec)과 Char CNN으로 표현할 수 있습니다. 이후 해당 단계에서의 output은 concat되어 2-layer Bi-LSTM의 1st layer의 input으로 들어갑니다.

STEP3

Bi-LSTM의 1st layer의 output은 Pre-trained LM에서의 최종 output $$h_{k}^{LM}$$와 concat되어 2nd layer로 공급되며 수식으로 표현 시 다음과 같습니다. $$(= h_{k,1}=[\overrightarrow{h}{k,1} ; \overleftarrow{h}{k,1} ; h_{k}^{LM}])$$

2. ELMo

ELMo는 Pre-ELMo를 일반화한 모델로 기존 방법들과 2가지 차이점이 존재합니다. 첫번째로 window를 통해 주변 context만 사용하는 기존 embedding 방법과 달리 모든 문장을 사용하여 Contextualized word vector를 학습합니다. 두번째는 최종 layer의 값들로 word vector를 사용한 이전 모델과 달리 2-layer 양방향 언어모델인 ELMo는 순방향과 역방향 layer를 통해 특정 단어 및 해당 단어의 앞쪽/뒷쪽 정보를 포함한 단어에 대한 각 layer 별 출력 값이 존재하며 모든 layer의 출력값을 활용하여 최종 word vector를 embedding합니다.

구조

우선, Input String은 Char-CNN에 의해 word vector로 변환되어 Bi-LM의 1st layer에 공급됩니다. 이때, 1st layer는 residual connection을 통해 Char-CNN으로 반영된 단어의 특징을 유지합니다. 1st layer의 output인 중간 word vector는 Bi-LM의 2nd layer에 공급됩니다. 이후, 2nd layer 역시 output으로 중간 word vector를 출력합니다.

2nd layer의 중간 word vector까지 출력되면, 각 layer로부터 출력된 중간 word vector와 raw word vector를 각각 concat한 후 가중치를 통해 선형 결합하여 ELMo Representation 도출합니다. 일종의 가중합 과정으로 볼 수 있으며, LSTM의 top layer만 사용하던 이전 모델들과 달리 각 layer의 결과를 선형 결합하여 모두 사용하게 됩니다. 해당 과정을 수식으로 나타내면 다음과 같습니다. 최종적으로 모든 layer의 벡터를 더해 하나의 임베딩 벡터라는 word vector를 생성하므로써 단어 자체가 가지고 있는 특징인 Syntax 정보와 문맥이 고려된 특징인 Semantics 정보를 모두 활용할 수 있습니다.

1st layer : Better for lower-level Syntax
2nd layer : Better for higher-level Semantics

ELMo의 트릭 Fine-Tuning 단계에서는 양방향 LSTM 레이어가 동일한 단어 시퀀스를 입력받지만, Pre-Training 단계에서는 순방향, 역방향 네트워크를 별개의 모델로 보고 서로 다른 학습 데이터를 입력하게 된다. 즉, 손실 레이어에서는 순방향, 역방향 LSTM 출력 히든 벡터를 더하거나 합치지 않고 각각의 히든 벡터로 각각의 레이블 (순방향, 역방향 단어 시퀀스)를 맞추는 것을 독립적으로 학습한다. -이기창 저. 한국어 임베딩

Performance

NER 뿐만 아니라 다른 Task에서도 모두 SOTA를 기록하였습니다. 이를 통해 ELMo가 모든 Task에서 우수한 성능을 지녔음을 알 수 있습니다.

ULMFit and onward

ULMFit 모델은 NLP에서 본격적으로 Transfer Learning을 도입한 첫 사례입니다.

Transfer Learning이란? 큰 Dataset으로 학습 후 특정 Task에 대한 fine-tuning을 통해 성능을 개선하는 일

1개의 GPU로 학습할 수 있을 정도의 사이즈이며, 언어 모델을 통해 Text Classification을 목적으로 한다는 특징을 지닙니다. ULMFit 모델의 구조는 크게 3단계로 나눌 수 있습니다.

STEP1. 일반 언어 모델 학습 (A)

첫번째 단계는 Transfer Learning에 해당하는 부분입니다. 논문에서 사용된 일반 언어 모델은 LSTM 언어 모델에 다양한 정규화(regularization) 방법을 적용한 AWD-LSTM 모델입니다. 3-layer Bi-LSTM 언어 모델이며, 논문에서는 Wekipedia 영어 버전 전체에 대해 Pre-trained했습니다.

STEP2. 과제 맞춤형 언어 모델 튜닝 (B)

두번째 단계는 Task에 맞추어 일반 언어 모델을 추가 학습하는 부분입니다. 이때, 튜닝 시 사용하는 2가지 기법으로 Discriminative Fine-tuning과 Slanted triangular learning rates가 있습니다.

Discriminative Fine-tuning : 언어 모델 튜닝 시 각 layer별 학습율(learning rate)을 서로 다르게 조정하는 방법입니다. 깊은 layer에 대해서는 상위 layer에 비해 더 작은 학습율을 부여합니다.
Slanted triangular learning rates : 튜닝 횟수에 따라 학습율을 적용하는 방법입니다. 초반에 작은 학습율로 시작해서 점점 학습율을 증가하다가 약 200번의 학습 후 다시 학습율을 점진적으로 감소시킵니다.

STEP3. 과제 분류기 튜닝 (C)

classifier를 학습하기 위해 언어 모델 과제에서 사용된 다음 단어 예측을 위한 레이어(softmax)를 제거하고, 주어진 텍스트가 어떤 클래스에 속할 지 확률을 계산하는 새로운 분류 레이어(softmax)를 추가합니다. 즉, 기존 언어 모델에서 마지막 레이어만 제거하고 나머지는 그대로 둔 후 새로운 분류 레이어 하나만을 추가하여 학습합니다.

Performance

ULMFit을 사용한 경우 에러율이 현저히 낮은 것을 확인할 수 있습니다. 이처럼 ULMFit을 사용하면 더 적은 양의 데이터만으로 자연어 처리를 효과적으로 수행할 수 있음을 알 수 있습니다.

Let's scale it up!

ULMFit 이후 모델의 파라미터를 늘려 pre-trained LM이 많이 등장하였으나, GPU 1개로 학습이 가능했던 ULMFit과 달리 필요한 리소스가 급증하였습니다. 추가적으로 표에 등장한 모델 중 ULMFit을 제외한 모든 모델은 Transformer 기반의 모델입니다.

Transformer architectures

Transformer와 Self-Attention의 경우 CS224n Lecture 14강에서 배우기 때문에 간단하게 언급하겠습니다.

1. The Motivation for Transformer

RNN은 병렬적 계산이 불가능하며 매우 느린 속도를 보입니다. 이러한 한계점을 해결하기 위해 LSTM과 GRU가 등장하였으나 완벽하게 해결할 수 없었습니다. Transformer 기반의 모델은 Attention을 통해 time stamp를 참조할 수 있다면 RNN의 한계점을 극복할 수 있다는 아이디어에서 출발하였습니다.

2. Transformer Overview

Transformer는 RNN을 사용하지 않지만 Attention을 통해 Seq2Seq 모델처럼 encoder에서 token sequence를 입력받아 임베딩을 하고, decoder에서 출력할 token sequence를 예측하는 encoder-decoder 구조를 유지하고 있습니다.

3. Dot-Product Attention

Transformer 구조를 알기 전에 Attention 매커니즘을 살펴보겠습니다. Attention의 Input으로는 Query, Key, Value가 존재합니다. Query, Key, Value를 input으로 갖는 Attention 함수는 다음과 같은 구조로 표현할 수 있습니다. Attention 함수는 주어진 'Query'에 대해서 내적을 통해 모든 'Key'와의 유사도를 각각 구합니다. 그리고 구해낸 이 유사도를 키와 맵핑되어있는 각각의 'Value'에 반영한 다음 모두 더해서 출력합니다. 여기서 이를 Attention Value이라고 합니다. 즉, 유사도가 일종의 가중치 역할을 한다고 볼 수 있으며, 결국 Query와 비슷할 수록 높은 가중치를 주어 출력을 주는 것입니다.

4. Scaled Dot-Product Attention

Transformer 구조에서 이러한 Attention 매커니즘을 Scaled Dot-Product Attention이라고 합니다. 벡터 차원 수가 클수록 Query와 Key의 내적 값의 차이가 증가하고 이는 softmax 값의 증가로 이어져 학습에 악영향을 초래할 수 있습니다. 그러므로, 학습 시 그래디언트를 최적화하기 위해서 모든 Query와 Key에 대해 Dot-Product를 계산 후 벡터 차원 수의 제곱근 $$\sqrt{d_k}$$로 scaling 해주는 방식입니다.

5. Self-Attention

Self-Attention은 입력 데이터 Query가 있을 때, 검색 대상이 되는 Key-Value pair 데이터 테이블이 입력 데이터 Query 자기 자신인 경우를 의미합니다. 즉, 자기 자신의 Query로 Attention Value를 구하는 것으로 Self-Attention을 통해 문장 안에서 단어들 간의 관계를 파악할 수 있게 됩니다.

6. Multi-head attention

Multi-head-attention은 Scaled Dot-Product Attention을 여러 개 만들어 다양한 특징에 대한 어텐션을 볼 수 있게 한 방법입니다. 즉, 입력받은 Query, Key, Value를 헤드 수만큼 나누어 병렬적으로 계산해주는 것이 핵심입니다. 각 Head에서는 Scaled Dot-Product Attention 과정이 발생하며, 그렇게 발생한 Head별 Attention Value는 concat되어 다음 layer로 전달됩니다.

7. Full Architecture

위 그림에서 빨간색 블록은 Encoder, 파란색 블록은 Decoder이며 자세한 내용은 다음과 같습니다. 노란색 블록은 Encoder에서 Self-Attention이 발생하는 부분, 자주색 블록은 Decoder에서 Self-Attention이 발생하는 부분, 초록색 블록은 Encoder와 Decoder에서 Attention이 일어나는 부분입니다.

문장이 Encoder로 들어오면 임베딩을 거친 후 Multi-Head Attention 과정을 거칩니다. Decoder 부분에서도 번역된 문장이 Self-Attention 과정을 거칩니다. 다음으로 Self-Attention을 거친 두 문장은 Multi-Head Attention 과정을 거치게 됩니다.

BERT

BERT는 2018년 11월 구글이 공개한 언어모델로 Transformer에서 encoder만 사용한 모델입니다. BERT 모델의 구조는 크게 2단계로 나눌 수 있습니다. 첫 번째 단계는 대량의 텍스트 데이터에 대한 semi-supervised 과정인 Pre-Training이며, 두 번째 단계는 target task에 대한 supervised 과정인 Fine-Tuning입니다.

첫 번째 단계는 BookCorpus와 영문 위키피디아에 대하여 semi-supervised를 통해 언어의 패턴을 학습하는 과정입니다. 이때, Pre-training을 위한 Objective Function은 2가지입니다.

Masked Language Modeling (MLM) 위 그림과 같이 [MASK]된 부분의 단어를 예측하는 것을 MLM이라 합니다. 전체 단어의 15%를 선택한 후 그 중 80%는 [MASK], 10%는 현재 단어 유지, 10%는 임의의 단어로 대체 합니다.

Next Sentence Prediction (NSP) 위 그림과 같이 첫 번째([CLS]) Token으로 문장 A와 문장 B의 관계를 예측하는 것을 NSP라 합니다. A 다음문장이 B가 맞을 경우는 True, A 다음문장이 B가 아닐 경우 False로 예측하도록 합니다.

기존 양방향 모델의 경우 순방향과 역방향이 독립적으로 사용되어 각각 순방향과 역방향 시퀀스를 가지게 됩니다. 이는 단어를 예측할 때 그때까지 존재한 단어를 기반으로 예측에 사용한다는 의미입니다. 즉, 순방향 모델의 경우 target을 예측하기 위해 앞에 오는 시퀀스(Jamie walks into a)만 보고, 역방향 모델은 뒤에 오는 시퀀스(and orders a cocktail)만 보고 예측하게 됩니다. 결국 순방향과 역방향 모델을 모두 사용하여도 전체 단어를 모두 활용하여 단어를 예측할 수 없음을 의미합니다.

BERT는 MLM을 적용하여 단어 앞뒤 시퀀스를 동시에 보는 완벽한 양방향 모델을 구축하였습니다. 주어진 시퀀스 다음 단어를 맞추는 것에서 벗어나 문장 전체를 모델에 알려주고, MLM 과정을 통해 학습하게 됩니다. 이러한 경우 Mask Token을 제외한 모든 단어를 활용할 수 있게 되면서 순방향과 역방향의 모든 문맥을 한번에 고려할 수 있게 됩니다. 동시에 NSP를 학습하는데, 이는 모델에 두 개의 문장을 입력하여 두 번째로 입력된 문장이 첫 번째 문장 다음에 오는 문장인지 판별하는 과정으로 모델은 문장 간의 관계를 학습하게 됩니다.

두 번째 단계는 첫 번째 단계에서 사전학습을 마친 모델을 Target Task에 대해 Fine-tuning하는 단계로 Pre-trained model 위에 task에 맞는 classifier를 붙여 학습하게 됩니다.

Performance

NLP와 관련된 모든 분야에서 SOTA를 기록한 만큼 매우 우수한 성능을 지녔음을 알 수 있습니다.

참고문헌

https://medium.com/analytics-vidhya/contextual-word-embeddings-part1-20d84787c65 http://dsba.korea.ac.kr/seminar/?mod=document&uid=42 https://mhmdsmdi.github.io/posts/2019/07/elmo/ https://omicro03.medium.com/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-nlp-16%EC%9D%BC%EC%B0%A8-elmo-a22ca5c287c2 https://misconstructed.tistory.com/42 https://brunch.co.kr/@learning/13 http://jalammar.github.io/illustrated-bert/ https://medium.com/@abhisht85/elmo-embedding-3c7bd0df20d2 https://www.kakaobrain.com/blog/118 https://paul-hyun.github.io/bert-01/ 이기창 저. 한국어 임베딩

Lecture 12 – Subword Models

Wed, 26 May 2021 07:40:01 GMT

작성자: 숭실대학교 산업정보시스템공학과 이수민

Linguistics (언어학)

Human language sounds: phonetics and phonology

Phonetics 음성학 사람의 말소리를 연구하는 학문

Phonology 음운론

언어학의 첫 번째 단계
사람은 입으로 무한의 소리를 만들어낼 수 있지만, 언어로 표현될 때는 이 연속적인 소리가 범주형으로 나눠져서 인식됨.
ex) caught and cot

※ 범주적 지각 (Categorical perception) 사전적 의미는 연속체를 따라 변수에 점진적인 변화가 있을 경우의 구별 범주에 대한 지각 현상 광범위한 음향 신호를 제한된 수의 소리 범주로 지각되는 결과를 낳을 때, 즉 우리에게 실제로 들리는 말소리는 소리 주파의 연속적인 변화인데도 우리가 이를 '말소리 범주'로 지각하는 것을 말합니다.

범주 내의 차이 (differences within the categories) 축소
범주 간의 차이 (differences across the categories) 확대

Morphology

Morphology 형태론

최소한의 의미를 가지는 구조

voice started time

의미를 갖지 않고 소리만 나는 "pah"나 "bah", 또는 "a"와 "e" 보다는, 다음 level인 형태소(morpheme)가 의미를 갖는 최소 단위라고 여겨집니다. 그래서 많은 단어들이 복잡한 조각들(parts of words)로 구성되지만 하나하나 의미를 가지고 있게 되는 것입니다.

Unfortunately라는 단어를 쪼개서 살펴보면

"fortune" : 운이 좋은
"un" : 부정/반대의 의미
"ly" : 부사 형태

이렇게 단어 조각들과 작은 단위들이 모두 의미를 갖게 되는 것.

하지만 이런 형태소 단위의 단어들을 딥러닝에 사용하는 경우는 거의 없습니다. 단어를 또 의미 있는 단어(형태소)들로 쪼개는 과정 자체가 어렵고, 굳이 이 방법을 사용하지 않고 character n-grams를 사용하더라도 중요한 의미 요소들을 충분히 잘 잡아낼 수 있고, 결과적으로 좋은 결과를 낼 수 있기 때문.

[논문] On learning the past tenses of English verbs

영어의 과거형(past tense) 형태를 생성해내는 모델
"영어 동사의 과거 형태를 학습할 수 있는 시스템을 만들 수 있을까?"에 대한 일종의 인지심리학(psy-cog) 실험
"-ed"로 끝나는 규칙적인 동사들도 있지만 그만큼 많은 불규칙적인 동사들의 패턴을 학습해야 한다는 것이 어려운 부분
당시(sequence model 초기)에는 단어를 정확하게 표현하기 위해서 character trigrams로 표현
공학적인 문제 해결 방법으로서는 좋은 평가를 받았지만 언어학자들과 철학자들을 비롯한 많은 사람들 사이에서는 논쟁거리

Words in writing systems

Writing system 사람의 언어 표기 체계 (writing system) 는 나라마다 다르고, 하나로 통일되어 있지 않다.

1) No word segmentation: 단어에 대한 segmentation, 즉 띄어쓰기 없이 붙여 쓰는 경우가 있다는 것

중국어: 美国关岛国际机场及其办公室均接获 프랑스어: Je vous ai apporté des bonbons 아랍어: فقالناھا

2) Compound Nouns

영어 합성어를 사용할 때 각 명사 사이에 공백을 두기 때문에 white board, high school같이, 띄어쓰기가 되어 있음에도 불구하고 하나의 명사로 인식됩니다.
독일어 합성어가 띄어쓰기 없이 한 단어로 표현되기 때문에 만약 여기서 띄어쓰기를 하게 되면 다른 단어로 인식됩니다. ex) Lebensversicherungsgesellschaftsangestellter = life insurance company employee

Word-Level Models(단어 기반 모델)

word-level models를 만들게 되면 커버해야할 단어가 너무 많기 때문에 무한한 단어 공간이 필요하고 비효율적입니다.

Rich morphology
(체코어) nejneobhospodařovávatelnějšímu = (영어) to the worst farmable one”)*
Transliteration (음역)
Christopher -> Kryštof*
Informal spelling: 신조어/축약어

Character-Level Models (문자 기반 모델)

character-level model (문자 기반 모델)은 단어가 가지고 있는 의미 정보를 포기하는 대신 두 가지 이점을 제공합니다.

1) 단어 임베딩은 문자 임베딩으로부터 구성할 수 있다. 즉, 어떤 문자 시퀀스에 대해서도 단어 표현 생성이 가능해집니다.

OOV 문제 해결 OOV problem: NLP에서 빈번히 발생하는 데이터 문제로 input language가 database 혹은 input of embedding에 없어서 처리를 못 하는 문제

2) sequence of characters 기반으로만 언어를 처리하기 때문에 합성어와 같은 connected language에 대해서도 분석이 가능합니다.

Purely Character-Level NMT Models

Machine Translation 초기에 character 기반으로 구축한 기계번역 시스템은, word 기반 모델 뿐만 아니라 neural network 등장 이전보다도 못한 성능을 보였지만, 발전된 연구가 이루어지기 시작하면서 점차 성공적인 문자 기반 디코더를 만들 수 있게 되었습니다.

English-Czech WMT 2015 Stanford NLP group

영어를 체코어로 번역하는 연구에서 우수한 결과 도출
실제로 영어를 체코어로 번역하는 연구가 진행되었지만, 제대로 된 훈련에 어려움을 겪으며 학습 시간이 3주가 소요되었습니다. 결과적으로 unknown words 번역에 효과적이었지만 성능이 word-level model에 비해 크게 향상되지 않았습니다 (word-level model BLEU 15.7 -> character-level model BLEU 15.9).

이후 연구 (2017) Fully Character-Level Neural Machine Translation without Explicit Segmentation 논문 앞선 모델보다 더 나은 성능을 보이는 character-level model이 등장했습니다. 이 모델에서는 character 단위의 input을 받아 convolution layer를 거쳐 max pooling과 single layer GRU를 거치는 구조를 가집니다. 구조 자체는 더 복잡하지만, 앞선 모델보다 나은 성능을 보였습니다.

Encoder: 단어에서 시작하는 게 아닌 문장 전체에서 바로 character-level 임베딩을 진행하는 방식으로, 필터 사이즈를 다르게 해서 convolution 연산을 진행하게 됩니다. Max pooling을 stride 5로 주고 진행하게 되고, 각각의 컨볼루션에 대해서 max-pulled representation을 얻게 됩니다. 해당하는 각각의 임베딩에 대해서 highway network를 통과하고, bidirectional GRU를 통해 source representation을 얻을 수 있게 됩니다.

Decoder: 일반적인 character level sequence model 결과적으로 앞선 모델보다 BLEU score가 더 높은 것을 확인할 수 있습니다.

highway network 깊이가 증가할수록 최적화가 어려워지기 때문에 모델을 깊게 만들면서도 정보의 흐름을 통제하고 학습 가능성을 극대화할 수 있도록 해주는 역할

이후 연구 (2018) Stronger character results with depth in LSTM seq2seq model 논문 Bi-LSTM Sequence-to-sequence 모델을 적용한 결과

영어 → 프랑스어 번역: layer를 깊에 쌓을수록 word-level 모델의 성능을 character-level model이 능가
체코어 → 영어 번역: 마찬가지로 가장 깊게 layer를 쌓은 경우에는 character-level model이 BPE의 성능을 능가. character-level model을 깊게 쌓을수록 성능이 급격하게 증가.
언어의 특성에 따라 모델 type 별 성능과 효과가 다르다는 것을 알 수 있습니다. 관련 연구가 계속해서 발전해왔지만, 2015년부터 겪었던 문제점은 여전히 남아있습니다. Word-level model은 속도가 빠르기 때문에 짧은 시간 내에 번역 태스크를 해낼 수 있는 반면, characeter-level model은 word pieces를 이용하기 때문에 연산량이 word-level model보다 시간과 비용이 훨씬 많이 들게 됩니다.

Subword Models

두 가지 방법

Same architecture as for word-level model: word-level model과 동일한 구조, 하지만 word가 아닌 word-pieces
Hybrid architectures: main model은 word로 나타나지만 unknown word를 다른 표현 방법으로 나타내는 방법 (characters는 다르게 표현됨)

Byte Pair Encoding (BPE)

딥러닝과는 거리가 먼 간단한 아이디어임에도 성공적인 방법론

compression algorithm

Data compression 관련 연구 선행 [논문] A New Algorithm for Data Compression:
looking for the most frequent sequence of two bytes

해당 아이디어를 기반으로 BPE 알고리즘 등장 [논문] Neural Machine Translation of Rare Words with Subword Units

bytes가 아닌 character ngrams를 사용. 즉, 가장 빈번하게 발생되는 pair를 byte가 아닌 character 단위로
데이터에 대해서 다 적용할 수 있고, multi-lingual

작동 방식

A word segmentation algorithm: 짧은 시퀀스의 bottom-up clustering
unigram 어휘에서 시작
"what's the most frequent ngram? "* -> bigram pair -> add it to our "Vocabulary" (a new ngram)

결과적으로 이 vocabulary 안에는 모든 single letter들과, 'ES'와 'EST'같은 문자 시퀀스, 그리고 'THAT','TO'와 'WITH'와 같은 평범한 단어들도 우리의 vocabulary에 들어오게 됩니다.

Wordpiece/Sentencepiece model

Google's neural machine translation (GNMT)

BPE의 variants: wordpiece model과 sentencepiece model
앞선 알고리즘은 frequency를 순수하게 등장 횟수로 따졌다면, 여기서는 clumping (군집화)를 통해 perpelexity 감소

1) wordpiece model

pre-segmentation을 통해서 단어의 출현 빈도수를 기반으로 단어를 추가해준 뒤 BPE를 적용하는 기법. Transformer, ELMo, BERT, GPT-2가 모두 word piece model에 해당됩니다.

BERT

WordPiece Tokenizer 사용
자주 등장하는 단어는 그대로 단어 집합에 추가
unknown word 등장 시 다음과 같이 word pieces로 분할

BERT에서는 non-initial word pieces가 ##로 표현되면서 hypatia = h ##yp #ati #a 로 분리해서 hypatia라는 단어를 표현합니다.

2) sentencepiece model

Google (2018) [논문] Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates github 코드 단어로 구분이 어려운 언어가 있기 때문에 (ex. 중국어), 이 모델의 경우에는 raw text에서 바로 character-level로 나눠집니다. 공백에 대해서 token을 따로 지정해줘서 (_) BPE와 유사한 방식을 수행하게 됩니다. 다만 완전히 같은 방식으로 진행되지는 않고 BPE 방식이 변형되어 진행됩니다.

BPE: frequency 기반으로 가장 빈번하게 등장하는 것 추가
sentence piece model: bigram 각각에 대해서 co-occurence 확률을 계산 후 가장 높은 값을 가지는 것 추가

Hybrid Models

Character-level Representations

[논문] Learning Character-level Representations for Part-of-Speech Tagging

Character-based LSTM

Bi-LSTM builds word representations Purely character-level NMT models 2015년도에 순수하게 character 단위로 NMT task를 진행한 모델을 살펴보겠습니다. 논문

Bi-LSTM을 통해 word embedding
final state를 concat해서 임베딩된 단어의 벡터로 사용
임베딩된 단어 벡터들을 그 윗 단계의 LSTM에 최종적인 task를 진행하게 되고,
language model과 pos tagging을 사용

Character-Aware Neural Language Models [논문]

Can we build a good language model by starting out from characters? 가장 먼저 input 단어에 대해서 character embedding을 진행합니다. 이후 filter size 여러 개를 사용해서 convolution을 진행하고 각각에 대해 max pooling을 진행해서 feature를 뽑습니다. 즉, 어떤 ngram들이 단어의 뜻을 가장 잘 나타내는지 고르는 과정이며, 이 과정이 끝나면 output representation을 얻게 됩니다. Output representation은 highway network를 거치게 되고, 최종적으로 임베딩 벡터 값이 나오면 word-level LSTM network를 통해 예측 task를 수행하게 됩니다. 결과적으로 앞서 살펴본 모델들보다도 perplexity를 최소화하면서 비슷한 성능을 낼 수 있게 됩니다.

Quantitative Results Highway network를 통과하기 전에 character-level로 진행한 모델에서는 character 단위로 진행하다보니까 낸 결과들이 의미가 아닌 철자가 유사한 단어들

Highway network를 통과한 후에는 사람 이름들을 결과값으로 내는 것을 볼 수 있습니다. 즉, semantic을 반영해서 조금 더 의미있는 단어들을 학습하게 되는 것입니다.

Hybrid NMT [논문]

대부분의 경우 word level model을 사용하고, 필요 시에 character level model을 사용합니다.

16,000개의 vocabulary size를 이용
기본적으로 seq2seq으로 word-level model 진행
unknown word -> character-level model
4개의 layer를 사용

2-stage Decoding

일반적으로 NMT의 decoder는 beam search 사용
이 모델에서는 보다 복잡한 버전의 beam search인 word-level beam search와 character-level beam search 사용

즉, Hybrid NMT의 경우에는 모델의 기본 구조에 따라 decoder에서도 기본적으로 word level beam search를 사용하고 unknown word에 대해서만 character-level beam search를 사용하게 되는 것입니다.

위 결과를 보면, word-level model 사용 시 unknown word를 copy 기법으로 처리했을 때, 이름은 문제없이 옮기지만 나이 같은 경우 번역이 안 된 상태로 들어가서 제대로 번역이 되지 않은 문장이 만들어진다는 것을 알 수 있습니다.

반면 hybrid에서는 나이는 정확하게 번역을 하지만 이름 번역 과정에서 오류가 생기는 걸 볼 수 있습니다.

Chars for word embeddings

논문 A Joint Model for Word Embedding and Word Morphology

문자 시퀀스(character sequence)에서 시작
Bidirectional LSTM을 통해 복잡한 모델을 효과적으로 훈련
character embedding과 LSTM parameter를 학습하여 word representation을 제공

FastText Embeddings

논문 Enriching Word Vectors with Subword Information

a next generation efficient word2vec-like word representation library
형태소가 풍부한 언어나 희귀한 단어들을 다룰 때 더 좋은 성능을 보이는 모델
word2vec skip-gram 모델의 확장: character n-grams 사용

Reference

https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture12-subwords.pdf https://wikidocs.net/22592 https://velog.io/@tobigs-text1314/CS224n-Lecture-12-Subwords https://youtu.be/64FxDORoHm0

Lecture 11 – Convolutional Networks for NLP

Wed, 19 May 2021 09:54:33 GMT

작성자: 세종대학교 데이터사이언스학과 이정은

ConvNets for NLP

이번 강의에서는 CNN을 사용한 Text Classification에 대해 설명합니다.

1. Why CNN?

RNN의 단점

기존 RNN은 prefix context없이 phrase를 잡아낼 수 없고, 마지막 단어 벡터의 영향을 많이 받는 문제를 가지고 있었습니다.

CNN for text

CNN을 텍스트 처리에 사용하고자 한 메인 아이디어는 "문장 내 가능한 모든 단어 subsequence의 representation을 계산하면 어떨까?"였습니다. 이 방법은 해당 구문이 문법적으로 옳은지 판단할 수 없고, linguistically하지 않은 것 같다는 단점이 있습니다.

2. 1D Convolution for text

일반적으로 CNN은 이미지 처리에서 주로 쓰이며 2D convolution을 사용하지만, 텍스트 처리에서는 filter가 위아래 한 방향으로만 이동하는 1D Convolution을 사용합니다.

1D Convolution 연산

Input은 문장 내 각 단어를 나타내는 dense word vector입니다. (one-hot vector도 가능합니다.) Input의 크기는 단어 개수 x word vector의 차원, Filter의 크기는 한번에 보고자 하는 단어의 개수 x word vector의 차원입니다.

Filter

Filter는 polite/non-polite, about food/non about food 등의 특징을 나타냅니다. 한 개의 Filter가 위에서 아래로 이동하며 내적을 진행하면 output은 single vector인 5x1이 됩니다. 3개의 filter를 사용하면 output의 크기는 5x3으로 filter의 개수만큼 늘어납니다. 이때, 문장 내 단어의 개수는 7개에서 5개로 줄어들어 문장이 shrunk됩니다. 이를 해결하기 위해 padding을 사용합니다.

Padding

padding=1을 적용하면, input과 동일한 길이의 output을 얻을 수 있습니다.

Pooling

Pooling은 특징들을 요약하는 역할을 합니다. Pooling에는 최대값을 가져오는 Max pooling과 평균값을 사용하는 Average pooling이 있습니다. 더 많이 사용되는 것은 max pooling인데, 그 이유는 자연어 처리에서 특징이 나타나는 경우는 매우 sparse하기 때문입니다. 예를 들어, polite라는 특징은 접속사, 관사 등에서는 나타날 수 없고, 그 외의 특정 단어에서 polite함이 드러날 것 입니다. 이때 이 특징을 max pooling이 더 잘 포착할 수 있다고 합니다.

Stride, Local Max Pooling / K-Max Pooling

Stride는 filter가 한번에 이동하는 거리를 나타냅니다. Stride=2와 Stride=2 & local max pooling은 둘 다 representation을 압축하여 생성하지만, 다른 결과값을 가집니다. 실제 텍스트 처리에서는 많이 사용되지 않습니다. K-Max Pooling은 각 열에서 max값 k개를 선정하는 방법으로, 해당 값은 정렬 시키지 않고 위 열의 동일하게 가져옵니다.

Dilation

Dilation rate는 filter 사이의 간격을 의미합니다. 즉, dilation=2인 3x3 filter는 dilation만큼 건너 뛰어 연산을 진행합니다. NLP에서의 dilated convolution은 적은 parameter로 더 넓은 범위를 볼 수 있게 합니다.

이미지 처리에서의 Dilation https://zzsza.github.io/data/2018/02/23/introduction-convolution/

문장 자체의 의미를 중점적으로 이해하고 싶다면, filter의 크기를 증가시키거나 dilated convolution을 사용하여 한번에 보는 범위를 늘릴 수 있습니다. 혹은 CNN의 depth를 증가시키면 됩니다.

3. Single Layer CNN for Sentence Classification

"Yoon Kim(2014): Convolutional Neural Networks for Sentence Classification. EMNLP 2014."

해당 논문의 목적은 Sentence classification입니다.

Model Architecture

Convolution 연산은 word vectors을 concatenate하여 진행합니다. 한 채널에 대한 연산 결과는 c_i로 나타낼 수 있고, feature map c는 n개의 단어와 window size=h일 때 n-h+1 차원을 가지게 됩니다. feature map c를 max pooling하여 각 channel마다 하나의 값을 얻습니다. max pooling을 하면 filter weight와 window size, 문장 길이의 변화에 강해집니다. Max pooling 이후 나온 feature vector에 softmax를 취하여 클래스 분류를 진행합니다.

Experiments

실제 모델에서는 filter size=2,3,4인 filter를 feature map으로 각 100개씩 사용하였습니다. pre-trained word vector를 사용하여 초기화하고, fine-tuning과 frozen을 모두 사용했습니다. 그리고 Dropout과 각 클래스의 softmax weight를 L2 normalize했습니다. 해당 모델은 간단한 single layer CNN으로 유의미한 분류 결과를 낸 것에 의의가 있습니다.

4. Toolkits

Gates units used vertically

Residual Block과 Highway Block 모두 Shorcut connection의 개념으로 convolution layer를 지나 나온 결과에 x에 대한 정보를 더해줍니다. Highway Block에서의 T(x)는 Transform gate, C(x)는 Carry gate를 의미하는데, 이는 output이 input에 대하여 얼마나 변환되고 옮겨졌는지를 표현합니다.

Batch Normalization

Batch Normalization은 CNN에서 주로 사용며, 배치별로 평균=0, 분산=1로 정규화시키는 작업입니다. 이를 수행하면 Convolution block이 항상 같은 scale을 가지기 때문에 안정적인 학습이 가능해집니다. 또한, parameter initialization에 덜 예민해지고 learning rate tuning이 한결 쉬워집니다.

Batch Nomralization / Layer Normalization https://yonghyuc.wordpress.com/2020/03/04/batch-norm-vs-layer-norm/

1 Convolution

1x1 크기의 filter로, 적은 parameter 개수로 channel의 수를 줄일 수 있습니다.

CNN Translation

seq2seq 이전에 나온 translation 모델로, encode로 CNN & decoder로 RNN을 사용한 모델입니다.

5. Deep CNN for Text Classification

"Conneau, Schwenk, Lecun, Barrault(2017): Very Deep Convolutional Networks for Text Classification. EACL 2017." 해당 논문에서는 text classification을 위한 deep한 CNN 모델을 제안합니다.

VD-CNN architecture

VD-CNN의 모델 구조는 다음과 같습니다. VGGnet, ResNet과 비슷한 구조를 가집니다.

Experiments

실험에는 large text classification dataset들을 사용하였고, layer가 깊을수록 error값이 낮은 것을 확인할 수 있습니다. 해당 표에는 기재되어 있지 않지만 depth=47이 depth=29보다 낮은 성능을 보였다고 합니다. 즉, NLP 분야는 depth=34가 minimum인 이미지 분야처럼 deep한 모델을 사용하기는 어렵다는 것을 의미합니다.

6. Quasi-Recurrent Nueral Network

RNN은 parallelize가 어려워 느리다는 단점을 가집니다. 이를 개선하기 위해 parallelize가 쉬운 CNN과 결합한 모델이 Quasi-Recurrent Neural Network입니다. 두 모델의 장점만을 가져와 Convolution과 Pooling을 통해 sequencial data를 parell로 처리합니다. 해당 모델은Sentiment classification을 진행했을 때, LSTM과 비슷한 성능을 내지만 3배 빠른 속도를 보였다고 합니다.

Reference

https://www.youtube.com/watch?v=EAJoRA0KX7I&list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z&index=12 https://zzsza.github.io/data/2018/02/23/introduction-convolution/ https://velog.io/@tobigs-text1314/CS224n-Lecture-11-ConvNets-for-NLP https://arxiv.org/pdf/1408.5882.pdf https://ratsgo.github.io/deep%20learning/2017/10/09/CNNs/ https://yonghyuc.wordpress.com/2020/03/04/batch-norm-vs-layer-norm/ https://arxiv.org/pdf/1606.01781.pdf https://arxiv.org/pdf/1611.01576.pdf

Lecture 10 – Question Answering

Wed, 19 May 2021 09:28:16 GMT

작성자 : 성신여자대학교 통계학과 정세영

우리가 매일같이 사용하는 Question Answering 예시: 구글링

Motivation

과거에는 수많은 웹문서 중에 관련 있는 문서 리스트를 반환해주는 정도였음 내 question에 더 구체화된 answer를 반환해줬으면 좋겠다 : Question Answering!

Question Answering의 기본적인 두 단계

Finding documents that contain an answer : 기존의 검색 기반 시스템으로 굉장히 큰 데이터에 확장 가능 Finding an answer in the documents (Reading Comprehension) : 위 검색 기반으로 좁혀진 document candidates에서 정답 search

Reading Comprehension의 역사

Machine Comprehension (Burge 2013) : MCTest corpus를 가지고 "답은 지문에 있어. 찾아봐" 하는 task (진전은 없었음) 이후 매우 크게 구축한 train corpus와 신경망 구조를 통해 성능이 향상됨. 특히 SQuAD dataset이 굉장히 정교하게 구축되어 크게 기여하였고 지금까지 널리 사용되고 있음.

※ 과거 QA 모델은 주로 NER 기반으로 접근, 수작업이 굉장히 많이 들어가고 복잡함

SQuAD (Stanford Question Answering Dataset)

"답은 지문에 있어. 찾아봐"

(v1.1)

3 gold answers : answer의 변형에도 모델을 견고히 하기 위해 세 사람에게 답변을 얻음
평가 지표
- Exact match : 3개 중에 하나로 나왔으면 1, 아니면 0으로 binary accuracy
- F1 : 단어 단위로 구한 F1-score 3개 중에 max one을 per-question F1-score로 두고 전체 macro average
- punctuation과 a, an, the는 무시

(v2.0)

v1.1에서는 모든 question에 항상 answer가 존재하다보니 passage 안에서 문맥을 이해하지 않고 단순히 ranking task로 작동하는 문제점을 발견
v2.0에서는 dev/test 데이터 절반은 passage에 answer가 포함되어 있고 절반은 포함되어있지 않음
평가 시 no answer를 no answer라고 해야 맞게 예측한 것
threshold를 두고 그 이하일 때는 예측한 answer를 뱉지 않음 (no answer)
leaderboard를 보면 v1.1때보다 평가수치는 떨어졌지만 v1.1보다 더 정교하게 맥락을 파악하고 있다는 결과

https://arxiv.org/pdf/1806.03822.pdf https://dos-tacos.github.io/paper%20review/SQUAD-2.0/ 온라인의 crowd worker들이 unanswerable question 직접 생성(즉, 기계적으로 생성된 것이 아니라 진짜 인간이 생성했으므로 질이 더 높음) SQuAD 1.1에 자동 생성된 응답 불가능 질문들을 병합해 테스트한 결과 SQuAD 2.0의 dev셋보다 약 20% 가량 성능이 높아져, 상대적으로 SQuAD 2.0의 task가 더 어려운 것임을 확인

SQuAD의 한계

only span-based answers
현실의 본문-질문 (실제 마주하게 될 데이터)보다 쉽게 답변을 찾을 수 있는 구조 (우리가 현실에서 생각하는 질문과 구글링할 때 검색하는 질의문이 다른 것처럼)
하지만 그럼에도 지금까지 QA 모델에 가장 많이 사용된 well-structured, clean dataset

KorQuAD (2.0)

한국어 위키백과로 데이터 구축 https://www.slideshare.net/LGCNSairesearch/korquad-v20?ref=https://www.slideshare.net/LGCNSairesearch/slideshelf

Stanford Attentive Reader

simplest neural question answering system
Bi-LSTM 구조를 사용하여 각 방향의 최종 hidden state 둘을 concat하여 question vector로 사용
passage의 각 단어 vector들도 똑같이 Bi-LSTM을 사용하여 각 단어 시점의 두 방향 hidden state를 concat하여 passage word vector로 사용
question vector를 모든 시점의 passage word vector와 attention을 구해서 passage에서 어디가 answer의 시작이고 끝인지를 학습하는 방식 (start token attention과 end token attention의 식이 학습시키는 가중치행렬만 다르고 구조가 똑같은 걸 볼 수 있는데, 이는 일반적으로 RNN에서 식의 구조는 똑같지만 forget gate나 input gate가 서로 다른 역할을 하는 것과 같은 이치라고 이해하면 된다.)

Stanford Attentive Reader++

$$L = -\sum logP^{(start)}(a_{start}) -\sum logP^{(end)}(a_{end})$$

아까는 최종 hidden state만 가져왔던 걸 지금은 question의 모든 단어 시점 hidden state의 attention을 구해서 그 가중합을 question vector로 사용
3 layer Bi-LSTM 사용
passage word vector는 [기존 embedding vector + POS & NER tag one-hot encoding + frequency + question에 등장 여부, 단어간의 유사도] concat

BiDAF (Bi-Directional Attention Flow for Machine Comprehension)

Query(question)과 Context(passage) 사이에 attention flow layer가 bi-directional(양방향)으로 동작하는 게 핵심 각각의 question word와 passage word 서로 간의 유사도 기반
### $$S_{ij} = w^T_{sim}[c_i;q_j;c_i○q_j]$$ #### : context word(i)와 query word(j)의 유사도 matrix

Context-to-Question attention : context word에 가장 관련있는 question word는? $$\alpha^i = softmax(S_{i,:})$$ $$a_i = \sum_{j=1}^Ma^i_jq_j$$

Question-to-Context attention : question word에 가장 관련 있는 context word는? $$m_i = max_jS_{ij}$$ $$\beta = softmax(m)$$ $$c' = \sum_{i=1}^N\beta_ic_i$$ 유사도가 큰 context word만 살아남게 되므로 question 입장에서 관련있는 context word 정보만 모은 것

output of this layer

: $$b_i = [c_i;a_i;c_i○a_i;c_i○c']$$

Reference

Lecture 8 – Translation, Seq2Seq, Attention

Wed, 12 May 2021 09:29:24 GMT

작성자 : 성균관대학교 소비자학과 김재희

Pre-Neural Machine Translation

기계번역(Machine Translation): 특정 언어의 문장을 다른 언어의 문장으로 번역하는 태스크.

1. Rule Based(1950s)

최초의 시도는 1950년대 초반 러시아어를 영어로 번역하여 냉전에서 우위를 점하려던 영국에서 시작되었습니다. 이때의 시스템은 원시적으로 구성되었습니다. 단순한 규칙 기반 방법론으로, 러시아어-영어 사전을 구축하고, 이를 이용해 러시아어에 매칭되는 영어 단어를 찾는 방식이었습니다. 이후에도 문법을 중심으로 번역하는 규칙 기반 방법론이 개발되었지만, 어마무시한 비용이 투입되어야 했습니다.

2. Statistical Machine Translation(1990s ~ 2010s)

딥러닝이 발전하기 전의 기계번역은 주로 통계기반 기계 번역이 주를 이루었습니다. 프랑스어 -> 영어 번역을 예시로 들어봅시다. 우리가 모델을 통해 달성하고자 하는 것을 영어 문장(y), 프랑스어 문장(x)를 이용해 식으로 표현해보면 다음과 같습니다.

$argmax_yP(y \mid x)$

즉, 프랑스어 문장이 주어지면, 이에 가장 적절하고 그럴듯한 영어 문장 y를 찾는 것입니다. 그리고 위의 식을 베이지안 룰을 이용해 풀어보면 다음과 같이 바뀌게 됩니다.

$argmax_yP(x \mid y)P(y)$

위 식은 두 항으로 이루어져 있습니다.

$P(x \mid y)$(Translation Model): 이 항은 영어 문장이 주어졌을 때, 프랑스어 문장의 확률분포를 생성하는 번역 모델을 이루는 항입니다. 이때, y는 기존의 영어 문장에 비해 짧은 단위로 구나 절, 혹은 단어로 되어 있습니다. 번역 모델은 동일한 뜻의 영어와 프랑스어 문장이 짝을 이루고 있는 병렬 말뭉치(pharallel data)를 통해 학습시킬 수 있습니다.
$P(y)$(Language Model): 이 부분은 우리가 이전의 강의들에서 배웠던 Langage Model을 통해 표현되는 항입니다. 즉, 현재 y의 문장이 얼마나 영어 문장으로서 자연스러운지 확률분포를 통해 표현하게 됩니다. Language Model은 이전에도 배웠듯이, 단일 언어 데이터로 학습시킬 수 있습니다.

우리가 이전에 Language Model을 배웠으니 $P(y)$ 항은 어떻게 학습시킬 수 있는지 알고 있습니다. 그런데 어떻게 $P(x \mid y)$ 항을 학습시킬 수 있을까요?

2-1. Learning for SMT

번역 모델을 학습시키기 위해선 병렬 데이터가 필요하다고 했습니다. 병렬 말뭉치는 사람이 직접 작성한 동일 내용에 대한 두 언어의 문장 대 문장 혹은 문단 대 문단의 데이터입니다.

그리고 이를 이용할 때, 한가지 개념이 더 추가됩니다. "정렬"입니다. 정렬은 단어 단위의 두 언어 간의 동치 관계를 의미합니다. 정렬을 식에 삽입하면, 다음과 같습니다.

$P(x, a \mid y)$: y 문장이 주어졌을 때, x가 a의 정렬로 되어 있을 확률을 의미합니다.

2-1-1. Alignment

프랑스어 -> 영어 예시로 돌아오자면, 영어 문장과 프랑스어 단어는 위와 같이 거의 1대 1 대응 관계를 보이고 있습니다. 그래서 오른쪽 표에서 한칸씩 아래로 내려가며 정렬된 것을 알 수 있습니다. 여기서 프랑스어 Le는 영어에 대응되는 단어가 없습니다. 이를 가짜(spurious) 단어라고 합니다.

하지만 모든 번역이 이렇게 1대 1 대응관계를 통해 이루어지지 않습니다.

Many to One

위에서 여러 영어 단어가 하나의 프랑스어 단어에 대응되는 모습을 보이고 있습니다. 이러한 경우를 many-to-one이라고 합니다.

One to Many

반대로 하나의 프랑스어가 여러 영단어의 뜻을 내포하고 있을 때도 있습니다. entarte라는 단어는 "파이로 어떤 사람을 때리다"라는 뜻이라고 합니다. 하지만 이를 뜻하는 영어 단어는 없고, "hit with a pie"라는 구로 대체되어야 합니다. 이럴 때, one에 해당하는 단어를 번역 시 여러 단어로 나눠진다는 의미에서 fertile word라고 합니다.

Many-to-Many

영어의 여러 단어가 프랑스어의 여러 단어와 대응되는 경우도 있습니다.

이처럼 번역은 단순히 단어끼리의 매칭으로 해결할 수 없습니다. 단어의 위치와 다른 단어와의 관계도 살펴야 합니다. 조금 상상해봐도 쉽게 모델이 학습할 수 있지 않아 보입니다. 어떻게 이러한 정렬 관계를 학습시키는 걸까요?

다시 식으로 돌아오면 우리가 프랑스어에서 영어로 번역할 때, 영어의 어떠한 단어들이 등장해야 그럴듯한 번역문이 될지 계산하는 것이 위의 식입니다.

가장 단순한 방법은, 모든 경우의 수를 모두 계산하는 것입니다. 100만개의 영어 단어가 있다면, 매 시점마다 100만개의 단어가 나타날 조합을 계산합니다. 하지만 이렇게 된다면 정말정말 계산량이 많아지고 비효율적일 수 밖에 없습니다.

다른 방법으론 휴리스틱 알고리즘을 사용하는 것이 있습니다. 시점마다 확률이 너무 낮은 단어들은 제외하고 경우의 수를 계산하게 됩니다. 그리고 이를 decoding이라고 합니다.

decoding은 나중에 좀 더 자세히 설명하기로 하고, 단순하게 설명하자면 다음과 같습니다. 독일어 -> 영어 번역 태스크에서 위와 같이 번역되어야 할때,

각 독일어 단어는 위와 같은 영어 단어로 번역될 수 있습니다. 가장 오른쪽의 hause는 house, home, chamber, at home으로 번역 될 수 있습니다. 이 중에, 가장 확률이 높은 house를 선택합니다. 그렇다면, 이제 house 외에 home, chamber, at home으로 번역될 가능성은 계산하지 않습니다. 트리구조로 생각하면, house 외의 노드를 prunning하는 것으로 볼 수 있습니다. 그리고 nach와 house의 뜻으로 사용될 경우의 hause를 고려하면 home이 가장 확률이 높으므로 나머지 영어 단어 후보들은 계산에서 제외합니다.

이 방식을 반복하여 사용하게 됩니다.

2-1-2. Summary

통계기반 기계 번역을 요약하면 다음과 같습니다.

2010년대까지 기계 번역에서 주류를 이루던 연구 분야였습니다.
가장 좋은 성능을 보였지만 너무 복잡한 구조를 가지고 있었습니다.
수많은 요소들이 사용되었습니다.
사람이 직접 feature engineering을 하여 자원이 많이 투입될 수 밖에 없었습니다.
유지 보수에 있어서도 각각의 언어 짝(영어-프랑스어, 영어-독일어, 한국어-영어)마다 다르게 적용되기 때문에 많은 자원이 투입될 수 밖에 없었습니다.

Nerual Machine Translation

신경망 기계 번역이 2014년 등장하게 됩니다. 이는 하나의 신경망 네트워크를 이용해 번역 작업을 수행해보려는 시도였습니다. 이때 사용했던 모델은 seq2seq으로 불립니다. seq2seq은 입력된 시퀀스와 다른 도메인의 시퀀스를 출력하는 태스크에 사용되는 모델입니다. 자연어 처리에선 문장을 입력받아 다른 문장을 생성하는 태스크라고 볼 수 있을 것 같습니다.

당시 사용된 모델 구조는 인코더 단의 rnn 하나, 디코더 단의 rnn 하나로 아주 단순한 모델이었습니다.

1. Model Architecture

모델 구조는 다음과 같습니다. 프랑스어 -> 영어 번역을 예시로 하겠습니다.

1-1. Encoder

왼쪽의 인코더 단에는 번역에 사용될 프랑스어 문장이 입력됩니다. 이때, 각 단어의 임베딩 벡터가 각 시점마다 입력값으로 사용되게 됩니다. 이는 bidrectional rnn, LSTM, GRU등 rnn류의 모델이면 무엇이든 사용할 수 있습니다. 마지막 시점의 hidden state는 프랑스어 문장의 정보를 담고 있는 벡터가 되어 디코더 단의 hidden state로 정보를 전달하게 됩니다.

1-2. Decoder

오른쪽의 디코더 단의 첫번째 입력값은 문장의 시작을 의미하는 start 토큰입니다. 인코더의 마지막 hidden state에서 넘어온 프랑스어 정보와 문장의 시작을 의미하는 입력값을 받아 디코더는 첫번째 번역 단어인 he를 내놓게 됩니다. 그리고 번역 태스크는 문장 생성 태스크이므로, 다음에 올 단어를 예측하기 위해, 첫번째 시점의 예측값인 he가 두번째 시점의 입력값으로 사용되게 됩니다. 이런 식으로 이전 시점의 예측값이 현재 시점의 입력값으로 반복하여 사용되게 됩니다. 만약 디코더가 문장의 마지막을 의미하는 end 토큰을 출력한다면, 예측은 끝나게 됩니다.

이를 식으로 표현하면 위와 같이 표현할 수 있습니다. 번역하고자 하는 문장이 인코딩된 벡터 x가 주어졌을 때 우리가 생성하고자 하는 y y의 확률분포는 x와 이전 시점까지 생성된 $y_1, ..., y_{t-1}$가 주어졌을 때 해당 시점의 토큰 $y_t$ 확률의 곱입니다. 이는 디코더가 인코딩이라는 조건을 가지고 있는 언어 모델임을 의미합니다. 즉, 디코더는 인코딩을 조건으로 가지는 조건부 언어모델입니다.

위의 내용은 예측 과정을 보여주고 있습니다. NMT의 훈련 과정은 예측과 다른 과정으로 진행됩니다. 이는 나중에 보여드리도록 하겠습니다.

Application seq2seq은 단순히 기계 번역 태스크에만 사용되지 않습니다. 다음 태스크를 포함하여 매우 다양한 분야에서 사용되고 있습니다.

요약 : 긴 텍스트를 입력받아 내용은 유지하되 길이가 짧은 텍스트를 생성하는 태스크입니다.
대화 : 맥락을 파악하여 입력받은 말과 자연스레 이어지는 말을 생성하는 태스크입니다.
파싱 : 이전에 배웠던 파싱입니다. 파싱을 하나의 시퀀스로 보고 생성하게 됩니다.
코드 생성 : 우리가 자연어로 원하는 과정을 입력하면, 자동으로 코드를 만들어주는 태스크입니다.

1-3. Conditional Language Model

위에서 디코더는 인코더를 조건으로 가지는 조건부 언어 모델이라고 했습니다. 이를 좀더 생각해보면 다음과 같습니다.

디코더는 이전에 생성한 단어를 기반으로 다음에 나타날 단어 분포를 생성하는 언어 모델입니다.
디코더는 시작 언어의 인코딩을 조건으로 단어를 생성하는 조건부 모델입니다.

2. Training a NMT system

위에서 본 예시는 NMT의 예측 과정이라고 했습니다. 그렇다면 어떻게 학습을 시킬까요?

2-1. Forward Propagation

모델 훈련의 순전파 시 예측과 다른 점은, 디코더에도 고정된 입력값이 있다는 것입니다. 예측에서는 직전 시점의 예측 단어가 현재 시점의 입력값으로 사용되었습니다. 하지만, 훈련 과정에선 정확하게 각 시점의 단어를 알고 있어야 학습이 가능해집니다. 랜덤한 초기 파라미터에서 제대로 된 단어를 예측할 수 없기 때문입니다. 그래서 위와 같이 start 토큰부터 pie에 이르기까지 본래 병렬 말뭉치에 존재하는 이전 시점의 영어 단어를 입력값으로 넣어주게 됩니다. 또한, 출력의 마지막 단어는 무조건 end 토큰이어야 합니다.

2-2. Backward Propagation

역전파 과정은 기존의 언어 모델과 비슷합니다. 각 시점의 예측값과 실제값 사이의 손실함수를 계산하고, 이를 평균내어 최종 손실값으로 사용합니다. 이를 인코더 단까지 역전파하여 파라미터를 업데이트 하게 됩니다.

이와 같이 손실값부터 모델의 입력값까지 한번에 역전파가 일어나는 방식을 end-to-end 방식이라고 합니다. end-to-end는 우리가 원하는 태스크의 입력부터 출력까지 하나의 모델로 구성하는 것을 의미합니다. end-to-end 방식을 이용하게 되면, 인코더와 디코더가 해당 태스크에 적합하도록 학습시킬 수 있다는 장점이 있습니다. 다만, 우리가 구축할 인코더 혹은 디코더보다 기존에 사전학습된 언어 모델이 더욱 좋다면 이를 모델에 붙이고 freeze하거나 fine-tuning하여 사용할 수도 있습니다.

3. Generation

모델 구조와 학습 방법까지 살펴봤습니다. 이제 실제로 모델이 번역하는 과정을 살펴보도록 하겠습니다. 이때, 인코더 단에서 발생하는 것은 RNN류의 모델이 hidden state를 전달하는 과정과 다를 것이 없습니다. 그래서 디코더 단에서 발생하는 일에 집중해보도록 하겠습니다.

3-1. Greedy Decoding

이전에 디코더를 설명하면서 이전 시점의 예측 단어가 현재 시점의 입력값으로 사용된다고 이야기 했습니다. 이는 아직 전체 문장의 확률분포를 알고 있지 않음에도 이전 시점에 가장 확률이 높은 단어가 최적의 선택지라고 가정하고 다음 단어를 예측하는 과정입니다. 탐욕 알고리즘이 디코더에 적용된 것이라고 볼 수 있을 것 같습니다. 그래서 이를 greedy decoding이라고 부릅니다.

I'd like to see the world on the giant's shoulder 난 _ 난 거인의 _ 난 거인의 어깨 _ 난 거인의 어깨 위에 있는 _ 난 거인의 어깨 위에 있는 세상이다.

하지만 탐욕 알고리즘의 한계로 인해 greedy decoding은 문제점을 가지고 있습니다. 이전에 예측한 단어가 틀렸을 경우 이후의 예측은 전혀 엉뚱한 결과물을 내게 됩니다. 위의 문장은 "난 거인의 어깨 위에서 세상을 보고 싶다"라고 번역되어야 합니다. 하지만 "어깨 위에서" 대신에 "어깨 위에 있는"이라고 단어를 예측하여 이후 문장이 어색하게 되었습니다.

특히 문장 생성은 이전 시점의 정보만 이용해서 생성되기 때문에 한가지 문장의 경우만 생성하게 되면 의미가 이상해질 위험에 있습니다. 여러 후보 문장을 생성한 다음, 후보 문장들의 완성도를 확인하고 최적의 문장을 선택할 필요가 있습니다.

exhaustive search

디코딩은 위와 같은 식으로 표현될 수 있다고 이야기했습니다. greedy decoding의 문제점을 해결하기 위해서는 정해진 시퀀스 길이 T에 대해 각 시점마다 모든 토큰 조합의 확률을 계산하고 이 중 최대값을 가지는 토큰 조합을 최종 생성 문장으로 선택해야 합니다. 하지만 이는 시간복잡도가 너무 커지게 되어 비효율적입니다. 번역 시 인간이 일부 단어 조합만 고려하여 번역한다는 것을 생각하면 더욱 그렇습니다.

3-2. Beam Search Decoding

그래서 beam search decoding은 beam search algorighm을 이용하여 greedy decoding을 개선하면서 적절한 문장 후보를 고려하고자 고안되었습니다. beam search decoding은 각 시점마다 가장 그럴듯한 k개의 문장 후보를 탐색합니다. 이 떄 k를 beam size라고 합니다. 각 문장 후보(hypothesis)는 위의 디코딩 식을 이용한 스코어를 가지게 됩니다.

t 시점까지 생성된 문장 후보 y의 스코어는 Language 모델을 이용해 계산한 조건부 확률의 로그 값입니다. 로그 값이기 때문에 그럴듯한 문장일 수록 높은 값(0에 가까운 값)을 가지게 됩니다.

3-2-1. Process

Beam Search Decoding의 과정을 설명하면 다음과 같습니다. 이때 k = 2입니다. 우선 시작 토큰과 인코딩된 hidden state만 이용하여 첫번째 시점의 두가지 가설을 생성합니다. 그리고 이 가설의 스코어를 계산합니다. 이때 he는 -0.7, I는 -0.9로 he가 좀 더 그럴듯해 보입니다.

앞서 만든 두 가지 가설에 각각 두 개씩 토큰을 예측하고 스코어를 계산합니다. 이때는 현재 생성된 토큰의 스코어와 이전에 생성된 토큰의 스코어를 더하여 사용하게 됩니다. 그리고 총 네개의 가설 중 k개의 가설만 유지해야 하기 때문에 스코어가 높은 2개의 가설만 남깁니다. 위의 사진에서는 he hit과 I was가 -1.7과 -1.6으로 가설로 살아남았습니다.

위의 과정을 다시 반복해 두 가지 가설에 다시 두 개씩 토큰을 예측하고 스코어를 계산합니다. 모든 생성이 종료되면 마지막 시점에 가장 스코어가 큰 노드의 경로를 다시 거슬러 올라가면서 문장을 생성하게 됩니다.

greedy encoding에선 모델이 end 토큰을 생성하면 문장 생성을 멈췄습니다. 하지만 beam search decoding에선 하나의 가설이 end 토큰을 생성하더라도 다른 가설이 계속 탐색을 이어가게 되기 때문에 문장 생성이 종료되지 않습니다. 그렇다면 어떻게 문장 생성을 멈추게 할까요? 다음과 같은 두가지 방법이 있습니다.

최대 문장 길이 T를 설정하여 T만큼의 깊이만 탐색하고 문장을 선택합니다.
n개의 문장이 end 토큰을 생성하면 생성을 종료하고 end 토큰을 생성한 문장 중에 최종 문장을 선택합니다.

하지만 이렇게 할 경우 문제가 발생합니다. end 토큰이 생성된 시점이 다르기 때문에 각 가설의 길이는 모두 다를 수 밖에 없습니다. 그리고 스코어는 계속해서 더해지기 때문에 문장의 길이가 길어질수록 스코어가 작아질 수 밖에 없습니다. 이로인해 문장의 길이가 짧은 문장이 자주 선택되는 편향이 발생하게 됩니다. 이는 문장이 그럴듯한 정도와 관계 없이 문장의 길이로 인해 발생하는 편향입니다.

이를 해결하는 방법은 간단합니다. 스코어를 문장의 길이로 나눠주어 nomalize하면 됩니다. 이를 이용하여 최종적인 스코어 식은 다음과 같습니다.

4. Advantages and Disadvantages

NMT가 SMT에 비해 가지는 장점과 단점은 무엇일까요? 장점은 다음과 같습니다.

성능이 훨씬 좋다. : NMT는 SMT에 비해 훨씬 자연스러운 문장을 만들어 줍니다. 이는 RNN을 이용하기 때문에 문맥을 고려하고, 단어가 조금 달라진다하더라도 의미적으로 비슷한 문장이라면 비슷하게 해석할 수 있기 때문입니다.
관리하기 쉽다. : end-to-end 모델의 특징은 관리가 편리하다는 점입니다. 데이터를 꾸리고 모델을 학습시키면 feature engineering이나 번역을 위한 사소한 일에 투입되는 자원을 줄일 수 있습니다.

단점은 다음과 같습니다.

블랙박스 모델이다. : 모든 단점은 블랙박스 모델이라는 점에 기인합니다. 어떠한 원리로 이렇게 번역했는지 알 수 없기 때문에 문제가 발생해도 수정하기 쉽지 않고, 사회적 물의를 일으킬 수 있는 혐오 표현이나 욕설 등의 번역을 관리하는 것이 쉽지 않습니다.

4. BLEU(Bilingual Evaluation Understudy Score)

번역 태스크를 평가할 수 있는 지표로는 BLEU가 있습니다. BLEU는 인간이 번역한 문장과 기계 번역의 문장이 얼마나 유사한지 평가하는 지표입니다. BLEU는 높을수록 성능이 좋습니다. BLEU는 동일한 문장에 대해 여러 사람이 번역한 문장을 이용해 평가할 수 있습니다. 이때 모델이 생성한 문장을 candidate/ca, 사람이 번역한 문장을 reference/ref라고 하겠습니다. BLEU의 계산 방식을 차례대로 살펴보도록 하겠습니다.

4-1. n-gram precision

우선 가장 간단하게는 cadidate에 등장한 단어들이 reference에도 등장했다면, candidate은 정확히 예측했다고 볼 수 있을 것입니다. n-gram을 이용하여 candidate의 단어가 reference에 얼마나 등장했는지 측정하는 방식입니다.

$n-gram precision = {ref에;있는;ca의;n-gram의 수 \over ca의;n-gram의;수}$

candidate : I am a boy who likes summer
reference 1 : I am just a boy who love sunny days
reference 2 : I like hot days

위와 같은 candidate과 reference가 있을 때, cadidate의 단어들이 reference에서 등장했다면 이는 옳바른 번역이라고 볼 수 있을 것 입니다. unigram의 경우 summer를 제외한 모든 단어가 reference에 등장했으므로 다음과 같이 계산될 수 있습니다. $unigram;precision = {6 \over 7}$

하지만 이렇게 계산하면 다음과 같은 문제가 발생합니다.

candidate : am am am am am am am
reference 1 : I am just a boy who love sunny days

candidate은 말도 안되는 문장이지만 unigram precision은 referece에 am가 등장했으므로 1이 나와 버립니다. 이를 해결하기 위해서는 candidate과 reference에서 중복을 고려하여 계산할 필요가 있습니다.

4-2. modified n-gram precision

이를 위해 이전 n-gram precision 식에서 분자를 수정해야 합니다. 이때 각 n-gram에 대해 다음과 같은 작업을 수행한다고 합니다.

$count_{clip} = min(n-gram이;ca에 등장한;횟수, n-gram이; ref에 ;등장한;횟수)$

$modified ; n-gram precision = {\sum_{ca} count_{clip} \over \sum_{ca} count}$

이를 통해 uni-gram이 ca나 ref에 중복하여 등장하여도 이를 어느정도 완화할 수 있게 됩니다. ref에 자주 등장하지 않은 n-gram인데 ca에 자주 등장했다면, 이는 잘못 번역한 것이라 볼 수 있기 때문에 precision을 낮게 주어야 합니다. 위의 식은 이를 수행하고 있습니다.

하지만 여기서도 문제가 생깁니다.

ref : I don't know how to make BLEU equation. ca1 : I don't equation how make BLEU to know. ca2 : make BLEU equation I don't tell how to.

ca1과 ca2 모두 ref의 단어의 순서만 뒤바꾸어 놓았습니다. 이때 n이 얼마이냐에 따라 두 ca에 대한 평가가 달라지게 됩니다.

unigram : ca1 - 1 / ca2 - ${7 \over 8}$
bi-gram : ca1 - ${2 \over 7}$ ca2 - ${4 \over 7}$

즉, n의 크기에 따라 같은 문장이라도 점수가 판이하게 달라질 수 있습니다. 이를 고려해서 BLEU가 만들어집니다.

4-3. BLEU

$BLEU = exp(\sum_{n = 1}^{N} (w_nlogp_n))$

$w_n$: n-gram에 대한 가중치 $p_n$: modified n-gam precision

위의 식을 통해 다양한 n에 대한 n-gram precision을 종합할 수 있습니다. 하지만 여전히 문제는 있습니다. 위와 같은 경우 만약 ca의 문장이 짧다면 점수가 높게 나오는 경향이 있기 때문입니다. precision에서 분모가 ca의 count이기 때문입니다. 문장이 짧을 수록 패널티를 주는 항이 필요합니다.

4-4. Brevity Penalty

$$ BP = \begin{cases} 1; & \text{if c $\geq$ r}\ e^{(1-r/c)} ; & \text{if c $\le$ r} \end{cases} $$

c : cadidate의 길이 r : cadidate과 길이가 가장 비슷한 reference의 길이

$BLEU = BP \times exp(\sum_{n = 1}^{N} (w_nlogp_n))$ ca가 ref보다 길이가 길다면 정상적으로 번역된 길이일 수도 있기 때문에 패널티를 주지 않습니다. 하지만 ca가 길이가 비슷한 ref보다 짧다면 번역이 미완성된 상태일 수 있기 때문에 패널티를 주어 BLEU 점수를 낮춥니다.

4-5. Advantages & Disadvantages

BLEU는 계산 속도도 빠르고 비교적 성능을 잘 대표하는 지표로 사용되고 있습니다. 특히 BLEU는 병렬 데이터를 정렬하는데 사용될 수 있어 활용성이 높습니다. 하지만 실제 번역은 동일한 단어를 사용하지 않아도 좋은 번역이 될 수 있습니다. 병렬 코퍼스의 경우 번역의 표준화 등을 이유로 직역을 기본으로 합니다. 하지만 초월번역 등 우수한 번역의 경우 단순히 단어 단위로 번역하기 보다 그 맥락을 파악하여 전혀 엉뚱한 단어가 등장할 수도 있습니다. BLEU는 이러한 경우 그 성능을 제대로 측정할 수 없다는 단점을 가지고 있습니다.

5. Conclusion

RNN을 이용한 NMT는 기계 번역 분야에서 엄청난 발전을 이뤄냈습니다. SMT가 수많은 feature engineering이 필요하여 장시간 축적된 기술임에도 NMT가 등장한지 2년 만에 SMT의 성능을 넘어섰습니다.

그럼에도 불구하고 NMT는 여전히 문제점이 많았습니다.

Out of Vocabulary : 만약 학습 데이터에 존재하지 않는 단어가 입력될 경우 이를 적절히 처리하지 못했습니다.
Domain mismatch : 학습 데이터가 위키피디아, 논문, 신문 기사 등 문어체가 주를 이룰 경우 문어체 번역에 애를 먹었습니다.
Context : NMT는 맥락을 저장하고 이를 활용하는데 애를 먹습니다. 기사 전문이나 책을 번역하려고 한다면 정말 긴 시간의 정보가 문장 단위를 넘어서 전달되어야 하지만 그렇지 못했습니다.
Low Resource Language pairs : NMT 학습을 위해선 방대한 병렬 코퍼스가 필요하지만 이를 구축하는 것은 쉬운 일이 아닙니다.
Common Sense is not trained well 프린터가 종이를 먹다 라는 표현은 프린터가 종이에 막혔을 경우에 사용되지만, 이러한 관용적인 표현은 문장에 드러나 있지 않습니다. 사회적 관습이나 활용을 학습해야 하지만 NMT는 이러한 학습이 쉽지 않습니다.
Social bias 인터넷 상에 존재하는 수많은 문서에는 암묵적인 사회적 편향이 담겨 있습니다. 이는 그대로 NMT에도 학습되게 됩니다. 프로그래머는 주로 남자이고, 간호사는 주로 여자이기 때문에, 이를 학습한 NMT는 성별 중립적인 표현을 입력하여도 자연스레 성별이 편향된 표현으로 번역하게 됩니다.

하지만 NMT는 상당히 어려운 작업이며 NMT를 구축하는 과정에서 새로운 모델이 많이 탄생하게 됩니다. 이제 배울 Attention 역시 이 과정에서 탄생했습니다.

Attention

seq2seq의 구조는 위와 같다고 했습니다. 인코더의 마지막 hidden state는 번역하고자 하는 문장의 인코딩입니다. 이는 번역하고자 하는 문장의 정보가 인코더의 마지막 hidden state에 담겨있다고 했습니다. 하지만 정말 그렇게 될까요? 만약 인코더의 길이가 50이 된다고 해봅시다. 그렇다면 초기 시점의 정보가 마지막 시점까지 잘 전달되지 못할 것입니다. 이는 초기 시점의 단어들을 번역하는데 어려움을 겪게 합니다. 이를 타게할 방안은 무엇일까요?

SMT에서 alignment가 각 단어간 대응관계를 표현한다고 했습니다. 그리고 SMT는 이 대응 관계를 이용해 번역합니다. 이를 NMT에 활용할 수 없을까요? 그래서 attention 번역된 문장을 생성할 때, 각 문장과 대응되는 원래 단어를 찾아서 활용하는 방안을 고안했습니다.

1. Model Architecture

attention 알고리즘은 다음과 같은 순서로 진행됩니다.

우선 디코더의 hidden state와 인코더의 hidden state를 내적하여 attention score라는 것을 구합니다. 내적은 두 벡터 간 유사도를 구할 때 사용됩니다. 즉, attention score는 현재 시점의 디코더의 정보와 인코더의 매 시점의 정보의 유사도를 의미하고 있습니다.

attention score는 인코더의 매 시점마다 계산되게 됩니다.

이렇게 구한 attention score를 softmax 함수에 통과시켜 확률 분포를 생성합니다. 이 시점에선 il이라는 단어에 가장 집중하고 있는 것을 볼 수 있습니다. 문장의 시작에선 il이라는 단어가 가장 유사한 정보를 가지고 있는 것입니다.

위에서 구한 확률 분포를 가중치로 하여 인코더 각 시점의 hidden state를 가중합해줍니다. 이를 attention output이라고 합니다. 이는 SMT의 aligment와 유사하면서 보다 유연한 사용이 될 수 있습니다. SMT의 aligment는 대응관계를 이진 분류로 표현하기 때문에 완전히 대응되거나, 완전히 고려할 필요가 없다고 여기지만, attention score는 디코더의 정보에 활용될만한 정도를 고려하여 인코더의 정보를 취합했기 때문입니다.

attention output은 디코더의 hidden state와 concat되어 예측값을 산출할 때 사용됩니다. 이때 DNN, softmax 등의 구조를 사용하게 됩니다.

위의 attention 과정은 디코더의 매 시점마다 반복되어 실행됩니다.

2. Equation

encoder hidden state
t 시점의 decoder hidden state
attention score
attention dist.
attention output
t 시점의 예측을 위해 사용되는 벡터

3. Advantages

NMT 성능을 비약적으로 향상시켰습니다.
병목현상을 해결했습니다. seq2seq에선 인코더의 정보가 마지막 hidden state에 집중되어 제대로 전달되지 못하는 병목현상이 발생했지만, attention은 디코더가 직접 인코더의 모든 시점에서 정보를 가져오게 함으로써 이를 해결했습니다.
vanishing gradient problem을 완화했습니다. attention은 디코더와 인코더를 직접 연결한 구조입니다. 이는 그래디언트가 인코더의 마지막 시점과 디코더의 첫 시점의 연결 뿐 아니라 인코더와 디코더의 각 시점으로 직접 흘러가도록 만들어 vanishing gradient problem을 완화했습니다.
모델을 어느정도 해설할 수 있게 만들어줍니다. attention score를 분석하면 모델이 각 시점마다 어디에 집중하고 있는지 알 수 있습니다.

위 사진은 seq2seq with attention에서 attention score를 시각화 한것입니다. 아래 사진은 본래 alignment입니다. 두 도표는 매우 유사한 것을 볼 수 있습니다. SMT의 alignment는 직접 사람이 작성해야 하는 수고가 발생하는 것에 비해 attention은 모델이 직접 구축하고, 보다 유연한 형태라는 점에서 더 우수하다고 할 수 있습니다.

4. Generalization

attention은 단순히 seq2seq에만 사용되지 않고, 많은 모델에서 사용됩니다. 그래서 좀 더 확장된 버전의 attention 정의가 필요합니다. 원문을 가져오자면

Given a set of vector values, and a vector query, attention is a technique to compute a weighted sum of the values,dependent on the query.

즉, 벡터인 value들의 집합과 하나의 벡터인 query가 있을 때, attention은 query를 이용해 value들의 가중합을 구하는 방법론입니다.

그리고 종종 논문 등에서 query attends to the values 와 같은 표현을 볼 수 있는데, 이것이 바로 attention 메커니즘을 설명하고 있는 것입니다.

이렇게 확장할 경우 attention을 다음과 같이 해석할 수 있습니다.

attention output은 query가 집중하고자 하는 value의 요약된 정보입니다.
attention은 고정된 벡터 사이즈를 통해 query가 value들의 정보에 접근하는 방식입니다.

참고

https://blog.naver.com/PostView.nhn?blogId=sooftware&logNo=221809101199&from=search&redirect=Log&widgetTypeCall=true&directAccess=false https://wikidocs.net/31695 https://en.wikipedia.org/wiki/BLEU https://tech.kakaoenterprise.com/50

Lecture 7 – Vanishing Gradients, Fancy RNNs

Wed, 12 May 2021 06:13:02 GMT

작성자 : 건국대학교 응용통계학과 강재영

1. Vanishing Gradient

Backpropagation for RNNs

이전에 저희는 기존의 Backpropagation과 조금 다른 RNN의 BPTT(Backpropagation through time)에 대해 배웠습니다. 이처럼 순환하는 과정을 펼친 후에 편미분을 취해서 에러를 구하게 됩니다. 이 때 실제로는 하나의 Edge를 편의상 펼친 것이므로 모두 같은 가중치를 가져야 한다는 것을 잊으면 안됩니다. 따라서 모든 update가 동일하게 이루어져야 하고 이를 위해 각 레이어마다 동일한 위치의 weight에 해당하는 모든 error 미분값을 다 더한 다음, 그 값을 backpropagation하여 weight를 한 번 업데이는 하는 방법이 BPTT입니다. (동일한 위치의 Weight에 해당하는 모든 미분값을 더한다는 의미를 처음에 이해하지 못해서 제가 이해한 그림을 추가로 넣어드립니다. 이해가 안가시는 분 참고하면 좋을듯해요.)

그림출처 : https://m.blog.naver.com/infoefficien/221210061511

1. Vanishing Gradient intuition

위 그림은 RNN의 t시점의 히든스테이트와 t시점의 히든스테이트를 이전 히든스테이트로 편미분한 결과입니다. 위 식을 토대로 아래와 같이 그래디언트를 일반화할 수 있습니다. 이 때 보라색으로 상자가 그려진 부분이 가중치행렬 W_h를 의미하며 가중치 행렬이 작아지면 항 전체가 작아지게 됩니다. 가중치 행렬이 작아지는 때를 고려해보면, i와 j의 차이가 클수록 작아진다는 것을 확인할 수 있습니다. ( Sequence 간의 거리가 멀수록 ) 이를 좀더 수식으로 확인해보면,

(증명 :https://imgur.com/zcuKkv2)

Norm의 성질에 의해서 W_h 의 L2 norm은 W_h의 가장 큰 고유값(eigenvalue)이라는 것을 확인할 수 있습니다.

저희는 RNN 역전파시 체인룰에 의해 Hidden state의 Gradient를 지속적으로 곱해주어야 합니다. 그런데 위 수식을 보면 Hidden state의 Gradient의 L2 norm은 절대적으로 W_h의 L2 norm 크기에 달려 있습니다. (L2 norm을 '크기'라고 바꿔서 보면 이해가 더 쉽습니다.) 따라서, 가장 큰 고유값(L2 norm)이 1보다 작다면, Gradient가 기하급수적으로 감소하게 되고(Gradient Vanishing), 가장 큰 고유값(L2 norm)이 1보다 크다면, Gradient가 폭발적으로 증가하게 됩니다.(Gradient exploding)

2. Why is vanishing gradient a problem?

그렇다면 Gradient Vanishing이 발생하는 이유는 이해했는데, 그게 왜 문제라는걸까요?

1) 모델이 가까운 Gradient의 효과만 반영하고 멀리서 온 Gradient는 무시하게 되는 현상이 나타납니다. 즉, Near-effects만 반영되고, Long-term effects는 무시하게 되는거죠
2) 그리고 Gradient는 미래에 과거가 얼마나 영향을 미치는지에 대한 척도인데 Gradient가 소실되버리면, 결과를 해석할 때 "Step_t 와 Step_t+n 사이에 의존성이 없어서 Gradient가 0이 된건지" / "Parameter를 잘못구해서 Gradient가 0이 된건지" 구분할 수가 없게 됩니다.

3. Effect of vanishing gradient on RNN-LM

Vanishing Gradient가 실제 Language Model에서 발생시키는 문제들을 확인해보겠습니다.

빈칸에 들어가야할 단어는 첫 줄에 나왔던 tickets 입니다. 하지만 첫줄에 나온 tickets과 빈칸 사이에는 많은 Sequence들이 존재하기 때문에 Gradient가 소실될 가능성이 큽니다. 그렇게 되면 LM Model은 멀리 있는 단어 간의 의존성을 학습하지 못하기 때문에 ticket 예측에 실패하게 됩니다.

또 다른 예시를 확인해보겠습니다.

문법적으로 is가 옳은 정답이지만, 가까이있는 Gradient의 영향력이 더욱 크게 반영되는(Near effect, Not Long-term effect) 현상이 나타나면서 are로 예측을 하게 되는 예시입니다.

Gradient Cliping 이전에 Gradient Vanishing 외에 Gradient가 기하급수적으로 커지는 Gradient exploding이 있었는데, 이를 해결하기 위한 방법으로 Gradient Cliping이 있습니다. 만약에 Gradient의 Norm 값이 임계값보다 크다면, Scale down을 적용하는 간단한 알고리즘입니다.

LSTM(Long Short-Term Memory)

Gradient Exploding을 Cliping으로 해결할 수 있었는데 Vanishing은 어떻게 해결할 수 있을까요? LSTM의 Main idea " Gradient가 레이어를 지날수록 0에 가까워지는게 문제라면, 정보를 Save하는 메모리를 따로둬서 Gradient를 살릴 수 있지 않을까? "

LSTM에는 RNN과 다르게 이전 정보를 지속해서 흘려주는** Cell State와 불필요한 정보를 걸러주는 **Gate가 존재

LSTM 과정

1) Forget gate layer

Forget gate : 어떤 정보를 잊고 어떤 정보를 Cell State에 흘려넣을지 결정하는 Gate

t번째 시점에서의 x값과 t-1시점에서의 hidden state를 입력값으로 받아 sigmoid activation function을 통해 0에서 1사이의 값을 출력하여, 0에 가까울수록 완전히 잊고, 1에 가까울수록 많이 흘려넣게 된다.
2) input gate layer

input gate: 새로운 정보가 Cell State에 저장될지를 결정하는 Gate

C_t-1에 새로운 input x_t와 h_t-1를 보고 새로운 정보를 생성합니다.
여기서 i_t는 Gate로 0 ~ 1 값을 내며, 1에 가까울수록 새롭게 만들어진 정보를 완전히 반영하고, 0에 가까울수록 잊습니다.
3) Update Cell State
Cell State를 업데이트 하는 과정을 살펴보면,
과거의 정보를 반영할지의 유무는 Forget Gate
새롭게 발생한 현재의 정보를 반영할지의 유무는 input Gate를 통해 결정

이 두 값이 더해져서 다음 cell state의 입력값으로 들어가게 된다.(Update)

4) Ouput gate layer

Output gate 마지막으로, 최종적으로 Cell State 정보를 tanh를 통해 가공하고, 이를 다음 hidden State 얼마나 반영할지에 대해 Output gate를 통해 결정하게 됩니다. 최종 아웃풋은 Ot * tanh(Ct)

How does LSTM solve vanishing gradients?

수식을 살펴보면, forget gate가 1이고, input gate가 0 일때 Cell의 정보가 완전하게 보존되서 장기의존성 문제를 해결할 수 있게됨을 확인할 수 있다. 하지만 여전히 Gradient Vanishing의 완전한 해결을 보장하지는 않는다.

GRU(Gated Recurrent Units)

GRU의 Main idea " LSTM은 좋긴 좋은데 구조가 복잡하기 때문에 조금 더 단순화할수 없을까? " GRU는 LSTM의 변형으로,

GRU는 Reset Gate(rt)와 Update Gate(zt) 2개의 게이트로 이루어져있다.
LSTM에서 forget gate와 input gate를 GRU에서는 update gate(zt)로 합쳐 주었다.
LSTM에서 forget gate역할이 rt와 zt 둘 다에 나눠졌다고 볼 수 있다.
출력값(ht)를 계산할 때 추가적인 비선형(nonlinearity) 함수를 적용하지 않는다.

다음과 같은 특징들이 있다.

GRU 과정

여기서 Gate는 Reset gate와 Update gate 두가지가 존재하며, 다음과 같은 역할을 한다.
Reset gate : 이전 정보를 어느정도 반영할지 결정
Update gate : 과거와 현재의 정보 반영 비중을 결정

LSTM VS GRU

둘 모두 장기기억에 좋다
현재는 다른모델도 많지만 당시에는 종종 SOTA
GRU는 파라미터가 보다 적기 때문에 빨라서 학습하기 좋고, LSTM은 그냥 기본적으로 선택하기 좋다.
Rule of thumb에 따라서 LSTM으로 시작해본 후 efficient함을 원하면 GRU를 시도해보길 권한다.

Is vanishing/exploding gradient just a RNN problem?

Vanishing gradient 문제가 RNN만의 문제는 아니다. 다른모델에서 어떻게 이를 극복하려 했는지 확인해보자

1) Residual connections "ResNet"의 Skip connection Convolutional Layer를 지나고 나온 결과에 input x를 다시 더해줘서 기존 정보 + 새로운 학습정보를 모두 고려할 수 있도록 했다.
2) Dense connections "DenseNet"의 Dense connectivity 위 기존 모델들과 비교한 그림을 보면 이해가 더 쉬운데, ResNet이 이전 레이어의 정보만 다시 더해준다면, Dense connectivity는 이전 모든 레이어 정보를 쌓는다고 생각하면 된다.

More fancy RNN variants

Bidirectional RNNs

Bidirectional RNNs : 양 방향 정보를 모두 이용하기 위한 RNN 구조

Bidirectional RNNS 과정 1) forward RNN : 정방향으로 입력받아 hidden state 생성 2) backward RNN: 역방향으로 입력받아 hidden state 생성 3) 두 개의 hidden state 연결(Concat)해서 전체 모델의 hidden state로 사용

추가그림 및 수식

Multi-layer RNNS

Multi-layer RNN : RNN을 여러층으로 사용한 모델

여러 개의 층으로 구성된 Multi-layer RNN은 더 복잡한 특성을 학습할 수 있도록 만들어준 모델이다. 조금 더 고차원의 패턴, 복잡한 표현을 잡아낼 수 있다.
일반적으로 2~4개 정도의 layer을 쌓아서 사용한다. 그 이상 쌓으면 Gradient vanishing 을 해결하기 위한 Skip connection과 같은 테크닉이 필요하다.

Q&A

Q1. LSTM에서 왜 forget gate에서 previous cell state가 아니라 previous hidden state와 input에 대해서만 고려하여 계산되는지?

저도 많이 찾아보고 강의를 들어봤는데, 추가적인 자료는 찾지 못했고 강의에서는 Previous hidden State가 Previous Cell State에 대한 정보를 내포하고 있다고 대답했습니다. 따라서 굳이 추가적으로 Previous Cell State를 고려할 필요가 없었을 것 같습니다.

Q2. HighwayNet에 대한 설명이 부족한거같아요.

HighwayNet

H : Plain Layer 를 의미
Transform gate(T): Plain Layer의 결과를 어느정도 반영할지 결정
Carry gate(C): input 정보를 어느정도 반영할지 결정(논문에서 C = 1-T로 정의되었다.)

HighwayNet은 이처럼 Layer 결과값과 input x 값의 반영비를 조절하면서 학습하여 ResNet처럼 기존정보(input) + 새로운 학습정보(H)를 모두 고려할 수 있도록 하였다.

다른 질문들은 위에서 반영되도록 하였습니다.

Reference Stanford CS224n Lecture 7 강의 & 강의자료 13-14기 정규세션 13기 이예지님 모델심화2 강의자료 https://excelsior-cjh.tistory.com/89 https://ratsgo.github.io/deep%20learning/2017/10/10/RNNsty/ https://jeongukjae.github.io/posts/cs224n-lecture-7-vanishing-gradients-fancy-rnns/ https://yjjo.tistory.com/18?category=881892 https://velog.io/@tobigs-text1314/CS224n-Lecture-7-Vanishing-Gradients-And-Fancy-RNNs#multi-layer-rnns 투빅스 13-14기 텍스트 세미나 자료 https://jayhey.github.io/deep%20learning/2017/10/13/DenseNet_1/ https://lazyer.tistory.com/8

Lecture 6 - Natural Language Processing with Deep Learning

Wed, 05 May 2021 10:01:31 GMT

발표자 : Tobig's 13기 이혜민

Contents

1.Language Modeling

2.N-gram Language Model

3.Neural Language Model

4.RNN Language Model

5.Perplexity

1. Language Modeling

많은 사람들이 자동완성 기능, 인터넷 검색과 같은 Language Model을 일상생활에서 사용합니다.

Language Modeling : 현재까지 주어진 문장의 다음 단어를 예측하는 것
Language Model : 주어진 문장의 다음 단어를 예측하는 것을 수행하는 모델

문장에 이미 주어진 단어 x⁽¹⁾부터 x^(t)가 주어졌을 때, 다음에 올 단어 x^(t+1)의 확률을 나타낼 수 있습니다. => 특정 문장에 확률 할당 가능

특정 문장의 확률(좌변)을 식의 우변과 같이 연속된 조건부확률로 풀어 쓴 이후에, LM을 통해서 알아낼 수 있는 값들(두번째 줄)을 통해서 확률을 계산할 수 있습니다.

2. N-gram Language Model

(1) Definition

Q : How to learn a Language Model? A : (pre-deep learning) Learn n-gream Language Model

n-gram : a chunck n consecutive words (연이은 단어들의 덩어리) n-gram 모델은 카운트에 기반한 통계적 접근을 사용하고 있기 때문에 SLM의 일종입니다. 하지만 이전에 등장한 모든 단어를 고려하는 것이 아니라, 일부 단어만 고려하는 접근 방법을 사용합니다. '일부 단어를 몇 개 보느냐'를 결정하는 것이 n-gram에서의 n이 가지는 의미입니다.

IDEA : Collect statistics about how frequent diffrent n-grams are, and use these to predict next word (n-그램의 빈도에 대한 통계를 수집하고 이를 다음 단어를 예측하는데 사용)

예) The students opened their __

unigrams : the, students, opened, theirs

bigrams : the students, students opened, opened their
trigrams : the students opened, students opened their
4-grams : the students opened their

Markov Assumption : X(t+1)은 n-1개의 단어에만 영향을 받는다라는 가정 -> 다음 단어를 예측하기 위해서 확률을 계산하는 것이 아니라 여기서는 some large corpus of text에서 count해서 근사화하는 값을 계산합니다.

(2) Problems

ex) 4-gram Language Model로 다음 단어 예측하기

As the proctor started the clock, the students opened their __

n-gram 언어 모델은 언어 모델링에 바로 앞의 n-1개의 단어만 참고합니다. 4-gram 언어 모델이라고 가정하여 위 문장을 가지고 앞서 배운 n-gram 언어 모델링을 하는 방법을 알아보겠습니다. 모델은 바로 앞 3개의 단어만 참고하며 더 앞의 단어들은 무시합니다. 위 예제에서 다음 단어 예측에 사용되는 단어는 students, opened, their입니다.

P(w|boy is spreading)=count(boy is spreading w)count(boy is spreading)

그 후에는 훈련 코퍼스에서 (n-1)-gram을 카운트한 것을 분모로, n-gram을 카운트한 것을 분자로 하여 다음 단어가 등장 확률을 예측했습니다. 예를 들어 갖고있는 코퍼스에서 students opened their가 1,000번, students opened their books가 400번, students opened their exams가 100번 등장했다면 각 확률은 아래와 같습니다.

P(books|students opened their=0.4 P(exams|students opened their)=0.1

1. 희소 문제 (Sparsity problems)

문장에 존재하는 앞에 나온 단어를 모두 보는 것보다 일부 단어만을 보는 것으로 현실적으로 코퍼스에서 카운트 할 수 있는 확률을 높일 수는 있었지만, 여전히 n-gram 모델에 대한 희소 문제가 존재합니다.

훈련 코퍼스에 'students opened their '라는 단어 시퀀스가 존재하지 않으면 n-gram 언어 모델에서 해당 단어 시퀀스의 확률 P(students opened their exams)는 0이 되버립니다.
언어 모델이 예측하기에 students opened their 다음에는 books이란 단어가 나올 수 없다는 의미이지만 해당 단어 시퀀스는 현실에서 실제로는 많이 사용되므로 제대로 된 모델링이 아닙니다.

n을 작게 선택하면, 훈련 코퍼스에서 카운트는 잘 되겠지만 근사의 정확도는 현실의 확률분포와 멀어집니다. 그렇기 때문에 적절한 n을 선택해야 합니다. 앞서 언급한 trade-off 문제로 인해 정확도를 높이려면 n은 최대 5를 넘게 잡아서는 안 된다고 권장되고 있습니다.

2. 저장 문제 (Storage Problems)

n이 커지거나 corpus가 증가하면, 모델 사이즈가 커진다는 문제점도 있습니다. 기본적으로 코퍼스의 모든 n-gram에 대해서 카운트를 해야 하기 때문입니다.

(3) Process

앞의 개념을 통해서 예시로 n-gram 동장 방식을 알아보겠습니다.

3-gram으로 정하면 n-1인 2개의 단어(today, the)만 남게 됩니다.
해당 단어들을 기반으로 확률 분포를 얻어내면, 가능성이 있는 단어들이 분포로 나오게 됩니다.
분명히 희소성의 문제가 보이지만 이를 무시하고 본다면 나쁘지 않은 결과입니다.

이전의 과정과 같이 codition (조건 선택) -> sampling (확률 분포에서 제일 확률이 높은 단어를 선택하는 것) -> condition (조건 선택) -> ... -> 새로운 확률 분포를 얻고 샘플링하는 과정을 반복하면서 해당 텍스트를 생성해 낼 수 있습니다.
생각보다 문법적인 결과입니다. 하지만, 전체적인 의미에서 일관성이 없고 n을 늘리게 되면 우려되는 희소성 때문에 n-gram의 한계점을 볼 수 있습니다.

3. Neural Language Model

이전 n-gram Language Model 문제점에 대한 대안으로 대체적으로 성능이 우수한 인공 신경망을 이용한 언어 모델이 많이 사용되고 있습니다.

n-gram 언어 모델은 충분한 데이터를 관측하지 못하면 언어를 정확히 모델링하지 못하는 희소 문제(sparsity problem)가 있었습니다. 희소 문제는 기계가 단어 간 유사도를 알수 있다면 해결할 수 있는 문제입니다.

언어 모델 또한 단어의 유사도를 학습할 수 있도록 설계한다면, 훈련 코퍼스에 없는 단어 시퀀스에 대한 예측이라도 유사한 단어가 사용된 단어 시퀀스를 참고하여 보다 정확한 예측을 할 수 있을 겁니다. 이런 아이디어를 가지고 탄생한 언어 모델이 신경망 언어 모델 NNLM입니다.

Window-based Neural Network Language Model (NNLM)

"Curse of dimensionality (차원의 저주)"를 해결하기 위해 제안된 신경 기반 Language Model
Language Model이면서 동시에 단어의 "distributed representation"을 학습
NNLM은 n-gram 언어 모델과 유사하게 다음 단어를 예측할 때, 앞의 모든 단어를 참고하는 것이 아니라 정해진 n개의 단어만을 참고합니다. 이 범위를 윈도우(window)라고 합니다.

-> window size : 4

input : 단어들의 시퀀스
output : 다음 단어에 대한 확률 분포

Input 단어 x의 시퀀스를 window 사이즈 만큼 입력하여, one-hot vector를 거쳐 임베딩 합니다. 임베딩 한 벡터 값들을 concatenate하여 가중치 값과 연산하여 hidden layer를 거치게 됩니다. 최종적으로 softmax 함수를 통해 확률 분포를 output 할 수 있으며 해당 분포를 통해서 제일 가능성이 높은 다음 단어를 예측하게 됩니다.

< Improvements >

단어의 embedding을 통해 n-gram이 없을 확률에 대한 희소성 문제가 없습니다.
관측된 모든 n-gram을 저장할 필요가 없습니다.

< Problems >

Fixed window is too small
Window가 커질수록 가중치 W도 커집니다. (Window 크기의 한계)

룩업 테이블(lookup table) : 원-핫 벡터의 특성으로 인해 i번째 인덱스에 1이라는 값을 가지고 그 외의 0의 값을 가지는 원-핫 벡터와 가중치 W 행렬의 곱은 사실 W행렬의 i번째 행을 그대로 읽어오는 것과(lookup) 동일하다는 개념입니다.
룩업 테이블 작업을 거치면 V의 차원을 가지는 원-핫 벡터는 이보다 더 차원이 작은 M차원의 단어 벡터로 맵핑됩니다. 테이블 룩업 과정을 거친 후의 이 단어 벡터를 임베딩 벡터(embedding vector)라고 합니다.
해당 벡터와 가중치 metrix에서의 연산에서는 각각의 벡터들이 각각 다른 W 가중치 섹션을 곱하게 되면서 단어와 단어 간의 'No Symmetry'하게 되는 문제점을 가지게 됩니다.

4. Recurrent Neural Network(RNN) Language Model

(1) Recurrent Neural Network(RNN)

기존의 뉴럴 네트워크 알고리즘은 고정된 크기의 입력을 다루는 데는 탁월하지만, 가변적인 크기의 데이터를 모델링하기에는 적합하지 않습니다.

RNN(Recurrent Neural Network, 순환신경망)은 시퀀스 데이터를 모델링 하기 위해 등장으며, 기존의 뉴럴 네트워크와 다른 점은 ‘기억’(hidden state)을 갖고 있다는 점입니다.

위 다이어그램에서 빨간색 사각형은 입력, 노란색 사각형은 기억, 파란색 사각형은 출력을 나타냅니다.
첫번째 입력이 들어오면 첫번째 기억이 만들어집니다. 두번째 입력이 들어오면 기존의 기억과 새로운 입력을 참고하여 새 기억을 만듭니다.
입력의 길이만큼 이 과정을 얼마든지 반복할 수 있으며, RNN은 이 요약된 정보를 바탕으로 출력을 만들어 냅니다.

$x_t$는 t 시간 스텝에서의 입력 벡터, $h_t$는 t 시간 스텝에서 RNN의 기억을 담당하는 hidden state, $o$는 출력 벡터입니다. U, W, V는 모델의 파라미터입니다. 첫 다이어그램에 없던 $h_0$은 hidden state의 초기값으로, 구현을 위해 필요한 부분이며 일반적으로 0으로 초기화 합니다.

*은닉층 : $s_t = tanh(x_tU + s_{t−1}W)$ *

네트워크의 기억에 해당하는 hidden state $s_t$는 입력 x와 과거의 기억 $s_{t-1}$을 조합하여 만들어집니다. 조합하는 방식은 파라미터 U와 W에 의해 결정됩니다. U는 새로운 입력이 새로운 기억에 영향을 미치는 정도를, W는 과거의 기억이 새로운 기억에 영향을 미치는 정도를 결정한다고 볼 수 있습니다. 비선형함수로는 tanh나 ReLU가 주로 사용됩니다. 여기에서는 tanh를 쓰겠습니다.

*출력층: $o = softmax(s_tV)$ *

출력, 즉 예측값은 마지막 hidden state $s_t$로부터 계산됩니다. $s_t$와 V를 곱하는데, 여기서 V는 hidden state와 출력을 연결시켜주며 출력 벡터의 크기를 맞춰주는 역할을 합니다. 마지막으로 출력을 확률값으로 변환하기 위해 softmax 함수를 적용합니다. softmax 함수는 모든 출력값을 0 ~ 1 사이로 변환하고, 출력값의 합이 1이 되도록 합니다.

RNN의 핵심 : 반복적으로 같은 가중치 W를 적용하는 것

은닉상태 h^(t)는 이전 은닉 상태 h^(t-1)와 해당 단계의 입력 x^(t)의 구성이다.

#python code
hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length: # 각 시점마다 입력을 받는다.
    output_t = tanh(input_t, hidden_state_t) # 각 시점에 대해서 입력과 은닉 상태를 가지고 연산
    hidden_state_t = output_t # 계산 결과는 현재 시점의 은닉 상태가 된다.

**<각 벡터와 행렬의 크기> ** X^t : (d×1) W^x : (D_h×d) W^h : (D_h×D_h) h^t−1 : (D_h×1) b : (D_h×1) 단어 벡터의 차원 : d, 은닉 상태의 크기 : Dh

(2) Improvements & Disadvantages

< Improvements >

모든 길이의 입력을 처리할 수 있다.
단계 t는 이론적으로 여러 이전 단계의 정보를 사용할 수 있다.
아무리 입력이 길어도 모델의 크기가 증가하지 않는다. (모델의 크기는 WH와 WE로 고정되어 있다.)
모든 time step에 동일한 가중치를 적용한다.
각 입력에 동일한 변환을 적용한다. 따라서 하나의 입력을 처리하는 좋은 방법을 배우면 시퀀스의 모든 입력에 적용된다.

< Disadvantages >

이전 은닉 상태를 기반으로 다음 은닉 상태를 계산해야 하기 때문에 순차적인 계산이 필요하다. 따라서, 반복하는 과정에서 매우 계산이 느립니다.
여러 단계에서 정보에 액세스하는 것이 매우 어렵습니다.
큰 단점은 시퀀스 중 중요한 입력과 출력 단계 사이의 거리가 멀어질 수록 그 관계를 학습하기 어려워진다는 점입니다.
신경망이 깊어질수록 Vanishing gradient로 인해, 문장 초반부의 단어가 결과에 미치는 영향이 적어집니다.
) 이점을 극복하기 위해 RNN의 여러 변형 모델들이 제안되고 있으며, 대표적인 변형 모델로는 LSTM, attention 기반 모델이 있습니다.

(3) Training a RNN Language Model

x¹에서 x^T까지의 단어 시퀀스가 있는 텍스트 코퍼스 모음을 얻습니다.
RNN 모델에 단어 시퀀스를 입력한 다음, 모든 단계 T에 대한 출력 분포인 Y^(T)를 계산합니다. (모든 단계에서의 다음 단계에 대한 확률을 계산합니다.)
예측 확률 분포 Y^(T)와 사실 두 벡터 사이에 대한 교차 엔트로피를 이용하여에 손실 함수를 정의합니다.
최종적으로, 모든 단계에서의 loss 평균으로 T의 모든 훈련 셋의 전체 loss를 구합니다.

다만 실제 RNN-model을 학습할 경우, 위의 그림과 같이 계산을 하게 되면 많은 양의 계산이 필요하기 때문에 문장 혹은 문서 단위로 입력을 주게 되며, SGD를 통해서 Optimize하는 것도 하나의 방법이라고 합니다.

(4) Backpropagation for RNNs

RNN을 학습하는 것은 기존의 신경망 모델을 학습하는 것과 매우 유사합니다. 그러나 기존의 backpropagation과 다르게 순환 신경망은 계산에 사용된 시간, 시점의 수가 영향을 주어Backpropagation Through Time (BPTT) '시간에 따른 역전파'라는 약간 변형된 알고리즘을 사용합니다.
각 출력 부분에서의 gradient가 현재 시간 스텝에만 의존하지 않고 이전 시간 스텝들에도 의존합니다.
만약, 예시로 t=2의 시점에서 발생한 손실을 역전파 하려면 손실을 입력과 은닉층 사이의 가중치로 미분하여 손실에 대한 각각의 비중을 구해서 업데이트 해야 합니다. 이 연산 과정에서 은닉층의 '이전 시점의 값들'이 연산에 포함되는데 이전 시점의 값은 세부적으로 (가중치, 입력값, 이전 시점의 값들의 조합)으로 이루어져 있다. 순환 신경망은 각 위치별로 같은 가중치를 공유하기 때문에 t=2 시점의 손실을 역전파 하기 위해서는 t=0 시점의 노드 값들에도 '모두 영향을 주어야' 한다.

BPTT(Backpropagation Through Time) : 각 레이어마다의 weight는 실제론 동일한 웨이트여야 하므로 모든 업데이트도 동일하게 이루어져야 한다. 따라서 각 layer마다 동일한 위치의 weight에 해당하는 모든 derivative error를 다 더한다음 (더하는 거나 평균 내는거나 사실상 같은 의미) weight를 1번 업데이트 해준다. (어차피 edge하나를 펼친거니까 k스텝으로 펼쳐서 k개의 에러를 구한다음, 에러를 하나로 합치고 이 edge에 대해 업데이트 해주면 끝) 사실상 이것이 BPTT의 핵심적인 부분이다.

(5) what can RNNs do?

RNN의 입력과 출력은 우리가 네트워크에게 시키고 싶은 것이 무엇이냐에 따라 얼마든지 달라질 수 있습니다.

고정크기 입력 , 고정크기 출력

-> 순환적인 부분이 없기 때문에 RNN이 아닙니다.
2. 고정크기 입력 & 시퀀스 출력 -> 예)이미지를 입력해서 이미지에 대한 설명을 문장으로 출력하는 이미지 캡션 생성
3. 시퀀스 입력 & 고정크기 출력 -> 예) 문장을 입력해서 긍부정 정도를 출력하는 감성 분석기
4. 시퀀스 입력 & 시퀀스 출력 -> 예) 영어를 한국으로 번역하는 자동 번역기
5. 동기화된 시퀀스 입력 & 시퀀스 출력 예) 문장에서 다음에 나올 단어를 예측하는 언어 모델

다양한 RNN 활용

RNN은 Tagging, Sentence classification, Encoder Module에도 활용이 많이 되고 있습니다.

5. Perplexity

Evaluating Language Models : Perplexity

언어 모델의 성능을 평가하는 척도인 perplexity(PPL)를 측정하는 방법은 정량 평가/extrinsic evaluation 방법의 하나입니다. PPL은 문장의 길이를 반영하여 확률값을 정규화한 값이라고 할 수 있습니다. PPL을 이용하여 언어 모델에서 테스트 문장들의 점수를 구하고, 이를 기반으로 언어 모델의 성능을 측정합니다.

Perplexity는 Language Model의 성능을 측정하는 척도입니다.
Language model을 통해 예측한 corpus의 inverse를 corpus 길이로 normalize 해준 값 입니다.
cross-entropy에다가 로그 씌우고 exponential을 씌어서 구할 수 있으며, perplexity가 낮을 수록 좋은 Language Model이라고 할 수 있습니다.

최근 Perplexity가 감소하고 있음을 확인할 수 있는데, 해당 값이 낮을 수록 좋습니다.

6. 출처

https://www.youtube.com/watch?v=iWea12EAu6U&list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z&index=6 (강의 자료 : 2019 Winter CS224N - Lecture 6)
https://wikidocs.net/21692 (n-gram language model)
https://blog.naver.com/dmsquf3015/222055564808
https://mystudyplace.tistory.com/22 (NNLM model)
https://wikidocs.net/22886 (RNN model)
https://newsight.tistory.com/94 (backpropagation vs BPTT)
https://kh-kim.gitbook.io/natural-language-processing-with-pytorch/00-cover-8/03-perpexity#perplexity (perplexity)

Lecture 5 - Linguistic Structure: Dependency Parsing

Wed, 05 May 2021 09:48:29 GMT

작성자 : 국민대학교 경영정보학과 & 빅데이터경영통계학과 김동현

CS224n의 5번째 강의는 Linguistic Structure: Dependency Parsing이라는 주제로 각 문장의 문법적인 구성이나 구문을 분석하는 과정인 parsing에 대해 다루고 있습니다. parsing 중에서 Constituency parsing과 Dependency parsing을 소개하고, 강의에서는 Dependency parsing을 위주로 문장 구조를 분석하고 이해하는 방법을 설명합니다.

먼저 Constituency and Dependency parsing의 개념에 대해서 간략하게 보고 이 중에서 Dependency parsing에 대해서 자세히 알아보겠습니다. 그리고, Dependency parsing의 전통적인 방법인 transition-based dependency parsing의 개념과 parsing 과정에 대해서 자세하게 소개하며 마지막 목차에서는 neural network가 적용된 방법인 neural dependency parsing이 어떻게 문장 구조를 분석하는 지에 대해 설명합니다.

1. Syntactic Structure: Consitituency and Dependency

Parsing이란 각 문장의 문법적인 구성 또는 구문을 분석하는 과정이라고 할 수 있습니다. 주어진 문장을 이루는 단어 혹은 구성 요소의 관계를 결정하는 방법으로, parsing의 목적에 따라 Consitituency parsing과 Dependency parsing으로 구분할 수 있습니다.

Consitituency parsing은 문장의 구성요소를 파악하여 구조를 분석하는 방법이며, Dependency parsing은 단어간 의존 관계를 파악하여 구조를 분석하는 방법입니다.

Consitituency parsing은 문장을 중첩된 성분으로 나누어 문장의 구조를 파악하는 방법으로 영어와 같이 어순이 비교적 고정적인 언어에서 주로 사용합니다. 구성하고 있는 구(phrase)를 파악하여 문장 구조를 분석하며, 보통 각 단어들은 해당 단어의 문법적 의미를 가지고 있습니다.'the'는 '관형사(Det)', 'cat'은 '명사(N) 등을 예로 들 수 있습니다.

이렇게 각 문법적 의미를 가지고 있는 단어들은 단어끼리 결합해서 어떠한 구(phrase)를 구성할 수 있습니다. 그리고 구성된 구는 구와 또 결합하여 문장을 구성합니다.

문장의 관점에서 보면 문장을 이루는 구(phrase)를 파악할 수 있으며, 구를 이루는 구, 혹은 구를 이루는 단어들을 최종적으로 분류할 수 있습니다.

'The cuddly cat by the door'에서는 명사구(Noun Phrase)인 'The cuddly cat'과 전치사구(Preprositional Phrase)인 'by the door'로 먼저 구분할 수 있으며 최종적으로는 각 단어가 가지는 문법적 의미까지 분해할 수 있습니다.

Dependency parsing은 문장보다는 문장에 존재하는 개별 단어 간 의존 또는 수식 방향으로 관계를 파악하여 문장 구조를 분석하는 방법입니다. 이는 문장을 이루는 단어 사이에 서로 영향을 미치는 어떠한 관계가 있음을 전제합니다. 한국어와 같이 자유 어순을 가지거나 문장성분이 생략 가능한 언어에서 선호하고 있습니다.

단어 간 존재하는 관계를 의존 관계 혹은 수식 관계로 표현할 수 있으며, 수식을 하는 단어는 'head' 혹은 'governor', 수식을 받는 단어를 'dependent' 혹은 'modifier'이라고 합니다.

이렇게 단어 간 관계를 정립하게 되면 우측과 같이 문장을 트리 구조로 표현해서 어떻게 화살표가 이동하고 어떤 단어가 수식을 받는지, 안받는지 파악할 수 있습니다.

정리하면 Consitituency parsing은 문장의 구조를 파악하는 것이 주목적이며, Dependency parsing은 단어간 관계를 파악하는 것이 주목적입니다.

이렇게 문장 구조를 parsing이라는 방법을 통해 분석해야하는 이유는 문장의 의미를 보다 정확하게 파악하기 위해서입니다. 인간은 복잡한 의미를 전달하기 위해 단어를 더 큰 단위로 조합하여 생각을 전달하기 때문에 우리는 단어끼리 어떻게 연결되어 있는지 파악해야 합니다.

문장 구조를 분석해야하는 이유로 해당 강의에서는 문장에서 발생하는 2가지 모호성(ambiguity)을 소개합니다.

먼저 Phrase Attachment Ambiguity는 형용사구, 동사구, 전치사구 등이 어떤 단어를 수식하는지에 따라 의미가 달라지는 모호성을 말합니다.

Coordination Scope Ambiguity는 특정 단어가 작용(수식)하는 대상의 범위가 달라짐에 따라 의미가 변하는 모호성을 말하며, 한국어에서는 '작용역 중의성'이라고 합니다.

정리하자면 문장은 많은 단어가 복잡한 관계로 이루어져 있기 때문에 앞서 본 것 처럼 모호한 해석을 올바르게 이해하기 위해서는 문장의 구성요소에 대한 분석과 이해가 요구됩니다. 즉, 무엇과 무엇이 연결되어 있는지에 대한 이해가 필요합니다.

2. Dependency Grammar and Treebanks

Dependency parsing에 대해서 자세히 알아보겠습니다. 먼저 'ROOT'라는 가상의 노드를 문장의 맨 처음에 추가함으로써, 최종 head를 'ROOT'를 설정하고 모든 단어가 1개의 dependent(의존 관계)를 가지도록 설정합니다.

Dependency Structure는 sequence 형태와 tree 형태로 표현할 수 있으며, 2가지 형태의 결과는 정확히 동일한 output을 가져야 합니다.
화살표는 head(수식을 받는 단어)에서 dependent(수식을 하는 단어)로 향합니다.
화살표 위 라벨은 단어간 문법적 관계를 의미하며 수식 관계인 화살표는 순환하지 않습니다. 즉, 중복 관계는 형성되지 않습니다.

Dependecy parsing에서 고려되는 보편적인 특징은 다음과 같습니다.

두 단어 사이의 실제 의미가 드러나는 관계
dependency의 거리는 주로 가까운 위치에서 dependent 관계가 형성
마침표, 세미콜론과 같은 구두점을 넘어 dependent 관계가 형성되지는 않음
head의 좌우측에 몇 개의 dependents를 가질 것인가에 대한 특성

3. Transition-based dependency parsing

Dependecy parsing의 방법으로 강의에서는 4가지 방법이 있다고 소개합니다. 하지만 이번 강의와 목차에서는 Transition-based 방법에 대해서 보다 구체적이게 다루고자 합니다.

Dynamic programming은 동적 계획법 개념을 사용하는데 긴문장이 있으면 그 문장들을 몇 개로 나누어서 하위 문자열에 대한 하위 트리를 만들고 최종적으로 그것들을 다시 합치는 방법으로 parsing을 진행합니다.

Constraint Satisfaction은 문법적 제한 조건을 초기에 설정하고 그 조건을 만족하면 남기고, 만족하지 못하면 제거하여, 조건을 만족시키는 단어들만 parsing하는 방법이라고 합니다.

Transition-based dependency parsing은 두 단어의 의존 여부를 차례대로 결정해나가면서 점진적으로 dependency structure를 구성해나가는 방법입니다. 이와 달리 Graph-based는 가능한 의존 관계를 모두 고려한 뒤 가장 확률이 높은 구문 분석 트리를 선택하는 방법입니다.

Transition-based dependency parsing은 문장에 존재하는 sequence를 차례대로 입력하게 되면서 각 단어 사이에 존재하는 dependency를 결정해나가는 방법으로 'Deterministic dependecy parsing'이라고도 불립니다.

문장의 sequence라는 한 방향으로 분석이 이루어지기 때문에 모든 경우를 고려하지는 못합니다. 그렇기 때문에 분석 속도는 보다 빠를 수 있겠지만 낮은 정확도를 보이기도 합니다. 앞서 소개한 Graph-based는 모든 경우의 수를 다 고려해서 속도는 느리지만 정확도는 높다고 합니다.

그러나 2014년에 발표한 논문에 따르면 dense feature를 사용한 신경망 기반 transition-based parser를 제안하여 속도와 성능 모두를 향상 시켰다고 합니다. 하지만 이는 Graph-based parser에 비하면 낮은 성능을 기록하고 있습니다.

Transition-based dependency parsing이 진행되는 과정에 대해서 살펴보겠습니다. 먼저, parsing 과정에는 BUFFER, STACK, Set of Arcs라는 3가지 구조를 가지고 있습니다.

input으로 문장이 입력되면, 위 3가지 구조를 거침으로써 output이 도출되는 parsing 과정입니다. parsing 초기 상태에서 BUFFER에는 주어진 문장이 토큰 형태로 모두 입력되어 있는 상태이며, STACK에는 ROOT만이 존재하고 Set of Arcs에는 parsing의 결과물이 담기게 되어 현재는 공집합 상태입니다.

parsing 과정에 대해서 간단하게 설명하면 다음과 같습니다. BUFFER에 존재하는 문장의 토큰이 STACK으로 이동하게 되면서 어떠한 state를 형성하게 됩니다. 그리고 해당 state를 기반으로 Decision이라는 결정을 내리게 되고 output으로 결과가 이동하게 됩니다.

먼저 BUFFER에서 STACK으로 토큰이 이동하는 과정은 문장의 sequence를 따릅니다. 즉 BUFFER('John', 'hit', 'the', 'ball')가 존재한다면 문장의 첫번째 토큰인 'John'가 먼저 STACK으로 이동하게 됩니다.

그렇게 되면 STACK에는 'ROOT'와 'John'이 존재하게 되면서 어떠한 state를 형성하게 됩니다. 그 때, 이 state를 통해 Decision이라는 결정을 내리게 됩니다. Decision을 결정하는 방법으로는 단순히 함수와 같은 역할이라고 볼 수 있으며 강의에서는 SVM, Neural Network등의 모델이 적용될 수 있습니다.

STACK에서 토큰과 토큰의 존재로 다양한 state가 형성되겠지만 결정되는 Decision은 여기서 3가지를 소개합니다.

Shift: BUFFER에서 STACK으로 이동하는 경우 Right-Arc: 우측으로 dependency가 결정되는 경우 Left-Arc: 좌측으로 dependency가 결정되는 경우

STACK이라는 자료구조를 통해서 shift를 할지 left-arc나 right arc를 할지를 결정하는데 도와주기 때문에 사용하는 것 같습니다.

보통 Arc의 라벨 개수를 17개 또는 45개로 정하며, 이에 따라 총 경우의 수는 (2 x 17 + 1) or (2 x 45 + 1) = 35 or 91개 입니다.

실제로 'John hit the ball.' 문장이 Transition-based 방법을 통해 parsing되는 과정을 알아보겠습니다.

초기 상태는 위에서 언급한대로 BUFFER에는 주어진 문장이 토큰 형태로 입력되어 있으며 STACK에는 ROOT만이 존재합니다.

(1) STACK에 ROOT만이 존재하는 state는 'shift'라는 decision이 내려지게 되면서 'John'가 BUFFER에서 STACK으로 이동하게 됩니다.

(2) STACK에는 ROOT와 John 밖에 없기 때문에 Arc를 결정할 수 없어 state가 'shift'라는 decision이 내려지게 되고 'hit'가 BUFFER에서 STACK으로 이동하게 됩니다.

(3) STACK에는 ROOT, John, hit라는 state는 'hit'가 'John'를 수식하는 'Left-Arc'라는 decision이 내려지게 됩니다. 여기서 John의 위치를 2로 hit의 위치를 1로 생각해서 1에서 2로 왼쪽으로 가기 때문에 'Left-Arc'라고 생각하면 이해하기 쉽습니다.

이 때, 'hit'와 'John'이 관계가 형성되었기 때문에 해당 결과는 Set of Arcs로 이동하게 됩니다. 또한 dependent가 되는 단어(John)는 STACK에서 사라지게 됩니다.

(4) STACK에는 ROOT, hit라는 state가 Arc를 결정할 수 없는 상태이기 때문에 'shift'라는 decision이 내려지게 되면서 'the'가 BUFFER에서 STACK으로 이동하게 됩니다.

(5) STACK에는 ROOT, hit, the라는 state에서도 어떠한 관계가 형성되지 않는다고 판단했기에 'shift'라는 decision이 내려지게 되고 'ball'이 BUFFER에서 STACK으로 이동하게 됩니다.

(6) STACK에는 ROOT, hit, the, ball이라는 state에서 'ball'이 'the' 수식하는 'Left-Arc'라는 decision이 내려지게 되고 해당 결과(ball, det, the)는 Set of Arcs로 이동하게 됩니다. 이때도 위에서 처럼 오른쪽부터 순서를 매기면 hit(3), the(2), ball(1)로 1에서 2로 왼쪽으로 수식하기 때문에 'Left-Arc'라고 생각하면 됩니다.

(7) STACK에는 ROOT, hit, ball이라는 state에서 'hit'가 'ball'을 수식하는 'Right-Arc'라는 decision이 내려지게 되고 해당 결과(hit, dobj, ball)는 이동합니다. 이때도 hit(2), ball(1)로 2에서 1로 오른쪽으로 수식하기 때문에 'Right-Arc'라고 생각하면 됩니다.

(8) STACK에는 ROOT, hit라는 state에서 BUFFER에 토큰이 존재하지 않기 때문에 'shift'가 발생할 수 없습니다. 하지만 모든 토큰은 하나의 dependent를 가진다는 dependency parsing의 특징으로 'ROOT'가 'hit'를 수식하는 'Right-Arc'라는 decision이 내려지게 되고 해당 결과(Root, root, hit)는 이동합니다.

이렇게 문장의 모든 토큰이 BUFFER와 STACK을 통해 어떠한 관계가 결정되고 형성됨으로써 output으로 트리 형태로 표현이 가능해집니다.

앞서 언급했듯이, STACK에서 발생하는 어떠한 state를 기반으로 Decision을 결정하기 위해서는 SVM, NN, maxnet과 같은 모델이 적용됩니다. 이 과정에서 state를 모델이 input으로 받기 위한 state 임베딩 과정이 필요하게 됩니다.

state를 임베딩하는 방법으로 2005년에 발표된 Nivre and Hall의 논문인 MaltParser: A Data-Driven Parser-Generator for Dependency Parsing의 feature representation을 살펴볼 수 있습니다.

먼저 (4)와 같은 state일 때, 해당 state가 임베딩되는 과정에 대해서 설명하겠습니다. 임베딩 과정을 알아보기에 앞서 임베딩을 위한 feature를 표현하기 위해서 notation을 확인할 수 있습니다. 이 때, 각 토큰의 tag를 활용하기도 합니다.

해당 state에 알맞은 notation 결과는 다음과 같습니다. s1xW는 the, b1xW는 ball, s1xt는 DT, lc(s2)xW는 John, rc(s1)xW는 Null로, 보여지는 notation은 일부분을 예시로 보여준 것으로 STACK의 두번째 단어 'hit'와 같은 notation을 추가적으로 뽑아낼 수 있습니다. 그리고 해당 notation의 결과를 찾아볼 수 없을 때에는 그냥 NULL을 부여하게 됩니다.

그렇다면 이러한 notation 기반으로 indicator features라는 조건을 설정함으로써 state를 임베딩할 수 있습니다.

예시를 보게 되면 STACK의 첫번째 단어가 'the'이고 STACK의 첫번째 태그가 'DT'면 1 아니면 0 이라는 값이 부여지게 됩니다. 이러한 조건들로 하여금 해당 state를 10^6, 10^7 차원의 벡터로 표현하게 되는 것이 state를 임베딩하는 방법이라고 합니다.

이렇게 state를 임베딩하는 방법은 1과 0인 binary로 표현되게 됩니다. 그렇기 때문에 sparse한 형태의 특징을 가지게 됩니다.

일반적으로 notation의 1~3개의 조합으로 indicator feature의 조건을 설정하며, 차원을 모두 계산해야 하기 때문에 Parsing 소요시간 중 95% 이상을 feature 연산이 차지하여 계산 비용이 높습니다. 이 과정에서 단어 또는 단어의 태그의 의미를 반영하지 못하는 단점이 있습니다.

4. Neural Denpendency parsing

최근에는 신경망 기반의 방법론들이 발전하게 되면서 neural network가 적용된 Dependency Parsing에 대한 방법론도 제기되었습니다. 모델 구조는 기본적인 neural network 형태를 가지고 있습니다.

이 때, input으로 들어가는 state를 representation하는 방법에 대해서 보다 구체적이게 다루도록 하겠습니다.

input으로 들어가는 feature는 words 부분, POS tag(태그), arc labels 부분 3가지로 구분할 수 있습니다.

먼저 words feature로 들어가게 되는 데이터는 총 18개로 구성되어 있습니다.

STACK과 BUFFER의 TOP 3 words (6개)
STACK TOP 1, 2 words의 첫번째, 두번째 left & right child word (8개)
STACK TOP 1,2 words의 left of left & right of right child word (4개)

다음 POS tags feature로 들어가게 되는 데이터는 words feature에서 들어가는 데이터의 태그를 의미하기 때문에 똑같이 18개가 됩니다.

마지막으로 arc labels에서는 STACK과 BUFFER의 TOP 3 words 6개를 제외한 12개의 label(dependent 관계 표시) 데이터로 구성되게 됩니다.

(4)의 state일 때의 input layer의 데이터를 확인하게 되면 각 feature별로 다음과 같이 확인할 수 있습니다. 이 feature에 해당하는 데이터들을 원핫으로 표현할 수 있게 됩니다.

words feature는 (18 x 단어의 총 개수)
POS tag feature는 (18 x POS tag 총 개수)
Arc-label feauture는 (12 x label 총 개수)

이 때, 일반적으로 POS tag의 개수는 45개 정도라고 말합니다.

이렇게 포함된 데이터를 원핫으로 표현한 후에 word embedding matrix를 참고하여 해당 토큰의 벡터를 가져올 수 있습니다. 그렇다면 각 토큰별로 벡터가 있는 상태에서 모두 concat한 뒤에 input layer에 들어가게 됩니다.

각 feautre별로 임베딩된 벡터가 input layer를 입력된 이후에 hidden layer에서는 Embedding Vector와 weight matrix를 곱한 뒤 bias vector를 더하는 일반적인 feed forward network의 계산이 진행됩니다.

이 때, 신경망에서 보통 쓰이는 ReLU, Sigmoid, Tanh과 같은 activation function을 사용하지 않고 word, POS tag, arc-label간 상호작용을 반영할 수 있는 cube function을 사용하게 됩니다. 엄밀한 수학적 증명을 하지는 않았으나 실험 결과 다른 비선형 함수 대비 우수한 성능을 기록한다고 합니다.

마지막으로 output layer에서 Decision이 결정되는 과정은 다음과 같습니다.

Input layer에서 입력 받은 vector를 Hidden layer에서 ReLU 함수를 통해 Hidden vector를 생성합니다. 그리고 만들어진 Hidden vector를 Softmax layer에서 Softmax 함수를 통해서 Output을 만들게 됩니다.

Hidden layer를 거친 feature vector를 linear projection(이동) 후 softmax 함수를 적용하여 Deicision으로 나타날 수 있는 모든 경우의 수의 확률을 구하게 됩니다. Shift, Left-Arc, Right-Arc 중 가장 확률값이 높은 경우의 수를 output으로 산출합니다. 위의 예시에서 해당 state에서는 nsubj의 관계를 가지는 Left-Arc의 경우가 Decision으로 선택되게 됩니다.

Neural Dependency parsing을 evaluation하는 방법으로는 Arc 방향만을 예측하는 UAS evaluation과 Arc 방향과 관계 label까지 예측하는 LAS가 있습니다.

각 parsing 방법에 따른 성능을 비교해보자면 목차 3에서 다뤘던 conventional features representation이 적용된 Transition-based parser(첫번째 parser)의 경우 모든 경우의 수를 체크하는 Graph-based parser보다 훨씬 빠르지만 성능이 조금 낮은 것을 확인할 수 있습니다. 하지만 Neural Network를 적용함으로써 Transition-based parser와 Graph-based parser보다 빠르고 좋은 성능을 이끌 수 있게 됩니다.

이후로는 greedy algorithms(Weiss et al. 2015)이 적용된 parser와 beam search(Andor et al. 2016)가 적용된 parser가 발표되었고 최근에 Graph-based와 Neural Network가 결합한 Neural graph-absed(Dozat & Manning 2017)가 적용된 parser가 굉장히 성능이 좋은 것을 확인할 수 있습니다.

long-term dependeny에 관한 문제점은 다양한 결합 방법이 시도되고 있는데 Graph-based와 Transition-based parser를 결합하여 long-term dependency 문제를 어느 정도 해결할 수 있다고 합니다.

<요약>

참고자료

http://dsba.korea.ac.kr/seminar/?mod=document&uid=42
https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture05-dep-parsing.pdf
https://gnoej671.tistory.com/5
https://velog.io/@tobigs-text1314/CS224n-Lecture-5-Linguistic-Structure-Dependency-Parsing
A Fast and Accurate Dependency Parser using Neural Networks, Chen & Manning, 2014
Integrating Graph-Based and Transition-Based Dependency Parsers, Joakim Nivre & Ryan McDonald, 2008. (https://www.aclweb.org/anthology/P08-1108.pdf)

Lecture 4 - Backpropagation and Computation Graphs

Wed, 28 Apr 2021 08:47:59 GMT

작성자 : 세종대학교 응용통계학과 조준혁

1. Derivative wrt a weight matrix

1) Chain Rule?

chain rule은 연쇄법칙으로 합성함수의 미분법을 의미합니다.

Neural Network에서는 이러한 합성함수의 미분법인 chain rule을 이용하여 최종 scalar 값을 weight로 미분해가며 가중치를 업데이트 하는 방식으로 학습이 진행됩니다.

2. Deriving gradients: Tips

1) Carefully define your variables and keep track of their dimensionality!

* (변수를 잘 정의하고 차원을 계속 숙지할 것)

2) Chain rule! - Keep straight what variables feed into what computations

* (연쇄법칙을 잘 알고 사용할 것)

3) For the top softmax part of a model

First consider the derivative wrt $f_{c}$(softmax) when $c = y$ (the correct class)

Then, consider derivative wrt $f_{c}$(softmax) when $c \neq y$(all the incorrect classes)

* (마지막 softmax 값에 대해 correct class / incorrect class를 따로따로 미분해줄 것)

4) Work out element-wise partial derivatives if you're getting confused by matrix calculus!

* (행렬 미분 방법이 헷갈린다면 성분별 부분 미분을 연습할 것)

5) Use Shape Convention.

The error message $\delta$ that arrives at a hidden layer has the same dimensionality as that hidden layer

* (Shape Convention을 이용하자. hidden layer에 도착하는 error 메세지 $\delta$는 그 은닉층의 차원과 같다.)

3. Deriving gradients wrt words for window model

지금까지 앞서 x와 W의 선형결합으로 이루어진 matrix에 대한 미분값을 살펴보았는데, Word들에 대해서는 어떻게 미분이 적용될지 알아보겠습니다.

NLP는 말 그대로 "언어"를 입력받아 특정 task를 수행하게 됩니다. 이때 각각의 word들은 고유의 vector 값을 가지게 되는데, 이 벡터들을 결합한 행렬 전체를 task를 수행하기 위한 input으로 넘겨주는것이 아닌 window 단위로 넘겨주게 됩니다. 위에서 제시된 예시는 5개의 단어가 있고 각 단어는 d차원의 벡터입니다. 따라서 5xd 차원의 word window vector이며 window 단위로 가중치를 업데이트 하며 각 단어 벡터들이 task에 도움이 되는 방향으로 업데이트를 진행합니다.

4. A pitfall when retraining word vectors

하지만 위와 같은 방법으로 특정 task를 위해 word vector를 학습시키고 노드의 가중치와 워드 벡터를 업데이트 시키는 것이 항상 좋은 결과를 야기하는 것은 아닙니다.

다음의 예시를 살펴보겠습니다.

TV, telly, television 는 기본적인 의미가 같기 때문에 glove 등을 통해 워드 임베딩을 한다면 vector space 상의 세 단어는 매우 가깝게 위치할 것입니다.

하지만 만약 학습시키고자 하는 데이터셋에 TV, telly가 있고 television은 없다고 가정해보겠습니다.

학습 데이터를 이용해 모델을 학습시킨다면 TV와 telly는 모델의 목적(ex. movie review sentiment classification)에 맞게 가중치를 업데이트하며 움직이게 됩니다.

하지만 television의 경우에는 어떻게 될까요? TV와 telly와 비슷한 의미를 지님에도 학습 데이터 셋에 포함되지 않는다는 이유로 가중치가 업데이트 되지 못해 모델로 하여금 다른 의미를 지닌 단어로 분류되게 됩니다.

Q. 이러한 부분은 어떻게 해결할 수 있나요?

A. 대부분의 경우 Pre-trained된 모델을 사용하면 됩니다.

Pre-trained 모델이란?

사전에 학습된 모델로 내가 풀고자 하는 문제와 비슷하면서 규모가 큰 데이터셋에 이미 학습이 되어있는 모델입니다.

지난 강의에서 소개되었던 Word2Vec, Glove 모두 Pre-trained 모델입니다. Pre-trained 모델의 경우 이미 방대한 양의 데이터에 대해 학습을 마친 상태이므로, 위와 같이 TV, telly, television과 같이 비슷한 단어의 경우 훈련 데이터 셋 포함 유무에 관계없이 일정 수준의 유사 관계가 형성이 됩니다.

하지만 데이터의 양이 100만개 이상이라면(거의 불가능), 랜덤 워드 벡터로부터 시작해서 모델을 학습시켜도 괜찮습니다.

Q. Fine Tuning을 해야하나요?

A. 가지고 있는 데이터 셋의 규모에 따라 달라집니다.

Fine Tuning 이란?

기존에 학습되어져 있는 모델을 기반으로 모델의 구조를 목적 task에 맞게 변형하고 이미 학습된 weight로 부터 학습을 업데이트 하는 방법

1. Training dataset이 적은 경우(< 100 thousands)

그냥 사전 학습된 word vector를 사용할 것(fine-tuning 하지 않기)

2. Training Dataset이 많은 경우(> 1 million)

word vector를 학습시키는 것이 성능이 좋아질 것(fine-tuning 하기)

5. Computation Graphs and Backpropagation

1) Computation Graph?

Computation Graph이란 "계산 그래프"를 의미합니다. 계산 그래프란 말 그대로 계산 과정을 그래프로 나타낸 것입니다. 그래프는 여러개의 node와 그 노드를 잇는 선(edge)로 표현이 됩니다.

2) Forward Propagation(순전파)

위의 수식을 얻기위해 계산 그래프의 왼쪽부터 차례대로 연산을 해나가 결괏값을 얻는 것을 Forward Propagation이라고 합니다.

3) Back Propagation(역전파)

Neural Network는 Forward Propagation을 통해 얻어진 결과와 실제값을 비교해 계산된 오차를 미분하며 가중치를 업데이트하는 방식으로 학습이 진행됩니다.

3-1) Single Node(Single Input)

이해를 돕기위해 먼저 하나의 input과 하나의 output으로 이루어진 계산 그래프를 생각해보겠습니다.

$h = f(z)$

Back propagation의 진행 방향을 생각해볼 때 Upstream gradient와 Downstream gradient의 순서로 미분값을 계산하게 됩니다.

하지만 Downstream gradient를 수행할 때 s는 z로 이루어지지 않아 적절히 미분을 수행할 수 없습니다.

이를 해결하기 위해 Forward Propagation 수행 시의 output을 input으로 미분한 Local gradient를 이용해 Downstream gradient를 계산할 수 있게 됩니다.

$Downstream Gradient = Local Gradient * Upstream Gradient$

결론적으로는 Chain Rule을 이용한 것과 같은 결과입니다.

3-2) Single Node(Multiple Input)

조금 더 일반화를 하기 위해 더 많은 Input이 있을 경우에는 어떻게 Back Propagation을 살펴보겠습니다.

$z = Wx, (x, z : vector, W : matrix)$

간단히 말하면 위에서 소개해드린 방법을 여러번 수행한다고 생각하시면 됩니다.

동일하게 Upstream gradient에 각각의 Input에 대한 Local gradient를 계산해 곱해주어 각 Input에 대한 미분을 수행하며 Back Propagation을 수행합니다.

3-3) Efficiency

다음은 계산 그래프를 통해 back propagation을 수행할 때 효율적으로 미분값을 얻는 방법을 소개하겠습니다.

방법은 간단합니다. 미분을 계산할 때 한번에 다 계산을 하라는 것입니다. 각 노드의 미분 계산 값을 잘 가지고 있다가 원하는 값을 계산하고자 할 때 간단히 chain rule을 설계해 값을 대입하며 빠르게 값을 얻을 수 있을것 입니다. (값을 저장해 추후에 local gradient 등을 다시 계산하지 않는다.)

3-4) Back propagation in General Computation Graph

Compuation Graph의 일반적인 모습입니다. 위의 검정색 화살표 색깔로 Forward Propagation(순전파)가 진행되고 순전파가 진행된 최종 값을 바탕으로 보라색 선 방향으로 오류를 전파하며 값을 업데이트 해가는 Back propagation(역전파) 과정을 보여줍니다.

3-5) big O() complexity

순전파의 계산량을 생각해보면 각각의 Input들이 노드를 타고 연산을 거치며 최종 Scalar값까지 관여하게 됩니다.

역전파의 경우도 마찬가지로 Scalar 값으로 부터 순전파시 거쳐 지나갔던 노드를 지나며 Gradient를 구하게 됩니다. 이때, 앞선 3-3) efficiency 부분처럼 Local Gradient 등의 연산을 잘 저장해두었다가 필요시에 활용하게 되므로 추가적인 연산이 필요가 없게됩니다.

따라서, 순전파와 역전파의 시간복잡도는 동일하게 됩니다.

3-6) Gradient checking: Numeric Gradient

Pytorch나 Tensorflow 등의 딥러닝 프레임워크가 잘 발달되기 이전 딥러닝 초기의 데이터 과학자들은 Neural Network의 학습을 위해 직접 손으로 Gradient를 계산하며 Weight를 업데이트 하는 방식으로 학습을 진행했습니다.

정확한 Gradient 계산은 성공적인 네트워크 학습의 핵심이었으며 Gradient를 잘 계산했는지 여부를 엄격하게 체크했다고 합니다.

Gradient를 계산하는 방법에는 2가지가 존재합니다.

Analytic Gradient(해석적 방법)
Numerical Gradient(수치적 방법)

1번의 Analytic Gradient 방법은 이 강의의 주된 내용인 계산 그래프를 통한 연산시 활용되는 Chain Rule을 이용하여 Gradient를 계산하는 방식입니다.

Numerical Gradient 방식에 대해 소개해드리겠습니다.

수치적인 방법은 해당 파라미터의 미분을 구하기 위해 미분의 공식을 이용해 계산을 하는 방법입니다.

다른 강의이지만 CS231N(2017) 강의에서 제시된 예시를 살펴보겠습니다.

현재 위와 같은 Weight를 가지고 계산된 Loss가 주어졌습니다.

첫번째 Weight에 대해서 굉장히 작고 0에 가까운 값을 더해 살짝 이동시켜보니 Loss가 감소했음을 알 수 있습니다.

이 Loss를 바탕으로 미분값을 계산합니다.

다음 Weight를 h만큼 이동시킨 Loss가 증가했습니다.

마찬가지로 Loss 값을 이용해 gradient를 계산해주게 됩니다.

위와같은 방식을 거치며 Gradient를 계산하는 방법을 Numerical Gradient 라고 합니다.

Numerical Gradient는 쉽게 미분값을 얻을 수 있다는 장점이 있지만 하나의 gradient를 계산하기 위해서 f의 값을 계속해서 계산을 해주어야 해서 연산량이 매우 많다는 단점이 존재합니다.

반면 우리가 주로 사용하는 Chain Rule을 이용한 Analytic Gradient 계산 방법은 정확하고 빠르지만 계산 과정에서 실수가 있을 수 있다는 단점이 존재합니다.

이러한 단점을 보완하기 위해, 특정 Weight에 대한 미분이 잘 계산이 되었는가를 확인하기 위한 방법으로 Numerical Gradient 방법을 통해 미분을 계산해보는 Numeric Gradient Check 방식을 활용합니다.

6. Tips and Tricks for Neural Networks

1) Regularization

학습시키는 모델은 굉장히 많은 파라미터들을 가지고 있습니다.

손실함수만을 이용해 모델을 학습시키게 된다면, 모델이 학습 데이터는 잘 적합시키지만 테스트 데이터 셋은 잘 적합시키지 못하는 Overfitting(과적합)을 야기할 수 있습니다.

따라서 $\theta$를 감소시켜야 하는 손실함수에 $\theta$를 증가시키는 규제항을 추가하며 과적합을 방지할 수 있습니다. 주로 R2 규제항을 많이 사용하며 feature 들이 많을수록 효과적이라고 합니다.

2) Vectorization

word vector들을 각각 돌며 Weight matrix와 행렬곱을 수행할때의 시간과 word vector들을 하나의 matrix로 합친 뒤 W와 곱연산을 했을때의 시간 차이는 10배 이상 납니다.

따라서 반복문을 사용하기보다는 matrix 연산을 사용하는것이 학습의 시간을 감소시키는데 효과적일것 입니다.

3) Non-Linearities

딥러닝 초기의 비선형 활성함수로는 logistic, tanh 함수가 자주 사용되었습니다.

하지만 두 함수 모두 exponential(지수) 연산이 필요해 연산량이 많아 Deep Learning에는 적합하지 않습니다.

딥러닝을 설계할때 가장 먼저 고려해야할 비선형 함수는 좌측의 ReLU입니다. ReLU는 가장 간단한 비선형 함수이면서도 좋은 성능을 자랑합니다.

ReLU는 음수값에 대한 Gradient를 0으로 취급하기 때문에 이를 보완하고자 Leaky ReLU, Parametric ReLU 등의 ReLU가 변형된 비선형 함수가 제안되고 있습니다.

4) Parameter Initialization

Weight를 Small Random Value로 초기화 해야한다.
Hidden Layer & Output의 Bias들은 0으로 초기화한다.(실제 Weight가 0이었을때 최적의 값을 얻기 위함)
다른 Weight들은 너무 크지도, 작지도 않은 범위 내의 Uniform distribution에서 임의로 추출한다.
이전 layer의 크기와 다음 layer의 크기를 고려해 가중치의 분산을 조절해주는 Xavier Initialization 방법도 많이 사용된다.

5) Optimizers

보통의 경우 일반 SGD를 사용해도 좋은 결과 성능을 예상할 수 있습니다. 하지만 더 좋은 결과를 기대한다면 learning-rate를 적절히 조절해주는것이 필요합니다.

더 복잡한 신경망일 설계할 때는 "Adaptive" Optimizers를 사용하는 것이 더 좋습니다. Adaptive Optimizer는 계산된 Gradient에 대한 정보를 축적하며 파라미터를 조절해가는 방식을 사용합니다. ex) Adagrad, RMSprop, Adam, SparseAdam...

6) Learning Rates

0.001 정도의 Learning Rate로 학습을 진행할 수 있습니다.

Learning Rate가 너무 클때는 모델이 발산할 가능성이 있고 너무 작으면 업데이트양이 작아 학습을 느리게 합니다.

대부분의 경우 학습을 진행시키며 learning rate를 감소시키는것이 성능 향상에 도움이 됩니다.

7. Reference

Lecture 3 - Word Window Classification, Neural Networks, and Matrix Calculus

Wed, 28 Apr 2021 08:43:04 GMT

작성자 : 동덕여자대학교 정보통계학과 한유진

1. Classification

Training dataset을 i=1부터 N까지 $x_i$라는 inputs과 $y_i$라는 output(label or class)에 대해 가지고 있습니다.

input data($x_i$) : Word, Sentence, Document .. output data($y_i$) : 예측하려고 하는 labels, classes (class에는 sentiment, named entities, buy/sell decision 또는 other words와 multi-word sequences가 올 수 있음)

이 데이터를 가지고 ML/ Deep Learning 방법으로 분류(그림과 같이 비슷한 Output끼리 모이도록 경계를 긋는 것)하는것이 Classificaiton입니다.
전통적인 ML접근에서는 softmax/logistic regression을 이용해서 output의 class를 구분할 decision boundary(hyperplane)를 결정하는 것을 의미합니다.

< Softmax classifier >

Softmax : $xi$가 들어오면 이를 $pi$로 바꾸고, 분류하고 싶은 class의 수 만큼 확률값을 구성하며, 모든 class의 확률값을 더하면 1이 된다는 특징을 가지고 있습니다.

Step 1. 모든 클래스 c에 대해서 선형결합으로 이루어진 $f_y$를 만든다 (wieght matrix W에는 각 클래스에 해당하는 열이 존재 -> W의 y번째 row 와 x의 row 를 multiply -> class에 관련된 score나옴) Step 2. 각각의 class에 대해 이를 계산하고 0~1로 정규화한다 (step1에서 나온 score를 softmax function($\frac{e^{y_i}}{\sum_{j} e^{y_j}}$)에 집어넣음 -> softmax는 이 숫자들을 확률분포로 탈바꿈)

이제 이 값을 학습할 때, 올바르게 class y값을 예측하도록 확률을 maximize하기 위해, 그 class의 negative log probability를 minimize하는 방향으로 학습을 하게 됩니다.

< Cross entropy loss >

softmax 값을 토대로 cost function을 구하는 방식
Concept of "cross entropy" is from information theory
실제 확률 분포를 $p$라고 하고, 예측한 확률 분포를 $q$라고 하였을 때, cross entropy는 위와 같이 정의할 수 있습니다.
옳은 class에만 1을 부여한다면 $p$ = [0,...,0,1,0,...0], $q$= [ 0.01,...,0.02,0.8,0.01,...,0]이기에 잘못 분류한 확률들은 0으로 사라지고 cross entropy에 남는 항은 true class의 negative log probability입니다. ( $\because p$가 one-hot)
위의 식을 전체 데이터 셋으로 확장하면 다음과 같은 공식이 산출됩니다.
$i$ = 1 부터 $N$까지의 평균으로 loss부분을 업데이트 해주었습니다.

하지만 단순한 Softmax/logistic regression만을 사용한 전통적인 접근 방법은 좋은 성능을 낼 수 없습니다. 그 이유는 class를 구분하는 boundary가 linear하기에 위의 그림과 같은 데이터를 잘 분류할 수 없는 경우들이 생기기 때문입니다. 이를 해결하기 위해서 비선형적인 방법을 도입하는데 그게 바로 Neural Network입니다.

2. Neural Network in NLP
NLP를 위한 neural network를 사용하여 advanced된 classification 결과를 낼 수 있는 2가지 방법이 있습니다.
1. Word vector도 학습 - 전통적 방법에서는 $W$만을 학습했지만 NLP에서는 word vector $x$도 한번에 학습
2. Deeper MLP - 깊게 Layer들을 쌓으면서 효율적인 학습이 가능

< Named Entity Recognition(NER) >

개체명 인식(NER)은 인명, 지명 등 고유명사를 분류하는 방법론입니다.
NER을 위해 전통적으로 많이 이용되는 모델은 Conditional Random Field (CRF)이고, Recurrent Neural Network(RNN)모델도 많이 쓰인다고 합니다.
Possible uses
1. 문서에서 특정한 entity(인명, 지명 등)에 대한 언급을 추적
2. 질문 답변의 경우, 답변은 주로 named entity(사람이름, 영화이름 등)
3. 얻고 싶은 정보들 중의 많은 부분은 named entites간의 관계에 대한 것인 경우도 많다
4. 동일한 기술들이 다른 slot-filling classifications으로 확장될 수 있다
이를 위해 BIO인코딩을 사용합니다. B는 Begin의 약자로 개체명이 시작되는 부분, I는 Inside의 약자로 개체명의 내부 부분을 의미하며, O는 Outside의 약자로 개체명이 아닌 부분을 의미합니다.

NER의 한계

ex 1) First National Bank Donates 2 Vans To Future School Of Fort Smith ex 2) To find out more about Zig Ziglar and read features by other Creators Syndicate writers and ex 3) where Larry Ellison and Charles Schwab can live discreetly amongst wooded estates.

entity(개체)의 경계를 정하기 어렵다 (ex1의 첫번째 entity를 First National Bank로? National Bank로?)
entity(개체)인지 아닌지 알기가 어렵다 (ex1의 Future School을 entity로 볼 것인가? '미래의 학교' 라는 일반적인 단어로 볼 것인가)
모르는 entity(개체)에 대해 class를 알기 힘들다 (ex2의 Zig Ziglar가 사람임에도 class를 알기 어렵)
Entity class는 모호하고 문맥에 의존한다 (ex3의 Charles Schwab은 보통 organization name으로 사용되나 이 문장에서는 person으로 사용됨)

※ 참고하면 좋을듯한 NER 자료 ※ https://lovit.github.io/nlp/2019/02/16/logistic_w2v_ner/ https://lovit.github.io/nlp/2018/06/22/crf_based_ner/ http://oak.go.kr/central/journallist/journaldetail.do?article_seq=10192

< Binary word window classification >

word classification은 single word만 갖고 이루어지는 경우는 상당히 드물고, 보통 context 내에서 이루어집니다.
하지만, context 상에도 여러 문제가 발생할 수 있습니다. ex) auto-antonyms(자동-반의어) "To sanction" can mean "to permit" or "to punish” "To seed" can mean "to place seeds" or "to remove seeds"
이처럼 문맥상에서 애매모호하게 일어나는 것들에 대한 분류를 도와주는 방법론이 window classification입니다.
< Window classification >
Idea : 중심 단어와 주변 단어들(context)를 함께 분류문제에 활용하는 방법
가장 간단한 방법으로는 context내 단어를 분류하기위해 window내의 word vectors를 average하고, 그 average vector를 분류하는 것입니다. 하지만 position information을 잃어버리는 단점이 있습니다.
그렇다면! window 내에서 word vector와 그 neighbor들을 concatenate한 후 softmax classifier를 훈련하여 분류를 해보자!
$Paris$를 분류하고 싶다고하면, 이때 $Paris$의 +-2 총 다섯개의 word vectors을 합쳐 5d 크기의 vector를 형성하고 이 vector를 활용해 classifer를 제작합니다.

Window classification : Softmax

이제 위의 vector에 대해서 $w$를 학습하고 softmax classifier를 통해 분류해보겠습니다.
$x$대신 $x_{window}$를 input으로 주어 위에서 봤던 softmax를 적용합니다.
Word2Vec과 유사하게 corpus내의 모든 위치에 대해서 학습할것이지만, 이번에는 high score을 가지는 위치에 대해서만 집중적으로 학습을 진행합니다.
예를 들어 $X_{Paris}$가 'Location'으로 분류될 수 있는지를 알고 싶습니다.
오직 'museums in Paris are amazing' 이라는 하나의 window만이 Paris가 center에 있기 때문에 ‘True’ window로 표현하고, 그 외의(Not all museums in Pares와 같은) window들은 모두 'Corrupt' window로 표현됩니다.
이때 우리는 score를 return하는 시스템을 원하기 때문에, 중앙에 Location name이 있으면 높은 점수를, 없으면 낮은 점수를 return합니다.
3-layer NN으로 window's score를 계산합니다.
input으로 20x1 vector를 가진 $x$가 들어가면 hidden layer는 20차원을 받아 8개의 노드를 생성하게 됩니다(비선형 함수 통과). 마지막 layer에서는 8개노드를 받아 1개의 score를 산출하게 됩니다. 이 score값을 확률로 만들기 위해 위에서 보았던 softmax를 취해주고 negative log probability의 합으로 계산해서 $W$를 업데이트 시켜주면 됩니다.

The max-margin loss

일반적으로 softmax를 사용할 경우, 값을 확률 비율로 변경했기 때문에 비율간의 차이를 계산하는 Cross-entropy를 사용합니다. 하지만, 위에서 score함수를 직접 정의했으므로 여기에서는 이에 걸맞는 max-margin loss(hinge loss)를 이용합니다.
max margin loss는 SVM에서 많이 사용되는데, 그 의미가 정답과 오답 사이의 거리를 최대로 만들어주는 margin을 찾는 것입니다. 쉽게 말하면 주어진 input X에 대하여 정답 class와 오답 class 간의 차이를 max로 만들어주는 손실함수입니다.

*margin이란? * binary 분류에서 결정 경계와 서포트 벡터(결정 경계와 가장 가까이에 있는 데이터) 사이의 거리를 뜻함 margin을 최대화 하는 것이 SVM의 목적

우리는 max-margin 손실함수를 통해 손실값을 구했습니다. 이제 이 손실값에 각 파라미터 $W$, $U$, $b$, $X$가 손실값에 얼마나 많은 기여를 했는지 알아보고 해당 기여도에 따라 각 parameter 값을 조정할 수 있겠습니다.
3. Matrix calculus

< Jacobian Matrix >
왼쪽은 함수 한개를 미분한 예입니다. n개의 input을 넣으면 한개의 output을 받게됩니다. 이를 미분하면 $f(x)$는 n개의 input으로 각각 미분되어 하나의 벡터로 만들어지게 됩니다.
왼쪽과 같이 한개의 함수안에 n개의 input이 들어가고, 이러한 함수가 m개 있다고 가정했을때, 이를 미분하면 n*m matrix가 되고 이 matrix를 Jacobian Matrix라고 합니다.
< Chain Rule >
합성함수의 도함수에 대한 공식입니다.
one-variable뿐 아니라 multiple variable에 대해서도 chain rule이 적용됨을 알 수 있습니다.
Jacobian Matrix와 chain rule의 개념 + 앞으로 나올 4개의 식이 위에서 보았던 window classification의 손실 함수를 최소화하기 위해 미분하는 과정에서 사용되는 식들입니다.

계산 Start~

첫번째 식입니다. $h$는 $z(Wx+b)$를 input으로 집어넣어 활성화함수를 적용해 나온 식입니다. 이를 $z$로 미분하면 nxn의 matrix형태로 나오게 됩니다.

nxn의 matrix형태를 미분해보면, $h_i$는 $f(z_i)$로 나타낼 수 있다고 강의에서 언급했습니다. 계속보면, $i$ = $j$일때 $f'(z_i)$라는 값이 나오게되고, 다른 경우는 미분값이 0이됩니다. 이를 행렬로 표현하면 대각 행렬이 나오게 됩니다.

두번째 식은 $Wx+b$를 $x$로 미분하면 $W$가 나온다는 의미이고, 세번째 식은 $b$로 미분하면 항등행렬이 나오고, 마지막 식은 $u^Th$를 $u$로 미분하면 $h$를 전치한 값이 나오게됩니다.

이제 적용해봅시다! Jacobian Matrix와 chain rule의 개념 + 지금까지 나온 4개의 식을 이용하여 우리가 정의했던 score함수의 gradient를 계산해보겠습니다.
우리가 구하고자 하는 것은 $\frac{\partial s}{\partial W}$ & $\frac{\partial s}{\partial b}$ 입니다.

chain rule을 적용하여 위의 그림과 같이 각각 미분하여 곱하면 $\frac{\partial s}{\partial b}$가 나오게 됩니다.

위에서 구했었던 계산식 4개를 대입해주면 최종적인 식이 도출되게 됩니다.
이번엔 $\frac{\partial s}{\partial W}$를 계산해보겠습니다.
bias로 미분하여 업데이트를 시킬뿐아니라 모든 파라미터에 대해서도 역전파를 수행하여 파라미터 값들을 업데이트해줘야합니다.
똑같이 chain rule을 적용하면 사진과 같은 식이 만들어집니다.

$\frac{\partial s}{\partial W}$와 $\frac{\partial s}{\partial b}$식을 보면 파란색 부분이 동일한 것을 볼 수 있습니다. 그 파란색 부분은 $\delta$라고 합니다. 이렇듯 오차 역전파는 계산했던 지난 과정들이 다시 사용됨으로써 다시 계산하여 계산량을 늘리는 문제를 막을 수가 있는 것이 장점입니다.
그렇다면 $s$를 $W$ matrix로 미분하게 되면 어떻게 될까요?
$W$ matrix면 n*m matrix로 값이 나오고, 위에서 계산했던 초록색박스를 사용하면 $\delta x$라는 값이 도출되게 됩니다.

도출된 값에 전치를 한 이유는 위의 n*m matrix와 같은 dimesion을 갖추기 위해서 전치라는 trick을 주었다고 이해했습니다.

Reference

http://web.stanford.edu/class/cs224n/slides/cs224n-2021-lecture03-neuralnets.pdf https://eda-ai-lab.tistory.com/123?category=706160 https://happyzipsa.tistory.com/4 https://data-weirdo.github.io/data/2020/10/09/data-nlp-03.Wwc/ http://dsba.korea.ac.kr/seminar/?mod=document&uid=42 https://velog.io/@tobigs-text1314/CS224n-Lecture-3-Word-Window-Classification-Neural-Networks-and-Matrix-Calculus#4-matrix-calculus https://wikidocs.net/30682 https://stellarway.tistory.com/29

Lecture 2 - Word Vectors and Word Senses

Wed, 14 Apr 2021 09:56:03 GMT

작성자 : 동덕여자대학교 정보통계학과 한유진

1. Word2Vec

one-hot encoding의 단점(각 단어 간의 유사도 계산X)을 극복하기 위해 나온 개념입니다.
main idea : 비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가집니다.
CBOW 방식 : context word(맥락 단어)의 one-hot vector가 입력, 중심 단어의 on-hot vector가 출력인 경우
Skip-gram 방식 : 중심 단어의 on-hot vector가 입력, context word(맥락 단어)의 one-hot vector가 출력인 경우
이러한 모델들의 Loss를 최소화 시키기 위해 Gradient Descent를 이용하여 가중치를 계속적으로 업데이트합니다.
하지만 Gradient Descent는 loss를 계산할때 전체 train set을 사용하기에 많은 계산량이 필요합니다. 본강의에서는 이를 보완하고 Word2Vec의 효율성을 높이기 위한 3가지 방법을 소개합니다.

1-1 Word2Vec의 효율성을 높이는 방법

1) Stochastic Gradient Descent(SGD)

학습 데이터 중에서 랜덤하게 샘플을 한개씩 뽑아 gradient를 계산한 후에 업데이트하는 방식입니다.
장점 : 계산량이 적고 학습이 빠르고 local minimum에 빠지지 않고 학습될 수 있습니다.
단점 : 성능이 좋지 못하고, wore vector가 매우 sparse해집니다.(벡터나 행렬이 sparse하다는 것은 벡터나 행렬의 값 중 대부분이 0이고 몇몇 개만 값을 갖고 있다는 것을 뜻함. one-hot encoding으로 만들어진 벡터는 0이 대부분이기 때문에 sparse한 벡터가 되는 것)
이렇게 Sparse한 vector는 0에 해당되는 위치에서 계산을 해도 계속해서 0이기에 gradient가 update되지 않습니다. -> 불필요한 계산이 일어나 SGD에서 문제가 발생합니다.

2) Negative Sampling

(본강의에서 Skip-gram을 예시로 설명하였습니다)

Word2Vec은 출력층이 내놓는 스코어값에 softmax를 적용해 확률값으로 변환한 후 이를 정답과 비교해 backpropa하는 구조 -> 계산량 매우 많습니다.
negative sampling는 말그대로 parameter을 update시킬 negative sample을 뽑는것입니다. 단어에 대한 어떤 노이즈 분포 $P(w)$를 가정하고, 분석 대상이된 corpus외에 가정한 분포로 부터 random sampling with probability방식으로 학습할 단어 몇개를 추출하여 목적함수를 근사하는 방법입니다. 논문에 따르면 다음의 식과 같이 unigram model의 3/4 power를 적용한것이 실험결과가 가장 좋다고 합니다 $P(w) = \frac{U(w)^{3/4}}{Z}$

objective function

main idea : true pair와 noise pair에 대해 binary logistic regression을 훈련

$c$ : 중심 벡터 $o$ : 맥락 벡터 $k$ : 노이즈 벡터 (랜덤하게 선택된 벡터. 실제 맥락벡터 아님) $u$ : 중심 벡터와 hidden layer 사이의 가중치 $v$ : 맥락 벡터와 hidden layer 사이의 가중치
negative sample의 목적함수를 작아지게 만들어야합니다. $u^Tv$는 중심 벡터와 맥락 벡터간 코사인 유사도를 의미하기 때문에 앞에 term은 실제이니까 커지길 원하고, 뒤에 term은 negative sample을 분류하기 위한식이기 때문에 작아지길 원합니다. 즉 True pair는 중심 벡터와 맥락 벡터가 가까이 있을수록(코사인 유사도가 클수록) 손실이 0에 가깝고, Noise pair는 중심 벡터와 노이즈 벡터가 멀리 있을수록(코사인 유사도가 작을수록) 손실이 0에 가까움을 의미합니다.

3) Subsampling Frequent words

자주 등장하는 단어는 적게 등장하는 단어들 보다 정보의 가치가 떨어집니다. 그렇기에 말뭉치에서 자주 등장하는 단어는 학습량을 확률적으로 감소시키는 기법입니다.
subsampling은 특정 단어 몇개를 분석에서 제외하는 점이 매 iteration마다 몇개의 단어만 학습하는 negative sampling과 구분되어집니다.
i번째 단어(𝑤𝑖)를 학습에서 제외시키기 위한 확률은 아래와 같습니다.
𝑓(𝑤𝑖)는 해당 단어가 말뭉치에 등장한 비율(해당 단어 빈도/전체 단어수)를 말합니다. 𝑡는 하이퍼파라미터로 연구팀에선 0.00001을 권하고 있습니다.
만일 𝑓(𝑤𝑖)가 0.01로 나타나는 빈도 높은 단어('은/는')는 위 식으로 계산한 𝑃(𝑤𝑖)가 0.9684나 되어서 100번의 학습 기회 가운데 96번 정도는 학습에서 제외하게 됩니다. 반대로 등장 비율이 적어 𝑃(𝑤𝑖)가 0에 가깝다면 해당 단어가 나올 때마다 빼놓지 않고 학습을 시키는 구조입니다. cf) subsampling과 negative sampling에 쓰이는 확률값들은 고정된 값이기 때문에 학습을 시작할 때 미리 구해놓게 됩니다.
2. Count Based : Co-occurrence matrix(동시발생행렬)
word prediction methods에는 count based와 direct prediction, 크게 두가지 범주로 나눌 수 있습니다.
Skip-gram은 중심 단어를 기준으로 맥락 단어가 등장할 확률을 계산하기 때문에 window size를 늘려도 전체 단어의 동반출현 빈도수와 같은 통계정보를 내포하지 못합니다. 이러한 정보를 global co-occurrence statistics라고 합니다.이를 위해 count-based의 Co-occurrence matrix가 등장하게 되었습니다.

1) Window based co-occurrence matrix (단어-문맥 행렬)

아래 그림은 문장들을 window size가 1인 co-occurrence matrix로 표현한 예제입니다.
Word2Vec과 매우 유사하며 한 문장을 기준으로 window에 각 단어가 몇 번 등장하는 지를 세어 구성합니다. syntatic(구문분석),semantic(의미분석)한 정보를 얻을 수 있습니다.
co-occurrence matrix가 대각을 기준으로 대칭하기 때문에 좌우측 어디서 등장하는지는 고려하지 않습니다.

2) Word-Document matrix (단어-문서 행렬)

한 문서를 기준으로 단어의 등장 횟수를 행렬로 나타내는 방법입니다. Word-Document matrix는 관계가 있는 단어가 같은 문서에서 빈번하게 등장할 것이라는 전제에서 출발합니다. LSA(잠재적 의미 분석)를 가능하게 하는 기법입니다.
하지만 단어의 개수가 증가함에 따라 차원이 커지게 되고, 저장공간을 많이 필요로 하는 문제들이 발생하기 때문에 차원을 low하게 만들어주어야 합니다.
주로 해당 matrix를 만든 뒤 SVD, LSA, HAL, LSI등의 방법을 통해서 차원을 축소해서 사용합니다.
3. GloVe(Global Vectors for Word Representation)
count based와 direct prediction의 장점을 동시에 가진 GloVe가 등장하게 됩니다.
corpus 전체의 통계정보 사용(co-occurrence matrix 장점) + 임베딩된 단어벡터 간의 유사도 측정 가능(Word2Vec 장점)

3-1 objective function

GloVe의 목적함수를 설계하기 전에 다음 표를 확인해봅시다. $X$ : 단어간의 co-occurrence matrix $X_{ik}$ : $k$번째단어가 $i$번째 단어와 같은 context 내에 등장한 빈도수 $X_{i} = \sum_{k} X_{ik}$ : $i$번째 단어와 같은 context 내에 등장한 모든 단어들의 빈도수의 총합 $P_{ik}=p(k|i) = \frac{X_{ik}}{X_{i}}$ : $i$번째 단어 주변(윈도우 크기는 사용자 지정)에 $k$번째 단어가 등장할 조건부확률
두 개의 단어 $i = ice$, $j = steam$ 이라고 가정했을때, 이 두 단어의 관계는 새로운 다른 단어 $k$ 와의 co-occurrence 확률을 이용해서 구할 수 있습니다.(두 단어의 차이점을 분석하기 위해서 $k$와 어떤 관계인지를 먼저 분석하는 것)
$solid$ -> $steam$보다는 $ice$와 자주등장 $gas$ -> $ice$보다는 $steam$과 자주등장 $water, fashion$ -> 둘다 관련있거나 없어서 1에 가까움

objective function 유도

crucial insight : 임베딩 된 중심 단어와 주변 단어 벡터의 내적이 전체 corpus에서의 동시 등장 확률이 되도록 만드는 것
아래의 식을 만족하는 $F$를 찾는것입니다.
$F(w_i,w_j,\tilde{w}k) = \frac{P{ik}}{P_{jk}}$ - (1) $F(w_{ice},w_{steam},w_{solid}) = \frac{P_{ice,solid}}{P_{steam,solid}} = \frac{P(solid|ice)}{P(solid|steam)} = \frac{1.9 \times 10^{-4}}{2.2 \times 10^{-5}} = 8.9$
하지만 단어 벡터 공간은 Linear structure를 가지고, 단어 $i,j$가 각각 단어 $k$와 동시 등장할 확률의 차이를 보는것이 목적이기 때문에 아래와 같이 $F$를 수정해줍니다.
$F(w_i - w_j,\tilde{w}k) = \frac{P{ik}}{P_{jk}}$ - (2)
좌변은 벡터, 우변은 스칼라 값을 가지기 때문에 단위를 맞춰줍니다.
$F((w_i - w_j)^T\tilde{w}k) = \frac{P{ik}}{P_{jk}}$ - (3)

<$F$는 다음 3가지 조건을 충족시켜야합니다> 1. 중심 단어는 context word로도 등장할 수 있기 때문에 단어 벡터간의 교환법칙 성립 $w \leftrightarrow \tilde{w}$
2. co-occurrence matrix X는 대칭행렬(symmetric matrix) $X \leftrightarrow X^T$
3. homomorphism(준동형) 조건 만족
$F(X-Y) = \frac{F(X)}{F(Y)}$
cf) homomorphism(준동형) ... $F(X+Y) = F(X)F(Y), \forall a, b \in \mathbb{R}$

이러한 조건을 만족시키는 함수는 지수함수이기 때문에 적용시키면 (4)와 같은 식이 만들어집니다. ($e^{x-y} = \frac{e^x}{e^y}$)
$F((w_i - w_j)^T\tilde{w}_k) = F(w_i^T\tilde{w}_k - w_j^T\tilde{w}_k) = \frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}$ - (4)
(4)번 식에 (3)번 식을 적용하면 (5)번과 같은 식을 도출할 수 있습니다.
$F((w_i - w_j)^T\tilde{w}k) = \frac{P{ik}}{P_{jk}}$ - (3)
$F((w_i - w_j)^T\tilde{w}k) = F(w_i^T\tilde{w}_k - w_j^T\tilde{w}_k) = \frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}$ - (4)
$F(w_i^T\tilde{w}_k) = P{ik} = \frac{X_{ik}}{X_i}$ -(5)
$F$는 지수함수이기 때문에 $log$를 취할 수 있게 됩니다.
$w_i^T\tilde{w}k = log(P{ik}) = log(X_{ik}) - log(X_i)$ - (6)
$w_k^T\tilde{w}i = log(P{ki}) = log(X_{ki}) - log(X_k)$ - (6)
(6)식에서 교환법칙 성립을 위해서 고정값인 $log(X_i)$를 $bias$ $term$으로 대체하였습니다.
$w_i^T\tilde{w}k = log(X{ik}) - b_i - \tilde{b}k$
$w_i^T\tilde{w}_k + b_i + \tilde{b}_k = log(X{ik})$ - (7)
지금까지 유도한 GloVe의 손실함수입니다.
하지만, $X_{ij} = 0$이면 $log(X_{ij}) \to \infty$ 이런 문제 때문에 손실함수에 weighting funtion을 함께 사용했습니다. $f(0) = 0$
또한, 사용될 가능성이 적은 단어들은 overweight되지 않아야하고, 특정단어의 빈도수가 매우 높아 $X_{ij}$값이 튀는 현상을 방지하기 위해서도 weighting funtion이 사용되었습니다.
$x_{max} = 100, \alpha = \frac{3}{4}$
최종 Glove의 손실함수입니다.
GloVe는 학습속도가 빠르며, Huge corpora에 대해서도 확장성을 가지기 때문에 small corpus나 small vector size에서도 좋은 성능을 보입니다.

3-2 Result

frog와 형태적으로 또는 의미적으로 비슷한 단어를 잘 선택합니다.(rare한 단어들에 대해서도 성능 good)
반의어 관계에 있는 단어쌍들이 비슷한 간격으로 2차원의 공간 내에 위치하고 있습니다.

4. How to evaluate word vector?

word embedding모델의 평가방법에 대해서 소개하겠습니다. 크게 외적(extrinsic)평가와 내적(intrinsic)평가로 나눌 수 있습니다.

1) Extrinsic Evaluation

현실 문제에 직접 적용했을때의 성능을 평가하는 방식입니다.
각종 자연어처리 system에 embedding을 직접 사용하여 시스템의 성능을 측정합니다. 대표적으로 NER(개체명 인식기)가 있습니다.
계산속도가 느립니다.
어떤 시스템이 문제인지, 아니면 시스템간의 교호작용 때문인지 평가하기가 어렵습니다.
밑에 평가표를 보면, 다른모델들에 비해 GloVE가 좋은 성능을 내는 것을 알 수 있습니다.

2) Intrinsic Evaluation

word embedding 자체의 성능을 측정하기 위해 specific/intermediate subtask를 통해 성능을 평가합니다.
계산속도가 빠릅니다.
현실 문제와의 상관관계가 확립되지 않는 한 실제로 도움이 되는지 판단하기 어렵습니다.

2-1) Intrinsic Evaluation - word analogies

A:B :: C:? 에서 물음표에 들어갈 단어를 유추하는 문제입니다.(ex.man:woman :: king:?)
?를 d라고 했을때, 다음식을 만족하는 d값을 찾는 것이라고 할 수 있습니다.
GloVe는 Semantic Word Analogies(의미론적 유추), Syntactic Word Analogies(구문적 유추) 모두에서 좋은성능을 보이는 것을 알 수 있습니다.

2-2) Intrinsic Evaluation - correlation evaluation

사전에 만들어 놓은 단어 쌍을 사람이 평가한 점수와, word vector간 거리 사이의 상관관계를 계산하여 word embedding이 잘되었는지를 평가하는 방식입니다.
GloVe가 좋은 성능을 보이는 것을 알 수 있습니다.

5. Word senses and word sense ambiguity

'pike'와 같이 다양한 의미를 가지고 있는 단어들은 굉장히 많습니다. 이를 하나의 word embedding으로 고정해버리면 제대로된 의미표현이 불가능합니다.
따라서, 이를 해결하기 위한 2가지 방법을 강의에서 소개하고 있습니다.

5-1 Improving Word Representations Via Global Context And Multiple Word Prototypes (Huang et al. 2012)

하나의 단어가 벡터 공간에서 서로 다른 cluster를 형성하는 경우, 해당 단어를 여러개로 분류해서 벡터를 생성합니다. (bank1 = 은행, bank2 = 둑, ...)

5-2 Linear Algebraic Structure of Word Senses, with Applications to Polysemy (Arora, …, Ma, …, TACL 2018))

한 단어의 서로 다른 의미를 나타내는 벡터들에 가중치를 부여하고 선형결합을 통해 새로운 word vector를 생성합니다. 이 단어벡터를 가지고 clstering했을때 이 단어가 어떤의미로 쓰였는지 내적인 의미까지 잘 파악하여 분류했습니다.

Reference

https://web.stanford.edu/class/cs224n/slides/cs224n-2020-lecture02-wordvecs2.pdf http://dsba.korea.ac.kr/seminar/?mod=document&uid=42 https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/09/glove/ https://wikidocs.net/22885 https://velog.io/@tobigs-text1314/CS224n-Lecture-2-Word-Vectors-and-Word-Senses#4-word-embedding-evaluation https://jeongukjae.github.io/posts/2cs224n-lecture-2-word-vectors-and-word-senses/ https://eda-ai-lab.tistory.com/122 https://web.stanford.edu/class/cs224n/slides/cs224n-2020-lecture02-wordvecs2.pdf https://velog.io/@skaurl/U-Week-4-Day-16 https://misconstructed.tistory.com/40 https://www.sallys.space/blog/2018/04/30/glove/ http://yonghee.io/glove/ https://wikidocs.net/24559 https://reniew.github.io/22/ https://yjjo.tistory.com/14 https://yngie-c.github.io/nlp/2020/05/28/nlp_word2vec/

Lecture 1 - Introduction and Word Vectors

Wed, 14 Apr 2021 09:53:04 GMT

작성자 : 서울여자대학교 정보보호학과 강의정

CS224n

Lecture 1 - Introduction and Word Vectors

Lecture Plan

The course
Human language and word meaning
Word2vec introduction
Word2vec objective function gradients
Optimization basics
Looking at word vectors

Human Language

언어는 불확실한 시스템이며 담고 있는 의미도 많지만 우리는 어느정도 의사소통을 잘 할 수 있다.
Yann Le Cun, "오랑우탄과 인간의 지능은 비슷하다"
- 하지만 오랑우탄은 인간처럼 행동할 수 없다.
- 인간에게는 Language가 있다.
Language는 약 100,000년전 발명된 것으로 예측되고 있다.
Writing은 약 5,000년 전에 발명된 것으로 예측되고 있다.
Language는 우리의 뇌에 압축되어 들어갈 수 있다.

So that's why language is good!!

How do we represent the meaning of a word

meaning

the idea that is represented by a word, phrase, etc
the idea that a person wants to express by using words, signs, etc
the idea that is expressed in a work of writing, art, etc.

Commonest linguistic way of thinking of meaning: denotational semantics

signifier (symbol) ⟺ signified (idea or thing)

How do we have usable meaning in a computer?

WordNet

: a thesaurus containing lists of synonym sets and hypernyms

synonym sets containing "good"

hypernyms of "panda"

Problems with resources like WordNet

Great as a resource but missing nuance
- e.g. "proficient" is listed as a synonym for "good". This is only correct in some contexts.
Missing new meanings of words
- e.g., wicked, badass, nifty, wizard, genius, ninja, bombest
- Impossible to keep up-to-date!
Subjective
Requires human labor to create and adapt
Can’t compute accurate word similarity

One Hot Vector

Traditional NLP (약 2012년까지) Vector dimension = number of words in vocabulary (e.g., 500,000)

Problem:

Vector Dimension
similarity

Solution:

Could try to rely on WordNet’s list of synonyms to get similarity?
- But it is well-known to fail badly: incompleteness, etc.
Instead: learn to encode similarity in the vectors themselves

Distributional Semantics

One of the most successful ideas of modern statistical NLP
When a word w appears in a text, its context is the set of words that appear nearby (within a fixed-size window)

Word Vector

word embeddings or word representations
Vector의 크기는 최소 30이며 크게는 1,000 ~ 4,000 정도이다.
vector space : word를 배치한 공간

Word2Vec

: Word2vec (Mikolov et al. 2013) is a framework for learning word vectors

Idea

We have a large corpus of text
Every word in a fixed vocabulary is represented by a vector
Go through each position t in the text, which has a center word c and context ("outside") words o
Use the similarity of the word vectors for c and o to calculate the probability of o given c (or vice versa)
Keep adjusting the word vectors to maximize this probability

Example windows and process for computing $$P(W_{t+j} | W_t)$$

Next..

Likelihood

For each position t = 1, … , T, predict context words within a window of fixed size m, given center word Wj
유일한 매개 변수는 단어들의 벡터이다.

Objective function

: objective function is the (average) negative log likelihood

마이너스를 붙여 Minimize하는 방향으로 바꾼다.
1/T를 곱하여 평균을 계산한다.
추후 곱셈을 덧셈으로 바꾸기 위해 log를 붙인다.

Minimizing objective function ⟺ Maximizing predictive accuracy

$$P(W_{t+j}|W_t;\theta)$$ 계산

중심 단어를 기준으로 해당 맥락에서 예측될 확률을 구합니다.

C : Center Word, O : context Word
exponential을 사용하여 양수 표현
Vector 간의 dot product로,두 Vector 간의 유사도 측정

Optimization

Object Function을 최소화 하는 $$\theta인 (u, v)$$를 찾는다.

𝜽

V개의 단어, d차원, u와 v를 갖으므로 2dV차원이다.
각 벡터들은 Random Value로 시작한다.

Word2vec derivations of gradient

Object Function 최소화를 위해 center word, context word로 각각 미분

gradient descent를 활용하여 예측율을 올릴 수 있다!

Reference

CS224n 2019 - lecture01. Introduction and Word Vector (slides)(https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture01-wordvecs1.pdf)

tobigs-text1415.log

Lecture 22 - BERT and Other Pre-trained Language Models

1. Contextual representation

2. History of Contextual Representation

2-1) semi-supervised sequence learning, Google, 2015

2-2) ELMO(Deep contextualized word representations)

2-3) GPT-1(improving language understanding by generative pre-training, openAI, 2018)

** * Transformer VS LSTM 기법 비교 **

3. BERT

3-1) problem with previous methods

3-2) problem with previous methods

- Masked LM

Masked LM 을 통한 양방향 학습을 사용하는 모델이 Bert이다.

- *Bert VS GPT vs ELMO *

3-3) Bert pretraining

3-3-1) Bert pretraining 방법

3-3-2) Bert pretraining의 input

3-3-3) Bert pretraining procedure

3-4) Bert fine tuning

3-5) Experiment

4. Post-Bert pre-training Advancement

4-1) ROBERTA(A Robustly Optimized BERT Pretraining Approach)

https://arxiv.org/pdf/1907.11692.pdf

** 4-3) ALBERT(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS)**

https://arxiv.org/pdf/1909.11942.pdf

** 4-4) T5(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)**

https://arxiv.org/pdf/1910.10683.pdf

** 4-5) ElecTra(ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS)**

https://arxiv.org/pdf/2003.10555.pdf

5. Distillation

5-1) Distillation

5-2) Distillation의 기술

5-3) Distillation이 성능이 좋은 이유

6.conclusion

reference

Lecture 18 - Constituency Parsing and Tree Recursive Neural Networks

Constituency Parsing

Simple Tree RNN

Syntactically-United RNN

Recursive Matrix - Vector RNN

RNTN

Limitation

Reference

Lecture 15 - Natural Language Generation

Recap : LMs and Decoding Algorithms

NLG?

LM and Conditional LM

Decoding Algorithms

NLG tasks and neural approaches to them - text summarization

text summarization?

Pre-neural summarization

ROUGE?

Neural summarization (2015 - present)

Dialogue

NLG evaluation

NLG Using Unpaired Corpus

Reference

Lecture 14 - Transformer and Self-Attention

Contents

1. Introduction

1-1. RNN, CNN, and Self-Attention

RNN

CNN

Self-Attention

Complexity

2. Self-Attention and Transformer

2-1. Self-Attention Details

0) Transformer Hyperparameters

1) Q,K,V 벡터 얻기

2) Scaled dot-product Attention 수행

3) Head 통합하기

4) Fc layer 통과하기

2-2. Transformer

1) 3가지 Attention block

2) Positional Encoding

Why cos & sin, not int

3) Feed Forward NN

4) Add & Norm

3. Local self-attention and Image Transformer

3-1. Using Self-attention for Image tasks

- Bert VS GPT vs ELMO

4-3) ALBERT(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS)

4-4) T5(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)

4-5) ElecTra(ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS)