simba-pumba

How to ensemble

Sun, 11 Jun 2023 09:15:44 GMT

How to Handle Imbalanced Dataset

Sun, 11 Jun 2023 09:15:32 GMT

TBU

How to Improve Performance without Domain knowledge or Prior information

Sun, 11 Jun 2023 09:15:10 GMT

TBU

[CODE] Augmentation is all you need

Sun, 11 Jun 2023 09:14:58 GMT

tbu

Time Series Anomaly Detection Survey

Sun, 11 Jun 2023 09:14:45 GMT

TBU

k8s 명령어 정리

Sun, 11 Jun 2023 09:14:13 GMT

TBU

Graph Convolutional Neural Networks for Web-Scale Recommender System

Mon, 24 May 2021 08:28:15 GMT

Pinterest + GraphSage = PinSage

Ying, Rex, et al. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. 907 citations.

Hamilton, William L., Rex Ying, and Jure Leskovec. "Inductive representation learning on large graphs." 31st Conference on Neural Information Processing Systems (NIPS 2017). 3378 citations.

해당 논문에서 제안한 모델인 PinSage에 대해 알아봅시다.

Chapter 19, CS224W

Overview

PinSage는 실제 서비스 되고 있는 핀터레스트(Pinterest)에 적용된 추천알고리즘으로, 학습에 쓰인 데이터는 pin과 board로 구성된 3 bililon 노드와 18 bilion 엣지를 가지고 있습니다.

PinSage는 GCN 모델로, 그래프 데이터에 랜덤 워크(randowm walks)와 graph convolution을 적용한 방법론입니다.

추천시스템에 적용하기 위해서는 효율적인 연산이 중요하기 때문에, GCN 모델을 서빙하기 위한 여러가지 방법을 제안하였습니다.

Introduction

당시에 GCNs(Graph Convolutional Networks)은 추천시스템을 포함한 다양한 분야에 적용되면서 많은 발전이 되었습니다. GCN의 핵심은 이웃들(neighbohoods)로부터 특징 정보를 반복적으로 모으는(aggregate) 방법을 학습하는 것입니다. 이때, convolution이라고 불리는 연산을 사용하여 one-hop 이웃들의 정보를 변형하고(transform) 모으게(aggregate) 됩니다. 이 one-hop convolution layer를 여러 개 쌓음으로써 이웃의 정보를 계속적으로 변형하고 모으기 때문에, 멀리 떨어진 이웃들의 정보까지 닿을 수 있습니다. 기존의 content based RNN 모델과는 다르게, GCN은 contents 뿐만 아니라 그래프 구조까지 활용합니다.

그러나, GCN-based 모델은 scailability가 떨어지기 때문에, 수십억 개의 노드와 엣지를 가지며 시간에 따라 변하는 추천 데이터에 적용하는 것이 매우 어렵습니다.

해당 논문에서는 높은 scailability를 가지고 있는 random walk기반 GCN 모델을 제안하였습니다.

PinSage를 요약하자면 다음과 같습니다.

Scailability

On-the-fly convolution (Transductive vs. Inductive) 기존 GCN은 full-graph에서 연산을 진행한 반면, PinSage는 target node를 선정한 뒤 이웃을 sampling하는 방식(computation graph를 생성)으로 진행합니다. 따라서 전체 그래프에 해당하는 연산을 필요로 하는 GCN의 단점을 완화시켰습니다.
Producer-consumer minibatch construction Producer와 consumer의 역할을 CPU와 GPU로 나누어 진행하였습니다. CPU를 computation graph 생성을 위한 sampling을 진행하고, GPU는 생성된 computation graph로 모델 학습을 진행합니다.
Efficient MapReduce inference MapReduce와 같은 파이프라인을 설계하여 반복적인 연산을 최소화하면서 빠르게 임베딩 벡터를 생성할 수 있습니다.

New techniques

Constructing convolutions via random walks 효율적인 연산을 위해 computation graph를 미리 생성한다고 하였습니다. 이때, 무작위하기 이웃을 생성하는 것은 비효율적이기 때문에, short random walk를 사용합니다.
Importance pooling Random walk를 활용해 노드들끼리 유사성(similarity)을 구할 수 있습니다. 해당 논문에서는 이 유사성을 importance score로 정의하였으며, 이를 aggretation과 pooling 단계에 사용하여 가중(weighted)연산을 하였고, 46% 성능 증가를 가져왔습니다.

Figure 1: Overview of our model architecture using depth-2 convolutions

Curriculum training 학습을 진행할 때마다 좀 더 어려운 예시를 모델에 보여줌(curriculum traning)으로써, 12%의 성능 증가를 가져왔습니다.

Method

PinSage의 구조, 학습 방식, MapRudece pipleline에 대해 살펴보겠습니다.

Node: item (pin and board)
Feature: visual, textual feature

Problem setup

Pinterest의 contents인 pin은 유저의 주 관심사이며, board는 pin의 collections입니다. 해당 추천시스템은 이러한 pins를 잘 임베딩하고자 하는 것입니다. 임베딩을 위해 그래프를 정의해야 하는데, 여기서는 pin의 집합 $I$ 와 board의 집합 $C$을 이분 그래프(bipartite graph)로 생성하였습니다.

Bipartite graph, Chapter 19, CS224W

Notations $I$: set of items $C$: user-defined contexts $u \in I$: pin/item $x_u \in \mathbb{R}^d$: real-valued attributes (content information, i.e., text and image feature)

Goal bipartite graph와 node feature $x_u$를 활용하여 node embedding을 수행함.

Model Architecture

Localized convolution

Step 1: $z_v, \forall v \in \mathcal{N}(u)$를 linear layer로 변형함. Step 2: aggregation/pooling $\gamma$ 적용하여 $n_u$ 벡터 생성함. Step 3: 노드의 벡터 $z_u$와 aggregation된 이웃 벡터 $n_u$를 concatenate, linear layer로 변형함. Step 4: nomalization

Inportance-based neighborhoods(Importance pooling) PinSage에서 핵심인 inportance score에 대해 살펴봅시다. 기존의 GCN과 다르게, PinSage는 타겟 노드에게 상대적으로 많은 영향을 주는 노드들을 선별하여 aggregate/pooling을 진행하였습니다.

Step 1: 타겟 노드 $u$에서 random walk를 시작함. Step 2: random walk로 방문한 노드들의 방문 횟수를 계산함. Step 3: 타겟 노드 $u$의 이웃들 중에서 이전 스텝에서 계산한 값 상위 T개를 선출함.

해당 밥법은 두 가지 관점에서 이점을 가져옵니다.

메모리를 줄일 수 있다.
중요한 이웃들만 고려하여 노드를 업데이트 시킬 수 있다.

또한 Step 2에서 계산한 값을 $L_1$ normarlization을 하여 aggregate/pooling의 weight으로 사용하였습니다.

Stacking convolutions 하나의 Convolution layer 파라미터는 $Q, q, W, w$가 있으며, node들끼리 공유하게 됩니다. Algorithm2는 minibatch에 어떻게 convolution layers를 적용하는 지 보여줍니다.

Convolution이 끝난 후 생성된 target node의 representation은 linear layers를 한 번 더 거치게 되고, 최종 output embedding이 만들어지게 됩니다.

모델 파라미터 정리: 각 convolution layer의 weight과 bias: $Q, q, W, w$ 마지막 linear layer: $G_1,G_2, g$

Model Training

PinSage는 max-margin ranking loss를 학습에 사용하며, item pair인 $(q,i)\in \mathcal{L}$을 가깝도록 임베딩하게 됩니다.

수십억 개의 embedding을 학습하기 위해 어떻게 효율적으로 연산을 했는지 살펴보도록 하겠습니다.

Loss function Basic idea: postive pair의 내적을 최대로 만들고, negative pair의 내적값을 미리 정의한 margin $\Delta$만큼 거리를 유지하게 만들자.

, where $P_n(q)$은 negative sample의 분포입니다.

Multi-GPU training with large minibatches Producer-consumer minibatch constructions

Sampling negative items PinSage는 학습의 효율을 개선하기 위해 500개의 negative sample을 minibatch마다 공유할 수 있도록 하였습니다. 해당 논문에서는 두 가지의 sampling 방법을 제안하였습니다.

무작위 샘플링 (unifonly sample) 전체 아이템세트에서 무작위로 negative item을 뽑는 것으로, postive와 negative를 구분하기 매우 쉽다.
Hard negative sampling "hard" negative item을 negative sample로 정하여 학습시키 방법으로, positive sample은 아니지만, 상대적으로 가까운 negative sample을 뽑는 방법이다. Personalized PageRank score(C. Eksombatchai, et al.(2018))를 활용하여 item의 score를 결정하게 되고, 2000-5000위 사이의 ranked item을 뽑게 된다.

논문에서는 hard negative sample을 학습에 사용하면, 수렴을 위해 2배의 epoch이 요구된다고 하였습니다. 이를 해결하기 위해, 처음부터 har sample을 사용하는 것이 아닌, 학습을 진행할수록 hard negative sample을 하나씩 추가하는 curriculum training을 적용하였습니다.

Figure 2: Random negative examples and hard negative examples

Node Embeddings vis MapReduce

모델 학습이 끝난 후에, 학습 데이터의 모든 아이템과 그 외의 아이템을 임베딩하는 것은 계산적으로 매우 어려운 일입니다. 따라서 해당 논문에서는 MapReduce approach를 개발하였으며, 반복적인 계산을 줄여 효율적인 연산이 가능하도록 하였습니다.

Figure 3: Node embedding data flow to compute the first layer representation using MapReduce

Experiments

평가를 위해 두 가지 태스크를 진행하였습니다.

Recommending related pins Related pin을 추천하기 위해 임베딩 공간에서 k nearest neighbor를 선택합니다.
Recommending pins in a user's home/news feed Pin을 추천하기 위해, 유저가 가장 최근에 추가한 아이템과 임베딩 공간에서 가장 가까운 아이템을 추천합니다.

Chapter 19, CS224W

Feature used for learning 각각의 pin은 text(title)과 image 데이터와 관련되어 있습니다. 따라서 visual embedding(VGG-16, $d=4096$), textual embedding (Word2Vec, $d=256$)를 concatenate하여 node feature를 생성합니다.

Baselines for comparison

Visual embedding: 이미지 임베딩 공간에서 nearest neighbor 사용
Annotation embedding: annotation 임베딩 공간에서 nearest neighbor 사용
Combined embedding: visual + annotation 벡터에 2-layer multi-layer 모델을 사용
Graph-based method: random-walk-based 방법을 사용하여 타겟 pin의 top K 이웃을 추천

Table 1: Hit-rate and MRR for PinSage and content-based deep learning baselines

Conclusion

해당 논문은 random-walk graph convolutional network를 활용한 PinSage라는 모델을 제안하였습니다.
PinSage는 기존의 GCN 모델이 가지고 있던 scailability의 한계를 극복하기 위해 inductive setting과 MapReduce와 같은 알고리즘을 활용하였습니다.
실제 성능과 효율성을 측정하기 위해 A/B test를 진행하였고, 좋은 결과를 보여주었습니다.

SASRec: Self-Attentive Sequential Recommendation 리뷰

Tue, 04 May 2021 11:32:50 GMT

작성자: 이예지

Overview

해당 논문은 기존의 sequential recommender인 Markov Chains(MC)과 RNN 계열의 단점을 동시에 보완하고자 하였습니다.
이를 위해 당시 NLP task에서 sota인 Transformer 모델을 추천 시스템에 도입하였습니다. (Sequential data 특성 상, NL model에 적용하는 것은 어렵지 않기 때문에 해당 논문에서도 모델에 큰 변형을 가하지는 않았습니다.)
제안된 모델은 기존의 추천시스템에서 좋은 성능을 보여주던 MC/CNN/RNN based model을 뛰어넘는 실험 결과를 보여주었습니다.

이번 리뷰에서는 Transformer의 핵심만을 간단히 살펴보고, 기존 Transformer와의 차이를 위주로 진행하겠습니다.

Introduction

Sequential recommender system은 유저의 최근 행동의 context를 기반으로 한 추천을 목표로 하고 있습니다.
이런 sequential recommender model을 개발하기 힘든 점은 입력 공간의 크기가 매우 크다는 것입니다. Context로 사용되는 유저의 행동에 따라 지수적으로 입력 공간이 증가하게 됩니다.

기존의 sequential recommender를 간략하게 살펴봅시다.

Markov Chains (MCs) 유저의 다음 행동이 바로 이전의 과거 혹은 몇 개 이전의 행동에 영향을 받을 것이라는 가정을 합니다. 이러한 가정은 너무 over-simplfy하고 매우 희소한(sparse) 데이터에만 잘 작동한다는 단점을 가지고 있습니다. 따라서, 복잡한 관계를 학습하는 것은 힘듭니다.
Recurrent Neural Networks (RNN) RNN 기반의 모델, 대표적으로 GRU recommender 같은 경우는, 과거의 모든 행동을 모델의 입력값으로 넣어, 이를 요약한 정보를 가지고 다음 행동을 예측합니다. 상대적으로 복잡한 모델을 학습하기 위해 많은 양의 데이터를 요구하기 때문에, 희소한 데이터에서는 좋은 성능을 보여주기 힘들다고 합니다.

저자는 이 둘의 단점을 보완하고자 새로운 모델을 추천 시스템에 적용하게 됩니다.

이미지: (left) Factorizing personalized Markov chains for next-basket recommendation / (center, right) BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer

기존의 딥러닝에서 빈번하게 사용되는 CNN, RNN 계열 모델과는 다르게 Transformer는 self-attention이라는 새로운 메커니즘을 사용합니다. Self-attention은 문장을 구성하는 단어들 간 의미적, 구조적 패턴을 기존의 모델들보다 더 잘 파악하는 결과를 보여주었고, 이에 따라 기계 번역과 같은 어려운 태스크에서 매우 좋은 성능을 보여주었습니다. 저자는 self attention을 사용하는 Transformer로 MCs, RNN 모델의 한계를 극복하고자 하였습니다.

위의 이미지(page 6)에서 그림을 보시면 MCs, RNN, Transformer의 접근 방식의 차이를 확인할 수 있습니다. 앞서 설명했듯 MCs, RNN 계열 모델의 가정이 그림에서 드러나며, Transformer(Self-attention)와 어떤 차이가 있는지 확인할 수 있습니다. (Parallelization 관점에서도 생각해볼 필요가 있습니다.)

Transformer

2017년, Vaswari, et al. 의 "Attention is all you need"에서 발표된 Transformer에 대해 간략하게 살펴보겠습니다. Transformer의 설명에 사용된 이미지는 Jay Alarmmar의 블로그에서 가져왔으며, 이곳에 Transformer의 자세한 설명이 있으니 참고하시면 좋을 것 같습니다.

Overview

Transformer는 크게 encoder blocks(stacking)과 decoder blocks(stacking)으로 구성되어 있습니다.
Encoder block은 Multi-head attention, decoder block은 Masked Multi-head attention, encoder-decoder attention을 사용합니다.

이 3가지 self-attention과 positional encoding을 간단하게 살펴보겠습니다!

Encoder block vs. Decoder block

Encoder, decoder block의 가장 큰 차이는 unmasked attention을 사용하였는지, masked attention을 사용하였는지 입니다. 위 그림의 입력 벡터를 보시면 좋을 것 같습니다.

(참고로, encoder, decoder block의 입력 벡터와 이를 통과한 벡터의 사이즈는 동일하게 유지됩니다. 그림에서도 사이즈가 4로 유지되는 것을 확인할 수 있습니다. 이러한 사이즈를 유지하기 위해, multi-head attention의 파라미터 사이즈 설정에 주의해야 합니다.)

Encoder block

Encoder block은 크게 두 개의 레이어(Multi-headed attention, Feed Forward Neural Network)로 구성됩니다.
MH attention과 FFNN에서 중요하게 살펴볼 차이점은 input들의 dependency의 유무입니다. (이 부분을 잘 기억해주세요.)

Multi-headed attention

"The animal didn't cross the street because it was too tired."

이 문장에서 it의 가리키는 혹은 내포하는 의미가 무엇일까요? 아마 'because', 'was'처럼 바로 주변 단어들은 아닐 것입니다. 여기서 중요한 것은 'it'이 의미하는 단어는 충분히 멀리 떨어져있을 수 있으며, 가리키는 혹은 내포한다라는 의미는 가장 유사한 단어(연관성이 높은)를 찾는 문제일 수 있습니다. 이를 모델에 반영하고자 self-attention이 등장합니다.
Self-attention을 계산하는 것은 복잡하지 않습니다. Step1, step2 그림을 참고하시면 됩니다. 여기서 중요한 것은 Q,K,V 각각의 의미를 이해하는 것입니다. (Q,K,V는 마치 파이썬의 dictionary 객체와 같은 역할을 하고 있는데, Q: 내가 찾고하는 key value, K: dict에 저장된 keys, V: 각 key에 해당하는 value 라고 이해할 수 있습니다. 내가 어떤 key의 값을 찾기 위해, dict에서 key를 기준으로 찾아, 값을 가져오는 느낌입니다.)
만약 사람들에게 문장 안에서 'it'이 가리키는 단어를 고르라고 한다면, 모두가 같은 답변을 하지 않을 수 있습니다. 특히 더 복잡한 문장에서는 더더욱 그럴 것입니다. 이를 모델에 반영하고자 multi-headed attention을 사용합니다. (여기서 "multi-headed"는 서로 다른 사람의 시선을 앙상블하는 느낌으로 볼 수 있을 것 같습니다.)

Multi-headed attention 연산도 그림처럼 간단합니다. 여기서 주목할 만한 것은 출력 벡터의 사이즈입니다. (위에서 잠깐 언급했듯이, 사이즈를 유지하기 위해 head의 개수 등을 고려해줘야 합니다.)

Feed Forward Neural Network

(위에서 말했듯이 MH attention과 FFNN에서 중요하게 살펴볼 차이점은 input들의 dependency의 유무입니다.) 같이 논의해봅시다 :)

Decoder block

Decoder block은 살펴볼 두 가지는 masked multi-head attention과 encoder-decoder attention 입니다.

Masked Multi-headed attention

Decoder 부분부터는 실제 태스크를 풀기 위한 역할을 수행하기 위해서 masking을 해줍니다.
예를 들어, "아버지/가/방/에/들어가다"라는 문장이 있고, 순차적으로 다음에 올 단어 예측을 위해 "아버지/", "아버지/가", "아버지/가/방", ... 이런식으로 모델에 입력을 해줘야합니다.
Transformer에서는 masking을 위해 매우 간단하게 -inf라는 값을 주었는데, 이는 sigmoid 혹은 softmax를 만났을 때 0의 값을 가지기 때문입니다.

Encoder decoder attention

해당 attention이 multi-head attention과 다른 점은 K,V를 encoder block에서 가져오는 것입니다.
즉 내가 찾고 싶어하는 Query는 decoder에서 생성하고 dictionary는 encoder에서 생성된 것을 쓰는 것입니다.

Positional encoding

Self-attention을 살펴보았을 때, 내가 알고싶은 Q값과 유사한 쌍을 찾기 위해 모든 key-value를 살펴본 것을 확인할 수 있습니다. 즉, 나랑 얼마나 떨어져있는지에 대한 위치 좌표는 무시됩니다. 하지만 문장에서는 locality가 어느 정도 중요할 수 있고, 이를 입력 벡터에 어느 정도 반영하고자 positional encoding을 해주게 됩니다.
모델의 입력 시퀀스를 그대로 넣어주고 self-attention을 진행하는 것 대신, 간단하게 입력 시퀀스에 positional 값을 더해주면 됩니다.

Summary

Transformer GIF

Methodology

SASRec이 Transformer를 어떻게 추천 시스템에 적용하였는지 살펴보겠습니다. __Transformer와 일치하는 부분은 생략하였습니다. __

A. Embedding Layer

학습을 위해 action set의 사이즈는 $n$으로 고정하였습니다.
따라서 전체 아이템 임베딩 행렬의 사이즈는 $|I|\times d$, 입력 임베딩 행렬의 크기는 $n\times d$ 입니다.
앞서 언급한 positional encoding은 입력 벡터에 더해주는 형태이기 때문에 사이즈는 입력 임베딩 행렬과 동일합니다.
기존 Transformer와 차이가 있다면, 여기서는 Positional encoding을 고정된 값이 아닌, 학습 파라미터로 설정했다는 점입니다. (고정 positional encoding은 성능이 안 좋았다고 합니다.)

B. Self-Attention Block/C. Stacking Self-Attention Block/D. Prediction Layer

B.Self-Attention Block

Encoder, Decoder block을 따로 구분하는 것 대신, 새로운 self-attention block을 제안함.
실험을 위해 2개의 self-attention block을 쌓았음.
Causality) 실제 추천 알고리즘이 작동할 때는 미래의 유저 행동을 볼 수 없기 때문에, 저자는 미래의 유저 행동을 사용하는 것은 모순적이라고 생각하였습니다. 따라서, self-attention block에서 현재 이후 시점에 대해서는 masking을 진행했습니다.
즉, $Q_i$ and $K_j$, where $j>i$에 해당하는 연산을 masking 했습니다.

D.Prediction Layer

다음에 올 유저 행동을 예측하기 위해 적절한 item의 score를 최종적으로 예측하게 됩니다.
따라서 block의 출력 값 $F$에 사이즈가 $|I|\times d$ 인 $N$과 연산해줍니다. (임베딩 사이즈가 모두 $d$, 입력 임베딩 벡터 사이즈와 동일)
Shared Item Embedding) 이때, 저자들은 $N$을 새로운 학습 파라미터 임베딩 값 대신, 모델 입력값으로 사용되었던 $M$을 재활용하게 됩니다. (학습할 파라미터가 줄어, overfitting을 방지했다고 함 -> 실제 실험 결과가 개선됨.)

E. Network Training

F. Complexity Anlysis

공간복잡도

논문에서는 SASRec과 FPMC 모델을 비교하였습니다. (다른 기존의 모델들의 공간복잡도가 FPMC와 비슷하다고 합니다.)
여기서 SASRec은 $|U|$ 텀이 없는데, 실제로는 $|U|$이 매우 크기 때문에 SASRec이 비교적 효율적임을 알 수 있습니다.
$d$는 임베딩 사이즈로 $d<<|U|$ and $$d<<|I|$$이기 때문에 $d^2$ 무시함. ($|I|d$ : Item embedding matrix, $nd$: Positional encoding params)

시간복잡도

SASRec: Self-attention layer와 FFNN layer의 시간복잡도는 $n^2d+nd^2$
RNN-based: $n$
따라서, SASRec이 비교적 효율적이지 않을 수 있지만, 실제로 Transformer의 self attention과 ff layer는 병렬적으로 연산이 가능합니다. (발표자료 6페이지 그림을 살펴봅시다.)
반면, RNN-based는 순차적으로 진행할 수 밖에 없습니다. (참고자료)

Experiment

Datasets/Evaluation Metrics

실험 데이터셋은 총 4개이며 각각의 통계량은 발표자료를 참고해주세요.
평가 메트릭은 지금까지 다룬 페이퍼들과 같습니다.
저자들은 4가지의 질문을 던지며, 이에 대한 답을 실험결과로 보여주었습니다.

RQ1

RQ2

RQ3/RQ4

Summary

Introduction to Causal Inference: Lecture 4 Backdoor Adjustment & Structural Causal Models

Thu, 24 Dec 2020 06:34:59 GMT

Brady Neal의 introduction to causal inference 리뷰입니다. youtube: https://www.youtube.com/watch?v=dB8r4Afmobo&list=PLoazKTcS0Rzb6bb9L508cyJ1z-U9iWkA0&index=27 material: https://www.bradyneal.com/causal-inference-course My article will be uploaded to https://www.notion.so/GNN_YYK-0303f11d4fa0433792562333dea173a3.

Identification: the process of moving from a causal estimand to a statistical estimand (Lectrue 2 참고)

Identification을 위해서는 causal model이 필요합니다.

지난 3강에서 causal models을 위한 graphical models에 대해 공부했습니다. 이번 강의에서는 how to identify causal quantities와 how to formalize causal models을 다룹니다.

Sub-project on causal inference (Yong-min shin, GNN-YYK, Lecture 2)

The do-operator

강의에서 두 가지 텀, conditioning과 intervening이 등장합니다.

Conditioning $$T=t$$ 모집단에서 treatment $$t$$를 시행한 부분집합으로 범위를 제한하는 것과 같음.
intervention 모집단을 취하고 모두에게 treatment $$t$$를 시행한 것

이를 도식화 하면 다음과 같습니다.

Interventional distribution $$P(Y|do(T=t))$$는 obsevational distribution $$P(Y)$$와 다릅니다. $$P(Y)$$ 혹은 $$P(Y,T,X)$$와 같은 obsevational distribution은 do operator를 갖지 않기 때문에, 어떤 실험을 수행하지 않고도 데이터를 관찰할 수 있습니다. 따라서 $$P(Y,T,X)$$에서 데이터를 obsevational data라고 부릅니다.

위에서 identification 정의를 이해하셨다면, do operator를 가진 표현 $$Q$$에서 do 를 제거할 수 있다면 $$Q$$는 identifiable 되었다!는 것을 이해할 수 있을 것입니다.

그렇다면, do operator는 무엇을 의미할까요? 일반적으로 do 는 확률 $P$에서 conditioning bar 뒤에 나타납니다. 이때는 intervention do($$t$$) 가 발생한 다음을 의미하는 것으로, 즉 post-intervention 을 의미합니다.

예를 들어, $$E[Y|do(t), Z=z]$$에서 $$Z=z$$인 subpopulation에서(conditioning), 모두에게 treatment $$t$$를 시행한 후(intervening)의 기대되는 값을 의미합니다. 그렇다면 $$E[Y|Z=z]$$는? 단순히 개인이 일반적으로 treatment $$T$$를 받은 (pre-intervention) 집단에서 기대되는 값을 의미합니다.

Main assumption: modularity

Modularity를 이해하기 위해서는 causal mechanism 에 대해 이해해야 합니다. Causal mechnism을 아주 간단히 표현한다면, conditional distribution $$P(x_i | pa_i)$$ 입니다.

Causal identification 결과를 얻기 위해서 중요한 가정은 "interventions are local" 입니다. 좀 더 자세하게 말하자면, 변수 $$X_i$$에 intervening하면, 오직 $$X_i$$의 causal mechanism만 변하게 됩니다. 즉 다른 변수들을 만드는 causal mechanisms은 변하지 않게 됩니다. 이런 의미로 causal mechnisms은 modular입니다.

일반적으로 modular property를 independent mechnisms, autonomy 혹은 invariance라고도 부릅니다.

Assumption 4.1 (Modularity Independent Mechnisms) If we intervene on a set of nodes $$S \subseteq [n]$$, setting them to constants, then for all $$i$$, we have the following:

if $$i \notin S$$, then $$P(x_i|pa_i)$$ remains unchanged.
if $$i \in S$$, then $$P(x_i|pa_i)=1 ; if x_i$$ is the value that $$X_i$$ was set to by the intervention; otherwise, $$P(x_i|pa_i)=0$$.

Modularity assumption은 하나의 그래프에서 서로 다른 interventional distribution을 만들 수 있게 해줍니다. 예를 들어 $$P(Y), P(Y|do(T=t)), P(Y|do(T=t')), P(Y|do(T_2=t_2))$$는 서로 연관되지 않은 완전히 다른 분포입니다. 즉 intervention을 통해 각 분포가 자기 자신만의 그래프를 만든 것입니다.

interventional distributions의 causal graph는 obsevational joint distribution(original graph)에서 사용된 것과 같지만, intervened node(s)의 엣지가 제거된 형태입니다. 이는 intervened factor의 확률이 1이기 때문에, 관련 factor들을 무시한다고 보면 됩니다. 또 다른 관점으로는 intervened node가 constant로 설정되었기 때문에 더이상 다른 변수에 의존하지 않는다라고 볼 수 있습니다.

엣지가 제거된 그래프를 manipulated graph 라고 합니다.

Modularity assumption이 위반된다라는 것은 어떤 것을 의미할까요?

$$X_i$$를 intervene 했을 때, 이것이 다른 노드 $$X_j$$를 변하게 하는 경우입니다. 즉 intervention on $$X_i$$가 $$P(x_j|pa_j)$$를 변화시키는 것입니다. (intervention is not local to the node you intervene on; the causal mechnisms are not modular)

Backdoor adjustment

Backdoor path란 노드 $T$에서 노드 $Y$까지 nondirected unblocked path(즉 $T$로 가는 backdoor edge가 존재함)를 의미합니다. 그리고 conditioning을 통해 이것을 block할 수 있다면 causal quntity를 구할 수 있을 것입니다.

만약 $T$에 intervene을 해준 manipulated graph가 있다면 해당 그래프에는 T의 backdoor edge가 존재하지 않을 것이고, 이는 $T$에서 $Y$까지 흐르는 모든 association은 purely causal일 것입니다.

Definition 4.1 (Backdoor Criterion) A set of variables $W$ satisfies the backddor criterion relative to $T$ and $Y$ if the following are true:

$W$ blocks all backdoor paths from $T$ to $Y$.
$W$ does not contain any descendants of $T$.

Backdoor criterion을 만족한다는 것은 $W$를 sufficient adjustment set으로 만드는 것입니다. $W$는 앞의 예제에서 등장했던 $X$라고 생각하면 됩니다. 이 예에서는 오직 하나의 path만 존재했기 때문에 단순히 $X$만으로도 충분히 block할 수 있었습니다.

proof에 $W$를 도입하기 위해 변수를 conditioning해주고 marginalizing을 해주게 됩니다.

주어진 $W$가 Backdoor criterion을 만족한다면, modularity 가정을 통해 아래가 가능합니다.

위의 식을 보면, 여전히 식에 do 가 존재합니다. 그러나 여기서 $$P(w|do(t))=P(w)$$가 됩니다. Manipulated graph에서 $T$로 들어오는 엣지가 없기 때문에 어떠한 $W$와 $T$사이의 path도 존재하지 않습니다. 따라서 위의 식은 아래와 같이 정리됩니다.

이것이 backdoor adjustment 입니다.

Theorem 4.2 (Backdoor Adjustment) Given the modulrarity assumption, that $W$ satifies the backdoor criterion, and positivity(Assumption 2.3), we can idenify the causal effect of $T$ on $Y$: $P(y|do(t))=\sum_w P(y|t,w)P(w)$

Relation to d-separation $W$가 manipulated graph $T$와 $Y$를 d-separated 하는 경우 backdoor adjustment를 쓸 수 있습니다. 또한 $W$를 conditioning 함으로써 pure causal association 할 수 있습니다.

Q) How does this backdoor adjustment relate to the adjustment formula we saw in the potential outcomes lecture?

Adjustment formula

위는 아래의 backdoor adjusment로 유도됩니다.

($w$가 discrete이 아닌 경우, integral)

$$\because(Y(1), Y(0)) \perp !!! \perp T | W$$

Structural causal models

Structural Equations

수학에서 쓰는 equals sign(=)과는 다르게, causation에서는 symmetric 성질이 성립하지 않습니다. 즉 A가 B의 cause라고 한다면 A의 변화는 B의 변화를 초래하지만, B의 변화가 A의 변화를 초래하지는 않습니다. structural equation $B:=f(A)$ (=가 아닌 :=를 쓴 것을 유의!)

그러나, 여기서 $A$와 $B$의 mapping이 deterministic하기 때문에, 이를 probabilistic으로 만들기 위한 B의 unknown causes에 대한 여지를 남기게 됩니다. $B:=f(A,U)$

endogenous variables: 우리가 모델링을 하려는 structural equation의 variable. 즉 causal graph에서 부모 노드를 갖고 있음. exogenous variables: causal graph에서 부모 노드가 없는 변수. 즉 이 노드의 causes를 모델링할 필요가 없음.

Definition 4.2 (Structural Causal Model (SCM)) A structural causal model is a tuple of the following sets:

A set of endogenous variables V
A set of expgenous variables U
A set of functions f, one to generate each endogenous variable as a function of other variables

Markovian vs. semi-Markovian vs. non-Markovian

Markovian: causal graph에 사이클이 없고(DAG), noise variables $U$가 독립인 경우 semi-Markovian: causal graph에 사이클이 없고(DAG), noise variables $U$가 독립이 아닌 경우 non-Markovian: 사이클이 있는 경우

Interventions

SCM에서는 intervention이 매우 간단합니다. $T$를 $T:=t$로 대체해주면 됩니다. (여기서 $M$은 a single model의 모든 structural equation의 collection) ($M_t$임을 유의)

Definition 4.3 (The Law of Counterfactuals (and Interventions)) $Y_t(u)=Y_{M_t}(u)$

이는 SCM이 디테일하게 주어진다면 couterfactuals을 모두 계산할 수 있다는 것을 의미합니다. 그러나 이것은 불가능하기 때문에 큰 문제가 됩니다. 이 문제를 해결하기 위한 conterfactuals은 14장에서 다루고 있습니다.

A complete example with estimation

association quantity($E[Y|t]$)와 causal quantity($E[Y|do(t)]$)의 비교를 통해 association quantity의 bias를 알아보기 위해 toy example을 살펴봅시다.

$$T:=\alpha_1 X$$ $$Y:=\beta T + \alpha_2 X$$

causal quantity($E[Y |do(t)]$)

그림에서 볼 수 있듯이, $X$가 sufficient adjustment set이므로, $$E[Y|do(t)]=E_xE[U|t,X]$$ 입니다.

따라서, $$E_xE[U|t,X]=E_x[E[\beta T+\alpha_2 X | T=t, X]]=E_x[\beta t + \alpha_2 X]=\beta t + \alpha_2 E[X]$$

causal effect를 얻기 위해 미분을 해주면,

association quantity ($E[Y|t]$)

$$E[Y|T=t]=E[\beta T + \alpha_2 X|T=t]= \beta t +\alpha_2 E[X|T=t]=\beta T + {\alpha_2 \over \alpha_1}t$$ 위 그림과 같이, confounding bias가 존재합니다.

Introduction to Causal Inference: Lecture 3 Graphical Models

Tue, 24 Nov 2020 17:37:36 GMT

Brady Neal의 introduction to causal inference 리뷰입니다. youtube: https://www.youtube.com/watch?v=Go4EkHN_PcA&list=PLoazKTcS0Rzb6bb9L508cyJ1z-U9iWkA0&index=19 material: https://www.bradyneal.com/causal-inference-course My article will be uploaded to https://www.notion.so/GNN_YYK-0303f11d4fa0433792562333dea173a3.

3.1 Graph Terminology

그래프라는 단어를 들었을 때, 흔히 scatter plot이나 bar plot과 같은 시각적인 그림을 떠올리는 경우가 많습니다. 그러나 앞으로 강의에서 말하는 그래프는 node와 edge들의 set을 의미합니다.

그래프에서 사용되는 몇 가지 용어들을 짧게 살펴봅시다. (path와 cycle은 생략함.) 방향성이 없는 edge로 이루어진 그래프를 undirected graph, 방향성이 있는 edge로 이루어진 그래프를 directed graph라고 합니다. 이 때 cycle이 없는 directed graph를 directed acyclic graph라고 하는데, 줄여서 DAG(강의에서는 대-그라고 읽음.)라고 표현합니다.

앞으로 설명할 bayesian networks에서 그래프(혹은 네트워크)는 DAG를 기본으로 합니다.

3.2 Bayesian Networks

Causal graphical models은 probabilistic graphical models(pgm) 분야 중 하나입니다. Bayesian network는 pgm 중에 하나로, causal graphical models(causal bayesian network)의 특성을 가지고 있습니다. Bayesian network가 무엇이고, 어떻게 쓰이는지에 대해 알아보겠습니다.

우리는 일반적으로 data의 분포 $P(x_1, x_2, ..., x_n)$을 알고자 합니다. 일반적으로 chain rule을 적용하여 표현하면 다음과 같습니다.

$P(x_1, x_2, ..., x_n)=P(x_1) \prod_i P(x_i|x_i-1, ..., x_1)$

그러나, parameter가 증가할수록 계산해야 하는 양이 exponential하게 증가하기 때문에, 모든 경우를 구하는 것은 intractable할 수 있습니다. 위 그림의 예시에서 $x_i$가 binary case라고 했을 경우, $p(x=1)=1-p(x=0)$ 구할 수 있기 때문에 $2^{n-1}$의 계산이 요구 됩니다.

joint distribution을 좀 더 효율적으로 구하는 방법 중 한가지는 가정을 하는 것입니다. 여기서 Local Markov Assumption이 등장하게 됩니다.

Assumption 3.1 (Local Markov Assumption) Given its parents in the DAG, a node $X$ is independent of all its non-descendants.

Local Markov Assumption은 DAG에서 parents가 주어지면 모든 non-descendants와 독립을 가정하는 것입니다. 즉, 위의 이미지에서와 같이 $P(x_4|x_3,x_2,x_1)$가 $P(x_4|x_3)$로 대체될 수 있습니다.

즉 DAG에서 Local Markov Assumption을 통해 bayesian network가 등장하게 됩니다. 이때 각각의 그래프 G에 각각의 node들은 P에 각각의 random variable이 one-to-one mapping 되는 것입니다.

Bayesian network에 등장하는 Bayesian Network Factorization를 살펴봅시다.

Definition 3.1 (Bayesian Network Factorization) Given aprobability distribution $P$ and a DAG $G$, P fatorizes according to $G$ if $P(x_1,...,x_n)=\prod_i P(x_i|\mathsf{pa}_i)$

Bayesian Network Factorization은 bayesian network의 chain rule 혹은 Markov compatibility로도 불립니다. 만약 $P$가 위 그림의 graph에 대하여 Markor라면, Bayesian Network Factorization를 사용하여 $P$의 joint distribution이 아래와 같이 표현됩니다.

$P(x_1, x_2, ..., x_n)=P(x_1)P(x_2)P(x_3|x_2, x_1)P(x_4|x_3)$

($P$ is Markov with respect to the graph in Figure 라고 표현합니다.) 만약 그림에서 그래프가 더 sparse하다면, joint distribution이 더욱 simple해질 것입니다.

우리는 Bayesian Network Factorization가 결국 Local Markov Assumption와 equivalent임을 알 수 있습니다. 자세한 증명은 Koller and Friedman(2009)에서 확인할 수 있습니다. 저는 넘어가도록 하겠습니다 : )

Bayesian network에서 causal network로 가기 위해 매우 중요한 assumption에 대해 살펴보겠습니다.

조금 혼란스러울수도 있지만, Local Markov Assumption에서는 만약 노드 $X$와 $Y$가 인접(adjacent)했을 때, $X$와 $Y$가 dependent한 것을 의미하지 않습니다. 반면 causal inference에서는 $X\rightarrow Y$의 경우 인과관계가 있다고 하죠. 따라서 Bayesian network에서 추가적인 assumption이 필요한 것을 알 수 있습니다.

인접한 노드 사이의 dependence를 보장하기 위해, local Markov assumption보다 더 강력한 assumption이 필요합니다.

Assumption 3.2 (Minimality Assumption)

Given its parents in the DAG, a node $X$ is independent of all its non-descendants (Assumption 3.1)
Adjacent nodes in the DAG are dependent.

예를 들어, $X\rightarrow Y$가 있다고 해봅시다. local Markov assumption을 통해 우리는 $P(x,y)=P(x)P(y|x)$이라고 할 수 있습니다. 그러나 이때 역시 $P(x,y)=P(x)P(y)$을 정의할 수 있습니다. 즉 인접한 두 노드 $X, Y$가 독립이라고 할 수 있습니다. 반면에 minimality assumption을 통해 $P(x,y)=P(x)P(y|x)$로 factorize 할 수 있습니다.

3.3 Causal Graphs

Causal 관계를 보장하기 위한 한 가지의 가정이 추가적으로 등장합니다.

Assumption 3.3 ((Strict) Causal Edges Assumption) In a directed graph, every parent is a direct cause of all its children.

Assumption 3.3을 통해 부모 노드와 자식 노드 간의 종속성을 가정했기 때문에 Assumption 3.3이 Assumption 3.2(minimality)를 반영하고 있다고 할 수 있습니다.

반면에 non-strict causal edges assumption이 존재하는데, 이는 몇몇의 부모 노드들이 자식 노드에 영향을 미치지 않는 것을 의미합니다. 실제로 Causal graph에서 항상 부모가 자식에게 영향을 미치는 것은 아닙니다. 확실히 하기위해, 앞으로 언급하게 될 Causal graph는 strict causal edges assumption을 만족하는 DAG라고 하겠습니다.

3.4 Two-Node Graphs and Graphical Building Blocks ~ 3.5 Chains and Forks

Basic assumption과 definition을 봤으니, 이제부터 3장의 핵심인 the flow of association과 causation in DAGs에 대해 살펴보겠습니다.

Flow of association은 그래프 안의 두 노드가 연결되었는지, 아닌지를 의미합니다. 즉 statistically 독립인지 종속인지를 의미합니다.

그래프의 minimal building block을 이해하면 DAG에서 발생하는 flow에 대해 이해할 수 있습니다. Minimal building block은 크게 3가지입니다.

그림의 (a) Chain과 (b) fork는 동일한 set of dependencies를 가지고 있습니다. 둘 모두 $$X_1$$과 $$X_2$$가 dependent하고 $$X_2$$와 $$X_3$$가 dependent합니다.

그렇다면 $$X_1$$과 $$X_3$$는 어떨까요? 두 케이스 (a), (b) 모두 dependent합니다. 즉 association이 $$X_2$$로 인해 flow한다고 볼 수 있습니다. (a)의 경우는 직관적입니다. $$X_1$$이 $$X_2$$에 영향을 주고, $$X_2$$가 $$X_3$$에 영향을 주기 때문에 $$X_1$$과 $$X_3$$가 dependent함을 알 수 있습니다. (b)에서는, 두 노드의 공통 노드인 $$X_2$$의 값을 $$X_1$$과 $$X_3$$에 모두 영향을 주기 때문입니다. 즉 $$X_1$$과 $$X_3$$가 common cause를 갖고 있기 때문입니다.

또한 (a)와 (b)는 동일한 set of independencies를 갖고 있습니다. 만약 $$X_2$$을 condition으로 걸어주면 두 경우 모두 $$X_1$$과 $$X_3$$의 the flow of association이 막혀버립니다(ㅠ(block). 이 경우는 local Markov assumption 때문입니다.

3.6 Coliders and their Descendants

Immorality($$X_1$$→ $$X_2$$ ← $$X_3$$)에서 $$X_1$$, $$X_3$$는 chain과 fork와는 다르게 독립입니다. 이 때 common child($$X_2$$)는 보통 collider라고 불립니다. 여기서는 특이하게 collider를 condition으로 걸어주는 순간, 두 변수 $$X_1$$, $$X_3$$가 종속이 됩니다. 이것을 이해하기 위해 한 가지 예시를 살펴봅시다.

Good-Looking Men are Jerks $$X_1$$: "looks", $$X_2$$: "availability", $$X_3$$: "kindness" 그림(c)의 상황은 _Berkson’s paradox_라고도 불립니다.

3.7 d-separation

d-separation을 정의하기 전에, "blocked path"라는 것을 다시 한 번 살펴보자면 다음과 같습니다.

Definition 3.3 (blocked path) A path between nodes $$X$$ and $$Y$$ is blocked by a (potentially empty) conditioning set $$Z$$ if either of the following is true:

Along the path, there is a chain · · · → $$W$$ → · · · or a fork · · · ← $$W$$ → · · ·, where $$W$$ is conditioned on ($$W$$ ∈ $$Z$$).
There is a collider $$W$$ on the path that is not conditioned on ($$W$$ ∉ $$Z$$) and none of its descendants are conditioned on (de($$W$$) $$\nsubseteq$$ $$Z$$).

unblocked path는 단순히 not blocked path입니다.

Definition 3.4 (d-separation) Two (sets of) nodes $$X$$ and $$Y$$ are d-separated by a set of nodes $$Z$$ if all of the paths between (any node in) $$X$$ and (any node in) $$Y$$ are blocked by $$Z$$.

만약 어떤 두 노드 $$X$$와 $$Y$$ 사이의 모든 path가 막혔다면(block), $$X$$와 $$Y$$가 d-separated 되었다고 합니다. 비슷하게, 만약 어떤 두 노드 $$X$$와 $$Y$$ 사이에 block되지 않은 적어도 하나의 path가 존재한다면, $$X$$와 $$Y$$가 d-connected 되었다고 합니다.

d-separation을 conditional independence로도 볼 수 있는데, 이 때 다음과 같은 notation을 사용합니다. 즉, $$X$$와 $$Y$$가 그래프 $$G$$에서 $$Z$$를 conditioning 해줬을 때 d-separated 되어있다.

3.8 Flow of Association and Causation

directed path를 따르는 flow association이 causal association입니다. 인과관계가 아닌 association을 만드는 대표적인 non-causal association에는 confounding association이 있습니다.

GAN loss 정리(언제 다 하지...)

Sun, 15 Nov 2020 12:48:03 GMT

https://github.com/hindupuravinash/the-gan-zoo

Vanila

BCE loss (Binary Cross Entropy) 또는 Adversarial loss

$\min G \max _D V(D,G)=\mathbb{E}{x\sim p_{data(x)}} [\log D(x)]+\mathbb{E}{z\sim p{z}(z)}[\log (1-D(G(z))],$

where $x\sim P_{data}(x)$: 실제 데이터의 분포, $z\sim P_{x}(x)$: 분포가정(ex. 정규분포)에서 온 latent code의 분포

GAN의 판별자 D는 real or fake를 판단하기 때문에, Binary Cross Entropy(이하BCE)를 사용함. real일 때 y = 1, fake일 때 y = 0 임.

$BCE=-{1\over n}\sum_{i=1}^n (y_i log(p_i)+(1-y_i) log(1-p_i))$를 사용한 loss임.

Wasserstein Objective function

$\min G \max _D V(D,G)=\mathbb{E}{x\sim p_{data(x)}} [D(x)]+\mathbb{E}{z\sim p{z}(z)}[D(G(z))],$

where $D$는 Lipschitz 조건을 만족하는 함수

BCE loss의 mode collapse와 vanishing gradient 해결을 위해 등장한 loss임. real일 때 y = 1, fake일 때 y = -1 임.

Conditional GAN loss

$\min G \max _D V(D,G)=\mathbb{E}{x\sim p_{data(x)}} [\log D(x|y)]+\mathbb{E}{z\sim p{z}(z)}[\log (1-D(G(z|y))].$

BCE loss에 condition으로 label $y$를 걸어주었음. 실제 코드에서는 $x$, $z$에 $y$를 더해주는 식으로 계산함.

Style transfer

L1 distance (Manhattan distance)

$\min G \max _D V(D,G) = \mathcal{L}{cGAN}+ \lambda \mathcal{L}_{L1}(G).$

$\mathcal{L}{cGAN}=\mathbb{E}{y} [\log D(y)]+\mathbb{E}_{x,z}[\log (1-D(G(x,z))].$

$\mathcal{L}{L1}(G)=\mathbb{E}{x,y,z}[||y-G(x,z)||_1 ],$

where $y$: real output(ground truth image), $x$: real input

pix2pix에 등장한 loss로, BCE loss(Adversarial loss)만을 사용할 경우 흐린 경우가 발생했음. 이를 해결하기 위해 L1 텀을 추가함.

생성된 이미지와 실제 이미지 사이의 픽셀 간 거리를 구해 이를 최소화하여, 최대한 원본과 가깝게 이미지를 만들어내기 위해 노력함.

Cycle Consistency loss

$\mathcal{L}{cyc}(G,F)=\mathbb{E}{x\sim p_{data}(x)} [||F(G(x))-x||1 ] + \mathbb{E}{y\sim p_{data}(y)} [||G(F(x))-y||_1 ],$

where $G: X \to Y$, $F: Y \to X$, 이 때 $X\in D_X$, $Y\in D_Y$

unpaired dataset의 경우, paired dataset과는 다르게 좌표가 mapping되는 것이 아님. 따라서 올바른 pair 이미지 생성을 위해 $x$->$y$->$x$와 $y$->$x$->$y$ 를 고려해준 것임. 즉 다른 도메인을 거쳐 원래 도메인으로 돌아왔을 때 최대한 원본의 값을 유지할 수 있도록 함. (아래의 이미지 참고)

Least Squares loss (Adversarial loss)

$\min G \max _D V(D,G){lsl} = \mathbb{E}_x [(D(x)-1)^2]+\mathbb{E}_z [(D(G(z)))^2]$

BCE loss의 텀에 각각 square를 해준 형태임. 기존의 BCE loss에 비해, 좀 더 안정적으로 학습을 하고 높은 퀄리티의 이미지를 생성할 수 있다고 함.

Identity loss

$\mathcal{L}{identity}(G,F)=\mathbb{E}{y\sim p_{data}(y)}[||G(y)-y||1 ] + \mathbb{E}{x_{p_{data}}(x)} [||F(x)-x||_1 ],$

where $G: X \to Y$, $F: Y \to X$, 이 때 $X\in D_X$, $Y\in D_Y$

input의 texture는 바꾸되, 분위기나 색상을 유지하기 위해 사용됨. 즉, target domain의 sample이 input으로 들어왔을 때 target domain의 sample을 그대로 내뱉도록 Generator $G$를 regularize 함.

$\it{e.g}$) 오전 그림을 넣었을 때 모델이 해질녘 사진으로 바꾸는 문제가 있었음. 이를 해결하기 위해 사용함.

FACE ID loss

$\mathcal{L}{face}=\mathbb{E}{x \sim X_s}[1-\cos(F(x),F(T^i_{s\rightarrow t}(x)))]+[1-\cos(F(x),F(T^i_{t\rightarrow s}(x)))]$

real image와 target domain 사이의 constraints를 더 강화시키기위하여 cosine distance를 이용함.

Group classification loss

$\mathcal{L}{cls}^{real}=\mathbb{E}{x \sim \mathcal{Y}_i}[-\log D_t^{cls}(i|x)],$

$\mathcal{L}{cls}^{fake}=\mathbb{E}{x \sim \mathcal{Y}i}[-\log D_t^{cls}(i|T^i{s\rightarrow t}(x))]$

where $D_t^{cls}(i|x)$는 $D_t$에 의해 계산된 group label 확률분포임

업데이트 예정

(SGAN, ACGAN, PGGAN, Style GAN1, Style GAN2, Cycle gan)

Cross-domain Correspondence Learning for Exemplar-based Image Translation

Tell, Draw, and Repeat: Generating and Modifying Images Based on Continual Linguistic Instruction

Multi domain

Multi domain adversarial loss

$\mathcal{L}{adv} = \mathbb{E}{x} [\log D_{src}(x)]+\mathbb{E}{x,c}[\log (1-D{src}(G(x,c))],$

where $c$ is target domain label

$x$와 target domain label $c$를 이용하여 이미지를 생성함.

Domain classification adversarial loss

$\min D \mathcal{L}=\mathbb{E}{x, c'} [-\log D_{cls}(c'|x)].$

real image $x$가 들어왔을 때, original domain label $c'$로 분류를 위한 loss임.

$\min G \mathcal{L}=\mathbb{E}{x, c'} [-\log D_{cls}(c|G(x,c))].$

target domain으로 바뀌어 생성된 이미지가 target domain $c$로 분류되기 위한 loss임.

Cycle consistency를 이용한 Reconstruction loss

$\mathcal{L}{rec} = \mathbb{E}{x,c,c'}[||x-G(G(x,c),c')||_1 ]$.

Generater $G$가 생성해낸 이미지와 original doamin label $c'$를 input으로 받아, target domain 부분은 변화시키되 input image $x$의 형태를 유지하게끔 복원해내기 위해서 cycle consistence loss를 이용함.

Diversity sensitive loss

$\mathcal{L}{ds}=\mathbb{E}{x, Y, z_1, z_2}[||G(x, c_1)-G(x,c_2)||_1 ],$

where Y is target domain

다양한 style을 생성하기 위한 loss임. $c_1$과 $c_2$는 latent vector $z_i \sim Y$에서 생성된 target domain vector를 의미함.

Style reconstruction loss

$\mathcal{L}{sty}=\mathbb{E}{x, Y, z}[||c-E_Y G(x,c)||_1 ],$

Generater $G$가 이미지를 생성할 때, c를 이용하도록 함. 단일 Encoder를 통해 여러 도메인에 대해 다양한 출력을 뽑아낼 수 있음. 즉, 얼마나 우리가 원하는 style $c$에 가깝게 이미지를 생성했는가를 판단함.

Conditional Adversarial loss

$\min G \max _D \mathcal{L}=\mathbb{E}{x, v, x'} [\log D(x,v,x')]+\mathbb{E}_{x,v}[\log (1-D(x,v,G(x,v)))],$

where $v$ is relative attribute Conditional GAN의 conditional adversarial loss의 개념을 가져와, 생성 이미지 $G(x,v)$가 realistic하게 보일 뿐만 아니라 $x$와 $G(x, v)$의 차이가 $v$ 일치하도록 함.

Cycle-reconstruction loss

$\min_G \mathcal{L}{Cycle}=\mathbb{E}{x,v}[||G(G(x,v),0v)-x||_1 ]$

where $v$ is relative attribute

생성 이미지가 특정 속성을 제외한 모든 측면을 보존하는 것을 보장하기 위함.

Self-reconstruction loss

$\min_G \mathcal{L}{Self}=\mathbb{E}{x}[||G(x,0)-x||_1 ]$

where $v$ is relative attribute

v가 0일 경우 생성 이미지가 원본 이미지를 만들어낼 수 있도록 보장함.

Interpolation loss

high-quality interpolation을 위해 보간된 이미지를 realistic하게 보이도록 함.

Reenactment

Domain specific perceptual loss

$\mathcal{L}{perc}(x,y)=\sum{i=1}^{n}{1\over C_iH_iW_i}||F_i(x)-F_i(y)||_1$

where $F_i \in\mathbb{R}^{C_i \times H_i \times W_i }$

얼굴의 fine details을 살리기위해 사용함. Perceptual loss는 일반적으로 VGG network(target domain에 알맞게 pretrained model로 설정)의 feature map을 사용함.

Reconstruction loss

$\mathcal{L}_{pixcel}(x,y)=||x-y||_1$

perceptual loss만 사용할 경우, 종종 실제와 다른 색을 지닌 이미지를 생성할 경우가 존재함. 이를 방지하기 위해 pixelwise $L_1$ loss를 사용함.

Cross-domain

Feature matching loss

$\mathcal{L}{feat}=\sum{l}\lambda_l ||\phi_l(\mathcal{G}(x_A,x'_B))-\phi_l(x_B)||_1$

Domain alignment loss

$\mathcal{L}{domain}^{l_1}=||\mathcal{F}{A\rightarrow S}(x_A)-\mathcal{F}_{B\rightarrow S}(x_B)||_1$

Exemplar translation loss

$\mathcal{L}{perc}-||\phi_l(\hat{x}_B)-\phi_l(x_B) ||_1,$ $\mathcal{L}{context}=\sum_l \omega_l [-\log ({1 \over n_l} \sum_i \max_j A^l (\phi_i^l (\hat{x}_B), \phi_j^l(y_B)))]$

Correspondence regularization

$\mathcal{L}{reg}=||r{y \rightarrow x \rightarrow y}-y_B||_1$

Paper

CycleGAN loss (논문 출처)

StarGAN loss

$\mathcal{L}D = -\mathcal{L}{adv}+\lambda_{cls} \mathcal{L}^{r}{cls}$ $\mathcal{L}_G = \mathcal{L}{adv}+\lambda_{cls} \mathcal{L}^{f}{cls} + \lambda{rec}\mathcal{L}_{rec}.$

$\mathcal{L}{adv} = \mathbb{E}{x} [\log D_{src}(x)]+\mathbb{E}{x,c}[\log (1-D{src}(G(x,c))],$

where $c$ is target domain label

StarGAN2 loss

RelGAN loss

: loss functoin이 G 1개와 D 3개 {$D_{Real}, D_{Match}, D_{Interp}$} 로 구성됨.

사전 지식

n차원 속성 벡터 $a$ = $[a^{(1)}, a^{(2)}, . . . ,a^{(n)}]^{T}$
각 특징 $a^{(i)}$는 의미있는 특성 (ex> 얼굴 이미지의 나이, 성별, 머리색 등)
RelGAN의 목적 : input 이미지 x를 target 특징을 가지면서 real같아 보이는 output 이미지 y로 출력 (몇 개의 user가 지정한 특성은 원래 이미지와 다르게, 그 외는 특성이 유지되도록 출력)
mapping function $(x, v) → y$를 학습할 것을 제안
- $v$ : 속성의 변화를 원하는 상대 속성 벡터

상대 속성?

이미지 x의
특징 벡터 $a$ = 원래 도메인,
target 특징 벡터 $\hat{a}$ = target 도메인
$a$, $\hat{a}$는 둘 다 n차원 벡터임.
$a$와 $\hat{a}$ 사이의 상대 속성 벡터
input 이미지 x를 output 이미지 y로 매핑할 때 user가 원하는 속성 변경을 나타냄.

ex> 이미지 특성이 이진값 (0 or 1)이면 상대 속성은 (−1, 0, 1) 3개의 값으로 표현됨.
: 각 값은 이진 속성에 대한 user의 action에 해당


turn on	+1
turn off	-1
unchanged	0

즉, 상대 속성은 user의 요구사항을 인코딩 하는 것으로 해석 가능.

상대 속성을 통한 얼굴 속성 보간
: $x$와 $G (x, v)$ 사이의 보간을 수행하려면 $G (x, \alpha{v})$를 적용하기만하면 됨. ($\alpha ∈ [0, 1]$은 보간 계수)

(1) Adversarial Loss

생성된 이미지를 real 이미지와 구별할 수 없도록 standard GAN의 adversarial loss 적용.

x : real 이미지
v : 상대 속성
$D_{real}$ : 실제 이미지와 생성된 이미지 구분, unconditional discriminator

(2) Conditional Adversarial Loss

output 이미지 $G(x, {\alpha}v)$가 realistic해 보이길 원함
$x$ 와 $G(x, {\alpha}v)$의 차이가 상대 속성 $v$와 match 되어야 함.

$D_{match}$
: cGAN의 컨셉을 도입한 discriminator (conditional discriminator)
: real triplet $(x, v, x')$ 과 fake triplet $(x, v, G(x, v))$을 input으로 함.
real triplet $(x, v, x')$
: 2개의 real 이미지 $(x, x')$와 상대 속성 벡터 $v (= a-a')$로 구성
$a$와 $a'$
: 각각 x와 $x'$의 속성 벡터
x와 $x'$
: 다른 속성을 가진 unpaired한 training data (real 이미지)

(참고)

conditional GAN loss

$ G^* = arg min_G max_D L_{cGAN} (G, D) $

(출처 : Image-to-Image Translation with Conditional Adversarial Networks)

real triplet
: real 이미지 2개 & 잘 matched 상대 속성

fake triplet
: real 이미지 1개 & fake 이미지 1개 & 잘 matched 상대 속성?????????

$(x, x')$와 mismatched $v$로 구성되는 wrong triplet을 추가
(input-output 쌍이 상대 속성과 일치하는지 여부를 결정하는 matching aware discriminator에 영감 받음)
- wrong triplet
  : real 이미지 2개 & 잘못 matched 상대 속성
  : wrong triplet을 추가함으로써 $D_{match}$는 아래처럼 분류하려고 함.

triplet	분류
real triplet	+1
fake triplet	-1
wrong triplet	-1

wrong triplet 작동 방식
$(x, v (= a-a'), x')$로 표현되는 real triplet이 주어지면,
4개의 변수 중 하나를 wrong triplet에 의해 생성되는 것으로 대체함으로써
4개의 wrong triplet을 얻는다.

(3) Reconstruction Loss

unconditional loss와 condtional loss를 최소화하면서 G는 output 이미지 $G(x, v)$를 real 이미지처럼 생성하는 것을 학습함.
그리고 $x$와 $G(x, v)$의 차이는 상대 속성 $v$에 match됨
그러나, G가 low level (ex> 배경 표현) -> high level (ex> 얼굴 이미지의 identity) 과정에서
다른 모든 부분을 유지하면서 속성과 관련된 contents만 수정한다는 보장이 없다.
이 문제를 보완하기 위해 G를 규제하는 cycle-reconstruction loss와 self-reconstruction loss를 도입함. (둘 다 L1 norm 사용)

1) Cycle-reconstruction loss

cycleGAN의 cycle consistency 개념을 적용
L1 norm 사용

: $G(:, v)$, $G(: ,−v)$는 서로의 역이 됨.

(참고)

cycleGAN의 cycle consistency

출처) Unpaired image-to-image translation using cycle-consistent adversarial networks

2) Self-reconstruction loss

상대 속성 벡터가 $0$ 벡터인 경우, 아무 속성도 변하지 않았음을 의미
output 이미지 $G(x, 0)$은 가능한 한 $x$에 가깝게 돼야 함.
아래의 loss를 통해 구현 가능

G는 auto-encoder로 다시 돌아가서(degenerate) $x$를 재구성함.
L1 norm 사용

(4) Interpolation Loss

G는 $G(x, {\alpha}v)$ ($\alpha ∈ [0, 1]$은 보간 계수) 를 통해
이미지 $x$와 변환된 이미지 $G(x, v)$ 사이를 보간함.
보간의 high-quality를 위해 보간된 이미지 $G(x, {\alpha}v)$를 realistic하게 보이기를 원함.
-> "$G(x, {\alpha}v)$"를 보간되지 않은 output 이미지인 "$G (x, 0)$ 및 $G (x, v)$"와 구별할 수 없도록 만드는 규제를 제안
= interpolation discriminator $D_{Interp}$

$D_{Interp}$의 목적
: 생성된 이미지를 input으로 받아 보간 정도 $\hat{\alpha}$를 예측 ($\hat{\alpha} = min(\alpha, 1-\alpha)$)
: $\hat{\alpha}$를 예측함으로써 $\alpha$와 $1-\alpha$ 사이의 모호성을 해결
- $\hat{\alpha}$ = 0 : 보간 x
- $\hat{\alpha}$ = 0.5 : 최대 보간

첫번째 term
: $G(x, {\alpha}v)$로부터 $\hat{\alpha}$를 복구
두번째, 세번째 term
: $D_{Interp}$이 보간되지 않은 이미지에 대해 0을 출력

그런데, 실험적으로 아래의 수정된 $D_{Interp}$ loss가 학습을 더 안정화 시키는 것을 발견했음.

(Ⅱ['] : argument가 참이면 1, 아니면 0인 indicator function)

G는 아래의 loss 추가

G는 $G(x, {\alpha}v)$가 보간되지 않았다고 생각하도록 $D_{Interp}$를 속임.

$L_{Interp}^{D}$와 $L_{Interp}^{G}$ 과정

(5) Full Loss

훈련을 안정화하기 위해 loss function에 orthogonal regularization ($L_{Ortho}$)을 추가했음.
D = {$D_{Real}, D_{Match}, D_{Interp}$} 와 G에 대한 각각의 full loss function

($\lambda_{1}$, $\lambda_{2}$, $\lambda_{3}$, $\lambda_{4}$, $\lambda_{5}$는 hyper-parameters)

Loss	Generator L	Discriminator L
Adversarial Loss	$L_{Real}$	$L_{Real}$
Conditional Adversarial Loss	$L_{Match}^{G}$	$L_{Match}^{D}$
Interpolation Loss	$L_{Interp}^{G}$	$L_{Interp}^{D}$
Reconstruction Loss	$L_{Cycle}$
Reconstruction Loss	$L_{Self}$
orthogonal regularization	$L_{Ortho}$

논문) RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes

SGAN (Semi-Supervised Learning GAN)

DCGAN 기반

ACGAN (Auxiliary Classifier GAN)

* standardGAN

D는 $X_{real}$들어갔을 때 Source = real일 확률 + $X_{fake}$들어갔을 때 Source = fake일 확률을 maximize하도록 훈련함.
G는 $X_{fake} = G(z)$를 생성
$P(S | X) = D(X)$

* ACGAN

framework
목적함수는 2개로 구성
: 맞춘 source의 log-likelihood $L_S$ / 맞춘 class의 log-likelihood $L_C$
D는 $L_S+L_C$를 maximize하도록, G는 $L_S-L_C$를 maximize하도록 훈련

모든 생성된 샘플에는 기존의 noise z에 더해 해당 class label $c$~$p_c$가 있음.
G는 $X_{fake} = G(c,z)$를 생성

input : class 임베딩 & noise 벡터
output : 이진 분류기 (real/fake) & multi-class 분류기 (이미지 class)

(출처 : https://stephan-osterburg.gitbook.io/coding/coding/ml-dl/tensorfow/chapter-4-conditional-generative-adversarial-network/acgan-architectural-design)

논문) Conditional Image Synthesis with Auxiliary Classifier GANs

PGGAN (Progressive Growing of GANs)

G와 D는 거울구조를 가짐.

WGAN-GP(Gradient Penalty) loss 사용 + 미니배치 당 G와 D의 최적화를 번갈아가면서 함. ($n_{critic}=1$) (이때, gp는 loss function이 수렴하는데 영향을 주지 않음)

WGAN의 weight clipping은 Lipschitz 제약을 적용해서 종종 poor samples을 생성하거나 수렴에 실패하는 경우 발생
→ weight clipping 대신 critic의 weight에 penalty를 준 것이 WGAN-GP

추가적으로 discriminator의 output이 0으로부터 너무 멀리 떨어지는 것을 방지하기 위해 discriminator loss에 4번째 term을 넣음

(참고)

WGAN-GP에서 $n_{critic}=1$로 둔다는 것

(Critic : GAN의 discriminator와 유사한 역할)

논문) D2PGGAN: TWO DISCRIMINATORS USED IN PROGRESSIVE GROWING OF GANS
논문) Wasserstein GAN
논문) PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION
참고) https://study-grow.tistory.com/entry/Deep-learning-%EB%85%BC%EB%AC%B8-%EC%9D%BD%EA%B8%B0-StyleGAN-loss-%EC%9D%B4%ED%95%B4-%EC%96%95%EA%B2%8C-%EC%9D%BD%EB%8A%94-WGAN-WGAN-GP

StyleGAN1

discriminator, loss function을 수정하지 않고 generator의 architecture만 수정했음.
Style-based generator architecture

style-based G는 input latent z를 intermediate latent vector v로 임베딩함으로써 특징들이 선형적으로 잘 분리된 상태가 되게 함.
G에 직접적으로 noise를 넣어줌으로써 생성된 이미지의 stochastic 변형(ex>주근깨, 머리)으로부터 high-level 특징(포즈, identity)을 자동으로 분리할 수 있음.
affine 변환을 통해 w를 styles $y = (y_s, y_b)$로 구체화하고 synthesis network의 각 conv layer 후에 AdaIN 정규화를 수행함.
WGAN-GP loss 사용했음 (그대로)

논문) A Style-Based Generator Architecture for Generative Adversarial Networks

CycleGAN

(1) Adversarial loss

* X → Y인 경우

* 반대로 Y → X인 경우

: $L_{GAN}(F,D_X,Y,X)$

X 도메인에서 Y 도메인으로 매핑하고 역매핑도 해야 하므로 2개의 generator를 사용했고 도메인이 2개니까 2개의 discriminator 사용 (도메인의 수만큼 G, D 수 정해짐)

(2) Cycle-consistency loss

x → G(x) → F(G(x)) ≈ x / y → F(y) → G(F(y)) ≈ y
한 도메인이 다른 도메인으로 갔다가(생성) 원래 도메인으로 잘 복원하도록 함.
즉, 이미지의 도메인(스타일)을 바꾸되, 다시 원본으로 복원 가능한 정도로만 바꾸는 것

(3) Full loss

+ (4) Identity loss

input과 output의 색감 유지를 위해 도입
target 도메인 Y가 input으로 들어왔을 때, 동일한 Y 도메인으로 매핑하는 경우 차이가 적도록해 도메인 Y의 색감을 유지할 수 있도록 한다.

논문) Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Disentanglement(테스트)

Tue, 10 Nov 2020 08:23:19 GMT

작성자: 고려대학교 산업경영공학과 이예지

이번에는 disentanglement에 대한 내용을 다루고자 합니다.

deeplearning.ai의 Build Basic Generative Adversarial Networks (GANs) 강의에서 짧게 disentanglement에 대해 알려주었는데, 많은 자료를 보여주진 않더라구요.

이번에는 해당 강의를 토대로, disentanglement와 관련된 몇 가지 페이퍼를 짧게 요약해보자 합니다.

이 글이 disentaglement의 완벽한 이해를 드리기는 힘들지만, 어떤 것을 하고자 하는지에 대 큰 그림을 얻어가셨으면 좋겠습니다. 오늘 다루는 페이퍼 이외에, 관련 페이퍼를 추가로 적어놓았으니, 관심있으시면 꼭 읽어보시길 바랍니다. :)

Let's Recap

[Figure 1] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

데이터의 분포를 학습하기 위해 우리는 GAN을 사용했습니다. 어떤 노이즈 벡터를 생성하고 GAN의 입력으로 넣었을 때, 우리가 가진 학습 데이터와 비슷하지만 학습 데이터에는 존재하지 않았던 랜덤한 이미지를 만들어낼 수 있습니다.

그러나 우리가 원하는 특징을 가진 랜덤한 이미지를 만드는 것은 쉽지 않습니다. Figure 1을 살펴봅시다. 갈색머리를 가지고 있는 사람의 이미지를 파란머리를 가진 사진으로 변경한 것입니다. 지금까지 다룬 Vanilla GAN은 이렇게 하나의 피쳐만을 변경하는 것이 불가능합니다. 왜 그럴까요? 다른 예를 살펴보겠습니다.

[Figure 2] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

Figure 2를 봅시다. 제가 랜덤 벡터($z$)로 생성한 이미지가 왼쪽의 수염이 없는 여성이라고 해봅시다. 저는 여기서 수염을 추가하고 싶고, $z_1$축을 조절하여 수염을 추가할 수 있는 랜덤 벡터($z'$)를 찾았다고 가정해보겠습니다. 이 여성의 그림에 수염을 추가할 수 있을까요? 물론 가능합니다. 그러나, 오랜쪽 아래의 수염을 가진 남성의 사진이 나오게 됩니다. 즉 수염을 추가한 것 뿐만 아니라 다른 피쳐들이 동시에 변한 것입니다.

[Figure 3] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

이러한 결과가 나오는 것은 $z_1$축이 수염에 관련된 특징뿐만 아니라 다른 어떤 특징과도 연관이 되어있기 때문입니다. 이 예시로 볼 때는 머리 길이, 눈매, 그리고 눈썹 정도일 것 같습니다. 다시 말하면, 하나의 축이 하나의 특징을 의미하는 것이 아닙니다. 이를 entanglement (뒤얽힘, 꼬여있음)혹은 축이 entangle 되어있다. 라고 표현합니다. 축이 꼬여있는(entangle) 이유 중 한 가지는 일반적으로 $z$ 의 차수가 충분하지 않을 때 발생하지만, 이외에도 여러 가지 이유가 있습니다.

내가 원하는 피쳐들 외에 나머지는 고정한채로 이미지를 생성하고 싶다면 축을 disentagle되어있게 하면 되겠죠? disentanglement에 대한 해석을 그대로 인용하자면 다음과 같습니다.

[Figure 4] Takato Horii, Review "Info GAN"

Transforming from an uninterpretable space with entangled features to eigen spaces where features are independent.

자, 이제부터 disentanglement 관련 페이퍼를 다음 순서로 짧게 리뷰해보겠습니다.

[1] Kulrarni, Tejas D., et. al. "Deep Convolutional Inverse Graphics Network" NIPS'15. 711 citations.
[2] Chen, Xi, et al. "InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets" NIPS'16. 2219 citations.
[3] Higgins, Irina, et al. "beta-VAE: Learning basic visual concepts with a constrained variational framework." ICLR'17. 1199 citations.

다음의 페이퍼는 이번 글에서는 다루지 않지만 읽어보면 큰 도움이 될 거라고 생각합니다. 몇 가지는 이곳에 짧게 정리되어 있습니다. 지금은 미루고 있지만 ☹️, 저도 나중에 꼭 페이퍼를 읽어보려구요 🙂!

Alemi, Alexander A., et al. "Deep variational information bottleneck." ICLR'17, 411. citations.
Burgress, Christopher P., et al. "Understanding disentangling in beta-VAE." NIPS'17, 266 citations.
Chen, Ricky TQ, et al. "Isolating sources of disentanglement in variational autoencoders.", NIPS'18, 317 citations.
Stoechr, Niglas, et al. "Disentagling interpretable generative parameters of random and real-world graphs." NIPS'19. 3 citations
Hwang, HyeongJoo, et al. "Variational Interaction Information Maximization for Cross-domain Disentanglement." NIPS'20.

[1] Deep Convolutional Inverse Graphics Network (DC-IGN)

[Figure 4] DC-IGN 요약

특징

out-of-plane rotations과 lighting variations과 같은 변형에 관하여 disentanglement를 시도함.
모델은 convoltion과 deconvolution의 몇 개의 레이어들로 구성되어 있음.
Stochastic Gradient Variational Bayes를 옵티마이저로 사용함.
입력 값이 주어지면, 같은 object지만 pose와 lighting에 따라 새로운 이미지를 만들어냄.

Objective

[Figure 5]

컴퓨터 화상처리(Computer graphics)를 하기 위해서는 개발자들이 프로그래밍 언어를 사용해서 명령을 하겠죠? 그 명령(graphics code; $c$)은 매우 디테일 할 것입니다. 예를 들어 공의 위치는 어디이고, 밝기는 몇이고, 무슨 색깔을 가졌는가? 이렇게요. 이처럼 우리가 원하는 이미지 혹은 그래픽을 생성하기 위해서는 disentangled feature가 필요합니다.

해당 모델(DC-IGN)은 입력 값이 주어졌을 때, 같은 object지만 pose와 lighting에 따라 새로운 이미지를 만들어내는 것을 목표로 합니다.

Architecture

[Figure 6]

VAE(D. P. Kingma and M. Welling, 2013)를 변형한 형태의 모델 구조를 가고 있습니다. 따라서 크게 encoder와 decoder로 이루어졌으며, encoder는 {convolution layers+max-pooling}, decoder는 {convolution laysers+unpooling(upsampling using nearest neighbors)}로 구성됩니다.

Training

Input: data $x$

The posterior approximation: $Q(z_i|x)$, where $Q$~ $\mathcal{N}(\mu_{z_i}, \Sigma_{z_i})$

Graphics code: $Z$

encoder의 output ($encoder(x)$): $y_e$

[Figure 7]

$Q(z_i|x)$를 만들어내기 위해 데이터 $x$가 encoder를 통과합니다. $Q(z_i|x)$의 모수는 다음과 같이 만들어집니다.

$\mu_{z_i}=W_e*y_e$,

$\Sigma_{z_i}=diag(\exp(W_e*y_e))$

code $Z$가 different view를 가진 이미지를 생성하기 위해 decoder를 통과하고, $-\log(P(x|z_i))+KL(Q(z_i|x)||P(z_i))$ 를 object function으로 사용하여 학습하면 됩니다. 이 때, code $Z$는 Figure 7 처럼 disentaglement와 entaglement 파트가 섞여있는 벡터입니다.

[Figure 8]

여기까지는 다른 모델과 크게 다를 것이 없습니다. 그렇다면 어떻게 disentanglement를 할 수 있을까요?

DC-IGN은 mini-batch 를 이용하는 것입니다.

현재 우리가 여러 특징(feature)을 가진 학습데이터를 가지고 있다고 가정합시다. feature의 종류는 (방위각, 고도 각, 광원의 방위각, and intrinsic properties (shape, texture, etc)) 입니다. 앞의 3개의 feature를 각각 $z_1, z_2, z_3$라고 인코딩했다고 하겠습니다.

미리 mini-batch가 오직 한 개의 variable만 변하도록 데이터를 구성합니다. 예를 들어 elevation angle만 변할 수 있도록 구성하는 것입니다. 다음과 같은 procedure를 통해 모델은 학습됩니다.

[Figure 9]

{방위각, 고도 각, 광원의 방위각, 고유 속성} 중 하나에 해당하는 잠재 변수 $z_{train}$을 무작위로 선택합니다.
$z_{train}$에 해당하는 피쳐만 변하는 mini-batch 중에서 하나를 선택합니다.
mini-batch를 모델의 input으로 사용하여, 각각의 벡터 값을 알아냅니다.
배치 전체에서 벡터들의 평균을 계산합니다.
Decoder로 들어가기 전에, 1번에서 결정한 $z_{train}$ 차원이 아닌 다른 차원의 값들($z_i\neq z_{train}$)은 4번에서 구한 평균값으로 대체합니다. 이것을 "clamped output"이라고 하겠습니다.
reconstruction error값을 계산하고, SGVB에 따라 decoder에 back-propagation 해줍니다.
$z_i\neq z_{train}$ 의 gradient값을 평균값과의 차이로 대체합니다. $z_{train}$의 gradient는 그대로 통과됩니다.
수정된 gradient 값으로 encoder를 학습시킵니다.

intrinsic representation의 경우 $z_1, z_2, z_3$와 달리 매우 고차원이므로, 더 많은 학습이 요구됩니다. 따라서 논문의 저자들은 1:1:1:10의 비율로 모델을 학습했다고 합니다.

즉 한 번에 하나의 transfomation만 사용하여 학습함으로써, disentanglement를 시도하였습니다. 또한 하나의 변환을 보장하기 위해 선택된 차원을 제외하고는 평균과의 차이 값으로 하였습니다

Results

[Figure 10] *Kulrarni, Tejas D., et. al. 2015.*

[Figure 11] *Kulrarni, Tejas D., et. al. 2015.*

---

[2] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

[Figure 12] InfoGAN 요약

특징

Mutual Information을 최대화하도록 학습함.
GAN architecture를 사용함.

Objective

A disentangled representation should be helpful for the relevant but unknown tasks.

이에 따라 InfoGAN은 interpretable하고 meaningful representations을 만들어내기 위해 GAN의 구조를 사용하였습니다. 또한, 상호정보량(mutual information; MI)을 최대화하도록 하여 모델을 학습하였습니다.

InfoGAN 자체는 매우 간단하지만, 다양한 데이터셋에서 매우 효과적인 결과를 보여주었다고 합니다. 결과적으로 disentanglment 학습에 MI cost가 효과적이였음을 보여준 것이죠.

[Figure 13]

the generator distribution: $P_G(x)$

the real data distribution: $P_{data}(x)$

a generator: $G$

a discriminator: $D$

a noise variable: $z$

모델에 사용된 GAN을 간단하게 표현하자면 Figure 13과 같이 표현할 수 있습니다. 우리는 $P_G(x)$가 $P_{data}(x)$를 approximate하기를 원합니다. 따라서 $z\sim P_{noise}(z)$를 변형하여 $P_G$로부터 샘플 이미지를 생성할 수 있는 $G$를 학습시키게 됩니다. 이때, $G$는 $D$와 minmax game을 하며 경쟁적으로 모델을 학습하게 되며, $D$는 $P_G$와 $P_{data}$를 구별하기를 원합니다. 이를 수식으로 정리하자면 다음과 같습니다.

$\min_G \max_D V(D,G)=\mathbb{E}{x\sim P{data}}[\log D(x)]+\mathbb{E}_{z\sim noise}[\log(1-D(G(z))]$

위 식에서 볼 수 있듯이, GAN은 $z$에 아무런 제약조건을 주지 않습니다. 따라서 $z$는 entangled vector일 것입니다.

Key idea1

[Figure 14]

기존 GAN과 다르게, InfoGAN은 noise vector $z$ 뿐만 아니라 latent code $c$라는 벡터를 만들었습니다. 따라서 모델의 input은 Figure 14의 오른쪽 그림과 같이 두 개입니다. 이 때, latent codes를 $c_1, c_2, ..., c_L$이라고 표기하는데, 독립 가정을 하여 $P(c_1, c_2, ..., c_L)=\prod_{i=1}^{L}P(c_i)$가 성립합니다.

그러나 기존 GAN의 $c$만 추가한다고 해서 학습이 우리가 원하는 방향으로 이루어지는 것은 아닙니다. 모델이 $P_G(x|c)=P_G(x)$를 만들어 내기 위해 $c$를 무시하고 학습을 할 수 있기 때문입니다. 이를 위해 저자들은 information-theoretic regularization을 제안하였습니다. 이것은 latent codes c와 disribution G(z,c)의 상호정보량을 높이는 방식입니다. 즉, $I(c; G(z,c))$ 값을 높게 하는 것이죠.

[Figure 15] Mutual information From Wikipedia, the free encyclopedia

[Figure 16]

Figure 16를 보면, 두 개의 변수들이 독립이라면 상호정보량 $I=0$이 됩니다. 따라서 Info GAN은 이 값을 maximize하도록 목적함수를 설계한 것입니다.

이를 정리하면 다음과 같습니다.

$\min_G \max_D V_I (D,G)=V(D,G)-\lambda I(c;G(z,c))$ —— (1)

Training

[Figure 17] Chen, Xi, et al. 2016.

아직, InfoGAN이 끝나지 않았습니다. ☹️

위의 식 (1)을 그대로 사용한다면, 한 가지 문제가 있습니다. 어떤 문제가 있을까요?

상호정보량은 이전 관측 $x$를 통해 새로운 관측 $y$의 불확실성이 얼마나 제거 되는가에 대한 척도라고 할 수 있습니다. 즉 Figure 16 에서 볼 수 있듯이 $P(c|x)$이 필요합니다. 따라서 저자들은 Variational Information Maximization 테크닉을 이용하여 $P(c|x)$를 approximate 하기 위한 lower bound를 구합니다.

Figure 17 에서 3번째→ 4번째는 trivial하기 때문에 생략하고, 1번째→2번째에 대해 살펴보겠습니다. 해당 내용은 InfoGAN의 Appendix에 있습니다. 이해를 돕기 위해 외부 자료를 참고하였습니다. 🙂

[Figure 18] 임성빈 박사님, [학부생의 딥러닝] GANs | InfoGAN : Information maximizing GAN, 하우론 브레인

(Wikipedia, *Fubini theorm: 이중 적분은 두 번의 일변수 적분을 통해 구할 수 있고, 이는 두 변수에 대한 적분의 순서와 무관하다는 정리)

따라서 최종 목적함수는 다음과 같습니다.

$\min_{G,Q} \max_D V_{InfoGAN} (D,G,Q)=V(D,G)-\lambda L_1(c;G(z,c))$

Results

[Figure 19] Chen, Xi, et al. 2016.

[Figure 20] Chen, Xi, et al. 2016.

[Figure 21] Chen, Xi, et al. 2016.

[Figure 22] Chen, Xi, et al. 2016.

[3] beta-VAE: Learning basic visual concepts with a constrained variational framework ($\beta$-VAE)

[Figure 23] Yong-min Shin, GNN-YYK, beta-VAEs

특징

VAE 구조를 사용함.
Adjustable hyperparameter인 $\beta$를 추가함.
code vector 크기에 제한이 없음.
Disentanglement의 정도를 quantitatively 비교하기 위한 프로토콜을 개발함.

Objective

disentanglemet의 대표적인 모델 중 한가지는 infoGAN이라고 할 수 있습니다. 그러나 infoGAN은 여러 한계점이 존재합니다. 저자가 언급한 info GAN의 단점은 (1) 다양하고 큰 데이터셋에는 적용하기 힘들다. (2) noize variables의 수에 민감하다. 등등이 있습니다.

이러한 문제를 해결하기 위해 저자들은 $\beta$-VAE를 제안하였습니다. 모델 하이퍼파라미터인 $\beta$를 조절함으로써 disentanglement의 정도를 조절할 수 있습니다.

Key idea

images: $x \in \mathbb{R}^N$

two sets of ground truth data generative factors: $v; and ;w$

conditionally independent factors: $v \in \mathbb{R}^K, where \log p(v|x)=\sum_k \log p(v_k|x)$

conditionally dependent factors: $w \in \mathbb{R}^H$

[Figure 23] Yong-min Shin, GNN-YYK, beta-VAEs

저자는 이미지를 생성하기 위한 모델을 Simulator라는 말로 표현하고 있는 것 같습니다. 따라서 우리는 image $x$가 $\mathbf{Sim}(v,w)$로 부터 생성되었다고 가정합니다.

기존 VAE와 어떻게 달라졌는지 살펴봅시다.

[Figure 24] Higgins, Irina, et al. 2017

(1) 모델은 data x와 latent factors z의 결합 분포를 학습할 수 있습니다. 이 때 z는 x를 생성할 수 있는 factor겠죠? 즉, $p(x|z) \approx p(x|v,w)=\mathbf{Sim}(v,w)$ 입니다. 따라서 수식(1)을 maximize하길 원합니다.

(2) VAE에서 공부했듯이, 우리는 $q_\phi (z|x)$로부터 $z$의 분포를 추정합니다.

중요한 것은, $q_\phi (z|x)$가 disentanglement part인 $v$를 잘 capture해야 합니다. v를 제외한 나머지 part가 w라고 생각할 수 있습니다. 이를 보장하기 위해, $q_\phi (z|x)$가 $p(z)$와 match 되게끔 constraint을 걸게 됩니다.

이렇게 제약조건을 걸면,

latent information bottleneck의 capacity를 컨트롤할 수 있고,
independent(disentaglement factor)를 실현할 수 있습니다.
(v에 대한 직접적인 텀은 없다. 용량 제한을 주다보니, 그 공간 안에서 이미지를 잘 생성해내기 위한 파라미터를 학습하기 위해 disentanglement가 가능한 느낌이다.)*

이는 $p(z)\sim \mathcal{N}(0, I)$를 가정하면 조건부 최적화 문제로 풀 수 있습니다.

(3) 수식 (2)를 KKT 조건 하에 라그랑지안으로 풀면 (3)을 얻게 됩니다. (KKT 조건을 만족한다고 가정했기 때문에 (2)의 최적 솔루션이 (3)의 최적 솔루션을 구하는 것과 같음을 알 수 있습니다.)

눈치채셨겠지만, 논문 제목의 beta 파트가 여기서 등장하게 됩니다. 😉

여기서 KKT multiplier $\beta$는 latent information channel $z$를 통제하는 regularization coefficient가 됩니다.

(4) KKT 조건의 the complementary slackness(KKT 조건 중 하나)에 따라 $\epsilon$ ≥ 0이므로, 최종적으로 lower bound (4)가 나오게 됩니다.

beta의 효능 💪:

Disentanglementd의 정도를 조절할 수 있음.
beta = 1, Vanila VAE와 동일함.
beta > 1, 더 효율적인 latent representation을 찾기 위해 학습함. (regularize term이 강화됨.)
학습이 비교적 안정적임.

최종 목적식 (4)에서도 알 수 있듯이, 실제로 v, w는 가정일 뿐 conditionally independent factors $v$, conditionally dependent factors $w$에 관여하는 텀은 없습니다.

결국 제약조건으로 인해 등장한 $\beta$ 텀을 잘 조절하며 학습하면, z가 v, w로 분해가 되는 것입니다. 이러한 이유로 InfoGAN의 한계점을 커버할 수 있다고 말한 것 같습니다.

따라서 전반적인 모델 구조에 대한 코드는 다음과 같이 심플합니다.

[Figure 25] 1Konny, "Pytorch implementation of β-VAE", Github.

Disentanglement의 Metric에 관하여 해당 논문의 section 3에서 소개하고 있습니다만, 생략하도록 하겠습니다. 😂

Results

[Figure 26] Higgins, Irina, et al. 2017

오늘 다룬 모델들을 베이스라인으로 하여 비교하고 있네요!

[Figure 27] Higgins, Irina, et al. 2017

1개의 latent 값을 바꿨을 때 1개의 특징만 변하고 있는 것을 볼 수 있습니다.

결론

최신 논문들을 다루지 않아 조금 아쉽지만, 어느정도 disentanglement와 친해지셨길 바라겠습니다. 🙂

읽어주셔서 감사합니다.

Reference

해당 글은 연세대학교 신용민님의 도움을 받아 작성하였습니다.