eun0_0.log

[논문 요약] ToonCrafter: Generative Cartoon Interpolation

Mon, 10 Jun 2024 13:16:59 GMT

| Porject Page | Arxiv | GitHub |

Preview

Cartoon interpolation 논문입니다.
- 첫 프레임과 마지막 프레임을 입력받아 중간 프레임을 생성하여 비디오 클립을 제작합니다.
기존의 T2V 모델을 애니메이션 도메인에 최적화하여 파인튜닝하는 방법 제안합니다.
(Reviewer's 💡) 파인튜닝하면서 겪을 수 있는 흔한 문제를 해결하는 연구의 흐름이 괜찮습니다.

Introduction

Cartoon video interpolation 태스크입니다.
- 애니메이션의 프레임률을 높이기 위한 연구 분야 (더 부드러운 움직임/모션 가능) 입니다.
최근 image-conditioned T2V 모델이 뛰어난 성능을 보이지만, 이 분야에 바로 적용할 수 없는 세 가지 이유는 다음과 같습니다.
1. 도메인 gap : 학습 데이터 주로 (non-cartoon) real 도메인이어서 cartoon 데이터를 잘 대응하지 못합니다.
2. 압축된 잠재 공간(latent space) 사용함으로 디테일 손실 : 베이스 모델인 LDM(latent diffusion model)의 디코더가 잠재 공간에서 이미지를 복원 과정에서 종종 뭉게지는 현상이 발생합니다.
3. 사용자 제어의 어려움 : 텍스트 만으로 원하는 모션을 생성하는 것은 어렵습니다.
ToonCrafter는 위 세 가지 문제점을 해결하는 방법을 제안합니다.
1. 도메인 gap => cartoon 도메인의 학습 데이터를 수집하여 파인튜닝합니다.
2. 압축된 잠재 공간(latent space) 사용함으로 디테일 손실 => 디테일을 보완할 수 있는 dual-reference 3D 디코더를 제안합니다.
3. 사용자 제어의 어려움 => 스케치 condition으로 비디오를 생성할 수 있는 방법을 제안합니다.

ToonCrafter

애니메이션 도메인 파인튜닝 (Toon Rectification Learning)
디코더 개선 (Detail Injection and Propagation in Decoding)
스케치 조건 추가 (Sketch-based Controllable Generation)

Toon Rectification Learning

애니메이션 도메인 파인튜닝
- 데이터셋을 구축, 파인튜닝 기법을 제안

Cartoon Video Dataset Construction

학습 데이터셋은 270K 클립, 평가 데이터셋은 1K 클립을 수집
수집 & 필터링 과정
- raw 비디오 데이터 수집 (과정 공개 x)
- (사람) 해상도, 물체 기준으로 필터링 => 500h 비디오
- (모델) 정적인 비디오, 텍스트가 너무 많은 데이터 필터링
- (모델) 그림이 아닌 real 도메인 필터링
- (모델) 이미지 캡셔닝 모델로 비디오 설명하는 텍스트 생성
- (모델) 텍스트와 비디오 alignment 필터링
구축된 cartoon video 데이터셋은 공개 ❌

Rectification Learning

DynamiCrafter 기반으로 모델을 파인튜닝
수집한 Cartoon video data로 일부 레이어만 파인튜닝
- 전체가 아닌 일부만 파인튜닝하는 이유는 파인튜닝하면서 기존의 능력을 잊어버리는 catastropic forgetting 방지하기 위함
- 멋진 말로 base 모델의 motion prior를 유지하면서 도메인 adaptation
  - motion prior를 담당하는 temporal layer를 freezing
- 파인튜닝 모델 : Image-Context projector, Spatial Layers, ~~Temporal Layers~~

Detail Injection and Propagation Decoding

입력 이미지 정보를 디코더에 주입하여 디테일을 보완하는 디코더 제안

Dual reference based 3D deocder

dual-reference : 첫 프레임, 마지막 프레임
P3D : Pseudo-3D, temporal 정보 추가
- 베이스 모델의 디코더는 T2I의 단순 이미지 생성
HAR(Hybrid Attention Residual Learning mechanism)
- $F$: 이미지 feature

Sketch-based Controllable Generation

유저의 사용성을 높이기 위해 스케치 조건 추가
ControlNet처럼 학습된 모델에 스케치 조건 모델 학습
- 스케치 조건 모델을 사용하지 않어도 됨
스케치 조건 모델은 프레임 별 독립적으로 학습
- 모든 프레임마다 스케치 조건 없어도 됨 (sparse sketch ✅)

Experiments

DynamiCrafter의 512x320을 베이스 모델로 사용
학습 하이퍼파라미터
- 비디오 생성 모델 : 50K steps, lr=$1 \times 10^-5$, batch size 32
- 디코더 : 60K steps, lr=$4.5 \times 10^-6$, batch size 16
- 스케치 조건 모델: 50K steps, lr=$5 \times 10^-5$, batch size 32
(Reviewer's 💡) 정량적 결과는 생략하고 정성적 결과만 보겠습니다!

Application

animation interpolation
sktech interpoation
colorization

Ablation study

Rectification Learning

base 모델 : 애니메이션 도메인 생성 x
모든 레이어ICP + UNet(spatial+temporal) 파인튜닝 : 움직임이 덜 자연스러움
temporal 레이어 사용하지 않고 ICP + UNet 파인튜닝 : 움직임이 자연스럽지 않음
(Ours) temporal 레이어를 사용하되 학습시키지 않고 ICP + UNet spatial 파인튜닝 : 가장 애니메이션 도메인이면서, 움직임이 자연스러움
ICP만 파인튜닝 : 생성 퀄리티 낮음

Dual reference based 3D decoder

요소 설명
- P3D : temporal 정보 반영
- HAR : 첫프레임, 마지막 프레임 정보 사용
저자가 제안한 디코더가 디테일을 상당히 보완
Sketch guidance
요소 설명
- ZeroGate : frame-dependent sketch 조건 모델
- (Ours)FrameIn.Enc. : frame-independent sketch 조건 모델
- w/o sketch : 스케치 조건 사용하지 않음
스케치 조건을 사용하지 않으면 첫 프레임과 마지막 프레임과 유사한 interpolation만 가능
ZeroGate는 스케치 조건이 없는 프레임을 잘 생성하지 못함
제안한 frame에 독립적으로 학습된 sketch 조건 모델이 활용도가 높음

Limitation

콘텐츠 잘 파악하지 못함, 텍스트 반영 잘 되지 않음
- (Reviewer's 💡) 데이터셋 텍스트 만들 때 이미지 캡셔닝 모델 써서 motion을 잘 표현했을지 의문...

Reviewer's Comments 💡

파인튜닝을 위한 데이터 구축 과정을 세세하게 설명해서 좋음, but 데이터 공개하지 않아 아쉬움. 아마 저작권 문제 있지 않을까...?
디테일 뭉게지는 이슈를 기존에는 주로 Super Resolution으로 해결하는데, 이 논문에서는 태스크에 맞게 consistency를 더 잘 유지하면서 디테일을 개선하는 방법으로 디코더 구조를 제안하고 학습하는 게 좋아보임
실제 데모 테스트해봤을 때 텍스트 반영은 거의 잘 되지 않고, 학습할 때 프롬프트 개선하면 성능이 개선될 것이라 생각됨

[논문 리뷰] In-Context AutoEncoder for Context Compression in a Large Language Model (ICAE)

Mon, 22 Apr 2024 16:59:44 GMT

※ 이전 연구는 NLP 지식이 쌓인 후 다시 추가하겠습니다... 현재는 방법론 위주로 작성하였습니다.

Introduction

이 논문은 LLM의 Long-context 문제를 해결하는 방법을 제안합니다. (long-context : 긴 입력 텍스트)
트랜스포머 기반의 LLM 모델들은 self-attention 연산 때문에 긴(long) 입력을 잘 처리하지 못합니다. (입력 길이에 따라 quadratic($O(L^2)$)한 연산복잡도)
이전 연구들은 주로 모델 구조(예.attention)에 변형을 주는 방법으로 연산 속도를 개선시켰지만 성능은 여전히 좋지 못했습니다.
이 논문은 context compression 관점에서 문제를 해결하고자 합니다.
즉, long-context를 압축하여 memory라는 feature로 표현하는 방법을 제안합니다.

Motivation

같은 정보를 담고 있는 text여도 LLM에서 다른 길이로 표현이 될 수 있습니다.
- 예를 들어, character 단위로 표현하면 2572 토큰, (sub-)word 단위로 표현하면 512 토큰
더 짧게 더 compact하게 텍스트를 표현할 수 없을까?가 해당 논문의 motivation입니다.
- 논문은 더 compact한 _memory 단위_로 long-context 텍스트를 표현합니다.
- memory는 _오토인코더_를 통해 구합니다.

In-Context AutoEncoder (ICAE)

주요 내용 프리뷰
- 오토인코더 구성 : LLM + LoRA를 사용
- 학습 방법
  1. Pretrain: 오토인코더 학습
  2. Fine-Tuning: Instruction 데이터로 파인튜닝
- Instruction 데이터셋은 GPT-4로 생성

모델 아키텍쳐 & Pretrain 학습

LLM 자체를 인코더-디코더로써 사용
- 학습된 LLM 자체가 이미 텍스트(feature)를 잘 안다!! 그것을 잘 활용하자!
- 따라서, 뒤에 실험에서 나오지만 더 좋은 LLM 사용하면 성능 더 좋아진다
토큰을 이어붙이는 In-context 방식으로 인코딩-디코딩 수행
오토인코더 구조
- 인코더 : LLM + LoRA ( + memory tokens $e_m$)
- 디코더 : LLM
이 때, LLM은 학습하지 않는다. 추가 LoRA와 임베딩만 학습
pretrain 학습에는 엄청난 양의 텍스트 데이터 사용
- The Pile: An 800gb dataset of diverse text for language modeling 데이터셋 사용
pretrain 학습 목적 함수는 2 가지가 있음
- AutoEncoding
- Text Continuation

Pretrain : AutoEncoding 학습

$L_{AE}$: memory slots이 주어졌을 때 입력 context 복원하도록 memory slots 학습 $L_{AE}= max_{\tilde{m_1}, ...,\tilde{m_k}}P(c|\tilde{m_1}, ...,\tilde{m_k};\Theta_{LLM})$ $;;;;;;;= max_{\Theta_{LoRA}, e_m}P(c|m_1,...,m_k;\Theta_{LLM}, \Theta{LoRA}, e_m)$
디코더에 special 토큰 [AE] 사용

Pretrain : Text Continuation

$L_{LM}$: (다음 토큰 예측하는) LM 목적 함수와 동일하고 memory slots 학습.
generalization을 위한 regularization loss
- 추가적인 효과로 기존 LLM의 능력을 잃지 않게 해주는 것 같음

Instruction Fine-Tuning

단순 복원이 아니라 학습된 memory가 다양한 task에 사용될 수 있어야함
PwC(Prompt-with-Context) dataset으로 파인튜닝
- 논문에서 새로 만든 Instruction 데이터셋
- (context, prompt, response)로 구성됨
- context는 The Pile 데이터셋에서 샘플링, prompt-response는 GPT4로 생성
$L_{FT}$: context와 (instruction) prompt 주어졌을 때 response 생성하도록 memory slots 학습

Experiment

Setting

pretrain에는 The Pile 데이터셋 사용
- The Pile: An 800gb dataset of diverse text for language modeling
fine-tuning에는 PwC(Prompt-with-Context) 데이터셋 사용
- 240k samples for training, 18k for testing
- 허깅페이스 datasets에 공개됨
LLM으로 LlaMa 사용
LoRA는 LLM multi-head attention의 query, value projections에 사용, LoRA rank는 128
memory slot 길이 k=128
ICAE는 LLM의 약 1% 파라미터 추가됨
8 개의 A100 GPUs(80GB)으로 학습, bf16 사용

Pretrain된 ICAE 성능 평가

오토인코더의 복원 능력 평가

metric
- BLEU score
- Exact-Match (EM) score : $\frac{len(exact; matching; prefix)}{total; length}$
- Cross Entropy Loss
입력 토큰 길이에 따른 성능 비교
- 300까지는 거의 완전 복구
- 500의 경우 BLEU median이 0.98, EM이 0.6 (500*0.6=300토큰)
memory slot 길이 k에 따른 성능 비교
- k가 작을수록 성능 하락
- 4배 이상 압축하는 것은 다소 어렵다.
  Text continuation 평가
압축률이 클수록 손실이 크다.

복구 예제

복구를 제대로 못한 부분을 보면 그럴 듯 하다

The results prove -> The experimental evidence proves
Insight : memorization 위해서 모델이 자기 지식을 바탕으로 스스로 특정 부분을 강조/무시 => 지식이 없으면? rote memorization! (기계적 기억) => 지식이 많은 모델은 적은 노력으로 외울 수 있다 => stronger LLM일수록 압축 더 잘한다

Fine-tuning된 ICAE 성능 평가

PwC 테스트셋 사용
GPT4에게 어느 모델의 결과가 더 좋냐고 물어봄
저자는 on par(win+tie)를 주 성능 지표로 사용함
LLM 비교
- Llama-7b의 ICAE는 GPT-4와 on par 비교했을 때 처참한데, 모델을 Llama-2-7b-chat으로 바꾸면 75%까지 올라감 (k=128 기준)
- Llama-2-7b-chat의 ICAE는 Llama-2-7b-chat보다 약간 성능이 떨어지지만 더 큰 모델(Llama-2-13b-chat)을 사용했을 때는 오히려 성능 향상이 있음. 이는 insight와 동일함.

pretrain의 영향 비교

GPT에게 토큰 summary한 것보다 ICAE로 압축한 메모리 사용하는 것이 성능이 좋음
pretrained vs non-pretrained 예제
- 30년인데 non-pretrained에서는 3년이라고 함

Latency

약 3 배 정도 빨라짐

Multiple Spans of Memory Slots

512토큰 보다 많은 입력은 토큰 chunk를 내고 concat해서 사용
- 소량의 multiple span concatenation samples 학습 필요
  - ?? fill in the middle ??
    
    enabling the model to work with concatenated spans of memory slots, as OpenAI’s work (Bavarian et al., 2022) on introducing the “fill in the middle” ability for the GPT.
ICAE 성능이 original context보다 더 좋음
- 사실 같은 1024 토큰이지만 ICAE는 4배 압축했기 때문에 4096 토큰 정보를 포함
- 약간의 성능 저하로 메모리 절약 가능

Conclusion

LLM을 사용하여 context를 압축하는 ICAE 제안
연산량을 줄였고, 메모리 효율적
LLM이 memorization 수행하는 방식에 대한 insight 제공
PwC 데이터셋 공개

Reviewer's Summary

같은 입력일 때는 압축안한 것이 성능 좋음
- 단, 엄청 긴 길이 일때는 압축한 것이 좋음
같은 길이일 때는 압축한 것이 성능 좋음
multi-span이 좋아보이는 데 왜 강조를 안했지?
PwC 데이터셋 만드는 것도 일이었을텐데 contribution이라 안하고 그냥 넘어감
contribution이라고 하는 insight 부분은 너무 주관적, 큰 모델 쓰면 잘된다를 설명하기 위해 넣은 듯
예전 attention 처음 나왔을 때의 느낌이 든다. 그 기계 번역에서 c 벡터로 압축하는...
rote memorization 이란 단어 좋은 듯! 모델이 그냥 외워버려~

eun0_0.log

[논문 요약] ToonCrafter: Generative Cartoon Interpolation

Preview

Introduction

ToonCrafter

Toon Rectification Learning

Cartoon Video Dataset Construction

Rectification Learning

Detail Injection and Propagation Decoding

Dual reference based 3D deocder

Sketch-based Controllable Generation

Experiments

Application

Ablation study

Rectification Learning

Dual reference based 3D decoder

Sketch guidance

Limitation

Reviewer's Comments 💡

[논문 리뷰] In-Context AutoEncoder for Context Compression in a Large Language Model (ICAE)

Introduction

Motivation

In-Context AutoEncoder (ICAE)

모델 아키텍쳐 & Pretrain 학습

Pretrain : AutoEncoding 학습

Pretrain : Text Continuation

Instruction Fine-Tuning

Experiment

Setting

Pretrain된 ICAE 성능 평가

오토인코더의 복원 능력 평가

Text continuation 평가

복구 예제

Fine-tuning된 ICAE 성능 평가

LLM 비교

pretrain의 영향 비교

Latency

Multiple Spans of Memory Slots

Conclusion

Reviewer's Summary