tu11p

[논문 리뷰] Exploring Expert Failures Improves LLM Agent Tuning (2025)

Fri, 02 May 2025 04:22:55 GMT

(Thumbnail Image made with ChatGPT)

논문 링크

From arXiv, 2025.04

3줄 요약

기존 LLM Agent Fine-Tuning 방법인 RFT는 간단한 작업만 잘한다.
어려운 작업을 해결하는 Agent Tuning 방법은 뭐가 있을까?
실패한 경로에서 ‘유용한 행동’을 식별해서 학습에 활용하면 성능 향상 → 우리가 제안하는 EEF

0. Abstract

Rejection Sampling Fine-Tuning(RFT)은 LLM을 agent로 Fine tuning하는 효과적 방법으로 부상
- 전문가가 생성한 성공적인 trajectories를 모방하고,
- 성공적인 자가-생성 trajectories에 대한 반복적인 fine-tuning을 통해 agent 기술 향상
GPT-4와 같은 전문가는 주로 더 간단한 작업에서 성공적, RFT는 본질적으로 간단한 시나리오 선호
- 복잡한 작업은 OOD(Out of Distribution), 해결되지 않음
실패한 전문가 경로에서 유익한 행동을 식별해 까다로운 작업에 대해 탐색 효율과 성능 향상에 도움을 줄 수 있음을 발견
- Exploring Expert Failures (EEF)

1. Introduction

LLM을 에이전트로 활용할 때 주로 사용하는 RFT 방식은 간단하고 효과적이지만, 고난도 task에서는 여전히 해결되지 않는 부분이 많음
RFT는 전문가가 생성한 성공적인 예시만을 사용해 모델을 학습하고, 더 단순한 task를 선호
- 복잡한 OOD task는 무시되고 해결되지 않음
Exploring Expert Faliures (EEF) 제안
- 실패한 전문가 경로에도 적절한 계획, 탐색 전략 등의 유용한 행동이 포함되어 있으며, 이를 적극적으로 추출해 학습하는 접근
WebShop에서 62% 승률 및 0.81 초과, SciWorld에서 81점 초과 달성하며 새로운 SOTA 달성

2. Background

Text-based LLM Agent의 상호작용
- Markov Decision Process(MDP)로 모델링.
RFT 기법
- 초기: GPT-4와 같은 전문가가 성공적인 경로 생성 후 positive 경로만 학습 데이터로 사용
- 반복: agent가 탐색 성공한 경로를 추가하여 재파인튜닝하는 과정 반복
WebShop
- 실제 Amazon 상품 목록을 통해 온라인 쇼핑 행동을 시뮬레이션 하는 e-커머스 플랫폼
- Language understanding과 Multistep decision making을 연구하기 적합

3. Methodology

3.1 Motivation

Webshop 실험에서 GPT-4조차 35%의 낮은 성공률
- 나머지 65%는 OOD 상태
실패한 경로에도 유용한 탐색 및 recovery 행동이 포함
- Ex) GPT-3가 failure 후 Back을 사용해 recover을 시도하는 등의 행동은 agent에게 학습 가치

3.2 Exploring Expert Failure (EEF)

3 main phases:

Behavior Cloning: 전문가가 만든 긍정적(positive)한 경로를 모방해 기초 능력 학습
Exploration: 모델이 스스로 혹은 전문가 상태로부터 탐색
Fine-tuning: 유익한 행동만을 선별해 추가 학습

Behavior Cloning (Algo 1. line 4)
- Input: 전문가 데이터셋
- 긍정적 경로 중 보상 1인 것만 사용
- 시퀀스 중 Action 부분만 마스킹하여 학습해 정책(πθ) 초기화
Exploration (Algo 1. line 6-10)
- 정책(πθ)을 사용해 학습 데이터의 초기 상태 및 전문가 실패 경로 중 선택된 state에서 탐색
- 전문가 경로 τ_e에서 M개의 구간 선택해 시뮬레이션 → beneficial actions 추출
Reinforcement Fine-Tuning (Algo 1. line 11-15)
- 시뮬레이션에서의 긍정적 경로 중, 중요한 state 기준으로 need recover state(복구 필요 상태)를 식별
- 해당 상태에 대해 가장 효과적인 경로를 선택하고 그 이후 행동만 학습

구체적 Algorithm :

전문가 데이터셋 D_e로부터 보상 R(τ_e) = 1인 경우만 초기 학습에 사용
for :
- 모델을 환경에서 실행해 경로 수집
- 전문가 실패 경로에서 일정 간격으로 상태를 선택하고, 거기에서 정책을 실행해 성공 여부 확인
- 성공 경로는 D+에 저장
- 실패한 지점 기준으로 need recover state S_r 추출하고, 그 상태로부터 성공적인 경로가 있으면 학습에 사용

‘유익한 행동’의 정의와 선택 기준?

실험적 시뮬레이션 기반:
- 전문가 실패 trajectory (τe)의 여러 상태(si)에서 현재 policy (πθ)로 시뮬레이션을 수행
- 만약 어떤 전문가 상태 sl에서 시작해서 성공하는 trajectory (τsl)를 만들 수 있다면, sl에 도달하기까지의 행동들(a0~al-1)은 유익한 행동으로 간주
회복(recovery) 행동 식별:
- 이전 상태(si−l)에서는 성공했지만, 다음 상태(si)에서는 실패하면, ai−l~ai−1 구간의 행동은 잠재적 문제 행동으로 취급
- 이 실패한 상태 si에서 성공적인 trajectory가 생성되면, 이후 행동(ai 이후)만을 학습 데이터로 사용
데이터 편향 방지:
- 동일한 상태에 대한 multiple positive trajectories가 있을 경우, 가장 전문가 행동이 적은(shortest expert actions) trajectory를 선택해서 일반화 능력을 높임
- 이는 특정 도메인 행동으로 과적합(overfitting)되는 것을 방지하는 전략
Loss Masking 적용:
- 선택된 beneficial actions 이후의 행동에만 학습 손실이 적용되며, 문제 행동이나 실패한 행동은 학습하지 않음

4. Experiments

4.1 Experimental Settings

데이터셋:
- WebShop 11k(전체), 3k(일부 샘플)
- ScienceWorld 2k (20단계 내외의 긴 trajectory 필요)
비교 대상:
- No Fine-Tune: GPT-3.5, GPT-4
- Fine-Tune Only: SFT-ALL, SFT-POS, NAT
- Exploration 기반: ETO, RFT, RFT×6
- 제안 방식: EEF GPT-4, EEF GPT-3&4
모델 세팅:
- Base Model: LLama3 8B Instruct
- 학습 파라미터: 6 epoch, lr=5e-5, batch size=64
- 반복 횟수 I=4, 시뮬레이션 횟수 M=5

4.2 Main Results

Win Rate (Table 3):
- Webshop 11k: RFT×6 → 53.6% vs EEF GPT-4 → 58.4%, EEF GPT-3&4 → 62.0%
- Webshop 3k: RFT×6 → 41.4% vs EEF GPT-4 → 46.8%, EEF GPT-3&4 → 50.0%
- SciWorld: RFT×6 → 62.5% vs EEF GPT-4 → 68.5% (SOTA)
해석:
- EEF는 기존 RFT 기반 방식보다 휠씬 높은 성능
- 특히 GPT-3.5 Turbo 데이터를 추가하면, 비용 효율성을 유지하면서 성능이 더 향상
- EEF는 RFT의 구조는 유지하되, 실패 경로를 적극적으로 활용하는 것이 차별점

4.3 Ablation Studies

Navigation Skill 개선
- Next / Back 사용 성공률 및 시도율 측정
- GPT-4는 시도율은 높으나 성공률 낮음 → 실행 역량 부족
- EEF는 시도율, 성공률 모두 높음 → 해당 스킬 습득 및 실용화 성공
Case Studies
- 어려운 과제에서는 단순히 첫 페이지 상품을 선택하면 실패
- EEF는 Next, Back 등의 행동을 사용해 조건에 맞는 제품 탐색
- Ex) 원한 색상, 가격 조건을 갖춘 샴푸나 가구를 찾기 위해 여러 페이지 탐색
Exploration Efficiency
- 적은 시뮬레이션(M=2)으로도 40% win rate
- GPT-3의 trajectory 탐색이 GPT-4보다 더 효과적인 경우도 있음 → 다양성, 편향 탈피 가능성
Model Generalization
- mistral-7b-v0.3 모델에도 EEF 적용 시 동일한 성능 우수함 입증

LLM 기반 에이전트 학습 방식은 크게 3가지
1. Fine-tune 없이 Prompt만 조정
2. Exploration 없이 Fine-tune (SFT 등)
3. Exploration 포함 Fine-tune (RFT, ETO, EEF 등)
대부분은 trajectory 전체를 하나의 보상으로 취급하지만, EEF는 stepwise 분석으로 유익한 행동만 학습

6. Conclusion and Future Work

결론:
- EEF는 실패한 전문가 trajectory 속 유익한 행동을 학습에 포함하여 RFT보다 성능 향상
- GPT-3.5 같은 약한 전문가의 trajectory에서도 유용한 정보 추출 가능
- SFT만 사용하기에 단순하고 효율적이며, reward 모델 불필요
미래 방향:
- 선택된 행동만을 사용한 preference learning
- Binary Search 기반 beneficial action 탐색
- MCTS 같은 트리 탐색 알고리즘과의 결합
- 전문가 소스 간 비용-효율 trade-off 전략 탐색

[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)

Mon, 03 Feb 2025 05:15:25 GMT

논문 링크

From DeepSeek, 2025.01

(이 글은 논문을 바탕으로 재구성하여 쓴 글이므로 인덱스는 원 논문의 인덱스와 상이합니다.)

서론

DeepSeek-R1. 요즘 워낙 핫한 논문이라 연휴지만 안 읽어볼 수 없었다. o1급 성능을 구현하는데 모델 학습에 시간은 280만 H800 GPU hour 정도, 비용은 80억원 정도 밖에 들지 않았다고 한다.

이 논문이 발표되자마자 미국 기술주들(특히 매그니피센트 7)의 주가는 하락했다. 특히 GPU 물량빨로 학습을 이어나가는 추세에서 가성비있는 학습이 가능해짐이 보여지자 엔비디아는 17%가량 폭락했다(물론 다음날 상당 부분 회복했지만).

그렇다면 DeepSeek-R1은 어떻게 o1 수준의 성능을 적은 양의 학습으로 구현한 것일까?

바로 강화학습(Reinforcement Learning)을 통해 모델의 자율적인 추론 능력을 개발했다고 한다.

물론 기존 모델도 강화학습을 사용한다. 하지만 기존 모델들은 대규모 데이터 수집을 통한 지도학습(Supervised Fine-Tuning, SFT)으로 기본적인 능력을 학습한 이후에 강화학습을 적용했다. DeepSeek-R1은 순수 강화학습을 통해 모델 스스로 추론 능력을 발전시켰다고 한다.

논문에서 제시된 DeepSeek-R1의 핵심 특징 및 기여점은 다음과 같다.

지도학습(SFT)없이 강화학습(RL)만으로 추론 능력 발전
- 기존 모델들은 지도학습을 통해 먼저 기본적인 능력을 학습한 후 강화학습을 적용했지만, DeepSeek-R1-Zero는 base model(DeepSeek-V3-Base)에 곧바로 강화학습을 적용해 스스로 추론 능력을 발전시켰다.
강화학습을 통해 자율적으로 복잡한 추론 전략 학습
- DeepSeek-R1-Zero는 self-verification, reflection, long CoT generation 등 복잡한 추론을 자율적으로 습득했다
Cold Start 데이터를 활용한 성능 향상
- DeepSeek-R1은 DeepSeek-R1-Zero의 초기 불안정성을 해결하고 성능을 높이기 위해 적은 양의 high quality cold start data를 활용했다.
소형모델 distilation을 통한 효율성 확보
- DeepSeek-R1의 추론 능력을 더 작은 모델로 distill해 효율성을 확보했다.

DeepSeek-R1 의 구조

DeepSeek-R1은 DeepSeek-R1-Zero, DeepSeek-R1의 두 가지 모델로 구성된다.

DeepSeek-R1-Zero

이 모델은 지도 학습 없이 순수 강화학습 만으로 LLM의 추론 능력을 개발할 수 있음을 입증한 모델이다.
DeepSeek-V3-Base 모델을 기반으로 GRPO(Group Relative Policy Optimization) 알고리즘을 사용해 학습되었다.
기존 RL 알고리즘은 보통 정책(policy)과 비슷한 크기의 critic 모델을 사용하여 advantage를 계산
But, GRPO는 critic 모델을 사용하지 않고 그룹 내 sample의 상대적인 reward를 비교하는 방식으로 baseline 설정
GRPO 알고리즘
- critic을 제거하고, 하나의 질문에 대해 여러 개의 답변을 생성한 후 그룹 내에서 상대적인 reward를 비교하여 advantage 추정
- GRPO는 critic 모델 없이 group score에서 baseline을 추정해 학습 비용을 절감하는 방식이다.
- 아래 수식과 같이 GRPO는 policy model 𝜋를 최적화하여 목표를 최대화한다.

    ![](https://velog.velcdn.com/images/dutch-tulip/post/b977d572-1bc4-491d-bc34-1716312ce655/image.png)


- *A*는 어드밴티지, *D_KL*는 Kullback-Leibler 발산, *β*는 하이퍼파라미터이다.

Reward Model
- Accuracy reward와 Format reward의 두 가지 유형의 reward를 사용한다.
- Accuracy reward는 응답의 정답 여부를 평가하고, Format reward는 모델이 추론 과정을 및 태그 사이에 포함하도록 강제한다.
- 이 과정에서 Neural reward model은 reward hacking 문제와 추가적인 리소스 문제로 인해 사용하지 않았다.
Training Template
- 추론 과정과 최종 답변을 순서대로 생성하도록 요구하는 간단한 템플릿 사용

Performance
- DeepSeek-R1-Zero는 AIME 2024에서 초기 15.6%에서 71.0%로 크게 향상된 성능을 보였으며, majority vote를 통해 86.7%까지 향상시켜 OpenAI-o1-0912을 능가했다.
또한 모델 스스로 추론시간이 증가하면서 복잡한 문제를 해결하는 능력과 self-verification, reflection과 같은 advanced된 행동을 스스로 습득했다.

Aha-moment
- 학습을 진행하면서 모델이 스스로 "생각하는 시간"을 점점 늘리는 패턴을 보임.
- reasoning을 깊이 있게 수행하려는 경향이 자연스럽게 발생.
- DeepSeek-R1-Zero 학습 과정에서 모델이 중간에 ‘아하 모먼트’를 경험한다는 흥미로운 사실이 있었다고 한다.
- 이 순간이 발생하면, 모델은 문제에 대한 초기 접근 방식을 재평가하고, 더 많은 추론시간을 할당하는 방법을 학습한다.
  - 예를 들어, 복잡한 수학 문제에서, 초기 풀이 과정이 막히자, 모델은 스스로 "Wait, wait. Wait. That’s an aha moment I can flag here.”와 같은 인간과 유사한 표현을 사용하며, 이전 단계를 재검토하는 모습을 보인다.

- 이는 강화 학습이 명시적인 지시 없이도 모델 스스로 문제 해결 전략을 발전시킬 수 있다는 강력한 증거이다.

하지만, DeepSeek-R1-Zero는 가독성이 떨어지고, 여러 언어가 섞이는 등의 문제점이 있었다.

DeepSeek-R1

DeepSeek-R1은 DeepSeek-R1-Zero의 개선된 버전이라고 할 수 있다.
요약하자면, Cold Start data로 사전학습된 base model을 초기 상태로 해서, (DeepSeek-R1-Zero와 동일한)대규모 강화학습을 적용한다. 강화학습이 수렴되면, 이 지점의 checkpoint에서 SFT 데이터를 수집한 뒤, 이 데이터를 기반으로 추가적인 강화학습을 진행한다. 이 강화학습에서는 모델의 helpfulness와 harmlessness를 향상시킨다.
Cold Start
- Cold Start란 데이터 부족이나 초기 상태에서의 학습 부족으로 인해 낮은 성능을 보이거나 최적의 행동을 수행하기 어려운 문제를 보이는 것을 의미한다.
- DeepSeek-R1에서의 Cold Start 단계는 RL 초기 단계를 안정화하고 모델의 수렴 속도를 빠르게 하는 데에 목적이 있다.
- DeepSeek-R1-Zero는 V3-Base에 직접 RL을 적용해 모델 스스로 추론 능력을 발전시켰는데, 초기 학습 단계에서 불안정성이 크고 수렴 속도가 낮다는 문제점이 있었다.
- 따라서 DeepSeek-R1은 미리 준비된 고품질의 데이터(Cold Start data)로 모델을 초기화해 이런 문제점을 해결하고자 했다.
- Cold Start 데이터 수집 방법 (대망의…)
  - 데이터는 크게 4가지 방법으로 수집되었다고 합니다. 근데 생성 방식만 다를뿐, 결국은 다 DeepSeek 계열 모델을 기반으로 생성한 거라고 하네요. (~~절대 GPT는 사용하지 않았답니다!!~~)
    1. DeepSeek-R1-Zero에서 생성된 데이터 활용
      - 순수 RL 모델인 R1-Zero의 응답 일부 선택
      - Readability가 낮거나 여러 언어가 혼합된 문제가 있는 sample은 필터링
      - 즉, RL only인 R1-Zero에서 자연스럽게 학습된 CoT 패턴을 가져옴
    2. Few-Shot prompting을 통해 V3, V3-Base로 생성
      - V3 또는 V3-Base를 활용해 long CoT 데이터 생성
      - Few-shot으로 정제된 응답 유도
      - 명확하고 논리적인 CoT 데이터 확보
    3. Human Annotator가 DeepSeek 모델 응답 Post-Process
      - 1), 2) 로 생성된 데이터를 사람이 직접 검토
      - 필요 시 수정하거나, 추가로 재구성해 가독성 향상
      - 인간이 데이터를 새로 생성하지는 않으며, 모델의 응답을 개선하는 과정
    4. Post-processing을 통한 필터링 및 정제
      - Markdown 형식 등으로 데이터 정리해 구조화
      - 다국어 혼합 문제 제거
      - 모델 생성 응답 중 논리적 일관성 부족한 부분 수정
  - 데이터 수집 방법까지를 포함한 Cold-Start 데이터를 활용한 다단계(4단계) 학습 전략은 아래와 같이 정리할 수 있겠다
    1. Cold-Start 데이터 준비
      - DeepSeek-V3-Base 모델을 수천 개의 long CoT 데이터를 활용해 fine-tune
      - Readability를 높이기 위해 정형화된 Formatting
      - Ex)
        
        |special_token| |special_token|
    2. 강화학습
      - R1-Zero와 동일한 RL 기법을 적용해 reasoning 능력 강화
      - Language Consistency Reward 추가
        
        CoT 내 언어 일관성 유지하도록 유도
        
        but 일부 성능 저하 부작용
    3. Rejection Sampling 및 SFT
      - RL이 수렴한 이후, 새로운 SFT 데이터 수집
      - R1의 checkpoint에서 600K 이상의 reasoning 데이터 생성
      - non-reasoning data(번역, 요약 등) 200K 추가, 총 800K로 추가 학습
    4. RL for all scenarios
      - 최종적으로 모든 유형의 입력에 대응할 수 있도록 광범위한 RL 적용
      - Helpfulness(유용성?) 및 Harmlessness(안정성?) 향상 목표로 reward 모델 조정

Distillation (증류 모델)

LLM은 말그대로 ‘Large’ Language Model이다. 성능이 강력하지만 그만큼 연산 비용이 높고 실시간 활용이 어렵다.
Distillation은 이를 해결하기 위한 대표적인 방법이다. Diatillation은 무엇인가?
- 성능이 좋은 대형 모델(Teacher model이라 부른다)의 지식을 더 작은 모델(Student model)로 전이(transfer한다고 한다)하는 과정을 의미한다.
- 작은 모델을 별도로 fine-tuning하는 것이 아니라, 대형 teacher model이 학습했던 패턴과 추론 능력을 반영해서 학습한다는 것이 중요한 점이다.
- 이를 통해서 teacher model의 성능을 최대한 유지하면서도 연산량은 줄여서, 경량화된 모델을 제작할 수 있다는 것이 포인트이다.
DeepSeek-R1도 그 추론 능력을 소형 모델로 transfer하기 위해 distillation 기법을 적용했다. 그리고 그 방식은 다음과 같다.
1. DeepSeek-R1이 생성한 800K의 학습 데이터 활용
  - 앞에서 설명한 Cold start 데이터와, RL로 학습된 R1의 지식으로 고퀄리티의 학습 데이터를 생성
  - 이걸로 소형 오픈 소스 모델을 학습
2. 오픈 소스 모델 기반으로 distillation
  - LLM을 직접 만들지 않고 기존 오픈소스 모델 활용
    - Qwen2.5-Math 시리즈 : 1.5B, 7B, 14B, 32B
    - Llama : Llama-3.1-8B, Llama-3.3-70B-Instruct
      - Llama-3.3이 3.1보다 조금 더 뛰어난 reasoning 능력이 갖고 있어서 3.3 썼다고 함
3. dilstilled된 모델에는 RL을 적용하지 않음
  - R1에는 RL을 적용했지만, distilled 된 모델이는 SFT만 적용해 최적화
  - distillation 목적 자체가 distill 만으로도 성능 향상됨을 입증하는 것이었고, RL 적용하느 것은 향후 연구 과제

DeepSeek-R1의 성능 (초간단)

논문에서 언급된 실험이나 성능 비교는 자세히 다루지 않겠다.
어짜피 o1과 비슷하거나 약간 높다고 하는 내용이 대부분이기 때문이다.
논문 첫 페이지에 있는 벤치마크 그래프만을 넣어 두겠다.
사용해본 사람이라면 알겠지만, 사실 o1이 수치로는 비교할 수 없는 무언가의 좋은 성능이 있긴 하다.

DeepSeek-R1이 시사하는 것

SFT vs. RL
- DeepSeek-R1-Zero는 SFT 없이 순수 RL만으로도 LLM의 reasoning 능력을 향상시킬 수 있다는 것을 입증했다.
  - 곧, SFT가 아닌 RL도 LLM의 자체적인 추론 능력 발달을 이끌어 낼 수 있다는 것이다.
  - SFT를 통한 LLM 학습은 매우 많은 양의, 양질의 학습 데이터가 필요하기 때문에, synthetic data에 대한 연구도 한창 진행 중이고, 많은 데이터로 인한 GPU 사용량도 고려해야 하기에 MoE(Mixture of Expert) 연구도 진행되는 등 많은 곁다리? 연구 분야도 생겨나는 중이었다. 물론 DeepSeek도 MoE방식은 쓴 것 같다만..
  - 그런데 RL만으로 가성비 있는 방식을 통해 거의 유사한 성능을 냈다면 AI업계에나, 엔비디아에게나 일시적으로는 분명히 충격이 있긴 하다.
추론 모델의 미래는?
- 이 논문에서 DeepSeek가 주장하는 것과 구현한 것이 100% 사실이라면, 개인적으로는 OpenAI, Google, Anthropic 등과 같은 프론티어 ai 모델 개발 기업을 제외하면 AGI급 모델을 개발하려고 하지는 않을 것 같다. DeepSeek 정도의 가성비있는 방법론으로도 거의 유사한 성능을 낼 수 있다면, 왜 그 많은 돈을 들여서 SOTA급 모델을 개발하려 할까? 적절한 비용으로 적절한 성능의 모델을 개발하는 것이 더 비용 효율적일 것이다.
  - 또한, 프론티어 기업들이 이미 저런 방법론들을 사용하고 있지 않으리란 보장이 절대 없다고 보인다.
엉뚱한 소리일 수 있지만, 엔비디아는 한동안은 결국 더 웃게 될 거 같다. 이러한 저렴한 모델 학습 방법론이 유행처럼 번져나가면, (딥러닝에 있어서의) 엔트리급 GPU의 수요는 더 늘어날 것으로 보이고, 기업들 사이에서 GPU를 확보하기 위한 경쟁은 더 치열해질 것 같다.

[논문 리뷰] Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training (2025)

Fri, 31 Jan 2025 05:58:59 GMT

논문 링크

From arXiv, 2025.01

1. Abstract, Introduction

제안하는 Agent-R은 LLM agent가 상호작용하는 환경에서 복잡한 작업을 해결하는 과정에서 reflection과 self-improvement를 하게 하는 iterative한 self-training framework
기존 방법론들은
- expert를 cloning하거나,
- 보상함수를 기반으로 action의 정확성을 평가하는 방식에 의존
- single-task에서 모델의 self-correction 강화하려 함
따라서, 여러 한계
- 오류 탐지 및 수정 능력에 한계
- 작업 종료 후에 수정하므로 실시간 reflection 능력 제한
- multi-turn interaction이 필요한 복잡한 환경에는 적합하지 않음
Agent-R
- 실시간 오류 감지와 수정 목표
- 주요 요소
  - 모델 기반 reflection data 생성: Monte Carlo Tree Search (MCTS)를 활용해 잘못된 경로를 올바른 경로로 수정
  - 단계별 수정 능력: 작업 종료를 기다리지 않고 단계별로 오류를 수정함으로써 실시간 reflection 구현
  - interative training: 초기 약한 policy에서 점차 강한 policy로 발전
Agent-R의 기여
1. language agent의 상호작용 환경에서 오류 수정 문제를 해결하는 첫번째 접근법
2. MCTS와 모델 기반 reflection을 통해 동적 데이터셋 생성 및 self improvement 가능
3. 실험을 통한 성능 개선 입증

2. Preliminary

2.1 Task Formulation

이 환경은 Partially Observable Markov Decision Process (POMDP)로 모델링되며, 주요 구성 요소는 다음과 같다.
- U: 과제 설명 및 요구 사항을 제공하는 instruction 공간.
- S: 상태 공간(State space).
- A: 행동 공간(Action space).
- O: 관찰 공간(Observation space).
- T: 전이 함수(Transition function), 환경에 의해 결정.
- R: 보상 함수(Reward function), 특정 행동의 보상을 정의
U,S,A,O는 자연어로 표현되며, 시간 t에서의 histrorical trajectory τ_t는 아래와 같이 표현된다.

τ_t = (a_1, o_1, …, a_t, o_t) ∼ π_θ(τ_t ∣ u)
πθ는 agent의 policy 모델이고, 시간 t+1에서 에이전트는 τ_t와 u를 바탕으로 다음 행동 a(t+1)를 생성해야 한다.
최종 보상 r(τ)는 task가 끝나거나 최대 턴 수에 도달하면 주어진다.

2.2 Monte Carlo Tree Search

MCTS는 Agent-R의 중요 요소로, 잘못된 trajectory를 수정해 새로운 trajectory를 생성한다.
MCTS는 아래 4단계를 포함한다
1. Selection: Upper Confidence bound for Trees (UCT) 전략을 사용해 확장할 노드 선택
2. Expansion: 선택된 노드에서 새로운 자식 노드 생성
3. Simulation: 새로운 노드에서 터미널 노드까지 rollout 수행
4. Backpropagation: 시뮬레이션 결과 바탕으로 노드 값 업데이트

3. Method

Agent-R은 두 개의 core phase로 구성된다.

Model-Guided Reflection Trajectory Generation
- MCTS를 사용해 잘못된 trajectory를 수정해 올바른 trajectory로 전환
Iterative Self-Training with Revision Trajectories
- 생성된 trajectory 기반으로 iterative하게 모델 학습해 성능 개선

3.1. Phase 1: Model-Guided Reflection Trajectory Generation

Reflection Trajectory Definition

이 단계에서는 아래 trajectory 유형이 정의된다
- 초기 궤적 (Initial Trajectory) τ^i: 초기 행동 및 관찰의 시퀀스
  - τ^i = (a^i_1, o^i_1, …, a^i_t, o^i_t)
- 잘못된 궤적 (Bad Trajectory) τ^b: 초기에 오류를 포함한 행동 및 관찰의 시퀀스.
  - τ^b = (τ^i_1, a^b_(t+1), o^b_(t+1), …, a^b_(T_b), o^b_(T_b))
- 올바른 궤적 (Good Trajectory) τ^g: 초기 궤적에서 시작해 최적화된 행동 시퀀스.
- 수정된 궤적 (Revision Trajectory) τ^r: 잘못된 궤적을 올바른 궤적으로 수정한 결과.
- rs: Revision Signal, agent의 reflection을 돕는 간단한 메시지
보상 조건
- 최종 보상 r(τ)에 따라 다음 조건을 만족해야 한다.
  - 잘못된 궤적의 보상: r(τ^b)<β
  - 올바른 궤적의 보상: β
  - 수정된 궤적의 품질: r(τ^g)=r(τ^r)≥α
    - β: 잘못된 궤적과 올바른 궤적을 구분하는 임계값.
    - α: 고품질 궤적의 하한값.
- r(τ^g)=1 은 이 good trajectory가 Optimal Trajectory임을 의미.

Trajectory Collection with MCTS

MCTS는 다양한 행동 경로를 탐색하여 수정된 궤적을 생성하는 데 사용되며, 다음 4가지 단계로 구성된다.
1. Selection(선택): UCT(Upper Confidence bound for Trees) criterion을 사용해 확장할 노드 선택
  1. UCT 공식
    - Q(s): average reward of state s
    - N(s): number of visits to state s
    - N_p(s): total visit count of the parent node of s
    - c_uct: 탐색-활용(exploration-exploitation) trade-off를 조절하는 상수
2. Expansion(확장): 선택된 노드에서 새로운 자식 노드 생성
3. Simulation: 터미널 노드에 도달할 때까지 행동 시퀀스를 샘플링
4. Backpropagation: simulation 결과를 바탕으로 노드값을 업데이트

Transition Point Determination

agent는 잘못된 trajectory에서 오류를 감지하고, 오류가 발생한 첫번째 지점(t’)을 결정
이후 잘못도니 trajectory를 t’에서 잘라내고, t’ 이후부터는 올바른 궤적과 연결
이 과정은 agent의 selt reflection 능력을 활용하며, 실시간 수정 능력을 강화
요약: MCTS는 다양한 행동 시퀀스를 탐색하며 각 trajectory에 대한 보상을 평가하고, 잘못된 궤적과 올바른 궤적 간의 전환점을 식별한다.

3.2. Phase 2: Iterative Self-Training with Revision Trajectories

Objective

수정된 궤적을 사용해 agent를 반복적으로 학습시키고, agent의 정책을 지속적으로 개선하는 것
이를 통해 agent는 더 초기의 오류를 감지하고 수정할 수 있는 능력을 개발

Mixed training strategy

수정된(revision) trajectory와 올바른(good) trajectory 데이터를 혼합해 학습 진행
학습 초기에는 revision trajectory가 중심이 되며, 점진적으로 good trajectory 데이터 비율이 증가합니다.
이 접근법은 초기 학습에서 발생하는 cold-start 문제를 완화

Loss function

아래의 loss function를 최소화해 학습이 이루어진다:
- η: 수정 궤적 데이터와 일반 데이터의 혼합 비율.
- τ_g: 올바른 궤적.
- τ_r: 수정된 궤적.
- (x,y): 일반 데이터셋의 입력-출력 쌍.

Iterative Training

매 반복(iteration)마다 agent는 새로운 revision trajectory를 생성하고 학습하며, 정책을 강화
이를 통해 약한 초기 정책에서 강력하고 효율적인 정책으로 점진적으로 발전

4. Experiment

3개의 interative 환경에서 실험을 통해 평가되었다.

4.1. Interactive and Agentic Environments

WebShop
1. 온라인 쇼핑을 시뮬레이션한 웹 기반 환경
2. 보상: 작업 완료 시 보상
ScienceWorld
1. 초등학교 과학 커리큘럼 수준의 30개 과학 작업 유형을 포함한 텍스트 기반 환경
2. agent의 과학적 추론 능력 평가ㅏ
TextCraft
1. Minecraft 아이템 제작을 시뮬레이션한 텍스트 기반 환경
2. 아이템 제작 트리와 명령을 기반으로 목표 아이템 제작
3. 보상: 성공적으로 목표 아이템 제작 시 1점 보상

4.2. Experiment Setting

1. Data Split

WebShop 300회, ScienceWorld 200회, TextCraft 200회
각 시뮬레이션에서 MCTS를 사용해 trajectory 데이터 생성
초기 반복에서는 낮은 기준(α=0.5), 이후 반복에서 점진적으로 증가(α=1.0)

2. MCTS Settings

각 시뮬레이션에서 k=8개의 롤아웃을 샘플링
탐색 깊이(d)를 20으로 설정
각 깊이에서 4개의 행동 후보 생성
UCT criterion의 탐색-활용 균형 상수 (c_uct)를 0.25로 설정

3. Training Settings

3번의 iteration 학습 수행
첫 iteration에서 에폭은 3, 이후 iteration에서는 1로 설정해 과적합 방지
기본 모델: Llama-3.1-8B-Instruct

4. Baselines

Closed-source model: GPT-3.5-Turbo, GPT-4-Turbo, GPT-4o, Claude-3, DeepSeek-Chat
Open-source model: Llama2-Chat, AgentLM, Agent-FLAN
기존 기법: ETO, Direct-Revision Trajectory

5. Evaluation Metrics

WebShop, ScienceWorld: average final reward
TextCraft: success rate
모든 환경에서 최대 라운드 수는 100으로 제한

4.3. Main Results

Performance improvement
- Agent-R은 GPT-4o, AgentLM, Agent-FLAN 등의 기존 모델보다 높은 성능
- 특히 revising erroneous trajectories를 활용한 학습이 기존의 expert data에 의존하는 학습보다 효과적임을 입증
Early Error detection
- Agent-R은 trajectory 초기에 오류를 감지하고 수정하여 error propagation를 방지
- 수정된 궤적은 더 빠른 회복과 안정적인 학습 유도
Limitation of Contrastive Learning(Ex: ETO)
- ETO와 같은 contrastive learning은 성능 향상에는 기여했지만, agent의 self reflection 능력을 충분ㄴ히 개선하지 못함

4.4. Findings with Analysis

Finding 1 : Training with trajectories from Agent-R can outperform using optimal trajectories.

수정 궤적의 성능 향상 효과
Revision trajectory를 사용한 학습이 optimal trajectory만을 사용한 학습보다 성능이 우수
초기 학습에서 수정 궤적과 최적(optimal) 궤적을 혼합하면 에이전트의 성능과 자기 반성 능력이 크게 향상

Finding 2 : Agent-R can effectively provide language agents with self-reflection capabilities.

self reflection 능력 강화
Agent-R로 학습한 agent는 오류를 감지하고 수정하는 능력이 크게 향상
직접 수정(Direct-Revision) 방식보다는 동적 수정 방식이 반복 루프 감지나 오류 수정에 더 효과적
SFT를 사용한 expert trajectory나 DPO를 사용한 contrastive learning은 성능은 향상시킬 수 있으나 self reflection은 잘 못한다.

Finding 3 : Training with revision trajectories helps agents more easily identify and correct erroneous actions.

초기 오류 탐지 능력
revision trajectory를 활용한 iterative training은 trajectory의 첫번째 오류를 더 효과적으로 탐지
평균 수정 길이(average revision length)가 짧아져서 효율적인 경로 조정 가능

Finding 4 : Training with revision trajectories helps agents avoid getting stuck in loops

반복 루프 방지

Agent-R으로 학습한 agent는 동일한 행동을 반복하는 dead loop에 빠질 확률이 매우 감소
이는 revision trajectory가 agent의 탐색 능력을 강화했음을 보임

Finding 5 : Multi-task training is a more effective strategy for Agent-R

multitask 학습

revision trajectory는 다양한 환경에서 멀티태스크 학습을 통해 Agent-R 성능을 더 향상시킴
단일 task 학습보다 다양한 환경에서의 일반화 성능이 높음

1. Agent Learning in Interactive Environments

기존 연구에서 interactive environment에서 agent learning은 크게 3가지 approach로 분류 가능하다: 1) Prompt-based Strategy, 2) Inference-time Search Strategy, 3) Training-based Strategy

Prompt-based Strategy
- 사람이 작성한 프롬프트를 활용해 LLM이 탐색 과정에서 경험을 요약하도록 유도
- Ex)
  - 이전 경험에서 얻은 기술(skill set) 요약 및 전이 가능하도록 구성
  - 탐색을 돕는 유용한 힌트 제공
- LLM이 이러한 요약된 경험을 memory에 저장해 성능 향상을 도모하지만, 내재적(self-contained) 학습보다는 외부 지식 의존도가 높음
Inference-time Search Strategy
- Tree-of-Thought, Monte Carlo Tree Search 등의 탐색 알고리즘을 활용해 최적 경로 찾음
- LLM이 사전에 학습된 지식을 활용해 보다 효율적인 탐색 수행
- 단점: pre-trained된 지식에 의존하여 새로운 문제에 대한 적응력이 떨어질 수 있음
Training-based Strategy
- Supervised Fine-Tuning(SFT)
- Direct Preference Optimization(DPO)
- 학습 데이터 출처
  - expert model에서 수집
  - MCTS를 활용한 탐색을 통해 데이터 생성
- 이 strategy는 fine tuning을 통한 성능 향상을 목표로 하지만, agent가 self reflection하는 능력은 부족함

2. Self-Correction for Large Language Models

LLM의 self-correction 능력은 매우 중요한 기능이지만, LLM은 이를 효과적으로 수행하지 못하는 것으로 나타남

기존의 self-correction method
- Prompt Engineering
  - 특정한 프롬프트를 입력하여 LLM이 자기 수정을 수행하도록 유도
  - 그러나 성능 향상 효과가 미미하거나 오히려 성능이 저하될 수 있음
- Revision Data Collection
  - Human annotators, Expert models, Self-generated samples 를 통해 revision data를 생성
  - 그러나 대부분의 연구는 code repair, tool use, math 등 특정 작업에 한정
기존 연구의 한계
- 명확한 오류 신호(explicit error signal)가 있는 환경에 초점
  - Ex) code error message, tool-use parameters 등의 signal
  - 그러나 현실적인 interactive 환경에서는 명확한 오류 신호가 존재하지 않음
- Single-turn 문제 해결에 집중
  - 대부분의 연구가 단일 입력과 출력 간의 self correction에 초점을 맞춤
  - multi turn interactive 환경에서 LLM이 자율적으로 오류를 수정하는 방법론이 부족
Agent-R의 차별점
- Agent-R은 explicit error signal이 없는 interactive environment에서 LLM의 self-correction을 가능하게 함
- 기존 방법들이 prompt engineering, SFT, expert data에 의존하는 반면, Agent-R은 reflection과 self-training을 통해 성능을 점진적으로 개선하는 새로운 방법론 제시

6. Conclusion

Agent-R의 기여
- Monte Carlo Tree Search (MCTS) 및 모델 기반 반성(Model-Guided Reflection) 활용
  - 기존 방법들이 정적인 expert trajectory를 모방하는 것에 의존한 반면, Agent-R은 MCTS를 사용하여 동적으로 수정 궤적(revision trajectories)을 생성
  - agent가 자신의 행동을 분석하고, 적절한 수정 지점에서 궤적을 조정하도록 유도
- 실시간 오류 수정 및 궤적 개선
  - Agent-R은 잘못된 궤적을 조기에 감지하고 수정할 수 있도록 설계
  - 기존 방식 대비 반복 루프(looping) 및 비최적 행동(suboptimal behavior) 방지
- 상호작용 환경에서의 성능 향상
  - Agent-R이 기존의 지도 학습(SFT), DPO, Direct-Revision 방식보다 우수한 성능
  - Self-correction 기능을 갖춘 agent는 더 높은 보상과 성공률
- 자기 생성 수정 궤적(Self-Generated Revision Trajectories)의 효과
  - agent가 생성한 수정 궤적을 학습에 통합하면, 지능적이고 자율적인 agent 발전 가능
  - 이를 통해 LLM agent가 단순히 expert data를 학습하는 것이 아니라, 자율적으로 반성(self-reflection)하고 학습(self-improvement)하는 능력 갖춤
향후 연구
- self-correction 능력 고도화
- agent-based system에서의 응용
  - Agent-R이 MAS나 자동화된 의사결정 시스템에서도 활용될 가능성 탐색

[논문 리뷰] Decision Transformer: Reinforcement Learning via Sequence Modeling (2021)

Wed, 22 Jan 2025 05:38:42 GMT

논문 링크

From NeurIPS, 2021

0. Abstract

Idea
- RL을 sequence modeling 문제로 추상화해, transformer 아키텍처의 단순성과 확장성을 활용
- 기존 RL 접근법과 달리, 가치 함수(value function)를 학습하거나 정책 경사(policy gradient)를 계산하는 대신, causally masked Transformer를 통해 최적의 행동 생성
Method
- 모델은 desired return(reward), 과거 상태(state), 행동(action)을 조건으로 한 autoregressive모델로 동작
- 원하는 desired return(목표보상)과 조건을 입력받아, 이를 달성하는 action을 예측
Result
- Atari, OpenAI Gym, Key-to-Door 벤치마크에서, model-free offline RL 기법과 비슷하거나 더 뛰어난 성능
- Decision transformer는 간단하면서도 기존 알고리즘 한계 극복

1. Introduction

Motivation
- Transformer: 언어 모델링과 이미지 생성 등에서 Transformer는 높은 성능과 확장성을 통해 일반화 능력을 증명
- RL
  - 대부분의 RL은 특정 행동 분포를 학습하는데 초점, 너무 좁은 범위의 문제 다룸
  - Temporal Difference(TD) 학습법은 return의 bootstrapping을 사용하며, 이는 불안정성을 유발할 수 있다(deadly tried).
Goal
- Transformer를 RL에 적용해 시퀀스 모델링이 기존 RL을 대체할 수 있는지 탐구
- 기존 RL과 차별화
  - Bootstrapping 없이 지도학습으로 데이터를 사용해 policy 학습
  - Discounting을 제거해 장기적 목표를 더 잘 학습
Proposed Method
- Decision Transformer
  - GPT 아키텍처를 활용해 상태, 행동, 목표 보상의 시퀀스를 autoregressive하게 모델링
  - 특정 목표보상을 설정하여 다양한 행동을 생성하고, 학습된 데이터를 바탕으로 최적 경로 예측

Example
- 그래프 최단 경로 (Figure 2)
  - 그래프 탐색 문제를 RL로 변환
  - Transformer는 과거 데이터 학습해 목표 달성하는 최적 경로 생성

2. Preliminaries

2.1 Offline Reinforcement Learning

강화학습 목표: Markov Decision Process(MDP)에서 주어진 정책(policy) 하에 기대 보상을 극대화하는 것
- MDP는 상태 S, 행동 A, 전이 확률 P(s′∣s,a), 보상 함수 R(s,a)로 구성
Offline RL
- 환경과의 상호작용 없이 고정된 데이터셋 내에서 학습 진행
- 고정된 데이터는 trajectory를 포함, 추가적 피드백 받을 수 없는 제약

2.2 Transformers

Transformer
- 시퀀스 데이터를 효율적으로 모델링하기 위해 설계
- self-attention layer, residual connection
Attention mechanism
- 각 입력은 키, 쿼리, 밸류 벡터로 변환
- 출력은 아래와 같이 계산

- 쿼리와 키 유사도 기반으로 가중치 적용해 값 합산

GPT 아키텍처
- Causal self-attention mask 사용해 시퀀스 생성, 이전 토큰만을 고려
- 이 논문에서는 GPT 구조 활용해 RL을 시퀀스 모델링 문제로 변환

3. Method

Trajectory representation

Decision Transformer
- RL trajectory를 autoregressive하게 모델링
- Transformer 구조를 최소한으로 수정해, 상태, 행동, 목표 보상을 포함한 trajectory를 학습
Return-to-go(RtG)
- return-to-go = reward-to-go = 특정 시점부터 미래(에피소드 종료)의 누적 보상
- 과거 보상이 아닌 미래 기대 보상 합계 모델링
- Trajectory representation: τ=(R_1, s_1, a_1, R_2, s_2, a_2, … , R_T, s_T, a_T)
- R_t는 시점 t에서의 Returns-to-go

Architecture

Input
- 최근의 K 타임스텝의 데이터를 사용해 RtG, 상태, 행동에 대한 총 3K개의 토큰을 생성
- linear embedding을 통해 각 모달리티를 transformer입력으로 변환
Transformer processing
- 입력 토큰은 GPT 모델에 의해 처리되며, 다음 행동을 예측하기 위해 autoregressive하게 사용

Training

Loss function
- 행동 예측을 위해 discrete action은 Cross entropy loss, continuous action은 mean-squared error를 사용
- loss는 타임스텝 별로 평균

Evaluation

목표 보상(RtG)와 시작 상태를 설정한 후, 모델이 생성한 행동을 환경에 적용하여 다음 상태와 보상을 계산
프로세스는 에피소드 종료까지 반복

Pseudocode

for continuous actions

def DecisionTransformer(R, s, a, t):
    pos_embedding = embed_t(t)
    s_embedding = embed_s(s) + pos_embedding
    a_embedding = embed_a(a) + pos_embedding
    R_embedding = embed_R(R) + pos_embedding

    input_embeds = stack(R_embedding, s_embedding, a_embedding)
    hidden_states = transformer(input_embeds=input_embeds)
    a_hidden = unstack(hidden_states).actions
    return pred_a(a_hidden)

# R, s, a, t: returns -to -go , states , actions , or timesteps
# K: context length ( length of each input to DecisionTransformer )
# transformer : transformer with causal masking (GPT)
# embed_s , embed_a , embed_R : linear embedding layers
# embed_t : learned episode positional embedding
# pred_a : linear action prediction layer

4. Evaluations on offline RL benchmarks

개요
- Decision Transformer(DT)가 기존 Temporal Difference(TD) 학습 및 Imitation Learning 방식과 비교해 Offline RL에서 얼마나 잘 학습하는지 평가한다.
평가 기준
- TD 학습
  - TD 학습은 일반적으로 action-space constraint나 value pessimism을 활용
  - 비교 대상: Conservative Q-Learning(CQL), BEAR, BRAC 등
- Imitation Learning
  - Bemman update 없이 supervised loss를 사용해 policy를 학습하는 방식
  - 비교 대상: Behavior Cloning(BC)
Task
- Discrete control task - Atari
  - 고차원의 시각적 입력과 action-reward 간 시간 지연으로 인한 credit assignment 문제
- Continuous control task - OpenAI Gym
  - 미세한 연속 제어를 요구하는 다양한 task

4.1 Atari

벤치마크 설정
- 데이터: Agarwal et al.의 DQN-replay 데이터셋에서 1% 샘플(500,000개의 전이 데이터)
- 기준:
  - Hafner et al.의 프로토콜에 따라 점수를 정규화
  - 100 = 프로게이머 수준 점수, 0 = 무작위 정책
- 평가 방식: 샘플링된 데이터로 3회 반복 실험 후 평균과 표준 편차 기록
결과 요약
- 게임별 성능 비교 (Table 1)
  - Breakout: DT(267.5)가 CQL(211.1) 및 모든 baseline 능가
  - Qbert: DT는 BC(17.3)에 근접하며 CQL(104.2)보다 낮은 성능
  - Pong: DT(106.1)는 CQL(111.9)에 근접하며 다른 baseline 능가
  - Seaquest: DT(2.4)는 CQL(1.7) 및 다른 baseline 능가

- 결론
    - DT는 4개 중 3개 게임에서 CQL과 동등하거나 더 나은 성능을 보이며, 다른 baseline보다 우수

4.2 OpenAI Gym

벤치마크 설정
- 환경
  - D4RL 데이터셋
    - Offline RL 표준 데이터셋, 연속적 제어 환경(HalfCheetah, Hopper, Walker) 포함
  - 2D Reacher
    - 목표 위치에 팔 도달하게 하는 goal-conditioned 작업
    - sparse reward 환경 : agent가 목표를 달성했을 때만 보상
- 종류,유형
  - Medium: Expert policy의 1/3 수준 성능 갖는 policy
  - Medium-Replay: 학습 도중의 replay buffer에서 생성된 데이터. 학습되지 않은 데이터 포함 가능. 다양한 상태-행동 쌍
  - Medium-Expert: Medium policy + Expert policy 결합. Expert policy는 environment에서 높은 성능(데이터 품질 다양성 높임)
결과 요약
- 데이터셋별 성능 비교 (Table 2)
  - Medium-Expert
    - DT는 HalfCheetah, Walker 등에서 CQL 및 다른 알고리즘보다 우수
    - Hopper에서는 CQL과 비슷한 성능
  - Medium
    - DT는 Hopper에서 CQL을 능가하며, 다른 환경에서도 competitive
  - Medium-Replay
    - DT는 Hopper에서 CQL을 크게 능가

- 결론
    - DT는 대부분의 환경에서 기존 Offline RL 알고리즘보다 높은 성능을 보임

5. Discussion

5.1 Does Dicision Transformer perform behavior cloning on a subset of the data?

Decision Transformer는 데이터의 특정 부분 집합에 대해 Behavior Cloning을 수행하는가?
- DT가 특정 목표 보상(return)에 해당하는 데이터의 일부만 학습하는 모방 학습(Behavior Cloning)과 유사한 방식으로 작동하는지 확인
새로운 실험
- Percentile Behavior Cloning (%BC):
  - 데이터셋에서 에피소드 보상(return) 기준 상위 X%의 데이터만 선책해 Behavior Cloning 수행
  - X%는 전체 데이터를 사용하는 표준 BC(X=100%)와 상위 소수 데이터를 학습하는 특화 모델(X →0%) 간의 tradeoff
결과 요약 (Table 3, 4)
- D4RL
  - %BC는 데이터가 풍부한 환경에서 DT에 근접하거나 성능 능가
  - DT는 전체 데이터 분포를 학습하며, 특정 목표 보상에 집중하도록 조정 가능

- Atari
    - 제한된 데이터 조건(1%의 DQN-replay 데이터)에서 %BC는 성능 크게 저하
    - 반면, DT는 모든 trajectory를 활용해 일반화 개선해 우수한 성능

![](https://velog.velcdn.com/images/dutch-tulip/post/8f12352e-ff12-4430-bfe0-1370c4f5e001/image.png)

결론
- DT는 단순히 특정 데이터 하위 집합을 모방하는 것이 아니라, 전체 데이터 학습을 통한 일반화를 통해 성능 향상

5.2 How well does Decision Transformer model the distribution of returns?

DT는 목표 보상의 분포를 얼마나 잘 모델링 하는가?
실험 설정
- 다양한 목표 보상(RtG) 값을 설정하고, 에피소드 동안 누적된 실제 보상과의 상관 관계 평가
결과 분석
- 대부분의 작업에서 설정한 목표 보상과 관찰된 실제 보상 간 높은 상관관계 확인됨
- 특정 task에서의 특징
  - Pong, HalfCheetah, Walker
    - 목표보상(RtG)을 거의 완벽히 충족
  - Seaquest
    - 데이터셋 내 최대 보상보다 높은 목표보상을 설정하면, DT가 가끔씩 extrapolation 가능
    - extrapolation: 데이터 범위 벗어난 영역에서 값을 추정하거나 예측하는 과정 ↔ interpolation

결론
- DT는 다양한 목표 보상을 학습하고 생성 가능하며, 상황에 따라서는 데이터 범위 이외의 결과도 생성할 수 있다.

5.3 Does Decision Transformer perform effective long-term credit assignment?

DT는 long term 보상 크레딧 할당을 효과적으로 수행하는가?
Evaluation 환경
- Key-to-Door 문제
  - 3단계로 구성된 grid 환경
    1. 첫 번째 방에서 키 줍기
    2. 두 번째 방에서 빈 방 탐색
    3. 세 번째 방에서 문 열기
  - 키를 줍지 않으면 문 열어도 보상 X
  - long term 보상 할당이 어려운 문제
결과 요약 (Table 5)
- DT와 %BC
  - 훈련 데이터가 적을 때도 policy를 잘 학습해 최적 경로 생성
- CQL
  - Q-value 가 효과적으로 propagate 되지 않아 성능 낮음

결론
- DT는 Transformer 특성상 self-attention을 활용해 long term 보상 크레딧을 효과적으로 할당

5.4 Can transformers be accurate critics in sparse reward settings?

Transformer는 sparse reward 환경에서 정확한 평가자(critic)으로 작동할 수 있는가?
추가 실험
- DT를 수정해 action뿐만 아니라 보상(return)도 예측하도록 구성
- Key-to-Door 환경에서 결과
  - 보상 예측 확률은 에피소드 동안의 주요 이벤트(키 줍기, 문 열기)에 따라 계속 업데이트(Figure 5 참고)
  - Transformer는 주요 이벤트에 높은 attention, state-return 연관성을 효과적으로 학습

결론
- DT는 action 예측 뿐만 아니라 sparse reward 환경에서 정확한 critic으로도 기능 가능

5.5 Does Decision Transformer perform well in sparse reward settings?

DT는 sparse reward 환경에서도 잘 작동 하는가?
Evaluation 설정
- D4RL 벤치마크의 보상을 delayed된 형태로 변환
  - trajectory 중간에는 보상 미제공, 에피소드 마지막에 누적 보상을 한 번에 제공
결과 요약 (Table 6)
- DT와 %BC는 reward의 density가 낮아져도 성능의 큰 영향 X
- CQL은 보상 의존적 학습 방식으로 인해 성능 크게 저하

결론
- DT는 sparse reward 환경에서도 높은 성능, TD 학습보다 더 강건한 모델

Offline RL

Challenge of Offline RL
- Distribution Shift
  - Offline data가 환경의 실제 동작 분포와 다를 때 발생하는 문제
- 이를 해결하기 위한 기존 접근법
  1. 행동 공간 제약(action-space contraint)
    1. policy가 data distribution에서 벗어나지 않도록 제한
    2. Ex) BEAR, BRAC
  2. 가치 비관주의(value pessimism)
    1. Q-value를 보수적으로 추정해 불확실성 처리
    2. Ex) CQL
  3. 동적 모델 기반 학습
    1. 환경의 동적 모델을 학습해 더 안정적인 학습 보장
    2. Ex) MOPO, MOREL
- DT의 차별점
  - DT는 동적 모델이나 Bellman 업데이트를 사용하지 않고, sequence modeling을 통해 정책 학습
  - 기존 접근법과 달리 transformer의 확장성과 일반화 가능성을 활용

Supervised learning in reinforcement learning settings

관련 연구
- 기존 RL 방법 중 일부는 static supervised learning과 유사한 방식으로 동작
- Ex)
  - Q-learning: 여전히 Bellman 업데이트를 사용하지만, policy 학습은 supervised learning에 가깝다
  - Behavior Cloning: Bellman 업데이트 없이 policy를 직접 학습
Upside-Down RL (UDRL)
- UDRL은 목표 보상(return)에 조건부로 행동을 예측하는 방식으로, DT와 유사
- 차이점: DT는 sequence modeling을 기반으로 하며, 더 긴 context와 복잡한 행동 분포 모델링 가능

Credit Assignment

크레딧 할당 문제
- RL에서 long term reward를 특정 행동에 어떻게 효과적으로 할당할 것인가에 대한 연구
- 기존 접근법
  - state와 reward를 연관짓는 구조 학습
  - Ex) Hindsight Credit Assignment, Return Decomposition(RUDDER)
- DT 접근법
  - Transformer의 self-attention을 활요앻 credit assignment를 명시적 모델링 없이 자연적으로 처리

Conditional Language Generation

조건부 생성 연구
- 언어 및 이미지 생성에서 transformer를 사용한 조건부 생성이 연구됨
  - controllable text generation 모델에 대한 다양한 연구
  - RL에서의 보상 기반 조건부 생성
DT의 차별성
- 기존 text generation 연구에서는 reward가 고정된 class처럼 취급되지만, DT는 시간에 따라 변화하는 보상을 다룸
- RtG를 지속적으로 업데이트하며 trajectory를 생성하는 구조는 DT의 독창적 특징

Attention and Transformer Models

Transformer 모델의 성공 사례
- NLP 및 비전에서 transformer는 강력한 성능을 보여주며 주류 모델이 됨
  - Ex)
    - NLP: GPT, BERT
    - Vison: ViT
- RL
  - RL에서 transformer의 연구는 상대적으로 적음
  - 기존 연구
    - Transformer를 RL 알고리즘에 보조적으로 활용
    - Ex) Relational Reasoning, Episodic Memory Integration
- DT의 기여점
  - 기존 연구와 달리 DT는 transformer를 중심으로 RL 문제를 재구성하여 기본 알고리즘의 패러다임 전환을 제시

7. Conclusion

기여
- DT는 RL 문제를 sequence modeling으로 해결할 수 있는 새로운 접근법을 제시
  - 기존 RL 알고리즘의 복잡성을 줄이고 transformer의 확장 가능성 활용
  - 여러 Offline RL 벤치마크에서 기존 알고리즘을 능가하거나 동등한 성능
    - 특히, long term credit assignment가 필요한 문제에서 기존 방법보다 우수
  - RL문제를 포함한 다양한 sequence decision making 문제에 잘 적용될 수 있음을 입증
한계
- context length나 RtG 설정과 같은 하이퍼파라미터의 중요성
- 복잡한 환경에서의 확장성과 일반화에 대한 추가 실험 부족
향후 연구
- 대규모 데이터셋에서의 성능 향상을 위한 self-supervised learning 적용
- state, action, rreturn에 대한 더 정교한 임베딩 설계
- 더 복잡한 RL 및 실제 문제로 확장

[논문 리뷰] Multi-LLM Debate: Framework, Principals, and Interventions (2024)

Mon, 13 Jan 2025 07:51:33 GMT

논문 링크

From NeurIPS, 2024

0. Abstract

Debate를 이론적으로 분석하고, 수학적으로 분석하는 framework를 제안한다.
이를 바탕으로 Multi-Agent 에서의 Debate에 대한 여러 이론적 결과를 제시한다.
모델 간 비슷한 성능이나 응답은 토론 과정이 majority opinion으로 단순 수렴되는 정적 토론을 초래할 수 있음을 보인다.
- 이런 majority opinion이 common misconception(모델의 공유된 학습 데이터에 의해 가능)에서 비롯된 경우, 토론은 이런 misconception과 관련된 답변으로 수렴할 가능성이 크다.
이런 이론적 결과를 바탕으로, 토론의 efficacy를 개선하는 3가지 intervention을 제안.
- 각 intervention에 대해 개선 방법을 설명하는 이론적 결과를 제시하고, 4가지 벤치마크 작업에서 성능이 향상됨을 보인다.

1. Introduction

LLM은 다른 모델로부터 의견을 수집하고 처리할 수 있는 능력을 갖고 있다.
이전 연구에서는 위 능력을 바탕으로 LLM이 토론에 참여해 협력적으로 task를 해결함을 보인다.
Multi-agent debate는 각 모델에게서 응답을 얻고, 그 응답을 모델들 간에 배포하며, 각 모델로부터 갱신된 응답을 다시 얻는 방식으로 진행된다.
이 연구는 debate process를 더 잘 이해할 수 있는 이론적 프레임워크를 제시하여 이를 탐구한다.
- 베이지안 추론과 In-Context Learning에서 영감을 얻어, 토론을 부분적으로 ICL의 특수 유형으로 볼 수 있음을 보인다.
- 이 프레임워크를 통해 Multi-agent debate가 Echo-Chamber Effects에 취약하다는 것을 입증한다.
  - Echo-Chamber effect는 특히 모델 다수 사이에 공유된 misconception에서 비롯된 경우 더 큰 영향을 미친다.
  - 참고: Echo-Chamber effect(반향실 효과): 같은 입장을 지닌 정보만 지속적으로 되풀이하여 수용하는 현상을 비유적으로 나타낸 말 (위키백과)
- 이후 프레임워크에서 도출한 결과를 활용해 토론 절차의 효율성을 개선하기 위한 세 가지 intervention을 제안한다.
  - 1) Diversity Pruning: 각 debate 단계에서 모델 응답의 information entropy를 최대화하는 것을 목표로 한다.
  - 2) Quality Prunung: 각 모델의 응답의 관련성을 최대화 하는 것을 목표로 한다.
  - 3) Misconception Refutation: 모델 응답에서 오해를 식별하고 반박하려고 시도한다.
  - 이 interventions은 모델이 직접 답변을 제공하는 것보다 평가하는 데 더 능숙하다는 이전 연구들에서 영감을 얻었다.
- 각 intervention에 대해 토론이 어떻게 개선되는지 설명하는 이론적 결과를 제시하고, 4개의 벤치마크에서 interventions이 실제로 토론의 efficacy를 개선함을 실험적으로 증명한다.
기여점
- 1. 베이지안 추론과 ICL의 연관성을 활용한 Multi-LLM debate의 이론적 프레임워크 제안
- 1. Multi-LLM debate의 여러 주요 원칙에 대한 이론적 통찰 제공
- 1. 이 통찰을 활용해 4개의 언어적 벤치마크 및 3개의 LLM에서 debate의 성능을 일관되게 개선시키는 3가지 debate interventions을 설계

본 연구는 Multi-agent debate와 밀접한 관련이 있다.
- agent들 간의 iterative 협력을 통해 결정을 내리는 과정에 초점을 맞추고 있다.
- 이런 연구들은 주로 QA task의 맥락에서 multi-agent debate을 다루며, single model보다 더 높은 품질의 답변을 제공하기 위해 여러 모델을 토론에 참여시키는 것을 목표로 한다.
- Du et al. [2023, Improving factuality and reasoning in language models through multiagent debate]이 제안한 초기 debate framework에서는 먼저 각 모델에 질문을 던지고, 이전 라운드에서 모든 모델의 응답을 맥락화하여 동일한 질문을 다시 던지는 방식으로 토론을 진행한다.
- 이 절차의 다양한 변형도 제안된다.
  - 다른 기능을 가진 모델 간의 debate (Liang et al. [2023, Encouraging divergent thinking in large language models through multi-agent debate])
  - Round-robin 방식의 debate (Chat et al. [2023, Towards better llm-based evaluators through multi-agent debate])
  - agent 간 의견 차이를 동적으로 조절하는 debate (Chang [2024, Evince: Optimizing adversarial llm dialogues via conditional statistics and information theory])
  - debater의 correctness를 평가하기 위한 judge를 사용하는 방식 (Khan et al. [2024, Debating with more persuasive llms leads to more truthful answers])
- 답변 품질을 iterative하게 향상시키기 위한 다른 기법도 제안되었다.
  - CoT, Zero-shot-CoT, self-consistency(+Med-PALM2), self-reflection
토론과 유사한 방식의 LLM 활용에 대한 연구도 진행되어 왔다.
- 서로 다른 LLM이 상효작용하는 방식이나,
  - (Liu et al. [2023, Dynamic llm-agent network: An llm-agent collaboration framework with agent team optimization])
  - (Abdelnabi et al. [2023, Llm-deliberation: Evaluating llms with interactive multi-agent negotiation games])
  - (Zhang et al. [2023, Exploring collaboration mechanisms for llm agents: A social psychology view])
  - (Li et al. [2023, Tradinggpt: Multi-agent system with layered memory and distinct characters for enhanced financial trading performance])
  - (Park et al. [2023, Choicemates: Supporting unfamiliar online decision-making with multi-agent conversational interactions])
- LLM이 자신의 추론을 설명하는 방식,
  - (Wang et al. [2024, Can chatgpt defend its belief in truth? evaluating llm reasoning via debate])
- general task에 협력적으로 수행하는 방식
  - (Li et al. [2023, Communicative agents for" mind" exploration of large scale language model society])
  - 등등
일부 연구에서는 토론 과정이 불안정할 수 있으며, 단일 모델을 사용하는 것보다 오히려 성능이 저하될 수 있음을 보여주기도 했다.
- (Wang et al. [2024, Rethinking the bounds of llm reasoning: Are multi-agent discussions the key?])
- (Smit et al. [2023, Are we going mad? benchmarking multi-agent debate between language models for medical q&a])
본 연구는 ICL과 베이지안 추론과도 관련이 있다.
- ICL은 LLM이 몇가지 example만 제공받았을 때도 unseen task를 수행할 수 있음을 보인다.
- 다른 연구들은 ICL과 베이지안 추론 간의 연관성을 보여준다.
  - 모델에 제공되는 additional example은 토큰에 대한 모델의 사후 분포(posterior distribution)을 업데이트하는 것으로 볼 수 있다.

3. Preliminaries

Debate

x를 question, y를 관련 답변이라 하자. 예를 들어, x=’하늘은 무슨 색인가요?’ 이고 y=’파랑’ 일 수 있다.
Du et al. [2023, Improving factuality and reasoning in language models through multiagent debate] 이 제안한 토론 절차에 따르면, n개의 LLM(이하 agent라고도 함)으로 구성된 집합이 T 라운드에 걸쳐 iterative하게 discussion을 수행해 올바른 답변 y을 추론하며 절차는 다음과 같다.
- t=0 라운드에서, 각 에이전트 i는 작업 x를 관찰한 후 응답 z_i^(0)을 제공한다.
- t>0 라운드에서, 각 에이전트 i는 작업 x와 이전 라운드의 모든 에이전트 응답 Z^(t-1) = z_1^(t-1), … , z_n^(t-1))을 관찰한 후, 갱신된 응답 z_i^(t)를 제공한다.
- 토론 과정은 t = T이거나, 에이전트들이 합의에 도달할 경우 종료된다.
합의에 도달했는지 여부를 측정하기 위해 함수 a가 주어진 응답 z에서 답변을 추출한다.
- 예를 들어, z=’낮에는 하늘이 파랗습니다’라면 a(z)=’파랑’이다.
- t 라운드에서, agent i가 갱신된 응답 z_i^(t+1)을 제공할 확률은 다음과 같다.
- 모델의 하이퍼 파라미터는 훈련 데이터, 아키텍처 등을 의미한다.
- 각 라운드에서 모든 agent는 동일한 입력(Z^(t), x)를 관찰한다.
- 따라서 출력z_i^(t+1)의 차이는 출력 생성의 확률적 성격과, 각 모델의 하이퍼 파라미터에 의해 결정된다.
본 연구에서의 접근 방식과 ‘일반적인’ 토론의 주요 차이점은 각 토론 라운드 사이에 Z^(t) 응답을 수정하기 위해 latent concept을 활용한다는 것이다.

Latent Concepts

이전 연구에서 설명되었듯이, 잠재 개념은 언어가 무작위로 생성되지 않는다는 생각을 담고 있다.
즉, 인간이든 모델이든 언어를 생성할 때, 먼저 마음 속에서 아이디어나 의도가 형성된 후, 그 아이디어나 의도를 전달할 단어를 선택한다.
더 formal 하게는, Θ를 latent concept space라 하고, θ ∈ Θ를 concept라 설정한다면,
- Xie ek al. [2021]에 따르면, task x와 관련 답변 y는 먼저 latent concept θ ∈ Θ에서 벡터를 선택하고, 이후 (x,y) ~ D(θ)를 샘플링하여 생성된다.
- 여기서 D는 concept에서 task-answer pair로 매핑하는 distribution을 나타낸다.
유사하게, 모델이 응답을 제공할 때, x를 관찰하고, 잠재 개념 θ 또는 더 일반적으로 잠재 개념 공간에 대한 분포를 추론한 후, 추론한 개념에 따라 응답을 생성한다.
- 즉, 위에서 주어진 모델 생성 확률 수식은 아래와 같이 표현될 수 있다.

- 위 식은 잠재 개념 공간 Θ에 대해 항상 성립한다.

잠재 개념의 예시
- BoolQ 데이터셋에서의 QA task
  - Q: “Abraham Lincoln이 영화 Saving Private Ryan에서 편지를 썼습니까?”
  - A: “Yes”
  - 이 경우, 잠재 개념은 영화의 한 장면, 즉 Lincoln이 쓴 Bixby letter가 병사들 앞에서 읽히는 장면과 관련있다.
    - 본 연구 case와 마찬가지로, 먼저 concept θ가 선택되고, 이후 영화에서 문자열 x가 샘플링된다(즉 영화와 관련된 질문이 생성된다).
- 산술 계산, ex. 곱셈
  - 언어로 곱셈은 “4 * 4” 와 같은 형식으로 작성 가능
  - 이 문자열의 잠재 개념은 곱셈의 매커니즘을 나타낸다.
    - 예를 들어, 곱셈은 덧셈의 반복이며, 덧셈은 숫자 값을 반복적으로 1씩 증가시키는 것
- 그러나 잠재 개념은 더 추상적일 수 있다
  - 알려지지 않은 임베딩 공간의 벡터로 표현될 수 있다.

4. A Theoretical Fomulation of Multi-Agent Debate

Multi-Agent Debate의 이론적 공식화를 제시한다.
- 토론의 내부 동작 방식을 이해하는데 중요한 통찰을 제공하며, 이를 통해 토론을 개선하려 한다.
프레임워크의 핵심은 잠재 개념의 아이디어와 각 모델의 생성 확률의 확장(두번째 수식)을 활용해 토론을 더 잘 이해하는 것이다.
그전에 중요한 가정이 있다.

Assumption 4.1

주어진 잠재 개념 공간 Θ에서, 응답 z_i^(t+1)을 생성할 확률은 concept θ ∈ Θ와 모델 파라미터 ϕ_i를 고려했을 때, 이전 응답 Z^(t)와 task x에 대해 조건적으로 독립적이다. 즉,
이는 모델의 generation z_i가 모델 파라미터 ϕ_i와 모델이 identify한 concept(θ)에 의해 고유하게 결정됨을 의미한다.
- 인코더-디코더 기반 모델의 경우 ϕ와 θ의 결합은 인코더가 생성한 임베딩이라고 할 수 있다.
- 이 임베딩을 사용하면 원래의 입력 (x, Z^(t))는 더이상 모델의 출력을 결정하지 않고, 대신 임베딩과 모델 매개변수 만이 모델 출력을 고유하게 결정한다.
다음으로, 토론 라운드가 진행됨에 따라 모델 응답이 어떻게 진화하는지 조사하는데 유용한 아래 Lemma 4.2를 도출한다.

Lemma 4.2

시간 t+1에서 모델 i의 generation은 아래와 같이 표현 가능하다. (skew: 왜곡)
이 lemma의 중요성은 응답 z_i^(t+1)을 생성할 확률을 이전 응답 Z^(t)없이 생성하는 확률과, 이전 모델 응답에 의해 발생한 왜곡항(skew term)으로 표현할 수 있다는 것이다.
(수식이 많아 캡처로 대체)

Debate and In-Context Learning

Xie et al. [2021]의 연구를 통해 잠재 개념의 역할을 이해한다.
- 이 연구는 잠재 개념에 대한 베이지안 추론을 사용해 ICL을 이해한다.
ICL과 Multi-agent debate는 자연스러운 연결점이 있다.
- ICL은 다음과 같이 동작한다.
  - Task x와 모델 f에 대해, x와 유사한 task-anwer pair (x_1, y_1), … , (x_m, y_m)을 선택한다.
  - 이후 모델 f에게 (x_j, y_j)를 예로 들어 task x에 대한 answer z= f(x|(x_1, y_1), … , (x_m, y_m))을 요청한다.
- Xie et al. [2021]의 핵심 결과는 예제 (x_j, y_j)에 포함된 잠재 개념, 특히 다수 예제 간에 공유된 개념이 답변 z에 영향을 준다는 것이다.
이와 유사하게 이전 라운드의 모델 응답 Z^(t)는 ICL의 예제와 같은 역할을 한다.
- 다음 라운드 t+1에서 모델의 갱신된 응답 z_i^(t+1)은 Z^(t)에 공유된 개념에 영향을 받는다.
- Lemma 4.2에서 왜곡항(skew term)은 Z^(t)에 의해 전달된 잠재 개념이 z_i^(t+1)의 생성에 영향을 미치는 방식을 보여준다.
- 즉 (식에서)∏ ~~ 는 모델 생성 확률에 가중치를 부여한다.

4.1 Debate Objective

이런 관점에서 debate process를 설계하면 concept space Θ를 활용해 효과적으로 토론을 수행할 수 있다.
이를 위해 토론을 최적화 문제로 공식화하며, Lemma 4.2의 왜곡항이 최적화 변수가 된다.
task x와 answer y에 대해 각 토론 라운드는 아래와 같은 최적화 문제로 공식화된다.
시간 t에서, 다음 단계에서 올바른 answer를 제공할 확률을 최대화하도록 Z^(t)를 작성하는 것을 목표로 하며, 이 objective를 잠재 개념 공간 Θ를 사용해 확장하면 아래와 같다.
이 objective를 직접 최적화하는데 있어서 주요 challenge들은:
- 1. task x와 answer y가 유래된(생성된) true concept θ*, 응답 z_j^(j)와 underlying concept 간의 관계가 알려져 있지 않다.
- 1. Z^(t)의 응답은 자연어로 이루어져 있다.
그럼에도 concept space 안에서 여러 approach를 설계해 더 잘 최적화할 수 있으며, 그런 방식을 설계하기 위해 토론 절차 전체를 더 살펴볼 필요가 있다.

5. Debate Principals

LLM debate의 효율성에 영향을 미치는 factor를 살펴본다.
- 특히 Z^(t)의 응답 다양성과 모델 능력의 다양성 측면에서 정보 다양성의 역할을 살펴본다.
  - 어느 측면에서든 다양성이 부족하면 토론 과정에 부정적인 영향을 미침을 확인한다.
- 또한, 토론에서의 특정 유형의 homogeneity, 즉 모델 대다수가 동일한 잘못된 신념을 공유하는 경우를 연구한다.

5.1 Information Diversity

모델 능력과 모델 응답의 다양성이 토론 절차에 미치는 영향을 살펴본다.
- 능력이나 응답의 동질성은 토론 절차를 특정 잠재 개념으로 편향시킬 수 있다.

Similar Model Capabilities

토론 과정이 한 가지 타입의 모델로만 진행된다고 가정한다. 즉, n개의 동일한 모델 카피를 사용.
- 따라서 모든 i ∈ [n]에 대해 ϕ_i = ϕ인 경우이다.
- 이 경우 agent 수가 증가함에 따라 토론 절차는 에코 챔버 효과에 더 영향을 받게 된다.
  - 즉, 에이전트들이 받아들이는 가장 유력한 개념이 변화할 확률은 0에 가까워진다.
- 그 말인즉, 더 많은 수의 similar agent는 static debate dynamics를 초래하며, 이는 debate의 본래 목적을 저해한다.

Theorem 5.1

(수식 생략)

내용: 동일한 모델의 copy나 매우 유사한 모델로 토론이 진행될 때, 모델의 수를 증가시키는 것은 하나의(변화하지 않는) 개념으로 토론을 수렴하게 만든다는 것을 의미한다.
- 이는 여러 개념의 균형있는 분포 대신 특정 개념으로 집중되는 결과를 초래한다.

Similar Model Opinions

모델의 유사한 응답이 collaboration process에 미치는 영향을 살펴본다.
t 시점에 n개의 응답 Z^(t)가 존재하고, 이 중 최소 m개의 응답이 유사하다고 가정한다.
- 즉, θ’라는 특정 개념이 존재하며, 이는 모든 j ≤ m 에 대해 P(θ∣z_j^(t),ϕ_i)값을 최대화한다고 할 수 있다.

Theorem 5.2

(수식 생략)

내용: 다수의 모델이 task x에 대해 유사한 응답을 제공할 경우, 그 반복된 응답이 다른 모델의 응답 뿐만 아니라, task x 자체를 압도할 수 있음을 나타낸다. 실제로 Section 7에서 그 현상이 발생함을 보인다.

5.2 Shared Misconceptions

모델 능력과 응답의 homogeneity의 particular type인 ‘Shared Misconceptions’에 대해 살펴본다.
모델들 사이에 공통적으로 잘못된 신념이 공유될 경우, 토론은 덜 효과적이며, 그 잘못된 신념과 관련된 잘못된 개념으로 수렴할 가능성이 높다.

Definition 5.3 (Misconception)

특정 개념 θ에 대해, 모델 i가 θ에 대한 오해를 갖고 있다고 하자.
이는 다른 개념 θ’가 존재하여, 아래를 만족할 때 성립한다.
즉, θ* 개념에서 생성된 task에 대해, 모델이 잘못된 개념 θ’이 task를 더 잘 설명한다고 믿는 경우이다.
m개의 agent가 동일한 잘못된 개념 θ’을 공유하는 경우, 이를 ‘shared misconception’이라 한다.
- 이런 경우 모델이 생성한 응답은 잘못된 개념 θ’에 biased 된다.

Theorem 5.4

참인 개념 θ*가 주어지고, n개의 agent 중 m개가 잘못된 개념 θ’에 대한 shared misconception을 갖고 있다고 가정한다.
- 그러면 task-answer pair (x,y) ∼ D(θ*)에서, 마지막 라운드 T의 토론 절차의 평균 정확성은 m에 따라 단조(monotonically) 감소한다. 즉,
- 위 식은 m이 증가함에 따라 감소한다.
잘못된 개념으로 수렴하는 현상은 더 많은 모델을 추가한다고 해서 쉽게 완화되지 않을 가능성이 있다.
- 한 모델의 misconception이 훈련 데이터에 의해 형성된 경우, 다른 모델들도 비슷한 훈련 데이터 간 높은 상관관계로 인해 동일한 misconception을 가질 가능성이 높기 때문

6. Interventions

토론 절차에 대한 interventions(수정, 개입)을 논의한다.
Intervention은 두 범주로 나눈다.
- 가지치기(Pruning): 전체 응답 Z^(t)에서 어떤 응답을 유지할지 선택하는 데 초점을 맞춤
- 수정(Modifying): Z^(t)의 응답을 변경하거나 편집하는 데 초점

6.1 Pruning Interventions

debate의 t 라운드에서, intervention은 t+1 라운드를 시작하기 전에 Z^(t)에서 하위집합 응답인 Z’^(t)을 선택하여 동작한다.
Pruning intervention을 사용할 때는, t+1라운드에서 모델은 pruned된 응답 집합인 Z’^(t)만을 보게 된다.(전체 응답인 Z^(t)가 아닌)

Diversity Pruning

KL divergence를 KL로 나타내면, diversity pruning intervention은 information entropy를 최대화하는 방향으로 Z^(t)의 n개의 응답에서 k개를 선택한다. (선택된 k개는 Z’^(t))

Quality Pruning

Quality Pruning은 Z^(t)에서 task x와 highest similarity를 갖는 k개의 응답을 선택하는 것을 목표로 한다.
Diversity Pruning과 유사하지만, quality pruning은 time t에서 n개 중 k개의 응답을 고른다.
- Quality pruning은 diversity에 대해 선택하는 대신, 질문에 대한 k개의 제일 유사한 응답을 고른다. 이는 아래와 같이 수행된다.

실제로 Diversity pruning과 Quality pruning의 수식에서, KL divergence 식을 계산하는 것은 비현실적이다.
- 그러나 sentence embedding을 해당 값을 대체하는 근사치로 사용할 수 있다.(Section C 참고)
다음은 모델이 shared misconception을 갖고 있는 경우, diversity pruning이 토론 절차가 해당 잘못된 개념으로 수렴될 가능성을 줄인다는 것을 보여준다.

Theorem 6.1

참인 concept이 θ∗이며, n/2 이상의 에이전트가 잘못된 개념 θ′에 대한 shared misconception을 가지고 있다고 가정한다. 이 경우, diversity pruning은 토론이 잘못된 개념 θ′에서 비롯된 답변 y′로 수렴할 확률을 줄인다. 즉, y′ ∼ D(θ′)이다.

Theorem 6.2

task-answer pair (x,y)에 대해, quality pruning은 토론이 올바른 answer로 수렴할 확률을 증가시킨다.
- 즉, Z^(t)를 시간 t에서 모든 응답 집합이라고 하고, Z’(t)를 quality pruning의 결과라고 한다면, 아래가 성립한다.

Remark 6.3

Theorem 6.1과 6.2에서 보여지듯, diversity pruning은 특정 concept에서 비롯된 잘못된 답변으로 토론이 수렴할 확률을 감소시키며, quality pruning은 옳은 concept에서 비롯된 올바른 답변으로 토론이 수렴할 확률을 증가시킨다.
두 intervention은 동시에 사용 가능하며, 이를 통해 잘못된 답변은 멀리하고 올바른 답변으로 토론 절차를 유도할 수 있다.

6.2 Modification Interventions

Misconception Refutation(오해 반박?)

Z^(t)의 응답 중 어떤 것을 다음 라운드에 사용할지 선택하는 것 외에도, Z^(t)의 응답을 수정할 수도 있다.
Misconception Refutation은 이 작업을 하며, z_j^(t) 응답을 task x와 더 관련있게 업데이트 하는 것을 목표로 한다.

앞선 두 개의 pruning과 마찬가지로, 위 식에서 KL divergence를 직접 구하는 것은 불가능하다.
- 따라서 업데이트를 위해 proxy를 사용한다.
- 특히 LLM이 주어진 응답 z_j^(t)를 최소로 수정해 z_j^*를 생성한다.
  - 모델은 먼저 응답에서 식별된 misconception과 오류의 목록을 요청받는다
  - 이후 misconception의 refutation과 수정된 응답을 모델에게 요청한다.

Theorem 6.4

task-answer pair (x,y)에 대해, Misconception Refutation은 토론이 올바른 답변으로 수렴할 확률을 증가시킨다.
- 즉, Z^(t), Z*^(t)가 각각 Misconception Refutation 전과 후의 응답이라면 아래가 성립한다.

7. Experiments

4개의 언어모델 벤치마크로 실험(BoolQ, MMLU, TruthfulQA, MathQ)
4개의 LLM 사용(GPT-3.5 Turbo, Llama-2 7B Chat, Llama-3 8B Instruct, Mistral 7B Instruct v0.2)
잠재 개념(Θ)의 프록시로 동작하는 sentence embedding은 OpenAI의 ADA-2
제안하는 3개의 intervention 조합을 Du et al.[2023]의 SoM(Society of Minds)와 비교

Tyranny of the Majority (다수 의견의 독재)

모델이 다수 의견을 따를 가능성 조사
모델은 echo chamer effect에 민감함이 보여졌다.
- Z^(t)에 majority answer가 포함된 정도가 늘어나면(m이 증가하면) model이 majority answer를 제공할 가능성이 증가한다.
Figure 1은 k=5의 diversity pruning이 에코 챔버 효과를 감소시킴을 보여준다.

Diversity of Opinions

제안하는 방법과 SoM이 opinion diversity에 따라 얼마나 효과적인지 조사
Figure 2: 4개 데이터셋에서 첫 라운드(t=0)의 응답 간 유사성(pairwise 코사인 유사도)에 따른 SoM(점선) 및 제안하는 방법(실선)의 Accuracy Improvement 향상 정도를 나타낸다.
- 첫 라운드에서 응답 간 유사성이 증가할수록 SoM의 효율성이 감소함이 나타난다.
- 이는 Theorem 5.1, 5.2와 같이 intervention 없는 토론에서 응답이 너무 유사하면 덜 효과적이라는 것과 일치한다.
제안하는 방법의 SoM대비 개선은 모델 의견이 유사할 수록 더 커진다.(MathQ는 반례)

Debate Interventions

3가지의 Intervention의 조합이 얼마나 효과적인지 조사

Figure 3: 제안하는 방법과 SoM의 각 라운드별 성능
- 제안하는 방법의 우위는 토론 후반 라운드에서 두드러짐
Table 1: 단일 모델, SoM, 제안하는 방법의 조합에 대한 결과
- 모든 경우에서 제안하는 방법은 SoM과 비교해 Competitive or superior
Supplement의 Table 3을 보면 각 intervention을 개별적으로 적용했을 때보다 세 가지를 동시에 적용할 때 가장 효과가 좋음을 보인다.
- 실제로 일부 intervention은 단독으로 사용되면 토론에 부정적인 영향을 줄 수 있으며, 이는 각 intervention이 상호 보완적으로 설계되었기 때문에 예상되는 결과이다.

8. Limitations

1. 제안하는 이론적 결과는 latent concept space를 활용하지만, 실제로는 이런 공간에 접근할 수 없는 경우가 많아 sentence embedding과 같은 대체 proxy를 사용해야 한다.
  - 수학적 질문 같이 sentence embedding이 덜 의미있는 도메인에서는 제안하는 방법의 효과가 떨어진다.
1. 제안하는 intervention들은 토론 절차의 추론 시간을 증가시킬 수 있다.
  - 주요 원인은 misconception refutation으로, 이는 각 참여자에게 여러번의 re-prompting을 요구하기 때문이다.

9. Conclusion

Multi-agent debate는 LLM response의 효율성을 향상시키는데 효과적이다.
그러나 토론은 본질적으로 tryanny of the majority나 shared misconception같은 문제에 취약하다.
본 연구에서는 이론적 토론 프레임워크를 활용해 이러한 문제를 완화하고 토론의 성능을 향상시키는 interventions를 확립했다.

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning (2023)

Mon, 23 Dec 2024 06:36:29 GMT

논문 링크

From NeurIPS, 2023

Abstract & Introduction

그동안의 자율적 의사결정 에이전트(autonomous decision-making agent)들은 주로 In-Context Learning 또는 강화 학습을 사용해 성능을 개선하고자 했다.
- 그러나 이는 거대 LLM의 파라미터에 의존하거나 강화 학습의 낮은 계산 효율성으로 인한 문제가 있었다.
이 논문에서는 모델을 fine-tuning 하지 않고 binary or scalar feedback을 언어적 피드백으로 변환해 text summary로 제공된다.
- 이런 self-reflective feedback은 다음 action에서 의미론적인 gradient signal로 사용되어 구체적인 개선 방향을 제공해 성능 개선에 도움을 준다.

Reflexion은 useful reflective feedback을 만들기 위해 세가지 방법을 사용한다.
- Simple Binary Environment Feedback(단순 binary 환경 피드백),
- Pre-defined Heuristics for common failure cases(실패 사례에 대한 휴리스틱),
- self-evaluation such as binary classification using LLMs (decision-making) or self-written unit tests (programming) (자체 평가 - decision making에서는 binary classification, 프로그래밍에서는 자체 제작된 unit test)
Reflexion에는 장단점이 존재한다.
- Reflexion은 전통적인 RL보다 몇 가지 장점을 갖는다.
  - 가볍고, LLM의 finetuning이 필요하지 않다.
  - 스칼라/벡터 형태의 reward 보다 더 정교한 형태의 피드백을 가능하게 한다. ex) 행동에 대한 구체적 변경
  - 이전 경험에 대한 명확하고 해석 가능한 episodic memory를 제공한다.
  - 이후의 에피소드에서의 행동에 대한 명확한 hint를 제공한다.
- 하지만 단점도 있다.
  - Reflexion은 LLM의 자체 self-evaluation capability or heuristic에 의존하며, success에 대한 formal guarantee가 없다.
    - 다만 LLM의 성능이 향상될수록 이는 개선될 것으로 기대된다.
Reflexion에 대해 1) Decision-making task, 2) Reasoning task, 3) Programming task 에서 실험을 수행했으며, 모두 성능 향상을 이루었다.
Reflexion의 주요 기여점은 다음과 같다.
- Reflexion이라는 새로운 ‘언어적’ 강화학습 패러다임을 제안하며, 이는 agent의 메모리 인코딩과 LLM 파라미터 선택을 policy로 한다.
- LLM에서의 self-reflection이라는 속성을 탐구하며, 이를 통해 복잡한 작업을 적은 시도로 학습하는 데에 self-reflection이 매우 유용함을 실증적으로 보인다.
- LeetcodeHardGym이라는 code-generation RL gym envirionment를 소개한다. 이는 19개의 언어로 작성된 40개의 Hard Level의 Leetcode 문제를 담고 있다.
- Reflexion이 여러 task에서 strong baseline을 능가하고, 다양한 code generation 벤치마크에서 SOTA를 달성함을 보였다.

Reasoning & Decision-making

Self-Refine은 self-refinement를 통해 성능을 개선하는 iterative 프레임워크를 사용한다.
- 이러한 방식은 ‘이 generation을 어떻게 더 긍정적인 방식으로 쓸 수 있을까’ 와 같은 제약 조건에 따라 달라진다.
- 효과적이긴 하지만 단일 생성 추론 작업에만 제한된다.
Semantic prompt-writing optimization을 수행한 연구도 있지만 역시 단일 생성 작업에 한정된다.
중간 피드백을 제공하기 위해 critic 모델을 파인튜닝해 reasoning 응답을 개선한 연구도 있다.
Action에 대한 stochastic beam search를 통해 더 효율적인 decision making을 하는 연구도 있다. 이는 agent가 self-evaluation component를 통해 예측 우위를 갖도록 하는 것이다.
여러 세대에 걸쳐서 reasoning을 하는 모델을 사용한 연구도 있다.
Evaluation 없이 고정된 단계 수만큼 retry를 하는 패턴에 대한 연구도 있다.
이전 생성물에 대한 정성적 평가 단계를 통한 최적화를 수행하는 연구도 있다.
본 논문에서는 이런 여러 개념 중 몇 가지가 Self-refelction을 통해 향상되어 Self-refelction 경험에 대한 지속적인 메모리를 구축할 수 있음을 보인다.
- 이를 통해 agent는 자신의 오류를 스스로 식별하고 실수로부터 배울 교훈을 스스로 제안한 할 수 있다.

Programming

과거나 최근 연구들은 test-driven development 이나 code debugging 을 사용한다.
1. AlphaCode는 hidden test cases에 대해 생성된 코드의 성능을 평가한다.
2. CodeT는 자체 생성한 unit test를 통해 함수 구현 점수를 매긴다.
3. Self-Debugging은 코드 실행 환경에서의 피드백을 바탕으로 기존 구현을 개선하는 debugging coomponent를 사용한다.
4. CodeRL은 RL프레임워크를 사용해 코드 실행 환경으로부터 피드백을 받아 프로그램을 디버깅한다.
a., c., d. 는 복잡도가 낮은 버그를 수정하는데 효과적이지만, 이는 ground-truth 케이스에 의존하며 pass@1 평가에 적합하지 않고, 오류 개선과 구현 개선 사이의 격차를 self-reflection을 사용하지 않는다.
b. 는 hidden test case를 사용하지 않지만 코드 작성 개선을 위한 self-learning을 구현하지 않는다.

Reflexion: reinforcement via verbal reflection

Reflexion은 3개의 모델이 모듈화되어 구성되어 있다.
- Actor (M_a): 텍스트와 행동 생성
- Evaluator (M_e): 출력 결과 평가
- Self-Reflection (M_sr): Actor의 self-improvement을 위한 언어적 강화 피드백 생성 모델

Actor

π_θ
Actor는 LLM을 기반으로 구축되며, state observation에 맞는 텍스트와 action을 생성하도록 프롬프트된다.
전통적인 policy-based RL 처럼, 시점 t에서의 현재 정책 π_θ으로부터 action이나 generation a_t를 샘플링하고, 환경으로부터 observation o_t를 받는다.
Actor 모델로는 Cot나 ReAct를 포함한 다양한 모델을 사용해 Reflexion의 다양한 요소의 성능이나 효율성을 살펴본다.
추가적으로, 메모리 component인 mem을 추가해 agent에게 추가적인 context를 제공한다.

Evaluator

Actor가 생성한 출력의 품질을 평가하는 중요 역할
task context 내에서의 성능을 반영한 reward score 계산
Semantic space에 적용할 수 있는 효과적인 value/reward function을 정의하는 것은 어렵기 때문에, 여러 evaluator 모델의 변형을 조사한다.
- Reasoning task에서는 Exact Match(EM) 계산에 기반한 reward function을 실험해 생성된 출력이 예상 솔루션과 얼마나 일치하는지 확인한다.
- Decision-making task에서는 특정 기준에 맞게 설계된 사전 정의된 휴리스틱 함수를 사용한다.
- 또한 decision-making과 programming 작업에서는 evaluator로서 LLM의 다른 instance를 사용하여 reward를 생성하는 방법도 실험한다.

Self-Reflection

Self-Reflection은 LLM으로 구현되며, 언어적인 self-reflection을 생성하여 추후의 trial을 위한 귀중한 피드백을 제공하기 때문에 reflexion에서 중요한 역할을 한다.
binary reward signal(성공/실패)같은 sparse reward signal과, 현재 경로, 그리고 지속적인 메모리인 mem을 기반으로 구체적인 피드백을 생성한다.
이 informative한 피드백은 agent의 memory인 mem에 저장된다.
- 예를 들어, multi-step decision-making task에서 agent가 실패 신호를 받으면, 특정 행동 a_i가 그 이후의 잘못된 행동 a_(i+1)과 a_(i+2)로 이어졌다는 것을 추론할 수 있다.
- agent는 이를 언어적(verbal)으로 표현하여 다른 행동 a’_i를 취했어야 했음을 기록해둔다.
- 이를 토대로 agent는 과거 경험을 활용해 더 나은 decision-making approach를 할 수 있다.
Trial, error, Self-reflection, persisting memory 의 프로세스는 agent가 빠르게 decision making성능을 향상시킬 수 있도록 돕는다.

Memory

Reflexion 과정에서의 핵심 요소는 단기 메모리와 장기 메모리 개념이다.
Inference를 할 때, Actor는 단기 및 장기 메모리를 바탕으로 자신의 결정을 내리며, 이는 사람이 세세한 최근 정보를 기억하면서도 중요한 과거 경험을 장기 메모리에서 떠올리는 방식과 유사하다.
RL setup에서 경로 history는 단기 메모리로 작용하고, self-reflection 모델의 출력은 장기 메모리에 저장된다.
이러한 메모리 세팅은 Reflexion이 갖는 주요 장점이다.

The Reflexion process

Reflexion은 1장에서 언급한 것처럼 반복적인 최적화 과정으로 공식화된다.
첫번째 trial에서 Actor는 환경과 상호작용하여 경로(trajectory) τ_0를 생성한다.
- 이후 Evaluator는 τ_0를 입력으로 받아 점수 r_0를 계산하고, 이는 r_0=M_e(τ_0)로 표현된다.
- r_t는 시행 t에서의 스칼라 보상값으로 작업 별 성능이 증가함에 따라 개선된다.
첫 trial 이후에 r_0을 LLM 개선에 사용할 수 있는 피드백 형태로 바꿔야 한다.
- 그러기 위해 Self-reflection 모델은 {τ_0, r_0} set를 분석해 summrary sr_0을 생성하고 이를 mem에 저장한다.
sr_t는 trial t에 대한 언어적 경험 피드백을 의미하며, mem에 추가된다.
- 실제로 mem에는 저장되는 경험에 수를 최대 Ω로 제한해(보통 1~3) LLM의 max context length를 초과하지 않도록 한다.

Experiments

Agent의 여러 RL환경에서 Decision-making, reasoning, code-generation을 평가한다.
- HotPotQA를 사용한 search-based qa
- AlfWorld의 일반 가정환경에서의 multi-step tasks
- HumanEval, MBPP, LeetcodeHard 에서 interpreter와 compiler를 사용하는 code writing task

Sequential decision making: ALFWorld

AlfWorld는 TextWorld를 기반으로 한 상호작용 환경에서 에이전트가 multi-step task를 해결하도록 하는 텍스트 기반 환경들의 모음이다.
숨겨진 객체 찾기(서랍에서 주걱찾기), 객체 이동(칼을 도마로 옮기기) 등과 같은 6가지 작업을 134개의 AlfWorld 환경에서 agent를 실행하며 Action generator로는 ReAct를 사용한다.
AlfWorld task는 작업이 완료되었을 때만 signal을 보내기 때문에 자연스럽게 self-evaluation step이 요구된다.
- Fully autonomous behavior를 위해 두가지 self-evaluation 기법을 도입한다
  - LLM을 사용한 자연어 분류
  - 수기로 작성된 휴리스틱
    - 휴리스틱은 에이전트가 동일한 행동에 대해 동일한 response를 받는 cycle이 3번 이상 반복되거나, 현재 환경에서 action을 30번 이상 수행하는 비효율적인 plan이라면 self-reflection을 수행하는 것이다.
Baseline 실행에서는 self-reflection이 제안되면 이를 스킵하고 환경을 초기화한 후 새로운 trial을 시작한다.
Reflexion 실행에서는 agent가 self-reflection을 통해 실수를 찾아내고 메모리를 업데이트한 뒤 환경을 초기화하여 새로운 trial을 시작한다.
- Max context length를 초과할 수 있는 매우 긴 prompt window를 방지하기 위해, agent의 memory는 last 3 self-reflections(experiences)로 제한한다.
- 의미론적 오류를 막기 위해 도메인 별로 few-shot 경로를 주는데, 아래 예시(Figure 5)와 같다.(appendix에 있음)

Result

ReAct + Reflexion은 simple heuristic을 사용해 hallucination을 탐지하고 비효율적 planning을 탐지하면서 134개 task 중 130개를 완료하면서 ReAct를 크게 능가한다.
- ReAct + Reflexion은 12번의 연속적 trial을 통해 additional task를 해결하는 방법을 학습한다.
- ReAct only에서는 6~7의 trial에서 성능 향상이 멈추는 것을 확인했다.
- (아래 Figure 3 그래프 참고)

Analysis

AlfWorld에서 실패 경로의 일반적인 오류는 agent가 item을 소유하고 있다고 생각하고 있지만, 실제로는 소유하지 않은 경우이다.
- Agent는 긴 경로에서 여러 행동을 하며 실수를 되돌릴 수 없다
Reflexion은 self-reflection을 통해 긴 실패 경로를 관련된 경험으로 요약하고, 이를 미래의 self-hint로 사용할 수 있도록 해 이와 비슷한 대부분의 사례를 없앤다.
AlfWorld에서 장기 메모리가 agent를 돕는 2가지 주요 사례는 다음과 같다.
- 긴 경로의 초기 실수를 쉽게 찾을 수 있다. 따라서 Agent는 새로운 action 선택이나 장기 plan 까지도 제안할 수 있다.
- 객체를 찾기 위해 너무 많은 surface/container를 체크해야 할 때에도 좋다. Agent는 여러 trial에 걸쳐 쌓인 경험 메모리를 활용해 방을 철저하게 search할 수 있다.

Reasoning: HotpotQA

HotpotQA는 113k의 QA 쌍으로 구성된 Wikipedia 기반 데이터셋으로, agent가 여러 supporting documents를 파싱하고 reasoning하도록 한다.
추론 능력만의 개선을 테스트하기 위해 Reflexion + CoT를 구현한다.
- 이는 Q → A와 Q, C_{gt} → A가 step by step으로 구현된다.
- C_{gt}는 데이터셋에 있는 ground truth context, A는 최종 정답이다.
- CoT가 multi-step decision-making techinique가 아니므로, C_{gt}를 제공하여 문서를 왔다갔다하는 reasoning은 따로 테스트한다.
전체적인 QA능력, 즉 reasoning과 action choice가 모두 요구되는 능력을 테스트하기 뒤해 Reflexion + ReAct agent를 구현한다.
- 이는 Wikipedia API를 사용해 relevant context를 검색하고, step-by-step explicit thinking을 통해 답변을 유추한다.
- CoT 구현에는 6-shot, ReAct에는 2-shot, Self-Reflection에는 2-shot 프롬프팅을 사용한다. 예시 전체는 Appendix에 있으며 일부는 아래와 같다.
  - CoT+Reflexion
  - HotPotQA CoT + Reflexion
Answer들을 robust하게 평가하기 위해, trial 간에 environment를 사용해 Exact Match grading을 수행해 agent에게 binary success signal을 준다.
- 이후 self-reflection loop를 통해 이 신호를 amplify하며 이는 AlfWorfd 처럼 memory size를 3 experiences로 한다.

Result

Reflexion은 여러 learning step을 거치면서 베이스라인의 성능을 능가한다.
- 더군다나, ReAct-only, CoT-only, CoT(GT)-only는 어떤 작업에서도 확률적으로 개선되지 않았다.
- 즉 첫번째 시행에서 실패한 걸 나중에 해결하지 못했다는 것
Reflexion은 에이전트가 동일한 작업에서 3번까지는 실패한 후에도 자신의 경험을 통해 재시도할 수 있도록 했다.
CoT(GT)는 자연스럽게 질문의 정답 context에 접근할 수 있기 때문에 더 높은 정확도를 달성했다.
- 그러나 여전히 질문의 39%에서 올바른 답변을 하지 못했다.
그러나 Reflexion은 정답 context에 접근하지 않고도 agent가 본인의 실수를 수정해가면서 정확도를 14% 향상시켰다.

Analysis

CoT(GT)를 baseline으로 사용해 self-reflection에 대한 ablation study를 수행했다.
- CoT(GT)는 GT context가 제공된 상태에서 CoT reasoning을 사용하는 접근법으로, 긴 context를 통해 reasoning을 하는 능력을 테스트한다.
- 또한 최근 경로(trajectory)를 포함하는 에피소드 메모리(EPM)을 추가한다.
- Reflexion agent는, 마지막으로 standard self-reflection step을 구현한다.
직관적으로는 agent가 1인칭 언어적 설명을 사용해 반복적으로 효과적으로 학습할 수 있는지 테스트한다.
Figure 4의 실험 결과를 보면, Self-Reflection은 EPM을 통한 학습보다 8%의 성능향상을 보인다.
- 단순 refinement 접근법보다 self-reflection 기반 refinement 접근법이 더 효과적이라는 주장을 뒷받침한다.

Programming

(Dataset)

MBPP, HumanEval, LeetcodeHardGym에서 Python/Rust code generation에 대해 평가한다.
- MBPP, HumanEval: 자연어 설명이 주어졌을 때 함수 본문 생성 정확도 측정
  - MultiPL-E 사용해 데이터셋 일부 Rust로 변환
    - MultiPL-E: Python 벤치마크 문제를 18개 언어로 변환할 수 있는 작은 컴파일러 모음
  - Rust 코드 생성을 포함한 실험을 통해 Reflextion이 언어에 구애받지 않고, interpreted/complied language 모두에 적용될 수 있음을 보인다.
- LeetcodeHardGym: 40개의 Leetcode hard-rated question을 포함하는 interactive programming gym

(Experiment Setting)

프로그래밍 task는 self-generated unit test suite와 같은 더 구체적인 self-evaluation 방식을 사용할 수 있다.
- 따라서 Reflexion 프로그래밍 task는 pass@1 accuracy를 사용하기 적합하다.
  - pass@1 accuracy: 모델이 첫 번째 시도에서 정확한 답변을 내는 비율
- test suite를 생성하기 위해 CoT를 사용해 여러 test와 대응하는 자연어 설명을 생성한다.
  - 이후 그 테스트가 유효한 추상 구문 트리(AST)를 생성할 수 있는지 확인해 문법적으로 유효한 테스트만 필터링한다.
  - 이후 생성된 unit test들에서 n개의 test를 샘플링 해 test suite T={t_0, t_1, …, t_n}을 생성한다. n은 최대 6이다.
  - 나머지 학습 설정은 Reasoning과 Decisio making에서와 동일하며, memory limit은 1 experience로 한다.

Result

Reflexion은 모든 baseline을 넘어서는 성능을 보이며 SOTA 성능을 달성한다.
- 하지만 MBPP python에서는 GPT-4를 넘어서지 못했다.
- 그래서 이 낮은 성능의 원인을 조사한다.

Analysis

Self-reflection을 사용하는 code generation agent는 diverse & comprehensive 한 test 작성 능력에 따라 성능이 좌우된다.
- 1) Test suite를 잘못 만들 경우, 모든 테스트를 통과했을지라도 이는 False Positive로 이어진다.
- 2) 반면 잘못된 test suite가 올바른 solution에서 실패를 유발한다면 이는 False Negative로 이어진다.
- Reflexion은 1) 보다는 2)을, 즉 False Negative(올바른 솔루션을 잘못된 성공으로 분류)를 선호한다.
  - False Negative는 agent가 self-reflection을 통해 잘못된 테스트를 식별하고, 원래 코드 구현을 유지하도록 스스로 유도할 수 있기 때문
  - 그러나 False Positive는 agent로 하여금 잘못된 결과를 조기에 제출하게 할 수 있다.
Table 2는 다양한 성능 지표를 나타낸다.
앞서서 MBPP Python이 baseline인 GPT-4보다 낮은 성능이 보인다는 것을 확인했다.
- 그리고 Table 2에서는 False Positive 수치들의 불일치를 확인했다.
- 이는, P(not pass@1 generation correct | tests pass), 즉, ‘모든 unit test를 통과했지만 실제로는 올바르지 않은 result가 있을 확률’을 나타낸다.
HumanEval과 MBPP Python에서 baseline의 pass@1 accuracy는 82%, 80%로 비교적 유사하다.
- 그러나 MBPP Python의 FP rate는 16.3%로, HumanEval python의 1.4%에 비해 휠씬 높다.
- 이는 MBPP Python의 낮은 신뢰성을 의미한다.

Ablation study

Reflexion의 test generation과 self-reflection cooperation 요소를 HumanEval Rust의 가장 어려운 50개 집합에서 실험했다.
- 1) internal test generation & execution step 생략
  - Agent의 현재 구현이 맞는지 확인할 때, unit test 없이 self-reflection을 수행하도록 테스트했다.
  - 이는 accuracy가 52%로 떨어지며, baseline의 60%보다 낮고, unit test 없이는 agent가 조기 종료없이 잘못된 수정작업을 진행함을 보여준다.
- 2) Self-reflection 생략
  - Unit test 실패 이후에 자연어 설명 단계를 제거해, agent가 모든 unit test에 대한 오류 식별 및 구현 개선 작업을 통합하도록 강제했다.
  - 이 경우 baseline보다 성능이 향상되지 않았다.(동일)
  - 오류는 잘 찾지만, 수정작업에서 오류를 반영하지 못했다.

Limitations

Reflexion은 본질적으로 자연어를 통해 policy optimization을 수행하는 최적화 기법이다.
- Policy optimization은 experience를 통해 action choice를 개선하는 강력한 접근법이지만, 여전히 local minima에 수렴할 가능성이 있다.
- 이 연구에서는 long-term memory를 maximum capacity를 갖는 sliding window로 제한했지만, 향후 연구에서는 이 메모리 구조를 더 발전된 구조로 확장할 것을 권장한다.
Code generation과 관련해서는, 정확한 input-output mapping을 지정하는 test-driven development에 여러 한계가 있다. 즉, 여러 함수들은 입력에 대해 출력을 예측하기 현실적으로 어려워 (결과가 비결정적, 환경의존적 등) 평가하는 것에 제한이 있다.

Conclusion

Verbal enhancement를 통해 agent가 과거의 실수로부터 학습하도록 돕는 Reflexion 제안. 성능 우수.
향후 연구에서는 Reflexion이 자연어에서의 value learning이나 off-policy exploration 기법 같은 전통적 강화학습 설정에서 연구된 더 발전된 기술을 활용할 수 있을 것이다.

[Survey] Deep dive into AI Agent & Multi-Agent System (MAS)

Mon, 25 Nov 2024 03:16:00 GMT

AI Agent

언어 모델을 기반으로 인간을 대신해 특정 목적을 달성하기 위해 설계된 지능형 시스템
주어진 입력(텍스트, 명령어, 대화 등)을 처리해 원하는 출력(정보, 결정, 행동 등)을 생성
특정 작업 및 특정 사례에 특화되어 사용 가능
LangChain에서는 AI Agent를, ‘LLM을 사용해 애플리케이션의 제어 흐름을 결정하는 시스템’이라고 정의

그럼 우리는 왜 AI Agent를 사용할까, 아니 왜 사용해야 할까?

일반적인 LLM 기반 서비스 사용자들(ChatGPT and so on…)은 zero-shot mode로 최종 결과물을 출력하게 사용한다.
- 이는 누군가에게 처음부터 끝까지 에세이를 써달라고 하면서도, backspace없이 정확히 typing하고 higy quality의 result를 기대하는 것과 비슷하다.
- 그러나 LLM은 이러한 어려움을 이겨내고 잘 해낸다.
AI Agent를 사용하면, LLM에게 최종 출력물을 내기 전에 내부적으로 작업을 여러번 반복하도록 할 수 있다(출력 퀄리티를 높이기 위해).

실제로 GPT-3.5와 GPT-4에서 zero-shot과 agent workflow로 HumanEval(코드 생성 벤치마크) 퍼포먼스를 비교한 결과, agent를 사용했을 때 월등한 성능 향상을 보였다.
- GPT-3.5 with agent는 GPT-4 Vanilla 보다 성능이 좋다..

AI Agent의 구조

AI Agent의 구조는 크게 5개로 나눌 수 있다.
코어가 되는 LLM, 그리고 Planning/Action/Profile/Memory

LLM
- 사람으로 치면 두뇌다. 텍스트를 처리하고 의사결정을 한다.
Planning
- AI Agent는 복잡한 objective를 작은 task로 나눌 줄 아는 능력이 중요하다.
- 이는 planning module을 통해 수행되며, 다음과 같은 동작들을 수행한다
  - 주어진 objective 분석
  - 목표 달성 위해 필요한 단계 파악
  - 단계들의 우선 순위 선정
  - 새 정보들이 들어오면 계획을 수정하기
Action
- Ai agent가 task를 수행하기 위해 tool과 interact하는 component.
- 웹 검색, 코드 실행, DB 접근, API 사용, 다른 SW와 interact 등
- 이런 tool들을 얼마나 잘 쓰는지가 AI agent가 얼마나 넓은 범위의 작업을 할 수 있는지를 결정한다.
  - tool의 사용으로 generative execution에서 deterministic execution으로 바뀌기 때문
  - llm이 생성하는 단순 언어적 응답이 아닌 tool을 사용한 구체적인 출력으로 인해 정확하고 신뢰성 있는 응답, 확장성과 유연성
Profile
- AI Agent의 행동, 성격, 기능을 정의한다. chat_template에서 role system과 비슷한 역할
  - Agent의 전문 분야, tone & communication style 등
Memory
- Memory를 통해 agent는 과거 정보를 저장하고 불러오는 것은 아래 상황에서 중요함:
  - 진행 중인 대화에서 context 유지하기
  - 과거 경험으로부터 학습하기
  - 점진적으로 성능을 향상시킴
  - user history에 따라 personalized된 응답 제공

Multi-Agent System(MAS)

Multi-Agent System은 앞서 말했듯 여러 에이전트가 결합된 하나의 시스템으로, 한 분야에 특화된 에이전트가 각 역할을 맡아 양질의 출력을 낸다.
MAS에도 Reflection, Tool Use, Planning이 당연히 사용된다.

AI Agent Detailed

Agentic pattern은 AI agent들이 어떻게 동작하고 interact 하는지 가이드하는 프레임워크다. 최근 연구에서 확인된 주요 패턴은 다음과 같다.
- Reflection
- Tool Use
- Planning
- Multi-Agent Collaboration

Reflection

이 글에서 reflection은 반성, 반영 정도로 해석가능할 것 같다.
Reflection은 AI Agent가 자신의 출력을 분석하고 평가하는 능력을 의미한다.
Agent의 출력을 스스로 평가하여 개선을 위한 피드백을 제공할 수 있다.

1-1. **MAS에서의 Reflection**

- MAS에서 reflection은 두 에이전트가 서로 피드백을 주고 받는 방식으로 구현할 수 있다.
    - A 에이전트는 high quality의 output을 생성하도록 prompt를 받고,
    - B 에이전트는 A 에이전트의 output을 critic하게 평가하고 constructive한 피드백을 준다.
- 이런 방식으로 더욱 개선된 response가 생성될 수 있다.

Tool Use

LLM의 사전 학습된 지식만으로는 출력을 생성하는 데 한계가 있다는 것을 깨닫게 되었다..
Agent는 아래와 예시와 같은 tool들을 사용해 역량을 확장한다
- Web Search: Agent가 Web Search와 결합되면 학습 데이터 범위를 넘어선 정보를 얻을 수 있으며, 이를 통해 knowledge base를 크게 확장한다.
- Code Execution: 단순히 코드를 추론하는데 그치지 않고, 코드를 작성한 뒤 실행해보며 출력물을 실제로 testing & application 해볼 수 있다.
- Python을 실행하는 것도 tool use이다.
LLM이 {tool: web-search, query: "coffee maker reviews"}같은 문자열을 생성하도록 fine tuning되거나, few shot 프롬프팅을 사용한다.
- 이후 post processing에서 문자열을 검색해 tool을 호출해 그 결과를 다시 llm에 전달한다.

Planning(+Reasoning)

Planning과 Reasoning을 함께 묶어서 LLM이 어떤 행동을 취할지 생각하는 능력이라고 보는 경우도 있다.
LLM은 복잡한 task를 다루기 위해 task를 manageable한 step들로 나누는 능력을 갖고 있다.
이는 agent가 목표를 달성하기 위해 필요한 행동들의 순서를 고려한뒤 체계적으로 문제를 해결할 수 있게 한다.
Planning을 이해하기 위해, HuggingGPT 논문에서의 예시를 단순화해보면 아래와 같다.
- “소년의 사진을 보고, 동일한 자세를 취한 소녀의 그림을 그려줘”라고 요청할 경우, task는 두 단계로 나뉜다.
  - 소년 사진에서 pose detect
  - detected pose를 기반으로 소녀의 그림을 랜더링
- LLM은 {tool: pose-detection, input: image.jpg, output: temp1 } 과 같은 구조화된 문자열을 생성하도록 fine tuning되거나, few shot 프롬프팅으로 plan을 설정할 수 있는 것이다.
Planning은 언제 필요할까?
- planning이 항상 필요하진 않다. 고정된 횟수만큼의 reflection을 통해 생성물을 개선하면 이 agent는 fixed하며 deterministic하다.
- 그러나 task를 사전에 단계별로 쪼갤 수 없는 경우에는, planning을 통해 agent가 동적으로 단계별 실행을 결정할 수 있다.
Planning은 복잡한 작업을 agent가 독립적으로 적절하게 나누어 수행한다는 장점이 있지만, 그 step과 최종 output에 대한 예측 가능성이 떨어진다는 단점이 있다.
복잡한 작업을 잘 planning & reasoning하여 수행하는 것은 쉽지 않은데, 왜냐하면
1. LLM으로 하여금 큰 그림을 본 다음에 다시 단기적인 action을 하도록 해야 하고,
2. agent가 많은 작업을 하면 할수록 그 결과들이 llm에 피드백되므로 context window가 커지고, 결국 모델은 ‘distracted(산만해짐)’되어 성능이 낮아질 수 있다.
Planning의 성능을 개선하기 위한 가장 낮은 단계의 해결책은 plan과 reason을 위한 모든 정보를 확보하는 것이다.
- 종종 prompt에는 정보가 충분하지 않은 경우가 많다.
또한 retrieval step을 추가하거나 prompt instruction을 명확히 하면 성능이 개선될 수 있다.
이후에는 애플리케이션의 cognitive architecture를 변경해보는 것이 좋다.
- cognitive architecture: 애플리케이션이 추론하는 데 사용하는 data engineering logic
- gereral cognitive arch.(AlphaCodium 등) 와 domain specific cognitive arch. (커스텀 구현) 로 나뉜다.

Multi-Agent Collaboration

하나에 특화된 agent들이 여러 개 모여서 Multi-Agent System(MAS)를 이룰 수 있다.
일반적인 개발 회사에서와 같이 기획, 디자인, 개발, QA 등의 전문적인 역할을 나누어 수행할 수 있다고 볼 수 있다.
MAS는 하나 혹은 여러 LLM을 프롬프트하여 서로 다른 task를 수행하도록 설정함으로써 구현할 수 있다.
- EX) 당신은 명확하고 효율적인 코드를 작성하는 전문가입니다. 다음 작업을 수행하기 위한 코드를 작성하세요. …
한 LLM을 여러번 호출하면서도 여러 agent를 사용하는 programming abstraction을 적용하는 것은 직관에 반대되는 것처럼 보일 수도 있다. 하지만 이런 방식에는 몇가지 이유가 있다.
- 먼저 결과가 좋다(ㅋㅋㅋ).
  - 좋은 성능이 실제로 가장 설득력 있는 이유가 된다. AutoGen 논문 등에서 수행한 ablation study에서도 multiple agents가 single agent보다 뛰어난 성능을 보이는 것을 나타낸다.
- LLM의 input context limitation을 보완한다.
  - 일부 최신 LLM은 100만 토큰의 긴 input context를 지원하지만, 길면서도 complex한 input을 truly understand하는 능력은 제한적이다.
  - 한 번에 하나의 세부 작업에 집중하도록 LLM을 프롬프트하는 agent workflow는 더 좋은 성능을 제공한다.
- 복잡한 작업을 잘 나눌 수 있게 한다.
  - MAS가 복잡한 task를 세부 작업으로 분해하는 기능은 단일 CPU에서 프로그램을 실행할 때 여러 프로세스나 스레드로 나누는 방식과 유사하다.
MAS는 AutoGen, CrewAI, LangGraph 등의 프레임워크로 구현가능하다.
MAS는 planning과 마찬가지로 output의 quality를 미리 예측하기 어렵다.

Paper:

Reflection

“Self-Refine: Iterative Refinement with Self-Feedback,” Madaan et al. (2023)
“Reflexion: Language Agents with Verbal Reinforcement Learning,” Shinn et al. (2023)
“CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing,” Gou et al. (2024)

Tool Use

“Gorilla: Large Language Model Connected with Massive APIs,” Patil et al. (2023)
“MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action,” Yang et al. (2023)
“Efficient Tool Use with Chain-of-Abstraction Reasoning,” Gao et al. (2024)

Planning

“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” Wei et al. (2022)
“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face,” Shen et al. (2023)
“Understanding the planning of LLM agents: A survey,” by Huang et al. (2024)

Multi-Agent Collaboration

“Communicative Agents for Software Development,” Qian et al. (2023) (the ChatDev paper)
“AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation,” Wu et al. (2023)
“MetaGPT: Meta Programming for a Multi-Agent Collaborative Framework,” Hong et al. (2023)

출처:

[논문 리뷰] Differential Transformer (Diff Transformer) (2024)

Mon, 11 Nov 2024 03:57:03 GMT

By Microsoft Research Team

논문 링크

From arXiv, 2024

0. Abstract

Transformer는 무관한 context에도 지나치게 attention 연산이 수행되는 경향이 있다.
우리가 제안하는 Diff Transformer는 ‘유’관한 context에 대한 attention을 극대화하면서도 노이즈를 줄인다.
- Differential attention은 두 개의 서로 다른 softmax 함수로 계산된 attention 가중치 행렬(map)의 차를 구해 attention score를 구한다.
모델이나 토큰 크기를 확장했을 떄 기존 transformer보다 성능이 우수하며, long-context modeling같은 실용적인 task에서 성능이 특히 좋았다.
In-context learning에서는 robustness 도 좋았다.

1. Introduction

Transformer의 중심에는 softmax를 통해 토큰의 중요성을 순서대로 평가하는 attention machanism이 있다.
그러나 최근 연구에 따르면 LLM은 context에서 key info를 찾는데 어려움을 겪고 있다.

Figure 1의 왼쪽 그림을 보면, Transformer는 document 가운데에 있는 정답에 적은 비율의 attention score만을 할당했으며, 무관한 context에도 불균형하게 집중한 것을 알 수 있다.
이렇듯 Transformer는 정답이 아닌 context에 attention score를 할당해 올바른 정답을 놓치고 있으며, 이런 잘못된 score를 논문에서는 ‘attention noise’라고 한다.
Diff Transformer에서는 query와 key vector를 두 그룹으로 나누고, 두 개의 서로 다른 softmax attention map을 계산한다.
- 그리고 그 두 값의 차가 attention score로 사용된다.
- 노이즈 캔슬링 헤드폰이 두 신호의 차이를 사용하는 것과 비슷하다.
Figure 1의 가운데 그림을 보면, Diff Transformer의 attention score 점수가 transformer에 비해 정답에 휠씬 높은 점수를 할당하고 관련 없는 컨텍스트에는 낮은 점수를 할당하는 것을 알 수 있다.
Figure 1의 오른쪽 그림을 보면 Diff transformer는 Retreval 성능을 많이 향상시킨다.
Diff Transformer는 language modeling에서도 transformer의 65% 모델 사이즈와 training 토큰으로 유사한 language modeling 성능을 낸다.
또한 Diff transformer는 transformer의 여러 downstream task에서도 좋은 성능을 낸다.
- Long-sequence evualuation을 통해 증가하는 context를 처리하는데 효율적임을 보인다.
- Key information retrieval, Hallucination mitigation, Incontext learning에서 기존 transformer보다 높은 성능을 보인다.
또한 Model activation을 위한 outlier를 줄여 quntization을 위한 여지를 제공한다.

2.1 Differential Transformer

Attention은 query와 key vector를 사용해 attention score를 계산하고, 이후 value vector의 weighted sum을 구한다.
Diff Transformer의 중요한 설계는 두 개의 softmax 함수를 사용해 attention score의 노이즈를 줄이는 것이다.
입력이 X ∈ R^(N x d_model)일 때 이를 q, k, v 값으로 projection하여 Q_1, Q_2, K_1, K_2 ∈ R^(N x d), V ∈ R^(N x 2d) 을 얻는다.
Differential Attention 함수인 DiffAttn()은 아래와 같이 출력을 계산한다

$$ \begin{aligned} [Q_1; Q_2] &= XW^Q, \quad [K_1; K_2] = XW^K, \quad V = XW^V, \ \text{DiffAttn}(X) &= \left( \text{softmax}\left(\frac{Q_1 K_1^T}{\sqrt{d}}\right) - \lambda \cdot \text{softmax}\left(\frac{Q_2 K_2^T}{\sqrt{d}}\right) \right) V \end{aligned}

$$
3개의 W(가중치)는 parameter이며, λ는 학습가능한 스칼라값이다.
λ는 아래와 같이 re-parameterize된다.

$$ \lambda = \exp(\lambda_{q1} \cdot \lambda_{k1}) - \exp(\lambda_{q2} \cdot \lambda_{k2}) + \lambda_{\text{init}} $$

앞의 4개의 λ는 학습 가능한 벡터이며, λ_init ∈ (0,1)은 λ 초기화를 위한 상수이다.
Differential attention은 두 softmax attention 함수의 차를 통해 attention noise를 제거한다.
- 노이즈 캔슬링 헤드폰의 설계 원리와 유사
FlashAttention을 직접 재사용할 수도 있다.

2.1.1 Multi-Head Differential Attention

Diff Transformer는 multi-head mechanism도 사용한다.
헤드 수 h에 대해 서로 다른 projection matrix W_i^Q,W_i^K,W_i^V(i∈[1,h])를 사용한다.
각 head는 아래와 같이 계산된다.

$$ \text{head}_i = \operatorname{DiffAttn}(\mathbf{X}; \mathbf{W}_i^Q, \mathbf{W}_i^K, \mathbf{W}_i^V, \lambda)

헤드의 출력은 정규화된 뒤 projection되어 아래와 같은 방식으로 multihead diff attention 연산을 수행한다.

$$ \text{MultiHead}(\mathbf{X}) = \operatorname{Concat}(\text{head}_1, \dots, \text{head}_h)\mathbf{W}^O

head의 수 h는 d_model / 2d로 잡았다(d는 transformer의 head 차원).
이 방식은 결과적으로 모델이 서로 다른 유형의 유효한 정보를 병렬로 집중할 수 있게 해서 중요한 문맥을 더 잘 잡을 수 있게 한 것이다.

2.1.2 Headwise Normalization

Figure 2에서는 Layer Normalization이 각 head에 독립적으로 적용되었다는 것을 강조하기 위해 GroupNorm을 사용한다.
Diff attention은 sparse한 pattern을 갖는 경향이 있으므로, 각 헤드의 통계적 정보가 다양할 수 있다.
- 따라서 헤드 별 정규화는 gradient statistics를 개선하고 학습 과정을 안정화하는데 도움이 된다.

2.2 Overall Architecture

전체 구조는 L개의 레이어를 쌓았으며, 각 레이어는 multi-head diff attention 모듈과 feed-forward network 모듈을 포함한다.
정리)
- Multi head diff attention은 유효한 context에 대한 attention은 amplify하고 noise는 제거하는 attention machanism이다.
- Feed foward network는 기존 transformer 아키텍처에서 사용되는 FFN과 유사한 것으로 보인다.
Diff Transformer 레이어는 다음과 같이 표현 가능하다.

$$ \mathbf{Y}^l = \operatorname{MultiHead}(\operatorname{LN}(\mathbf{X}^l)) + \mathbf{X}^l\quad\\mathbf{X}^{l+1} = \operatorname{SwiGLU}(\operatorname{LN}(\mathbf{Y}^l)) + \mathbf{Y}^l $$
LN(): RMSNorm Layer Normalization, SwiGLU(): SwiGLU Activation fuction

3. Experiments

3.1 Language Modeling Evaluation

3B 크기의 Diff Transformer를 1T 토큰에 학습시킨 모델의 언어 모델링 성능을 기존 Transformer-based 모델을 350B 토큰에 학습한 모델과 비교한다.
SableLM, OpenLLaMA 등의 Transformer 기반 모델과 여러 다운스트림 작업에서 비교한다.

Diff Transformer는 동일 사이즈의 Transformer보다 여러가지 task에서 우수한 성능을 보였다.

3.2 Scalability Compared with Transformer

Diff Transformer와 Transformer의 모델 크기와 훈련 토큰 수에 따른 scalability를 평가했다.

3.2.1 Scaling Model Size

830M부터 13B까지 모델 파라미터를 단계적으로 확장하여 비교했다.
Figure 3(a)에 따르면, 6.8B Diff Transformer가 11B 크기의 기존 Transformer와 유사한 성능을 보였다.

3.2.2 Scaling Training Tokens

3B 크기 모델을 360B 토큰까지 학습해 평가했으며, Diff Transformer는 Transformer 대비 63.7%의 토큰만으로도 유사한 성능을 달성했다.

3.3 Long-Context Evaluation

Diff Transformer는 context 길이를 64K까지 확장하여 long context에서의 성능을 평가했다.

결과적으로 Diff Transformer는 Transformer보다 낮은 Negative Log Likelihood를 기록하며 long context에서 효과적임을 입증했다.

3.4 Key Information Retrieval

Needle-In-A-Haystack test를 통해 Diff Transformer와 Transformer의 Information Extract 능력을 평가했다.

3.4.1, 3.4.2 Retrieve from 4K & 64K Context Length

4K와 64K 길이의 문맥에서 Multi-needle retrieval test에서 Diff Transformer는 Transformer보다 높은 accuracy를 유지했으며, 중요한 정보가 context의 첫 절반에 위치할 때에는 Transformer보다 76% 이상 개선된 성능을 보였다.

3.4.3 Attention Score Analysis

Diff Transformer는 정답 구간에 더 높은 attention score를 할당하고, noise에 대한 attention은 낮추는 것으로 나타났다.

3.5 In-context Learning

Diff Transformer는 few shot classification 작업에서 Transformer보다 더 높은 accuracy를 기록했으며,

컨텍스트 내의 example 순서의 변동에 덜 민감한 robust한 성능을 보였다.

3.6 Contextual Hallucination Evaluation

Diff Transformer는 Summarization과 QA task에서 Transformer보다 contextual hallucination을 더 많이 줄였다. (Table 4)
이는 Diff Transformer가 불필요한 context에 덜 분산되고 중요한 정보에 더 집중할 수 있기 때문으로 분석된다.

3.7 Activation Outliers Anlaysis

참고) Activation Outliers(활성화 이상치): 신경망에서 뉴런이 비정상적으로 큰 값이나 작은 값을 출력하는 현상
- 뉴런이 지나치게 활성화되거나, 가중치나 편향이 비정상적으로 커지거나 작아지거나, 데이터 자체가 이상치거나, 활성화 함수 자체의 문제(ReLU는 음수 0으로 보내니까) 등등..
- 일반화 성능 저하되고 훈련이 불안정적으로 변하는 등의 문제가 생긴다!

Diff Transformer는 Transformer에 비해 Activation Outliers의 크기를 줄였으며, 이로 인해 양자화가 더 효율적으로 가능함을 확인 했다.

Activation Outliers 통계에서 Diff Transformer는 Attention Logits과 Hidden States에서 Largest Activation Values가 낮아졌으며, 4Bit 양자화에서도 Transformer보다 25% 높은 정확도를 기록했다.

3.8 Ablation Studies

Diff Transformer의 설계 요소를 분석하기 위해 다양한 소거 연구를 진행했다.
GroupNorm은 MultiHead의 다양한 값들을 normalizing 하는데 중요한 역할을 했으며, λ 초기화 에서 값의 변화에도 모델 성능이 robust함을 확인했다.
모델 성능의 개선은 주로 differential attention mechanism에서 기인하며, configuration이나 normalization 보다는 differential attention mechanism 자체가 중요하다고 분석되었다.

4. Conclusion

DIFF Transformer는 관련 context에 대한 attention을 amplify하고 noise를 줄이는 differential attention mechanism을 통해 Transformer보다 뛰어난 성능을 보인다.
이는 scalability, long context modeling, key information retrieval, hallucination mitigation, in-context learning, reduction of activation outliers과 같은 여러 측면에서 성능 향상을 보인다
이러한 결과를 바탕으로, DIFF Transformer는 대규모 언어 모델 아키텍처로서 유망하며, 향후 low-bit attention kernel 개발과 캐시 압축에도 활용 가능성이 높아 보인다.

[논문 리뷰] Retrieval-Augmented Generation for Large Language Models: A Survey (2024)

Mon, 09 Sep 2024 08:31:39 GMT

논문 링크

From arXiv, 2024

Abstract

RAG는 외부 DB의 지식을 통합함으로써 LLM의 문제들(환각, 최신 지식 부재, 불투명성, 추적 불가능)을 해결할 수 있는 해결책으로 떠오르고 있다.
RAG는 생성물의 정확성과 신뢰성을 높여주고, 지식의 지속적인 업데이트와 특정 도메인의 정보 통합을 가능하게 한다.

Introduction

LLM은 훈련 데이터를 벗어난 쿼리나 최신 정보에 대해 생성할 때 환각(hallucinations)을 일으키는 문제가 두드러진다.
- RAG는 외부 지식에서 의미적 유사성을 계산해 관련된 document chunks를 검색하여 LLM 성능을 향상시킨다. 이는 부정확한 콘텐츠를 생성하는 문제를 줄인다.

RAG 기술은 최근 급격히 발전해왔으며, 관련 연구를 요약한 기술 트리는 Figure 1과 같다.
이 RAG 발전 방향은 단계적 특징을 갖는다.
- 초기 단계는 Tansformer 아키텍처의 부상과 함께 시작됐으며, 추가지식을 PreTraining Models(PTM)을 통해 성능을 향상시키는 데 중점을 두었다. 이 단계는 pretrain 기법을 개선하기 위한 작업이 특징이었다.
- 이후 ChatGPT의 등장으로 LLM의 In-Context Learning(ICL) 능력이 입증되면서 큰 전환점을 맞았다. RAG 연구는 추론 단계에서 더 복잡하고 지식 집약적인 작업을 해결하기 위해 LLM에 더 나은 정보를 제공하는 방향으로 전환되었고, RAG의 연구가 빠르게 진전되었다.

Overview of RAG

RAG의 typical한 응용사례는 Figure 2와 같다.
User는 최신 정보에 대한 질문을 한다. LLM의 사전 학습 데이터만으로는 정보를 제공할 수 없다.
- RAG는 외부 데이버베이스에서 정보(기사)를 검색하고 통합함으로써 정보 격차를 메운다.
- 이러한 정보는 원래 질문과 결합되어 LLM이 well-informed된 답변을 생성할 수 있는 prompt를 만든다.
논문에서는 RAG 연구 패러다임을 세 단계로 분류한다. Advanced와 Modular RAG의 개발은 Naive RAG의 단점들을 해결하기 위한 대응으로 이루어졌다.
1. Naive RAG
2. Advanced RAG
3. Modular RAG

Naive RAG

ChatGPT 도입 이후 주목받은 초기 RAG 방법론으로, indexing, retrieval, generation을 포함하는 전통적인 프로세스를 사용한다.

Indexing
- PDF, HTML, Word, Markdown 등의 원시 데이터로부터 raw data를 추출해 uniform한 plain text format으로 변환한다.
- LM의 context 처리 한계를 고려해 텍스트는 더 작은 chunk 단위로 분할된다. 이후 임베딩 모델을 통해 벡터 표현으로 인코딩하고, 벡터 데이터베이스에 저장한다.
- 이 단계는 retrieval 단계에서 유사성 검색을 효율적으로 수행하게 하는 중요한 단계이다.
Retrieval
- Indexing에서와 동일한 임베딩 모델로 User의 query도 vertor representation으로 변환한다.
- 이후 query vector와 indexed chunk vector 간에 유사성 점수를 계산한다.
- 유사성 점수 상위 k개의 chunk를 우선적으로 검색하며, 이후 이 chunk들은 expanded context로 prompt에 사용된다.
Generation
- 쿼리와 검색된 문서들이 합쳐져 하나의 prompt가 되고, LLM은 response를 생성한다.

그러나 Naive RAG는 단점이 존재한다.
- Retrieval Challenges: retrieval 단계에서 precision과 recall의 어려움을 겪는 경우가 많아 잘못된 정보나 관련성이 낮은 chunk를 선택하거나 중요한 정보를 빠트리는 문제가 발생한다.
- Generation Difficulties: response 생성 과정에서 모델은 hallucination 문제에 빠질 수 있는데, 이는 retrieval된 context에 뒷받침되지 않는 내용을 생성하는 경우다. 또한 생성된 응답이 관련성이 없거나 편향된 내용을 포함하여 응답의 품질과 신뢰성을 떨어트릴 수 있다.
- Augmentation Hurdles: retrieval된 정보를 다른 task와 통합하는 것은 어려울 수 있으며, 때로는 관련없거나 일관성없는 output이 나올 수 있다. 또한 여러 source에서 비슷한 정보가 검색될 경우 반복적인 응답을 생성할 수도 있다. 복잡한 문제를 만났을 때에는 기존의 쿼리기반 단일 검색만으로는 충분한 context info를 얻기 어려울 수 있다.
- 또한 generation model이 augmented info에 과도하게 의존해 검색된 내용을 반복해 의미있는 정보를 제공하지 못할 수 있다.

Advanced RAG

Advanced RAG는 Naive RAG의 한계를 극복하기 위해 pre-retrieval과 post-retrieval 기법을 도입한다. Indexing 성능을 개선하기 위해서 sliding window, fine-grained segmentation, 메타데이터 통합을 도입한다. 또한 retrieval process를 최적화하기 위해 여러가지 최적화 방법을 도입한다.

Pre-retrieval process
- 이 단계에서는 indexing structure와 original query를 최적화하는데 중점을 둔다.
- 인덱싱 최적화의 goal은 인덱싱 콘텐츠의 품질 향상으로, 이를 위해 데이터 세분화 개선, 인덱스 구조 최적화, 메타데이터 추가, 정렬 최적화, mixed retrieval 등의 기법을 사용한다.
- 쿼리 최적화의 목표는 user의 원래 질문을 더욱 명확하고 검색 작업에 적합하게 만드는 것으로, 이를 위해 쿼리 재작성, 쿼리 변환, 쿼리 확장 등의 기법을 사용한다.
Post-retrieval process
- 이 단계에서는 Chunk reranking과 Context compressing이 많이 사용된다.
- 검색된 정보를 재정렬하여 가장 관련성이 높은 내용을 프롬프트의 가장자리로 재배치하는 것이 핵심이다.

Modular RAG

Modular RAG는 앞선 구조보다 더 발전을 이루며, 더 뛰어난 적응성과 유연성을 제공한다. 유사성 검색을 위한 검색 모듈을 추가하거나, fine tuning을 통해 retrieval을 개선하는 등 다양한 전략을 통합해 각 component를 향상시킨다. 특정한 문제를 해결하기 위해 RAG 모듈을 재구성하거나 RAG 파이프라인을 재배열하기도 한다.

New Modules
- Search module: LLM이 생성한 코드와 query language를 통해 여러 data sources(search engines, DB, knowledge graphs)에 직접 접근해서 검색한다.
  - 기존 RAG는 vector 기반 유사성 검사를 하는 것과 대비됨
- RAG Fusion: single query로는 찾기 어려운 정보를 parallel vector searches와 intelligent re-ranking을 통해 multi-query strategy를 도입하여 기존 검색의 한계를 해결한다.
- Memory Module: LLM의 메모리를 활용해 검색을 유도하며, 반복적인 self-enhancement를 통해 텍스트가 데이터 분포와 더 유사해지도록 한다.
- Routing: 다양한 data source를 탐색해 query가 어떤 data를 원하는지 그 최적의 경로를 찾는다.
- Predict module: LLM을 통해 직접 context를 생성함으로써 노이즈와 중복을 줄이고 정확성을 높인다.
- Task Adapter: RAG를 down stream에 맞게 조정한다.
New Patterns
- Modular RAG는 모듈을 교체하거나 reconfiguration하여 specific challenge를 해결할 수 있는 적응성이 있다.
- 이는 단순한 "Retrieval"과 "Read" 메커니즘에 의존하는 Naive RAG 및 Advanced RAG의 fixed structure를 넘어선 것이다.

Rewrite-Retrieve-Read 모델, Generate-Read 방식, Recite-Read, Hybrid retrieval strategies, Hypothetical Document Embeddings(HyDE) 등의 기법은 Retrieval의 성능을 강화하는데 초첨을 맞춘다.
모듈의 배열이나 모듈 간의 interation을 조정하는 기법들도 존재한다. Demonstrate-Search-Predict(DSP) framework, ITERRETGEN은 각 모듈의 기능을 강화해 시너지를 높인다. FLARE와 Self-RAG은 RAG의 유연성을 높인다.

RAG vs. Fine-tuning

RAG는 fine-tuning과 프롬프트 엔지니어링과 자주 비교된다. 각 방법들은 Figure 4와 같이 고유한 특성을 갖고 있다.

Figure 4에서 각 축은 model adaptation이 필요한지, 외부 지식이 필요한지를 의미한다.
- 프롬프트 엔지니어링은 외부지식과 model adaptation이 거의 필요하지 않은 상태에서 모델의 내재된 기능을 사용한다.
- RAG는 정보 검색을 위해 딱 맞는 교과서를 제공하는 것과 비슷하며, 정확한 정보를 검색하는 것에 이상적이다.
- Fine-tuning은 학생이 지식을 습득하는 것에 비유되며, 특정한 구조나 형식을 copy해야 하는 시나리오에 적합하다.
RAG는 latency가 길고, 데이터 검색에서 윤리적 고려사항이 동반된다.
Fine tuning은 정적이며 업데이트를 위해서는 재학습이 필요하지만, 모델의 action과 style을 커스터마이징할 수 있다. 데이터셋 준비 및 학습에 상당한 resource를 요구하며, 환각을 줄일 수 있지만 익숙하지 않은 데이터에 대해서는 어려움을 겪을 수 있다.
RAG와 FT를 평가한 결과, RAG는 훈련 중의 기존 지식과 새로운 지식 모두에서 우수한 성능을 보인다. RAG와 FT는 상호 보완적인 관계에 있으며 서로를 보완해 모델의 역량을 다양한 수준에서 향상시킬 수 있다. 일부의 경우에는 둘을 결합해 사용할 때 최적의 성능을 발휘한다.

Retrieval

Retrieval Source

retrieval source의 유형과 retrieval unit의 세분화는 최종적인 생성 결과에 영향을 미친다.

Data Structure
- 초기에는, text가 주된 검색 source였다. 이후에는 PDF같은 semi-structured data와 knowledge graph같은 structured data를 포함하도록 확장되었다. 최근 연구에서는 LLM이 자체 생성한 콘텐츠를 retrieval이나 enhancement 목적으로 사용하는 경향도 커지고 있다.
1. Unstructured Data
  - Text와 같은 비구조화 데이터는 주로 corpus에서 수집된다. 주로 특정 도메인 데이터가 포함된다.
2. Semi-structured data
  - 반구조화 데이터는 주로 텍스트와 표를 결합한 데이터를 의미하며, PDF가 대표적이다. 이를 처리하는 것은 RAG시스템에 두 가지 이유로 challenge를 준다.
    - 텍스트 분할 과정에서 표가 분리되어 데이터가 손상될 수 있다.
    - 표가 포함된 데이터는 semantic similarity 검색을 복잡하게 한다.
  - 이 분야에는 많은 연구 기회가 있다.
3. Structured data
  - Knowledge data와 같은 구조화 데이터는 보통 검증된 데이터로, 더 정확한 정보를 제공할 수 있다.
  - KnowledGPT, G-Retriever 모델, Prize-Collecting Steiner Tree(PCST) 최적화 문제 등 사용
  - structured db를 구축, 검증, 유지보수 하는 것은 추가적인 노력 필요
4. LLMs-Generated Content
  - RAG의 외부 정보 한계를 해결하기 위해, 일부 연구에서는 LLM 내부 지식을 활용한다.
Retrieval Granularity(검색단위 세분화)
- 데이터의 세분화 정도는 중요한 요소다. 큰 단위의 검색은 이론적으로 더 관련있는 정보를 제공할 수 있지만, 불필요한 내용도 포함되어 이후 작업에서 혼란을 겪을 수 있다. 너무 작은 단위는 검색의 부담을 증가시키며 의미적 완전성을 보장하지 못할 수 있다. 이 단위는 token-phrase-sentence-proposition(명제)-chunk-document 까지 다양하다.

Indexing Optimization

Chunking Strategy
- 문장을 일정한 수의 토큰으로 분할한다. 큰 청크는 더 많은 context를 캡처할 수 있지만, 많은 노이즈를 생성하고 시간과 비용이 늘어난다. 작은 청크는 그 반대이다.
- 청크 분할은 문장이 잘리는 문제를 야기할 수 있어 recursive split이나 sliding window 방법을 최적화하여 여러 검색에서 정보를 병합하는 계층적 검색을 가능하게 한다.
Metadata Attachments
- 청크에 메타데이터 정보를 추가하여 문서의 범위를 좁힌 뒤 검색한다. 메타데이터를 인위적으로 구성할 수도 있다.
Structural Index
- Hierarchical Index
  - 문서에 hierarchical structure을 구축함으로써 RAG의 검색 효율을 높인다.
- Knowledge Graph Index
  - 문서 계층 구조 구축을 위해 Knowledge Graph(KG)를 사용하면 일관성을 유지할 수 있으며, 정보 검색 프로세스를 LLM이 이해할 수 있는 명령으로 바꾸어 정확성을 높일 수 있으며, LLM이 context에 맞는 응답을 생성하도록 해 RAG의 전반적인 효율성을 높일 수 있다.

Query Optimization

Naive RAG의 주요 challenge 중 하나는 사용자의 원래 쿼리의 직접 의존해 검색을 수행한다는 것이다. 명확한 질문을 구성하는 것은 어려운 일이며, 부적절한 쿼리는 검색 효율성을 떨어뜨린다.
또 다른 어려움은 언어의 복잡성에 따른 모호성으로, 전문 용어나 다의어를 처리하는 데 어려움을 겪는다.

Query Expansion
- single query를 multiple query로 확장하면 쿼리의 내용을 풍부하게 하여 특정 뉘앙스 부족을 해결하고 답변과의 관련성을 최적화할 수 있다.
1. Multi-query
  - LLM을 활용한 프롬프트 엔지니어링으로 쿼리를 확장하고, 이 여러 쿼리를 병렬로 실행할 수 있다. 이 확장은 무작위가 아닌 철저히 설계되어 이루어진다.
2. Sub-query
  - sub-question을 계획하는 과정은 원래 질문에 context를 추가하고 이를 답할 수 있도록 필요한 하위 질문을 생성하는 것을 의미한다. 복잡한 질문은 least-to-most 프롬프트 방식으로 더 단순한 하위 질문으로 분해 가능하다.
3. Chain-of-Verification(CoVe)
  - 확장된 쿼리는 LLM을 통해 검증과정을 거치며, hallucination을 줄이는 효과를 얻을 수 있다.
Query Transformation

original query가 아닌 변환된 쿼리를 기반으로 검색을 수행한다.
1. Query Rewrite
  - original query는 llm 검색에 항상 최적화되어 있지 않으며, 따라서 LLM을 프롬프트하여 쿼리를 재작성할수 있다. 또는 특화된 sLM을 사용할 수 있다.

Query Routing
- 쿼리의 특성에 따라 적합한 RAG 파이프라인으로 라우팅하여 다양한 시나리오에 적용가능한 다목적 RAG 시스템을 설계할 수 있다.
1. Metadata Router/Filter
  - 퀴리에서 키워드를 추출한 후, 키워드 내 메타데이터를 기반으로 필터링하여 검색 범위를 좁힌다.
2. Semantic Router
  - 쿼리의 시맨틱 정보를 활용한다. 시맨틱과 메타데이터 정보를 결합한 하이브리드 방식도 있다.

Embedding

RAG에서는 질문 임베딩과 청크 임베딩의 유사성(ex: 코사인)을 계산해 검색을 수행하는데, 이때 임베딩 모델의 semantic representation 능력이 중요하다. 여기에는 주로 BM25 같은 sparse encoder와 BERT 아키텍처 PTM 같은 dense retriever가 포함된다. 어떤 임베딩 모델을 사용해야하는가에 대한 일관된 답은 없지만, 특정 모델들이 특정 task에 더 적합한 경향은 있다.

Mix/Hybrid Retrieval
- Sparse embedding과 dense embedding 방식은 서로 다른 relevance feature를 포착하며, 상호보완적인 관계가 될 수 있다. 예를 들어, sparse 모델을 dense 모델을 학습하기 위한 초기 검색 모델을 제공할 수 있다.
Fine-tuning Embedding Model
- 특수한 도메인을 사용할 경우 자체 데이터셋을 사용해 임베딩 모델을 fine-tuning 하는 것이 필수적이다.
- fine-tuning의 또다른 목적은 Retriever와 Generator를 align하는 것이다. 예를 들어 LLM의 결과를 fine-tuning의 supervision signal로 사용하는 방법을 LSM(LM-supervised Retriever)이라고 한다.
  - Retriever는 1) 데이터셋의 hard label과 2) LLM의 soft reward라는 두 가지 종류의 supervised signal을 통해 학습된다.
    - 이러한 이중 signal 접근 방식은 다양한 다운스트림 task에 맞게 조정하는데 효과적이다.
  - RLHF에서 영감을 받아 LM 기반 피드백을 사용해 Retriever를 강화학습을 통해 강화하는 방법도 있다.

Adapter

일부 방식에서는 외부 어댑터를 사용해 모델을 align 한다.

Generation

Retrieval 후 검색된 모든 정보를 LLM에 직접 입력하는 것은 좋은 방법이 아니다.

Context Curation

중복된 정보는 generation에 방해가 될 수 있으며, 긴 context는 ‘Lost in the middle’ 문제를 초래할 수 있다. 따라서 RAG에는 검색된 내용을 post-process해야 한다.
1. Reranking
  - Reranking은 chunk를 reorder해 가장 관련성이 높은 것을 먼저 강조하는 방식으로, 전체 문서 pool을 줄이고, IR에서 enhancer와 filtering을 동시에 수행하여 LLM이 더 정확하게 처리할 수 있는 정제된 입력을 제공한다.
2. Context Selection/Compression
  - RAG에서 가능한 많은 관련 문서를 검색하고 긴 검색 프롬프트를 만드는 것이 유리하다는 것은 오해이다. 긴 context는 noise로 인해 LLM의 정보 인식 능력을 저하시킬 수 있다.
  - 여러 모델에서는 sLM이나 information retriever, information condenser 등을 사용해 중요하지 않은 토큰을 감지하고 제거하는 방법을 사용했다.
  - context 압축 외에도 문서 수를 줄이는 것도 유용하다.

LLM Fine-Tuning

특정 task나 데이터에 타겟팅된 fine-tuning은 LLM에게 더 좋은 성능을 이끌어낸다. 이는 on-premise LLM을 사용하는 가장 큰 장점 중 하나이기도 하다.
Fine-tuning의 또 다른 장점은 모델의 입력과 출력을 조정할 수 있다는 점이다.
LLM의 출력을 인간이나 retriever의 선호에 맞추기 위해 강화학습을 사용하는 것도 가능한 방식이다.
거대한 오픈소스 모델에 접근할 수 없는 상황에서는 강력한 모델(ex: GPT-4)을 distillation하는 간단하면서도 효과적인 방법이 있다.
LLM의 fine-tuning은 reiriever의 fine-tuning과 함께 진행될 수 있으며, 이를 통해 preference를 align할 수 있다.

Augmentation Process in RAG

RAG에서는 일반적으로 한 번의 검색 단계를 거치고 답변을 생성한다. 그러나 이는 다단계의 추론을 요구하는 복잡한 문제에서는 제한된 정보만을 제공하므로 충분하지 않을 때가 많다. 이러한 문제를 해결하기 위해 많은 연구에서 검색 과정을 최적화하였으며, 아래 Figure 5에 나타낸다.

Iterative Search

Iterative search는 초기 쿼리와, 지금까지 생성된 텍스트를 바탕으로 knowledge base에서 반복적으로 검색이 수행되는 과정이다. 이를 통해 답변 생성의 robustness를 향상시키는 것으로 나타났다.
하지만 이 방식은 의미적 불연속성이나 불필요한 정보의 축적으로 인해 영향을 받을 수 있다.

Recursive Search

Recursive search는 이전 검색에서 얻은 결과를 바탕으로 검색 쿼리를 반복적으로 수정하는 방식으로 진행된다.
Recursive search의 목표는 feedback loop를 통해 점진적으로 가장 관련성 높은 정보에 수렴하는 식으로 검색 경험을 개선하는 것이다.

Task and Evaluation

Downstram Task

RAG의 core task는 QA로, 전통적인 single-hop/multi-hop(질문에 대한 답을 하나의 문단/여러문단에서만 정답을 찾을 수 있는 것) QA, multiple chioce QA, domain-specific QA, long-form scenarios suitable QA 를 포함한다. 또한 RAG는 IR, IE(Information Extration), Dialogue Generation, Code Search 등 다양한 다운스트림 작업으로 확장되고 있다.

Evaluation Target

그동안 RAG 모델의 평가는 특정 다운스트림 작업에서의 성능으로 초점이 맞춰져왔으므로 해당 작업에 적합한 평가 지표가 사용되어 왔다. RAG의 자동평가를 위해 설계된 RALLE와 같은 도구도 이러한 task별 지표를 기반으로 평가를 수행한다.
그럼에도 RAG 모델의 고유한 특성을 평가하는 연구는 여전히 부족하다. 주요한 evaluation objectives는 Retrieval Quality와 Generation Quality를 평가하는 것이다.
- Retrieval Quality: Hit Rate, MRR(Mean Reciprocal Rank), NDCG(Normalized Disconted Cunulative Gain) 등의 지표가 일반적으로 활용
- Generation Qulaity: 레이블의 유무에 따라 평가는 두가지로 나뉜다.
  - 레이블이 없는 콘텐츠는 생성된 답변의 충실성(faithfulness), 관련성(relevance), 무해성(non-harmfulness)을 평가하며, 레이블이 있는 콘텐츠는 정보의 정확성(accuracy)에 초점을 맞춘다. 이 평가는 수동/자동 평가를 통해 수행될 수 있다.

Evaluation Aspects

현대의 RAG 평가는 3개의 quality score와 4개의 essential ablilty에 중점을 두며, 이는 RAG의 주 목표인 검색과 생성 평가에 대한 종합적인 정보를 제공한다.

Quality Scores: Quality scores는 RAG의 효율성을 다양한 관점에서 평가한다.
- 1) Context Relevance: retrieved된 context의 precision(정확도)과 specificity(특이도)를 평가하여, 불필요한 콘텐츠로 인한 cost를 최소화하고 관련성은 보장한다.
- 2) Answer Faithfulness: 생성된 답변이 retrieved된 context에 충실하게 유지되도록 하여 일관성을 유지하고 모순을 피하도록 한다.
- 3) Answer Relevance: 생성된 답변이 제시된 질문과 직접적으로 관련되며 핵심적인 질문을 효율적으로 다루는지 평가한다.
Required Abilities: 모델의 적응성과 효율성을 평가하는 4가지 ablility도 포함된다.
- 1) Noise Robustness: 질문과 관련은 있지만 실질적인 정보가 부족한 noise document를 처리하는 모델의 능력을 평가한다.
- 2) Negative Rejection: retrieved된 문서에 질문이 답하기 위해 필수 지식이 없을 때, response를 자제하는 모델의 자제력(분별력)을 평가한다.
- 3) Information Integration: 모델이 복잡한 질문에 답하기 위해 여러 문서에서 정보를 통합하는 능력을 평가한다.
- 4) Conterfactual Robustness: 모델이 문서 내에서 잘못된 정보를 인식하고, 잠재적인 오정보에 대해 지시를 받았을 때 이를 무시하는 능력을 평가한다.

1-1), 2-1)은 Retrieval quality를 평가하는 데 중요하며, 나머지는 Generation Quality를 평가하는 데 중요하다.

Evaluation Bencmarks and Tools

RGB, RECALL, CRUD 등의 주요 벤치마크는 RAG의 essential ablility를 평가하는 데 중점을 준다.
RAGAS, ARES, TruLens같은 최신 automated 도구들은 LLM을 통해 quality score를 측정한다.

Discussion and Future Prospects

RAG vs. Long Context

LLM의 context 처리 능력은 지속적으로 확장되고 있다(최근엔 20만 토큰). 이는 RAG에 의존하던 긴 문서 QA를 이제 문서 전체를 프롬프트에 직접 포함해 처리할 수 있음을 의미한다. 이러한 발전은 LLM이 컨텍스트에 제한받지 않을 때 RAG가 필요한가?에 대한 논의를 불러일으켰다.
사실 RAG는 여전히 대체할 수 없는 역할을 한다.
- LLM에 한 번에 많은 양의 context를 제공하면 추론 속도에 큰 영향을 미치지만, 반면 RAG의 retrieved chunk와 on-demand input은 효율성을 크게 향상시킬 수 있다.
- RAG 기반 generation은 LLM이 원본 참조 자료를 빠르게 찾아서 generated response를 검증하는 데 도움을 줄 수 있다.
  - RAG와 다르게 LLM은 여전히 블랙박스다.
그러나 context expansion은 RAG 발전에 새로운 기회를 제공해 더 복잡한 task를 다룰 수 있게 한다. 초장기 context를 처리하는 것은 RAG의 future research trend 중 하나다.

RAG Robustness

Retrieval 과정에서 발생하는 noise나 모순된 정보는 RAG response quality에 악영향을 준다.
- 이는 ‘잘못된 정보는 정보가 없는 것보다 더 해로울 수 있다’라는 비유로 설명된다.
그러나 연구 결과에서는 관련없는 문서를 일부 포함했을 때 정확도가 30%이상 향상되는 경우가 있으며, 초기 가정과 상반된다.
RAG 연구에서 Retrieval과 generation 모델을 통합하는 특화된 전략을 개발할 필요성을 강조하며, RAG robustness에 대한 추가적인 연구의 중요성을 보여준다.

Hybrid Approaches

RAG와 fine-tuning을 결합하는 방식이 주요 방식으로 떠오르고 있다.
특정 기능의 sLM을 RAG에 도입하고 RAG의 결과로 이를 미세소정하는 방식도 있다.

Scaling laws of RAG

End-to-end RAG와 RAG기반의 PTM에서 parameter는 중요한 요소이다.
LLM에서는 scaling laws가 성립되어 있지만, RAG에도 적용가능한지는 불확실하다.

Production-Ready RAG

RAG 생태계의 발전은 기술 스택의 발전에 큰 영향을 받는다.
- LangChain과 LLamaIndex와 같은 기술 스택은 RAG관련 API를 제고하고 LLM 분야에서 필수적인 역할을 하고 있다.
RAG 기술 발전에는 몇 가지 특화된 방향이 나타난다.
- Customization: 특정 요구를 충족하도록 RAG를 조정하는 것
- Simplication: 초기 learning curve를 줄이기 위해 RAG를 더 쉽게 만드는 것
- Specification: RAG를 최적화하여 실제 환경에서 더 잘 작동하도록 만드는 것
RAG는 기술 스택의 성장으로 인한 상호작용으로, RAG tool은 foundational technology stack이 되어가고 있으며 고급 application을 위한 기초를 마련하고 있다.

이미지
- RA-CM3는 텍스트와 이미지를 검색하고 생성하는 pioneering 멀티모달 모델이다.
- BLIP-2는 고정된 이미지 인코더와 LLM을 결합해 visual 언어 사전학습을 효율적으로 수행하며, zeroshot image-to-text 변환을 가능하게 한다.
- Visual Before You Write 방식은 이미지 생성을 통해 언어 모델의 텍스트 생성을 유도한다.
오디오와 비디오
- GSS는 오디오 클립을 검색하고 이를 결합해 기계 번역된 데이터를 음성 번역 데이터로 변환한다.
코드
- RBPS는 코드 예시를 검색해 개발자의 목표에 맞게 인코딩 및 빈도 분석을 통해 작은 규모의 학습 작업에서 뛰어난 성능을 발휘한다.

Conclusion

Figure 6에 나타난 것처럼, LLM의 매개변수화된 지식과 외부 지식 기반의 비매개변수화된 데이터를 통합하여 RAG가 LLM의 기능을 크게 발전 시켰음을 강조한다.
RAG는 fine-tuning과 강화학습과 같은 다른 기술과의 통합을 통해 그 기능을 확장해왔다.
여전히 RAG의 robustness와 long context 처리 능력을 개선하기 위한 연구 기회는 존재한다.
RAG의 응용범위는 멀티모달 도메인으로 확장되어 이미지, 비디오, 코드와 같은 다양한 데이터 형식을 해석하고 처리하는데 사용되고 있다.
RAG 생태계가 확장하는 것은 RAG application과 이를 지원하는 tool의 지속적 개발로 입증된다.
RAG가 꾸준히 성장하기 위해서는 정확하고 대표적인 성능평가를 보장하는 것이 매우 중요하다.

[Survey] RAG(Retrieval Augmented Generation) 핵심 개념

Tue, 27 Aug 2024 06:35:15 GMT

RAG

FAIR이 처음 사용, 제안한 명칭 (NeurIPS 2020, https://arxiv.org/pdf/2005.11401)
Pre-trained된 LM과 Retrieval component를 결합하여 광범위한 지식이 필요한 text generation의 성능을 개선하는 프레임워크
- Parametric memory (pre-trained seq2seq model (BART…)) + Non-parametric memory (dense vector index of external documents (Wiki …) accessed by neural retriever)
간단하게, 외부 DB 지식을 통합(검색)하여 LM의 생성 능력을 향상시키는 기술

Why RAG?

LLM은 비약적인 성능 향상 이룸. But, 긴 길이의 텍스트 처리 한계 (Lost in the middle problem)
RAG는 문서 모든 단락에 index를 생성해 쿼리와 관련성 높은 index를 LLM에게 전달
- LLM의 정보 과부하 방지하고 quality 향상

Neural Retrieval

신경망을 사용하여 쿼리를 관련된 문서와 연결하는 IR 모델
쿼리와 문서를 dense vector representation으로 인코딩하고 유사성 계산
- 이를 통해 의미적 관련성 포착 가능
기존 키워드 기반 IR에서 텍스트의 근본적 의미와 관계를 이해하는 시스템으로의 변화를 의미
일반적인 동작 단계:
1. 벡터 인코딩 a. 신경망 기반 인코더에 의해 쿼리와 문서는 고차원 공간에서 벡터로 변환 b. 단어와 구 간 패턴, 관계 학습
2. 시맨틱 매칭 a. 유사성은 코사인 유사도 등으로 계산 b. 단순 키워드 중복이 아닌 의미적 관련성 높은 문서 결정

Neural Retrieval’s Advantages

단어가 사용된 문맥 이해 가능해 정확한 검색 가능
길고 복잡한 쿼리 처리 가능
다양한 언어 쿼리 처리 가능

Neural Retrieval’s Challenges

훈련과 추론 모두에 상당한 컴퓨팅 파워가 요구된다(특히 대규모 문서 인코딩)
Neural Retrieval의 성능은 train data에 따라 크게 달라지며, data의 bias를 물려받을 수 있다
동적으로 변화하는 문서의 representation을 최신 상태로 유지하는 것은 쉽지 않다

RAG Pipeline

RAG를 통해 LLM은 외부 지식에 접근하여 가중치에 포함되지 않은 정보를 활용
Retriever는 semantic retrieval의 필요성에 따라 다음 중 하나가 될 수 있음
1. Vector database: Dense vector는 BERT 등 사용, Sparse vector는 TF-IDF 등 사용. 이후 빈도 또는 유사성 기반으로 검색 수행
2. Graph database: 텍스트에서 추출된 엔티티 관계로 지식 베이스 구축. 정확하지만 쿼리 매칭 필요할 수 있으며, 일부 task에서는 제한적일 수 있음
3. Regular SQL database: 구조화된 데이터 저장과 검색이 가능하지만 의미론적 유연성 부족

Damien Benveniste에 의하면, Vector database보다 Graph Database가 RAG에서 선호
- Vector database는 인코딩된 벡터로 데이터를 분할하고 인덱싱하므로 의미적으로 유사한 벡터 검색이 가능하지만, 관련없는 데이터를 가져올 수 있다.
- 반면 Graph database는 텍스트에서 추출된 엔티티 관계로부터 지식 베이스를 구축하여 검색을 간결하게 만듦.

Process of RAG

(Vector) Database Creation: 내부 데이터셋을 벡터, 혹은 지정된 형태로 변환한 뒤 데이터베이스에 저장한다.
User Input: 사용자가 쿼리를 제공한다.
Information Retrieval: Retrieval 매커니즘은 vector database를 스캔하여 쿼리와 의미론적으로 유사한 세그먼트를 식별한다. 이 세그먼트는 LLM에 제공돼 답변을 생성하는 context를 강화한다.
Combining Data: Database에서 선택한 data 세그먼트가 쿼리와 결합하여 확장된 prompt가 생성된다.
Generating Text: 확장된 prompt는 LLM에 전달되어 context-aware response를 생성한다.

High-level working of RAG

Benefits of RAG

RAG를 사용하면 LLM은 자신의 가중치에 포함되지 않은 정보를 외부 지식에 접근함으로써 활용 가능하다.
RAG는 재학습이 필요없어 시간& 계산 리소스 절약 가능하다.
단점: 외부 지식의 포괄성과 정확성에 따라 RAG의 성능이 달라진다.
RAG는 라벨 데이터가 제한적인 경우 효과적이며, 특정 정보에 실시간 접근이 필요한 application에 이상적이다.
- 인터넷에는 방대한 양의 텍스트가 있지만, 이 텍스트들이 구체적인 질문에 직접 답변하는 방식으로 이루어져 있지 않다.
- RAG는 제품 매뉴얼과 같은 외부 리소스에서 질문과 관련된 정보를 검색한 뒤, 이를 사용해 명확하고 간결한 답변을 생성한다.
- → RAG는 많은 정보가 사용 가능하지만 라벨이 지정되지 않은 어플리케이션에 잘 맞는다.

RAG vs. Fine-Tuning

표 요약

RAG는 LLM에게 사실적이고 적절한 정보에 대한 접근을 제공한다. 이는 LLM이 관련 데이터베이스에서 정확하고 검증된 사실을 직접 가져올 수 있게 한다. Fine tuning은 이를 일부 해결할 수 있지만, RAG는 최신 정보를 제공하며 fine tuning과 관련된 상당한 비용 없이 특정 정보를 제공하는 데 뛰어나다. 또한 RAG는 최신 데이터에 동적으로 접근하고 검색함으로써 모델이 현재 상태를 유지하고 관련성을 유지하도록 한다. 또한 RAG의 방식은 더욱 유연하고 확장 가능하여 쉽게 업데이트 가능하다.
Fine tuning은 LLM의 스타일, 어조, 어휘 등을 조정하여 사용자의 언어적 방향성을 원하는 도메인에 맞게 조정된다. RAG는 이러한 수준의 커스텀을 제공하지 않는다.
RAG에 먼저 집중하라. RAG 어플리케이션을 먼저 성공적으로 구축하면 그 뒤에 fine tuning을 추가할 수 있다.

Ensemble of RAG

RAG의 앙상블을 통해 모델이 맥락적으로 정확한 텍스트를 생성하는 능력을 향상시킬 수 있다.
- Knowledge sources: RAG는 특정 도메인에서의 지식을 보완하기 위해 외부 지식 저장소에서 정보를 검색한다. 이는 Wikipedia, book, news 등에서의 paragraphs, tables, images가 포함될 수 있다.
- Combining sources: 추론 시점에 여러 retriever가 다양한 corpus에서 관련 내용을 가져오면, 이들은 candidates pool로 연결된다.
- Ranking: Candidates pool에 있는 후보들의 순위를 매긴다.
- Selection: 순위가 높은 후보들이 LM의 generation을 위해 선택된다.
- Ensembling: 다른 코퍼스에 특화된 RAG 모델들이 앙상블될 수 있다. 그 출력들은 합쳐져서 순위가 매겨지고 투표된다.
다양한 source를 통해 RAG를 보강할 수 있으며, pooling과 ensemble을 통해 이루어진다.
각 retriever의 다른 출력을 합쳐서 응답을 생성하기 전 순위를 매기는 것을 염두에 두어야 한다.

Building a RAG Pipeline

Ingestion → Retrival → Synthesis/Response Generation

Ingestion

Chunking

Chunking: prompt나 검색할 문서를 더 작고 관리하기 쉬운 segment 또는 chunk로 나누는 과정
Chunk는 특정 문자, 문장 또는 단락 수 같은 fixed size로 정의될 수 있음
RAG에서는 chunk가 검색을 위해 임베딩 벡터로 인코딩.
더 작고 정확한 chunk는 쿼리와 컨텐츠 간의 세밀한 일치를 이끌어내어 검색된 정보와의 정확성과 관련성을 향상시킨다.
큰 chunk는 관련없는 정보를 포함할 수 있으며, 이는 노이즈가 포함되고 검색 정확도를 낮출 수 있다. chunk 크기를 조절함으로써 RAG는 포괄성과 정밀성 사이의 균형을 유지한다.
Chunk 크기를 정하는 방법 몇 가지:
- Fixed-size chunking: chunk에 포함될 토큰 수를 결정하고, chunk 사이에 overlap 허용 여부를 결정한다. chunk 간의 overlap은 semantic context loss를 최소화한다. 이 방법은 계산 비용이 적고 구현이 간단하다.
- Context-aware chunking: Context-aware chunking은 텍스트 구조를 활용하여 유의미하고 맥락적으로 관련된 chunk를 생성한다.
  1. Sentence Splitting
    - Naive Splitting: 마침표와 개행을 이용하여 문장을 분할하는 기본적인 방법. 빠르지만 복잡한 문장은 간과할 수 있다.
    - NLTK (Natural Language Toolkit): 파이썬 라이브러리, 텍스트를 문장으로 효과적으로 분할하는 sentence tokenizer가 포함되어 있다.
    - spaCy: NLP 작업을 위한 고급 파이썬 라이브러리, 효율적인 문장 분할 제공.
  2. Recursive Chunking: 다양한 구분자를 사용해 계층적으로 텍스트 분할하는 반복적 방법. 재귀적으로 다른 기준을 적용하여 비슷한 크기나 구조의 chunk를 생성
  3. Specialized Chunking: Markdown이나 LaTeX 같은 formatted content는 원래 구조를 유지하면서 chunking을 수행한다.
    - Markdown Chunking: Markdown 구문을 인식하고 구조에 따라 콘텐츠를 나눔
    - LaTeX Chunking: LaTeX 명령어와 환경을 구문 분석하여 콘텐츠를 chunking하면서 논리적 구성을 보존
일반적으로, text chunk가 주변 맥락 없이도 인간에게 유의미하다면, LM에게도 유의미할 것이다. 따라서 corpus의 문서에 대한 optimal chunk size를 찾는 것이 검색 결과의 정확성과 관련성을 보장하는데 중요하다.

Embeddings

Prompt와 문서를 임베딩한다는 것은 쿼리와 지식 기반 문서를 효과적으로 비교할 수 있는 형식으로 변환하는 것을 포함하며, RAG 능력에 매우 중요하다
임베딩 방식에서 Dense embedding과 Sparse embedding을 사용할 지의 문제가 있다.
Sparse Embedding: TF-IDF 등의 sparse embedding은 prompt와 문서 간의 어휘적 일치를 찾는데 좋아 키워드 관련성이 중요한 application에 적합하다. 계산 비용이 낮지만 텍스트의 깊은 의미를 포착하지 못할 수 있다.
Semantic Embedding: BERT나 SentenceBERT같은 semantic embedding은 그 자체로 자연스럽게 RAG에 적합하다.
- BERT: 쿼리와 문서의 문맥적 뉘앙스를 포착하는 데 적합하다. Sparse embedding에 비해 계산 리소스가 더 필요하지만, 의미론적으로 더 풍부한 임베딩을 생성한다.
- SentenceBERT: 문장 수준에서 의미와 문맥이 중요한 경우에 이상적이다. BERT의 깊은 문맥 이해와, 유의미한 sentence representation 사이에서 균형을 맞춘다. RAG에 보통 선호되는 방법이다.

Sentence Embeddings: the What and Why

Background: Differences Compared to Token-Level Models Like BERT
- Sentence Transformers는 전통적인 BERT 모델을 수정한 것으로, 전체 문장을 생성하는데 특화되어 있다. 학습 과정에서의 차이점은 아래와 같다
  1. Objective: BERT는 문장에서의 masked words와 다음 문장을 예측하도록 학습된다. 반면 Sentence Transformers는 전체 문장의 의미를 이해하도록 훈련된다. 유사한 의미를 가진 문장들이 임베딩 공간에서 가깝게 생성된다.
  2. Level of Embedding: BERT는 토큰(word or subword) 단위의 임베딩을 제공하지만, Sentence Transformers는 전체 문장에 대한 단일 임베딩을 제공한다.
  3. Training Data and Tasks: BERT는 문맥 속 단어 이해에 중점을 둔 작업으로 대규모 text corpus에서 학습이 이루어지지만, Sentence Transformers는 문장 쌍을 포함하는 데이터셋에서 자주 훈련된다. 이는 유사성과 관련성에 중점을 두어 모델이 전체 문장의 의미를 이해하고 비교하는 방법을 학습싴킨다.
  4. Siamese and Triplet Network Structures: Sentence Transformers는 종종 샴 네트워크나 triplet 네트워크 구조를 사용한다. 이 네트워크들은 pair나 triplet으로 구성된 문장들을 처리하고, 유사한 문장들이 유사한 임베딩을 가지고 다른 문장들은 다른 임베딩을 가지도록 모델을 조정하는 작업을 수행한다. 이는 BERT의 학습과는 다르며, 별개의 문장들을 직접적으로 비교하는 것을 본질적으로 포함하지 않는다.
  5. Fine-tuning for Specific Tasks: Sentence Transformers는 BERT보다 문장 수준의 이해에 더 중점을 두고 있어 semantic similarity, IR과 같은 특정 작업에 자주 fine-tuning된다. BERT는 QA, sentimental analysis 등 더 넓은 범위의 NLP 작업에 미세 조정될 수 있다.
  6. Applicability: BERT와 유사 모델들은 토큰 level의 이해가 필요한 작업(named entity 인식, QA 등)에 더 다양하게 사용될 수 있는 반면, Sentence Transformers는 문장 수준의 이해에 의존하는 작업(semantic search, sentence similarity)에 더 적합하다.
  7. Efficiency in Generating Sentence Embeddings or Similarity Tasks: BERT에서 문장 임베딩을 생성하는 것은 일반적으로 문장 시작 토큰인 [CLS]를 사용하는 것을 포함한다. 그러나 이는 문장 level의 작업에 항상 최적은 아니다. Sentence Transformers는 유의미하고 유용한 문장 임베딩을 생성하도록 최적화되어 있어 더 효율적이다. 문장마다 단일 벡터를 생성하므로 문장 간 유사도 점수를 계산할 때 계산 비용이 낮다.
Related: Training Process for Sentence Transformers vs. Token-Level Embedding Models

Sentence Transformer는 sentence level에서 임베딩을 생성하도록 훈련되며, 이는 BERT와 같은 token level 임베딩 모델의 접근 방식과는 확연히 다르다.
1. Model Architecture: Sentence transformer는 BERT나 다른 transformer 구조와 비슷한 base model로 시작한다. 하지만 개별 토큰이 아닌 각 input sentence 전체에 대해서 임베딩 벡터를 출력하는데 초점을 맞춘다.
2. Training Data: Sentence transformer는 문장 간의 관계(유사성, paraphrasing 등)가 정해진 문장 쌍이나 그룹을 포함한 다양한 데이터셋으로 학습된다.
3. Training Objectives: BERT는 token level에서의 문맥 이해를 중점으로 하여 masked language modeling(다음 단어 예측)과 next sentence prediction과 같은 objectives로 pre-trained 된다. 반면 sentence transformer는 sentence level의 문맥과 관계성을 이해하기 위해 특화되어 학습된다. 이들의 objective는 의미론적으로 유사한 문장들의 임베딩 거리를 최소화하고, 의미가 다른 문장들의 임베딩 거리를 최대화하는 것이다. 이는 triplet loss, cosine similarity loss 등의 contrastive loss function을 통해 수행된다.
4. Output Representation: BERT에서의 sentence level representation은 일반적으로 [CLS]와 같은 special token의 임베딩 또는 token embedding을 pooling하여 도출된다. Sentence transformer는 directly하게 유의미한 sentence level representation을 출력하도록 설계되었다.
5. Fine tuning for Downstream Tasks: Sentence transformer는 semantic text similarity와 같은 특정 작업에서 fine tuning 될 수 있으며, 모델은 전체 문장의 미묘한 의미를 포착하는 임베딩을 생성하는 방법을 학습한다.

Applying Sentence Transformers for RAG

Sentence transformer가 RAG를 위한 임베딩 생성 모델로써 왜 최선의 선택인가
1. Improved Document Retrieval: Sentence transformer는 문장의 의미론적 의미를 포착하는 임베딩을 생성하도록 훈련된다. RAG setting에서 이러한 임베딩은 DB의 가장 관련있는 문서와 쿼리를 일치시키는 데 사용할 수 있다. 이는 생성된 응답의 quality가 검색된 정보의 관련성에 의존하기 때문에 중요하다.
2. Efficient Semantic Search: 전통적인 키워드 기반 검색 방법은 쿼리의 맥락이나 의미론적 뉘앙스를 이해하는 데 어려울 수 있다. 의미론적으로 유의미한 임베딩을 생성하는 Sentence transformer는 키워드의 일치를 넘어서 더 미묘한 검색을 가능하게 한다. 이는 RAG의 검색 구성 요소가 정확한 키워드를 포함하지 않더라도 쿼리와 의미론적으로 관련된 문서를 찾을 수 있음을 의미한다.
3. Contextual Understanding for Better Responses: Sentence transformer를 사용하면 RAG 모델은 쿼리와 source 문서의 맥락과 뉘앙스를 더 잘 이해할 수 있다. 이는 모델이 더 관련성 있고 잘 이해된 정보로 작업을 수행할 수 있기 때문에 정확하고 맥락적으로 적합한 응답을 생성할 수 있다.
4. Scalability in Information Retrieval: Sentence transformer는 모든 문서에 대한 임베딩을 사전에 계산함으로써 대규모 문서 DB를 효율적으로 처리한다. 이는 모델이 런타임에서 쿼리의 임베딩만을 계산한 다음 가장 가까운 문서 임베딩을 빠르게 찾을 수 있게 해서 retrieval process를 더 빠르고 확장 가능하게 한다.
5. Enhancing the Generation Process: RAG setting에서 generation component는 retrieval component의 ‘관련성이 높고 의미론적으로 rich한 정보를 제공할 수 있는 능력’으로부터 이득을 얻는다. 이를 통해 LM은 모델 자체가 학습된 정보보다 더 넓은 범위의 정보를 바탕으로 맥락적으로 정확한 답변을 생성할 수 있다.
Sentence transformer는 효과적인 semantic search과 retrieval of information을 가능하게 함으로써 RAG 모델과 LLM의 검색 능력을 향상시킨다. 이는 QA, 챗봇, 정보 추출 등 대량의 텍스트 데이터를 이해하고 이를 기반으로 response를 생성해야 하는 작업에서 성능을 향상시킨다.

Retrieval

Retrieval의 유형에는 3가지가 있다. Standard / Sentence window / Auto-merging

Standard/Naive Approach

Standard pipeline은 indexing/embedding과 output synthesis에 모두 동일한 text chunk를 사용한다.

Advantages

Simplicity and Efficiency: 이 방법은 간단하고 효율적으로, 임베딩과 합성 모두에 동일한 text chunk를 사용하여 검색 과정을 단순화한다.
Uniformity in Data Handling: 검색과 합성 단계에서 사용되는 데이터의 일관성이 유지된다.

Disadvantages

Limited Contextual Understanding: LLM은 더 나은 response를 생성하기 위해 더 큰 window가 필요할 수 있는데, standard 방식은 이를 제공하지 못할 수 있다.
Potential for Suboptimal Responses: 제한된 context를 갖고 있기 때문에, LLM은 가장 관련성 있고 정확한 response를 생성할 수 있는 충분한 정보를 갖고 있지 않을 수 있다.

Sentence-Window Retrieval / Small-to-Large Chunking

Sentence-window 접근법은 문서를 더 작은 단위로 쪼갠다(문장이나 문장의 그룹으로).
Retrieval 을 위한 임베딩(벡터 DB에 저장된 더 작은 chunk)을 분리하지만, 합성을 위해 검색된 chunk 주변 context에 다시 추가된다.

Retrieval 동안 유사도 검색을 통해 쿼리와 가장 유사한 문장을 검색하고, 문장을 주변 문맥으로 대체한다.

Advantages

Enhanced Specificity in Retrieval: 문서를 더 작은 단위로 나눔으로써, 쿼리와 직접적으로 관련된 세그먼트를 더 정확하게 검색할 수 있다.
Context-Rich Synthesis: 검색된 청크 주위에 context를 다시 도입하여, response를 작성할 때 더 넓은 understanding을 제공한다.
Balanced Approach: focused한 검색과, 풍부한 context 사이에서 균형을 이루어 response의 퀄리티를 높일 수 있다.

Disadvantages

Increased Complexity: retrieval과 통합 과정을 별도로 관리해야 하므로 pipeline의 complexity가 증가한다.
Potential Contextual Gaps: 추가된 주변 정보가 포괄적인 정보가 아니라면 context를 놓칠 수 있다.

Auto-merging Retriever / Hierarchical Retriever

이전에 설명한 naive한 retrieval 방식은 chunk size가 작을수록 fragmented된 chunk들을 처리하는 데 어려움을 겪는다. (아래 그림 참고)
Auto-merging retrieval은 아래 그림과 같이 naive 방법에서 발생할 수 있는 fragmented chunk를 검색하지 않도록 한다.
Auto-merging retrieval은 여러 source나 text segment에서 정보를 결합해 쿼리에 대해 맥락적으로 유의미한 response를 생성하는 것을 목표로 한다. 이 방식은 source가 여러 개일 때 특히 유용하다.
Auto-merging retrieval은 작은 chunk를 더 큰 상위 chunk로 합칠 수 있게 하며, 다음과 같은 단계로 이루어진다.
1. 상위 chunk에 연결된 작은 chunk의 계층 구조를 정의한다.
2. 상위 chunk에 연결된 작은 chunk set이 일정 threshold(ex: 코사인 유사도)를 넘는다면, 작은 chunk를 더 큰 상위 chunk에 병합한다.
최종적으로는 상위 chunk를 검색하게 된다.

Advantages

Comprehensive Contextual Responses: 여러 source에서 정보를 가져오므로 더 포괄적이고 맥락적으로 관련있는 응답을 생성할 수 있다.
Reduced Fragmentation: naive approach와 작은 chunk 크기에서 특히 자주 발생하는 fragmented information retrieval 문제를 어느 정도 해결한다.
Dynamic Content Integration: 작은 chunk를 큰 chunk로 동적으로 결합하는 것은 LLM에게 제공되는 정보의 richness를 향상시킨다.

Disadvantages

Complexity in Hierarchy and Threshold Management: hierachy를 정의하는 것과 적절한 임계값을 설정하는 것은 복잡하며, 이러한 과정은 매우 중요하다.
Risk of Over-generalization: 너무 많은 정보나 관련없는 정보를 병합하는 것은 response가 지나치게 광범위해지거나 주제에서 벗어나게 될 가능성이 있다.
Computational Intensity: chunk의 hierachy를 관리하는 추가적인 단계로 인해 많은 컴퓨팅 자원이 필요할 수 있다.

Figuring Out the Ideal Chunk Size

RAG 시스템을 구현할 때에는 고려해야 할 retrieval 파라미터와 전략이 매우 많다(chunk 크기, 벡터 vs 키워드 vs 하이브리드 검색 방식 등). 이 중 chunk size를 살펴본다.
RAG 시스템을 구축하는 과정에서 retrieval 컴포넌트가 처리할 문서의 이상적인 chunk 크기를 결정하는 것이 중요하며, 그 이상적 크기는 여러 요인에 따라 달라진다.
1. Data Characteristics: 텍스트 문서의 경우, 단락의 평균 길이나 섹션의 평균 길이를 고려해야 한다. 문서가 구분된 섹션으로 잘 구조화되어 있다면, 그런 자연스러운 구분이 chunk size로서의 좋은 기준이 될 수 있다.
2. Retriever Constraints: 선택한 retriever 모델(BM25, TF-IDF, 신경망 기반 retriever like DPR)이 입력 길이에 제한이 있을 수 있다. chunk가 이러한 제약에 맞추어 구성되어야 한다.
3. Memory and Computational Resources: chunk 크기가 커지면 연산량이 늘어나므로 효율적인 처리를 위해 가용 자원에 맞추어 chunk 크기를 조절해야 한다.
4. Task Requirements: task의 성격(ex: QA, summarization 등)에 따라 이상적인 chunk의 size가 달라질 수 있다. Detailed task에서는 specific detail을 포착하기 위해 작은 chunk size가 유리할 수 있으며, broad한 task에서는 비교적 큰 chunk size가 유리할 수 있다.
5. Experimentation: 이상적인 chunk size를 결정하는 가장 좋은 방법은 실험을 통해서 정하는 것이다. 다양한 실험에서의 성능 평가를 통해 세밀함과 맥락 사이의 균형을 찾아야 한다.
6. Overlap Consideration: chunk 간의 overlap이 있는 것이 경계 구간에서 중요한 정보를 놓치지 않도록 하는 데 유리하다. task나 데이터 특성에 따라 적절한 overlap 크기를 정해야 한다.

Retriever Ensembling and Reranking

Thought: 여러 chunk 크기를 동시에 시도해보고, re-ranker(재정렬기)가 결과를 가지치기(prune)할 수 있다면 어떨까?
이는 두 목적을 달성할 수 있다:
1. Re-ranker의 성능이 적당한 수준이라면, 다양한 chunk 크기로부터 도출된 결과를 모아서 더 나은 검색 결과를 얻을 수 있다(비록 비용은 더 많이 들지만).
2. Re-ranker에 대해 서로 다른 retrieval 전략을 서로 비교하는 벤치마크를 제공할 수 있다.
프로세스는 다음과 같다:
1. 하나의 문서를 여러 방법으로 chunk 한다. 예를 들어 128, 256, 512, 1024를 chunk size로 한다.
2. Retrieval 중에, retriever에서 유사한 chunk를 가져오고, 이를 앙상블하여 retrieval을 수행한다.
3. Re-ranker을 사용하여 순위를 매기고 prune한다.

Ensemble 접근법의 faithfulness 지표가 약간 상승하여 검색된 결과가 약간 더 유사성이 있는 것으로 나타났다. 그러나 pairwise comparisons에서는 equal preference로 나타나, 앙상블 방식이 더 나은지 여부는 여전히 의문이다.

Re-ranking

RAG에서 re-ranking은 검색된 문서들이나 정보 조각들을 쿼리나 작업과의 관련성에 따라 평가하고 정렬하는 과정을 의미한다.
RAG에서는 여러 유형의 re-ranking 기법이 사용된다:
- Lexical Re-Ranking: 쿼리와 검색된 문서 간의 어휘적 유사성에 기반해 재정렬하는 방식으로, BM25, TF-IDF 벡터, 코사인 유사도 같은 방법이 일반적으로 사용된다.
- Semantic Re-Ranking: semantic한 이해를 통해 문서의 관련성을 판단하는 방식이다. BERT와 같은 신경망 모델이나 다른 transformer 기반 모델을 사용해 단순 단어 기반이 아닌 맥락과 의미를 이해하는데 중점을 둔다.
- Learning-to-Rank (LTR) Methods: 문서의 ranking을 위한 모델을 훈련하는 방법으로, 쿼리와 문서 모두에서 추출한 feature를 바탕으로 문서의 rank를 매긴다. 이 feature에는 어휘적, 의미적 등등의 특징이 있을 수 있다. LTR 방법에는 point-wise, pair-wise, list-wise가 포함된다.
- Hybrid Methods: Lexical과 Semantic 접근법을 결합하거나, user feedback이나 도메인 specific features같은 것을 추가하여 성능을 개선한다.
Re-ranking 단계에서는 후보 집합이 수십 개로 제한되므로 주로 신경망 기반 LTR 기법이 사용된다. Re-ranking에 일반적으로 사용되는 신경망 모델을 다음이 있다:
- Multi-Stage Document Ranking with BERT (monoBert and duoBERT)
- Pretrained Transformers for Text Ranking BERT and Beyond
- ListT5
- ListBERT

Response Generation / Synthesis

RAG pipeline의 마지막 단계는 사용자에게 response를 생성하는 것이다. 이 단계에서는 모델이 검색된 정보와 사전 학습된 지식을 통합하여 일관되고 맥락적으로 관련성 있는 응답을 생성한다.
LLM이 정보에 근거한 response를 생성할 수 있도록 retrieved된 top-k chunks를 사용해 확장된 프롬포트를 작성할 때, 입력 시퀀스의 시작이나 끝에 중요한 정보를 전략적으로 배치하는 것이 RAG 시스템의 효율성을 높이고 성능을 높일 수 있다.

[Paper] Lost in the Middle: How Language Models Use Long Contexts

최근의 LM은 긴 context를 입력으로 사용할 수 있지만, 이 긴 문맥을 얼마나 잘 사용하는지에 대해서는 상대적으로 알려진 바가 적다.
해당 논문은 LM이 입력된 context 내에서 관련 정보를 식별하는 두 가지 task에서의 성능을 분석한다. (Multi-document QA, key-value retrieval)
Open-source 모델 (MPT-30B-Instruct, LongChat-13B)과 Closed-source 모델 (OpenAI’s GPT-3.5-Turbo and Anthropic’s Claude 1.3)로 실험을 진행했다.
Context 속에 여러 개의 검색된 문서와 하나의 정답을 포함시키고, 그 위치를 섞어 multi-document QA를 수행했다. 또한, 더 긴 context가 성능에 미치는 영향을 분석하기 위해 key-value pair retrieval을 수행했다.
연구진은 관련 정보가 input context의 시작이나 끝에 있을 때 성능이 가장 높고, 모델이 긴 context의 중간에 있는 관련 정보에 접근해야 할 때 성능이 크게 낮아진다는 사실을 발견했다.
연구의 주요 결과는 다음과 같다:
- 관련 정보가 context의 시작에 있을 때 성능이 가장 좋다.
- context의 길이가 길어질수록 성능이 저하된다.
- 너무 많은 문서가 retreived되면 성능이 저하된다.
- Ranking 단계를 통해 retrieval과 프롬포트 생성 단계를 개선하면 성능이 20%까지 향상될 수 있다.
- 프롬프트가 original context에 잘 맞추어져 있다면, 확장된 context 모델들 (GPT-3.5-Turbo vs. GPT-3.5-Turbo (16K))이 더 나은 성능을 보여주지는 않는다.
RAG는 외부 DB에서 정보를 검색하며, 이 DB는 일반적으로 chunk로 나뉘어진 긴 텍스트를 포함한다. chunk로 나누더라도 context window는 매우 빠르게 커지며, 적어도 ‘일반적인’ 질문보다 휠씬 더 커진다. 또한 input context가 길어질수록 성능은 상당히 감소하며, 이는 긴 context를 명시적으로 처리하는 모델도 마찬가지다.
LLM 아키텍처에서 문서 중간에 있는 텍스트의 검색 성능이 더 나빠야하는 귀납적 편향은 없다. 이는 훈련 데이터와 인간이 글을 작성하는 방식 때문이라고 생각한다. 가장 중요한 정보는 보통 시작이나 끝에 위치해 있다. LLM이 훈련 중에 attention weight를 parameterize하는 방식도 이와 관련이 있을 것이다.(source)
인간이 직면하는 두 가지 대표적인 인지 편향(primacy & recency bias)을 통해 모델링할 수 있다.

결론적으로, 추천 시스템에서와 같이 retrieval과 ranking을 결합하면 QA에서의 RAG의 최고성능을 얻을 수 있다.
아래 이미지는 ‘LLM은 input context의 처음이나 끝 정보를 사용하는데 탁월하다’라는 idea를 나타낸다.

The “Needle in a Haystack” Test

긴 context를 가진 LLM의 context 내의 retrieval ability를 이해하기 위해, ‘needle in a haystack(건초더미 속 바늘)’ analysis를 수행할 수 있다. 이는 특정한 목표 정보(바늘)를 더 크고 복잡한 텍스트 본문(건초더미) 안에 임베딩하는 것을 포함한다. 이러한 분석의 목적은 방대한 양의 다른 데이터 속에서 특정한 정보를 식별하고 활용할 수 있는 LLM의 능력을 테스트 하는 데 있다.
이 실험은 LLM 성능의 여러 측면을 평가하도록 구조화될 수 있다. 예를 들어, ‘바늘’의 위치를 텍스트의 초반, 중간, 후반으로 다양하게 배치하여 정보의 위치에 따라 모델의 retrieval 성능이 어떻게 변하는지 확인할 수 있다. 또한 주변 ‘건초더미’의 복잡성을 조정하여, 다양한 contextual 난이도 하에서 LLM의 성능을 테스트할 수 있다.
아래 그림들은 GPT-4 128K 모델과 Claude-2.1 200K가 다양한 context 길이에 따라 수행한 성능을 나타낸다.

아래 figure는 Claude 2.1의 long context QA 오류를 context 길이 별로 나타낸 것이다. 평균적으로 Claude 2.1은 Claude 2와 비교하여 오답이 30% 감소한 것으로 나타났다.

그러나, Anthropic 블로그의 Long context prompting for Claude 2.1 글에 따르면, response 시작 부분에 ‘Here is the most relevant sentence in the context.(여기 context에서 가장 관련성이 높은 문장입니다)” 라는 문구를 추가했을 때, 원래 평가에서 점수가 27%에서 98%로 상승했다고 언급했다. 아래의 figure는 Claude 2.1이 전체 200K 토큰의 context window에서 개별 문장을 retrieving 할 때의 성능을 보여준다. 이 실험은 위에서 언급한 프롬프트 기법을 사용한다.

Component-Wise Evaluation

Component-wise evaluation(구성 요소별 평가)은 LLM 시스템에서 개별 구성 요소들을 각각 평가하는 것을 의미한다. 이 접근 방식은 일반적으로 데이터베이스나 코퍼스에서 관련 정보를 가져오는 retrieval component와, 검색된 데이터를 기반으로 response를 생성하는 generation component의 성능을 검토한다. 이러한 컴포넌트들을 개별적으로 평가함으로써 전체 RAG 시스템에서 개선이 필요한 특정 영역을 식별할 수 있으며, 이는 정보 검색과 응답 생성의 효율성과 정확성을 높이는 데 기여한다.
Retrieval의 성능을 평가하는 데에는 Context Precision, Context Recall, Context Relevance와 같은 지표가 사용되며, Generation의 품질을 평가하기 위해서는 Groundedness와 Answer Relevance 지표가 사용된다.
구체적으로,
- Retrieval 평가 지표: Context Precision은 시스템이 관련 항목을 얼마나 높은 순위에 배치하는지를 평가하고, Context Recall은 시스템이 관련된 모든 맥락을 얼마나 잘 검색하는지를 측정한다. Context Relevance는 검색된 정보가 user query와 얼마나 일치하는지 평가한다. 이러한 지표들은 retrieval 시스템이 정확한 response를 생성하기 위해 가장 관련있고 complete한 context를 제공하는지 보장하는지 평가한다.
- Generation 평가 지표: Faithfullness와 Answer Relevance는 생성된 응답의 사실적 일관성과, 응답이 원래 질문과 얼마나 관련이 있는지를 평가한다. Faithfulness는 응답의 사실적 정확성에 중점을 두며, 모든 주장들이 주어진 맥락에서 추론될 수 있는지를 확인한다. Answer Relevance는 응답이 원래 질문을 얼마나 잘 다루고 있는지를 평가하며, 불완전하거나 중복된 응답에 대해 페널티를 부여한다. 이런 지표들은 generation component가 맥락적으로 적절하고 의미적으로 관련된 응답을 생성하도록 평가한다.
4개 점수(Context Precicion, Context Recall, Faithfulness, Answer Relevancy)의 조화 평균(harmonic mean)은 RAGAS score라고 불리며, RAG 시스템의 전반적인 성능을 중요한 모든 측면에서 단일 지표로 측정한 것이다.
대부분의 측정은 라벨 데이터가 필요하지 않기 때문에, 테스트 데이터셋을 구축할 필요 없이 수행할 수 있다. RAGAS를 측정하기 위해 필요한 것은 몇 가지 질문과, Context Recall을 사용할 경우 reference answer 뿐이다.

Groundedness = Faithfulness

Improving RAG Systems

RAG 시스템의 성능을 개선하기 위해, 아래 세 가지 구조화된 방법을 고려할 수 있다.
1. Re-ranking Retrieved results: 기본적이면서도 효과적인 방법으로, 초기 검색을 통해 얻어진 결과를 refine 하기 위해 re-ranking 모델을 사용하는 것이 있다. 이 방식은 더 관련성이 높은 결과에 우선순위를 두어, 생성된 결과의 전반적 퀄리티를 향상시킨다. MonoT5, MonoBERT, DuoBERT 등이 re-ranking 모델로 사용될 수 있다.
2. FLARE 기법: re-ranking 이후에는 FLARE를 사용할 수 있다. FLARE는 생성된 content의 일부 구간의 신뢰 수준이 특정 임계값 이하로 떨어질 때마다 인터넷(또는 local knowledge base)를 동적으로 조회한다. 이는 일반 RAG가 knowledge base를 초기에만 조회한 뒤 최종 출력을 생성하는 한계를 극복한다.
3. HyDE 기법: HyDE 기법은 쿼리에 응답하기 위해 가상의 문서를 생성하는 개념을 도입한다. 이 문서는 임베딩 벡터로 변환된 후, vector similarity를 기반으로 corpus 임베딩 공간 내에서 유사한 인접 문서를 식별하는 데 사용된다. 이 방법의 독창성은 벡터를 사용해 유사한 실제 문서를 검색하는 데 있다.

[Python] Streamlit 기본 문법 (text, data, cache, session)

Thu, 08 Aug 2024 06:18:56 GMT

Streamlit?

데이터 과학자와 AI/ML 엔지니어가 단 몇 줄의 코드만으로 동적 데이터 앱을 제공할 수 있는 오픈 소스 Python 프레임워크

복잡한 프론트 코딩 없이 간단/간결하게 페이지 만들어 AI 모델을 서빙할 수 있음
세밀하고 복잡한 UI/UX/디자인 서비스 구현 어려움
사용자 많을 경우 대응 어려움

0. 데이터 출력 write

a = 10
b = 3
st.write('a*b-a = ', a*b-a)

1. Text 다루기

텍스트 Text

st.text('This is text')
st.markdown("This is Markdown text")

마크다운 markdown

st.markdown("This is Markdown text")
#볼드
st.markdown("**This is BOLD Markdown text**")
#이탤릭
st.markdown("*This is ITALIC Markdown text*")
st.markdown("_This is ITALIC Markdown text_")
#볼드&이탤릭
st.markdown("**_This is BOLD & ITALIC Markdown text_**")

페이지 제목 title

st.title('This is title')
st.markdown("# This is Markdown title")

st.header('This is header')
st.markdown("## This is Markdown header")

sub헤더 subheader

st.subheader('This is subheader')
st.markdown("### This is Markdown subheader")

캡션 caption

st.caption('This is caption')
## markdown 사용 불가 - 이미지, 테이블, 차트 캡션 용도로 사용되므로

LaTeX 수식 latex

st.latex(r'''\sqrt[n]{x}''')

코드 스니펫 code

text='''print('hello world!')'''
st.code(text)

글머리 기호(ul, li) by markdown

st.markdown('- 1st \n'
            '  - 2nd \n'         #공백 2칸
            '    - 3rd \n') #공백 4칸

숫자 리스트(ol, li) by markdown

st.markdown('- 1st \n'
            '   - 1st \n'         #공백 3칸
            '      - 1st \n') #공백 6칸

2. 다양한 Data + Media 다루기 (Dataframe, 이미지, 동영상 … )

Dataframe

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [25, 30, 35, 40, 45],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)

'''
# static 방법
st.write("DataFrame using st.write:")
st.write(df)
'''

# 동적 방법
st.write("DataFrame using st.dataframe:")
st.dataframe(df)

오디오 audio

st.audio('audio.mp3')

동영상 video

st.video('video.mp4')

이미지 image

st.image('경로', caption='캡션')

표 table

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [28, 34, 22],
    'Job': ['Engineer', 'Doctor', 'Artist']
}
table = pd.DataFrame(data)

st.table(table)

st.table은 static table을 표시하는 가장 기본적인 방식이라고 한다. 대부분의 동적 테이블은 st.dataframe으로 구현하며, 사용자가 편집하는 dataframe은 st.data_editor을 사용한다.

3. Input 위젯 다루기

버튼 button

st.button("Reset button", type="primary")
if st.button("switch"):
    st.write("change text")
else:
    st.write("reset")

다운로드 버튼 download_button

#dataframe을 csv로 변환하여 다운로드

@st.cache_data     #convert_df 결과를 캐싱하여 나중에도 사용
def convert_df(df):
    return df.to_csv().encode("utf-8")

csv = convert_df(my_large_df)

st.**download_button**(
    label="Download data as CSV",
    data=csv,
    file_name="large_df.csv",
    mime="text/csv",
)

링크 page_link

st.page_link("app.py", label="Home", icon="🏠")

입력 폼 form

양식 제출 버튼 form_submit_button

with st.form(key='form 식별 값'):
    st.write("모든 input field를 채우세요")

    checkbox_val = st.checkbox('checkbox 입니다')
    toggle_val = st.toggle('toggle 입니다')
    radio_val = st.radio('radio 입니다:', ['Option 1', 'Option 2', 'Option 3'])
    selectbox_val = st.selectbox('selectbox 입니다', ['Red', 'Green', 'Blue'])
    text_input_val = st.text_input('text input 입니다')

    # Submit button
    submit_button = st.form_submit_button(label='제출')

#input field 검증
if submit_button:
    if checkbox_val and toggle_val and radio_val and selectbox_val and text_input_val:
        st.success('제출되었습니다')
    else:
        st.error('모든 field를 채우세요')

★☆채팅 입력 받기☆★ chat_input, chat_massage

prompt = st.chat_input("메시지를 입력하세요.") #placeholder
if prompt:
    with st.chat_message("user"): #사용자 메시지 컨테이너
        st.write(prompt)
    with st.chat_message("ai", avatar="🤖"): #인공지능 메시지 컨테이너
        st.write("이것은 인공지능 응답입니다.")

채팅 관련 3rd-party component

Streamlit Chat: https://github.com/AI-Yash/st-chat

pip install streamlit-chat 

from streamlit_chat import message

message("My message") 
message("Hello bot!", is_user=True)  # align's the message to the right

input_text = st.text_input("You: ","Hello, how are you?", key="input")

4. 캐싱, 세션 관리

데이터 캐싱 cache_data

데이터 한 번 로딩되면 그 데이터는 캐싱해서 빠르게 로드 가능

@st.cache_data
def load_data():
    time.sleep(5)  # 5초 딜레이
    data = pd.DataFrame({
        'col1': range(1000),
        'col2': range(1000, 2000)
    })
    return data

data = load_data()

st.write(data)

리소스 캐싱 cache_resource

AI 모델, DB 등의 리소스(반환 결과 등)를 효율적으로 사용하여 응답 시간 단축, 성능 최적화

#사이킷런 캘리포니아 집 값 예측 모델 학습 예제
def load_data():
    california = fetch_california_housing()
    X = pd.DataFrame(california.data, columns=california.feature_names)
    y = pd.Series(california.target, name='target')
    return X, y

@st.cache_resource
def train_model(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    return model, mse

def main():
    st.title("California Housing Price")

    X, y = load_data()

    model, mse = train_model(X, y)
    st.write(f"Train MSE: {mse:.2f}")

    st.header("Input Features")
    MedInc = st.number_input("MedInc", float(X['MedInc'].min()), float(X['MedInc'].max()), float(X['MedInc'].mean()))
    HouseAge = st.number_input("HouseAge", float(X['HouseAge'].min()), float(X['HouseAge'].max()), float(X['HouseAge'].mean()))
    AveRooms = st.number_input("AveRooms", float(X['AveRooms'].min()), float(X['AveRooms'].max()), float(X['AveRooms'].mean()))
    AveBedrms = st.number_input("AveBedrms", float(X['AveBedrms'].min()), float(X['AveBedrms'].max()), float(X['AveBedrms'].mean()))
    Population = st.number_input("Population", float(X['Population'].min()), float(X['Population'].max()), float(X['Population'].mean()))
    AveOccup = st.number_input("AveOccup", float(X['AveOccup'].min()), float(X['AveOccup'].max()), float(X['AveOccup'].mean()))
    Latitude = st.number_input("Latitude", float(X['Latitude'].min()), float(X['Latitude'].max()), float(X['Latitude'].mean()))
    Longitude = st.number_input("Longitude", float(X['Longitude'].min()), float(X['Longitude'].max()), float(X['Longitude'].mean()))

    input_data = pd.DataFrame({
        'MedInc': [MedInc],
        'HouseAge': [HouseAge],
        'AveRooms': [AveRooms],
        'AveBedrms': [AveBedrms],
        'Population': [Population],
        'AveOccup': [AveOccup],
        'Latitude': [Latitude],
        'Longitude': [Longitude]
    })

    st.write("Input Features")
    st.write(input_data)

    if st.button("Predict"):
        prediction = model.predict(input_data)
        st.write(f"Predicted House Price: ${prediction[0]*100000:.2f}")

if __name__ == "__main__":
    main()

세션 관리 session_state

사용자 입력이나 데이터가 새로고침 후에도 유지되도록 세션 관리

def load_data():
    california = fetch_california_housing()
    X = pd.DataFrame(california.data, columns=california.feature_names)
    y = pd.Series(california.target, name='target')
    return X, y

@st.cache_resource
def train_model(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    return model, mse

def main():
    # 세션 초기화
    if 'page_refresh_count' not in st.session_state:
        st.session_state.page_refresh_count = 0
    if 'predict_attempt_count' not in st.session_state:
        st.session_state.predict_attempt_count = 0

    st.session_state.page_refresh_count += 1

    st.title("California Housing Price")


    X, y = load_data()

    model, mse = train_model(X, y)
    st.write(f"Train MSE: {mse:.2f}")

    st.header("Input Features")
    MedInc = st.number_input("MedInc", float(X['MedInc'].min()), float(X['MedInc'].max()), float(X['MedInc'].mean()))
    HouseAge = st.number_input("HouseAge", float(X['HouseAge'].min()), float(X['HouseAge'].max()), float(X['HouseAge'].mean()))
    AveRooms = st.number_input("AveRooms", float(X['AveRooms'].min()), float(X['AveRooms'].max()), float(X['AveRooms'].mean()))
    AveBedrms = st.number_input("AveBedrms", float(X['AveBedrms'].min()), float(X['AveBedrms'].max()), float(X['AveBedrms'].mean()))
    Population = st.number_input("Population", float(X['Population'].min()), float(X['Population'].max()), float(X['Population'].mean()))
    AveOccup = st.number_input("AveOccup", float(X['AveOccup'].min()), float(X['AveOccup'].max()), float(X['AveOccup'].mean()))
    Latitude = st.number_input("Latitude", float(X['Latitude'].min()), float(X['Latitude'].max()), float(X['Latitude'].mean()))
    Longitude = st.number_input("Longitude", float(X['Longitude'].min()), float(X['Longitude'].max()), float(X['Longitude'].mean()))

    input_data = pd.DataFrame({
        'MedInc': [MedInc],
        'HouseAge': [HouseAge],
        'AveRooms': [AveRooms],
        'AveBedrms': [AveBedrms],
        'Population': [Population],
        'AveOccup': [AveOccup],
        'Latitude': [Latitude],
        'Longitude': [Longitude]
    })

    st.write("Input Features")
    st.write(input_data)

    if st.button("Predict"):
        st.session_state.predict_attempt_count += 1
        prediction = model.predict(input_data)
        st.write(f"Predicted House Price: ${prediction[0]*100000:.2f}")
        st.write(f"Predict Attempt Count: {st.session_state.predict_attempt_count}")

    st.write(f"Page Refresh Count: {st.session_state.page_refresh_count}")

if __name__ == "__main__":
    main()

[논문 리뷰] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (2020)

Tue, 28 May 2024 09:28:31 GMT

논문 링크

From ICML, 2020

1. Introduction

Text summarization은 입력 문서에서 정확하고 간결한 요약을 만드는 것을 목표로 하며, 추출 요약과 생성 요약으로 나뉜다.
- 생성 요약 분야에서는 RNN기반의 seq2seq 아키텍처가 주를 이뤘으며, 최근 Transformer가 등장했다.
- 더 최근에는, 넓은 분야와 고품질, 긴 길이, 많은 양의 문서, 다양한 도메인의 데이터셋을 지도학습으로 학습시켜 좋은 성능을 이끌어내는 연구가 늘어나고 있다.
- 그러나 이런 광범위한 설정의 모델들을 체계적으로 평가하는 작업은 거의 없었다.
본 연구(PEGASUS)는 생성 요약에 대한 pre-training 기법을 연구하고, 12가지 데이터셋에 대해 평가한다.
- PEGASUS는 문서에서 특정 문장 전체를 마스킹한 후 해당 문장(gap-sentences)들을 모델이 생성하게 하는 것이 요약 task에 효과적임을 발견함. → Gap-Sentences Generation (GSG)
- Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models → PEGASUS
12개 데이터셋에서 모두 SOTA와 비슷하거나 능가하는 성능을 보였다.
- 큰 규모의 데이터셋은 구하기 힘들고, 실험 결과와 실생활에서의 결과가 다른 경우가 많다.
  - 그래서 적은 양의 데이터로도 쉽게 fine-tuning이 되는지 실험했다.
  - 6개의 데이터셋에서는 1000개의 데이터셋만으로도 SOTA를 달성했다.

생략(MASS, UniLM, T5, BART)
PEGASUS는 위 모델들과 다르게 문장을 통으로 마스킹하며, 마스킹할 대상을 랜덤으로 고르지 않고 중요한 문장을 골랐다는 내용.
PEGASUS의 output은 문서 전체가 아닌 masked sentences만.

3. Pre-training Objectives

3.1 Gap Sentences Generation (GSG)

우리는 Pre-training objective가 downstream task와 닮을수록 빠르고 좋은 fine-tuning 성능을 보인다고 가정한다.
GSG 학습은 다음과 같이 진행된다.
- 문서에서 마스킹할 전체 문장을 선택하고,
- 선택한 문장을 concatenate하여 pseudo-summary를 만들고,
- gap sentence 위치에 [MASK1]을 치환한다.
Gap Sentences 고르는 방식
- Random : 랜덤으로 m문장 선택
- Lead : 첫번째 m문장 선택
- Principal : ROUGE1-F1 점수가 가장 높은 m개의 문장 선택
  - Ind (Independently): 각 문장을 독립적으로 점수 매김
  - Seq (Sequentially): 문장을 순서대로 평가하여 점수 매김
  - Uniq (Unique): n-gram을 세트로 간주하여 점수를 매김 (동일한 n-gram 중복 count X)
  - Orig (Original): 동일한 n-gram 중복 count 하여 점수 매김

3.2 Masked Language Model (MLM)

BERT와 같이, 15%의 토큰을 input으로 사용하고, 그 중 80%는 [MASK2] 토큰으로, 10%는 random, 10%는 unchanged
Fig. 1 은 GSG와 MLM이 둘다 적용된 예시를 보여준다.
- 그러나 MLM이 downstream tasks에서는 효과가 없었기 때문에 final model에는 포함하지 않았다.

4. Pre-training Corpus

C4 (Colossal and Cleaned version of Common Crawl)
- 750GB의 웹 크롤링 데이터
HugeNews
- 1.5B개의 기사 (3.8TB)
- only main article text

5. Downstream Tasks/Datasets

XSum
CNN/Dailymail
NEWSROOM
Multi-News
Gigaword
arXiv,PubMed
BIGPATENT
WikiHow
Reddit TIFU
AESLC
BillSum

6. Experiments

PEGASUS_base
- 인코더&디코더 Layer 수(L): 12
- Hidden Size(H): 768
- Feed-Forward Layer Size(F): 3072
- Self-attention Heads 수(A): 12
PEGASUS_large
- 인코더&디코더 Layer 수(L): 16
- Hidden Size(H): 1024
- Feed-Forward Layer Size(F): 4096
- Self-attention Heads 수(A): 16
Positional Encoding (Transformer의 그것과 같음)
Optimizer: Adafactor (pre-training과 fine-tuning 모두)
Square root learning rate decay
Dropout rate: 0.1
##Pre-train되지 않은 PEGASUS_base를 Transformer_base와 동일하게 부른다.##

6.1 Ablations on PEGASUS_base

6.1.1 Pre-training Corpus

Fig. 3 : C4를 1.00으로 기준으로 하여 각 데이터셋에 대해 HugeNews의 성능을 일반화한 결과
- HugeNews는 news 데이터셋에서 더 높은 성능, C4는 news가 아닌 informal 데이터셋에서 더 높은 성능
- → pre-train 모델은 domain이 aligned 되어 있을 때 transfer가 더 잘 수행된다.

6.1.2 Effect of Pre-training Objectives

30%의 Gap sentences를 고르는데 사용되는 GSG의 6가지 기법(Lead, Random, Ind-Orig, Ind-Uniq, Seq-Orig, Seq-Uniq)의 성능을 비교했다.
- Fig. 4(a)에 나타난 것처럼, Ind-Orig 가 가장 좋은 성능을 보인다.
- GSR(Gap Sentence Ratio)는 0.5 이하일 때 가장 높은 성능
- MLM 사용 시 초기 pre-training checkpoint(100k-200k steps)에서는 성능 이득을 보이지만, 500k 이후부터는 이득을 억제한다.
  - 따라서 MLM 사용 x
- → PEGASUS_large는 GSG 기법은 Ind-Orig, GSR은 30%, MLM 적용 X

6.1. Effect of Vocabulary

Byte-pair-encoding algorithm(BPE)과 SentencePiece Unigram algorithm(Unigram)의 두 tokenizer에 대해 성능을 비교함
- 비교 조건: PEGASUS_base 모델에 C4로 500k step으로 pre-train, 15% GSR + Ind-Orig

News 데이터셋에서는 BPE와 Unigram 성능이 유사, Non-news에서는 Unigram이 더 좋은 성능 보임
- WikiHow는 Unigram 128k, Reddit TIFU는 64k일 때 가장 좋은 성능
→ PEGASUS_large에는 Unigram 96k 선택

6.2 Larger Model Results

Abstractive dataset 뿐만 아니라 Extractive dataset을 타겟으로 한 성능 향상도 중요하므로, 20%의 선택된 문장은 [MASK1]으로 치환하던 것에서 unchanged로 방식을 변경했다.
- GSR의 20%는 unchanged, 80%는 GSG

PEGASUS_base는 많은 데이터셋에서 SOTA를 넘어섰으며, PEGASUS_large는 모든 데이터셋에서 SOTA를 넘어섰다.
Transformer_base에서 PEGASUS_large로 발전할 때 소규모 데이터셋에서의 성능 향상은 특히 큰 편이다.
- ROUGE2-F1 score가 AESLC은 거의 3배, Reddit TIFU는 5배가 됨.
- → 소규모 텍스트 요약이 pre-training에 가장 이득을 본다.

6.3 Zero and Low-Resource Summarization

적은 양의 데이터셋에 대한 fine-tuning 성능을 확인하기 위해 0, 1k, 10k, 100k 개에 대한 Rouge1,2,L-F1 score를 측정한다.

12개 중 8개의 데이터셋에서, 단 100개의 example만으로도 PEGASUS_large는 Transformer_base의 성능을 앞질렀다.
12개 중 6개의 데이터셋에서, 1000개의 example로 기존 SOTA 성능을 추월했다.

6.4 Qualitative Observations and Human Evaluation

PEGASUS가 생성한 요약문이 Human evaluation과 얼마나 차이나는지 비교한다.

이를 위해 Amazon Mechanical Turk에 돈을 주고 요약문(model summaries, reference summaries)에 대한 evaluation을 의뢰했다.
- 3가지 데이터셋에 대한 평가이며, 1~5점으로 이루어져있다.
Table 3를 보면, Reddit TIFU를 제외한 데이터셋에서는 PEGASUS 모델이 만든 summary가 인간이 만든 summary보다 나쁘지 않은 편임을 알 수 있다.

6.5 Test-set Overlap with Pre-training Corpus

Pre-training에 사용된 corpus 데이터와, downstream 데이터셋들 간에 데이터 중복 정도를 측정하고, pre-trained 모델이 중복 정보에 대한 기억력을 활용할 수 있는지 연구했다.
(생략)
XSum에서만 15%~20% 사이의 상당한 중복이 있었고, 이러한 example을 필터링해도 ROUGE score가 1%이상 변하지 않음
모델은 중복 정보에 대한 기억 사용은 없는 것으로 나타났다.

6.6 Additional PEGASUS_large Improvements

(생략)

7. Conclusion

PEGASUS는 abstractive summarization을 위해 최적화된 pre-training objective인 Gap-Sentences Generation을 제안했다.
GSG를 위한 여러 방안을 제안했고, 최적의 방식을 선택했다.
이를 통해 12개의 데이터셋에서 SOTA를 달성했다.
또한 unseen data에도 빠르게 적응하여, 1000개의 example만으로도 강력한 성능을 보임을 확인했다.
마지막으로 human evaluation을 통해 여러 데이터셋에서 인간 성능에 준하는 성능을 달성했음을 보였다.

[논문 리뷰] ROUGE: A Package for Automatic Evaluation of Summaries (2004)

Sun, 14 Jan 2024 03:26:44 GMT

논문 링크

From ACL, 2004

사전 지식

ROUGE에서 Recall과 Precision

y : 모델이 만든 요약문

y’ : 사람이 만든 정답 요약

Recall
- 정답 요약문의 단어 중 모델이 생성한 요약문에서 나타난 단어의 개수의 비율
  
  $$ ROUGE_{recall}= \frac{Number:Of:Overlapped:Words}{Total:Words:In:Reference:Summary} =\frac{y∩{y}'}{y} $$
  
  Precision
- 모델이 생성한 요약문 중 정답 요약문과 얼마나 많은 단어가 겹치는지의 비율
  
  $$ ROUGE_{precision}= \frac{Number:Of:Overlapped:Words}{Total:Words:In:System:Summary} =\frac{y∩{y}'}{{y}'} $$

0. Abstract

ROUGE = Recall-Oriented Understudy for Gisting Evaluation
모델이 생성한 요약(후보 요약)과 인간이 만든 이상적인 요약(참조 요약)을 비교하는 자동화된 방법을 포함한다.
- (추출 요약, 생성 요약할 때 생성 요약 아님)
- (모델의 출력물로 나온 요약문이라는 뜻)
생성된 요약과 라벨 요약 사이에 중복되는 단위(n-gram, 단어 시퀀스, 단어 쌍 등)의 수를 세는 것
그래서 4가지 다른 지표인 ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S를 소개한다.

1. Introduction

요약문에 대한 evaluation을 수행하는 것은 ‘일관성, 간결성, 문법 정확성, 가독성, 내용’ 등 여러 지표를 평가해야 한다.
간단한 지표에 대한 수동 평가조차도 수 천 시간 이상의 human resource가 필요하므로 자주 수행되기 어렵다.
- 따라서 자동화된 요약 평가 방법이 필요하다.
코사인 유사도, n-gram, 최대 공통 부분열 등을 기반으로 한 평가 방법이 제시되었지만, 이러한 방식이 인간 판단과 어떤 상관 관계가 있는지는 보여주지 않았다.
우리는 2장부터 5장까지 n-gram과 최대 공통 부분열 등을 통한 여러가지 ROUGE 지표들을 제안하며, 6장에서는 이러한 지표들이 인간 판단과 어떤 상관 관계가 있는지를 보여준다.

2. ROUGE-N: N-gram Co-Occurrence Statistics

ROUGE-N은 후보 요약과 참조 요약 사이의 n-gram Recall이며, 아래와 같이 계산된다.

$$ ROUGE-N=\frac{∑{S∈{ReferenceSummaries}}∑{gram_n∈S}Count_{match}(gram_n)}{∑{S∈{ReferenceSummaries}}∑{gram_n∈S}Count(gram_n)} $$

n은 n-gram의 길이를 나타내며, Count_match(gram_n)은 후보 요약과 참조 요약 집합에서 겹치는 n-gram의 최대 수이다.
BLEU는 기계 번역의 자동 평가에서 사용되는 지표로, precision 기반의 척도이다.
분모에 있는 n-gram의 수는 더 많은 참조 요약을 사용함에 따라 증가한다.
- 여러 좋은 요약이 존재할 수 있으므로 직관적이고 합리적이다.
분자는 모든 참조 요약에 걸쳐 합산된다.
- 여러 참조 요약에서 일치하는 n-gram에는 더 많은 가중치가 부여된다.

2.1 Multiple References

한번에 여러 개의 참조 요약이 사용될 때, 후보 요약 s와 참조 집합의 각 참조 요약 r_i 간의 쌍 별로 ROUGE-N을 구한 뒤 최종적으로는 최대값을 사용한다:

$$ ROUGE-N_{multi}=argmax_iROUGE-N(r_i,s) $$

위 방식의 구현을 위해서는 잭나이프 절차를 사용한다.
- M개의 참조 요약이 주어지면, M-1개의 참조 요약 집합에 대해 ROUGE-N 점수를 계산한다.
- 이를 모든 M개의 참조 요약마다 반복하여 총 M개의 ROUGE-N 점수를 얻는다.
- M개의 점수를 평균하여 최종 ROUGE-N 점수를 얻는다.

3. ROUGE-L: Longest Common Subsequence

Longest Common Subsequence(LCS): 최장 공통 부분열, 두 문자열에서 최대 길이를 가진 공통 부분 수열

3.1 Sentence-Level LCS

→ 요약 문장 하나하나를 각각의 단위로 보고 ROUGE 점수를 계산

요약 문장을 단어의 연속으로 간주한다.
- 직관적으로, 두 요약문의 LCS가 길수록 두 요약은 더 유사하다.
참조 요약 X (길이 m)와 후보 요약 Y (길이 n) 사이의 유사성을 계산하기 위해 LCS 기반 F1 score를 사용하는 것을 제안한다.

$$ R_{{lcs}} = \frac{{LCS}(X,Y)}{m} \P_{{lcs}} = \frac{{LCS}(X,Y)}{n} \F_{{lcs}} = \frac{(1+\beta^2)R_{{lcs}} P_{{lcs}}}{R_{{lcs}} + \beta^2 P_{{lcs}}} $$

LCS(X,Y) : X,Y의 LCS 길이
ß : Precision / Recall , F1-score는 Recall과 Precision에 대해 동일한 민감도로 변함
- ß가 크면 Precision가 더 중요하게 고려되고, ß가 작으면 Recall이 더 중요하게 고려
F_lcs 측정값을 ROUGE-L 지표로 사용
- X = Y 일 경우 1, LCS(X,Y) = 0 일 경우 0
LCS를 사용하는 장점 중 하나는 단순히 연속적인 일치가 아니라 문장 수준의 어순을 n-gram으로 반영하는 시퀀스 단위의 일치를 요구한다는 것이다.
또 다른 장점은 가장 긴 순서대로 common n-gram을 포함한다는 것으로, 미리 정해진 n-gram의 길이가 필요하지 않다는 것이다.
예시) ROUGE-2와의 비교

S1. police killed the gunman → Reference Summary **S2. police kill the gunman → Candidate Sentence 1 S3. the gunman kill police → Candidate Sentence 2 S4. the gunman police killed → Candidate Sentence 3

S2와 S3는 같은 ROUGE-2 점수를 갖는다 (하나의 bi-gram(the gunman)만을 가지므로)
- 하지만 S2와 S3의 ROUGE-L은 다르다.
  - S2=3/4=0.75, S3=2/4=0.5
- 이는 ROUGE-L이 문장 수준에서 신뢰 가능한 지표임을 보여준다.
하지만 LCS는 하나의 시퀀스 단위만을 센다. 따라서 다른 LCS들은 최종 점수에 반영되지 못한다.
- 예를 들어, S4에서는 “the gunman” 또는 “police killed”를 세지만 둘 다는 아니다. 따라서 S3와 S4는 동일한 ROUGE-L 점수를 갖는다.

3.2 Summary-Level LCS

→ 전체 요약문장을 하나의 단위로 보고 ROUGE 점수를 계산

총 m개의 단어를 포함하는 u개의 문장으로 구성된 참조 요약과, 총 n개의 단어를 포함하는 v개의 문장으로 구성된 후보 요약

$$ R_{{lcs}} = \frac{\sum_{i=1}^{u} {LCS}\cup(r_i, C)}{m} \P_{{lcs}} = \frac{\sum_{i=1}^{u} {LCS}\cup(r_i, C)}{n} \F_{{lcs}} = \frac{(1+\beta^2)R_{{lcs}} P_{{lcs}}}{R_{{lcs}} + \beta^2 P_{{lcs}}} $$

r_i = {w1 w2 w3 w4 w5}이고, C가 c1 = {w1 w2 w6 w7 w8}과 c2 = {w1 w3 w8 w9 w5}로 이루어지면?
- r_i와 c1의 LCS는 “w1 w2”이고 r_i와 c2의 LCS는 “w1 w3 w5”
- r_i, (c1+c2)의 LCS는 “w1 w2 w3 w5” → LCS(r_i, C)는 4/5

3.3 ROUGE-L vs. Normalized Pairwise LCS

2002년 제안된 Normalized Pairwise LCS와의 차이점
Normalized Pairwise LCS는 각 후보 요약들의 LCS들을 모두 찾아서 LCS의 최대 길이를 사용한다. (최대값)
하지만 ROUGE-L은 후보 요약 전체를 결합한 단위에서의 LCS를 찾아서 사용한다. (결합값)
따라서 ROUGE-L은 요약 전체의 맥락을 고려해서 유사성을 평가할 수 있고, Normalized Pairwise LCS는 개별 문장 간의 유사성을 평가할 수 있다.

$$ \frac{ \sum_{s_i \in S_1} \max_{s_j \in S_2} {LCS}(s_i, s_j) + \sum_{s_j \in S_2} \max_{s_i \in S_1} {LCS}(s_i, s_j)}{ \sum_{s_i \in S_1} {length}(s_i) + \sum_{s_j \in S_2} {length}(s_j)} \\frac{ 2* \sum_{s_i \in S_1} \max_{s_j \in S_2} {LCS}(s_i, s_j)}{ m + n} \R_{{lcs-MEAD}} = \frac{ \sum_{s_i \in S_1} \max_{s_j \in S_2} {LCS}(s_i, s_j)}{ m} \P_{{lcs-MEAD}} = \frac{ \sum_{s_i \in S_1} \max_{s_j \in S_2} {lcs}(s_i, s_j)}{ n} $$

4. ROUGE-W: Weighted Longest Common Subsequence

LCS는 좋은 특성을 갖지만, basic LCS는 서로 다른 공간적 관계를 갖는 시퀀스를 구분하지 못한다:

X: [A B C D E F G] Y1: [A B C D H I K] Y2: [A H B K C I D]

Y1과 Y2는 같은 ROUGE-L 점수를 갖는다.
- 하지만 Y1은 연속적인 LCS를 갖는데, Y3보다 더 높은 점수를 가져야 하지 않겠는가?
지금까지 만난 연속적인 일치의 길이를 기억하도록 Dynamic Programming table을 만들 수 있다.
- 이를 가중치가 있는 LCS(WLCS)라고 하고, k를 연속적인 길이로 사용한다.
- 두 문장 X, Y에 대한 WLCS 점수는 아래와 같은 Dynamic Programming 수도 코드로 나타낼 수 있다.

(1) For (i = 0; i <=m; i++)
         c(i,j) = 0 // initialize c-table
         w(i,j) = 0 // initialize w-table
(2) For (i = 1; i <= m; i++)
         For (j = 1; j <= n; j++)
             If xi = yj Then
                 // the length of consecutive matches at
                 // position i-1 and j-1
                 k = w(i-1,j-1)
                 c(i,j) = c(i-1,j-1) + f(k+1) – f(k)
                 // remember the length of consecutive
                 // matches at position i, j
                 w(i,j) = k+1
             Otherwise
                 If c(i-1,j) > c(i,j-1) Then
                     c(i,j) = c(i-1,j)
                     w(i,j) = 0 // no match at i, j
                 Else c(i,j) = c(i,j-1)
                     w(i,j) = 0 // no match at i, j
(3) WLCS(X,Y) = c(m,n)

w 테이블 안에 연속적인 일치의 길이를 저장하고, 가중치 함수인 f 함수를 통해 c 테이블 안에 가중치 값(WLCS 점수)을 저장한다.
가중치 함수 f는 연속적인 일치에 더 많은 점수를 부여하도록 설계
- ex) n-gram 시퀀스가 끊길 때마다 페널티 부여하는 함수
WLCS를 기반으로 한 Recall, Precision, F1 score는 아래와 같이 계산된다.
- (f(가중치 함수)의 역함수 사용 이유)
  - 가중치가 적용되어 있는 LCS 점수를 기존 길이 비율로 정규화하기 위함

$$ R_{wlcs} = f^{-1}\left(\frac{WLCS(X,Y)}{f(m)}\right) \P_{wlcs} = f^{-1}\left(\frac{WLCS(X,Y)}{f(n)}\right) \F_{wlcs} = \frac{(1+\beta^2)R_{wlcs} P_{wlcs}}{R_{wlcs} + \beta^2 P_{wlcs}} $$

5. ROUGE-S: Skip-Bigram Co-Occurrence Statistics

Skip-Bigram은 문장 내에 단어 쌍을 간격을 허용하면서 순서대로 나타내는 것이다.
Skip-Bigram Co-Occurrence Statistics은 후보 번역과 참조 번역 사이의 skip-bigram 중복도를 측정한다.

S1. police killed the gunman → Reference Summary **S2. police kill the gunman → Candidate Sentence 1 S3. the gunman kill police → Candidate Sentence 2 S4. the gunman police killed → Candidate Sentence 3

각 문장은 4C2 = 6개의 skip-bigram을 갖는다.
- ex) S1 = (“police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”)
S2와 S1은 3개가 일치하며, S3는 1개의 일치, S4는 2개가 일치한다.
길이가 m인 문장 X와 길이가 n인 문장 Y가 주어질 때, skip-bigram 기반의 F1-score는 아래와 같이 계산한다.

$$ R_{{skip2}} = \frac{{SKIP2}(X,Y)}{C(m,2)} \P_{{skip2}} = \frac{{SKIP2}(X,Y)}{C(n,2)} \F_{{skip2}} = \frac{(1+\beta^2)R_{{skip2}} P_{{skip2}}}{R_{{skip2}} + \beta^2 P_{{skip2}}} $$

SKIP2(X,Y)는 X와 Y 사이의 skip-bigram 일치 수를 의미한다.
S1을 참조 요약으로 할 때, ROUGE-S 점수는
- S2: 0.5, S3: 0.167, S4: 0.333
- ROUGE-L 보다 더 직관적이다.
단어 사이의 거리를 두는 skip-bigram의 장점
- 연속적인 일치를 요구하지 않으면서도 단어 순서에 민감하다는 것
- 단어 사이 거리 제한을 두지 않는다면?
  - ‘the the’나 ‘of in’ 같은 부적절한 일치도 유효하게 계산될 수 있다.
  - d_skip 파라미터로 스킵 거리 조절

5.1 ROUGE-SU: Extension of ROUGE-S

ROUGE-S의 잠재적인 문제는, 후보 문장이 참조 문장과 일치하는 단어 쌍이 없을 경우에는 점수를 주지 않는다는 것이다.
예를 들어, 아래 S5는 ROUGE-S 점수가 0이다:

S5. gunman the killed police

S5는 S1의 정확한 역순이며, 이들 사이에는 skip-bigram 일치가 없다.
- 하지만 이들을 구분할 필요가 있다.
따라서 bigram 단위가 아닌 unigram 단위로 세는 ROUGE-SU를 추가했다.

6. Evaluations of ROUGE

인간 요약과의 비교를 위해 DUC 2001, 2002, 2003 데이터를 사용했으며, 이 데이터에는 다음과 같은 인간 판단이 포함되어 있다.
- 약 100 단어에 대한 단일 문서 요약
- 약 10 단어에 대한 매우 짧은 단일 문서 요약
- 약 10 단어에 대한 다중 문서 요약
ROUGE score와 인간 요약 사이의 상관 관계를 분석하기 위해, 즉 ROUGE가 인간의 판단을 얼마나 잘 반영하는지 보기 위해서
- 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수를 계산했다.
  - 공간의 한계로 논문에는 피어슨 상관계수 결과만 싣는데, 나머지도 피어슨과 밀접하다.
- 요약문을 기존 버전(CASE 세트), 어간 추출 버전(STEM 세트), 불용어 제거 버전(STOP 세트)로 나누어 준비해 각각의 영향을 관찰했다.

표1 은 DUC 2001, 2003의 100단어 단일 문서 요약에 대한 17 종류의 ROUGE 지표와 인간 판단과의 피어슨 상관계수를 나타낸다.
- 녹색은 최고값을 나타내며, 통계적으로 유사한 값들은 회색으로 표시되었다.
- 어간 제거나 불용어 제거가 상관관계에 영향을 미치지 않았으며,
- ROUGE-2가 ROUGE-N 변형 중에서는 가장 성능이 좋으며,
- ROUGE-L,W,S 모두 잘 수행되며,
- 다중 참조를 수행하면 성능이 향상되지만 큰 향상은 아니다.

표2 는 DUC 2003의 단일 문서의 매우 짧은 요약에 대한 상관관계 분석 결과이다.
- N > 1인 ROUGE-N은 결과가 현저히 떨어진다.
- 불용어 제거는 일반적으로는 성능을 향상시키지만 ROUGE-1은 아니다.
- 이 데이터는 샘플이 많기 때문에 다중 참조가 상관관계를 향상시키지 않았다.

표3 A1,A2,A3은 DUC 2001, 2002, 2003의 100단어 다중 문서 요약에 대한 상관관계 분석 결과이다.
- 요약하면, 다중 참조를 사용하고, 불용어를 제거하는 것이 일반적으로 성능을 향상시킨다.
표3 C, D1,D2,E1,E2,F는 나머지 DUC 데이터에 대해 다중 참조를 사용한 것에 대한 상관관계 분석 결과이다.
- 불용어 제거가 특히 50단어 이상의 다중 문서 요약에서 성능을 향상시킨다는 것 보임.
  - 200단어, 400단어 요약에서는 더 나은 상관 관계(>0.70)

7. Conclusions

ROUGE 지표를 제안했으며, 3개년의 DUC 데이터를 사용해 ROUGE에 대한 평가를 수행했다.
우리는 이러한 사실들을 알아냈다.
- (1) ROUGE-2, ROUGE-L, ROUGE-W, ROUGE-S가 단일 문서 요약 작업에서 잘 동작하며,
- (2) ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4, ROUGE-SU9가 매우 짧은 요약(또는 헤드라인 같은 요약)을 평가하는 데 효과적이고,
- (3) 다중 문서 요약 작업에서 높은 상관 관계를 달성하기는 어려웠지만, 불용어를 제거하면, ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, ROUGE-SU9가 효과적으로 동작했다.
- (4) 불용어를 제외하는 것은 일반적으로 상관관계를 향상시켰으며,
- (5) 다중 참조를 사용함으로써 인간 판단과의 상관관계가 증가했다.
요약하면, ROUGE는 요약의 자동 평가에 효과적으로 사용될 수 있음을 보여준다.
그러나 ROUGE가 단일 문서 요약 작업에서 효과적인 것처럼 다중 문서 요약 작업에서도 인간의 판단과 높은 상관 관계를 달성하도록 하는 것은 향후 연구로 진행되어야 하는 주제다.

[논문 리뷰] Improving Language Understanding by Generative Pre-Training (GPT-1) (2018)

Thu, 04 Jan 2024 06:57:36 GMT

논문 링크

From OpenAI Research, June 2018

0. Abstract

NLU(자연어 이해: NLP의 하위 집합)는 Textual Entailment(의미적 포함관계 판단), QA, 문서 분류, 의미 유사성 평가 등 광범위한 작업들로 구성된다.
이러한 작업들에서 unlabelled된 데이터는 풍부하지만 labelled된 데이터는 부족하므로, Discriminative(분류) task에 특화된 모델은 적절한 성능을 보여주기 힘들다.
따라서 우리는 unlabelled된 방대한 텍스트에 대해 generative하게 pre-train한 다음, 각 다운 스트림 작업에 대해 discriminative 하게 fine-tuning 함으로써 각 작업들에 대해 큰 성능 이득을 볼 수 있음을 보여준다.
(각 작업마다로의) 모델 변경을 최소화하기 위해 fine-tuning 중에 Task-aware input transformation을 사용
- 각 작업에 맞게 input structure를 변환하는 방식
NLU의 여러 벤치마크에서 우리가 제안하는 방식의 효율성을 검증한다.
- 일반 GPT모델(특정 작업에 fine-tuned되지 않은)이 다른 fine-tuned된 discriminative 모델들보다 더 성능이 좋다.
- 실험한 12개 task 중 9개 작업에서 SOTA 달성

1. Introduction

Raw Text로부터 효과적으로 학습하는 것은 지도 학습에 대한 의존도를 낮추기 위해 매우 중요하다.
많은 딥러닝 방법에서는 labelled 데이터가 필요하므로, 데이터가 부족한 분야에서의 적용이 제한된다.
- 따라서 labelled되지 않은 언어 데이터를 사용할 수 있는 모델은 좋은 대안이 된다.
  - 라벨을 다는데 필요한 시간, 비용이 들지 않으므로
또한, 지도 학습이 가능한 많은 경우들에도 비지도 학습으로 좋은 표현(representations)을 학습할 경우 많은 성능 향상을 이룰 수 있다.
- 가장 강력한 증거) NLP 작업들의 성능을 높이기 위해서 1) 비지도 데이터셋을 사전학습한 뒤, 2) 구체적인 지도학습 NLP 작업에 다시 적용되는 방식으로 사용됨
그러나 라벨이 없는 데이터에서 단어 수준 이상의 정보를 활용하는 것은 두 가지 이유로 어려움
- 1) 전이 학습에 유용한 최적화(optimization) 목적이 무엇인지 불분명하다.
  - 최근 연구들은 다양한 최적화 목적들(언어 모델링, 기계 번역, 담화 일관성(discourse coherence) 등)에서 서로의 모델이 각 작업에서 다른 모델보다 성능이 뛰어나다.
- 2) 이러한 학습된 표현을 target task로 전이(transfer)하는 가장 효과적인 방법이 무엇인가에 대한 합의(consensus)가 없다.
이런 불확실성은 자연어처리를 위한 준지도(semi-supervised) 접근법을 개발하는 것을 어렵게 한다.
이 논문은 Language Understanding tasks에 대해, 비지도 학습 방식과 fine-tuning 지도학습 방식을 결합한 준지도 학습 방식을 연구한다.
- 많은 작업들에 대해서 모델의 큰 수정없이 전이학습이 가능한 universal한 representation을 만드는 것이 목표이다.
제안하는 모델은 2단계의 학습 절차를 사용한다.
- 1) 네트워크의 초기 파라미터를 학습하기 위해 unlabelled data를 language modeling optimization을 사용하여 학습
- 2) 이후, 학습된 파라미터를 supervised한 대상 작업에 적용한다.
모델의 아키텍처는 Transformer를 기반으로 한다.
- Transformer는 장기 종속성을 처리하기 위한 구조를 갖고 있으며, 다양한 작업에서 전이학습을 통해 좋은 성능을 달성한다.
- 모델의 구조를 최소한으로 변경하면서 효과적으로 fine-tuning할 수 있다.
모델 평가는 4가지 종류의 Language Understanding tasks에 대해 이뤄진다.
- NLI(Natural Language Inference, 자연어 추론), QA(Question Answering, 질의응답), Sementic Similarity(의미 유사성), Text Classification(텍스트 분류)
12개 task 중 9개 task에서 SOTA 달성
또한, 4가지 서로 다른 setting으로 pre-trained된 모델의 zero-shot 동작을 분석해, 다운스트림 작업에 유용한 언어적 지식을 획득한다는 것을 확인했다.

Semi-supervised learning for NLP (NLP에서의 준지도 학습)
- 자연어 처리에서의 준지도 학습은 초기 방식과 최근 접근 방식이 다르다.
- 초기에는 라벨이 없는 데이터로부터 단어 수준이나 구문(phrase) 수준의 통계를 계산하고, 이를 지도학습 모델의 feature로 사용하는 수준에 그친다.
- 최근에는, 라벨이 없는 코퍼스에서 훈련된 워드 임베딩을 사용하여 다양한 task의 성능을 향상시키는데 중점을 둔다.
- 그러나 이러한 접근법은 주로 단어 수준의 정보를 전달하는데, 우리는 더 높은 수준(구문, 문장 이상)의 의미를 포착하고자 한다.
- 최근에는 라벨이 없는 데이터에서 단어 수준 이상의 의미를 학습하는 방법을 연구한다.
Unsupervised pre-training (비지도 사전학습)
- 비지도 사전학습은 준지도 학습의 특별한 형태이다.
- 초기에는 이미지 분류 및 회귀 작업에서 연구되었고, 이어진 연구에서는 사전 훈련이 정규화처럼 작용해서 Deep Neural Network에서 더 나은 일반화가 가능하다는 사실이 증명됐다.
  - 최근에는 다양한 작업에서 DNN을 훈련하는데 사용되었다.
- GPT와 가장 가까운 연구: 언어 모델링 목표를 통해 사전훈련한 뒤, supervised하게 target task에 fine tuning 하는 것
- 사전 훈련을 하는 것이 언어 정보를 포착하는 데 도움이 되지만, LSTM을 사용할 경우 예측 능력이 short range로 제한된다.
  - Transformer를 사용할 경우 더 긴 range의 언어 구조를 포착할 수 있음을 실험으로 보여준다.
- 다른 접근법들은 사전 훈련된 모델의 representation을 각 작업에서의 보조 feature로 사용하여 supervised 모델을 학습시킨다.
  - 하지만 이는 각각의 대상 작업마다 많은 양의 파라미터를 필요로 한다.
  - 반면, GPT는 전이학습 과정에서 모델 아키텍처에 최소한의 변경만이 필요하다.
Auxiliary training objectives (보조 학습 목표)
- 보조 비지도 학습 목표를 추가하는 것은 준지도 학습의 대안적인 형태이다.
  - (라벨이 없는 데이터에 추가적인 학습 목표를 설정해서 모델 성능을 향상시키는 방법)
- 초기 연구에서는 다양한 NLP 작업들(POS 태깅 등)을 보조 작업으로 사용하여 라벨링 성능을 향상시켰다.
- GPT도 보조 학습 목표를 사용하지만, 비지도 사전훈련이 이미 target task에 대한 여러 언어적인 측면을 미리 학습한다는 것을 실험을 통해 보여준다.
  - (GPT의 접근 방식은 기존과 달리 비지도 사전훈련을 통해 이미 다양한 언어 지식을 얻으며, 이는 곧 성능 향상으로 이어짐)

3. Framework

훈련은 2단계로 구성됨
- 1) 대규모 corpus로 대용량 언어 모델을 학습하는 단계
- 2) labelled 데이터를 통해 discriminative 작업에 모델을 fine-tuning하는 단계

3.1 Unsupervised pre-training

(비지도 사전학습 단계의 목표는 언어 모델을 학습해서 자연어의 기본 구조를 모델에게 이해시키는 것 → 일반적인 언어 모델의 목적 함수와 동일)

$$ L_1(U) = \sum_{i}^{}log P(u_i|u_{i−k},...,u_{i−1};Θ) $$

U={u_1, u_2, … , u_n} : 비지도 학습을 위한 토큰 corpus
L_1(U) : corpus에서 각 토큰(u_i)에 대한 로그 확률의 합을 최대화하는 우도(likelihood) 함수
- 참고) 우도(likelihood)
  - 특정한 사건이 확률 모델에 의해 발생할 정도
  - 확률과는 다른 개념
Θ : 신경망의 가중치를 포함하는 모델의 매개변수들, SGD로 학습된다.
P(u_i|u_{i−k}, ... ,u_{i−1}) : 이전 토큰의 문맥(context)를 기반으로 한 다음 토큰의 조건부 확률값
본 연구에서는 multi-layer transformer decoder를 사용한다.

$$ h_0 = UW_e + W_p \h_l = transformer_block(h_{l−1})∀i ∈ [1, n] \P(u) = softmax(h_nW^T_ e ) $$

h_0 : 초기 입력 임베딩, 두 임베딩의 합으로 이루어짐
- UW_e : U는 입력 토큰 시퀀스, W_e는 토큰 임베딩 행렬. → 각 토큰을 고차원 벡터로 변환
- W_p : 포지션 임베딩 행렬, 시퀀스 내의 각 토큰의 위치 정보를 인코딩.
h_l : Transformer 블록, 이전 레이어 h_l-1의 출력을 입력으로 받음.
- n : 모델의 전체 레이어 수
- 각 블록은 Multi-head self-attention 메커니즘과 Position-wise Feed Forward Network Layer를 포함한다.
P(u) : output 확률
- h_n은 최종 레이어 출력이며, W^T_e는 토큰 임베딩 매트릭스의 transpose
- 두 값을 곱한 뒤 softmax를 거쳐 각 target 토큰의 확률 계산

3.2 Supervised fine-tuning

사전 학습된 언어 모델을 특정 지도 학습 작업에 맞게 fine-tuning 하는 과정
Fine-tuning 과정은 아래 수식과 같이 표현됨

$$ P(y∣x^1,…,x^m)=softmax(h^m_lW_y) $$

x_1, x_2, … , x_m : 입력 토큰 시퀀스
y : 예측해야 할 라벨
h^l_m : 사전 훈련 모델을 통과한 후 마지막 transformer 블록에서 얻어진 activation(출력)
W_y : fine-tuning될 때 추가된 linear output layer의 parameter
softmax로 확률분포로 변환
최적화 목적 함수는 아래와 같이 표현됨

$$ L_2(C) = \sum_{(x,y)} log P(y|x^1, . . . , x^m). $$

입력 x에 대해 모델이 정확한 라벨 y를 예측할 로그 확률을 최대화하도록 학습
- (이는 cross entropy loss function의 negative log likelihood와 동일)
Fine-tuning 과정에서 언어 모델링을 보조 목표로 포함하는 것은 2가지 이점이 있다:
- 1) 지도학습 모델의 일반화 성능을 개선한다.
- 2) 모델의 수렴을 가속화한다.
이는 아래의 합성 objective function을 최적화함으로써 수행됨

$$ L_3(C) = L_2(C) + λ ∗ L_1(C) $$

(λ : 두 objective 사이의 상대적 중요도를 조절하는 하이퍼파라미터)
전반적으로 fine-tuning 과정에서 필요한 추가적인 파라미터는 W_y와, Delimeter token에 대한 임베딩(3.3에서 설명) 뿐이다.

3.3 Task-specific input transformations

텍스트 분류와 같은 일부 작업에서는 직접 모델을 fine-tuning할 수 있지만, QA나 Textual Entailment과 같은 작업들은 문장쌍이나 문서, 질문, 답변의 삼중항과 같은 구조화된 입력이 존재한다.
- GPT는 연속된 텍스트 시퀀스로 훈련되었기 때문에, 이러한 작업들에 적응하기 위해서는 모델의 일부 수정이 필요하다.
- 이전 연구들은 전이된 표현 위에 task에 특화된 아키텍처를 학습하는 것을 제안했다.
  - 그러나 이런 접근법들은 작업들마다 아키텍처를 변환하고, 추가된 아키텍처 요소에는 전이학습이 사용되지 않음.
GPT는 순회(traversal) 방식의 접근법을 사용하여 복잡한 구조의 입력을 pre-trained 모델이 처리할 수 있는 순서가 있는 시퀀스로 변환한다.
- 이는 작업에 따라 아키텍처를 광범위하게 바꾸지 않게 한다.

Textual Entailment (텍스트 수반/함축)
- Text Entail 작업에서는, 주장(premise) p와 가설(hypothesis) h 토큰 시퀀스를 연결하고, 그 사이에 구분 기호 토큰($)을 넣는다.
Similarity (유사도)
- 두 문장의 유사도를 평가할 때는 문장의 순서가 중요하지 않으므로, 두가지 순서를 모두 고려하여 각 문장의 시퀀스 표현 h_l^m를 생성한다. 그 표현들은 element-wise하게 추가되어 linear output layer에 공급된다.
Question Answering and Commonsense Reasoning (질문 답변 & 상식 추론)
- 위 작업들에 대해서는, context 문서 z, 질문 q, 가능한 답변들의 집합 {a_k}를 제공받는다.
- 문서 문맥과 질문을 각각의 가능한 답변과 연결하고, 사이에 구분 기호 토큰을 넣어 [z; q; $; ak]를 얻는다.
- 이 시퀀스들은 독립적으로 처리되고, 그 다음 소프트맥스를 통해 정규화되어 가능한 답변들에 대한 출력을 생성한다.

4. Experiments

4.1 Setup

Unsupervised pre-training
- 7,000권 이상의 다양한 장르의 미출판 책으로 구성된 BooksCorpus 데이터셋을 사용해 모델을 훈련한다.
  - 긴 연속된 텍스트를 포함
  - ELMo가 사용한 1B Word Benchmark와 달리 문장 레벨에서 섞이지 않아 장기적 구조를 파괴하지 않는다.
  - GPT는 이 corpus에서 매우 낮은 토큰 레벨의 PPL (18.4) 를 기록했다.
Model specifications
- GPT는 기존의 Transformer를 대체로 따르며, Masked self-attention heads를 가진 12개 layer의 decoder-only Transformer를 학습시켰다.
  - 768차원, 12개의 attention head
  - Position-wise feed-forward network에서, 3072차원의 내부 상태
  - Adam optimization, 최대 학습률 2.5e-4. 학습률은 2000번의 업데이트 동안 선형적으로 증가하며, 코사인 스케줄을 사용하여 0으로 감소시켰다.
  - 64의 미니배치에서 무작위로 샘플링된 연속적인 512 토큰 시퀀스에 대해 100 에폭을 훈련시켰다.
  - 모델 전체에 걸쳐 LayerNorm이 사용되기 때문에, 단순한 가중치 초기화 N(0, 0.02)로 충분하다.
  - 바이트페어 인코딩(BPE) 어휘를 사용했고, regularization을 위해 residual, embedding, attention에 0.1 dropout 적용.
  - non bias나 gain weight에 대해 w = 0.01의 수정된 L2 규제 버전을 사용했다.
  - Activation function으로 GELU 사용
  - spaCy 토크나이저 사용
Fine-tuning details
- 비지도 사전훈련에서 사용된 하이퍼 파라미터 설정을 재사용한다.(특별한 언급이 없으면)
- 분류기에 0.1 비율의 드롭아웃을 추가한다.
- 대부분의 작업에서 6.25e-5의 학습률과 32의 배치 크기를 사용한다.
- GPT는 빠르게 파인튜닝되며, 대부분의 경우 3 에폭이면 충분했다.
- 학습의 0.2% 동안 웜업을 포함하는 선형 학습률 감소 스케줄을 사용한다.

4.2 Supervised fine-tuning

NLI(자연어 추론), QA(질문 응답), Semantic Similarity(의미론적 유사성), Classification(텍스트 분류)를 포함한 다양한 지도학습 작업에 대한 실험을 진행한다.
이 작업 중 일부는 최근 발표된 GLUE 다중 작업 벤치마크로 진행한다.

Natural Language Inference(자연어 추론, 텍스트적 함축)
- 텍스트적 함축을 인식하는 작업은 두 문장의 쌍을 읽고, 그들 사이의 관계를 포함, 모순, 중립 중 하나로 판단하는 것을 의미한다.
- 이 작업은 어휘적인 함축, 모호성 등으로 인해 어려운 task로 남아있다.
- SNLI, MNLI, QNLI, SciTail, RTE 등의 다양한 데이터셋에 대해 평가한다.

- 표 2는 결과를 나타내며, 5개의 데이터셋 중 4개에서 SOTA를 달성했다.
- GPT가 여러 문장에 대해 더 잘 추론하고 언어적 모호성을 더 잘 처리할 수 있는 능력이 있음을 보여준다.

Question answering and commonsense reasoning
- 문장 추론이 필요한 또 다른 작업은 QA다.
- 영어 지문과 관련된 질문들로 구성된 RACE 데이터셋 사용
  - 다른 데이터셋들 보다 더 많은 추론 유형의 질문을 포함한다.
- Story Cloze Test에 대해서도 평가
  - 두 가지 옵션 중에서 올바른 결말을 선택하는 것

- 두 작업에서 모두 SOTA
- GPT가 장기적인 문맥을 효과적으로 처리할 수 있음을 보여준다.

Semantic Similarity
- 의미론적 유사성 task는 두 문장이 의미론적으로 동등한지 여부를 예측하는 것을 의미한다.
- 3개의 데이터셋 사용
  - MRPC, QQP, STS-B
- 3개 중 2가지 데이터셋에서 SOTA 달성

Classification
- 두가지 다른 텍스트 분류 작업에 대해 평가한다.
- 1) Corpus of Linguistic Acceptability(CoLA)는 문장이 문법적으로 맞는지에 대한 전문가의 판단을 포함한다.
  - 훈련된 모델의 내재된 언어적 편향을 테스트한다.
- 2) Stanford Sentiment Treebank(SST-2)는 표준적인 이진 분류 작업이다.
- CoLA에서 SOTA 달성
- GLUE 벤치마크에서 성능 향상

전반적으로, 12개 데이터셋 중 9개에서 SOTA 달성했고, 많은 경우에는 앙상블 모델도 능가한다.
또한 크기가 작은 데이터셋(5.7k)부터 크기가 큰 데이터셋(550k)에서까지 잘 동작한다는 것을 보여준다.

5. Analysis

Impact of number of layers transferred (전이하는 레이어 수의 영향)
- 비지도 사전 훈련에서 target 지도학습으로 transfer하는 layer의 수가 달라짐에 따른 영향을 관찰했다.
- Figure 2의 왼쪽 그림은 transfer되는 layer의 수에 따라 실험하는 데이터셋에서의 성능을 나타낸다.
  - pre-trained된 레이어를 더 많이 전이할 수록 target task의 성능이 올라감을 보여준다.

Zero-shot Behaviors
- Transformer 의 사전 훈련이 효과적인 이유를 더 잘 이해하고 싶다.
- GPT는 사전훈련(이건 generative한 작업을 위한 사전학습)을 하는 동안에도 다른 복잡한 NLP task에 필요한 지식들을 학습한다.
- LSTM과 Transformer를 비교한 결과는, Transformer가 언어처리 작업에 대해 더 나은 전이 학습 능력을 가지고 있음을 보여준다.
- 또한 Transformer는 LSTM보다 제로샷 학습 성능에서 더 변동성이 적고 안정적으로 증가하는 성능을 보인다.
Ablation studies

- 3가지 다른 제거 실험을 수행했다.
- 1) Fine-tuning에서 보조 LM 목표를 제거하고 성능을 확인했다.
    - 보조 LM 목표가 NLI 작업과 QQP 작업에 도움이 된다는 것을 확인했다.
    - 전반적으로, 더 큰 데이터셋이 보조 목표로부터 이득을 얻는 것 같다.
- 2) 동일 조건에서 LSTM과 Transformer의 성능을 비교했다.
    - LSTM은 MRPC에서만 Transformer보다 더 나은 성능을 보였고, 나머지는 전부 다 Transformer보다 성능이 낮았다.
- 3) 사전 훈련 없이 직접 지도학습된 target task에 대해 사전 훈련된 일반 모델과 성능 비교도 이뤄졌다.
    - 사전 훈련이 없으면 모든 작업에서 성능이 떨어졌다.
    - 복잡한 NLP 작업들에서는 결국 사전 훈련이 중요하다.

6. Conclusion

우리는 Generative한 Pre-training과, Discriminative한 Fine-tuning을 통한 single model을 통해 자연어 이해 작업에서 강력한 성능을 달성하는 프레임워크를 소개했다.
- (기존 방식들이 각 task 별로 아키텍처를 설계하거나, fine-tuning을 새로 하거나 하는 것과는 차별적이고 휠씬 편한 방식임)
다양한 긴 문장을 포함하는 corpus에 대한 pre-train을 통해 장거리 종속성을 해결하고, 12개 중 9개 task에서 SOTA 달성했다.
비지도 사전학습을 사용하여 discriminative task의 성능을 높이는 것은 ML의 오랜 목표였다.
- GPT 모델은 이것이 실제로 가능하다는 것을 보여주며, Transformer라는 모델과 장거리 종속성이 있는 텍스트를 사용할 때 성능 향상이 이루어 짐을 보여줬다.
이 연구가 자연어 이해 및 다른 영역에서도 비지도 학습이 언제 어떻게 동작하는지에 대한 이해를 더 높이는데 도움이 되기를 기대한다.

[논문 리뷰] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2020)

Tue, 26 Dec 2023 07:01:55 GMT

논문 링크

From ACL 2020

0. Abstract

Seq-Seq 모델을 pre-train하기 위한 denoising autoencoder인 BART를 제안한다.
BART는 다음의 방식으로 학습이 이루어지는데, 이는:
- 임의의 노이즈 함수로 텍스트에 변형을 주고,
- 이 노이즈를 원본으로 복원하는 방식이다.
BART는 양방향의 BERT, 단방향의 GPT 등 수많은 표준 Transformer 기반 NMT(Neural Machine Translation) 구조를 일반화한 모델이다.
여러가지 노이즈 기법을 평가했더니, (1) 원본 문장들의 순서를 랜덤하게 섞는 것과, (2) 텍스트 시퀀스(이하 span)가 하나의 MASK 토큰으로 치환되는 새로운 in-filling scheme을 사용하는 것을 모두 사용할 때 가장 좋은 퍼포먼스를 보인다는 것을 발견했다.
- 참고)
  - Span: 텍스트의 나열(시퀀스). 문장을 이룰 수도 있지만 꼭 그렇지 않음. 여러 문장에 걸쳐 형성될 수도 있음.
BART는 Text Generation에 대해 Fine-tuned 됐을 때 효과적이지만 이해력이 요구되는 작업에도 잘 동작한다.
- GLUE, SQuAD 벤치마크에 대해서 RoBERTa 모델과 유사한 학습 환경에서 Abstractive Dialogue, Question Answering, Summarization에서 SOTA 달성 (6 ROUGE 이상 상승)
- 기계 번역을 위한 역번역(Back-translation)에서 Target language에 대한 사전학습만으로도 1.1의 BLEU 상승이 있었다.
  - 참고)
    - Back-translation: 번역 데이터가 충분하지 않을 경우 유용한 방식
      - 1) 원본 언어에서 Target 언어로 번역
      - 2) Target 언어에서 원본 언어로 재번역 → Back-translation
      - 원본 텍스트와 재번역된 텍스트의 차이를 줄이는데 유용
또한 본 논문에서는 ablation 실험을 통해 BART에서 성능에 가장 큰 영향을 미치는 요인을 측정한다.
- 참고)
  - Ablation study/experiment
    - 모델에서 특정 요소들을 제거하고 실험을 진행하면서 그 요소가 성능에 어떤 영향을 주는지 확인해보는 것

1. Introduction

Self-supervised 방식은 NLP에서 많은 성공을 거두었다.
- 그러한 성공은 Masked Language Model의 변형들이었으며, 랜덤으로 마스킹된 텍스트를 재구성하도록 훈련된 Denoising Autoencoder들이었다.
- 최근에는 마스킹된 토큰의 분포 개선, 마스킹된 토큰의 예측 순서 개선 등을 통해 성능 향상 이루었다.
- 하지만 이러한 방법들은 End tasks(ex. span prediction, generation …)에 초점을 맞추기 때문에 활용 가능성이 제한적이다.
본 논문에서는 양방향과 auto-regressive한 transformer를 결합한 사전학습 모델인 BART를 제안한다.
- BART는 sequence to sequence 모델로 제작된 Denoising autoencoder로, 다양한 End task에 적용가능하다.
BART의 사전학습은 두단계로 이루어진다:
- 임의의 노이즈 함수로 텍스트에 변형을 가하고,
- seq-to-seq 모델이 텍스트의 원본을 복원하도록 학습된다.
BART는 표준 Transformer 기반 NMT(신경망 기계 번역) 구조를 사용하는데, 이는 단순함에도 불구하고 양방향 인코더를 사용하는 BERT, Left to Right 단방향 디코더를 사용하는 GPT 등의 최신 사전학습 방식을 일반화한 것이라고 볼 수 있다.

이러한 방식의 이점은 Noising의 유연성으로, 원본 텍스트에 길이 변경을 포함하는 임의의 변형을 가할 수 있다는 것이다.
- 여러가지 노이즈 기법을 평가했더니, (1) 원본 문장들의 순서를 랜덤으로 섞는 것과, (2) 임의 길이(0도 포함)의 span이 하나의 MASK 토큰으로 치환되는 새로운 in-filling 방식을 사용하는 것을 모두 사용할 때 가장 좋은 성능을 보인다는 것을 발견했다.
- 이는 문장 전체 길이에 대해 더 많이 추론하고, 입력보다 더 긴 변환을 수행하도록 강제함으로써, 기존 BERT의 masking과 NSP를 일반화한다.
또한, BART는 fine-tuning에 대한 새로운 사고 방식을 생각하게 한다.
- 본 논문에서는 machine translation에 대한 새로운 scheme을 제안하는데, 이는 추가적인 transformer layer들 위에 BART를 올리는 것이다.
- 이 layer들은 BART의 순전파를 통해 외국어를 노이즈가 있는 영어로 번역하도록 학습된다. (BART를 target쪽 언어모델로 사용)
- 이는 WMT 루마니아어-영어 벤치마크에서 강력한 역번역 MT 기준에 대한 성능을 1.1 BLUE만큼 향상시킨다.
Ablation 실험을 통해 BART에서 사용된 기법들의 효과를 이해한다.
- BART는 우리가 고려하는 모든 task에서 일관되고 강력한 성능을 보인다.

2. Model

BART는 변형된 문서를 원본으로 매핑하는 denoising autoencoder다.
- 이는 변형된 텍스트에 대해 양방향 인코더와 left-to-right autoregressive 디코더로 구성된 sequence-to-sequence 모델로 구현된다.
사전학습 과정에서는 원본 문서의 negative log likelihood (NLL)을 최적화한다.
- 참고)
  - NLL: 일종의 손실함수로, Cross Entropy와 유사
  - 모델이 정답 단어를 예측할 확률의 로그를 취한 것을 음수로 취한 것
  - ex) NLL: 단일 클래스 예측, Cross Entropy: 다중 클래스 예측

2.1 Architecture

BART는 표준 seq-to-seq Transformer 아키텍처를 사용하지만, GPT와 같이 ReLU가 아닌 GeLU 활성화 함수를 사용하고, 파라미터를 N(0, 0.02)로 초기화하여 사용한다.
Base 모델에는 인코더와 디코더에 각각 6개의 레이어를 사용하며, large 모델에는 12개의 레이어를 각각 사용한다.
이 구조는 BERT와 밀접한 관련이 있지만 다음과 같은 차이점들이 있다:
- (1) 디코더의 각 레이어는 (transformer seq-to-seq 모델과 같이) 최종 hidden layer에 대해 추가로 cross-attention을 수행한다.
- (2) BERT는 word-prediction 이전에 추가적인 FFN을 사용하지만, BART는 그렇지 않다.
- 전체적으로, BART는 같은 크기의 BERT보다 10% 더 많은 파라미터를 갖는다.

2.2 Pre-training BART

BART는 문서를 변형시킨 뒤 reconstruction loss, 즉 디코더의 출력과 원본 문서 간의 cross entropy를 최적화하며 학습된다.
- 특정 noising 방식에 맞추어진 기존의 denoising audoencoder들과는 달리, BART는 모든 종류의 문서 변형에도 대응할 수 있다.
- Extreme한 케이스, 즉 원본의 모든 정보가 날라간 경우라면, BART는 전통적인 언어모델과 동일하게 작동한다. (개인적인 생각: BART는 원래 denoising ‘오토인코더’처럼 동작하는데, 정보가 다 사라졌을 때에는 언어모델링, 즉 텍스트를 생성하는 작업도 수행할 수 있다는 뜻?)

BART에서 사용한 텍스트 변형 방법은 아래과 같다:

1) Token Masking

BERT처럼 무작위 토큰이 샘플링되고 [MASK]로 치환된다.

2) Token Deletion

무작위 토큰이 입력에서 제거된다.
Token Masking과 다르게, 모델이 반드시 어떤 위치의 입력이 제거될지 정해야 한다.

3) Text Infilling

여러개의 span이 샘플링되며, span 길이는 푸아송 분포(λ = 3)에서 추출된다.
각 span은 하나의 [MASK] 토큰으로 치환된다.
- 이는 SpanBERT에서 그 아이디어를 가져왔지만, 이와 다른 점은 SpanBERT는 서로 다른 분포에서 span이 샘플링되고, 이를 span과 동일한 길이의 [MASK] 토큰으로 치환한다는 것.
Text Infilling은 span에서 누락된 토큰의 수를 예측하도록 모델을 학습한다.

4) Sentence Permutation

마침표를 기준으로 문장이 나뉘고, 이러한 문장들이 랜덤한 순서로 섞여있다.

5) Document Rotation

토큰이 무작위로 선택되고, 그 토큰을 기준으로 문서가 회전되어 문서가 해당 토큰으로 시작할 수 있도록 한다.
이는 모델이 문서의 시작 부분을 찾아낼 수 있도록 훈련시키는 것이다.

3. Fine-tuning BART

BART의 representation은 다양한 방식의 다운스트림에서 사용가능하다.

3.1 Sequence Classification Tasks

Sequence classification 작업에서는 완전히 동일한 입력이 인코더와 디코더에 입력되고, 최종 디코더의 최종 은닉층이 새로운 multi-class 선형 분류기에 입력된다.
- 이는 BERT의 CLS 토큰과 관련이 있지만, BART에서는 마지막에 additional token을 추가하여 디코더의 토큰 표현이 전체 입력에서 디코더 상태에 주목할 수 있도록 한다.(Figure 3a)

3.2 Token Classification Tasks

Token classification 작업에 대해서는, 인코더와 디코더에 전체 문서를 제공한 뒤 디코더의 최종 hidden state를 각 단어의 representation으로 사용한다.
- 이 표현은 토큰을 분류하는데 사용된다.

3.3 Sequence Generation Tasks

BART는 autoregressive decoder를 갖고 있기 때문에, Abstractive QA나 Summarization과 같은 Sequence Generation 작업에도 바로 파인튜닝될 수 있다.
이러한 작업들에서, 정보는 input에서 복사되지만 변형된 형태로 복사되며, 이는 denoising pre-training의 목적과 관련이 있다.
인코더의 입력은 input 시퀀스이며 디코더는 autoregressive하게 출력을 생성한다.

3.4 Machine Translation

이전 연구에서는 pre-trained 된 인코더들을 결합하여 모델 성능을 개선할 수 있음을 보여주었지만, pre-trained된 디코더를 사용함으로서 얻을 수 있는 이점은 제한적이었다.
Bitext(양방향 텍스트)로부터 학습된 인코더 파라미터 셋을 추가함으로써 전체의 BART 모델(인코더와 디코더 둘다)을 Machine Translation을 위한 단일 Pre-trained 디코더로 사용할 수 있음을 보여준다.(Figure 3b)

자세하게는,
- 기존 BART의 임베딩 레이어를 랜덤하게 초기화된 인코더로 교체한다.
- 이후 모델은 end-to-end로 학습되며, 모델의 새로운 인코더는 타겟 언어의 단어들(foreign words)을 input으로 매핑할 수 있도록 학습된다.
- 위 매핑을 통해 BART는 영어로의 de-noising이 가능하다.
- 교체되어 학습된 새로운 인코더는 기존의 BART과는 다른 별도의 vocab을 사용할 수 있게 된다.
Source 인코더(원본 언어를 처리하는 인코더라서 source가 붙은 듯)는 2단계에 걸쳐서 학습되는데, 두 단계 모두 output에서의 cross-entropy loss를 역전파한다.
- 첫번째 단계에서는, BART의 대부분의 파라미터를 고정(freeze)하고, 랜덤하게 초기화된 source 인코더와 BART의 positional embeddings, 인코더 첫번째 레이어의 self-attention input projection matrix 만을 업데이트 한다.
- 두번째 단계에서는, 모든 파라미터를 작은 iteration으로 학습한다.

4. Comparing Pre-training Objectives

BART는 pre-training 하는 과정에서 previous work보다 휠씬 더 넓은 범위의 노이징 방식을 제공한다.
이 논문에서는 base model에 대한 비교를 수행한다.
- 6개의 인코더, 6개의 디코더, hidden size 768 (인코더와 디코더에서의 각 출력 차원이 768차원이라는 의미인 듯)
- 해당 base 모델의 성능은 5장에서 평가된다.

4.1 Comparison Objectives

Pre-training의 많은 목적이 제안되었지만, 부분적으로는 훈련 데이터, 리소스, 모델 간의 아키텍처 차이, 파인튜닝 절차의 차이 등으로 인해 공정한 비교를 수행하기 어려웠다.
우리는 판별(Discriminative)과 생성(Generation) task들을 위해 최근 제안된 강력한 pre-training 접근법을 다시 구현한다.
- 이는 pre-training의 목적과는 관련없는 차이들을 통제하는 것을 목표로 한다.
- 그러나 성능을 약간 향상시키기 위해 학습률과 계층 정규화의 사용률을 약간 수정한다.(각 pre-training 목적마다 다르게)
참고로, 이렇게 구현된 방식을, BERT와 비교한다.
- BERT도, BART도, 책과 Wikipedia 데이터에 대해 1M steps(100만 스텝)학습됐다.
- (같은 데이터로 동일한 스텝만큼 사전 학습 시켰으니까 어떤 사전 학습 방식이 좋은지, 어떤 모델이 좋은지 비교 가능 할 것!)

1) Language Model

GPT와 비슷하게, left-to-right Transformer 언어 모델을 학습한다.
- 해당 모델은 Cross-Attention이 없는 BART 디코더와 동일하다.

2) Permuted Language Model

XLNet을 기반으로, 1/6의 토큰을 샘플링하여 해당 토큰들을 자기회귀적(autoregressively)으로, 그리고 랜덤하게 생성한다.
다른 모델과의 일관성을 위해 XLNet의 다른 특징들(segment across attention, relative positional embeddings)은 구현하지 않았다.

3) Masked Language Model

BERT를 따라서, 15%의 토큰을 [MASK]로 치환하고, 모델이 이를 독립적으로 예측하도록 훈련한다.

4) Multitask Masked Language Model

UniLM과 마찬가지로, MLM에 self-attention mask들을 추가하여 학습시킨다.
- Self-attention mask들은 아래와 같은 비율로 랜덤하게 선택된다:
  - 1/6: left-to-right
  - 1/6: right-to-left
  - 1/3: unmasked(마스크가 추가되지 않음)
  - 1/3: 첫 절반 토큰들은 unmasked, 나머지 절반 토큰들은 left-to-right mask

5) Masked Seq-to-Seq

MASS에서 영감을 받아, 토큰의 50%를 포함하는 span을 마스킹하고, 이 span을 예측하기 위해 seq-to-seq 모델을 학습한다.
Permuted LM, Masked LM, Multitask MLM에 대해서는, 시퀀스의 출력에 대한 가능성을 효율적으로 계산하기 위해 two-tream attention을 사용했다.
- Diagonal(대각선) self-attention mask를 출력 부분에 사용하여 왼쪽에서 오른쪽으로 단어들을 예측한다.
우리는 (1) task들을 표준적인 시퀀스-투-시퀀스 문제로 처리하는 방식으로 처리하거나, (2) 원본을 디코더 target 시퀀스의 prefix로 추가하는 방식, 두가지로 실험했다.
- (1) 첫번째 방식은 전통적인 방식으로, 인코더의 source과 디코더에 target을 별도로 다룬다. 인코더는 입력 시퀀스를 처리하고, 디코더는 출력 시퀀스를 처리한다.
- (2) 두번째 방식에서는, source 문장을 디코더의 target 시퀀스 앞에 접두사(prefix)로 추가하고, 모델의 loss는 타겟 시퀀스에만 적용된다.
  - (source와 target을 연속된 시퀀스로 처리하니까 텍스트 관계 학습 면에서는 유리하고, 디코더 위주의 모델에서는 이러한 방식이 좋을 듯?)
BART는 (1)번 방식이 더 나은 성능을 보였고, (2)번 방식은 다른 모델들이 더 나은 성능을 보였다.
모델을 가장 직접적으로 비교하기 위해, Perplexity 수치를 비교한다.
- 참고) Perplexity(PPL) : a metric that quantifies how uncertain a model is about the predictions it make → 선택 가능한 경우의 수를 수치화 (분기 계수, Branching Factor)
- 특정 시점에서 평균적으로 몇 개에 선택지를 갖고 고민했는가?
- 더 낮은 PPL을 갖는 모델이 같은 테스트 데이터에 대해 더 일치할 것임

4.2 Tasks

1) SQuAD

SQuAD는 Wikipedia 문단에 대한 Extractive QA 작업으로, 결과는 주어진 문서에서 추출된 text span이다.
BERT와 비슷하게, question과 context(문서의 일부분)를 인코더 입력으로 사용하고, 추가적으로 BART는 이를 다시 디코더에도 전달한다.
- (BERT는 인코더만 있으니까…)
- (디코더에도 question과 context를 전달함으로써 generation 자체가 더 수월하게 진행되지 않을까 하는 생각)

2) MNLI

MNLI는 한 문장이 다른 문장을 의미적으로 포함하는 여부를 예측하는 양방향 텍스트 분류 작업이다.
파인튜닝된 모델은 두개의 문장을 연결한 후(EOS토큰을 추가해서) 인코더와 디코더에 모두 통과시킨다.
BERT와 다르게, BART의 EOS 토큰은 문장의 관계를 분류하는데에 사용된다.

3) ELI5

ELI5는 긴 형식의 Abstractive QA 데이터셋이다.
모델은 question과 documents의 concatenation에 따라 answer를 생성한다.

4) XSum

XSum은 뉴스 요약 데이터셋으로, Abstractive summaries를 포함한다.

5) ConvAI2

ConvAI2는 대화 응답 생성 작업을 수행하며, context와 persona를 필요로 한다.

6) CNN/DM

CNN/DM은 뉴스 요약 데이터셋이다.
이곳에서의 요약문은 일반적으로 source 문장과 밀접한 관련이 있다.

4.3 Results

결과는 Table1 과 같으며, 다음과 같은 점들이 명확하게 드러났다.

1) Performance of pre-training methods varies significantly across tasks

= Pre-training 방법의 성능은 task에 따라서 크게 달라진다

단순한 Launguage Model은 ELI5에서 가장 높은 성능을 달성하지만, SQuAD에서 가장 안 좋은 성능을 보인다.

2) Token masking is crucial

= 토큰 마스킹은 매우 중요하다

문서를 회전(rotating)시키거나 문장을 순열 변경(permuting)하는 것 단독으로 사용하면 성능이 떨어진다.
- 참고)
  - 회전(Rotating): 문서나 단락 안에서 내용을 ‘회전’, 즉 문장이나 단락의 순서를 바꾸는 것. 문장이나 단락의 내부 구조는 유지된다.
  - 순열 변경(Permuting): 문장이나 토큰 내부의 순서를 변경하는 것. Ex) 문장 내부의 단어들의 순서를 무작위로 재배열하는 것.
성공적인 방법은 토큰 삭제 or 토큰 마스킹 or self-attention masks를 사용하는 것이다.
Generation tasks에서는 토큰 삭제가 토큰 마스킹보다 성능이 뛰어난 것으로 나타났다.

3) Left-to-right pre-training improves generation

= Left-to-right pre-training은 생성 작업의 성능을 향상시킨다

MLM과 Permuted LM은 Generation에서 다른 모델들보다 성능이 떨어진다.
또한 그 두 모델들은 pre-train 중에 left-to-right 자기회귀 언어모델링을 포함하지 않은 유이한 모델이다.

4) Bidirectional encoders are crucial for SQuAD

= SQuAD 작업에는 양방향 인코더가 매우 중요하다

분류 작업에서는 future context가 중요한 역할을 하기 때문에, left-to-right 디코딩만 수행하는 것은 SQuAD에서 낮은 성능을 보인다.
그러나 BART는 양방향 레이어 수의 절반만으로도 비슷한 성능을 달성한다.
- (대충 BART는 효율적인 양방향 처리를 할 수 있다는 자랑)

5) The pre-training objective is not the only important factor

= Pre-training의 목적 만이 중요한 factor는 아니다

BART의 Permuted LM의 성능은 XLNet보다 떨어진다.
이는 XLNet의 특징인 relative-position embeddings이나 segment-level recurrence을 구현하지 않았기 때문일 수 있다.

6) Pure language models perform best on ELI5

= ELI5에서는 순수 Language model이 가장 높은 성능을 보인다

ELI5는 다른 task보다 휠씬 복잡하며, 다른 모델이 BART보다 성능이 높은 유일한 Generation task이다.
Pure LM이 가장 성능이 높으며, 이는 output이 input에 의해서 느슨하게 제한되는 경우 BART의 효율성이 떨어지는 것을 의미한다.
- (즉, 입력과 출력 사이의 관계가 덜 명확할 수록 BART는 효과적이지 않을 것이다!)
- (찾아보니 ELI5는 긴 길이의 abstractive 답변, 창의적 답변 생성 등이 필요하다고 함)

7) BART achieves the most consistently strong performance

= BART는 가장 일관되면서 강력한 성능을 달성한다

ELI5를 제외하면 BART는 text-infilling을 사용하면서 모든 task에서 잘 동작한다.

5. Large-scale Pre-training Experiments

최근 연구에 따르면, pre-training을 대규모 배치 크기와 corpus로 확장하면 다운스트림 성능이 크게 향상될 수 있는 것으로 나타났다.
이러한 상황에서 BART가 얼마나 잘 동작하는지 테스트하기 위해 RoBERTa와 동일한 scale로 BART를 훈련시켰다.

5.1 Experimental Setup

Large 모델에는 인코더와 디코더에 각 12개 레이어가 있고 hidden size는 1024이다.
RoBERTa와 같이 배치 크기는 8000, step은 500,000이다.
Documents는 GPT-2와 같이 BPE(byte-pair encoding)으로 토큰화된다.
섹션 4. 의 결과를 바탕으로, Text Infilling과 Sentence Permutation의 조합을 사용한다.
모든 문서에 대해 토큰의 30%는 마스킹하고, 모든 문장을 permute한다.
- Sentence Permutation은 CNN/DM summarization에서만 큰 이득을 보이지만, large pre-training 모델이 이 작업에서 더 잘 학습할 수 있다는 가설을 세웠다.
학습 데이터로는 RoBERTa와 동일하게 뉴스, 책, stories, web text로 구성된 160GB의 데이터를 사용한다.

5.2 Discriminative Tasks

Table 2는 SQuAD와 GLUE 벤치마크에 대해 BART와 다른 모델들의 성능을 비교한 표이다.
직접적으로 비교 가능한 기준은 동일한 리소스로 훈련되었지만 다른 objective를 가진 RoBERTa이다.
BART는 대부분의 task에서 약간의 차이만 있을 뿐 비슷한 성능을 보인다.
Generation task를 위한 BART의 개선이 Discriminative tasks에서의 성능도 희생시키지 않았음을 보여준다.

5.3 Generation Tasks

BART는 표준적인 sequence-to-sequence 모델로 파인튜닝된다.
파인튜닝 동안 Label smoothed cross entropy loss를 사용하며, smoothing parameter는 0.1로 설정한다.
Beam size는 5로 설정하며 beam search 과정에서 중복된 trigrams를 제거한다.
Validation set에서 min-len, max-len, length penalty 를 설정하여 모델을 조정했다.

1) Summarization

서로 다른 특성을 가진 CNN/DailyMail , XSum 두가지 데이터셋에 대한 결과를 제시한다.
CNN/DM의 요약은 원본과 유사한 경향이 있다. Extractive 모델은 이 데이터셋에서 잘 동작하지만, 그럼에도 불구하고 BART는 기존 모든 작업보다 성능이 뛰어나다.
XSum은 매우 abstracive하며, extractive 모델은 성능이 떨어진다.
BART는 모든 ROUGE metric에서 6.0 정도 성능이 높으며, 번역의 질적으로도 품질이 뛰어나다(6장에서 다룸).

2) Dialogue

=대화 응답 생성

ConvAI2에 기반하여 대화 응답 생성 작업을 평가했다.
ConvAI2는 대화 에이전트가 반드시 persona와 이전 context를 고려하여 응답을 생성해야 하는 대화 응답 생성 작업이다.
- (따라서 단순히 이전 메세지에 반응하기만 하는 것이 아니라 persona의 특성도 고려해야 하고, 이전 context도 고려해야 함)
BART는 이 작업에서 이전 모델들에 비해 두 개의 자동화된 metrics(Valid F1, Valid PPL)에 대해 더 높은 성능을 보였다.
- 참고) Valid ~~: Validation 데이터 셋에 대해 평가된 성능

3) Abstractive QA

BART는 ELI5 작업에서 1.2 ROUGE-L을 통해 이전 작업들보다는 높은 성능을 달성했지만, 질문에 따라서 답변이 약하게 지정되는 문제가 있어서 ELI5는 여전히 어려운 문제로 남아있다.

5.4 Translation

WMT16 루마니아어-영어 번역 성능을 평가한다.
3.4에서 소개한 접근 방식에 따라 Transformer 인코더를 사용하여 루마니아어를 BART가 노이즈 제거를 통해 영어로 표현할 수 있는 representation으로 매핑했다.
결과는 Table 6과 같으며, baseline은 Transformer의 large setting이다.
Beam size = 5, length penalty α = 1
역번역 데이터 없이는 BART의 접근 방식이 덜 효과적이며 과적합 경향이 있다.
향후 연구에서는 추가적인 정규화 기법이 연구되어야 한다.

6. Qualitative Analysis

BART의 수치적인 성능을 넘어선 BART의 성능을 이해하기 위해 BART가 Generate하는 문장들을 분석한다.

Table 7은 BART가 생성은 summary를 보여준다.
BART의 output은 input에서 그대로 복사된 문구가 거의 없어 매우 추상적인 요약이라고 할 수 있다.
또한 output은 사실적이고 정확하며 input에 대한 background 지식(이름을 올바르게 완성하거나, 특정 기업이 어느 지역에서 운영된다거나 하는 등)을 잘 반영한다.
그러나 첫번째 예시에서 해당 연구가 Science지에서 출판되었다는 근거는 없다.
이러한 예시들은 BART Pre-training이 자연어와 generation에 대해 학습했음을 보여준다.

GPT, ELMo, BERT, UniLM, MASS, XLNet 등…
GPT: GPT는 leftward한 정보(과거 정보)만 다루므로 일부 task에서 문제가 될 수 있다.
ELMo: ELMo는 left-only 표현과 right-only 표현을 연결하지만, 이는 사전 훈련 단계에서 상호작용하지 않는다.
BERT: MLM을 도입해서 양방향 상호작용을 도입했지만, autoregressive하지 않기 때문에 생성 task에는 적합하지 않다.
UniLM: BERT를 다양한 마스킹 조합으로 파인튜닝하여 판별과 생성 task에서 모두 사용가능하지만, UniLM은 조건부 독립적이지만 BART는 autoregressive하다.
MASS: 연속된 토큰의 범위(span)를 마스킹한 입력 시퀀스를 누락된 토큰으로 구성된 시퀀스에 매핑한다.(BART와 가장 비슷하다고 볼 수 있음) 그러나 인코더와 디코더에 제공되는 토큰이 다르기 때문에 판별 task에서는 성능이 비교적 낮다.
XLNet: BERT를 확장하여 마스킹된 토큰을 순열 순서로 autoregressive하게 예측한다. 그 예측은 왼쪽이나 오른쪽 맥락을 모두 조건으로 할 수 있지만, BART는 생성 동안의 설정과 같이 left-to-right으로 동작한다.

8. Conclusion

우리는 손상된 문서를 원본으로 매핑하는 학습하는 pre-training 방식인 BART를 제안했다.
BART는 Discriminative 작업들에서 RoBERTa와 유사한 성능을 달성했다.
BART는 다양한 Generation 작업들에서 SOTA를 달성했다.
향후 작업: 특정한 end task들에 맞는 pre-training 방법을 개발하기 위해 문서를 손상시키는 새로운 방식을 찾아야 한다.

[논문 리뷰] Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (SBERT)(2019)

Tue, 12 Sep 2023 01:54:23 GMT

[논문 링크] From EMNLP 2019

0. Abstract

BERT(2018)와 RoBERTa(2019)는 semantic textual similarity(STS)와 같은 sentence-pair regression 작업들에서 SOTA 달성
그러나 몇몇 문제 존재:
- 문장의 쌍을 하나의 네트워크에 넣어야 하므로 막대한 연산 오버헤드 발생
- 10,000개 문장 모음에서 가장 유사한 문장 쌍 찾으려면 약 5,000만 번의 추론 연산 필요 → V100 기준 약 65시간
- BERT는 clustering 같은 비지도 학습뿐만 아니라 의미적인 유사도 검색에도 부적합하다는 것 의미
본 연구에서는 코사인 유사도를 사용해 문장 임베딩을 생성하기 위해 샴(Siamese) 네트워크과 Triplet 네트워크를 사용하는 BERT의 수정 버전인 Sentence-BERT(SBERT)를 제안
이를 통해 가장 유사한 문장 쌍을 찾는데 걸리는 시간이 65시간에서 약 5초로 단축되지만 BERT의 정확도는 유지
일반적인 STS 과제에서 SBERT와 SRoBERTa를 평가한 결과, 다른 최신의 문장 임베딩 방법보다 우수한 성능

1. Introduction

SBERT는 샴 네트워크와 triplet 네트워크를 사용하여 BERT를 수정하였다. 이를 통해 기존 BERT로는 수행하기 어려웠던 다운스트림 task인 대규모 의미 유사성 비교, 클러스터링, 정보 검색 등을 수행할 수 있다.
BERT는 cross-encoder 방식
- 한 네트워크에 한 쌍이 들어가 두 문장을 [SEP]로 나눠 연산 수행하므로 STS를 수행하려면 너무 많은 가짓수를 학습시켜야 함
- n개 문장을 pair로 학습시키려면 n(n-1)/2 → n=10,000이라면? 49,995,000 번 연산. V100으로 65시간…
위 방법처럼 하지 않고 각 단일 문장을 벡터 공간으로 매핑하고 유사도나 거리를 구하는 방법을 사용하기도 함
- 이런 방법은 과거에 제안된 GloVe 방법보다 낮은 성능이 나오기도 함
이런 BERT의 특정 task에서의 성능 저하점을 개선하고자 SBERT 제안

BERT는 pre-trained transformer 네트워크로, STS 벤치마크에서 SOTA를 달성했다
문장 쌍에 대한 입력은 [SEP]로 구분된 두 문장으로 구성
RoBERTa는 pre-train 과정을 조정하면 성능을 향상시킬 수 있음을 보여줌. XLNet은 BERT보다 나쁜 성능
그러나 BERT는 독립적인 단일 문장의 임베딩의 계산을 할 수 없음
- 그래서 문장을 통과시키고 결과의 평균을 구하는 등의 우회 방법 사용
문장 임베딩 모델에 대해 그동안 연구된 모델 여러가지 소개
- 오버헤드 크고, 오래걸리는 등 사용하기 힘들다고 함.
SBERT는 20분 이내에 tuning 가능하고 비슷한 문장 임베딩 방법보다 더 나은 결과를 얻을 수 있다

3. Model

논문에 없는 그림

SBERT에서는 레이어의 형태도 같고 가중치도 같은 sub-network를 두 개 이상 갖는 샴(siamese) 네트워크를 사용한다. 입력으로 두 개의 데이터가 들어오면 동일한 가중치를 공유하는 레이어를 각각 통과해 각 임베딩 벡터를 생성해 이 벡터 간 거리를 비교하는 방식으로 학습이 진행된다. 샴 네트워크 사용하는 SBERT는 BERT와 달리 sub network의 가중치가 동일하게 업데이트 되므로 빠르게 두 개 입력을 비교할 수 있다.

내부 pooling에는 BERT 출력의 [CLS], MAX 풀링, MEAN 풀링 3개를 사용할 수 있는데, 대부분의 경우에서 Mean 풀링이 성능이 가장 우수하게 나와 Mean 풀링을 사용한다

SBERT 아키텍처 구조는 학습 데이터에 따라 크게 3가지로 나뉜다:

Classification Objective Function
- Figure 1: For Classification
- 문장 임베딩 u, v와 그 둘의 element wise 차이를 concatenate 한 뒤 가중치를 곱한다. 이후 교차 엔트로피 오차(cross-entropy error loss)를 계산
Regression Objective Function
- Figure 2 : For Regression
- 문장 임베딩 u, v 사이의 코사인 유사도를 계산한 뒤 평균 제곱 오차(mean-squared-error loss)를 계산하여 목적 함수로 사용
Triplet Objective Function
- 중심 문장 a(anchor), 일치 문장 p(positive), 불일치 문장 n(negative)
- a와 p는 가까워지게 하고, a와 n은 멀게 학습시키는 목적 함수
- 논문에서는 ϵ=1 사용

3.1 Training Details

Train data
- SNLI - classification
  - 570,000 sentence pairs
  - labels: contradiction, entailment, neutral
- MNLI(MultiNLI) - regression
  - 430,000 sentence pairs
  - spoken and written text
batch size = 16
optimizer = Adam
learning rate = 2e-5
a linear learning rate warm-up over 10% of the training data
pooling strategy = MEAN

4. Evaluation - Semantic Textual Similarity

최신 모델에서는 종종 문장 pair 임베딩을 유사도에 매핑하도록 학습하는 경우가 있는데 이건 연산 횟수가 폭등한다.
대신 우리는 코사인 유사도로 구했다. 유클리드나 맨해튼도 해봤지만 비슷했다.

4.1 Unsupervised STS

STS에 대한 모델의 비지도 학습을 측정하지만 관련된 데이터셋으로 모델을 학습시키지는 않고 측정했다.

SBERT, SRoBERTa가 비지도학습에서도 높은 성능을 보임
Universal Sentence Encoder가 SICK-R에서 더 높긴하지만 Universal은 뉴스 데이터를 더 많이 학습해서 그렇다고 함
BERT의 [CLS]와 Glove는 성능이 떨어짐

4.2 Supervised STS

STS 데이터셋으로 학습을 진행하고 성능 비교한 결과이다. 학습은 앞선 세가지 구조 중 regression으로 진행했다.

표 세번째 섹션에 나온 것과 같이 NLI에 대해 학습하고 STS에 대해 다시 학습하니까 성능 향상 폭이 매우 컸다
사실 이 부분은 SBERT나 SRoBERTa보다 BERT를 사용한게 더 성능이 우수한데 논문에선 언급이 없음 → 근데 계산의 속도 차이가 워낙 커서 이 정도 성능 차이를 충분히 감수할 만 하지 않을까 생각

AFS는 논쟁이 될만한 3가지 주제를 다루는 데이터셋(총기 규제, 동성 결혼, 사형)
기존 STS와 다르게 동일한 주장과 동일한 이유를 다루고 있는지도 라벨링의 기준이 됨 → AFS가 더 성능 올리기 어려움
1) 10-fold cross validation, 2) 세가지 주제 중 두 주제를 학습에 사용하고, 나머지 한 주제를 평가에 사용하는 방식

SBERT는 기존 BERT와 근접한 성능을 보이고 있음

4.4 Wikipedia Sections Distinction

Wikipedia 문서 내에서 한 문서안이라도 같은 섹션에 있는 문장이면 다른 섹션에 있는 문장보다 더 가까울 것이라 가정하고 만든 데이터셋
Triplet으로 학습하므로 Anchor(기존 문장), Positive(같은 섹션 문장), Negative(다른 섹션 문장)으로 구성되어 있음

Accuracy는 Anchor가 어떤 문장에 더 가까운지 구별하는 척도

5. Evaluation - SentEval

7개의 classification task를 갖는 SenEval에 대해 성능을 추가로 측정
MR, CR, SUBJ, MPQA, SST, TREC, MRPC

7개 중 5개에서 SOTA에 버금가는 성능
transfer learning이 SBERT의 목적이 아님에도 불구하고 SBERT의 문장 임베딩 성능이 그만큼 뛰어나다는 것을 알 수 있다

6. Ablation Study

Pooling에서 Max, Mean, BERT의 [CLS] 중 왜 Mean을 썼는가?
목적함수 식은 왜 지금같이 이루어 지는가?
등에 대한 설명

성능 평가 해보니 지금 같이 하는게 제일 좋았다.
특히 풀링에서 Mean 쓰는 것은 BiLSTM의 풀링에서는 Max를 쓰는게 유리한 것과는 대조적이다

7. Computational Efficiency

문장 간의 유사도 계산은 많은 연산이 필요하다
SBERT는 이를 많이 단축시켰다
근데 GPU로 병렬처리해서 연산하면 더 빠르다

8. Conclusion

기존 BERT를 사용한 문장의 임베딩 성능은 너무 낮았다.
그래서 우리는 샴 네트워크과 triplet 네트워크를 사용한 SBERT를 제안했다.
이 모델은 문장 임베딩 성능 개선을 보였고 연산 시간을 단축했음을 보였다.

[논문 리뷰] Attention Is All You Need | Transformer (2017)

Sun, 03 Sep 2023 08:38:42 GMT

[논문 링크]

From NIPS 2017

0. Abstract

지금까지의 대부분 시퀀스 변환(sequence transduction) 모델들은 복잡한 RNN or CNN을 기반으로 한다.
- Encoder + Decoder 구조
가장 성능이 뛰어난 모델들도 인코더와 디코더를 Attention mechanism으로 연결한 것
우리는 순환 구조와 합성곱 구조를 완전히 없애고 어텐션으로만 구성된 새로운 모델을 제안한다: Transformer
트랜스포머는 더 성능이 우수하면서도 병렬화가 가능하고 학습 시간이 짧다.
트랜스포머는 제한된 학습 데이터로 다른 task에도 일반화해서 적용 가능함을 확인했다. (ex. English constituency parsing)

1. Introduction

그동안 기계 번역 같은 transduction problem에서는 RNN, LSTM, GRU가 SOTA를 달성했다.
하지만 RNN 계열의 모델은 입력과 출력 시퀀스의 position을 순차적으로 계산하기 때문에 병렬 처리 및 일괄 처리가 제한됨
- h_t를 계산하기 위해 h_t-1과 t-1(input)이 제공되어야 함
- t 이전의 모든 출력이 차례로 계산되어야지만 최종적인 output 생성 가능
- 이러한 문제는 시퀀스의 길이가 더 길수록 더 문제
어텐션 매커니즘은 입출력 시퀀스의 길이에 상관없이 사용할 수 있어 많이 사용되지만, 대부분 RNN계열과 함께 사용됨.
그래서 우리는 RNN없이 어텐션만을 사용하는 transformer를 제안, 짧은 훈련 시간만으로도 SOTA 달성한다.

2. Background

(RNN 계열 모델들의 특징인) Sequential한 연산을 줄이려는 시도는 다양한 모델들에서 이루어져 왔다.
- Ex) Extended Neural GPU, ByteNet, ConvS2S
이런 모델들은 CNN을 basic building block으로 사용하고, 모든 input과 output position에 대해 병렬 연산을 시도했다.
- 하지만 이후 input과 output의 position을 연결하는데 필요한 연산이 너무나 폭등했고,
- 이로 인해 멀리 떨어진 position 간의 종속성(dependency)을 학습하는 것이 더욱 어려워졌다.
- Transformer에서는 이 연산을 줄였지만 multi-head attention을 통해 그 부작용을 상쇄했다.
Self-attention은 sequence의 representation을 계산하기 위해 한 sequence에서 다른 sequence를 연결하는 방식
- 서로가 서로에게 가중치 부여
- 다른 다운스트림 작업에서 성공적으로 사용됨
End-to-end memory network는 순차적인 recurrence 보다 recurrent attention에 기반하고, 간단한 언어의 question answering이나 language modeling task에서 좋은 성능을 보인다.
그럼에도 불구하고 Transformer는 순차적인 RNN이나 CNN을 사용하지 않고 입출력의 표현(representation)을 위해 오로지 attention에만 의존하는 최초의 모델이다.

3. Model Architecture

대부분의 시퀀스 변환 모델은 encoder-decoder 구조를 가진다.
인코더는 (x1, x2, … , x_n)이 입력 시퀀스로 주어지면 연속적인 표현인 Z = (z1, z2, …, z_n)으로 매핑한다.
디코더는 Z를 입력으로 받아 출력 시퀀스 (y1, y2, … , y_m)을 한번에 한 요소씩 생성한다.
transformer는 auto-regressive: 이전 단계에서 생성된 출력을 현재 단계의 추가적인 입력으로 사용하므로

트랜스포머의 전체적인 구조는 위와 같음

3.1 Encoder and Decoder Stacks

인코더
- 6개의 동일한 레이어가 stack된 구조
- 각 레이어는 두 개의 sub-layer로 구성
  1. Multi-head self-attention mechanism
  2. Position-wise Fully Connected Feed-Forward Network
- 각 sub-layer에는 residual connection과 layer normalization을 적용
  - LayerNorm(x+Sublayer(x))
  - residual connection을 용이하게 하기 위해 sub-layer와 embedding layer의 output의 차원은 512
    - residual connection 하려면 input과 연결된 output의 차원이 같아야 하므로

디코더
- 인코더처럼 6개의 동일한 레이어가 stack된 구조
- 인코더와 다르게 각 레이어에는 하나의 sub-layer가 추가됨
  1. Masked Multi-Head Self-Attention mechanism
    1. 다음 스텝 position은 attention을 하지 않도록 masking
    2. i번째 position을 예측할 때는 i보다 작은 position의 output만을 사용
  2. Multi-Head Self-Attention mechanism
    1. Encoder의 output에 대해 attention 연산을 수행
  3. Position-wise Fully Connected Feed-Forward Network
- 인코더와 비슷하게 각 sub-layer에는 residual connection과 layer normalization이 적용

3.2 Attention

Attention은 query와 key-value 쌍 세트를 출력에 매핑하는 것이라고 할 수 있다. outputr은 value의 weighted-sum으로 계산된다.

3.2.1 Scaled Dot-Product Attention

Transformer에서 수행되는 attention은 ‘Scaled Dot-Prodoct Attention’이라고 부른다.
- 이는 query와 key들을 모두 내적한 뒤 √dk로 나누어 주고, softmax 연산을 적용하는 것

보통 자주 쓰이는 attention mechanism에는 Additive attention과 dot-product(multiplicative) attention 두가지가 있음
1. Additive attention
  1. Single hidden layer로 구성된 feed-foward network를 사용해서 단어 간 일치도 계산
2. Dot-product attention
  1. Scaling 된 점을 빼면 동일
- 이론적 복잡도는 두 attention이 비슷하지만 실제 연산 속도와 공간 효율도가 dot-product attention이 휠씬 좋다.
- dk값이 크면 내적이 커져서 기울기가 매우 작아지는 것으로 의심됨 → 스케일링으로 조정했다.

3.2.2 Multi-Head Attention

단일 구조의 attention보다 h개의 attention을 선형으로 연결하는 것이 더 성능적으로 유리한 것을 확인했다. (h=8)
attention 연산들은 병렬로 수행되어 각각의 output을 생성하고 concat되어 최종 값이 된다.
Multi-head attention은 서로 다른 위치에 있는 단어에 집중(attention)하는 성능을 향상시켰다.
- 8개의 Representation subspaces를 제공하여 여러 position의 representation에 대해 정보를 결합하여 attention 연산을 수행할 수 있기 때문
Head의 output에서 차원이 축소되기 때문에, 총 계산 비용은 결론적으로 single head attention 과 유사하다.

3.2.3 Application of Attention in our Model

Transformer에서는 Multi-head attention을 세가지 방식으로 사용했다:

‘Encoder-decoder attention’ layer
1. 이 레이어의 query는 이전 단계의 decoder layer로부터 오고, key & value는 encoder의 ouput으로부터 온다.
2. 이는 decoder의 모든 position이 input sequence의 모든 position을 사용할 수 있게 한다.
‘Encoder Self-attention’ layer
1. Self-attention에서는 모든 query, key, value가 같은 곳에서 온다. 즉, 이전 단계 encoder의 출력이 현재 단계 encoder의 입력이 된다.
2. 따라서 각 encoder layer는 이전 layer까지가 처리한 정보를 활용할 수 있다.
‘Masked Decoder Self-attention’ layer
1. Auto-regressive한 속성(출력값을 다시 입력으로 사용하는 것)을 보존하기 위해 뒤쪽의 position 정보를 참조하는 것을 막아주어야 하는데, transformer에서는 이를 위해 그러한 값들에 해당하는 softmax 값을 -∞로 마스킹했다. (논문에 없는 그림)

3.3 Position-wise Feed-Forward Networks

Encoder와 Decoder는 둘다 각각 Fully Connected Feed-Forward Network를 통과한다.
동일한 구조를 갖고 있는 network를 encoder와 decoder에서 갖고 있어서 position-wise라고 부른다.
이 구조는 선형 변환 → ReLU → 선형 변환의 순서로 이루어진다.

(논문에 없는 그림)

위 계산은 kernel size =1인 convolution을 두번 수행한 것으로 이해할 수도 있다.

3.4 Embeddings and Softmax

다른 시퀀스 변환 모델 처럼 입력과 출력 토큰을 d_model 차원으로 변환시키기 위해 학습된 embedding을 사용했다.
선형 변환과 softmax도 학습된 것을 사용했다.
embedding layer 두개와 softmax 전 선형변환에서는 동일한 weight matrix를 사용한다.

3.5 Positional Encoding

Transformer는 recurrent나 convolution을 사용하지 않으므로 시퀀스의 순서 정보를 사용하기 위해서는 토큰의 상대 or 절대 정보를 넣어줘야 할 필요가 있다.
그래서 encoder와 decoder의 embedding에 Positional Encoding을 더했다.
Positional Embedding은 d_model과 같은 512의 차원을 가지며, 이는 입력 임베딩과의 결합을 위한 것이다.

position이 홀수일 때는 cos, 짝수일 때는 sin을 사용.

4. Why Self-Attention

Self-attention을 Recurrent와 Convolution layer와 비교한다.
세가지 측면에서 self-attention을 쓰는 것이 유리했다.
1. Layer 당 연산 복잡도
2. 병렬화될 수 있는 연산의 양
  
  → 순차적인 연산(sequential operation)의 숫자가 최소가 되는 방향으로 계산함
3. network 내 장거리 종속성(long-range dependency)의 최대 길이
  1. 장거리 종속성을 학습시키는게 시퀀스 변환 모델들에게는 큰 과제였다.
  2. 이 학습에 영향을 미치는 요소는 순방향 및 역방향 신호가 통과해야 하는 경로의 ‘길이’이다.
  3. input과 output sequence의 position 사이 거리가 짧을수록 장거리 종속성을 배우기 더 쉽다.
  4. 따라서 우리는 input / output sequence의 position 사이의 maximum 거리 길이도 구해서 비교한다.

5. Training

Transformer의 훈련 방식에 대해 설명한다.

5.1 Training Data and Batching

Training Data
- English-German dataset: Standard WMT 2014 Eng-Ger 450만 문장쌍
  - Byte-pair 인코딩 사용
- English-French dataset: WMT 2014 Eng-Fre 3600만 문장
  - Word-piece 임베딩 사용
Batching
- 각 배치는 대략 25000 source 토큰과 25000 target 토큰을 포함하는 문장 쌍들을 담고 있다.

5.2 Hardware and Schedule

P100 8개로 학습 돌렸다.
base model: 100,000 steps or 12시간 (step 당 0.4초)
big model: 300,000 steps(3.5일) (step 당 1초)

5.3 Optimizer

Adam optimizer라는 최적화 알고리즘을 사용했다. (β1 = 0.9, β2 = 0.98, ϵ = 10−9)
learning rate는 다음과 같은 공식에 의해 조절했다.

위 공식은 warmup_steps(=4000) 단계에서는 learning rate를 선형적으로 증가시키고, 이후 단계에서는 step number의 역제곱근에 비례하여 leaning rate를 감소시키는 것을 의미한다.

5.4 Regularization

Residual Dropout
- 각 sub-layer의 출력마다 그 출력이 다시 add & norm 되기 전에 dropout을 해준다.
- 또한 embedding과 positional encodding 의 합들에도 dropout을 적용한다.
- Base model에 사용한 dropout값 Pdrop = 0.1.
Label Smoothing
- ϵls = 0.1의 label smoothing 값을 적용했다.
- 이는 모델이 더 불확실한 것을 학습하지만 오히려 모델의 정확성과 BLEU 점수를 향상시킨다.

6. Results

6.1 Machine Translation

Eng-Ger 번역에서
- Big model은, (앙상블을 포함한) 기존 모델보다 2.0이 넘는 BLEU의 향상을 보이면서 28.4의 SOTA를 달성했다.
- Base model조차도, 기존 모델들의 성능을 능가하며 training cost는 절약했다.
Eng-Fre 번역에서
- Big model은, 41.8의 BLEU를 기록하며 SOTA를 달성했는데, 그러면서도 훈련 비용은 기존 SOTA 모델들보다 1/4로 줄였다.
  - Pdrop=0.1 사용했다(0.3 대신)
  - 20 checkpoint의 평균으로 얻어진 single model을 사용했다.
- Base model은, 5 checkpoint의 평균으로 얻어진 single model을 사용했다.
Beam Search를 사용했다.
- Beam size = 4, Length Penalty α=0.6
- 위 파라미터는 development set에 대한 실험 이후에 결정됐다.
- 번역 시 최대 출력 길이는 입력 길이 +50이지만 최대한 짧게 출력한다.
- Beam Search?
  - 확률이 높은 K개의 선택지만을 메모리에 관리 하면서 최상 우선 탐색을 진행하는 기법
  - 즉 Best First Search에서 기억 노드의 수를 제한하는 것

    [(논문에 없는 그림)](https://d2l.ai/chapter_recurrent-modern/beam-search.html)

    - Length Penalty: 번역 길이가 길어지면 페널티를 주는 가중치
    - Beam size를 크게하면 번역 성능이 올라가지만 디코딩 속도가 낮아짐

6.2 Model Variations

Transformer의 여러 구성 요소들의 중요성을 평가하기 위해 base model을 다양하게 수정해서 development set인 newstest2013에서 Eng-Ger 번역의 성능 변화를 측정했다.
Beam search는 사용했지만 Checkpoint averaging은 사용하지 않았다.

(A) 행에서는 3.2.2와 같이 Multi-head Attention의 head 수를 변경했다. single-head attention은 best setting 보다 BLEU가 0.9 낮지만, head가 너무 많으면 또 BLEU가 떨어진다.
(B) 행에서는 Attention의 key size(차원)인 d_k 값을 줄이면 모델의 성능이 줄어든다는 것을 알 수 있다. 이는 dot-product attention 보다 더 정교한 compatibility function이 존재할 수 있음을 시사한다.
(C) 행에서는 예상대로 더 큰(bigger) 모델이 더 좋다(better)는 것을 알 수 있다.
(D) 행에서는 dropout이 과적합을 피하는 데에 좋다는 것을 알 수 있다.
(E) 행에서는 기존에 사용한 Sinusoidal positional encoding을 learned positional encoding으로 바꿨는데 성능이 거의 동일했다.

6.3 English Constituency Parsing

Constituency Parsing
- 구 단위 구문분석 (parsing에는 dependency parsing도 있음)
- 주어 + 동사구 → 동사 + 명사구 → 정관사 + 명사
  
  (논문에 없는 그림)
Transformer가 번역이 아닌 다른 작업에도 일반화할 수 있는지 평가하기 위해 영어 구 단위 구문 분석에 대한 실험을 수행했다.
이 작업은 구조적인 제약이 있고 입력보다 휠씬 더 긴 출력을 낸다는 특수한 과제를 갖고 있다.
WSJ의 문장에 대해 추가 학습을 시켰다. 일부는 반지도 학습을 시켰다.

작업 별 튜닝이 부족했음에도 불구하고 transformer는 RNN 문법[8]을 제외하고 이전 모든 모델들보다 더 나은 성능을 보여준다.
RNN Seq2Seq[37]와 달리 Transformer는 40,000개의 WSJ 문장에 대해서만 훈련하는 경우에도 BerkeleyParser[29] 보다 성능이 뛰어나다.

7. Conclusion

우리는 전적으로 Attention에만 의존한 시퀀스 변환 모델을 처음으로 제안했다.
- 가장 흔하게 쓰이던 encoder-decoder 아키텍처를 multi-head self attention으로 바꿨다.
번역 작업에서, Transformer는 recurrent나 convolution을 기반으로 하는 아키텍처보다 휠씬 빠르게 훈련할 수 있다. 우리는 Eng-Ger과 Eng-Fre에서 SOTA를 달성했다.
우리는 transformer를 텍스트 말고도 이미지, 오디오, 비디오 같은 대규모 입출력을 효율적으로 처리하기 위해 attention mechanism을 더 살펴볼 것이다.

[논문 리뷰] BLEU: a Method for Automatic Evaluation of Machine Translation (2002)

Wed, 30 Aug 2023 09:43:38 GMT

[논문 링크]

#참고 기계 번역 = Machine Translation = MT

인간의 번역 = Human Translation = HT

기존에 사용되던 metric (논문 외)

1. Perplexity (PPL)

: a metric that quantifies how uncertain a model is about the predictions it makes

→ 선택 가능한 경우의 수를 의미 (분기 계수, Branching Factor)

특정 시점에서 평균적으로 몇 개에 선택지를 갖고 고민했는가?
더 낮은 PPL을 갖는 모델이 같은 테스트 데이터에 대해 더 일치할 것임

PPL의 유의점

1) PPL 값 낮다는 것은 오직 test 데이터와의 일치율이 높은 것만을 의미할 뿐

그게 사람이 느끼기에 진짜 좋은건 아닐 수도

2) PPL 수치는 테스트 데이터의 좌우됨

테스트 데이터가 달라지면 PPL 달라짐
test 데이터 자체도 양이 충분해야 함

2. Cross Entropy

: a measure of the difference between two probability distributions for a given random variable or set of events → 실제 데이터와 모델이 계산한 데이터의 확률 분포의 차이

0. Abstract

기계 번역(Machine Translation, MT)에 대한 사람의 평가는 포괄적이지만 비용이 많이 들고 시간이 오래 걸린다(수 주~ 수 개월). 따라서 우리는 빠르고 저렴하며 언어에 구애받지 않는 자동화된 기계 번역 평가 방법을 제안한다.

BiLingual Evaluation Understudy → BLEU

1. Introduction

선행 연구

1994, 1999 - MT에 대한 인간 평가는 변역의 정확도, 충실도, 유창성 등 여러 측면 고려함

2001 - MT 평가 기법에 대한 문헌 제공됨

1999 - MT를 인간이 평가하는 방식은 비싸다

기계 번역 성능 확인 피드백 많지만 인간 평가는 한계(병목 현상) → 그래서 BLEU 제안

Main Idea

: 번역된 문장이 인간이 한 전문적 번역에 가까울수록 성능이 좋은 것

그러기 위해서는?

수치화된 ‘번역 근접성’ 지표 확보
좋은 품질의 인간 번역 말뭉치 확보

문장의 번역은 정답이 없고 여러 번역이 존재할 수 있다. 인간은 좋은 번역, 나쁜 번역 구분 가능하지만 기계는 그렇지 않음. 다만 번역 문장과 레퍼런스 문장 간의 일치하는 단어나 구의 개수로 좋은 번역인지 판단 가능

2. The Baseline BLEU Metric

1) Modified n-gram precision의 등장 배경

Example

Candidate 1: the the the the the the the.

Candidate 2: The cat is on the mat.

Reference: There is a cat on the mat.

n-gram	1-gram	2-gram	3-gram	4-gram
Cand. 1	7/7	0/6	0/5	0/4
Cand 2	5/7	2/6	1/5	0/4

Modified n-gram: Reference에서 한번 나온 단어는 더 이상 count하지 않음

→ 반복되는 단어에 대한 penalty 부여 가능

Modified n-gram	1-gram	2-gram	3-gram	4-gram
Cand. 1	7/7 → 2/7	0/6	0/5	0/4
Cand 2	5/7 → 5/7	2/6	1/5	0/4

2) Precision을 기하평균 하는 이유

n-gram에서 n 값이 증가할수록 정밀도가 지수적으로 떨어지는데, 일반적인 가중 산술 평균은 이를 반영하지 못함
로그의 가중 평균을 사용하는 기하 평균 방식을 사용(Geometric mean)
최대의 n-gram 값은 4가 적절함(실험적으로 얻은 결과)

3) Brevity Penalty의 등장 배경

→ Reference에 있는 모든 단어를 다 사용한다면? or 문장이 너무 짧다면?

Candidate 1: I always invariably perpetually do.

Candidate 2: I always.

Reference 1: I always do.

Reference 2: I invariably do.

Reference 3: I perpetually do.

	1-gram	2-gram	3-gram	BP
Cand. 1	5/5	0/6	0/3	1 (c>r)
Cand 2	2/2	1/1	-	0.x (c

사실 reference 보다 긴 candidate는 이미 완전히 일치 하지 않는 이상 modified n-gram precision 의해 패널티를 받고 있음 → 그래서 짧은 문장에 패널티를 주는 BP 도입

최종적인 BLEU 계산

$$ w_{n}: weight (w_{n}>0)

$$ p_{n}: precision

0≤ BLEU ≤ 1 → 1에 가까울수록 더 좋음
레퍼런스와 동일하지 않는 이상 1일 수는 없음

3. The BLEU Evaluation

S1 / S2 / S3 : 상업적인 시스템에 의한 기계 번역
H1 : 중국어, 영어 전문성이 부족한 인간 번역
H2 : 영어 전문성이 있는 인간 번역
S1

Table 1을 보고 드는 의문

BLEU 지표 차이를 신뢰할 수 있나?
BLEU 지표의 분산은 얼마인가?
500개 문장이 달라진다면 여전히 S3가 S2보다 나을까?

→ 그래서 25개로 구성된 20개 블록으로 나누고 paired t-test 진행

Deviation(표준편차)이 크지 않음

4. The Human Evaluation

Evaluated by rating from 1 (very bad) ~ 5 (very good)
Figure 3 : Monolingual group - 10 native English speakers
Figure 4 : Bilingual group - 10 native Chinese Speakers (lived in US for several years)

H1-S3의 수치가 큼 → HT를 높게 평가함

5. BLEU vs The Human Evaluation

각 점이 왼쪽에서 오른쪽으로 갈수록 S1, S2, S3, H1, H2 의미
Monolingual 상관관계 계수: 0.99
Bilingual 상관관계 계수: 0.96
특히 BLEU가 인접한 S2, S3 구별해낸게 흥미로움

BLEU와 monolingual은 높은 상관 관계
MT와 HT에는 수치적으로 차이 존재
Bilingual은 H1, H2 큰 차이 두지 않음

6. Conclusion

텍스트 말뭉치에서 개별적인 문장 판단의 오류를 평균화함으로써 인간이 하는 판간과 높은 상관 관계를 수치화함
MT R&D 사이클의 가속화를 기대
텍스트 summarization 평가나 비슷한 NLG task에서 사용을 기대

tu11p

[논문 리뷰] Exploring Expert Failures Improves LLM Agent Tuning (2025)

3줄 요약

0. Abstract

1. Introduction

2. Background

3. Methodology

3.1 Motivation

3.2 Exploring Expert Failure (EEF)

4. Experiments

4.1 Experimental Settings

4.2 Main Results

4.3 Ablation Studies

5. Related Work

6. Conclusion and Future Work

[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)

서론

DeepSeek-R1 의 구조

DeepSeek-R1-Zero

DeepSeek-R1

Distillation (증류 모델)

DeepSeek-R1의 성능 (초간단)

DeepSeek-R1이 시사하는 것

[논문 리뷰] Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training (2025)

1. Abstract, Introduction

2. Preliminary

2.1 Task Formulation

2.2 Monte Carlo Tree Search

3. Method

3.1. Phase 1: Model-Guided Reflection Trajectory Generation

Reflection Trajectory Definition

Trajectory Collection with MCTS

Transition Point Determination

3.2. Phase 2: Iterative Self-Training with Revision Trajectories

Objective

Mixed training strategy

Loss function

Iterative Training

4. Experiment

4.1. Interactive and Agentic Environments

4.2. Experiment Setting

1. Data Split

2. MCTS Settings

3. Training Settings

4. Baselines

5. Evaluation Metrics

4.3. Main Results

4.4. Findings with Analysis

Finding 1 : Training with trajectories from Agent-R can outperform using optimal trajectories.

Finding 2 : Agent-R can effectively provide language agents with self-reflection capabilities.

Finding 3 : Training with revision trajectories helps agents more easily identify and correct erroneous actions.

Finding 4 : Training with revision trajectories helps agents avoid getting stuck in loops

Finding 5 : Multi-task training is a more effective strategy for Agent-R

5. Related Work

1. Agent Learning in Interactive Environments

2. Self-Correction for Large Language Models

6. Conclusion

[논문 리뷰] Decision Transformer: Reinforcement Learning via Sequence Modeling (2021)

0. Abstract

1. Introduction

2. Preliminaries

2.1 Offline Reinforcement Learning

2.2 Transformers

3. Method

Trajectory representation

Architecture

Training

Evaluation

Pseudocode

4. Evaluations on offline RL benchmarks

4.1 Atari

4.2 OpenAI Gym

5. Discussion

5.1 Does Dicision Transformer perform behavior cloning on a subset of the data?

5.2 How well does Decision Transformer model the distribution of returns?

5.3 Does Decision Transformer perform effective long-term credit assignment?

5.4 Can transformers be accurate critics in sparse reward settings?

5.5 Does Decision Transformer perform well in sparse reward settings?

6. Related Work

Offline RL