sumin_baek.log

[논문리뷰] Mixtral of Experts (2024)

Tue, 05 May 2026 12:57:05 GMT

1. 도입: 모델 스케일링의 딜레마

배경: 최근 자연어 처리 분야에서 모델의 성능을 높이기 위해 파라미터(매개변수) 크기를 무작정 키우는 추세가 지속되었습니다.
문제점: 연산량이 기하급수적으로 증가하여 추론 속도가 느려지고 막대한 컴퓨팅 비용이 발생합니다.
해결책 제시 (MoE): 모든 데이터를 처리할 때 전체 신경망을 다 쓰는 대신, "입력된 데이터에 가장 적합한 일부 네트워크만 활성화하자"는 희소(Sparse) 모델링 기법이 다시 주목받게 되었습니다.

2. 핵심 비유: '만능 천재 1명' vs '전문가 팀과 팀장'

MoE(Mixture of Experts)의 구조는 일상적인 업무 배분 방식과 같습니다.

전통적 모델 (Dense Model): 모든 문제를 한 명의 만능 천재가 처음부터 끝까지 다 풉니다. 똑똑해질수록 덩치가 커져서 대답이 느려집니다.
MoE 모델 (Sparse Model): 8명의 분야별 전문가(Expert)와 1명의 라우터(Router, 팀장)로 구성됩니다.
작동 방식: 입력이 들어오면 라우터가 문제를 분석하여 가장 잘 풀 수 있는 전문가 2명에게만 일을 배분합니다. 나머지 6명은 연산에 참여하지 않고 쉬고 있으므로 계산 자원을 크게 절약할 수 있습니다.

3. Mixtral 8x7B 아키텍처 상세

Mixtral 8x7B는 기존 트랜스포머(Transformer) 구조에서 피드포워드(FFN) 블록을 8개의 전문가 네트워크로 교체한 모델입니다.

토큰 단위 라우팅: 문장이 아닌 '단어(Token)' 단위로 전문가를 매번 새로 평가하고 할당합니다.
수식적 이해: 라우터는 입력값 $x$에 가중치를 곱해 상위 2개의 전문가를 확률적으로 선택(Softmax)합니다. 선택된 두 전문가의 결과값을 가중합하여 최종 출력을 만듭니다.

$y = \sum_{i=0}^{n-1} \text{Softmax}(\text{Top2}(x \cdot W_g))_i \cdot \text{SwiGLU}_i(x)$
연산 효율성 (Active vs Sparse)
- 전체 파라미터 (Sparse): 470억 개 (47B) - 메모리에 올려두어야 하는 총용량.
- 활성 파라미터 (Active): 130억 개 (13B) - 특정 단어를 처리할 때 실제로 연산되는 용량.

4. 객관적 성능 지표

단순히 연산량만 줄인 것이 아니라 훨씬 큰 단일 모델들을 뛰어넘는 결과를 보여주었습니다.

비교 우위: 활성 파라미터가 약 5배 더 큰 Llama 2 70B와 비교했을 때 대부분의 벤치마크(상식 추론, 세계 지식 등)에서 동등하거나 더 높은 성능을 기록했습니다.
강세 분야: 특히 수학(Math)과 코드 생성(Code), 다국어 처리(프랑스어, 독일어 등) 능력이 기존 모델 대비 압도적으로 향상되었습니다.

5. 라우팅 분석: 전문가는 어떻게 역할을 나눌까?

주제별 분할 (X): 수학, 생물학, 철학 등 도메인(주제)에 따라 전담 전문가가 나뉘지 않았습니다.
구문/문법별 분할 (O): 특정 단어(예: 파이썬의 self, 영어의 Question)나 코드의 '들여쓰기(Indentation)' 등 텍스트의 구문적 구조(Syntax)에 따라 동일한 전문가가 반응하는 경향이 강했습니다.
시간적 지역성: 방금 1번 전문가를 사용했다면, 바로 다음 단어에서도 1번 전문가를 연속으로 사용할 확률이 매우 높게 나타났습니다.

6. 한계점 및 비판적 평가

MoE 구조가 완벽한 해결책은 아니며 실무 적용 시 다음과 같은 명확한 한계가 존재합니다.

VRAM (그래픽 메모리) 병목: 추론 연산량은 13B 수준으로 가볍지만 어떤 전문가가 호출될지 모르기 때문에 전체 47B 파라미터를 모두 GPU 메모리(VRAM)에 상주시켜야 합니다. 즉 하드웨어 메모리 요구량은 여전히 막대합니다.
전문가 붕괴 및 로드 밸런싱: 모델을 학습시킬 때 라우터가 일을 잘하는 특정 소수의 전문가에게만 계속 데이터를 몰아주는 현상이 발생할 수 있습니다. 이를 방지하기 위해 각 전문가가 고르게 학습되도록 강제하는 보조 손실 함수 등 까다로운 추가 최적화 과정이 필수적입니다.
분산 처리의 오버헤드

여러 GPU에 전문가를 나누어 배치할 경우, GPU 간에 토큰 데이터를 주고받는 통신 비용이 발생하여 전체 시스템이 지연될 수 있습니다.

[논문리뷰] From Local to Global: A GraphRAG Approach to Query-Focused Summarization

Tue, 05 May 2026 12:55:56 GMT

0. Abstract

기존 RAG 는 “데이터셋의 주요 트렌드는 무엇인가?” 와 같은 전역적 질문에는 답변을 잘 못함
그래서 그래프 기반 RAG 제안
LLM 으로 엔티티 지식 그래프 구축하고 계층적 요약본을 사전에 생성하여 map-reduce 방식으로 최종 답변 도출
약 100만 토큰 규모의 데이터셋 테스트(GPT-4 기반) 결과, 기존 RAG 보다 낫다

1. Introduction

기존 기술의 한계
- Vector RAG의 분절성: 쿼리와 유사한 텍스트 조각에만 의존하는 Local Search 방식. 특정 사실 검색엔 좋지만 전체 주제를 묻는 포괄적 질문엔 취약
- QFS(쿼리 중심 요약)의 한계: 문서 요약은 가능하나 일반적인 RAG 수준의 방대한 문서량엔 시스템적 적용 불가
해결책
- 엔티티 지식 그래프 구축: LLM으로 원본 문서에서 핵심 엔티티와 관계를 추출해 지식 그래프 생성
- 커뮤니티 요약 사전 생성: 연결된 엔티티들을 그룹화하고 Bottom-up 방식으로 각 커뮤니티 단위 요약본을 사전 생성해 둠

2. Background

최근 LLM을 사용해서 복잡한 분야에서 인간과 유사한 센스메이킹을 자동화하려는 시도가 이루어지고 있으나 전체 텍스트 말뭉치에 대한 질문에 답하는 것은 여전히 어려움
기존 RAG 방식은 전체 데이터셋에 대한 포괄적인 이해를 요구하는 질문에는 적합하지 않음
이 논문에서는 이러한 한계를 극복하기 위해 Graph RAG 제안

3. Methods

source documents → text chunks
- 긴 텍스트를 청크로 분할
- 트레이드 오프: 청크를 크게하면 LLM 호출 비용이 절감되지만 앞부분 정보 누락 될 수 있다. 반대로 청크를 작게하면 LLM 호출 비용은 증가하지만 정보 보존율 높다.
text chunks → entities & relationships
- LLM 을 활용해서 텍스트 내 핵심 정보 추출, 요약
- 엔티티(인물, 장소, 조직 등), 관계(엔티티 간의 연결성), 주장(관련된 사실 및 이벤트) 등
entities & relationships → knowledge graph
- 추출된 정보들을 하나의 네트워크(그래프)로 병합
- 중복 엔티티는 단일 노드로 통합, 빈출 관계일수록 높은 가중치 부여
konwledge graph → graph communities
- 커뮤니티 감지 알고리즘을 사용하여 그래프를 노트 커뮤니티로 분할
- 이 파이프라인에서는 Leiden 알고리즘 사용
graph communities → community summaries
- Leiden 계층 구조의 각 커뮤니티에 대해 보고서 형식의 요약 생성
- 하위 레벨 커뮤니티 요약은 상위 레벨 커뮤니티 요약을 생성하는데 사용됨
- 상위 레벨 커뮤니티는 모든 요소 요약이 컨텍스트 창의 토큰 제한 내에 맞는 경우, 하위 레벨 커뮤니티와 동일하게 진행하여 커뮤니티 내 모든 요소를 요약
community summaries → community answers → global answer
- 사용자 쿼리가 주어지면 이전 단계에서 생성된 커뮤니티 요약을 사용하여 다단계 프로세스로 최종 답변 생성

4. Analysis

테스트 데이터셋
- 팟캐스트 대본: 기술 리더들의 인터뷰 텍스트 (약 100만 토큰)
- 뉴스 기사: 다양한 카테고리의 10년 치 뉴스 기사 모음 (약 170만 토큰)

비교 대조군
- SS (Vector RAG): 기존의 단순 유사도 기반 검색 방식 (비교의 기준점)
- TS (Text Summarization): 지식 그래프 없이 원본 텍스트 전체를 Map-Reduce 방식으로 무작정 요약하는 방식
- C0 ~ C3 (GraphRAG 계층): 지식 그래프의 커뮤니티 계층별 요약
  - C0 (Root-level): 최상위 계층, 가장 넓은 범위의 포괄적 요약
  - C3 (Low-level): 최하위 계층, 가장 좁고 디테일한 범위의 요약
검증 방식
- 실험 1 (LLM 평가자): LLM이 4가지 기준(포괄성, 다양성, 역량 강화, 직접성)을 바탕으로 두 시스템의 답변을 1:1로 맞비교(Win-rate 측정)
- 실험 2 (팩트 추출 교차 검증): LLM의 주관적 평가를 보완하기 위해 생성된 답변 내에서 검증 가능한 사실이 몇 개 추출되는지, 그 사실들이 얼마나 다양한 군집을 이루는지 통계적으로 분석

5. Results

실험 1 결과 (LLM 기반 상대 평가)

전반적으로 GraphRAG는 특히 "Comprehensiveness"(포괄성) 및 "Diversity"(다양성) 측면에서 기존의 벡터 RAG(SS)보다 "Global sensemaking"(전역적 상황 인식) 쿼리에 대해 월등히 우수한 성능을 보였다.
실험 2 결과 (추출된 사실/주장 기반 교차 검증)
- 조건별 및 데이터셋 유형별 보고된 추출된 주장의 평균 수
- 조건 및 데이터셋 유형별 보고된 다양한 거리 임계값에 따른 평균 클러스터 수

6. Discussion, 7. Conclusion

평가의 한계
- 약 100만 토큰 범위의 두 말뭉치에 대한 특정 유형의 질문만 평가
- 다양한 질문 유형, 데이터 유형, 데이터셋 크기에 따른 성능 변화 연구 필요
- 센스메이킹 질문과 목표 메트릭(포괄성, 다양성, 권한 부여, 직접성)에 대한 최종 사용자 검증 필요
- SelfCheckGPT와 같은 도구를 사용한 hallucination 비율 비교 필요
그래프 인덱스 구축의 트레이드오프
- Graph RAG가 다른 방법들보다 일관되게 우수한 성능 보임
- 그래프를 사용하지 않는 원본 텍스트 전역 요약 접근법도 경쟁력 있는 성능 보여줌
- 실제 적용 시 고려할 요소: 계산 예산, 데이터셋당 예상 쿼리 횟수, 그래프 인덱스의 부가 가치(일반 커뮤니티 요약, 다른 그래프 관련 RAG 접근법 활용 등)
향후 연구 방향
- 사용자 쿼리와 그래프 주석 간 임베딩 기반 매칭을 통한 지역적 RAG 접근법 개발
- 커뮤니티 보고에 대한 임베딩 기반 매칭과, 맵리듀스 요약을 결합한 하이브리드 RAG 방식 개발
- 커뮤니티 계층의 더 많은 레벨에 걸친 "롤업" 작업 확장
- 상위 레벨 커뮤니티 요약 정보를 따라가는 탐색적 "드릴 다운" 메커니즘 구현

[논문리뷰] Generative Adversarial Networks (GAN) - Goodfellow et al. (2014)

Sun, 15 Mar 2026 04:20:49 GMT

0. 사전학습

생성 모델 (Generative Model): 데이터의 확률 분포를 학습하여 그와 유사한 새로운 데이터를 생성해내는 모델입니다.
판별 모델 (Discriminative Model): 입력 데이터가 어떤 클래스에 속하는지, 혹은 진짜인지 가짜인지 분류하는 모델입니다.
다층 퍼셉트론 (MLP): 여러 개의 은닉층을 가진 기본적인 신경망 구조입니다.

역전파 (Backpropagation): 신경망의 가중치를 업데이트하기 위해 오차를 뒤에서부터 앞으로 전달하는 알고리즘입니다.
마르코프 체인 (Markov Chain): 과거의 상태와 무관하게 현재 상태에 의해서만 미래 상태가 결정되는 확률 과정입니다. 기존 생성 모델들은 이를 활용했으나 연산 비용이 컸습니다.
- 동전 앞뒤를 예측하는 것은 독립시행이기 때문에 n번째 상태가 n+1번째 상태에 영향을 주지 않으므로 마르코프 성질이 없다.
- 반면 날씨 예측과 같이 직관적으로 오늘 날씨에 의해 내일 날씨가 결정될 수 있으므로 마르코프 성질이 있다.
게임 이론 (Minimax Game): 한쪽은 이득을 최대화하고 다른 쪽은 손실을 최소화하려는 전략적 대결 상황을 의미합니다.

1. 연구 배경 및 목표

연구 배경

그동안 딥러닝은 고차원의 센서 입력을 클래스 레이블로 매핑하는 판별 모델에서 큰 성공을 거두었습니다. 이는 역전파와 드롭아웃, 선형 유닛(ReLU 등)의 발전 덕분이었습니다.
반면 딥 생성 모델은 판별 모델에 비해 큰 두각을 나타내지 못했습니다. 그 이유는 다음과 같습니다.
1. 최대 가능도 추정(Maximum Likelihood Estimation) 과정에서 발생하는 복잡한 확률 연산을 근사하기가 매우 어렵습니다.
2. 판별 모델에서 효과적이었던 선형 유닛들의 장점을 생성 모델에 적용하기 어려웠습니다.

연구 목표

복잡한 확률 계산이나 마르코프 체인 없이도 학습이 가능한 새로운 생성 모델 프레임워크를 제안하는 것입니다.
오직 역전파와 드롭아웃만을 사용하여 학습하고 순전파만으로 샘플을 생성할 수 있는 시스템을 구축하고자 합니다.

2. 핵심 방법론 (Generative Adversarial Nets)

기존의 생성 모델들은 수학적으로 매우 복잡하고 다루기 힘들었습니다.

→ GAN 의 해결책: "수학적으로 확률 분포를 정의하지 말자! 대신 가짜를 만드는 기계($G$)와 가짜를 찾는 기계($D$)를 싸우게 만들자."

생성자 (Generator, $G$)

입력: 의미 없는 무작위 노이즈($z$)
출력: 실제 데이터와 똑같이 생긴 가짜 데이터($G(z)$)
목표: 판별자($D$)를 완벽하게 속이는 것

판별자 (Discriminator, $D$)

입력: 실제 데이터($x$) 또는 생성자가 만든 가짜($G(z)$)
출력: 입력 데이터가 '진짜'일 확률 (0에서 1 사이의 값)
목표: 진짜와 가짜를 구별해내는 것

미니맥스(Minimax) 게임의 수식 풀이

$\min_{G} \max_{D} V(D, G) = \mathbb{E}{x \sim p{data}(x)}[\log D(x)] + \mathbb{E}{z \sim p{z}(z)}[\log(1 - D(G(z)))]$

좌변
- $V(D, G)$: $G$와 $D$가 벌이는 게임의 가치 함수(Value Function)입니다. 쉽게 말해 '판별자 $D$의 점수'라고 생각하면 됩니다.
- $\max_{D}$: 판별자($D$)는 자신의 점수인 $V$를 최대한 높이려고 노력합니다.
- $\min_{G}$: 생성자($G$)는 판별자의 점수인 $V$를 최대한 낮추려고 노력합니다.
우변
- 첫번째 항 (진짜를 진짜라고 맞히기)
  - $x \sim p_{data}(x)$: 실제 데이터 분포($p_{data}$)에서 뽑은 진짜 데이터($x$)를 의미합니다.
  - $\mathbb{E}$ (Expectation): 기댓값입니다. 데이터를 여러 번 뽑았을 때 나오는 값들의 평균을 내겠다는 뜻입니다.
  - $D(x)$: 진짜 데이터($x$)를 보고 판별자가 내놓은 "진짜일 확률"입니다. (0~1 사이의 값)
  - $\log D(x)$:
    - 판별자가 진짜를 진짜라고 잘 판단하면($D(x)$가 1에 가까우면), $\log 1 = 0$이 됩니다.
    - 판별자가 진짜를 가짜라고 오판하면($D(x)$가 0에 가까우면), $\log 0 = -\infty$가 되어 점수가 매우 낮아집니다.
    - 즉, 판별자($D$)는 이 값을 0(최대치)으로 유지하려고 노력합니다.
- 두번째 항 (가짜를 가짜라고 맞히기)
  - $z \sim p_{z}(z)$: 무작위로 생성된 노이즈($z$)입니다.
  - $G(z)$: 생성자($G$)가 노이즈를 받아 만들어낸 가짜 데이터입니다.
  - $D(G(z))$: 판별자가 가짜 데이터($G(z)$)를 보고 판단한 "진짜일 확률"입니다.
  - $1 - D(G(z))$: 판별자가 가짜를 보고 "이건 가짜야"라고 올바르게 판단할 확률입니다.
  - $\log(1 - D(G(z)))$:
    - 판별자가 가짜를 가짜라고 잘 잡아내면($D(G(z))$가 0에 가까우면), $\log(1-0) = \log 1 = 0$이 되어 점수가 높아집니다.
    - 반대로 생성자가 판별자를 완벽히 속이면($D(G(z))$가 1에 가까우면), $\log(1-1) = \log 0 = -\infty$가 되어 판별자의 점수가 깎입니다.

GAN의 학습 과정과 최종 목표

검은 점선 : 실제 데이터의 분포입니다. 우리가 닮고 싶어 하는 '정답'입니다.
초록 실선: 생성자()가 만들어낸 가짜 데이터의 분포입니다.
파란 파선: 판별자의 분포입니다. 값이 높으면 진짜라고 판단하고, 낮으면 가짜라고 판단하는 '기준선'입니다.
아래쪽 수평선: 생성자의 입력으로 들어가는 노이즈 공간입니다.
위쪽 수평선: 실제 데이터가 존재하는 공간입니다.
화살표: 노이즈를 생성자에 넣었을 때, 실제 데이터 공간의 어느 지점으로 매핑되는지를 보여줍니다.

3. 실험

1) 사용된 데이터셋

MNIST: 손글씨 숫자 데이터.
TFD (Toronto Face Database): 얼굴 표정 데이터.
CIFAR-10: 사물 이미지 데이터.

2) 모델 구조 (사용된 기술)

생성자 ($G$): ReLU 활성화 함수와 Sigmoid를 섞어서 사용했습니다. 노이즈($z$)는 맨 아래 층에만 입력했습니다.
판별자 ($D$): Maxout 활성화 함수를 사용했고 과적합을 막기 위해 Dropout 기술을 적용했습니다.

3) 성능 평가 방법: Parzen Window

GAN은 생성된 결과물이 실제와 얼마나 유사한지 수치화하기가 매우 어렵습니다. 그래서 이 논문은 가우시안 Parzen 창(Gaussian Parzen Window)이라는 방법을 썼습니다.

방법: 생성자가 만든 샘플들을 주변으로 가우시안 분포를 씌워 전체적인 확률 밀도를 추정하는 방식입니다.
- 작동 원리
  1. 샘플 준비 생성자($G$)를 이용해 가짜 이미지 샘플들을 아주 많이(예: 수천 장) 뽑아냅니다. 이 샘플들은 공간 위에 흩뿌려진 점들이 됩니다.
  2. 가우시안 분포 씌우기 (번지게 하기)
    
    각각의 점(샘플) 위에 종 모양의 가우시안(Gaussian) 분포를 하나씩 얹습니다.
    - 그러면 뾰족했던 점들이 주변으로 부드럽게 번지게 됩니다.
    - 이때 얼마나 넓게 번지게 할지를 결정하는 값이 논문에 나온 $\sigma$ (표준편차)입니다.
  3. 전체 합치기
    
    번진 수많은 종 모양들을 모두 더합니다.
    - 점들이 몰려 있는 곳은 산처럼 높게 솟아오르고 점이 없는 곳은 낮게 유지됩니다.
    - 이렇게 합쳐진 전체 모양이 바로 생성자가 만든 가짜 데이터의 확률 밀도 함수($p_g$)가 됩니다.
결과: GAN은 기존의 유명한 모델보다 더 높은 로그 가능도(Log-likelihood) 수치를 기록하며 우수함을 입증했습니다.

| **모델** | **MNIST (정확도 ↑)** | **TFD (정확도 ↑)** |
| --- | --- | --- |
| DBN | $138 \pm 2$ | $1909 \pm 66$ |
| Deep GSN | $214 \pm 1.1$ | $1890 \pm 29$ |
| **GAN** | **$225 \pm 2$** | **$2057 \pm 26$** |

4. 장점과 단점

단점 (부족한 점)

수치화의 어려움: "이 이미지가 진짜일 확률이 몇 %인가?"라는 질문에 정확한 숫자로 답하기 어렵습니다.
학습의 불안함: 생성자가 판별자를 너무 빨리 이겨버리면, 맨날 똑같은 이미지(치트키)만 만드는 '모드 붕괴' 현상이 일어납니다.

장점 (좋은 점)

속도와 간결함: 복잡한 수학적 절차 없이 딥러닝 기본 원리(역전파)만으로 아주 빠르게 학습합니다.
설계의 자유: 어떤 신경망이든 가져다 쓸 수 있어 응용 범위가 넓습니다.
선명함: 기존 모델들보다 훨씬 또렷하고 진짜 같은 이미지를 만듭니다.

5. 향후 계획

조종하기: "고양이 그려줘"처럼 내가 원하는 결과를 고를 수 있게 만들기 (cGAN)
분류하기: 사진이 뭔지 맞히는 인공지능 학습에 활용하기 (준지도 학습)
효율 높이기: 생성자와 판별자가 더 효율적으로 경쟁하는 방법 찾기

GAN의 분야별 활용 사례

이미지 및 영상 분야
- 이미지 합성 및 변환
- 화질 개선
- 이미지 복원
- 딥페이크
음성 및 오디오 분야
- 음성 합성
- 노이즈 제거
- 악기 소리 변환
의료 및 과학 분야
- 의료 데이터 증강
- 신약 개발
보안 및 기타
- 이상 탐지
- 텍스트 생성

강화학습과의 차이점

(생성자가 판별자의 피드백을 받아 성능을 개선한다는 점은 강화학습의 '보상' 개념과 매우 유사해 보인다.)

가장 핵심적인 차이는 생성자가 "어떻게 고쳐야 할지 구체적으로 아느냐" 아니면 "잘했는지 못했는지만 아느냐"의 차이입니다.

GAN (미분 가능한 통로): 판별자는 생성자에게 "너의 픽셀 중 이 부분이 어색해서 가짜라고 판단했어"라는 정보를 경사도(Gradient)라는 수치를 통해 직접 전달합니다. 생성자는 이 통로(역전파)를 통해 어디를 어떻게 수정해야 할지 구체적인 방향을 즉시 알 수 있습니다.
강화학습 (보상 수치): 에이전트(생성자 역할)는 행동을 한 뒤에 "10점" 또는 "-5점" 같은 스칼라 보상(Reward)만 받습니다. 왜 그 점수를 받았는지, 어느 부분을 고쳐야 점수가 오르는지는 스스로 수많은 시행착오(Exploration)를 거치며 깨달아야 합니다.

[논문리뷰] Multi-Task Learning 기반 딥 러닝 모델을 활용한 표 인식 및 표 구조 분석에 관한 연구 : 표 추출 통합 학습 방법

Wed, 18 Feb 2026 08:57:53 GMT

안녕하세요?

오늘은 고려대학교 SW·AI융합대학원 인공지능융합학과의 석사학위논문인 __ 논문에 대해 공부해보았습니다.

1. 서론

연구 배경: 디지털 문서 처리 및 데이터 분석 자동화에서 문서 내 표 추출(Table Extraction, TE) 기술의 중요성 증대
표 추출의 구성: 표 인식(TD), 표 구조 분석(TSR), 기능 분석(FA)의 세 단계로 구분됨
기존 연구의 한계
- 각 단계를 독립된 모델로 처리 시 자원 효율성 저하 및 오류 전파 문제 발생
- 데이터셋 통합 시 관리 비용 및 복잡성 증가
연구 목적: Multi-Task Learning(MTL) 기반의 통합 모델을 설계하여 학습 효율성을 높이고 데이터 관리 부담을 완화함.

2. 관련 연구

2.1 표 추출

주요 접근 방식
- 방법론: 이미지-텍스트 변환, 그래프 기반, 객체 탐지(주류) 등
기존 독립 모델 방식의 한계
- 자원 비효율: 모델 중복 운용 → 메모리 낭비 및 추론 속도 저하
- 오류 전파: 표 인식(1단계)의 오류가 구조 분석(2단계)으로 전파 → 시스템 강건성 저하
필요성
- 하위 작업을 통합적으로 해결하여 효율성과 정확도를 동시에 확보하는 새로운 접근법 요구

2.2 Multi-tasking Learning

개념: 여러 하위 작업을 동시에 학습하여 효율성과 예측 정확도를 향상시키는 기법
방식
- Hard Parameter Sharing: 대부분의 파라미터를 공유하는 방식 (본 논문 채택 방식)
- Soft Parameter Sharing: 작업별 고유 파라미터를 유지하며 상호 연결

2.3 객체 탐지 모델

객체 탐지 기반의 표 추출
- 정의: 이미지 내 객체의 위치와 클래스를 예측하여 표 성분을 추출
- 탐지 대상: 표 자체 및 세부 구조(행, 열, 헤더, 병합 셀 등)를 각각의 객체로 정의
YOLO v8 선정 이유
- 모듈형 구조: Backbone, Neck, Head가 분리되어 있어 Head 추가가 용이 → Hard Parameter Sharing 구현에 최적
  
  → 공통 특징을 추출하는 Backbone과 Neck은 그대로 공유하면서 수행하려는 작업(표 인식, 표 구조 분석)에 맞춰 각각의 Head만 추가로 설계하여 붙일 수 있다.
- Anchor-Free 방식: 고정된 Anchor를 쓰지 않고 객체의 중심점과 경계까지의 거리를 직접 예측하기 때문에 정형화되지 않은 다양한 형태의 표와 그 내부의 미세한 구조(행, 열 등)를 훨씬 더 정확하고 유연하게 찾아낼 수 있다.
  
  (기존 YOLO 시리즈나 많은 객체 탐지 모델들은 사전에 정의된 고정된 박스 크기인 'Anchor Box'를 기반으로 객체를 찾았음)
연구 방향
- YOLO v8 기반의 Multi-Task Learning(MTL) 통합 모델 설계
- 여러 하위 작업을 단일 모델로 통합하여 효율적으로 해결

2.4 PubTables-1M 데이터 셋

특징: 과학 기사에서 추출한 약 100만 개의 표 포함, TD/TSR/FA 작업을 모두 지원하는 대규모 데이터셋.
구성: 약 52.7%가 복잡한 표(Spanning Cell 포함)로 구성되어 성능 검증에 적합함.

3. 실험

3.1 모델 구조

YOLOv8 구조 기반 설계
Hard Parameter Sharing 방법 적용

1. Backbone (척추/몸통) : "공통 특징 추출"

역할: 이미지의 전체적인 특징을 파악합니다. 선, 면, 질감 등 표를 인식하는 데 필요한 기초 정보를 뽑아냅니다.
다중 스케일 특징 맵: 표는 아주 클 수도, 아주 작을 수도 있습니다. 그래서 세 가지 크기(P3, P4, P5)의 맵을 만듭니다.
- P3 (80x80): 아주 세밀한 부분 탐지 (작은 글씨나 얇은 줄)
- P4 (40x40): 중간 크기의 특징 탐지
- P5 (20x20): 이미지의 굵직한 특징 탐지 (전체적인 표의 윤곽)

2. Neck (목) : "특징 가공 및 전달"

역할: Backbone에서 뽑아낸 세 가지 크기의 정보를 서로 섞고 강화합니다.
특징: "표라는 건 이런 특징이 있구나"라는 것을 더 명확하게 만들어 각 Head(머리)가 판단하기 좋게 배달해 주는 정거장 역할을 합니다.

3. Head (머리) : "개별 작업 수행"

역할: 전달받은 정보를 바탕으로 실제 정답을 맞힙니다.
구성: 본 논문에서는 두 개의 머리를 달았습니다.
- Head A (표 인식): "이 이미지에서 표가 어디에 있는가?"를 찾음.
- Head B (표 구조 분석): "표 안에 행과 열이 어떻게 나뉘어 있는가?"를 분석함.

3.2 학습 방법

MTL 방법을 기반으로 각 작업의 손실을 계산한 후 이를 평균내어 공유 Parameter를 학습시키는 방법

import torch
import torch.optim as optim

# 1. 모델 및 옵티마이저 설정
# model.shared_parameters()와 model.head_parameters()가 구현되어 있다고 가정
epochs = 100
learning_rate = 0.003  # 논문 초기 학습률

optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=0.937)

# 2. OneCycleLR 스케줄러 설정 (논문 내용 반영)
# 전체 스텝 수 = 에포크 수 * 배치 당 스텝 수
scheduler = optim.lr_scheduler.OneCycleLR(
    optimizer, 
    max_lr=learning_rate, 
    steps_per_epoch=len(train_loader_td), 
    epochs=epochs,
    final_div_factor=10.16  # 최종 LR을 초기값의 약 9.56%로 맞춤
)

# 3. 전체 학습 루프
for epoch in range(epochs):
    model.train()

    # 두 데이터셋을 동시에 불러온다고 가정 (zip 활용)
    for (x1, y1), (x2, y2) in zip(train_loader_td, train_loader_tsr):

        # 데이터를 GPU로 이동
        x1, y1 = x1.to(device), y1.to(device)
        x2, y2 = x2.to(device), y2.to(device)

        # Step 1: Forward Pass (예측 및 오차 계산)
        outputs1 = model(x1, task='td')   # 표 인식 전용 머리 사용
        outputs2 = model(x2, task='tsr')  # 구조 분석 전용 머리 사용

        loss1 = criterion1(outputs1, y1)
        loss2 = criterion2(outputs2, y2)

        # Step 2: Backward Pass (기울기 계산)
        optimizer.zero_grad()

        # retain_graph=True를 주어야 두 번째 backward 시 shared 파라미터 그래프가 유지됨
        loss1.backward(retain_graph=True) 
        loss2.backward()

        # Step 3: 공유 파라미터 기울기 평균 처리 (핵심 로직)
        # PyTorch의 backward는 기울기를 더하므로(accumulate), 0.5를 곱해 평균을 냄
        for param in model.shared_parameters():
            if param.grad is not None:
                param.grad.data *= 0.5

        # Step 4: 가중치 업데이트 및 스케줄러 적용
        optimizer.step()
        scheduler.step() # 매 스텝마다 학습률 미세 조정

    print(f"Epoch [{epoch+1}/{epochs}] 완료")

3.3 모델 학습

모델 구성 및 초기화
- 모델: YOLO v8x 기반 통합 모델
- 초기화:
  - 몸통(Backbone/Neck): COCO 사전 학습 가중치 사용
  - 머리(Head): 무작위 초기화
학습 설정
- Optimizer: SGD (확률적 경사 하강법)
- 이미지 크기: 640 × 640
- 배치 사이즈: 64
- Learning Rate: 0.003 → 0.000295 (OneCycleLR 적용)
  - OneCycleLR ?
    
    딥러닝 모델을 학습시킬 때 학습률(Learning Rate)을 고정하지 않고 한 주기(Cycle) 동안 역동적으로 변화시키는 스케줄러이다.
    
    (처음에는 속도를 높여 시원시원하게 학습하고 끝날 때쯤엔 속도를 줄여 정교하게 마무리하는 전략)
    - 일반적인 방식보다 적은 반복 횟수로도 높은 정확도에 도달할 수 있다.
    - 처음에는 천천히, 중간에는 빠르게, 마지막에는 다시 정밀하게 학습함으로써 '가짜 정답(Local Minimum)'에 빠지지 않도록 도와준다.
    - 학습률을 높게 가져가는 구간이 있어 모델이 특정 데이터에 과하게 익숙해지는(Overfitting) 것을 방지한다.
    - *<논문에서의 적용>**
    - 초기값: 0.003
    - 최종값: 0.000295
      
      → 매 에포크마다 학습률을 점진적으로 감소시켜 학습 후반부에 정밀한 최적화를 이뤘다.

학습 환경
- GPU: NVIDIA H100
- Framework: PyTorch 2.1.2 / CUDA 11.8

3.4 실험 결과

작업별 정확도(mAP) 비교

표 인식 (pubtables-1m detection): 최종 Epoch에서 제안한 모델의 mAP는 99.7%로, 기존 모델의 99.5% 보다 약간 우수한 결과를 보였다.
표 구조 분석 (pubtables-1m structure): 최종 Epoch 에서 제안한 모델의 mAP 는 93.7%로, 기존 모델의 94.5% 보다 근소하게 낮은 성능을 보였다.

자원 효율성 및 속도

모델 통합을 통해 하드웨어 자원 사용량을 획기적으로 감소시킴

GPU 메모리 사용량: 약 70.8% 절감 (2,470 MiB → 721 MiB)
추론 속도 (Latency): 약 19.3% 단축 (26.73 ms → 21.57 ms)

→ 정확도는 기존과 대등하거나 더 높으면서 메모리는 1/3 수준으로 줄이고 속도는 약 20% 끌어올린 효율적인 모델임을 입증

3.5 이미지 전처리

도입 배경: 성능 불균형 해결
- 초기 문제: 표 인식(TD)은 99.7%로 우수했으나 표 구조 분석(TSR)은 71%에 머물며 기존 모델 대비 약 20% 이상의 성능 저하 발생
- 원인 분석: 두 작업 간 입력 이미지 데이터 형태의 불일치로 인해 공유 파라미터가 두 작업의 특성을 균형 있게 학습하지 못한 것으로 판단
해결 방법: Letterbox 기법 적용
- 개념: 이미지의 가로세로 비율을 유지하면서 타겟 크기(640×640)에 맞게 조정하고 남는 공간은 검은색 등(zero-padding)으로 채우는 방식
- 목적: 표 구조 분석 이미지를 표 인식 데이터와 유사한 형태로 변환하여 데이터 간의 불일치 해소
적용 결과 및 효과
- 성능 향상: 표 구조 분석(TSR)의 mAP가 71%에서 93.7%로 22.7% 대폭 개선
- 결론: 이미지 전처리가 작업 간의 데이터 불일치를 효과적으로 해결하고 통합 모델이 안정적으로 학습할 수 있는 환경을 제공함을 입증

4. 결론

MTL(Multi-Task Learning) 기반 통합 모델을 통해 높은 정확도를 유지하면서도 GPU 메모리는 약 71% 절감하고 추론 속도는 약 19% 향상시켜 표 추출의 자원 효율성과 성능을 동시에 증명!

[논문리뷰] LLM과 RAG 기반 문서 검색 구조를 활용한 한국어 쇼핑몰 VoC 카테고리 분류

Mon, 16 Feb 2026 06:31:18 GMT

안녕하세요?

오늘은 고려대학교 대학원 통계학과의 석사학위논문 __ 에 대해 공부해보았습니다.

1. 서론 (Introduction)

1.1 연구 배경 및 목적

VoC (Voice of Customer) 분석의 중요성
- 고객의 숨겨진 니즈 파악 및 전략적 의사결정 수단
- 단순 감성 분석(긍/부정)만으로는 실질적인 CS 대응(부서 분류 등)에 한계가 있음
기존 방법론의 한계
- 수작업: 시간/인건비 비효율, 자동화된 분류 시스템의 필요성 제기
- 기존 ML (TF-IDF, Word2Vec): 단어 빈도 기반이라 '구매' vs '구입' 같은 유의어 구분에 취약. 문맥 파악 불가
- LLM 단독: 도메인 지식 부재로 인한 환각(Hallucination) 발생. 잘못된 분류 야기
제안: RAG (Retrieval-Augmented Generation) 도입. 외부 지식을 검색해 맥락을 보강함으로써 정확도를 높이고 환각 억제

2. 이론적 배경 (Theoretical Background)

2.1 RAG (Retrieval-Augmented Generation)

구조: 파라메트릭 메모리(LLM 내부 지식) + 비파라메트릭 메모리(외부 지식 검색).
프로세스
1. Retriever (검색기)
  - 특정 문서 $z$가 질문 $x$와 관련있을 확률
    
    $x$: 사용자의 질문 (Query)
    
    $z$: 데이터베이스에 있는 문서 (Document)
    
    $q(x)$: 질문을 임베딩 모델(BERT 등)에 넣어 만든 질문 벡터
    
    $d(z)$: 문서를 임베딩 모델에 넣어 만든 문서 벡터
    
    $d(z)^\top q(x)$: 내적(Dot Product). 두 벡터가 얼마나 유사한지 계산하는 것(코사인 유사도와 거의 같음). 값이 클수록 관련성이 높음
    
    $\eta$: 검색기 모델(인코더)의 학습 파라미터
  - 질문 벡터 $q(x)$와 문서 벡터 $d(z)$를 곱(내적)해서 유사도를 구한다.
  - 이 값에 $\exp$(지수 함수)를 취한다. (점수 차이를 벌리고 양수로 만들기 위함. Softmax의 분자 부분과 같음)
  - 결론: 질문과 내적값이 큰 문서일수록 선택될 확률 $p_\eta(z|x)$가 높아진다.
2. Generator (생성기)
  - 최종 답변 문장 $y$가 생성될 확률
    
    $\sum_{z \in \text{top-}k}$: 검색된 상위 $k$개의 문서 각각에 대해 계산해서 더하겠다는 뜻 (Marginalization)
    
    $p_\eta(z|x)$: 검색기의 신뢰도 (위 1번 식에서 구한 값)
    
    $\prod_{i=1}^{N}$: 1번째 단어부터 $N$번째 단어까지 쭉 곱한다는 뜻
    
    $y_i$: 현재 생성하려고 하는 $i$번째 단어
    
    $y_{1:i-1}$: 지금까지 생성한 앞부분의 문맥
    
    $p_\theta(\dots)$: 생성기(LLM)가 다음 단어를 예측할 확률
  - $\prod$ 부분 (단어 생성)
    - LLM은 질문($x$), 참고 문서($z$), 지금까지 쓴 글($y_{1:i-1}$)을 보고 다음 단어($y_i$)를 예측한다.
    - 이것을 문장이 끝날 때까지($N$) 계속 곱해서 문장 전체가 만들어질 확률을 구한다.
  - $p_\eta(z|x)$ 곱하기 (가중치 적용)
    - 그냥 만드는 게 아니라 참고한 문서 $z$가 얼마나 정확한지($p_\eta$)를 가중치로 곱해준다.
      
      → 검색 점수가 높은 문서를 보고 만든 답변에 더 힘을 실어주는 것
  - $\sum$ 부분 (종합)
    - 상위 $k$개의 문서 각각에 대해 이 과정을 반복하고 합쳐서 최종 답변 확률을 도출한다.

2.2 임베딩 기법 및 검색 구조

1) 검색 방식 비교

희소 검색 (Sparse): BM25 등. 단어 일치 기반. 속도 빠름, 직관적이지만 의미론적 유사성 못 잡음.
밀집 검색 (Dense): 벡터 유사도 기반. 의미 검색 가능. 한국어 특화 임베딩 성능이 관건.

2) 실험 대상 임베딩 모델 비교 (2024년 10월 기준 Korean MTEB 리더보드 상위권)

모델명	특징 및 메커니즘
KoBERT	SKT Brain 개발. 한국어 위키/뉴스 학습. SentencePiece 토크나이저 사용(OOV 강건). 하지만 대조 학습(Contrastive Learning) 부재로 의미 유사도 계산에 취약.
KoE5	고려대 개발. `multilingual-E5-large` 기반 파인튜닝. Key: Hard Negative(유사하지만 오답인 문서) 학습 및 데이터 필터링(유사도 구간별 노이즈 제거).
Jina-v3	5.7억 파라미터 경량화. LoRA 어댑터로 태스크별(검색, 분류 등) 최적화. RoPE 적용으로 8,192 토큰까지 처리 가능.
text-3-small	OpenAI 범용 모델. 비용 효율적. Baseline.

2.3 Advanced RAG 기법

1) Hybrid Search

개념: 키워드 기반 검색(Lexical) + 의미 기반 검색(Dense) 결합
결합 방식
1. Convex Combination (CC)
  
  각 검색 방식에서 생성된 정규화된 점수를 가중합하여 최종 점수를 산출하는 방식
  
  $score_{hybrid} = \alpha \cdot score_{dense} + (1 - \alpha) \cdot score_{lexical}, \quad \alpha \in [0, 1]$
  - $\alpha$는 키워드 기반 검색의 가중치를 나타내며 그 값이 클수록 의미 기반 점수가 더 크게 반영된다.
2. Reciprocal Rank Fusion (RRF)
  
  순위(rank)를 활용하여 두 검색 방식으로 얻은 문서들을 결합하는 방식
  
  $score_{w-rrf}(d) = \frac{\lambda}{k + rank_{lexical}(d)} + \frac{1 - \lambda}{k + rank_{dense}(d)}$
  - $k$는 ranking constant 를 의미하며 점수가 너무 높은 순위에만 과하게 집중되는 현상을 방지한다.

2) HyDE (Hypothetical Document Embeddings)

개념: LLM이 질문을 보고 '가상 답변(Hypothetical Passage)'을 먼저 생성한 뒤 이를 밀집 검색기의 입력으로 사용한다.
이점: 질문이 짧거나 키워드가 부족할 때 문맥을 풍부하게 만듦 (Zero-shot 환경 유리).
예시
- 질문 입력: "전자제품 수리 어디서 해?"
- 가상 답변 생성 (Hallucination 활용): LLM한테 "이 질문에 대한 답변을 대충 지어내봐"라고 시킨다다.
  - LLM의 가상 답변: "전자제품 A/S는 고객센터나 홈페이지에서 접수 가능합니다. 보증 기간 내에는 무상입니다." (※ 이건 사실이 아닐 수도 있는 가짜 답변.)
- 임베딩 & 검색: 이 가상 답변을 벡터로 변환해서 검색한다.
- 매칭: 이제 검색어(가상 답변) 안에 "A/S", "고객센터", "보증 기간" 같은 단어가 들어있다.
  - DB에 있는 진짜 문서("A/S 절차 안내문")와 벡터 유사도가 훨씬 높아져서 검색이 잘 된다.

3. 실험 설계 (Experiment Setup)

3.1 데이터셋 및 전처리

Source: AI Hub '소상공인 고객 주문 질의-응답 텍스트 데이터셋' 중 생활잡화 도메인 데이터 활용.
Labeling (8개 클래스)
- 기존 11개 대분류 중 데이터 적은 것(매장, 멤버십) 제외.
- 유사 항목 통합: 결제+구매 → 구매. 교환|반품|환불 등 오타 유발 라벨 → 교환/반품/환불로 통일.
- 최종 8개: 제품, 배송, 교환/반품/환불, 행사, 구매, AS, 포장, 웹사이트.
Undersampling: 클래스 불균형 해소를 위해 각 1,800개로 맞춤 (총 14,400개).
Split: Train(13,200) / Val(200) / Test(1,000).

3.2 환경 설정

LLM: gpt-3.5-turbo (Temperature = 0 설정: 일관된 분류 목적).
임베딩 모델: text-embedding-3-small 을 제외하고 모두 Hugging Face에서 제공하는 SentenceTransformer 기반 모델
Vector Store: FAISS.
Retrieval $k$값: Validation 결과 $k=3$ 선정 (3, 5, 7, 10 중 F1-score 최고).
Hybrid Weight: $\lambda$값 0.1~0.9 테스트 결과, Lexical 0.3 : Dense 0.7 비율 선정.

3.3 프롬프트 설계

1) 분류 프롬프트 (Classification)

JSON 포맷 강제, 불필요한 설명 제거.

  **System:**
  Classify the query into one of: 제품, 배송, 교환/반품/환불, 행사, AS, 포장, 구매, 웹사이트.
  Return only one category exactly as listed above. No other categories or explanations.
  Return in JSON: {“prediction”: “category”}

  **Human:**
  Query: {query}
  Relevant cases: {similar cases}

2) HyDE 프롬프트

비용 절감을 위해 생성 길이 200자 제한.

  **System:**
  Generate a hypothetical passage that is relevant to the given query.
  Limit the passage to a maximum of 200 characters.

  **Human:**
  User query: {query}

3.4 평가지표

임베딩 모델 평가지표
1. Recall@k (재현율): 상위 k개 안에 정답이 있는지?
  
  $Recall@k = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}[answer_i \in Top\text{-}k_i]$
  
  $N$: 전체 질의(질문) 개수. $Top\text{-}k_i$: $i$번째 질문에 대해 검색된 상위 $k$개의 문서들. $answer_i$: 실제 정답 문서. $\mathbb{1}[\cdot]$ (지시 함수): 조건이 참(정답이 있음)이면 1, 거짓(없음)이면 0.
  - 예시
    - 질문 A: 정답 문서가 1등으로 나옴 → 성공 (1점)
    - 질문 B: 정답 문서가 3등으로 나옴 → 성공 (1점)
    - 질문 C: 정답 문서가 5등으로 나옴 → 실패 (0점) (3등 밖이니까)
    - 최종 점수: $(1 + 1 + 0) / 3 = \mathbf{0.66}$
2. MMR@k (평균 역수 순위): 정답이 몇 번째에 나왔는지?
  
  $MRR@k = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{rank_i}$
  
  $rank_i$: $i$번째 질문에 대한 정답 문서의 등수. 만약 정답이 $k$위 안에 없으면 점수는 0.
  - 예시
    - 질문 A: 정답이 1등으로 나옴 → 점수 $\frac{1}{1} = 1.0$
    - 질문 B: 정답이 3등으로 나옴 → 점수 $\frac{1}{3} \approx 0.33$
    - 질문 C: 정답이 5등으로 나옴 → 점수 $\frac{1}{5} = 0.2$
    - 최종 점수: $(1.0 + 0.33 + 0.2) / 3 = \mathbf{0.51}$
분류 성능 평가지표

| 지표 | 설명 |
| --- | --- |
| Accuracy | 전체 예측 중 정답 비율 |
| Macro Precision | 클래스별 정밀도의 산술 평균 |
| Macro Recall | 클래스별 재현율의 산술 평균 |
| Macro F1-score | Macro Precision과 Recall 의 조화 평균 |
| Weighted F1-score | 클래스별 샘플 수 기반 가중 평균 F1-score |


💡

- Macro F1: 모델이 엉뚱한 라벨을 만들어내면 점수가 내려감 → "모델이 환각을 얼마나 했는지 감지 가능"
- Weighted F1: 엉뚱한 라벨은 무시하고 기존 8개 카테고리 내에서의 성능만 집중함.

4. 실험 결과

4.1 임베딩 실험 결과

Winner: KoE5 (모든 지표 1위)
2위: Jina-embeddings-v3 (KoE5와 근소한 차이)
Baseline: text-embedding-3-small (KoE5 대비 5~9%p 낮음)
Worst: KoBERT (Semantic 유사도 성능 매우 낮음)

4.2 RAG 분류 결과

상세 분석

Recall 향상: RAG 적용 시 Precision보다 Recall 향상 폭이 큼

→ 실제 카테고리를 더 정확히 맞추는 방향으로 모델 성능이 개선되었음을 의미
환각 억제: No RAG에서는 정의되지 않은 라벨(예: 폐배터리)이 생성되어 Macro F1이 크게 깎였으나 RAG 적용 후 안정화됨.

5. 결론 및 제언

최적 조합: KoE5 임베딩 + Hybrid Search ($w=0.3:0.7$)
성과: 복잡한 파인튜닝 없이 RAG 구조만으로 VoC 분류 자동화 가능성 입증.
HyDE의 한계: 짧고 명확한 키워드가 있는 VoC 도메인에서는 오히려 가상 답변 생성이 노이즈가 되거나 비용 효율이 떨어짐.
Future Work
- 실무 적용을 위한 경량화 모델 도입, 검색 후보군 축소, 문서 길이 필터링 등 최적화된 방안 필요
- 참조 문서를 단순 유사 질의가 아닌 '상담 매뉴얼/규정집'으로 확장 테스트 필요

[논문리뷰] Human-level control through deep reinforcement learning

Sat, 07 Feb 2026 01:39:02 GMT

0. 사전학습

1) 강화 학습 (Reinforcement Learning)

강화 학습은 '시시비비'가 아니라 '보상'으로 배우는 방식입니다. 마치 강아지에게 "앉아"를 가르칠 때 앉으면 간식을 주고 안 앉으면 아무것도 주지 않는 것과 같습니다.

에이전트(Agent): 주인공(AI). 게임을 플레이하는 주체입니다.
상태(State): 현재 상황. 게임 화면 속 캐릭터의 위치, 적의 유무 등입니다.
행동(Action): 주인공이 할 수 있는 선택. (왼쪽 이동, 점프, 공격 등)
보상(Reward): 행동의 결과로 얻는 점수.

2) Q-Learning (Q-러닝)

Q-러닝은 '미래 가치 계산기'입니다. 단순히 지금 점수를 얻는 것뿐만 아니라, "지금 이 행동을 하면 나중에 얼마나 큰 이득이 올까?"를 수치화한 것이 Q-값입니다.

핵심: 모든 상황에서 각 행동에 대한 점수표(Q-table)를 만드는 작업입니다. 예를 들어 "적 앞에 있을 때 공격" 행동의 Q-값이 높다면 AI는 그 행동을 선택하게 됩니다.

3) CNN (Convolutional Neural Network, 합성곱 신경망)

이 논문의 혁신은 AI에게 '눈(Vision)'을 달아준 것입니다. 이전의 AI는 데이터(좌표값 등)를 숫자로 입력받아야 했지만 CNN 덕분에 게임 화면 그 자체(이미지)를 보고 상황을 판단할 수 있게 되었습니다.

역할: 화면 속의 픽셀들을 분석해 "이건 공이고, 저건 벽이다"라는 특징을 스스로 추출합니다.

4) DQN (Deep Q-Network)

이 논문의 제목인 "Deep Reinforcement Learning"이 바로 이 개념입니다. CNN(Deep Learning)과 Q-Learning을 합친 것이죠.

왜 합쳤나?
- 기존의 방식은 게임의 모든 상황을 기록한 '거대한 점수표(Q-table)'가 필요했습니다. 하지만 게임 속 경우의 수가 너무 많아 표를 만드는 것이 물리적으로 불가능했습니다.
해결 방법
- 인공지능이 모든 경우의 수를 외우는 대신 CNN을 통해 "지금 눈앞에 보이는 화면"의 특징을 실시간으로 파악하게 했습니다.
- 그 정보로 "이 상황에서는 이 행동의 점수가 가장 높겠네"라고 즉석에서 계산하도록 만들어 본 적 없는 상황에서도 유연하게 대처할 수 있게 한 것입니다.

5) t-SNE

t-SNE는 수천 개의 변수를 가진 복잡한 데이터를 2차원 평면에 점으로 찍어 보여주는 기술입니다.

핵심 원리: 원래 데이터 공간에서 서로 비슷했던 데이터들은 2차원 평면에서도 가깝게 모이고 달랐던 데이터들은 멀리 떨어지게 만듭니다.

1. 연구 배경 및 목표

기존 RL agent들은 feature를 수작업으로 설계하거나 low-dimensional state space에 국한되어 있었습니다.
본 연구에서는 이러한 한계를 극복하고 여러 환경에서 픽셀 데이터(화면)와 게임 점수만을 input 으로 받아들이면서도 인간 전문가 수준의 성능을 달성했습니다. → 범용 인공지능(AGI)의 시작


💡

AGI(Artificial General Intelligence): 인간과 동등하거나 그 이상의 지능을 갖고 스스로 학습하며 모든 인지적 작업을 수행할 수 있는 범용적인 AI

2. 핵심 방법론

1) Reinforcement Learning의 목적 함수

강화 학습의 에이전트는 환경과 상호작용하며 누적 보상을 최대화하는 최적 행동 가치 함수 $Q^*(s, a)$를 학습합니다. 이는 벨만 방정식(Bellman Equation)이라는 재귀적 관계를 기초로 합니다.

$Q^(s, a) = \mathbb{E}{s' \sim \mathcal{E}} [r + \gamma \max{a'} Q^(s', a') \mid s, a]$

요소	이름	의미
*$Q^(s, a)$**	최적 행동 가치 함수	상황($s$)에서 행동($a$)을 했을 때, 게임 끝날 때까지 얻을 수 있는 '최종 합계 점수의 기댓값'입니다.
$s$ (State)	상태	현재 상황입니다. 아타리 게임에서는 화면 픽셀 데이터(이미지)가 곧 상태입니다.
$a$ (Action)	행동	현재 상황에서 내가 누른 버튼입니다. (예: 왼쪽 이동, 공격 등)
$\mathbb{E}_{s' \sim \mathcal{E}}$	기댓값	환경($\mathcal{E}$)의 불확실성을 고려한 평균치입니다. 적이 무작위로 움직일 수도 있으니, 다음에 올 상황($s'$)들에 대한 평균 점수를 계산한다는 뜻입니다.
$r$ (Reward)	즉각 보상	행동을 하자마자 지금 바로 받는 점수입니다.
$\gamma$ (Gamma)	할인율	미래 점수의 가치를 깎는 비율(보통 0.99)입니다. "내일의 100점보다 오늘 당장의 100점이 더 가치 있다"는 것을 수학적으로 나타냅니다.
$\max_{a'}$	최대화	다음 상황($s'$)이 되었을 때, 에이전트가 바보같이 행동하지 않고 '가장 높은 점수를 주는 행동($a'$)'을 선택할 것이라는 가정입니다.
*$Q^(s', a')$**	다음 상태 가치	다음 상황($s'$)에서 할 수 있는 최고의 행동 가치입니다.
- 의미: $Q^(s, a)$란, 상태 $s$에서 행동 $a$를 했다는 조건이 주어졌을 때($\mid s, a$)*, 즉시 얻는 보상($r$)과 다음 상황의 미래 가치($\gamma \max Q'$)를 합친 것의 평균값($\mathbb{E}$)이다.
- 한계: 기존 Q-learning은 모든 상태-행동 쌍을 테이블 형태로 기록해야 했으므로 아타리 게임처럼 상태가 무한에 가까운 경우 일반화가 불가능했습니다.

2) CNN의 활용

DQN은 Q-함수를 근사하기 위해 CNN을 사용합니다. 이는 전처리된 픽셀 데이터에서 특징을 추출하여 최적의 행동을 추론하는 구조입니다.

(신경망의 최종 출력은 각 가능한 행동에 대한 Q-값이다.)

아키텍처 세부 구성

입력층: $84 \times 84 \times 4$ 이미지. (연속된 4개 프레임을 쌓아 물체의 가속도와 방향 정보를 확보)
합성곱 층(Convolutional Layers)
- Layer 1: 32개의 8x8 필터, Stride 4.
- Layer 2: 64개의 4x4 필터, Stride 2.
- Layer 3: 64개의 3x3 필터, Stride 1.
완전 연결 층(Fully Connected Layers): 512개의 유닛을 거쳐 최종적으로 가능한 각 행동의 Q-value를 출력합니다.
특징: 단 한 번의 연산(Forward pass)으로 현재 상태에서 가능한 모든 행동의 가치를 동시에 산출하여 효율성을 극대화했습니다.

3) 학습 안정화 기법

신경망(CNN)을 강화 학습에 도입할 때 발생하는 수치적 불안정성(발산 및 진동)을 해결하기 위해 두 가지 장치를 도입했습니다.

① Experience Replay (경험 재생)

에이전트의 경험 데이터 $(s_t, a_t, r_t, s_{t+1})$를 리플레이 메모리($D$)에 저장하고 학습 시 무작위로 추출한 미니배치를 사용합니다.

데이터 효율성: 하나의 경험 데이터를 여러 번 학습에 재사용할 수 있습니다.
상관관계 제거: 연속된 데이터 사이의 시간적 상관관계를 끊어 수렴 성능을 높입니다.
안정성: 행동 분포를 평활화(Smoothing)하여 파라미터가 급격히 변하거나 국소 최적해에 빠지는 것을 방지합니다.

② Separate Target Network (타겟 네트워크 분리)

학습 목표가 되는 Target Value를 계산할 때, 현재 학습 중인 가중치($\mathbf{h}$)가 아닌 별도의 타겟 가중치($\mathbf{h}^{-}$)를 사용합니다.

작동 방식: 타겟 네트워크는 일정 주기($C$ step)마다 현재 네트워크의 가중치를 복제하여 업데이트합니다. 이를 통해 학습 목표가 실시간으로 변동하는 것을 막아 안정적인 수렴을 유도합니다.

4) 손실 함수 및 정규화 (Loss Function & Regularization)

학습의 목표는 벨만 방정식의 좌변($Q$)과 우변(Target) 사이의 평균 제곱 오차(MSE)를 최소화하는 것입니다.

$L_i(\mathbf{h}i) = \mathbb{E}{(s, a, r, s') \sim U(D)} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \mathbf{h}^{-}_i) - Q(s, a; \mathbf{h}_i) \right)^2 \right]$

요소	의미	역할
$L_i(\mathbf{h}_i)$	손실(Loss)	현재 신경망이 얼마나 엉터리로 예측하고 있는지를 나타내는 '벌점'입니다. 이 값이 0에 가까울수록 똑똑한 AI입니다.
$\mathbb{E}_{\sim U(D)}$	무작위 추출	리플레이 메모리($D$)에서 과거 경험을 균일한 확률($U$)로 무작위로 꺼내서 평균을 낸다는 뜻입니다.
$r + \gamma \max_{a'} Q(\dots; \mathbf{h}^{-}_i)$	타겟(Target)	"정답지"입니다. 타겟 네트워크($\mathbf{h}^{-}$)를 이용해 계산한 "이랬어야 해"라는 목표값입니다.
$Q(s, a; \mathbf{h}_i)$	예측값	"나의 대답"입니다. 현재 학습 중인 네트워크($\mathbf{h}$)가 내놓은 추측치입니다.
$(\dots - \dots)^2$	제곱 오차	정답과 내 대답의 차이를 제곱합니다. 차이가 클수록 벌점이 기하급수적으로 커지게 만듭니다.
- 의미: 손실 함수($L_i$)란, 리플레이 메모리에서 무작위로 꺼낸 과거 경험들을 바탕으로 '에이전트가 만든 정답(Target)'과 '현재의 예측값($Q$)' 사이의 거리를 측정하여 반성하는 지표이다.

5. 훈련 세부 사항 및 탐색 전략

Frame Skipping: 연산 효율을 위해 4프레임마다 한 번씩 행동을 결정하고 그 사이 프레임은 이전 행동을 유지합니다.
$\epsilon$-greedy: 초기에는 무작위 행동(Exploration)을 많이 하다가 점진적으로 학습된 최적 행동(Exploitation)의 비중을 높여 탐색과 활용의 균형을 맞춥니다.
최적화: 총 5,000만 프레임의 게임 경험을 학습하며 RMSProp 옵티마이저를 사용해 가중치를 업데이트합니다.

6. 요약

💡

플레이 (경험 수집): [5. 탐색 전략]인 $\epsilon$-greedy를 사용하여 행동하고 [2. CNN]으로 처리된 화면 데이터를 기반으로 발생한 $(s, a, r, s')$ 경험을 쌓습니다.
복습 (데이터 정제): [3-①. Experience Replay]를 통해 메모리에 저장된 과거 경험을 무작위로 추출합니다. 이는 데이터 간 상관관계를 끊어 학습의 안정성을 확보하는 핵심 과정입니다.
비교 (목표 설정): [3-②. Target Network]가 제시한 '고정된 정답(Target)'과 현재 Q-network의 '예측치'를 대조합니다. 이 과정은 [1. 목적 함수]의 좌변($Q$)과 우변($Target$)을 맞추는 작업입니다.
교정 (최적화): 둘 사이의 차이를 [4. 손실 함수]로 계산하고 가중치를 업데이트합니다. 이 결과로 에이전트의 예측은 점차 정교해집니다.

3. 평가 및 결과

1) 성능 평가

아타리 2600의 49개 게임 중 29개 게임에서 인간 전문가 수준(75% 이상)의 성능 달성하였습니다.

→ 범용성 입증
기존의 선형 학습 모델보다 압도적인 성능 우위 확인하였습니다.

2) 학습 표현의 시각화 (t-SNE 분석)

DQN이 단순히 픽셀을 외우는 것이 아니라, 게임의 맥락적 의미를 학습했는지 확인하기 위해 고차원 데이터를 2차원으로 투영했습니다.

분석 결과

군집화: 게임 화면의 픽셀 구성은 다르더라도 보상 가치가 비슷한 상태들은 평면상에서 가깝게 모였습니다.
의미 파악: 예를 들어 적군이 거의 다 죽어가는 고득점 직전의 상황들을 AI는 서로 비슷한 '중요한 상태'로 분류했습니다.

결론: DQN은 화면을 사진 찍듯 외우는 게 아니라, 어떤 상황이 유리한지 그 '전략적 가치'를 스스로 추상화해서 학습하고 있음을 시각적으로 보여줍니다.

3) 학습의 안정성 확인

학습이 진행됨에 따라 AI가 예측하는 점수(Q-value)와 실제 얻는 점수가 어떻게 변하는지 추적했습니다.

안정적인 상승: 시간이 지날수록 평균 점수와 예상 가치가 부드럽게 상승했습니다.
불안정성 극복: 앞서 언급한 Experience Replay와 Target Network 덕분에, 학습 데이터가 요동쳐도 AI가 혼란에 빠지지 않고 안정적으로 실력을 쌓아가는 모습을 확인했습니다.

4. 결론

최초의 범용 AI: 동일한 모델과 설정값으로 수십 가지의 서로 다른 게임을 마스터한 최초의 에이전트입니다.
시각 정보와 행동의 결합: 복잡한 화면 데이터(픽셀)에서 직접 최적의 행동을 도출하는 기술적 진보를 이뤘습니다.
생물학적 영감: 뇌의 기억 원리를 본뜬 'Experience Replay'를 도입해 딥러닝과 강화 학습의 결합을 안정시켰습니다.
미래 가능성: 머신러닝과 생물학적 메커니즘을 결합하면 인간 수준의 강력한 AI를 구축할 수 있음을 증명했습니다.

"생물학적 기억 원리를 활용해 복잡한 화면을 스스로 학습하고 정복하는 최초의 범용 AI 시대를 열었다.”