hyooo__s.log

[논문리뷰] DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

Wed, 22 Jul 2026 13:43:45 GMT

Overview

논문명: DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks 학회(출판연도): International Journal of Forecasting (2020) 연구분야: 딥러닝 기반 시계열 예측 및 시계열 표현 학습

Background

Deep AR
- 수많은 time series를 동시에 학습하는 autoregressive RNN기반 global neural forecasting model
  
  ⇒ 이후 DeepState, DeepFactor, Transformer-based forecasting, Temporal Fusion Transformer, PatchTST 등장

Time Series Forecasting
- 과거 데이터를 이용해 미래 값을 예측하는 문제
  - $sales_t → sales_{t+1}, salse_{t+2}, …$
- 왜 중요한가?
  - 기업에서 거의 모든 의사결정에 사용
    - 재고 관리, 서버 load, 전력 소비, 교통량
Probabilistic Forecasting
- 미래 값을 하나의 숫자가 아닌 확률 분포로 예측하는 것
- 현실 세계에서는 불확실성이 존재하기 때문에 중요하다
Autoregressive Model
- 현재 값을 이전 값으로 예측
  - AR
Recurrent Neural Network (RNN)
- 시간 순서 데이터를 처리하는 neural network
Likelihood Modeling
- DeepAR은 확률 분포를 직접 예측
  - 가우시안, Negative Binomial
연구 흐름

- 기존에는 single time series models로 각 모델 간 데이터 공유가 없고 학습 데이터가 부족하다는 문제가 있었음

    - ARIMA for series1
    - ARIMA for series2
    - ARIMA for series3


- 이 논문에서 Power-law scale distribution이 중요한데

몇몇 상품만 huge scales를 가지고 있어서 scale imbalance한 문제가 있음

→ 그래서 small series와 large series를 같은 모델에 넣으면 gradient imbalance 한 문제 발생

Abstract

Probabilistic forecasting(확률적 예측)
- 과거 시계열 데이터를 기반으로 미래 값의 확률 분포를 추정하는 것
- 비즈니스 프로세스를 최적화하는 데 중요한 역할
  
  ex. 소매(retail) 산업에서 수요 예측이 적절한 재고를 적절한 장소에, 적절한 시점에 확보하기 위해 매우 중요
DeepAR
- 많은 관련 시계열 데이터를 이용해 자기회귀(auto-regressive) 구조의 순환 신경망(RNN)을 학습시켜 정확한 확률적 예측을 생성하는 방법
  ✓ 자기회귀(auto-regressive)
  - 현재의 값을 과거의 값들의 함수로 표현하는 모델
  ✓ 순환신경망(RNN)
  - DeepAR의 경우 RNN의 구체적인 구현으로 LSTM 사용
  - Vanilla RNN은 gradient vanishing 문제로 인해 long term dependency로 학습이 어려움
    
    → LSTM은 memory cell을 가지고 있어서 long-term pattern을 잘 학습
  - time series의 dynamics를 잘 학습함
  - DeepAR
    - 입력
      - $z_{t-1}, z_{t-2}$: previous value - 바로 이전 값
        
        자기상관모델이기때문에 이전 값이 다음 값을 설명한다고 가정
      - covariates
        
        시간 t에 알려진 외부 변수(feature)
        
        예를 들어 주말이면 판매가 증가한다
      - previous hidden state
        
        RNN의 지금까지 기억하고 있는 과거 정보 요약
    - 계산
      
      !image.png
      - $z_{t-1}, z_{t-2}$, seasonality, trend, covariates 같은 정보를 hidden state에 저장함
        
        !image.png
      - hidden state에서 확률 분포 파라미터 계산 - fully connected layer로 계산
    - 확률분포 출력 → 예측(샘플을 뽑아서)
- 이전 전통적인 방식은 시계열 하나 → 모델 하나에 대응시켰다면 DeepAR의 경우 수 천개의 시계열을 하나의 딥러닝 모델로 대응시켜서 패턴을 공유하고 학습
  - 전통적: ARIMA, exponential smoothing, classical statistical models
    
    → ① 많은 시계열 처리, ② 비선형 패턴 처리의 어려움과 ③ feature engineering 필요
    
    ⇒ 딥러닝은 이런 문제를 자동으로 학습
여러 실제 예측 데이터셋에 대한 실험을 통해 최신 방법과 비교하여 약 15%의 정확도 향상을 보였음

1. Introduction

예측(forecasting)은 대부분의 기업에서 운영 프로세스를 ① 자동화하고 ② 최적화하는데 중요한 역할을 하며, ③ 데이터 기반의 의사결정을 가능하게 함
- 소매산업 → 공급과 수요의 확률적 예측을 통해 재고관리, 직원 스케줄링, 물류 네트워크 설계 등에 사용
  
  ⇒ 공급망 최적화의 핵심 기술
기존: 개별 시계열 또는 소수의 시계열을 예측하는 환경에서 개발
- 각 시계열마다 모델 파라미터를 과거 데이터로부터 독립적으로 추정
- 이렇게 되면 상품이 1000개라고 했을 때 모델이 1000개 필요한 비효율 발생 + 신제품의 경우에는 데이터가 적어서 모델이 불안정
- 모델은 자기 상관 구조, 추세, 계절성, 기타 설명 변수 등을 고려해서 수동으로 선택(사람이 설계해야함)
  - 학습된 모델은 모델의 동적 구조에 따라 ① 미래 값을 예측, ② 시뮬레이션
    
    예측 분포의 닫힌 형태(closed-form expression)을 통해 확률적 예측 생성 가능
    ✓ 모델의 동적 구조(dynamic structure)
    - 동적구조: 시간이 흐르면서 값이 어떻게 변화하는지를 정의하는 규칙
      
      현재 값 → 다음 값이 어떻게 만들어지는지 정의하는 수식 구조
      
      시간 의존성이 존재하기 때문에 동적 모델 state_t = f(state_{t-1})
      
      ↔ 정적 모델 y=f(x)
    ✓ 예측 분포의 닫힌 형태
    - 적분이나 시뮬레이션없이 수식 하나로 바로 계산할 수 있는 형태
      
      가우시안, 이항분포, 포아송
      
      ↔ 시뮬레이션: 샘플을 많이 만들어서 근사
      
      ex. GAN, Diffusion, DeepAR sampling
    - Box-Jenkins 방법론, 지수 평활법 또는 상태 공간 모델(state space model) 기반

Deep AR
- 몇 개의 시계열이 아닌 가정별 전력 소비 예측, 데이터센터 서버 부하 예측 등 수천개~수백만개의 관련 시계열을 예측해야함
  
  ⇒ autoregressive recurrent network 기반의 예측 방법인 DeepAR 제안

기존의 예측 방법
- ARIMA, Exponential smoothing
  ✓ Exponential smoothing
  - 최근 데이터에 더 큰 가중치를 주는 방법
- 한계
  - 수요 예측 매우 불규칙적이고, 간헐적이며, 갑자기 급증하는 데이터 多
    
    → 전통적 모델의 핵심 가정을 깨뜨림
  - 데이터 전처리 방법도 위 문제를 충분히 해결하기 어려움
    
    ⇒ 분포: zero-inflated Poisson, negative binomial
  - 여러 시계열간 정보를 공유하면 예측 정확도를 향상시킬 수 있으나 구현의 어려움
    
    (각 시계열이 매우 이질적이기 때문)
    
    ⇒ matrix factorization, Bayesian Hierarchical models

RNN
- 예측 분야는 아니지만 nlp, audio 등 다양한 분야에서 성
DeepAR의 설계
- 확률 예측에서는 단일값이 아닌 전체 확률 분포에 관심이 있음
- count data의 정확한 분포를 얻기 위해서 Negative Binomial likelihood 사용

3. Model

모델링 목표
- 시계열 i의 시간 t에서의 값을 $z_{i,t}$라고 할 때, P(미래값 | 과거값, 외생변수) 조건부 확률 분포 모델링
  
  !image.png
  - 각 시계열의 미래 값: $z_{i,t_0:T}$ ⇒ prediction range(모델이 예측해야 하는 구간)
  - 과거값: $z_{i,1:t_0-1}$ ⇒ conditioning range (모델이 조건으로 사용하는 구간)
    
    → $t_0$는 예측 시점에서 값이 알려지지 않은 시점의 시작점 의미
    
    → $X_{i,1:T}$: 모든 시점에서 알려져있다고 가정되는 외생 변수(conditioning, prediction 모두 주어짐)
학습
- conditioning range와 prediction range 모두 과거에 위치해야 함 → $z_{i,t}$ 값 모두 관측
  
  but, 예측 단계에서는 conditioning range에서만 관측!
- t는 상대적인 값 → t=1은 시계열 i마다 서로 다른 실제 시간을 가질 수 있음

Model distribution을 likelihood의 곱으로 분해 가능하다고 가정

Q의 분포에 대해 t_0부터 T시점까지 하나씩 보면 곱으로 보고 최종적으로 p라는 분포를 통해 계산 가

⇒ chain rule

Prediction process
- $h_{i,t}$에 conditioning range의 t를 순차적으로 대입하여 $h_{i,t_0-1}$을 구함
- prediction range의 t에 대해 틸다 $z_{i,t}$를 sampling
- smapling을 통해 예측을 진행하므로 quantile 정보 예측 가능

3.1 Likelihood model

데이터의 노이즈 모델 결정하고, 데이터의 통계적 특성에 맞게 선택되어야 함
- Deep AR은 예측값을 직접 출력하지 않음 → likelihood(확률분포) 출력
신경망이 다음 시정의 확률 분포의 모든 파라미터(ex. 평균과 분산)를 직접 예측함
사용하는 likelihood 2가지
- 실수 데이터 → 가우시안
  - 가우시안

    - Distribution Parameter

       ![](https://velog.velcdn.com/images/hyooo__s/post/e5313cd0-2872-470b-b199-90a2408d123e/image.png)


- 양의 정수 데이터 → negative binomial likelihood
    - negative binomial likelihood
        - 판매 데이터 특징상 variance > mean
        - 포아송은 var = mean이므로 사용하기 부적합하고 
        negative binomial은 Var = μ + μ²α로 더 유연함
        - 분산이 mean보다 클 수 있다는 특징을 잘 표현 - **retail demand**
- beta distribution, bernoulli, mixture distributions 와 같은 다른 likelihood 모델도 쉽게 사용 가능

    단, 해당 분포에서 샘플링이 쉽고, log-likelihood 와 그 gradient를 계산할 수 있어야 함

3.2 Training

시계열 데이터셋 {$z_{i,1:T}$}${i=1,...,N}$ 과 covariates $x{i,1:T}$가 주어졌다고 하면 모델 파라미터는 log-likelihood를 최대화하는 방식으로 학습

- 어떤 확률분포 p에서 $h_{i,t}$라는 특정 파라미터가 주어졌을 때  $z_{i,t}$가 나올 확률이 가장 높도록 학습
- 세타에 대한 학습을 할 것 이기 때문에 세타에 대한 stochastic gradient descent를 통해 학습 진행

    ⇒ 모델이 예측한 분포에서 실제 값이 얼마나 가능성이 높은지

DeepAR은
- latent variable inference 필요없음 → direct likelihood optimiztion 이므로!
- training window sampling → data augmentation 가능
  - window1 → 2013 start
  - window2 → 2013+1 start
  - window3 → 2013+2 start
training 과 predition의 mismatch한 문제가 있긴 하지만 큰 문제는 안 됨

3.3 Scale handling

power-law 규모 분포를 가진 데이터에 모델을 적용하면 2가지 문제 발생
문제1
- autoregressive 구조 때문에 입력 $z_{i,t-1}$과 네트워크 출력 모두 관측값에 비례해 스케일이 커짐
- 신경망의 비선형 함수들의 작동 범위가 제한적이라 gradient 문제 발생
  
  → 추가적 조치가 없다면 (P) 입력을 적절한 범위로 스케일링 하는 방법을 학습해야함

**⇒ (S) 아이템별 scale factor vi로 나누어 해결**

(각 아이템별로 고유한 특성이 있을 것이기 때문)

µ = νi * softplus(oµ)

→ 네트워크 output을 scaled parameter로 하는 데에 중요

→ 평균값을 scale factor로 사용하는 방법 잘 작동

문제2
- 데이터 불균형으로 인해 큰 scale 시계열이 학습에서 거의 선택되지 않을 수 있음
  
  → weigthed sampling을 통해 scale이 큰 아이템을 더 자주 학습함

3.4 Features

covariate $x_{i,t}$는 item feature(product categroy, brand, size), time feature(weekday, month, holiday) 모두 가능
모든 실험에서 age feature 사용
- age = 현재 시점 - 시계열 시작 시점
  
  → new item behaviour 학습 가능
categorical item feature 사용, 모델은 embedding 학습
모든 covariates는 평균 0, 분산 1로 정규화

4. Applications and Experiments

실험 환경
- Framework: MXNet
- Machine: AWS p2.xlarge
  - CPU 4개
  - GPU 1개
성과
- 500,000개의 시계열을 학습하는데 10시간 이하 → 매우 큰 데이터에서도 학습 가능하다
사용 데이터셋
- parts(자동차 부품 판매량/1046개의 시계열, 50 time steps)
- electricity(전력 사용량/370 households, 시간 단위)
- traffic(도로 점유율/963 freeway lanes, 시간 단위)
  
  → 전력과 도로 점유율은 rolling window forecast 방식 사용
  ✓ rolling window forecast
  - rolling window
    - 여러 시점에서 반복 평가
    - 모델을 다시 학습하지 않음 - 한 번 학습된 모델로 여러 forecast 수행
  ✓ ec(아마존 판매 데이터), ec-sub(아마존 판매 데이터 subset)
  - time series가 매우 다양 - slow moving item, fast moving item
    
    즉, 판매량 scale 차이가 매우 큼
  - 새 상품의 경우 history가 거의 없다는 문제 → cold start problem
DeepAR의 경우 global model로 모든 시계열을 같이 학습하기 때문에 패턴 공유 가능

→ probabilistic forecasting(불확실성 모델링)

→ scale normalization(power-law 문제 해결)

4.1 Accuracy comparsion

parts와 ec/ec-sub 데이터셋에서 baseline 모델 비교
baseline 모델
- Croston - 간헐적 수요 예측을 위해 개발된 방법
- ETS - Error Trend Seasonality 대표적인 Classical forecasting 모델
- Snyder - Negative Binomial 기반 autoregressive 모델
- ISSM - covariates를 사용하는 state space model
[RNN기반] ← DeepAR의 구성요소가 실제로 중요한지 검증 목적
- RNN-Gaussian
  - DeepAR과 동일한 구조 but 가우시안 분포 사용
- RNN-negbin ← DeepAR의 design 요소 검증 목적
  - negative binomial 분포 사용
  - scale normalization, weighted smapling 사용 x
평가지표: p-risk metric (quantile loss) ← parts, ec, ec-sub
- prediction range의 특정 구간인 L,L+S)를 지정하고 평가

- eletricity와 traffic은 ND와 RMSE로 평가

4.2 Quantile analysis

ISSM 모델은 uncertainty가 선형적으로 증가한다고 가정하지만 DeepAR은 uncertainty 증가 패턴을 데이터로부터 학습 → 시간이 지날수록 uncertainty가 증가한다는 패턴 학습
- uncertainty는 4분기(Q4)에 증가하고 이후 다시 감소 - retail의 특징 (수요변동성 증가)
ISSM모델과 비교했을 때 DeepAR이 calibration이 전반적으로 good
shuffled forecast calibration 곡선
- 예측 샘플을 시간 순서 없이 섞음으로써 시간 간의 상관관계 제거
- 짧은 구간에서는 큰 차이가 없지만 긴 예측 구간에서는 상관관계를 제거하면 calibration이 더 나빠짐
  
  → 모델이 시간 간 중요한 상관관계를 잘 학습하고 있음을 알 수 있음

5. Conclusion

DeepAR모델은
- 여러 시계열로부터 global model을 학습하고
- rescaling과 velocity 기반 smapling으로 다양한 규모를 처리한다
- calibrated probabilistic forecast를 생성하고
- 데이터로부터 seasonality와 uncertainty 증가 패턴 학습
또한 다양한 데이터셋에서 하이퍼파라미터 튜닝을 거의 하지않더라도 잘 작동함
몇 백개정도의 중간 규모의 데이터셋에서도 good

[논문리뷰] Visual Instruction Tuning

Wed, 22 Jul 2026 13:20:32 GMT

Overview

논문명: Visual Instruction Tuning 학회(출판연도): NeurIPS (2023) 연구분야: 딥러닝 기반 멀티모달 표현 학습 및 비전-언어 모델

Background

GPT-4는 이미지를 이해할 수 있지만, 학습방법은 공개되지 않았었음

→ LLM이 instruction tuning으로 똑똑해졌듯, 이미지도 instruction tuning을 하면 GPT-4V처럼 만들 수 있지 않을까?

✓ instruction tuning

instruction(사용자의 지시) + tuning(이미 학습된 모델을 특정 목적에 맞게 추가로 학습)

→ 즉, 사용자의 다양한 지시를 잘 따르도록 추가 학습시키는 것을 의미함
✓ 이게 왜 필요하냐하면~

일반적인 언어모델의 경우에는 인터넷 문서를 보고 학습을 하게 되는데, 학습데이터는 대부분

대한민국의 수도는 서울이다.

또는

고양이는 포유류다.

이런 데이터는 지식을 배우는데에는 좋은데 사람의 질문에 대답하는 방법은 배우지 못한다는 단점이 있다.

그래서 instuction tuning을 통해서 학습데이터를 아래와 같이 바꾼다.

instruction: 대한민국의 수도가 어디야?
answer: 서울입니다.

또는

instruction: 다음 문장을 영어로 번역해줘
input: 안녕하세요
answer: hello.

와 같이 질문-답변 형태를 수십만~수백만개를 학습시키는 것
- 그러면 모델은 사람이 이런 지시를 하면 이렇게 대답해야한다는 것을 배우게 된다
✓ visual instruction tuning

기존의 instruction tuning은 “질문-답변”처럼 텍스트만 활용했었는데, visual instruction tuning은 “이미지 + 질문 → 답변”을 학습한다.

예를 들어,

(강아지 사진)
질문: 강아지가 지금 뭐하고 있어?
답변: 공을 보고 있습니다.

또는

(도로 위 사진)
질문: 왜 차들이 지금 멈춰 있어?
답변: 빨간불이기 때문입니다.

정리하자면,
- instruction tuning은 사용자의 지시를 이해하고 적절히 수행하도록 언어 모델을 추가 학습시키는 과정이고
- visual instrucion tuning은 여기에 이미지 정보를 함께 입력받아서 이미지를 이해하고 사용자의 질문이나 지시에 맞게 학습시키는 방법을 의미한다
⇒ 텍스트만 이해하는 AI를 이미지를 보고 대화할 수 있는 AI로 확장
기존의 VLM의 문제
- 이전에는 이미지를 보고,
  - 저게 뭐야? - 강아지요. 까지는 대답을 잘했는데,
  - 왜 강아지가 위를 쳐다보고 있어? 라고 하는 추론이 필요한 질문에는 대답을 하기 어려웠음
    
    ⇒ 그래서 필요한 것이 instruction 데이터
- instruction 데이터를 활용해서
  - 왜 강아지가 위를 쳐다보고 있어? - 저 위에는 공이 있기 때문이야와 같이 질문-답변 형태로 학습하도록 함
- 그런데, 이러한 instruction 데이터를 사람이 만들게 되면, 비용이 너무 많이 들게 된다는 단점이 존재함
  
  ⇒ GPT-4를 이용하자
  - GPT-4를 활용하게 되면,
    
    [이전]
    - 이미지 하나 → 캡션 1개(강아지가 공원에서 놀고 있어요!)
    [GPT-4]
    - 캡션 1개(강아지가 공원에소 놀고 있어요!)
      
      →
      어떤 동물이야? - 강아지요
      
      강아지가 뭐하고 있어? - 놀고 있어요
      
      어디에서? → 공원에서요
      
      강아지가 지금 실내야? - 아니요
      와 같은 대화를 자동 생성을 하면서, 캡션 1개로 instruction dataset을 만들 수 있다.

Abstract

GPT가 생성한 instruction 데이터를 활용하여 LLM을 튜닝시키면 새로운 작업(Zero-shot)에 대한 성능이 향상된다는 사실이 알려져 있지만, 멀티모달 분야에서는 충분히 연구되지 않았음

✓ Zero-shot

쉽게 말해, 학습 데이터가 0개인 상태로도 새로운 작업을 수행할 수 있는 능력을 의미함

예를 들어,

instruction tuning을 하지 않은 모델

→ 번역 o, 요약 △, 설명 x

instruction tuning을 한 모델

→ 번역 o, 요약 o, 설명 o, 코드 작성 o 처럼 새로운 작업에도 적응을 잘함

✓ Zero-shot, One-shot, Few-shot

방식 학습 예시 수 예시

Zero-shot 0개 "이 문장을 번역해."

One-shot 1개 예시 하나를 보여준 뒤 수행

Few-shot 몇 개(2~10개 정도) 예시 몇 개를 보여준 뒤 수행

Zero-shot

오늘 정말 행복해 → 감정을 분류해!

One-shot

오늘 너무 좋다 - 긍정

→ 오늘 정말 행복해 - ??

Few-shot

좋다 - 긍정, 싫다 - 부정, 행복하다 - 긍정

→ 오늘 정말 행복해 - ??

본 연구에서는 텍스트만 활용하는 GPT-4를 활용하여 이미지와 텍스트 기반의 멀티모달 instrction 데이터를 생성을 제안함 → LLaVA
- LLaVA: 비전 인코더에 LLM을 결합하여 범용적인 이미지와 언어 이해를 수행하는 end-to-end 방식의 대규모 멀티모달 모델
  
  ✓ end-to-end
  
  입력(input)부터 출력(output)까지 하나의 모델이 전체 과정을 한 번에 학습하는 것
  ✓ 참고
  
  이전
  - 이미지 → 사람이 특징 추출(귀 모양, 털 색 등) → 분류기 → 고양이
  - 즉, 여기에서 귀 길이를 측정하자, 색깔을 활용하자. 같은 규칙을 사람이 정해야 했음
  - 입력 → feature engineering(사람) → ML → 출력
  딥러닝에서는
  - 이미지 → 신경망 → 고양이
  - 모델이 스스로 어떤 특징을 볼 지, 어떻게 판단할지를 학습함
  LLaVA에서도
  
  입력: 이미지+질문 → 출력: 답변
  과 같이 중간에 사람이 객체를 검출하거나 caption을 만들거나하는 과정이 없음
  - 이미지 → CLIP → Vicuna → 답변
  - end-to-end의 핵심은 최종적인 loss가 어디에서 계산되느냐임
    
    end-to-end가 아닌 경우
    - 이미지 → YOLO → BBox 저장 → 캡션 모델 → 텍스트 저장 → GPT → 답변
      과 같이 각 모델이 독립적으로 동작하는 경우
    - YOLO는 객체 탐지만, Caption모델은 BBox만, GPT는 텍스트만 보기
      
      → 하나의 loss로 연결되어 있지 않음
    end-to-end이려면
    - 이미지 → CLIP → projection → Vicuna → Answer → Loss 하나
- 모델뿐만 아니라 평가용 데이터세트도 함께 만들었음
실험결과, 멀티모달 대화 능력이 우수했고, 새로운 이미지나 질문에서도 GPT-4V와 비슷한 수준을 보이기도 했음
- GPT-4V의 성능을 100이라고 했을 때, LLaVA는 85.1%정도
- ScienceQA 데이터세트로 파인튜닝한 결과, 92.53%로 SOTA 달성

방식	학습 예시 수	예시
Zero-shot	0개	"이 문장을 번역해."
One-shot	1개	예시 하나를 보여준 뒤 수행
Few-shot	몇 개(2~10개 정도)	예시 몇 개를 보여준 뒤 수행

1. Introduction

사람이 시각과 언어 여러가지 채널을 통해 상호작용하는 것처럼 인공지능 또한 시각과 언어를 모두 포함하는 멀티모달 지시를 효과적으로 따르고, 인간의 의도와 일치하게 실제 환경에서 다양한 작업을 수행하는 것을 목표로하고 있음
- 그래서 최근에, 언어가 결합된 비전 모델 개발에 대한 관심이 증가하고 있음
  - 분류(classification), 객체 탐지(detection), 분할(segmentation), 이미지 설명(captioning), 이미지 생성(generation), 편집(editing) 등 다양한 곳에서 뛰어난 성능을 내고 있음
- 하지만 이러한 연구들은 ~~end-to-end 형식이 아니라~~ 각 작업들이 하나의 대형 모델에서 독립적으로 해결이 되고 있음
  - 분류 모델 → 분류만, 객체 탐지 모델이면 → 탐지만
  - 언어도 이미지 내용을 설명하는 것에만 그쳤었음
    
    즉, 왜 그런지, 다른 방법은 없는지, 비슷한 예시는 뭔지? 등에 대한 질문에서는 잘 대응하지 못했었음
이때, LLM은 언어가 다양한 작업 지시를 할 수 있고, end-to-end로 학습된 신경망이 원하는 작업으로 전환하여 문제를 해결할 수 있도록 함을 보여줌
- 그래서 오픈소스 LLM에 대한 관심이 높아졌고, 그중 LLaMA는 GPT-3에 준하는 오픈소스 LLM
  - instruction tuning 덕분에 오픈소스 모델도 GPT와 비슷한 성능을 낼 수 있게 되었음
하지만, 그동안은 텍스트만을 대상으로 연구가 진행되어 왔었고, 본 연구에서는 instruction tuning을 언어-이미지 멀티모달 공간으로 확장하는 visual instruction tuning을 제안함
- 멀티모달 instruction 데이터가 부족하기 때문에 ChatGPT/GPT-4를 이용하여 이미지-텍스트 쌍을 적절한 instruction 형식으로 병형하는 데이터 재구성 방법과 파이프라인을 제안
- CLIP의 개방형 시각 인코더와 Vicuna 언어 디코더를 연결하여 대규모 멀티모달 LLM을 개발하고, 시각-언어 instruction 데이터로 end-to-end 미세 조정 수행

Multimodal Instruction-following Agents

컴퓨터 비전 분야에서 instruction-following agents를 구축하는 기존 연구들은 크게 두가지 범주로 나눌 수 있음
— ① end-to-end 모델, ② 여러 모델을 연결한 시스템

[end-to-end 모델]

각각의 특정 연구 주제마다 별도로 개발되는 편
- VLN(Vision Language Navigation) & Habitat에서
  Embodied AI Agent가 자연어 지시를 따르고, 시각 환경에서 목표를 달성하기 위한 일련의 행동을 수행해야함
- 예를 들어, 사람이 “주방에서 컵을 가져와”라고 했다면,
  AI가 앞으로 이동 → 오른쪽으로 회전 → 컵 찾기 → 집기를 수행
이미지 편집 분야에서
입력 이미지와 사람이 작성한 지시문을 입력 받아서 InstructPix2Pix는 이미지 편집 수행

[여러 모델을 연결한 시스템]

LangChain이나 LLM을 이용하여 여러 모델을 조정하는 시스템
- Visual ChatGPT, X-GPT, MM-REACT, VisProg, ViperGPT

⇒ 두 범주 모두 instruction-following agent를 구축한다는 목표를 가지고 있지만, 본 연구에서는 여러 작업을 수행할 수 있는 end-to-end 방식의 언어-비전 멀티모달 개발에 초점을 맞출 것

Instruction Tuning

자연어 처리 분야에서는 GPT-3, T5, PaLM, OPT와 같은 LLM이 자연어 지시를 따르고 실제 작업을 수행할 수 있도록 하기 위해 instruction tuning 방법을 연구함
- InstructGPT/ChatGPT, FLAN-T5, FLAN-PaLM, OPT-IML
- instruction tuning을 통해 LLM의 Zero-shot, Few-shot 일반화 능력이 향상
  
  ⇒ 때문에 해당 아이디어를 NLP뿐만 아니라 CV에도 적용해보자!
넓게보면, foundation model을 이용한 Teacher-Student Distillation 아이디어는 이미지 분류와 같은 다른 분야에서도 연구되어 옴
- Flamingo
  - Zero-shot 작업 전이와 In-context Learning에서 뛰어난 성능을 보였음 → 멀티모달 분야의 GPT-3
    ✓ In-context Learning(ICL) — Few-shot learning
    
    모델 파라미터를 업데이트하지 않고, 프롬프트에 예시를 넣어 새로운 작업을 수행하게 하는 방법
    
    파인튜닝은 데이터를 넣음으로써 모델을 다시 학습시킴. 즉, 가중치가 바뀜
    - 데이터 → 모델학습 → 파라미터 변경 → 새로운 모델
    반면, ICL은 학습은 안하고, 프롬프트만 변경
    
    한국어 : 감사합니다.
    영어 : Thank you.
    
    한국어 : 좋은 아침입니다.
    영어 : Good morning.
    
    한국어 : 안녕하세요.
    영어 : ??
    
    ⇒ GPT는 Hello.로 답하는데 이건 학습한 것이 아니라 “지금 이 번역 패턴을 따라가면 되는구나”를 프롬프트에서 이해한 것
- BLIP-2, FROMAGe, KOSMOS-1
  - 이미지-텍스트 쌍으로 학습된 대규모 멀티모달 모델
- PaLM-E
  - Embodied AI를 위한 대규모 멀티모달 모델
오픈 소스 LLM인 LLaMA를 기반으로 OpenFlamingo와 LLaMA-adapter는 LLaMA가 이미지 입력을 사용할 수 있는 오픈소스 연구이며 오픈소스 LLM 개발의 기반을 마련
- 기존의 모델은 이미지를 이해하긴 하지만, instruction tuning을 하지 않았고, 멀티모달 성능이 일반 텍스트 전용 작업보다 부족하다는 문제
  
  ⇒ 본 논문에서 이러한 공백을 메우고자 함
주의해야할 점은
- Visual instruction tuning과 visual prompt tuning은 다르다.
  - visual instruction tuning은 모델의 instruction 수행 능력 향상 목적
  - visual prompt tuning은 모델을 새로운 작업에 적응시킬 때 적은 수의 파라미터만 학습하여 효율성을 높이는 것이 목적

3. GPT-assisted Visual Instruction Data Generation

CC와 LAION 등 이미지-텍스트 상으로 이루어진 공개 멀티모달 데이터세트는 풍부하지만, instruction-tuning에 필요한 멀티모달 instruction-following 데이터는 제한적
- 부분적으로 사람들이 크라우드소싱을 통해 데이터를 만드는 것도 비용이 많이 듦
  
  ⇒ 본 논문에서는 이미지-텍스트 데이터를 기반으로 ChatGPT/GPT-4를 활용하여 멀티모달 instruction-following 데이터를 수집하는 방법을 제안함
이미지 $X_v$와 여기에 대응하는 캡션 $X_c$가 주여졌을 때, 이미지 내용을 설명하도록 Assitant에 지시하는 질문 집합 $X_q$를 만듦
- 본 논문에서는 GPT-4에게 이러한 질문 목록을 생성하도록 프롬프트를 제공함(부록 참조)
- 이미지-텍스트 쌍을 instruction-following 형태로 확장하는 가장 간단한 방법은
  
  human: $X_q$ $X_v$
  Assistant: $X_c$
  
  ⇒ 즉, 원래는 image → caption 구조였는데, 이제는 질문 + image → caption 구조로!
- 하지만, 이런 단순작업으로는 질문과 답변 모두에서 다양성과 깊이 있는 추론을 하기엔 부족해짐
이러한 문제를 해결하기 위해, 텍스트만 입력받는 GPT-4 또는 ChatGPT를 강력한 Teacher 모델로 활용하여 시각정보를 포함하는 Instruction 데이터를 생성함
- 이미지를 텍스트 전용 GPT가 이해할 수 있도록 2가지 기호적 표현 사용
  ✓ 기호적 표현이란
  
  캡션과 BBox는 이미지를 그대로 사용하는 것이 아니라, 이미지를 “기호”나 “텍스트” 형태로 표현하는 것이라서 기호적 표현이라고 부름
  
  이미지
  - 픽셀들의 집합 (숫자 배열)
```
[[123, 45, 200],
[132, 50, 190],
...
]
```
  캡션
  - 강아지가 공원에서 놀고 있어요! 와 같이 언어로 변환한 것
  - 이미지 → 텍스트 이므로 기호를 이용한 표현
  BBox
  - BBox는 객체 이름(dog)와 위치좌표($x_1$,$y_1$,$x_2$,$y_2$)로 이미지 표현
```
Dog : (120, 50, 280, 320)

Ball : (330, 210, 380, 260)

Person : (20, 10, 170, 400)
```
  - 픽셀 자체가 아니라 추상화된 정보이므로 기호적 표현
- 캡션은 일반적으로 다양한 관점에서 시각 장면을 설명함
- BBox는 장면 속 객체 위치를 나타내며, 각 박스는 객체의 종류와 공간적 위치를 함께 표현함
  - 예시(부록)
    
    !image.png
⇒ 이러한 기호적 표현을 통해 LLM이 이해할 수 있는 시퀀스로 인코딩할 수 있게 됨
본 논문에서는 COCO 데이터를 활용하여 세 종류의 instruction 데이터를 생성함
- 사람이 몇 개의 예시(ICL의 seed example)를 설계하면, 그 예시를 보고 GPT가 나머지를 보고 스스로 생성함

[Conversation]

사진에 대해 질문하는 사람과 Assistant 사이의 대화 설계
- 답변은 assistant가 실제 이미지를 보고 답하는 것처럼 작성
- 질문은 객체 종류, 객체 개수, 객체의 행동, 객체 위치, 객체간 상대적 위치 등 다양한 시각 정보를 담았음 + 명확한 답이 존재하는 질문만 활용

[Detailed Description]

이미지에 대해 풍부하고 포괄적인 설명을 포함하기 위해 관련 질문 목록 설계
- 각 이미지마다 질문 목록에서 하나를 무작위로 선택하여 GPT-4가 상세 설명을 생성하도록 함

[Complex Reasoning]

Conversation 과 Detailed Description은 시각적 내용에 집중하고 이를 바탕으로 깊은 추론 질문 생성
- 답변은 일반적으로 엄격한 논리를 따라 단계적으로 추론하는 과정
  
  ex. 왜 그 사람은 우산을 쓰고 있을까? → 비가 오고 있고, 우산을 쓰는 게 자연스럽다 와 같은 추론 필요

⇒ 158,000개 고유한 언어-이미지 instruction 데이터 수집

58,000개 → Conversation
23,000개 → Detailed Description
77,000개 → Complex Reasoning
ChatGPT와 GPT-4를 모두 활용하여 데이터를 생성해 본 후 성능 비교함
- 객체 간의 위치 관계나 공간 추론이 필요한 질문에서는 GPT-4가 훨씬 정확하고 일관된 데이터를 만들어냄 → 최종 데이터 생성에는 GPT-4 사용!
✓ GPT-4 vs ChatGPT

GPT-4는 언어 모델이고, ChatGPT는 그 모델을 이용하여 대화할 수 있도록 만든 서비스
- 비유하자면, A18칩 = GPT-4, 아이폰 = ChatGPT

4. Visual Instruction Tuning

4.1 Architecture

주요 목표는 사전학습된 LLM과 비전 모델의 능력을 모두 효과적으로 활용하는 것

구조

image → CLIP 비전 인코더 - Visual Features → Projection layer - vision tokens → Vicuna → answer

파라미터 $ϕ$를 갖는 LLM $f_ϕ$(⋅)로 Vicuna 모델 선택 → 당시 가장 뛰어난 instruction following 능력을 가지고 있었음

✓ 왜 Vicuna

Meta의 LLaMA를 기반으로 Instruction Tuning하여서 만든 오픈소스 대화형 언어모델

CLIP이 이미지를 feature로 바꾸고, projection layer가 Vicuna가 이해할 수 있는 형태로 변환

[상세]

모델 역할

CLIP 이미지를 Feature로 변환

Projection Layer 이미지 Feature를 Vicuna가 이해할 수 있는 형태로 변환

Vicuna 질문을 이해하고 자연어 답변 생성

GPT-4 학습용 Instruction 데이터 생성

당시 GPT-4는 폐쇄형으로 가중치, 모델이 공개되어 있지 않아 공개된 Vicuna를 활용함

GPT-4는 데이터생성기 역할만 수행

입력 이미지 $X_v$에 대해 사전학습된 CLIP ViT-L/14 비전 인코더를 사용

→ 시각 특징 $Z_v$ = $g$($X_v$)를 생성함
- 즉, 이미지를 CLIP에 통과시키면서 이미지를 숫자로 표현 → $Z_v$
  - $X_v$ : 입력 이미지
  - $g(⋅)$ : CLIP
  - $Z_v$ : 이미지 특징(feature)
마지막 transformer 층 이전과 이후에 Grid feature를 모두 고려함
- CLIP내부에는 transformer가 여러 층이 있는데 논문에서는 마지막 층의 직전 feature과 직후 feature 둘 다 실험해봤다는 뜻
CLIP에서 뽑은 이미지 특징을 단어 임베딩 공간으로 연결하기 위해 간단한 선형층 사용
- Vicuna는 단어 임베딩 공간, CLIP의 feature는 이미지 feature공간에 있으니까 둘의 좌표계가 다르다는 문제 → 선형층에 넣자!
- CLIP → 선형층 → LLM 구조라고 이해하면 됨
  
  ⇒ 즉, 우리가 학습가능한 projection matrix $W$를 적용해서 이미지 특징인 $Z_v$를 언어 임베딩 토큰 $H_v$로 변환
  → 이 임베딩 토큰 $H_v$는 단어 임베딩과 동일한 차원을 가짐
  - 여기서 projection matrix $W$는 학습되는 가중치를 의미함
    
    CLIP → W → LLM 토큰
    
    ✓ LLM이 사용하는 임베딩 크기와 완전히 동일한 차원으로 만든다는 것이 핵심!
$H_v = W ⋅ Z_v,$ $with$ $Z_v = g(X_v)$

⇒ 이렇게 시각 토큰의 시퀀스 $H_v$를 얻게 됨 (이미지를 하나의 단어처럼!)
- 이러한 projection 방식(선형층 1개)은 매우 가볍기 때문에 실험을 빠르게 진행 가능하다!!
이미지와 언어 표현을 연결하는 방법에는 선형층 1개만 사용하는 것뿐만 아니라, Flamingo의 Gated Cross-Attention이나 BLIP-2의 Q-former와 같은 방법도 있긴하다~ 이런 더 효과적이고 정교한 LLaVA 구조를 탐구하는 것은 향후 연구 과제로 남겨두겠다.

모델	역할
CLIP	이미지를 Feature로 변환
Projection Layer	이미지 Feature를 Vicuna가 이해할 수 있는 형태로 변환
Vicuna	질문을 이해하고 자연어 답변 생성
GPT-4	학습용 Instruction 데이터 생성

✓ 이 Architecture의 핵심 아이디어

새로운 거대한 모델을 만드는 것이 아니라 이미 강력한 두 모델(CLIP, Vicuna)을 간단한 projection layer 하나로 연결했다는 것

CLIP은 이미지 숫자 특징 $Z_v$로 변환

projection Matrix $W$는 이 특징을 LLM이 사용하는 단어 임베딩 공간으로 옮김

이렇게 변환된 visual token $H_v$를 vicuna에 입력하면, vicun는 이미지를 단어처럼 처리해서 질문에 답할 수 있음

즉, LLaVA의 가장 큰 특징은 복잡한 멀티모달 구조가 아니라 간단한 연결만으로 사전학습된 모델을 잘 결합했다 라는 것

4.2 Training

각 이미지 $X_v$에 대해서 우리는 multi-turn 대화 데이터 $(X_q^1, X_a^1, … , X_q^T, X_a^T)$를 생성함
- T는 전체 대화(turn)의 수
- $X_q^t$ : t번째 질문
- $X_a^t$ : t번째 답변
- 이게 무슨 말이냐하면, 하나의 강아지 사진이 있을 때,
  - Q1: 어떤 동물? - A1: 강아지
  - Q2: 뭐하고 있음? - A2: 공보고 있음
  - Q3: 공은 무슨 색? - A3: 노란색!
    
    과 같이 여러번 이어지는 대화(Multi-turn 대화)를 하나의 학습 데이터로 활용함
이때, 모든 답변을 assistant의 응답으로 간주해서 하나의 시퀀스로 구성

→ 질문과 답을 모두 이어 붙여서 하나의 긴 문장으로 만든다는 의미

: LLM은 원래 토큰들의 긴 문장을 입력으로 받기 때문에 위와 같은 작업 수행
t번째 instruction (t번째 턴에서 human이 입력한 질문, 지시문)
- 다시 한 번, 개념을 짚자면,
  
  Q1, Q2, Q3 = instruction
  
  A1, A2, A3 = assistant response
- $X_{instuct}^t$ $=$ $\begin{cases} \text{Randomly choose } [X_q^1, X_v] \text{ or } [X_v, X_q^1], & t=1 \ X_q^t, & t>1 \end{cases}$
  
  → 첫 번째 턴(t=1)에서는 $[X_q^1, X_v] \text{ or } [X_v, X_q^1]$ 중 하나를 무작위로 선택한다.
  
  즉, Question → image 도 사용하고, image → Question 도 사용한다는 것(순서에 너무 민감하지 않도록 하기 위함)
  
  → 두번째 질문부터는 이미지는 이미 앞에서 입력했기 때문에, Q - A 구조만 넣음
  
  ⇒ 멀티모달 instruction-following 시퀀스 형식 완성!

LLM은 원래의 자기 회귀(Auto-regressive) 학습 목표를 사용해서 prediction token에 대해 instruction tuning을 사용함

✓ Auto-regressive

이전에 생성한 단어(토큰)을 이용하여 다음 단어를 하나씩 순차적으로 생성하는 방식

즉, 앞에서 생성한 결과를 다시 입력으로 사용하면서 문장을 이어가는 방식을 의미함

✓ GPT vs BERT

GPT (Auto-regressive) BERT (Auto-encoding)

다음 토큰 예측 가려진 토큰 예측

왼쪽 → 오른쪽 생성 문장 전체를 동시에 봄

텍스트 생성에 강함 이해(분류, 검색 등)에 강함

GPT (Auto-regressive)	BERT (Auto-encoding)
다음 토큰 예측	가려진 토큰 예측
왼쪽 → 오른쪽 생성	문장 전체를 동시에 봄
텍스트 생성에 강함	이해(분류, 검색 등)에 강함

길이가 L인 시퀀스에 대해 목표 답변 $X_a$가 생성될 확률은
이미지 $X_v$, instruction, 이전까지 생성된 답변 토큰들을 조건으로 각 토큰의 확률을 모두 곱한 값으로 정의

$p(X_a \mid X_v, X_{\mathrm{instruct}}) = \prod_{i=1}^{L} p_\theta!\left( x_i \mid X_v, X_{\mathrm{instruct,
⇒ 보면 GPT의 Next Token Prediction과 유사한데,
Question → → The → dog → is → running이면, LLM은 The를 맞추고 그 다음 dog, 다음에 is를 맞추는 형식.
: 답 전체를 한 번에 맞추는 것이 아니라 토큰 하나씩 예측

구현에 있어서,

Vicuna-v0를 따라 system message를 설정하고 토큰을 ###으로 설정

모델은 assistant의 답변과 어디에서 멈출지()을 예측하도록 학습되고, 자기회귀 모델에서는 초록색 토큰(assistant의 답변 부분)만 Loss 계산에 사용됨

(질문은 이미 입력으로 주어지니까)

LLaVA 모델 학습은 2단계의 instruction tuning 절차를 사용한다

Stage1: pre-training for feature Alignment

→ 이미지 특징(CLIP 출력)과 LLM의 단어 임베딩 공간을 서로 맞춰주는 것(Aligment)

개념의 다양성 + 학습의 효율성을 고려하여 CC3M 데이터 세트를 필터링하여 59만 5천개의 이미지-텍스트 쌍 사용 (필터링과정은 부록에)

이미지-텍스트 쌍은 3절에서 이야기한 것과 같이 단순 확장 방법을 이용하여 instruction-following 데이터로 변환

image → caption 을
Human: Image + 이미지를 묘사해!(질문)
→ Assistant: Caption 형태

⇒ 이 하나의 쌍을 single turn 대화로 간주

$X_{instuct}^t$ $=$ $\begin{cases} \text{Randomly choose } [X_q^1, X_v] \text{ or } [X_v, X_q^1], & t=1 \ X_q^t, & t>1 \end{cases}$

의 입력 $X_{instuct}^t$을 구성하기 위해, 이미지 $X_v$에 대해 간단히 설명하라는 질문 $X_q$를 무작위로 하나 선택

→ 정답 답변인 $X_a$는 원래 caption으로!

즉, 질문은 새로 만들지만 정답은 원래 데이터세트에 있던 caption을 그대로 활용

학습에 있어서 비전 인코더와 LLM의 가중치는 모두 고정(frozen)하고, projection matrix $W$만 학습 가능한 파라미터로 둬서

$p(X_a \mid X_v, X_{\mathrm{instruct}}) = \prod_{i=1}^{L} p_\theta!\left( x_i \mid X_v, X_{\mathrm{instruct,
→ CLIP의 특징을 Vicuna가 이해할 수 있는 형태로 변환하는 것만 배우면 되니까, $W$만 학습시킴

⇒ 이렇게되면 이미지 특징 $H_v$가 사전학습된 LLM의 단어 임베딩과 정렬될 수 있음

⇒ 즉, 고정된 LLM이 읽을 수 있도록 Visual tokenizer를 학습하는 과정

(이미지를 LLM이 읽을 수 있는 시각 토큰으로 변환하는 방법을 배우는 것)

Stage2: Fine-tuning end-to-end

→ 본격적으로 LLaVA를 학습하는 단계

비전 인코더(CLIP)의 가중치는 계속해서 고정해 놓고, projection layer와 LLM의 가중치를 함께 업데이트! (이제는 vicuna도 이미지를 잘 이해하도록 fine-tuning)

학습가능한 파라미터 $\theta = {W, \phi}$

[Multimodal Chatbot]

3절에서 생성한 15만 8천개의 언어-이미지 instruction 데이터로 fine-tuning을 진행하여 챗봇 개발

Conversation → multi-turn

Detailed description → single turn

Complex reasoning → single turn

[ScienceQA]

정답뿐아니라 자세한 강의와 설명이 포함된 최초의 대규모 멀티모달 과학 문제 데이터세트

각 문항에는 자연어 또는 이미지 형태의 문맥이 함께 제공됨

Assistant는 자연어로 추론 과정을 설명하고, 여러 선택지 중에서 하나를 정답으로 선택함

이 데이터세트의 경우에는 single turn으로 구성되고, 문제와 문맥을 $X_{instruct}$로, 추론과정과 정답을 $X_a$로 사용

5. Experiments

평가

LLaVA의 instruction-following 능력과 시각적 추론 능력을 multimodal chatbot 데이터세트와 scienceQA 데이터세트를 통해 확인

Multimodal chatbot: 사람처럼 이미지에 대해 대화할 수 있는지

ScienceQA: 이미지를 보고 과학 문제를 추론할 수 있는지

학습환경

Vicuna의 하이퍼파라미터를 따라서, 모든 모델을 A100 GPU 8개를 사용해서 학습함

Stage1: 사전학습

필터링된 CC-595K 데이터세트에서 1epoch, learning rate = 2x10^{-3}, 배치사이즈 = 128

Stage2

LLaVA-instruct-158K 데이터세트에서는 3epoch, learning rate = 2x10^{-5}, 배치사이즈 = 32로 fine-tuning 진행

5.1 Multimodal Chatbot

LLaVA의 이미지 이해 능력과 대화 능력을 보여주기 위해 챗봇 데모를 개발함

시각적 입력을 얼마나 잘 이해하는지

instruction-following 능력을 잘 보여주는지를 연구

이때, GPT-4논문에 제시된 이미지 문제를 가져와서 비교 진행

멀티모달 GPT-4의 질문(prompt)와 응답(response)을 그대로 인용

또한, BLIP-2와 OpenFlamingo 모델과도 같은 질문을 입력하여 응답 얻음

⇒ 즉, GPT-4 논문의 이미지와 질문을 활용하여, GPT-5, BLIP-2, OpenFlamingo, LLaVA의 응답을 비교함

모델 질문 의도 이해 장면 설명 추론 정확성

LLaVA ✓ 사용자의 질문 의도에 맞게 답변 ✓ ✓ 왜 이상한지까지 설명 높음

GPT-4 ✓ ✓ ✓ 높음

BLIP-2 ❌ 질문 의도를 반영하지 못함 ✓ ❌ 보통

OpenFlamingo ❌ △ ❌ (다림질을 말리기로 오인) 낮음

LLaVA는 비교적 작은 멀티모달 instruction-following 데이터세트(약 8만장의 고유 이미지)로 학습되었음에도, 이러한 예시들에서 멀티모달 GPT-4와 상당히 유사한 추론 결과를 보여줌

도메인 밖의 이미지였음에도 굿굿!

반면, BLIP-2와 OpenFlamingo는 단순 이미지 설명에 불과했음

Quantitative Evaluation

LLaVA의 성능을 체계적으로 이해하기 위해서 멀티모달 데이터에서의 instruction-following 능력을 측정하는 정량적 평가 지표 제안

이때, GPT-4는 생성된 응답의 품질을 평가하는 역할

평가 데이터: 이미지, 정답 텍스트 설명, 질문으로 구성

이론적인 상한선을 근사하기 위해서 텍스트 전용 GPT-4가 질문과 정답 텍스트 설명을 이용해서 생성한 답변을 레퍼런스로 사용

그니까 이미지를 텍스트로 잘 설명한 정보를 GPT-4가 받아서 답을 내놓기 때문에 이를 레퍼런스로 삼는다는 뜻

두 모델의 응답을 얻은 후,
질문, 시각 정보, 두 assistant의 응답을 텍스트 전용 GPT-4(judge)에 입력함

Question, Caption, LLaVA의 답변, GPT-4의 래퍼 답변 → 이렇게 받음

그래서 도움이 되는 정도, 관련성, 정확성, 상세함 등을 평가하여 1-10점까지의 점수 부여 및 왜 이렇게 평가했는지에 대해서도 설명

[LLaVA-Bench(COCO)]

→ COCO 데이터세트를 활용하여 연구진이 새롭게 만든 평가용 벤치마크

COCO-Val-2014에서 30장의 이미지를 무작위로 선택

→ 3절에서 제안한 이미지 생성 파이프 라인을 통해 3가지 유형의 질문(conversation, detailed description, complex reasoning) 생성

⇒ 총 90개의 질문

해당 벤치마크를 통해서 동일한 시각 입력(이미지)에 대해 모델의 정렬 특성과 능력을 평가함

서로 다른 유형의 instruction-following 데이터 효과를 분석하기 위해서 학습 데이터세트를 변경하며 실험했음

instruction tuning을 적용하면 사용자 지시를 따르는 능력이 50점 이상 크게 향상됨

소량의 detailed description과 complex reasoning 질문을 추가하는 것만으로도 모델의 전체 성능이 약 7점정도 향상됨

conversation 질문에 대한 성능도 향상 → 추론 능력 향상이 대화 능력을 보완함을 알 수 있음

3가지 유형을 모두 사용했을 때, 85.1%로 가장 성능이 좋았음

[LLaVA-Bench(In-the-wild)]

→ COCO같은 일반적인 사진이 아니라 더 어려운 실제 이미지 사용

실내, 실외 장면, 밈, 그림, 스케치 등 다양한 종류의 24개의 이미지와 60개의 질문을 수집하여 각 이미지마다 사람이 작성한 매우 상세한 설명과 적절한 질문을 연결함

visual instruction tuning 덕분에 LLaVA는 BLIP-2보다 29%, OpenFlamingo보다 48% 더 높은 성능을 달성

정답 레이블을 입력으로 사용하는 텍스트 전용 GPT-4와 비교했을 때, LLaVA는 복잡한 추론 문제에서 81.7%의 상대 성능을 달성했고, 전체 점수는 67.3%정도

[Limitations]

LLaVA-Bench(In-the-wild)는 의도적으로 어렵게 설계되어 있고, 모델의 약점을 드러내기 위한 목적

왼쪽 예시에서 식당 이름을 맞추기 위해서는

광범위한 지식과 다국어 이해 능력이 있어야함

반찬이 뭔지 설명하려면 모델이 인터넷에서 관련 멀티모달 정보를 검색할 필요가 있을 수도

오른쪽 예시에서 요거트 브랜드를 정확히 인식하기 위해서는

모델은 고해상도 이미지를 처리할 수 있어야하고 폭넓은 지식을 가지고 있어야함

또한, 주목할만한 사례는 냉장고에 딸기, 요거트가 있는데 딸기맛 요거트가 있다고 판단함

⇒ LLaVA는 이미지를 패치들의 집합으로 인식해서 이미지 안의 복잡한 의미적 관계를 제대로 이해하지 못함

본 연구의 LLaVA가 baseline이 되길 바라며, 본 연구가 LLM 개발에 도움이 되길 바람~!

5.2 ScienceQA

ScienceQA는 21,000개의 멀티모달 객관식 문제를 포함하고 있음

3개의 과목, 26개의 주제, 127개의 카테고리, 379개의 기술에 걸쳐 다양한 도메인 포함

데이터세트

학습용: 12,726개

검증용: 4,241개

테스트용: 4,241개

평가: 아래 모델들과 비교

GPT-3.5(chain-of-thought 사용/미사용)

LLaMA-Adapter

MM-CoT(Multimodal Chain-of-Thought) → 당시 SOTA

LLaVA

마지막 레이어 이전 시각 특징 사용

모델이 먼저 이유를 예측하고, 정답을 예측하도록

12 epoch동안 학습

⇒ 결과적으로 90.92%의 정확도, 당시 SOTA 91.68%와 유사한 수치

LLM의 한계를 확인하기 위해

GPT-4에도 2-shot in-context learning을 적용하여 82.69%의 정확도를 달성함

⇒ GPT-3.5의 75.17%보다 절댓값 기준 7.52% 향상

상당수의 문제에서 GPT-4는 이미지나 그래프 등의 문맥이 부족하다고 판단하여 답변하지 못했었음

즉 GPT-4의 성능이 낮은 이유는 추론 능력이 부족한게 아니라 이미지를 볼 수 없기 때문

⇒ 그래서 LLaVA와 GPT-4의 결과를 결합하는 2가지 방법!

1. GPT-4 보완방식

GPT-4가 답변하지 못하는 경우에는 LLaVA의 예측 결과 사용

90.97%의 정확도를 달성했고, 이는 LLaVA만 사용하는 것과 거의 동일

⇒ 그닥 효과x

2. GPT-4를 judge로 활용하는 방법

GPT-4와 LLaVA의 답이 다른 경우, GPT-4에 질문과 두 모델의 답변을 보여주고 최종 답을 선택하도록

→ chain-of-thought와 유사하지만 다른 모델의 외부 지식을 활용한다는 점에서 다름

해당 방법은 92.53%의 SOTA 달성!

⇒ 어떻게 텍스트 전용 GPT-4가 이미지를 포함한 문제에서 전체 성능을 올릴 수 있었을까?

ex. 태양은 어느 방향에서 뜨는지와 같은 이미지없이 풀 수 있는 문제들도 있어서, GPT-4 judge가 이러한 경우를 식별해서 LLaVA의 일부 오류를 수정함

⇒ GPT-4를 앙상블에 활용한 최초의 사례

[Ablations]

Visual features

CLIP 비전 인코더의 마지막 레이어 특징을 사용하여 89.96%의 정확도를 얻었음

즉, 마지막 이전 레이어의 특징을 사용했을 때보다 0.96% 낮음

⇒ CLIP의 마지막 레이어는 전역적이고 추상적인 이미지 특성에 더 집중하지만, 그 이전 레이어는 구체적인 이미지 세부 정보를 이해하는데 유용한 지역적 특징에 집중하기 때문!

Chain-of-thought

모델이 정답을 먼저 생성할지 또는 추론과정을 먼저 생성할지를 결정하기 위한 실험

정답먼저: 12epoch에서 89.77% 최고 정확도

추론먼저: 6epoch에서 89.77%도달, 이후 더 오래 학습해도 추가적인 향상은 x

⇒ 수렴속도는 향상시키지만, 최종 성능 향상에는 크게 기여하진 않음

pre-training

pre-training을 제외하고 scienceQA에서 처음부터 학습시켜봤을때 정확도가 85.81%로 감소

model-size

13B와 7B 비교

89.84%로, 90.92%보다 1.08% 낮은 성능

6. Conclusion

Visual instruction tuning 효과 입증

언어-이미지 기반의 instruction-following 데이터를 자동으로 생성하는 파이프라인 제안

이를 바탕으로 사람 의도를 이해하고 시각적 작업을 수행하는 멀티모달 모델 LLaVA를 학습시킴

LLaVA는

ScienceQA에서 fine-tuning했을 때, SOTA 달성

multimodal chatbot로 fine-tuning 했을 땐 뛰어난 visual chat 능력을 보여줌

또한, 멀티모달 instruction-following 능력을 평가하기 위한 최초의 벤치마크 제시

우리 연구가 visual instruction tuning의 첫 번째 단계이고, 앞으로 추가적인 연구하시길~

모델	질문 의도 이해	장면 설명	추론	정확성
LLaVA	✓ 사용자의 질문 의도에 맞게 답변	✓	✓ 왜 이상한지까지 설명	높음
GPT-4	✓	✓	✓	높음
BLIP-2	❌ 질문 의도를 반영하지 못함	✓	❌	보통
OpenFlamingo	❌	△	❌ (다림질을 말리기로 오인)	낮음

[논문리뷰] FinBERT: Financial Sentiment Analysis with Pre-trained Language Models

Wed, 22 Jul 2026 13:10:54 GMT

Overview

논문명: FinBERT: Financial Sentiment Analysis with Pre-trained Language Models 학회(출판연도): arXiv (2020) 연구분야: 딥러닝 기반 금융 자연어 처리 및 도메인 특화 언어모델

Background Concepts

기존의 NLP모델은 뉴스, 위키 등 일반 텍스트를 학습하는데 금융 텍스트는 완전히 다른 언어이며 전문 용어, 미묘한 표현 등으로 인해서 일반적인 BERT는 금융 sentiment 성능이 낮았음 ⇒ Domain Shift(도메인 불일치)

① BERT(Bidirectional Encoder Representations from Transformers)

정의: 양방향 문맥을 이해하는 Transformer기반 언어 모델

중요성: 거의 모든 NLP task의 baseline

비유: 문장을 왼쪽 → 오른쪽이 아니라 “전체 문맥을 동시에 읽는 독자”

② Domain Adaptation

정의: 특정 분야 데이터로 모델 다시 학습

bullish, liability 같은 단어는 금융에서 의미가 다르기 때문

Abstract

[문제]

금융 텍스트 감정 분석 어려움

금융 분야는 전문 용어가 많고 라벨된 데이터도 부족하기 때문

일반적인 NLP는 금융분야에서 성능이 그다지 좋지 못함

도메인 차이

[해결]

pre-trained language model

적은 데이터로도 학습이 가능하며

금융 데이터로 추가적으로 학습도 가능하기 때문

⇒ FinBERT

SOTA 달성

적은 데이터 및 일부만 fine-tuning해도 기존 모델보다 좋음

1. Introduction

공개시장에 대한 가정: 가격은 모든 정보를 반영함

새로운 정보가 나오면 바로바로 반응하면서 가격이 변동됨

이때 “새로운 정보”는 기술의 발전에 따라 의미가 달라질 수 있고 이걸 빨리 쓰는 사람은 이득을 볼 수 있을 것

뉴스, 리포트 같은 금융 텍스트 분석은 새로운 정보의 원천

텍스트가 너무 많아서 사람이 직접 분석하는 것은 불가능

때문에 NLP 기반의 감정 분석이 많이 연구되고 있음

2. Related Literature

2.1 Sentiment analysis in finance

감정 분석: 글에서 사람의 감정이나 의견을 뽑아내는 작업

기존의 연구: ① 단어 개수 기반 머신러닝(bag of words) ② 임베딩 기반 딥러닝(embedding)

⇒ [한계]

word counting: 의미를 잘 못 잡음

deep learning: 데이터가 너무 많이 필요함

금융 감정 분석의 경우 도메인뿐만 아니라 목적도 일반적인 감정분석과 다름

목적: 시장이 어떻게 반응할 지 예측하는 것

[기존 - ① ML]

bag of words 나 사전 기반 방법(lexicon-based) 많이 활용

→ 금융 단어 사전을 만들어서 단어 개수로 감정 판단

N-gram 뽑아서 ML모델로 감정 분류

✓ N-gram: 연속된 단어 묶음

n 이름 결과

1 unigram I / love / financial / markets

2 bigram I love / love financial / financial markets

3 trigram I love financial / love financial markets

→ 문맥을 일부 반영하기 위함

[기존 ② - DL]

[딥러닝 기반]

LSTM

기업 공시 분석해서 주가 예측

여기서도 pre-training을 하긴 했지만 label 데이터로 했어서 한계 존재

↔ [Fin-BERT] unlabeled data로 진행

다양한 딥러닝 모델 관련 연구

다른 NN 모델들 중에서 CNN이 가장 성능 굿

StockTwits(금융 SNS 데이터) 이용

✓ CNN?

문장 → embedding → Convolution → max pooling → classification

텍스트 CNN의 경우에는 단어 패턴 n-gram을 찾음

금융 SNS의 특징이 짧은 문장, slang, 강한 표현이 많음
→ CNN은 짧은 문맥에 최적화되어 있으며 핵심 키워드 중심, 노이즈에 강하기 때문에 굿굿이었음

[임베딩 기반]

Doc2Vec

문장 벡터 만들고 주가 예측

✓ multi-instance learning - representation learning 중요

Doc2Vec은 문서 전체를 하나의 벡터로 표현하는 방법임

즉, 여러 개의 데이터가 모여 하나의 라벨을 가지게 되는 것임

문장이 여러개라서 단순히 평균내는 것이 아닌 중요한 문장을 더 많이 반영하도록 해야함 ⇒ 그래서 좋은 representation(벡터표현)이 필요한 것

텍스트 단순화 + LSTM으로 좋은 성능을 내기도 함

But, 금융 데이터는 라벨이 부족해서 딥러닝을 제대로 쓰기 어려움

✓ 왜 라벨이 부족?

라벨을 만들기에 전문가가 필요하기 때문에 비용이 큼

정답이 애매함

sentiment는 주가에 영향을 주기 때문에 같은 문장이라도 실제로 annotator agreement도 낮음

금융 특성상 같은 뉴스라도 시장 상황에 따라 의미가 달라진다. - 금리 인상만하더라도 어떤 시기에는 긍정, 어떤 시기에는 부정을 의미하기 때문

→ 첫번째 레이어(word embedding)를 pretrain을 하더라도 나머지 모델은 여전히 데이터 부족 문제

⇒ 때문에 모델 대부분을 pretrain을 하고 fine-tuning하는 것이 더 좋음

2.2 Text classification using pre-trained

언어 모델링은 “다음 단어 맞추기” 문제

최근 NLP에서의 중요한 발견은 언어 모델을 조금만 수정하면 다른 task에도 잘 쓸 수 있다는 것

downstream tasks: 감정분석, QA 등

큰 데이터(위키피디아, books)로 먼저 학습하고 작은 데이터로 task-specific하게 조정 → ~~데이터 부족 문제 해결 가능~~

ELMo

양방향 언어 모델을 큰 데이터로 학습 (BERT 이전 모델)

각 단어는 문맥을 반영한 벡터로 표현

문맥 기반 임베딩을 만들 수 있고 word2vec보다 성능 굿

But, partial transfer는 부족(모델 전체에 정보가 퍼지지X)

→ ULMFiT 등장

ULMFiT: Transfer learning 처음으로 성공

discriminative fine-tuning: layer마다 다른 LR

gradual unfreezing: layer마다 점진적으로 학습

모델 전체를 fine-tuning, 도메인 데이터로 추가적으로 pretraining 진행

⇒ General BERT + Financial data로 추가학습 (FinBERT의 핵심 아이디어)

BERT

다음 단어가 아니라 가려진 단어를 맞추고 문장 관계 학습(MLM)

매우 큰 모델이고 매우 큰 데이터

⇒ 때문에 NLP task에서 SOTA 달성

하지만 BERT를 텍스트 분류에 어떻게 fine-tune할지는 아직 연구 부족한 상황

3. Method

3.1 Preliminaries

3.1.1 LSTM

정의: 과거 정보를 오래 기억할 수 있도록 하는 RNN

활용 범위: 주가, 텍스트 같은 순차 데이터에 많이 사용

텍스트는 단어들의 순서이므로 어떻게 표현할 지가 중요함

→ ~~임베딩 문제로 자연스레 연결~~

보통 단어 표현은 미리 학습된 것을 사용함

GLoVe

대표적인 단어 임베딩

단어들이 같이 등장하는 빈도를 이용해서 벡터 만듦

벗, 문맥 반영X

⇒ GLoVe의 한계때문에 LSTM 성능 제한

3.1.2 ELMo

(LSTM + contextual embedding)

주변 단어를 고려하여 단어 의미 만듦 → 양방향 LSTM

단어 시퀀스의 확률 학습

앞단어 + 뒤 단어를 이용해서 현재 단어 이해함

여러 layer 정보를 합쳐서 하나의 임베딩을 만듦

→ 이 임베딩을 다른 task에 사용 가능

3.1.3 ULMFiT

pretraining 기반 NLP 모델

↔ ELMo와 달리 전체 모델을 fine-tuning 하는 방식

AWD-LSTM 사용 (기존의 LSTM보다 개선되어 있음) + 분류 목적으로 마지막에 layer 추가함

특별한 전략을 사용 → FinBERT에서도 이를 사용함

Discriminative Fine-tuning

레이어마다 다른 learning rate 사용

아래 레이어 → 일반 언어 지식

위 레이어 → task - specific 정보

⇒ 똑같이 학습하게 되면 중요한 정보가 망가지기 때문에, low-level일 때는 작은 LR, high-level의 경우 큰 LR을 사용

안정적인 학습, catastrophic forgetting 방지

Slanted Triangular Learning Rates

learning rate를 빠르게 올리고 천천히 줄임

!image.png

초반에 빠르게 방향을 잡고 후반에 미세조정

Gradual Unfreezing

레이어를 한 번에 다 학습하지 않음

step1: 마지막 레이어만 학습
step2: 마지막 2개 레이어
step3: 전체 레이어 …

한 번에 다 학습하면 기존의 knowledge가 붕괴될 수 있고 점진적으로 하게 되면 안정적으로 적응할 수 있기 때문

3.1.4 Transformer

인코더-디코더 구조로 만들어짐

attention 기반의 모델

각 layer는 어텐션 + feedforward 기반

✓ 단어들끼리 서로 얼마나 관련있는지 계산

→ 이 단어가 다른 단어를 얼마나 참고해야 할까? 를 고려함

여러 관점을 동시에 보는 모델

RNN은 느리고 long-distance 관계를 잡기 어렵기 때문에 Transformer기반이 성능 굿

3.1.5 BERT

BERT는 Transformer의 encoder을 여러 개 쌓은 모델

mask로 15%의 토큰을 가리며 맞추는 방법을 사용

문장 연결 여부도 학습

→ 단어 + 위치 정보를 같이 사용함

CLS, SEP 토큰 사용

CLS : 전체 문장의 대표 벡터

2가지 버전 - BERT-base, BERT-large

약 3.3 billion words로 학습(BookCorpus(800M words), Wikipedia(2500M words))

추가 부연설명

① General Pretraining(BERT)

언어 자체를 이해하게 만들기

MLM: 특정 단어 가리고 맞추기

NSP: 문장 A가 문장 B와 이어지는가?

Input→Transformer layers→Dense →prediction

✓ Dense는 어디에 붙는가?

Dense layer는 “예측이 필요한 위치에만” 붙는다.

때문에 MLM의 경우 mask된 위치마다 붙음

[MASK] → Dense → softmax → 단어 예측

CLS 토큰

[CLS] → Dense → binary classification

② Domain Pretraining(FinBERT)

금융 언어 이해하기

언어 → 금융언어로 specialization

③ Fine-tuning(Sentiment)

실제 task 수행 목적

[CLS] → Dense → 3-class classification

3.2 BERT for financial domain: FinBERT

[KEY]

① further pre-training, ② classification, ③ regression, ④ catastrophic forgetting

3.2.1 Further pre-training

특정 도메인 데이터로 추가 학습하면 성능이 좋아지긴 하지만, BERT에서 이게 확실히 검증된 건 아님
→ 본 논문에서 2가지 방법으로 실험해보겠슨

큰 금융 텍스트 데이터로 BERT 추가 학습

학습 데이터 자체로만 pretraining

→ 데이터는 적지만 task에 더 직접적이라 효과가 있을 수 있지 않을까?

3.2.2 FinBERT for text classification

CLS 벡터 뒤에 FC layer 붙여서 분류 (BERT의 표준 방식)

입력 → BERT → CLS →Dense → Softmax

이후, 라벨 데이터로 학습

3.2.3 FinBERT for regression

회귀 - 분류와의 차이는 loss함수 뿐

3.2.4 Catastrophic Forgetting

[문제]

fine-tuning을 하게 되면 모델이 기존 지식을 잊어버릴 수 있음

새로운 task에 맞추다 보니 기존의 언어 이해를 잊을 수 있음

[해결]

Slanted Triangular LR

LR을 올렸다가 내리는 방식으로 안정적인 학습 가능

Discriminative Fine-tuning

아래 layer는 조금만 바꾸고 위 layer는 많이 바꿈

(하위 layer는 언어 이해 부분이므로 건드리지 않고, 상위 layer의 경우에는 task이므로 많이 학습하자)

아래는 언어, 위는 task 정보 담당

Gradual Unfreezing

처음에는 classifier만 학습

위에서부터 조금씩 layer을 학습(freeze를 풀어줌)

⇒ 기존의 언어 지식을 유지할 수 있음

4. Experimental Setup

4.1 Research Questions

[RQ1] FinBERT는 ELMo와 ULMFiT보다 성능이 좋은가?

[RQ2] FinBERT는 기존 최고 성능 모델보다 좋은가?

[RQ3] 금융 데이터로 추가 학습하면 성능이 좋아질까?

[RQ4] 학습 전략 성능과 forgetting에 어떤 영향을 줄까? (forgetting 방지 전략 효과)

[RQ5] 어떤 layer가 가장 중요할까?

[RQ6] 몇 개 layer만 fine-tuning해도 충분할까? (얼마나 파인튜닝해야할까?)

4.2 Datasets

4.2.1 TRC2-financial

BERT 추가 학습용 금융 데이터 사용

Reuters 뉴스 데이터 일부 사용

약 180만개의 기사 중 금융 키워드를 필터링하여 금융 관련 기사만 추출

최종적으론 46,143 documents와 29M+ words 사용

4.2.2 Financial PhraseBank

4,845개의 문장, 16명의 annotator가 라벨링함

documents가 아니라 문장 단위이며 금융 뉴스에서 추출

일반 sentiment의 경우에는 happy, bad이지만, FinBERT에서의 sentiment는 up/down/neutral 이렇게 3가지로 나뉨

예를 들면 Company profit fell less than expected 라고 하면
일반적으로는 negative(profit fell) 이지만, 금융감정에서는 positive(예상보다 덜 떨어짐→ 주가 상승 가능) 으로 해석

⇒ 감정분석이라기보단 시장 반응 예측에 가까움

데이터는 60% train, 20% validation, 20% test에 사용

때문에 실제 데이터는 약 3100개 뿐 → pretraining 필요!!

4.2.3 FiQA Sentiment

단순 데이터가 아닌 금융 QA + sentiment 분석 대회에서 나온 데이터

✓ sentiment를 연속값으로!

일반 sentiment는 positive/neutral/negative (classification)으로 하지만

FiQA의 경우 -1~1 사이의 regression으로

⇒ 현실에서는 단순 positive와 negative가 중요한게 아니라 강도(strength)가 중요함

1,174 samples: 뉴스와 트윗 사용

4.3 Baseline Methods

LSTM + GloVe, ELMo, ULMFit 3가지 baseline 사용

이 baseline은 BERT만큼 충분히 튜닝하지 않았기 때문에 결과를 절대적인 성능 비교로 해석하기엔 어려움

LSTM classifier

Embedding → BiLSTM → FC layer → 3-class output

양방향 LSTM을 사용하여 2개의 분류기로 구현

hidden size = 128

양방향구조이므로 마지막 hidden state 크기는 256

(Forward LSTM + Backward LSTM의 두 결과를 합치니까 128 x 2 = 256)

완전 연결된 feed-forward layer는 마지막 hidden state를 3차원 벡터로 변환하며 3개의 라벨에 대한 확률(가능성)을 나타냄

GloVe 임베딩과 ELMo 임베딩에서만 차이

2개 모델 모두 dropout=0.3, LR = 3e-5 사용

⇒ 즉, embedding만 바꿔서 성능 차이 확인

ULMFiT

Text → AWD-LSTM → hidden → FC → output

3단계로 구성

첫 번째 단계인 언어 모델의 사전 학습은 이미 완료

(학습 가중치는 Howard와 Ruder(2018)에 의해 공개)

AWD-LSTM 언어모델을 TRC2 금융 코퍼스에서 3 epoch동안 추가로 학습

그 다음 Financial PhraseBank 데이터셋에서 분류 작업을 위해 모델 fine-tuning

이때 사전 학습된 언어 모델 출력에 FC layer 추가

4.5 Implementation Details

구현

dropout = 0.1

warm-up = 0.2

최대 시퀀스 길이 64 토큰

LR = 2e-5

미니배치 = 64

6개의 에포크동안 학습하고 validation set에서 가장 성능 좋은 모델 선택

처음 classification layer만 unfrozen 상태로 두고 학습을 시작하고 각 epoch 1/3 지날때마다 다음 레이어를 순차적으로 unfreeze 진행

NVIDIA K8 GPU 1개, 4 vCPU, 64GB 메모리를 가진 아마존 p2.xlarge EC2 인스턴스 사용

5. Experimental results (RQ1&RQ2)

전체 데이터&100% annotator 데이터 둘 다 평가 진행

LSTM

pretraining을 하지 않은 LSTM은 최악,,

accuracy는 나쁘지 않은데, F1-score가 낮음

→ neutral class(60%)가 많아서(찍기를 잘하는 모델)

ELMo

성능이 좋아지기진 했는데 여전히 F1 낮음

ULMFiT

성능이 크게 향상되었고 특정 class에 치우치지 않음

기존 ML보다 훨씬 좋음 → pretraining이 효과적이다

모델이 커서 overfitting 위험이 존재함

벗뜨, pretraining 덕분에 적은 데이터셋에서도 잘 작동하는 편

FinBERT

데이터 크기별 실험을 진행했는데 250개부터 성능이 급 상승 (80%)

⇒ pretraining 매우 중요하다~

FiQA(회귀결과)

회귀에서도 SOTA

6. Experimental analysis

6.1 Effects of futher pre-training(RQ3)

추가 domain pretraining이 성능에 어떤 영향을 주는지 보여주는 섹션

일반 BERT, task데이터로 pretrain, 금융데이터로 pretrain 3가지 모델로 진행

이때 금융 데이터로 pretrain한 것이 가장 좋더라~

하지만 차이가 크진 않았음

⇒ ① 도메인 분포가 다를 수 있음

→ 금융 데이터와 실제 task 데이터는 다를 수 있기 때문
(pretrain: 뉴스 task: PhraseBank(짧은 문장) - mismatch)

② BERT는 이미 충분히 강력함

③ 짧은 문장은 pretraining 효과가 적음

→ 복잡한 language modeling이 필요없음, domain pretraining 효과 제한됨

④ 이미 성능이 너무 높음

→ 이미 97%정확도를 가지고 있기 때문에 +1% 올리기 어려움

⇒ 즉, 작은 데이터, 쉬운 task에는 효과가 작다.

6.2 Catastrophic Forgetting(RQ4)

NA, STL, STL + GU, STL+GU+DF 이렇게 4가지 방법으로 진행

⇒ 3개를 다 쓰는 게 좋더라

STL, GU, DF는 위에서 설명했던 3가지 방법

STL = Slanted Triangular Learning Rate

GU = Gradual Unfreezing

DF = Discriminative Fine-tuning

DF만 쓰면 오히려 안 좋고, 가장 중요한 건 GU

forgetting은 validation loss 증가로 나타남

6.3 Choosing the best layer(RQ5)

BERT는 12layer로 되어 있고 마지막 layer가 항상 최고 성능을 낸다고 단정지을 수 없음

각 layer의 CLS 토큰 뒤에 classification layer을 붙여서 분류

모든 레이어 layer의 출력값을 평균 내는 방법

⇒ 그 결과 마지막 layer가 가장 큰 기여를 하고 가장 좋은 성능

① 상위 layer는 더 큰 모델의 일부이기 때문에 더 강력하고

② 하위 layer는 보다 일반적인(기초적인) 의미 정보를 포착하기 때문

6.4 Training only a subset of layers(RQ6)

BERT는 매우 큰 모델이라서 전체를 fine-tuning 하기엔 비용이 너무 크다.

→ 일부만 파인튜닝해서 약간 낮은 성능을 얻더라도 어떤 상황에선 그게 더 좋을 수도 있음

특히, 학습 데이터셋이 매우 큰 경우에는 이게 더 나을 수도

⇒ 마지막 k개의 layer만 학습 진행

그렇다고 해서 classifier만 학습하면 성능 안 좋음

근데 마지막 layer만 파인튜닝하더라도 HSC같은 기존 SOTA 머신러닝 방법보다 훨씬 뛰어난 성능이긴 함

layer 9 이후부터는 성능이 거의 동일하지만 전체 모델을 fine-tuning한 경우만 약간 더 높은 성능을 보임

→ 즉 전체 학습은 꼭 필요하진 않음,, 적은 비용으로도 비슷한 성능 가능!!

6.5 Where does the model fail?

annotator간 100% 일치한 financial phrasebank subset에서 97% 정확도를 달성했기 때문에 정답을 맞추지 못한 사례를 한 번 분석해보겠다.

✓ annotator 간의 불일치는 대부분 positive와 neutral 사이에서 발생

기업에서 흔히 사용하는 긍정적인 표현(glitter)과 실제로 긍정적인 정보를 구분하기 어렵기 때문

→ FinBERT에서도 동일한 현상이 일어나는 지 confusion matrix 제시

세전 손실은 30만 유로, 이는 2005년 1분기의 220만 유로 손실보다 감소한 수치이다.

정답은 P, 예측은 N으로

→ loss 단어를 보고 N으로 판단(숫자 reasoning 부족)

이 구현은 운영자에게 매우 중요하며 브라질에서는 fixed-to-mobile 서비스를 출시할 예정

정답 Neutral, 예측은 P

→ important를 보고 P로 판단, 실제로는 정보 전달(Neutral)

코팅 잡지용 인쇄용 종이 시장 상황은 계속 약세일 것이다.

정답 N, 예측은 Neutral

→ 도메인 이해 부족으로 인함

대부분의 오류(73%)는 positive와 negative 사이에서 발생함

어떤 문장은 긍정적인 전망을 의미하는지, 단순한 사실 서술인지 구분하는 것은 어려움

7. Conclusion and future work

BERT를 금융 데이터로 추가학습해서 FinBERT를 만듦

pretraining이 효과적이며 특히 데이터가 적을 때 굿굿

데이터가 500개만 있어도 SOTA달성 가능

domain pretraining 효과는 그다지 크진 않았음

upper layer을 많이 fine tune하는 게 좋았고 마지막 2개의 layer만 학습해도 충분하더라

감정분석자체가 목적은 아니고 주가예측에 활용 가능

물론 아직 숨겨진 의미까지 이해하는 건 어려움

[논문리뷰] N-BEATS: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting

Wed, 22 Jul 2026 13:00:05 GMT

Overview

논문명: N-BEATS: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting 학회(출판연도): ICLR (2020) 연구분야: 딥러닝 기반 시계열 예측 및 시계열 표현 학습

Background Concept

Basis Expansion

복잡한 시계열을 여러 기본 함수(basis)의 조합으로 표현하는 것

하나의 복잡한 곡선을 “조각”으로 나눠서 설명

직선, 사인파, 작은 변동을 다 더하면 원래 데이터가 됨

수식

| 기호 | 의미 | | --- | --- | | ( $\phi_i(t$) ) | basis function (기본 함수) | | ( $\theta_i$ ) | weight (얼마나 쓸지) | | ( K ) | basis 개수 |

기존에는 푸리에 방식으로 사람이 직접 basis를 정했는데 N-BEATS의 경우 네트워크가 직접 $\theta$ 학습하는 방식

✓ N-BEATS에서는 어떻게 쓰는가?

총 2가지 모드 - Generic / Interpretable mode

Generic (Black-box)

basis 없음 (learned)

그냥 Neural Net

✓ Interpretable mode ← 여기에 basis 등장

Trend basis: ϕ(t)=[1$,t,t^2,t^3$] → 다항식

Seasonality basis: ϕ(t)=[$\sin(2πt),\cos(2πt)$] → 주기패턴

Abstract

연구목표: 단변수 시계열 예측(한 개의 값만 있는 시계열)를 딥러닝으로 해결하자!

Point forecasting: 미래의 값을 “하나의 숫자”로 예측 (확률 분포 X, 단일 값O)

✓ 현실에서 단변수 시계열을 많이 쓰는가?

N-BEATS의 목표는 “복잡한 구조 없이도 SOTA 성능 + 해석 가능성”

입력 : 하나의 시계열

구조: 매우 단순(MLP + residual)

수요 예측(상품 하나의 판매량), 에너지(특정 지역 전력 소비), 금융(특정 주식 가격) 등 다양한 분야에서 사용

하지만 실제로 단변수처럼 보이지많 다변수 문제인 경우도 있음

→ 매출 = 가격 + 날씨 + 이벤트 영향 받음

다변수 시계열

여러 변수가 동시에 존재 $x_t$=[$x_t^{(1)},x_t^{(2)},...,x_t^{(n)}$]

N-BEATS는 다변수에 최적화된 모델은 아님

그래서 다변수 시계열 문제를 풀기 위해서는

모델 자체가 multivaritate한 LSTM, RNN, Transformer기반의 DeepAR이나 Temporal Fusion Transformer 사용

피처엔지니어링을 할 수도

앙상블

N-BEATS + XGBoost, RNN + Transformer

forward / backward residual 연결 구조를 가진 아주 깊은 fully-connected 네트워크 제안

residual links(잔차연결) - 입력을 그대로 더해주는 skip connection

forward&backward residual - 단순히 앞으로만 흐르는 게 아니라 예측 및 보정(backcast) 구조를 동시에!

fully-connected layers - CNN이나 RNN없이 MLP만 사용

→ 즉 일반적으로 시계열에서는 RNN과 LSTM을 쓰는데 여기서는 그게 필요없다는 도전적인 주장 준비중!

기여

① Interpretable (모델 내부가 왜 이렇게 예측했는지 설명 가능하고)

② Applicable without modification (도메인별 feature engineering 필요없음)

③ Fast to train (FC기반으로 구조가 단순해서 계산 효율이 좋음)

↔ 기존 시계열 모델들을 복잡하고 도메인 의존적이며, 느리다..

실험

M3, M4, TOURISM 같은 유명한 시계열 데이터셋에서 테스트

2가지의 N-BEATS 모델 설정으로 모든 데이터셋에서 SOTA 달성

기존 통계 모델보다 11% 더 좋고

M4 대회 우승 모델보다 3% 더 좋다

첫번째 모델은 시계열 전용 구조(RNN, seasonal component 등)없이도 다양한 데이터에서 잘 작동

→ 시계열은 특별한 구조가 필요하다는 기존 생각과 달리 단순한 딥러닝 구조(residual block 같은 기본 building block)만으로도 충분하다는 것을 보여줌

해석가능한 결과를 만들면서도 성능도 거의 유지!

→ 성능과 해석가능성은 보통 trade-off관계인데 이 논문에서는 둘 다 가능하다!

1. Introduction

시계열예측은 ① 비즈니스에서 매우 중요하고 ② 머신러닝이 잘 활용되는 대표적인 분야

재고관리, 고객관리, 생산 및 유통, 금융, 마케팅 등 거의 모든 비즈니스 핵심 영역에서 사용됨

예측정확도가 조금만 올라가도 수백만 달러의 규모의 경제적 효과 발생 가능!

CV나 NLP에서는 딥러닝 good, 시계열에서는 딥러닝보단 전통 통계 모델 多

→ 실제 M4대회에서 상위 모델은 대부분 통계 모델의 앙상블

우승모델은 딥러닝(LSTM+어텐션) + Holt-winters 통계모델의 하이브리드 모델

핵심 주장

기존까지는 DL 단독으로는 어렵고 섞어야 한다는 것이 주된 흐름이었지만 통계 모델 없이 DL모델만으로도 충분하다

단순 성능뿐만 아니라 해석 가능성도 보여줄 것

1.1 Summary of contributions

Deep Neural Architecture

시계열 전용 구조 없이 딥러닝만으로도 기존 통계 모델보다 더 좋은 성능

M4기준

통계 베이스라인보다 11% 향상

최고 통계 모델보다 7% 향상

대회 우승 모델보다 3% 향상

Interpretable DL for Time Series

성능뿐아니라 해석가능한 딥러닝 모델 가능
→ 전통적인 trend + seasonality 분해 방식처럼 사용 가능

✓ Depcomposition(분해)

시계열을 trend (장기 증가/감소), seasonality (주기성), level (기본값)로 나누는 방식

2. Problem statement

문제 정의

① 이산 시간(discrete time)에서 ②단일 변수 시계열 예측 문제를 다룸

→ 즉, continuous time 문제, multivariate 문제는 고려하지 않겠다.

길이 T의 과거 데이터가 주어지면 앞으로 H개 미래 값 예측

$y_1~y_T$ : 과거 / $y_{T+1} ~ y_{T+H}$ : 미래

실제 모델 입력(Loockback window)은 전체 과거(T)가 아니라 최근 t개만 사용

→ 먼 과거는 중요하지 않을 수 있음, sliding window방식 사용

평가지표

sMAPE: 실제값과 예측값의 차이를 두 값의 평균으로 나눈 값

데이터의 크기에 영향을 받지 않음

⇒ (상대 오차 측정) 작은 값/큰 값 모두 공정하게 평가하려는 의도

MASE: 예측 오차를 naive 모델의 평균 오차로 나눈 값

Naive predictor: y(t) = y(t-m)

✓ Naive 모델?

“다음 값 = 바로 이전 값”이라고 예측하는 가장 단순한 모델

왜 이렇게 멍청한 모델을 쓰는가?

baseline: 이것보다 못하면 모델 쓸 이유 없음

많은 시계열에서 변화가 느리고 패턴이 단순한 경우가 많기 때문에 naive가 꽤 잘 맞음

⇒ seasonality 고려한 baseline

✓ MAPE, sMAPE, MASE 비교

Metric 핵심 아이디어 장점 단점

MAPE 실제값 기준 비율 오차 직관적 0에서 터짐

sMAPE 평균 기준 비율 오차 대칭적, 안정적 약간 해석 어려움

MASE naive 모델 대비 성능 dataset-independent 직관성 낮음

MAPE: 실제값 대비 몇 % 틀렸나?

sMAPE(Symmetirc MAPE)

MASE: 이 모델이 naive보다 얼마나 좋은가?

OWA: sMAPE와 MASE를 baseline 대비 정규화해서 합친 metric

naive 모델 기준으로 정규화되고 naive 모델인 경우 OWA = 1

3. N-BEATS

모델 설계의 원칙

구조는 단순해야하지만(simple&generic), 표현력은 충분히 커야 한다 (깊어야 한다)

시계열 전용 feature engineering이나 특별한 scaling없이 동작해야한다.

⇒ 순수한 딥러닝의 가능성 테스트

모델이 해석 가능하도록 확장 가능해야함

3.1 Basic block

블록

첫번째 블록 입력: 전체 모델 입력(최근 t개의 시계열)

입력 길이: H의 배수로 보통 2H~7H 사용

ex. 월요일~일요일(7일)까지의 일별 기온을 예측하고 싶다 → 2H:과거14일간의 기온 데이터 사용

→ 미래 길이(H) 대비 충분한 과거 필요(과거 데이터에서 시계열의 잠재적인 패턴, 추세, 계절성 등 미래를 예측하는 데 필요한 정보를 학습하기 위함)

다음 블록 입력: 이전 블록의 residual

residual: 아직 설명되지 않은 부분

→ 즉 각 블록은 “남은 정보만 처리”

블록 내부

첫 번째 부분: FC 네트워크로(-> 복잡하고 비선형적인 특징을 추출하고 데이터를 고차원으로 표현하기 위함) θf (forecast 계수), θb (backcast 계수)를 만듦

두 번째 부분: basis function을 이용해서 실제 output을 만듦

출력은 그냥 값이 아니라 basis 벡터들을 $\theta$계수로 가중합해서 만듦

→ 모델을 “패턴들의 조합”으로 예측 ⇒ trend, seasonality 해석 가능한 구조!

basis 함수는 학습할 수도 있고 미리 정할 수도 있으며 특정 구조(trend, seasonality)를 반영할 수 도 있음

3.2 Doubly residual stacking

기존

ResNet: 입력을 출력에 더해서 다음 레이어로 넘기는 방법

DenseNet: 모든 레이어의 출력이 이후 모든 레이어의 입력으로 연결

⇒ 이러한 구조는 깊은 네트워크를 학습하기 쉽게 만듦
하지만, 해석하기는 어려운 구조,,(블랙박스)

그래서 이중 residual 구조 제안

backcast쪽의 residual

입력을 계속 “빼면서” 정제

설명한 부분을 제거하고 남은 것만 다음 블록으로

forecast쪽의 residual

예측을 계속 “더하면서” 생성

각 블록이 일부를 예측하고 모두 합쳐서 최종 결과

✓ 모델의 핵심 아이디어 → 입력을 점점 분해한다

햇 $x_{l-1}$ (backcast) → 설명된 부분

residual → 아직 설명 안 된 부분

최종 예측은 모든 블록의 예측을 더한 값

각 블록은 부분 예측만 담당

⇒ 이전 블록이 잘 설명할 수 있는 부분을 제거하면 다음 블록은 더 쉬운 문제만 남음

⇒ 즉 각 블록의 예측이 계층적으로 합쳐짐

basis 함수가 자유롭게 학습되면 gradient 흐름이 더 좋아지고, 반대로 basis를 특정 구조로 제한하면 의미 있는 해석이 가능해짐

자유: FC network($\theta$ 생성 부분)

제한: basis function($g^b$, $g^f$) ← 사람이 설계 (trend, seasonality … )

3.3 Interpretability

basis함수 ($g^b$, $g^f$)를 어떻게 선택하느냐에 따라 2가지 모델 구조 제안

→ 해석 가능성은 basis 선택에 달려있음

$g^b$ → backcast 생성 함수

$g^f$ → forecast 생성 함수

하나는 일반 딥러닝 모델, 다른 하나는 특정 구조를 넣어 해석 가능하게 만든 모델

Generic Model ← 성능에는 짱!

시계열 지식을 전혀 사용하지 않는 모델

$g^b$, $g^f$ ← 그냥 linear layer로 설정

basis matrix: V와 $\theta$의 곱으로 생성

FC 네트워크: basis $V^f$를 학습하고 그 basis의 조합으로 예측

$V^f$

→ 시간길이 H x basis 개수 크기

→ 행은 시간 (t=1~H), 열은 basis 함수 index (하나의 파형)

이때, 아무 제약이 없기 때문에 학습된 wave는 의미없는 형태일수도,,

✓ 왜 generic모델에서는 의미없는 wave가 나올까?

같은 데이터를 설명하는 방법이 너무 많아서 모델이 굳이 의미 있는 방식으로 표현할 필요가 없기 때문

각 부분이 표현할 수 있는 형태를 제한하면, 그 역할이 강제되기 때문에 나누면 의미가 생김

⇒ 즉 basis가 자유로워서 해석이 불가능

Interpretable Model ← 해석 가능!

해석 가능한 모델은 basis에 구조를 넣어서 만듦

시계열을 trend + seasonality로 나눠서 이걸 모델에 넣음

y = trend + seasonality

Trend Model - 해석가능성

trend는 천천히 변하는 함수 → basis를 저차 다항식으로 제한

t는 0~1로 normalize된 값

basis matrix는 polynormal basis

⇒ 즉 trend는 smooth + polynomial 로 충분하다

✓ Polynomial

변수의 거듭제곱들의 합으로 이루어진 함수

trend는 보통 천천히 증가하거나 감소 = smooth + low-frequency

$y = a + bt + ct^2 + dt^3$ - 부드럽게 변하고 갑자기 진동 불가능

간단하고 과도한 복잡성이 없으며 느린 변화에 딱 맞음

Seasonality Model - 해석가능성

seasonality는 반복되는 패턴 → periodic 함수로 제한

푸리에 basis 사용

⇒ Seasonality는 주기이므로 푸리에가 자연스러움

✓ N-BEATS 구조에서 일어나는 일

Stack1 (trend)

polynomial만 학습 가능

trend만 설명

Stack2 (seasonality)

푸리에만 가능

남은 periodic만 설명

즉 모델은 trend stack + seasonality stack으로 구성됨

먼저 trend를 먼저 제거하고 나머지로 seasonality 처리

→ trend와 seasonality를 각각 따로 볼 수 있음

각 스택은 여러 블록으로 구성되어 있으며 같은 basis를 stack 내에서 공유함

각 stack에는 3개의 블록이 있음

weight공유가 성능에 좋은 영향을 줌

3.4 Ensembling

M4대회 상위 모델들이 모두 앙상블 사용했음 → 우리도 공정한 비교를 위해 앙상블진행

앙상블은 dropout이나 L2 보다 훨씬 강력한 regularization(오버피팅 방지)임

dropout과 L2는 개별 모델 성능은 올리지만 앙상블 성능은 오히려 떨어짐

→ dropout과 L2는 모델을 더 안정적이고 비슷하게 만듦
그래서 개별 모델이 좋아질수록 서로 비슷해지고 다양성이 줄어듦

→ 앙상블에서는 모델 간 다양성이 더 중요함

(앙상블에서 중요한 것은 모델이 얼마나 잘 맞추냐보다 모델들이 얼마나 다르게 틀리냐이다)

✓ 왜 다르게 틀리는 게 중요할까?

모델이 다 같이 똑같은 걸 틀려버리면 아무런 소용이 없음

서로 다른 걸 틀려서 오차가 서로 상쇄,,

이 논문에서 dropout보다 앙상블이 강한 이유는 dropout은 하나의 모델을 안정화(variance 줄임)인 반면, 앙상블은 여러 모델을 평균 즉, variance를 크게 줄여서 오차를 상쇄시킴

다양성을 만드는 방법

서로 다른 loss function으로 학습 → sMAPE, MASE, MAPE

loss가 다르면 모델이 다른 방향으로 학습됨

입력 길이를 다르게 해서 학습 (다양한 시간 범위 고려)

2H,3H, … , 7H

→ 짧은 window (최근패턴), 긴 window (장기패턴)

⇒ 전체 모델은 multi-scale 특성을 가짐

random initialization을 다르게 해서 여러 모델 만듦 (id = “m4l3)

⇒ 총 180개의 모델을 앙상블

3가지 loss x 6가지 window x 여러 seed

이때 결과는 평균이 아닌 median 사용
→ median은 이상치에 강하기 때문

4. Related work

시계열 예측 방법에는 몇 가지 주요 카테고리로 나눌 수 있음

Statistical Methods

exponential smoothing(최근 데이터에 더 큰 가중치를 주는 방식)기반 통계 모델은 산업에서 기본 선택

Theta method → 시계열을 여러 구성 요소로 나눠 예측

ARIMA계열 → state-space 모델(다양한 모델을 하나로 설명하는 framework)로 통합 가능

ML+TS Hybrid

최근 통계 모델 출력과 ML을 결합한 방식이 등장

2등 모델은 gradient boosting 방식으로 결합

Deep Learning(RNN 계열)

딥러닝 기반 시계열 모델은 대부분 RNN기반

주로 전력 수요 예측과 같은 multivariate 문제에서 사용

일부에서는 dilation, residual, attention을 결합

M4 Winner

Holt-Winters + 딥러닝 결합 → 통계 모델에 크게 의존하는 hybrid 구조

5. Experimental results

각 데이터셋마다 기존 top-5 모델들과 비교

M4 → OWA, sMAPE

M3 → sMAPE

TOURISM → MAPE

3가지 모델로 비교:
① N-BEATS(generic), ② N-BEATS-I(interpretable) ③ N-BEATS-I+G(앙상블)

⇒ generic vs interpretable vs ensemble

모든 데이터셋에서 N-BEATS가 SOTA 달성

5.1 Datasets

M4데이터셋

1982년부터 이어진 가장 영향력있는 시계열 대회 시리즈의 최신 버전

10만 개의 시계열, 매우 다양한 도메인을 가지고 있으며

시간 단위부터 연 단위까지 포함되어 있음

M3 데이터셋

M4와 비슷하지만 더 작음

통계 모델 발전에 많이 사용됨

최근 연구에서 ML이 통계보다 못하다고 나왔음,, → 본 연구에서 뒤집으려는 것

TOURISM

관광 관련 시계열 데이터

다양한 시간 단위 포함

5.2 Training Methodology

데이터 → train/validation/test로 나눔

test는 기존의 brench mark 그대로 사용

train 데이터는 다시 나눠서 validation생성하고 validation으로 튜닝

튜닝 후 전체 train으로 다시 학습

⇒ train → validation (튜닝) → full train → test (평가)

TensorFlow로 구현하고, horizon마다 같은 구조를 사용함 → horizon별로 따로 학습

각 시계열을 하나의 task로 본다면 multitask learning으로 볼 수도 있음

학습 방식

배치 사이즈 = 1024

랜덤하게 시계열 선택

각 시계열에서 랜덤 시점 선택

lookback 범위 튜닝

데이터가 많으면 짧은 window, 데이터가 적으면 긴 window

→ 데이터가 많으면 최근 정보만으로도 충분하고, 데이터가 적으면 더 많은 과거가 필요하기 때문

입력: 과거 window, 출력: 미래 H

Adam 사용

sMAPE는 unstable하기때문에 학습 시 분모 gradient를 차단

5.3 Interpretability results

generic 모델의 출력은 의미 없이 섞여있음

trend와 seasonality가 아무 stack에나 섞여 있음

두 번째 stack 출력은 더 작은 값

residual 구조 때문에 뒤로 갈수록 남는 정보가 적음

Interpretable 모델은 명확한 패턴을 가짐

trend는 천천히 변하고 부드러움

seasonality는 반복적이고 주기적임

⇒ seasonality가 강하면 변동폭이 크고, trend가 없으면 trend 출력도 작음

⇒ 따라서 trend와 seasonality로 분해 됨 - 즉 딥러닝도 해석 가능하도록 할 수 있음

구조에 적절히 bias를 넣어서,,! + 해석가능하면서 성능도 유지!

6. Discussion: Connections to meta-learning

메타러닝은 내부학습과 외부학습과정으로 나눌 수 있음

✓ meta-learning

epoch학습과 메타러닝의 차이

구분 Epoch 학습 Meta-learning

데이터 하나 여러 task

목표 정확도 ↑ 적응 속도 ↑

일반화 같은 task 새로운 task

한 번의 학습으로 끝내는 게 아니라 여러 task를 통해 학습 능력을 일반

쉽게 말해 문제를 푸는 게 아니라 문제 푸는 방법을 배우는 것

2단계 학습

Inner loop (task 학습) : 각 task에서 모델 학습

Outer loop (meta 학습) : 어떻게 학습할지 업데이트

inner learning은 outer learning에 의해 파라미터화되거나 조건화되거나 혹은 다른 방식으로 영향 받을 수 있음

내부 파라미터(ex. 시냅스 가중치): 내부 학습 과정에서 변화

외부 파라미터 또는 메타 파라미터(ex. 유전자): 외부 학습 과정에서만 변화

N-BEATS도 메타러닝의 한 사례라고 볼 수 있다 → gradient descent를 통해 학습

내부 학습 과정

기본적인 블록의 집합으로 구성

basis 함수 $g^f$의 입력으로 확장계수 $\theta^f$수정

여러 단계로 학습이 이루어지는데, 각 단계는 아키텍처 스택 안의 하나의 블록에 해당

① 각 블록은 하나의 업데이트 단계처럼 작동하고

② 확장계수 $\theta^f$를 점진적으로 수정하고

③ 이 계수들은 각 블록에서 $g^f$에 입력되어 최종적으로 합쳐져 예측 생성

해석 가능한 모델의 경우 $g^f$가 고정되어 있어 메타 파라미터는 FC레이어에만 존재

↔ Generic 모델은 $g_f$를 정의하는 행렬V 역시 학습되므로 이 또한 메타 파라미터에 포함됨

스택 내 블록 수나 스택의 개수를 증가시키면 일반화 성능이 향상되는 이는 내부 학습 과정의 반복 횟수 증가로 해석 가능

7. Conclusions

핵심 가설

시계열 도메인 지식 없이도 순수 딥러닝 접근이 다양한 단변량 시계열 예측 문제에서 매우 뛰어난 성능을 낼 수 있다.

딥러닝 모델에 추가적인 제약을 가함으로써, 예측을 사람이 이해 가능한 구성 요소로 분해하도록 만들 수 있다.

또한 딥러닝 모델이 여러 시계열을 동시에 학습하는 멀티테스크 방식으로 학습할 수도 있고, 이 과정에서 개별 시계열 간의 학습 내용을 효과적으로 공유할 수 있음!

이 모델이 성능이 좋은 이유는 meta-learning과 유사한 과정을 수행하기 때문일 것이고 추후 더 깊은 분석을 하겠다.

[논문리뷰] Attention Is All You Need

Wed, 22 Jul 2026 12:50:31 GMT

Overview

논문명: Attention Is All You Need 학회(출판연도): NeurIPS (2017) 연구분야: 딥러닝 기반 시퀀스 모델링 및 자연어 처리

Abstract(초록)

✓ 지난주 복습~

✓ 기존 시퀀스 변환 모델

인코더와 디코더를 포함하는 복잡한 순환신경망(RNN) 기반

합성곱 신경망 기반

[SOTA]: 어텐션 매커니즘을 통해 인코더와 디코더를 연결하기도 함

✓ 어텐션 매커니즘을 통해 인코더와 디코더를 연결한다.

→ 디코더가 단순히 인코더의 마지막 hidden state 하나만 참고하는 게 아니라, 인코더 전체 출력(hidden state sequence)을 보고 필요한 정보를 가중치로 뽑아온다.

✓ Attention이 없는 경우 vs 있는 경우 (RNN Seq2Seq)

Attention이 없는 경우

인코더는 입력 시퀀스를 다 읽고, 마지막 hidden state 하나를 context vector로 만들어 디코더로 전달

긴 문장일수록 정보가 압축되면서 정보 손실 발생

Attention이 있는 경우

인코더는 입력 시퀀스의 각 단어마다 hidden state를 출력(ex. h1, h2,,,hn)

디코더는 단어를 하나 생성할 때마다, 어텐션 메커니즘이 인코더의 모든 hidden state를 확인하고, 현재 시점에 필요한 정보(h1~hn)를 가중 평균으로 뽑아와 context vector를 만듦

⇒ 이 과정이 “인코더와 디코더를 어텐션으로 연결한다”라는 의미

⇒ 순환 및 합성곱을 완전히 없애고 어텐션 메커니즘만을 기반으로 하는 새로운 단순 네트워크 아키텍쳐인 Transformer 제안

✓ 어텐션 매커니즘 기반 Transformer의 등장

병렬화 더욱 용이

훈련시간 훨씬 적게 소요

✓ 성능

WMT 2014 영어-독일어 번역 작업

28.4 BLEU 달성 (기존 + 2BLEU)

8개의 GPU에서 3.5일동안 훈련한 후 41.8의 새로운 단일 모델 최고 수준의 BLEU 점수 확립

다른 작업에도 잘 일반화 됨(constituency parsing)

1. Introduction

✓ 기존의 모델과 한계점

순환 신경망 RNN, LSTM, GRU
→ 언어 모델링 및 기계 번역과 같은 시퀀스 모델링 및 변환 문제에서 최첨단 접근 방식으로 확고히 자리 잡음

✓ 순환 모델의 특성

일반적으로 입력 및 출력 시퀀스의 심볼 위치를 따라 계산 분할

symbol position: 의미론적 위치X, 순서상 위치O

입력 시퀀스가 “ I love bitamin”이라면,

→ Symbol = “I”, “love”, “bitamin” (토큰 단위)

→ Position = 1, 2, 3 (순서)

출력 시퀀스가 “나는 비타민을 사랑해” 라면,

→ Symbol = “나는”, “비타민을”, “사랑해”

→ Position = 1, 2, 3

RNN은 시퀀스를 순차적으로 처리하기 때문에, 각 시간 단계 t에서 “위치 t의 입력 심볼”을 받아 hidden state h_t를 갱신

즉, 심볼 위치는

→ 몇 번째 토큰을 처리하는지 (시간 step t)를 가리키는 것

순차적인 특성으로 인해 훈련 예제 내 병렬화 불가능

→ [P] 시퀀스 길이가 길어질수록 메모리 제약 조건으로 인해 예제 간의 배칭(batch size) 제한

✓ 배칭(batch size)이 제한된다

→ GPU 메모리 한계 때문에 동시에 처리할 수 있는 문장(시퀀스) 수가 줄어든다

✓ 왜 그런 일이 생길까?

RNN의 순차적 특성

RNN은 입력 시퀀스를 토큰 하나씩 순서대로 처리해야 해서
각 단계의 hidden state가 메모리에 유지되어야 다음 단계 연산 가능

시퀀스 길이가 길어지면

더 많은 hidden state를 저장해야 함 → 메모리 사용량 급증

따라서 GPU에서 동시에 여러 시퀀스를 처리하기 어려워짐

결과적으로

batch size(한 번에 학습하는 문장 수)를 줄일 수 밖에 없음

batch가 작아지면 학습이 느려지고, 통계적으로 안정적인 gradient 추정도 어려워짐

→ [S] factorization tricks + condition computation을 통해 계산 효율성 및 성능 향상

✓ factorization tricks → 큰 연산(ex. 가중치 행렬)을 수학적으로 쪼개서 효율화

RNN의 계산 분해 (factorization of computation)

RNN (순환신경망)은 입력 시퀀스를 시간축(순서)에 따라 하나씩 처리

즉 h_t = f(h_t-1, x_t) 처럼 현재 시점의 은닉 상태가 바로 이전 시점에 의존하는 구조

⇒ 계산을 시퀀스 위치별로 분해(factorization)

병렬처리X, 반드시 순서대로 계산해야 해서 학습 속도가 느림

factorization tricks

큰 가중치 행렬을 작은 행렬곱으로 쪼개서 연산 효율을 높이는 기법

가중치 행렬 W 크기가 n x n 이라면
2개의 작은 행렬 A(n x k), B(k x n)로 분해 → W = AB로 근사하면 연산량⬇️

메모리 효율성 good + RNN의 근본적인 순차성도 그대로~

✓ condition computation → 입력에 따라 필요한 연산만 선택적으로 실행해서 효율화

모델의 모든 파라미터를 항상 전부 사용하는 대신,
입력 데이터나 상황(condition)에 따라 일부 파라미터만 활성화하여 계산하는 방식

⇒ 조건에 따라 계산을 다르게 수행함으로써, 불필요한 연산을 줄이고 효율을 높임

BUT, 순차적 계산의 근본적인 제약은 여전히 남아 있음

✓ Attention 매커니즘의 등장

입출력 시퀀스에서 거리에 무관하게 종속성 모델링 가능 → 다양한 시퀀스 작업에 필수적인 구성요소

대부분, RNN과 함께 사용 됨

✓ Transformer

순환을 완전히 제거하고 어텐션만으로 ‘입력 - 출력’ 간 전역 종속성을 학습하는 transformer

✓ 전역종속성

시퀀스 안의 멀리 떨어진 단어들 사이 관계까지 직접적으로 학습할 수 있다

병렬화에 유리 + 8개의 P100 GPU에서 12시간 학습만에 기계 번역에서의 SOTA 달성

2. Background

✓ CNN기반의 시퀀스 모델

✓ CNN기반 시퀀스 모델의 기본 구조

① 입력 임베딩

글자/단어를 one-hot 이나 embedding 벡터로 변환

이제 시퀀스는 [ 토큰1, 토큰2, … , 토큰n] 형태의 벡터 행렬이 됨

② 합성곱 레이어 (Convolutional layers)

1D convolution을 사용

시퀀스는 시간/순서축이 1차원
→ 단어가 시간축을 따라 나열되어 있으므로, 1D conv 필터를 슬라이딩하면서 국소 패턴 잡음

커널 크기 k → k개의 연속된 토큰을 한 번에 보고 특징 추출

윈도우 크기 k (ex. 3,5)를 정해 연속된 토큰 k개를 한 번에 보고 특징 추출

여러층을 쌓으면 receptive field (한 위치가 볼 수 있는 범위)가 넓어짐 → 긴 문맥도 처리 가능

③ 비선형 변환 (ReLU 등)

합성곱 결과에 활성화 함수를 적용해서 비선형성을 주입

④ Pooling/Residual/Attention (모델에 따라 다름)

ConvS2S 같은 모델은 convolution stack 위에 attention layer를 붙여 인코더-디코더 연결

⑤ 출력 (디코더)

인코더에서 추출한 hidden representation을 기반으로 디코더가 한 글자/단어씩 예측

softmax 함수를 거쳐 다음 글자/단어의 확률 분포를 출력

✓ 어떻게 글자를 알아맞추는가?

① 인코더 CNN

입력 문장 (ex. 영어) convolution layers로 통과시켜 문맥 정보를 담은 hidden representation을 만듦

CNN은 이 단어 주변의 패턴을 통해 n-gram 특징을 잡고, 여러 층을 쌓으며 장거리 의존성도 점점 반영

② 디코더 CNN

디코더는 이미 생성한 출력 단어들 (ex. 독일어 번역 앞부분)을 입력으로 받아 다음 단어 예측

각 단계에서 softmax를 사용해 다음에 올 단어의 확률 분포를 계산

확률이 가장 높은 단어를 선택하거나, beam search로 더 나은 문장 후보 탐색

beam search: 매번 확률이 높은 상위 k개(beam size) 후보를 유지하면서 문장 확장

→ k=2라면, “I am happy..”와 “I am sad…” 2가지 경로를 동시에 추적

→ 다음 단계에서도 각각 여러 후보를 붙여서 가장 유망한 k개만 남김

(↔) Greedy search: 매번 확률이 가장 높은 단어 하나만 고름

Extended Neural GPU, ByteNet, ConvS2S : RNN의 순차 연산을 줄이기 위해 CNN을 기본블록으로!

입력/출력 위치 전체에 대해 병렬로 hidden representation 계산 가능

BUT, 두 위치 사이 거리가 멀수록 신호 연결에 필요한 연산 수 증가

ConvS2S: 선형적 증가 (입력이 증가하는 비율과 결과가 증가하는 비율이 일정한 “직선적인” 성장)

ByteNet: 로그 증가 (입력이 증가하더라도 결과의 증가 속도가 점점 느려지는 “증가율 둔화”)

✓ 왜 CNN이 RNN보다 순차 연산을 줄일까?

수식 구조 자체가 CNN은 동시 계산을 허용

RNN

h_t를 구하려면 반드시 h_t-1이 먼저 있어야 하므로,, 순차 계산

1D CNN

각 위치 t의 출력은 같은 층의 이웃 입력에만 의존

모든 위치 t =1,,,n를 한 번에 계산 가능

CNN 기반이 RNN보다 훨씬 큰 배치와 병렬처리가 가능해서 학습속도 빠름

디코더가 자기회귀(다음 토큰을 이전 토큰에 의존)여도,

RNN: teacher forcing을 써도 hidden state 의존성 때문에 시간축 순차 연산 남음

CNN(masked conv): 같은 레이어 안에서 모든 위치를 병렬로 동시에 처리 가능

인코더의 경우, CNN은 전체 입력 시퀀스를 한 번에 컨볼루션 스택으로 통과시킬 수 있음

✓ 두 위치의 거리가 멀다는 것

시퀀스(sequence): 토큰들의 나열(ex. 단어, 음소, 글자)

위치의 거리: 시퀀스 상에서 토큰 간의 인덱스 차이

I [1] really [2] like [3] bitamin [4]

I (1번 위치) ↔ bitamin (4번 위치)의 거리는 3

가까운 단어는 거리 1~2, 멀리 떨어진 단어는 거리 10, 100 이런식으로

✓ 왜 연산 수가 증가할까?

CNN 기반 모델은 “합성곱 필터”로 시퀀스 처리

1-layer convolution: 윈도우 크기(k) 안에 있는 인접 토큰만 한 번에 연결 가능

멀리 떨어진 단어는 여러 층을 거쳐야 연결 됨

⇒ 즉, 두 위치가 멀수록 그 정보를 서로 전달하려면 여러 convolution layer를 통과해야 한다 → 연산 수 증가

✓ ConvS2S의 선형적 증가

ConvS2S는 contiguous convolution (연속된 커널) 사용

윈도우 크기가 k라면, 거리가 n인 두 단어를 연결하려면 대략 n/k개의 층 필요

→ 거리 n에 비례(선형)하게 연산 깊이 늘어남

ex. 커널 크기 k=3일 때,

거리가 3 → 1층 convolution으로 연결 가능

거리가 9 → 최소 3층 필요

✓ ByteNet의 로그 증가

ByteNet은 dilated convolution (팽창 합성곱) 사용

dilation을 늘리면 한 층에서 더 넓은 범위의 토큰을 커버할 수 있음

→ 거리 n에 대해 로그(logarithmic) 스케일로 증가
→ 거리가 멀어져도 ConvS2S보다 훨씬 적은 층 수로 커버 가능

<참고> https://zzsza.github.io/data/2018/02/23/introduction-convolution/

⇒ 장거리 의존성 학습이 여전히 어려움

✓ Transformer

일정한 수의 연산으로 줄어듦 but, 어텐션 가중치가 적용된 위치의 평균화로 (P)유효 해상도 감소

→ 3.2절 Multi-Head Attention으로 상쇄

✓ Self-Attention

한 시퀀스 내 서로 다른 위치를 연결해 표현을 계산하는 매커니즘

독해, 요약, 텍스트 함의, 문장 표현 학습 등 다양한 작업에서 성과 입증

End-to-End memory networks

시퀀스 정렬된 RNN 대신, self-attention 메커니즘 기반

간단한 언어 질의 응답 및 언어 모델링 작업에서 우수한 성능

⇒ Transformer: RNN, CNN에 전혀 의존하지 않고 self-attention만으로 입출력 표현을 학습한 최초 모델

3. Model Architecture

✓ 기존 신경 시퀀스 변환 모델

대부분 인코더-디코더(encoder-decoder)구조 채택

인코더: 입력 심볼 시퀀스 (x1, ,,, , xn) → 연속 표현 시퀀스 (z1, ,,, zn)로 변환

✓ 연속 표현 시퀀스

기호(symbol) 시퀀스

우리가 다루는 원래 데이터: 단어, 글자 같은 이산적인 symbol

i love bitamin → [”i”,”love”,”bitamin”]

연속 표현?

이산적 토큰을 실수 벡터로 바꾼 것

보통 임베딩을 통해 변환

love → [0.12, -0.845, 0.33,….]

연속 표현 시퀀스

입력 전체 문장을 바꿔 놓은 결과, 즉 각 단어가 임베딩된 벡터들의 시퀀스

✓ 연속 표현 시퀀스로 바꿔야, 모델이 벡터 공간에서 연산(내적, 합성, 어텐션 등) 수행 가능

즉, 인코더의 역할은 입력을 풍부한 의미적 벡터 시퀀스로 바꿔주는 것!!

디코더: 인코더의 표현 z를 바탕으로 출력 심볼 시퀀스 (y1, ,,, ym) 하나씩 순차적으로 생성

새로운 심볼 생성할 때, 이미 생성된 심볼들을 추가 입력으로 활용

✓ Transformer

인코더-디코더 전체 구조는 동일하게 유지

단 인코더, 디코더 내부 구성 요소를 self-attention + position-wise feed-forward layer로 대체

⇒ 관계 학습(self-attention) + 개별 토큰 변환(FFN) 두 층을 교차로 쌓음

✓ Position-wise feed forward layer

Feed-Forward Neural Network (FFN): 선형 변환 + 비선형 변환(ReLU 등)으로 구성된 작은 신경망

Position-wise: 시퀀스의 각 위치(토큰)에 대해 독립적으로 동일한 FFN 적용한다

[수식]

x: 한 토큰의 벡터 표현 (차원 = d_model)

W1, W2: 학습 가능한 가중치 행렬

b1, b2: 편향

w1,b1: 첫 번째 선형 변환으로 차원 늘림

w2,b2: 두 번째 선형 변환으로 차원 줄임

ReLU 활성화(max) → 비선형성 부여

✓ 왜 position-wise라고 할까?

Transformer는 시퀀스 전체를 동시에 처리하기 때문에, 각 토큰은 행렬 X = [x1, x2, ,,, , xn]로 들어옴

but, FFN은 각 xi에 동일한 가중치를 적용해 독립적으로 처리

즉, 시퀀스 길이와 상관없이 각 위치별로 같은 작은 신경망을 복사해 놓은 것처럼 동작

Self-Attention은 각 토큰이 다른 토큰과 관계를 맺는 과정

그 뒤 FFN은 각 토큰 벡터를 비선형적으로 변환해 표현력 강화

⇒ 시퀀스의 각 단어 벡터를 독립적으로, 동일한 작은 신경망(2층 FFN)으로 변환

3.1 Encoder and Decoder Stacks

✓ 인코더

✓ Sub-layer

하나의 큰 레이어(층) 안에 들어있는 구성 요소 블록

하나의 레이어 안을 이루는 모듈을 의미

✓ Embedding layer

이산적 심볼(단어/토큰)을 모델이 쓸 수 있는 실수 벡터로 바꿔주는 층

구성: 동일한 레이어 6개 (stack)

각 레이어 (2개의 sub-layer)

Multi-Head Self-Attention

Position-wise Feed-Forward Network

Residual Connection + Layer Normalization

각 sub-layer 출력: $LayerNorm(x + Sublayer(x))$

sub-layer 결과와 입력을 더한 뒤 정규화

출력 차원: 모든 sub-layer 및 embedding layer는 d_model = 512

→ residual connection을 용이하기 위함

✓ 디코더

구성: 동일한 레이어 6개(stack)

각 레이어

Masked Multi-Head Self-Attention - 미래 토큰 참조 금지

Encoder-Decoder Multi Head Attention - 인코더 출력 참조

Position-wise Feed Forward Network

Residual Connection + Layer Normalization: 인코더와 동일하게 적용

Masking

시점 i에서 예측은 반드시 이전 위치 (

auto-regressive 성질을 보장

3.2 Attention

✓ Attention function

✓ Key와 Value의 차이

Key (K) - 유사도 측정용

내가 어떤 정보를 가지고 있는지 설명하는 label (책의 제목, 주제어 같은,,)

Query와 내적되어 “이 토큰을 얼마나 참고할지” 점수 계산에만 쓰임

Value (V) - 정보 전달용

내가 실제로 제공할 정보(content)

Attention 가중치가 곱해져 최종 출력에 반영되는 실질적인 정보

✓ 정리

K와 V는 인코더 hidden state에서 각각 다른 projection으로 나온 것

K = 색인(검색용)

$k = hW^K$

V = 내용(전달용)

$v=hW^V$

$W^K, W^V$ : 학습되는 가중치 행렬

hidden state $h$ (차원 d_model)

projection: hidden state를 W행렬에 곱해서 Q/K/V로 바꾸는 과정 (선형변환)

Dot product: Attention 단계에서 Q와 K 사이 유사도를 계산하는 연산

그래서 같은 소스에서 나오지만,
attention에서 “누굴 참고할지”와 “실제로 무슨 정보를 가져올지” 역할이 갈라짐

✓ Projection 개념

수학/기하학에서의 projection

어떤 벡터를 다른 공간이나 축(axis)에 비춰 나타내는 것

ex. (3,4)라는 2D 벡터를 x 축에 projection 하면 → 3, y축에 투영하면 → 4

원래 벡터의 “한 방향 성분만 뽑아내는 것”

선형대수학에서의 projection

보통 행렬 곱으로 표현: $y=xW$

W: 특정한 선형 변환 행렬

결과 y는 원래 x를 새로운 공간/차원에서 사상(mapping)

머신러닝/딥러닝에서의 projection

가중치 행렬을 곱해서 벡터를 다른 차원 공간으로 보내는 것

word embedding: 단어 ID(원-핫, 10만 차원) → 저차원(300차원)으로 projection

attention: hidden state(512차원)를 Q/K/V 각각으로 projection

⇒ projection = 선형변환을 통해 차원과 의미를 바꿔주는 과정

✓ 선형변환

f(x+y) = f(x) + f(y)

f(cx) = cf(x)

Attention에서 projection

인코더 출력(hidden state, 차원 d_model)을 그대로 쓰지 않고,

$Q = HW^Q$, $K=HW^K$, $V=HW^V$ 이렇게 다른 3가지 공간으로 투영(projection)

Attention function: 입력 쿼리와 키-값(key-value) 쌍을 받아 출력을 만들어 내는 함수

Query, Key, Output 모두 벡터로 표현됨

출력: value의 가중합으로 계산

value에 할당된 가중치는 해당 key와 query의 호환성 함수에 의해 계산

3.2.1 Scaled Dot-Product Attention

✓ 입력

쿼리 Q: 차원 $d_k$

내 목적이 뭔지? - 문장구조를 보고 싶어! 에 맞는 걸 하겟다고 하면

키 K: 차원 $d_k$

문장구조 특징이 담겨있는 벡터로 표현되어 있는거고

그걸 내적하면 문장 구조에 대한 목적을 가지고 있는 단어들 간의 유사도를 뽑아냄

값 V: 차원 $d_v$

value는 목적과 관계없이 단어가 임베딩상의 위치, 이 단어가 어떤 놈인지 단순 정보를 표현하는 것 아닐까?

✓ 계산 과정

① 쿼리와 모든 키의 내적(dot product) 계산 → 유사도 점수

✓ 왜 내적이 유사도 검사가 되는 것일까?

두 벡터 a,b

!image.png

세타가 작아 두 벡터가 비슷한 방향 → 내적 값이 큼

세타가 커서 방향이 다르면 → 내적 값 작음 (심지어 음수)

⇒ 방향이 얼마나 비슷한지 (코사인 유사도)를 자연스럽게 반영 가능

✓ 왜 쿼리(Q)와 키(K)로 하는 걸까?

Query(Q): 지금 위치에서 “내가 찾고 싶은 정보”

Key(K): 각 입력 토큰이 가진 색인(label)

Q와 K의 내적 → 현재 위치(query)가 특정 토큰(key)과 얼마나 잘 맞는지를 수치화

이 유사도를 softmax에 넣어서 가중치로 사용

⇒ 내적(Q,K)로 어떤 V를 참고해야 할 지 결정 → 그 가중합이 최종 결과

+) V는 실제 “정보 내용”이라서 유사도를 잴 필요X

Q와 K의 유사도로 가중치를 얻어서 이 가중치로 V를 섞어주는 것이 핵심!

② 내적 값을 $sqrt(d_k)$로 나눔 (스케일링)

: $d_k$ 가 커질수록 내적 값이 커져 softmax가 매우 작은 기울기를 갖게 되므로 학습이 어려워짐
→ 안정화 필요

③ softmax 적용 → 가중치(확률 분포) 획득

④ 그 가중치로 값 V들의 가중합 → 최종 출력

✓ 왜 굳이 softmax → 가중치 획득 → V의 가중합 과정을 지나는가?

단순 내적만 하면 생기는 문제

q와 k의 내적한 값 → 유사도 점수

점수자체는 음수/양수 크기만 있을 뿐, 그 자체로 확률적 의미는 없음

Softmax로 바꾸는 이유

점수들을 확률 분포로 변환 → 항상 0~1 사이의 값, 전체 합 = 1

각 key에 어느정도 집중(attend)할지를 확률처럼 해석 가능

문장에서 “it”이라는 단어가 등장할 때, 모델이 “dog”라는 단어에 0.8, “ball”에 0.1, tree에 0.1만큼 주목한다 → 직관적인 해석 가능

Value V들의 가중합을 취하는 이유

Key: “어디를 볼지”를 정하는 역할

Value: “그 위치의 실제 정보”

softmax로 나온 가중치를 Value에 곱하면

알파i 는 해당 위치를 얼마나 참고할지(집중할지) 나타내는 확률

⇒ 단순히 가장 큰 Key 하나만 뽑는 게 아니라, 여러 위치의 정보를 부드럽게 섞어서 사용 가능

자연어 문장은 여러 단어들이 맥락적으로 영향을 주기 때문에 중요함

✓ 정리

입력: “나는 비타민을 사랑해”

토큰 단위로 나누면 [ x1 = 나는 , x2 = 비타민을, x3 = 사랑해]

각 토큰은 임베딩 벡터가 되고, 그걸 모아둔 게 행렬 H

H^(0)

0번째 레이어에서의 표현

토큰 임베딩 + 포지셔널 인코딩을 합친 초기 입력 표현

H^(0) = [h1(0), h2(0), h3(0)]

h1(0): “나는”의 초기 벡터

h2(0): “비타민을” 의 초기 벡터

h3(0): “사랑해”의 초기 벡터

H^(1)

첫 번째 레이어를 통과한 후의 표현

여기서 self-attention과 feed forward를 거치면서,
각 단어 벡터가 다른 단어들과의 관계 정보를 섞은 새로운 표현으로 바뀐 상태

⇒ “나는” 벡터도 여전히 h1(1)에 있지만, 이 안에 “비타민을”, “사랑해”와의 관련성 반영

✓ 층이 깊이질수록

H(2), H(3), ,,, H(N) 이렇게 갈수록 점점 더 풍부한 문맥 정보가 추가된 표현

✓ Attention function

additive attention

단일 hidden layer를 가진 feed-forward network를 사용하여 호환성 함수 계산

dot-product (multiplicative) attention

$1/sqrt(d_k)$의 스케일링 인자를 제외하고 알고리즘 동일

⇒ additive attention과 dot-product attention 이론적인 복잡성은 유사하지만,

dot-product attention은 최적화된 행렬 곱셈 코드를 사용하여 구현 가능 → 빠르고 공간 효율적

✓ 성능 차이

$d_k$ 가 작을 때: additive와 dot-product 성능 비슷

$d_k$가 클 때: 스케일링 없는 dot-product는 성능 저하 → additive가 더 유리

⇒ Transformer는 스케일링 factor $1/sqrt(d_k)$를 넣어 안정적으로 학습

3.2.2 Multi-Head Attention

단일 어텐션은 입력(Query, Key, Value)을 d_model 차원에서 직접 계산

이렇게 하면 표현력은 제한되고, dot-product(내적) 크기가 커지는 문제 발생

→ $d_k, d_k, d_v$ 차원으로 서로 다른 학습된 선형 투영을 통해 h번 선형적으로 투영하는 것이 유용하다는 것을 발견

✓ Multi-head → 서로 다른 부분 공간/ 단일 head → 평균화

Multi-head

각 head는 projection 행렬 Wq, Wk, Wv가 다름

즉, 같은 입력 hidden state라도 head마다 다른 “안경”을 끼고 해석

어떤 head는 구문에, 어떤 head는 의미에 민감 등 → 다양하게 볼 수 있음

⇒ 다양한 관점에서 계산된 정보를 종합해서 더 풍부한 표현 얻음

Single-head

한 번만 attention을 하면, 다양한 관계를 모두 한 분포에 “평균”시켜야 함

문장의 문법적 요소, 구조적인 요소들을 나눠서 봐야하는데, 하나로 되어 있으면 구조적인 요소가 합쳐진 것을 분석해야하는데, 이걸 평균낸 것처럼 보인다고?

결과적으로, 여러 패턴(문법, 의미, 참조 관계)를 동시에 학습하기 어려워

✓ 차원축소와 병렬화

Q, K, V를 각각 서로 다르게 학습된 선형 변환 행렬($W_i^Q, W_i^K, W_i^V$)

투영 차원

d_k = d_v = d_model / h

Base 모델: d_model = 512, h = 8 → d_k = d_v =64

⇒ 전체 벡터를 여러 “부분 공간(subspace)”로 쪼개 병렬로 attention 수행

✓ 병렬 Attention 후 결합

각 head에서 어텐션 결과(출력값, 차원 d_v)를 구한 뒤
Concat(head1, ,,, ,headh) → W^O 선형 변환 → 최종 출력

⇒ Q, K, V를 여러 부분 공간으로 선형 변환해 병렬 어텐션을 수행하고, 이를 합쳐 최종 출력으로 만드는 방식

✓ 정리

입력(Q, K, V) - 차원 d_model(512)

선형변환

각 head마다 서로 다른 가중치 행렬을 사용해 Q,K,V 투영

같은 입력이더라도, head마다 다른 부분 공간(subspace)으로 변환됨

각 head의 attention 계산

head = attention(Q Wq, K Wk, V Wv)

변환된 Q,K,V를 가지고 Scaled Dot-product attention 수행

출력 차원: d_v

모든 head 결합(Concat)

h개의 head 출력을 이어붙여서 하나의 큰 벡터 만듦

최종 선형변환

결합된 벡터를 W^o로 다시 투영

최종 출력 차원을 모델 크기 d_model로 맞춤

3.2.3 Applications of Attention in our Model

✓ Transformer의 Attention 활용 방식 3종류

① Encoder-Decoder Attention

Query: 이전 디코더 레이어 출력

Key, Value: 인코더 출력(memory)

기능: 디코더가 출력 단어를 생성할 때 입력 시퀀스 전체를 참고할 수있도록 함

기존의 seq2seq 모델의 encoder-decoder attention 계승

② Encoder Self-Attention

Query, Key, Value: 모두 인코더 이전 레이어 출력

기능: 입력 시퀀스의 각 위치가 다른 모든 위치와 상호작용 할 수 있음

→ 입력 문장 내 단어 간 전역 문맥 학습

③ Decoder Self-Attention

Query, Key, Value: 모두 디코더의 이전 레이어 출력

기능: 디코더 각 위치가 자신 포함 모든 이전 위치를 참고할 수 있음

masking: 미래 단어로 정보가 흘러가면 안됨

softmax 입력에서 불법 연결에 해당하는 값을 -무한대로 설정

auto-regressive 성질 유지

3.3 Position-wise Feed-Forward Networks

✓ 구조

Attention sub-layer 외에, 인코더와 디코더의 각 레이어는 FFN 포함

Feed-Forward sub-layer // Encoder-Decoder Attention sub-layer

각 토큰 위치별로 독립적이지만 동일한 방식으로 적용

!image.png

2개의 선형 변환 + ReLU 활성화

x는 어텐션 결과값, w1을 곱하고 b1 을 더해줌

✓ 특징

위치마다 같은 가중치를 적용 → 병렬화 용이

단, 레이어마다 다른 파라미터 학습

→ 즉, 인코더 6개층에 들어간 FFN은 각각 고유의 W1, W2를 가짐

⇒ 커널크기 1인 2개의 convolution으로 설명

입력 및 출력 차원 d_model = 512, inner-layer 차원: d_ff = 2048

→ 즉 512 차원을 2048차원으로 확장했다가 다시 512로 압축 (표현력 강화 목적)

3.4 Embedding and Softmax

① 입력/출력 임베딩

다른 시퀀스 변환 모델과 마찬가지로 입력/출력 토큰을 학습된 embedding layer로 변환

② 출력 예측

디코더의 출력을 학습된 선형 변환 + softmax를 통해 다음 토큰 확률 분포로 변환

③ 가중치 공유

입력 임베딩, 출력 임베딩, softmax 직전 선형 변환의 가중치 행렬 공유

④ 스케일링

Embedding 벡터에 sqrt(d_model)을 곱해 스케일 조정

초기화시 임베딩 벡터 크기가 너무 작아지는 것을 방지하고 안정적 학습 유도하기 위함

3.5 Positional Encoding

✓ P

Transformer는 RNN이나 CNN처럼 순차 구조가 없음

→ 토큰 순서 정보가 사라질 수 있어서 “위치정보” 주입해야함

✓ S

인코더와 디코더 스택 하단의 입력 임베딩에 “positional encodings” 추가

임베딩과 동일한 차원인 d_model을 가져서 두 값 합산 가능

구현 방법: ① 학습형 ② 고정형 2가지 有

서로 다른 주파수의 사인 및 코사인 함수 사용

pos = 시퀀스 상 위치

i = 임베딩 차원 인덱스

각 차원은 다른 파장의 정현파 가짐 (2pi ~ 10000x2pi까지 기하급수적 증가)

⇒ 특정 위치 오프셋 k에 대해 PE_pos+k 를 PE_pos의 선형함수로 표현 가능해서 상대적인 위치 관계를 모델이 쉽게 확인 가능하다고 가정했음

사인버전 채택 → 훈련보다 더 긴 시퀀스를 일반화 가능하기 때문

4. Why Self-Attention

→ Self-Attention vs RNN/CNN 비교 정리

계산 복잡도

필요한 최소 순차 연산 수로 측정되는 병렬화할 수 있는 계산량

네트워크에서 장거리 의존성 간의 경로 길이(주요과제)

순방향 및 역방향 신호가 통과해야하는 경로 길이 - 길이가 짧을 수록 학습에 쉬움

** n: 시퀀스 길이, d: 차원

✓ Recurrent layer (RNN)

계산 복잡도: O(nd^2)

순차 연산: O(n) (모든 단계가 직전 hidden state에 의존 → 병렬화 불가)

경로 길이: O(n) (멀리 떨어진 단어 간 의존성 학습이 어려움)

✓ Convolutional layer (CNN)

계산 복잡도: O(knd^2) (커널 폭 k에 비례)

경로 길이

일반 convolution: O (n/k) - 선형

dilated convolution: O (logk(n)) - 로그

특징

장거리 의존성은 여러 층을 쌓아야 겨우 연결 가능

RNN보다 병렬화는 유리하지만, 계산량은 더 클 수 있음

Separable convolution을 쓰면 복잡도를 줄일 수 있으나, 여전히 self-attention보다 비효율적

✓ Self-Attention Layer

계산 복잡도: O(n^2d)

보통 n < d이라서 RNN보다 효율적 (ex. word-piece, Byte-pair 표현)

순차 연산: O(1) (모든 위치를 병렬 연산으로 연결 가능)

경로 길이: O(1) (임의의 두 위치가 한 번의 attention으로 직접 연결)

장점

장거리 의존성 학습에 유리

Attention head 별로 다른 역할을 학습해 해석가능서이 높음

필요 시 local attention (크기 r의 neighborhood)으로 제한 가능 → 계산량 절약, 경로 길이 O(n/r)로 증가

5. Training

→ regime에 대해 설명

5.1 Training Data and Batching

영어-독일어

WMT 2014 데이터셋 (약 450만 문장 쌍)

Byte-Pair Encoding, 공유 어휘 37,000개 사용

영어-불어

WMT 2014 데이터셋 (약 3600만 문장 쌍)

WordPiece, 어휘 크기 32,000 사용

Batch 구성

문장 길이를 기준으로 대략 정렬 후 배치

각 배치: 약 25000 source 토큰 + 25000 target 토큰

5.2 Hardware and Schedule

하드웨어: NVIDA P100 GPU x 8

Base 모델

Step당 약 0.4초

100,000 steps 약 12시간 학습

Big 모델

step당 약 1초

300,000 steps 약 3.5일 학습

5.3 Optimizer

Adam optimizer

베타1 = 0.9, 베타2 = 0.98, 에러 = 10^(-9)

학습률

초반 warmup 단계(4000 steps): 선형 증가

이후: 단계수의 역제곱 비율로 감소

5.4 Regularization

Residual Dropout

각 sub-layer 출력에 dropout 적용 후, sub-layer에 입력 추가 및 정규화

인코더, 디코더의 임베딩 + positional encoding 합에도 dropout 적용

Base 모델 P_drop = 0.1

Label Smoothing

els = 0.1

모델이 과도하게 확신하지 않도록 → perplexity(복잡)는 다소 높아지지만 정확도 BLEU 향상

6. Result

6.1 Machine Translation

✓ 영어-독일어(EN-DE : WMT 2014)

Transformer (big): BLEU 28.4

당시 보고된 모든 모델(앙상블 포함) 대비 +2.0 BLEU 향상 → 새로운 SOTA 달성

학습 비용: P100 GPU 8개 x 3.5일

Transformer (base model)도 기존의 단일 모델, 앙상블 능가

✓ 영어-프랑스어(EN-FR : WMT 2014)

Transformer (big): BLEU 41

기존 최고 단일 모델 성능 초과

학습 비용: 경쟁 모델의 1/4 미만

dropout 비율 0.1 사용 (기존 0.3 대신)

✓ 학습/추론 세부 설정

checkpoint averaging

✓ checkpoint

모델을 학습할 때, 일정 step마다 가중치를 저장함

이 저장본 하나하나를 체크포인트라고 부름

✓ checkpoint averaging

마지막에 모델 하나만 쓰는 게 아니라, 여러 개의 최근 체크포인트를 불러와서 가중치 평균

⇒ 훈련 후반부에는 손실이 출렁출렁할 수있다.

이때, 체크포인트 평균을 하면 잡음을 줄이고, 일종의 앙상블 효과도 기대 가능

base 모델: 마지막 5개 체크포인트(10분 간격) 평균

big 모델: 마지막 20개 체크포인트 평균

Beam Search

Beam size =4

Length penalty 알파 = 0.6

출력 최대 길이 = 입력 데이터 + 50 (조기 종료 허용)

학습 비용 추정

FLOPs = 학습 시간 x GPU 수 x GPU 성능(단정밀도 기준)

6.2 Model Variations

✓ 실험 설정

데이터셋: newtest 2013 (EN-DE 개발셋)

체크포인트 평균화는 사용하지 않고, beam search만 적용

✓ 결과

(A) Attention Heads & 차원 분할

연산량 일정하게 유지하면서, 어텐션 헤드 수, 어텐션 키, 값 차원을 다양하게 변경

단일 헤드 어텐션 → 최적 설정보다 BLEU -0.9

Head 수가 지나치게 많아도 성능 저하

→ 적절한 head 수 (기본 설정 h=8)가 가장 효과적

(B) Attention Key 차원 d_k

d_k를 줄이면 품질 저하 발생

→ 단순 dot product만으로는 충분하지 않을 수 있고, 더 정교한 호환성 함수가 유용할 수도~

(C)&(D) 모델 크기와 Dropout

더 큰 모델일수록 성능 향상

dropout은 과적합방지에 매우 효과적

(E) Positional Encoding

사인파 기반 positional encoding를 학습형 위치 임베딩로 대체

성능 차이 거의 없음

→ 논문에서는 사인파 채택 (긴 시퀀스로 일반화 가능해서)

6.3 English Constituency Parsing

✓ 목적

Transformer가 번역 외 다른 작업에도 일반화 가능한지 평가하고자 함

구문 분석(Parsing)은 출력이 입력보다 훨씬 길고 구조적 제약이 강함

특히, RNN, seq2seq 모델은 소규모 데이터 환경에서 좋은 결과를 내지 못했던 과제

✓ 데이터 및 모델 세팅

데이터: Penn Treebank WSJ (약 40,000 문장) + high-confidence + Berkeleyparser 코퍼스 (약 1700만 개 문장, 준지도 학습)

모델: 4-layer Transformer, d_model = 1024

어휘크기: WSJ 전용(16,000 토큰 어휘), 준지도(32,000 토큰 어휘)

추론(decoding)

최대 출력 길이 = 입력 + 300

Beam size = 21, length penalty 알파 = 0.3

하이퍼파라미터: dropout, attention, residual, learning rate 등은 EN-DE 번역 기본 설정과 동일

✓ 결과

RNN, seq2seq 모델보다 훨씬 우수

WSJ 40,000 문장만 학습해도 BaerkeleyParser보다 성능이 높음

recurrent neural network grammar 보다는 ,, ⬇️

7. Conclusion

Transformer는 인코더-디코더 아키텍쳐에서 RNN을 완전히 제거하고

multi-head self-attention만으로 구성된 최초의 sequence transduction 모델 제안

성능 조아요~

Transformer를 텍스트 말고 modality에 확장해고 싶고, 대규모 입출력을 효율적으로 할 수 있도록 하고 싶다~~, 더 병렬적으로 하고 싶다~~

[논문리뷰] Sequence to Sequence Learning with Neural Networks

Wed, 22 Jul 2026 12:38:56 GMT

Overview

논문명: Sequence to Sequence Learning with Neural Networks 학회(출판연도): NeurIPS (2014) 연구분야: 딥러닝 기반 시퀀스 표현 학습 및 시퀀스-투-시퀀스 모델

Abstract(초록)

✓ 토큰(Token)

더 이상 분해할 수 없는 텍스트의 기본 단위

단어, 문자, 문장의 일부

단어단위 토큰화: i love bitamin → [”i”, “love”,”bitamin”]

문자단위 토큰화: i love bitamin →[”i”,”l”,”o”,….,”n”]

✓ 토큰화(Tokeniazation)

텍스트를 토큰들로 나누는 과정

토큰화 이후, 단어 임베딩이나 벡터화 등의 작업을 통해 텍스트 분석

긴 문장을 의미있는(정보단위로 기능, 쓸모있는) 기본 단위인 토큰들로 분해하는 작업

✓ NLP에서 “의미있다”

→ 모델이 학습하거나 예측하는데 쓸모가 있다

문자 단위의 토큰화의 경우(”b”,”i”,”t”,”a”,”m”,”i”,”n”)

각 문자는 독립적으로 의미가 없지만, 모델이 이 문자들을 조합해서 bitamin이라는 단어를 이해하거나 예측할 수 있다면 의미가 있다 봄

✓ 시퀀스

“순서”가 중요한 데이터 집합(순서가 바뀌면 의미가 달라질 수 있음)

✓ 기존 DNN의 문제점

대규모의 라벨이 붙은 학습 데이터가 주어질 때 잘 동작하더라도, 시퀀스를 시퀀스로 매핑하는 문제에는 적용할 수 없음

✓ 시퀀스를 시퀀스로 매핑하는 문제 (ex. 영어문장 → 프랑스어로 번역)

입력문장(영어)이 다른 시퀀스(프랑스어)로 변환되는 문제

여기서 영어 문장: 하나의 시퀀스(단어들의 연속), 이를 변환해 프랑스어 시퀀스 생성

✓ LSTM 기반 시퀀스-투-시퀀스 학습

시퀀스 구조에 최소한의 가정만 두는 end-to-end 시퀀스 학습 방법 제안

다층 LSTM(Long Short-Term Memory)

① 입력 시퀀스 → 고정 차원의 벡터로 변환

② 또 다른 심층 LSTM이 이 벡터로부터 목표 시퀀스를 디코딩

✓ 시퀀스 구조에 최소한의 가정만?

일반적인 시퀀스 문제(ex. 문장 번역)에서는 입력과 출력 시퀀스 간의 길이나 구조가 복잡

기존 - 단어별 대응 규칙 or 정렬 정보 같은 가정을 많이 두고 모델링

논문 - 최소한의 가정만 → 입력시퀀스와 출력시퀀스가 어떤 관계인지 미리 정하지 않겠다

✓ end-to-end

입력 문장 → 출력 문장 전체 과정을 한 번에 학습

인코더 LSTM과 디코더 LSTM을 나누지만, 전체 모델이 하나의 목표 함수를 기준으로 동시에 학습

따로 전처리 단계에서 규칙을 넣거나, 중간 단계에서 사람이 개입할 필요X

✓ 입력 시퀀스를 고정 차원의 벡터로 변환?

입력 시퀀스를 인코더 LSTM에 넣어서 마지막 은닉상태나 출력벡터로 고정 크기의 벡터 만듦

→ 이 벡터는 문장 전체 정보를 압축한 컨텍스트 벡터

✓ 또 다른 심층 LSTM이 이 벡터로부터 목표 시퀀스를 디코딩?

디코더 LSTM은 이 고정 벡터를 받아서 순차적으로 출력 시퀀스를 생성

ex. 영어 → 프랑스: 디코더는 벡터 기반으로 프랑스어 문장을 한 단어씩 생성

✓ 실험

WMT`14 데이터셋 영어 → 프랑스어 번역 (기계번역)

① 성능 향상 - BLEU점수

BLEU 점수 34.8 (↔ 기존 SMT BLEU 33.3)

논문의 LSTM을 통해 SMT 1000개의 가설 재순위화 → BLEU 36.5로 향상

긴 문장도 ok~

② 단어 순서 뒤집기

LSTM은 단어 순서에 민감하지만, 능동태와 수동태에서는 비교적 강건

능동,수동 → 문장 구조가 달라도 핵심 의미는 비슷하게 벡터로 표현

단기 의존성을 증가시켜 LSTM이 더 효과적으로 학습할 수 있게 도와줌

✓ 단기 의존성(short-term dependency)

번역에서 첫 번째 단어와 마지막 단어 사이의 거리를 생각해보면,

원래: i love bitamin → 출력 첫 단어와 대응되는 입력 단어 멀리 떨어져 있음

⇒ 장기 의존성 문제(기울기 소실 문제로 어려움)

단어를 뒤집으면

출력 문장의 첫 단어와 대응되는 입력 단어가 가까워짐 → 단기 의존성

⇒ 단기 의존성이 많아지면, 역전파를 통한 학습이 쉬워짐

1. Introduction (서론)

✓ DNN

✓ N개의 N-비트 숫자

N개의 숫자가 각각 N비트로 표현되는 숫자들 의미

N=4 → 4비트로 표현되고 총 4개의 숫자들로 이루어진 집합

✓ N개의 N-비트 숫자 “정렬”

N개의 N-비트 숫자들을 오름차순이나 내림차순으로 정렬해야하는 문제

→ 이 숫자들을 정렬하는 기능을 신경망이 수행할 수 있는데 2개의 은닉층만으로도 해결 가능

음성인식, 시각적 객체 인식과 같은 어려운 문제에서 매우 뛰어난 성능

비교적 적은 단계만으로도 임의의 병렬 연산 가능

2개의 은닉층만으로도 N개의 N-비트 숫자 정렬 가능 → 복잡한 문제를 단순한 구조로 해결가능

✓ 왜 신경망으로 정렬이 가능할까?

신경망은 입력 데이터를 처리하고 패턴을 학습할 수 있는 능력有

DNN은 선형적이지 않은 연산을 반복적으로 적용하여 복잡한 문제를 풀 수 있음

정렬문제=순서를 파악하고 비교하는 작업: 2개의 은닉층으로 순서, 비교 패턴 학습 가능

✓ 왜 2개의 은닉층만으로 가능한가?

기본적인 신경망 구조는 선형 연산만으로는 해결할 수 없는 문제들을 다룰 수 있게 해줌

→ 은닉층을 추가함으로써 비선형적인 문제도 해결할 수 있음

단일층: 선형변환만 가능 - 직선적일 수 밖에 없음

3번이상의 은닉층: 상대적으로 더 복잡한 문제나 큰 데이터셋에서 필요, 과적합 위험

⇒ 2개의 은닉층이 학습 효율성과 성능면에서 최적의 균형을 제공하는 경우가 많음

(P) DNN의 한계

입력과 출력이 고정된 차원의 벡터로 인코딩될 수 있는 문제에만 적용 가능

시퀀스-투-시퀀스 문제(ex. 기계 번역, 질의응답 등)에서는 한계 존재

→ 길이가 고정된 데이터(ex. 이미지나 고정된 길이의 텍스트 등)에는 잘 작동하지만,

길이가 달라질 수 있는 시퀀스 데이터에는 적합X

✓ (S) LSTM을 이용한 시퀀스-투-시퀀스 학습

LSTM: 시퀀스를 처리하는데 강력한 신경망

장기의존성을 학습하는데 능숙하여, 시간 지연이 있는 입력과 출력 간의 관계를 잘 모델링 가능

시퀀스-투-시퀀스를 해결하기 위해 2개의 LSTM 사용

인코더 LSTM

→ 입력 시퀀스를 한 번에 한 단어씩 읽어서 고정된 크기의 벡터로 변환(입력시퀀스 요약정보)

디코더 LSTM

→ 인코더에서 생성한 고정된 벡터를 받아 출력 시퀀스 생성 후 차례대로 예측

→ 입력 시퀀스를 조건으로 하는 순환 신경망 언어 모델

⇒ 장기 의존성 문제 해결

<참고> [세션 PPT]

✓ 관련 연구

✓ re-ranking 실험

abstract랑 똑같은 이야기

LSTM 순서 뒤집는 트릭으로 단기의존성을 만들어서 최적화 쉬워짐

SGD로 학습해도 긴 문장 잘 처리 가능

2. The model

<참고>

FNN(feedforward neural network) RNN LSTM

- 입력 데이터 순차적으로 처리
- 각 입력은 독립적
- 시간적인 순서나 의존성 고려X - 이전의 출력이 현재의 입력에 영향을 미치는 구조
- 시간적인 의존성 처리 가능 - RNN의 한 종류
- 긴 시간 의존성을 처리할 수 있도록 설계된 네트워크
- 더 효과적으로 긴 시간 간격의 정보 기억 및 처리 가능

✓ (P)

RNN은 ①입력과 출력이 같고, ②정렬이 이미 알려져 있는 경우에는 시퀀스 투 시퀀스로 쉽게 매핑 가능

BUT, ①입력과 출력 길이가 다르거나, ② 복잡하고 비단조적인 관계를 가지는 경우에는 적용 어려움

✓ 비단조적인 관계

변수 간의 관계가 일정한 방향으로만 변화하지 않고, 증가와 감소가 반복될 수 있는 경우

변수 간의 증가나 감소가 일관X(변동적)

다른 요인에 의해 영향을 받을 수 있음

✓ (S)

입력 시퀀스를 하나의 고정 길이 벡터 v로 매핑 (첫 번째 RNN)

그 벡터를 기반으로 출력 시퀀스 생성 (두 번째 RNN)

BUT, RNN은 장기 의존성 문제로 학습이 어려움 → LSTM으로!

아마 v: 컨텍스트벡터, 첫 번째 RNN: 인코더 LSTM, 두번째 RNN: 디코더 LSTM

방법

입력 시퀀스를 LSTM으로 인코딩하여 “마지막 hidden state = v”로 고정 길이 벡터를 얻음

이후, 디코더 LSTM이 v를 초기 hidden state로 설정한 뒤, 출력 시퀀스를 생성

이때 각 단어의 확률 분포 p(y_t|v,y1,y2,,,yt-1)는 소프트맥스(softmax)로 표현

✓ 개선점 3가지

① 입출력에 서로 다른 LSTM 사용

인코더 LSTM(입력용), 디코더 LSTM(출력용) 분리

파라미터 수를 늘리면서도 연산비용이 크게 늘지X

다국어 학습에도 자연스럽게 확장 가능

② 깊은 LSTM 사용 (deep LSTM)

얕은 LSTM보다 깊은 LSTM이 성능이 훨씬 우수

4층 LSTM 사용

③ 입력 문장 단어 순서 뒤집기 (reverse input sentence)

입력 (a,b,c) → 출력(알파,베타,감마) 대신
입력 (c,b,a) → 출력(알파,베타,감마)

→ 단기 의존성! (장기 의존성 문제 해결)

알파가 난이도 결정 → 초기 출력이 잘 맞으면, 뒤 토큰들도 쉽게 맞아 떨어진다~(가장어려운 부분을)

3. Experiments

✓ SMT(Statistical Machine Translation)

확률적 모델 기반으로 한 기계 번역 방식

대규모의 평행 코퍼스(같은 의미를 가진 두 언어로 된 문서)에서 얻은 통계적 규칙을 사용하여 한 언어에서 다른 언어로 번역

주어진 입력 문장을 단어와 구문으로 나누고, 이를 확률적 규칙에 따라 번역

번역할 때 가장 가능성이 높은 번역을 선택하는 방식으로 작동

문법적 정확성보다 빈번한 단어 및 구문 패턴을 기반으로 작동하여 번역 수행

→ 단어 순서가 중요한 언어적 맥락을 다루는 데에는 한계

✓ n-best 리스트

번역 시스템에서 생성한 상위 n개의 번역 후보 리스트

시스템이 제공할 수 있는 여러 가지 번역 결과 중 가장 확률이 높은 번역 나열

✓ WMT’14 영어 → 프랑스어 기계번역(MT) 방법

SMT 시스템없이 직접 번역 (Direct translation)

SMT baseline의 n-best 리스트를 재점수화(rescoring)

SMT 시스템 없이 직접 번역 SMT baseline n-best 리스트 재점수화

- 기계 번역 시스템을 단독으로 사용하여 직접 번역 수행
- 생성된 번역 결과: 1가지 - SMT 시스템이 생성된 여러 후보 번역 중 가장 적합한 번역 선택
- n-best 리스트에서 상위 n개의 번역 후보가 제공된 후, 이 후보들에 대해 추가적인 점수 부여 or 재조정을 통해 가장 적합한 번역 선택
- 단순히 가장 높은 확률을 가진 번역외에도 문맥에 맞는 최적의 번역 선택 가능

3.1 Dataset details

✓ 데이터셋

WMT`14 영어 → 프랑스어 데이터셋

✓ 학습 데이터

1200만 문장 쌍, 프랑스어 3.48억 단어, 영어 3.04억 단어

[29]에서 제공하는 clean selected subset 사용

baseline SMT 시스템이 토크나이즈된 train/test 셋과 1000-best 리스트가 공개되어 있어서

✓ 어휘집

소스 언어(영어): 160,000개 가장 빈도 높은 단어

타깃 언어(프랑스어): 80,000개 가장 빈도 높은 단어

어휘 외 단어(OOV)는 모두 특별한 UNK 토큰으로 대체

3.2 Decoding and Rescoring

✓ 학습 목표

대규모 deep LSTM을 문장 쌍으로 학습

목적함수: 소스 문장 S가 주어졌을 때 올바른 번역 T의 로그 확률을 최적화

번역생성과정: 소스 문장 S가 주어졌을 때 올바른 번역 T의 로그 확률 최대화

모델의 예측이 훈련 데이터에서 실제 출력과 가까워지도록 학습

로그 확률의 합이 최대화하는 것을 목표

로그 확률을 사용하는 이유 예시

✓ 번역 생성 과정

학습 완료 후, 가장 가능성 높은 번역 선택

✓ 디코딩 방법

✓ Partial Hypothesis

출력 시퀀스를 완전히 생성하기 전에 현재까지 생성된 부분적인 번역 결과 의미

번역을 순차적으로 생성할 때, 시스템은 출력 시퀀스의 일부를 미리 생성하고, 그 결과를 바탕으로 다음 단어 예측

이 부분적인 출력 → Partial hypothesis

✓ Beam Search Decode

출력 시퀀스를 생성하는데 사용되는 탐색 알고리즘

다양한 후보 번역을 생성하고 평가하는 방식

→ 현재까지의 번역 후보 중에서 가장 가능성 높은 후보들을 유지하면서 번역을 계속 생성

작동예시

모델이 i를 예측하고 beam width가 3이면 i 다음에 올 수 있는 3가지 단어 예측

이전 단계에서 예측된 i 뒤에 올 3개의 단어 후보를 각각 확장하여, 3개의 새로운 partial hypothesis 만듦 + 각 후보에 대한 확률 계산

각 후보에서 또 다른 단어들을 예측하여, 최고 확률을 가진 3개의 후보를 계속 유지

전체 시퀀스가 완성되면, 가장 확률이 높은 시퀀스를 최종 출력으로 선택

좌 → 우 beam search decoder 사용

beam search는 B개의 partial hypothesis 유지

각 시점마다 가능한 모든 단어로 확장 → 후보 수 급증

상위 B개만 남기고 나머지는 제거 (로그 확률 기준)

가 나오면 beam에서 제거하고 complete hypothesis 집합에 추가

근사적이지만 구현이 단순하고, beam size = 1로도 좋은 성능, beam size = 2어도 대부분의 성능 향상

✓ 재점수화(rescoring)

baseline SMT가 만든 1000-best 리스트를 LSTM으로 재점수화

각 후보 번역의 로그확률을 LSTM으로 계산하고, 원래 SMT 점수와 평가

3.3 Reversing the Source Sentences

✓ LSTM

✓ 최소 시간 지연

입력 시퀀스의 단어가 출력 시퀀스의 대응되는 단어와 시간적으로 가까운 관계를 유지하도록 함

즉, 입력 단어와 출력 단어가 서로 가깝게 위치하도록!!

왜 중요할까?

[기계번역시스템] 입력 문장과 출력 문장 사이에 단어의 순서와 문맥적 관계를 잘 반영해야 함

최소 시간 지연을 고려하면 입력 문장에서의 각 단어가 출력 시퀀스의 대응되는 단어와 가까운 위치에 배치되어야 함

장기 의존성 문제 해결 가능하긴 한데, 소스문장(입력)을 역순으로 뒤집으면 훨씬 더 잘 학습하더라~

✓ 타깃 문장(출력)은 뒤집지 X

perplexity 5.8 → 4.7

BLEU 점수 25.9 → 30.6

⇒ 많은 단기 의존성을 도입했기 때문이 아닐까~? (최소 시간 지연_minimal time lag 해결)

평균 거리 자체는 변하지X

소스 언어 앞쪽의 단어와 타깃 언어의 앞쪽의 단어가 가까워지면서
① 최소 시간 지연이 줄어들고
② 역전파가 소스 문장과 타깃 문장 사이에 “의사소통”을 수립하기 훨씬 쉬워짐
⇒ 전반적인 성능향상

<초기>에는 입력 문장을 뒤집는 게 타긴 문장의 앞부분에서 더 자신 있는 부분을 예측하고, 뒷부분에서는 덜 자신있는 부분을 예측하는 것이라고 생각했음

→ 문장을 뒤집으면, 앞부분의 단어들이 뒤쪽 단어들보다 더 간단하게 예측될 듯?
뒷부분이 덜 확실하니까 더 많은 예측 오류가 있을 것이라 생각했었음

<실험결과> 뒤집은 문장이 더 좋은 성능

<결론> LSTM의 메모리 활용의 개선 때문

LSTM 모델은 기억을 잘해야하는데, 입력 문장의 순서를 뒤집으면 초기 단어들이 후속단어들과 더 가까운 위치에 배치되므로, 초기 상태의 의존성이 더 짧아지게 됨

3.4 Training details

✓ 모델 설정

4층 deep LSTM, 각 층은 1000개의 셀, 단어 임베딩 차원 1000차원

입력 어휘집 160,000, 출력 어휘집 80,000

8,000개의 실수 → deep LSTM 문장을 표현하기 위함

⇒ 얕은 LSTM보다 훨씬 뛰어난 성능

LSTM은 총 3억 8400만 개의 파라미터

이 중 6400만 개는 순수 recurrent 연결

encoder LSTM 3200만 개, decoder LSTM 3200만 개

✓ 학습설정

파라미터 초기화

모든 파라미터를 [-0.08,0.08] 구간의 균일분포로 초기화

최적화 방법

Momentum없이 SGD 사용

학습률 0.7로 고정

5 epoch 이후부터는 0.5 epoch마다 학습률 절반으로 감소

총 학습 epoch = 7.5

미니배치 설정

batch size = 128 시퀀스

gradient를 batch size(128)로 나누어 정규화

gradient clipping (폭발 방지)

LSTM은 기울기 소실 문제는 적지만, 기울기 폭발 문제는 발생 가능

→ gradient norm을 제한(hard constraint)

각 배치에서 gradient g (128로 나눈 값)를 구해 s = ||g||^2 계산

만약 s>5 이면 g ← 5/sqrt(s) x g

문장 길이 처리

문장 길이 다양함 (짧은 문장: 20-30 단어, 긴 문장: 100+ 단어)

무작위로 128개 문장을 선택하면 대부분 짧은 문장이라 긴 문장 학습 시 연산 낭비 발생

minibatch 내 문장들이 비슷한 길이를 갖도록 구성

→ 약 2배 이상 속도 향상 얻음

3.5 Parallelization

✓ 병렬화

(P) 단일 GPU_C++로 구현된 deep LSTM 약 1,700단어/초 (느림)

→ (S) 8개의 GPU를 사용하여 모델 병렬화

4개 LSTM: 각기 다른 GPU에서 실행 - 계산된 활성화 값은 다음 GPU/층으로 즉시 전달

나머지 4개 LSTM: softmax 병렬화 - 각 GPU가 1000x20000행렬 곱 연산 담당

⇒ 6,300 단어/초 속도 기록, 미니배치 128, 학습 약 10일 걸림

3.6 Experimental Results

cased BLEU score 사용

WMT`14 시스템 37.0 BLEU 얻음

순수 LSTM direct translation: BLEU 34.81, SMT baseline(33.30) 초월

앙상블 효과: 모델 5개 앙상블 시 성능 크게 향상

reverse input: 성능 개선

3.7 Performance on long sentences

입력 문장을 역순으로 넣어서 최소 시간 지연이 줄어들어서 장기 의존성 학습하는게 쉬워짐

3.8 Model Analysis

4. Related Work

RNNLM (RNN-Language Model) 이나 NNLM (Feedforward Neural Network Language Model)

MT baseline의 n-best 리스트를 재점수화(rescoring) → 성능 안정적으로 개선

소스 언어 정보 ⊂ NNLM

Auli et al [1]: 입력 문장의 토픽 모델(topic model)과 결합하여 rescoring 성능 향상

Devlin et al [8]: NNLM&MT의 디코더에 통합, 디코더의 정렬 정보를 이용해 입력 문장의 유용한 단어들을 NNLM에 제공

Kalchbrenner and Blunsom[18] ← 밀접하게 관련

최초 입력 문장을 벡터로 매핑 → 다시 문장으로 복원

CNN 사용 (단어의 순서 잃음,,)

Cho et al [5]: LSTM과 유사한 RNN 구조를 사용해 문장의 벡터로 매핑하고 다시 복원

** 신경망을 SMT시스템에 통합하는 것에 초점

Bahdanau et al [2]: 어텐션 메커니즘 도입

Cho et al [5]의 메모리 문제 해결 - 구문 기반 접근과 유사

역순 소스 문장으로 학습해도 유사한 개선을 얻었을 것이라 추측

End-to-end

Hermann et al [12]: 공간상의 유사한 지점으로 매핑, 사전에 계산된 데베에서 가장 가까운 벡터를 검색하거나 문장을 재점수화해야만 번역 얻을 수 있음

5. Conclusion

대규모 deep LSTM: 제한된 어휘, 문제 구조 거의 가정X
→무제한 어휘 SMT보다 대규모 MT 과제에서 우수

⇒ 충분한 학습 데이터가 있다면, 다른 시퀀스 학습 문제에도 효과적일 가능성⬆️

소스 문장 역순 처리

단기 의존성 증가로 학습 용이

긴 문장 번역

제한된 메모리에도 불구하고 정확히 번역 가능

[논문 리뷰] Deep Residual Learning for Image Recognition

Wed, 22 Jul 2026 12:31:29 GMT

Overview

논문명: Deep Residual Learning for Image Recognition 학회(출판연도): CVPR (2016) 연구분야: 딥러닝 기반 컴퓨터 비전 백본 네트워크

Abstract(초록)

✓ 기존 신경망의 문제점

신경망을 깊게 쌓으면 이론적으로 성능이 좋아야 하지만, 실제로는 성능 저하 발생

단순히 층을 더 깊게 하면 학습이 잘 안되고, 오히려 오류율 증가

✓ ResNet의 등장

→ Residual Learning(잔차 학습) 프레임워크 제안

레이어가 입력과 무관한 함수를 직접 학습하는 대신, 입력을 기준으로 한 잔차 함수를 학습하도록

→ ① 네트워크 쉽게 최적화 + ② 정확도 향상

[실험 결과] VGG네트워크보다 8배 깊은데 연산 복잡도는 더 낮음

→ ImageNet

VGG네트워크보다 8배 깊은데 연산 복잡도는 더 낮음

오류율 3.57% (잔차 네트워크 앙상블) - ILSVRC 2015 분류 과제 1위

→ COCO 28% 성능 향상 (깊은 표현 가능)

1. Introduction(서론)

✓ CNN

→ 이미지 분류 분야에서 획기적인 성과

깊은 네트워크

저, 중, 고수준 특징 통합 후, 다층 방식으로 종단간(end-to-end) 학습

층⬆️ → 표현할 수 있는 특징 수준⬆️

[최근 연구] 16~30층에 이르는 “매우 깊은” 모델 활용

(P)

✓ 그렇다면, 단순히 층을 쌓는 것만으로 더 좋은 네트워크를 만들 수 있는가? - NO!

→ ① 기울기 소실/폭발 문제 ② 성능 저하 문제(Degradation Problem)

(P1) 기울기 소실/폭발 문제

→ (S) 정규화된 초기화 기법 + 정규화 레이어로 역전파 기반 SGD에서 안정적으로 수렴 가능

✓ SGD (확률적 경사하강법)

손실함수를 최소화하는 방향으로 가중치를 업데이트하는 최적화 알고리즘

경사하강법의 변형으로,
전체 데이터가 아닌 “일부 데이터(미니배치 or 1개 샘플)”만 보고 업데이트 하는 방식
→ Stochastic(확률적)

BUT!

(P2) Degradation Problem(성능 저하 문제)

→ 깊이가 늘어날수록 정확도가 일정 수준에서 포화된 뒤, 성능이 빠르게 저하

→ (이론적 S) 추가된 층은 항등 매핑으로, 나머지는 이미 학습된 얕은 모델에서 복사

✓ 항등 매핑(identity mapping)

입력 = 출력

!image.png

⇒ ResNet에서 Skip Connection을 통해 구현

새로 추가된 층이 꼭 유용한 걸 못 배우더라도 F(x)=0만 학습하면 입력을 그대로 출력

✓ 추가된 층을 항등 매핑(identity mapping)으로 두는 것

얕은 모델에서 이미 잘 학습된 가중치가 있다고 가정

모델을 더 깊게 만들고 싶을 때, 새로운 층들을 항등 매핑으로 두면, 입력을 그대로 출력으로 흘려보내는 상태가 됨

깊은 모델 = 얕은 모델 + 항등 매핑 층(아무 일도 안하는 층)

⇒ 하지만,
[실험 결과] 현재 최적화 기법은 이론적 해법만큼 좋지도 않고, 현실적인 시간 안에 찾는 건 불가능

즉, 깊은 네트워크가 얕은 네트워크만큼 성능을 내는 쉬운 방법은 존재하지만, 실제 알고리즘이 그걸 찾아주지 못해서 성능 저하가 발생함

✓ (S) Deep Residual Learning Framework

→ 여러 층이 직접 목표 함수를 학습하게 하는 것이 아닌 “잔차함수(residual mapping)”를 학습하도록

✓ 기존 방식(Plain Network) vs. ResNet 방식(Residual Network)

우리가 원하는 함수가 H(x)라고 했을 때,

기존 방식(Plain Network)

여러 층을 합쳐서 곧장 H(x) 자체를 학습

각 층이 독립적으로 목표 함수 학습하는 것이 아닌, 여러 층이 순차적으로 쌓여서 전체적으로 H(x)를 근사

ResNet 방식

여러 층이 합쳐져서 F(x) = H(x) - x (잔차: 입력 대비 변화량)만 학습

최종 출력은 F(x)+x 로 표현

→ 즉, 기존의 입력을 조금 보정하는 역할

[가정] 잔차 함수를 최적화하는 것이 원래 함수를 직접 학습하는 것보다 더 쉽다

→ 극단적인 경우) 항등 매핑이 최적이라면,
비선형층 여러 개로 항등 매핑을 학습하는 것보다 잔차를 0으로 만드는 것이 훨씬 쉬움

✓ Shortcut connection

→ 하나 이상의 층을 건너뛰어 연결하는 방식

추가적인 파라미터나 연산복잡도 늘리지 X

SGD와 역전파를 통한 end-to-end 학습 가능

일반적인 딥러닝 라이브러리(caffe 등) 손쉽게 구현 가능

✓ SGD와 backprop으로 end-to-end 학습이 가능하다

1. 신경망 학습

일반적인 신경망 학습 과정 Residual block에서 추가된 shortcut

✓ 입력 x → 여러 층(Conv,ReLU 등) → 출력 y
✓ 순전파: 데이터를 위로 흘려보내고
✓ 역전파: 손실의 미분값(gradient)을 아래로 보내
면서 가중치 업데이트
→ 이때, SGD(확률적경사하강법)같은 최적화 알고리즘이 gradient를 사용해 파라미터 갱신
⇒ 즉, 학습은 항상 “출력에서 입력까지 gradient가 잘 전파되는가?”에 달려 있음 ✓ y = F(x) + x
✓ F(x)는 학습해야 하는 비선형 변환이고,
x는 단순히 바로 더해주는 identity connection
- 추가경로는 파라미터 X (그냥 입력을 더해줌)
- 연산은 단순히 덧셈이고, 미분도 매우 간단!

2. 역전파에서 어떻게 작동?

y=F(x) + x에 대해, 손실 L의 gradient를 계산한다고 해보자

3. end-to-end 학습 가능?

shortcut connection은 추가 파라미터도, 특수 알고리즘도 필요없음

기존의 backprop과 SGD로 진행

Residual Network는 일반 신경망처럼 처음부터 끝까지 한 번에 학습 가능하다는 뜻

✓ 실험

ImageNet 데이터셋

① 매우 깊은 잔차 네트워크: 최적화가 쉬움

↔ 단순히 층을 쌓은 일반 네트워크: 깊이가 증가할수록 훈련 오류가 커짐

② 잔차 네트워크는 깊이가 크게 늘어나도 쉽게 정확도 높일 수 있음 + 기존의 네트워크보다 뛰어난 성능

152층 잔차 네트워크: VGG보다 깊지만 계산 복잡도는 낮음

앙상블 모델 결과 : 뭐 1등함

CIFAR-10 데이터셋

ImageNet과 비슷한 결과

100층 이상의 네트워크 성공적으로 학습 + 1000층이 넘는 모델도 실험

2. Related Work

✓ Residual Representations

VLAD, Fisher Vector

기존 이미지 인식에서 원래 벡터 대신 잔차벡터(residual vector)를 활용해 특징을 인코딩

→ 원래 벡터를 직접 쓰는 것보다 잔차 벡터를 쓰는게 더 효과적

저수준 비전/그래픽스

PDE - Multigrid, Hierarchical basis : 스케일 간 잔차 활용 → 훨씬 빠르게 수렴!

⇒ 잔차 기반 표현은 최적화를 단순화하고 수렴 속도를 높임!

즉, 잔차를 다루는 방식은 이전부터 효과적임이 입증되어 왔다

✓ Shortcut Connections

<초기 연구>

[MLP] “입력 → 출력” 직접 연결되는 선형 레이어 추가

중간 레이어를 auxiliary classifier와 직접 연결하여 기울기 소실/폭발 문제 완화

레이어 출력, 기울기, 오류를 정규화(centering)하기 위한 shortcut 기법 연구

GoogLeNet의 inception에서도 얕은 branch(지름길)와 깊은 branch를 함께 사용

게이트(gating function)로 제어되는 shortcut 제안

게이트 닫히면(출력이 0에 가까워질 때) → 일반 함수를 나타냄 (잔차X)

극단적으로 깊은 네트워크 → 성능 향상을 보여주진 못함

① ResNet은 항등 shortcut 사용! → 항상 입력을 그대로 출력으로!, 파라미터 없음

② 언제나 잔차 함수 F(x)를 학습하고, 입력 정보가 항상 손실없이 전달됨

✓ Shortcut의 두 가지 방식

1. Highway Networks (ResNet 이전 연구)

shortcut에 gate(게이트)를 둠

게이트 값 1 → 입력이 그대로 전달

게이트 값 0 → 입력 차단(shortcut 닫힘)

→ 데이터마다 “shortcut를 통과할지 말지”를 선택하는 구조

2. ResNet (항등 Shortcut)

게이트 없음 → 무조건 입력 그대로 전달

파라미터 X, 학습할 것 X

→ 입력 x는 언제나 output으로 직접 더해짐

✓ 항상 열려 있다?

입력 x가 shortcut을 통해 항상 출력 쪽으로 전달된다는 뜻

네트워크가 “입력을 통과시킬지 말지” 선택하는 것이 아니라, 무조건 통과시킴

그 위에 residual F(x)가 더해져 최종 출력이 됨

⇒ 최소한 항등 함수( F(x) =0 )는 언제나 보장됨 → 학습 실패(수렴 실패)를 피할 수 있음

3. Deep Residual Learning

3.1 Residual Learning (잔차학습)

✓ 용어 정리

H(x) : 몇 개의 누적된 레이어(꼭 전체 네트워크일 필요X)가 근사해야하는 목표 함수

x : 레이어들의 입력

✓ 잔차 학습

(P)

목표 함수 H(x)를 여러 층이 직접 근사하려면 학습에 어려움 → Degradation problem

[가정]

여러 개의 비선형 레이어가 복잡한 함수를 점근적으로 근사할 수 있다

= 잔차함수( H(x)-x )를 근사할 수 있다

✓ 딥러닝의 기본 전제

여러 비선형 레이어를 많이 쌓으면, 이론적으로 어떤 복잡한 함수 H(x)도 근사할 수 있다.

✓ ResNet의 관점

복잡한 함수 H(x)를 직접 근사할 필요가 있을까?

H(x)를 근사할 수 있다면, 똑같이 H(x)-x(즉, 잔차함수 F(x))도 근사 가능

H(x)와 H(x)-x는 단순히 항등항을 뺀 것이므로, 난이도 면에서 차이X

단, 입력과 출력 차원이 같아야 H(x)-x 정의 가능

✓ Plain Net

층이 곧바로 H(x)를 배워야 함

✓ Residual Net

F(x) = H(x) - x 만 배우고, 최종 출력이 y = F(x) + x

네트워크에 전체 함수를 배우라는 대신 항등에서 벗어난 나머지만 배우라고 하는 것

✓ 왜 이렇게 할까?

H(x)가 항등에 가까운 경우, F(x)는 아주 작은 값

→ 작은 보정만 배우면 되어 최적화가 훨씬 쉬움

Plain Net은 항등 매핑까지 포함해서 전부 학습해야해서 어려움

ResNet은 문제를 재정식화해서 풀기 쉽게 만들겠다는 것이 요지

✓ Degradation problem

추가된 층들이 항등 매핑으로 구성될 수 있다면, 더 깊은 모델의 훈련 오류

항등 매핑이 최적이라면 H(x) =x

F(x)=0이면됨

최적화 알고리즘(ex. SGD)은 “여러 층의 weight를 0 근처로 보내기만 해도” 쉽게 항등 매핑 가능

실제로 항등이 최적일 가능성은 낮겠지,,

근데, 항등매핑을 “출발점”으로 두면 문제를 풀기에 쉬워진다

우리가 찾고 싶은 H(x)가 0 mapping보다 항등에 더 가까운 함수라면 H(x)를 새로 배우는 것보다
”항등 + 작은 잔차”로 학습하는게 더 쉽다

실제로 실험해보니, 학습된 F(x)값들의 크기는 작았고,
대부분의 네트워크는 “항등에 가까운 함수 + 약간의 보정”꼴로 학습됨

⇒ 항등 매핑이 좋은 시작점(precondition)임이 실험적으로 확인

3.2 Identity Mapping by Shortcuts

✓ Residual Block

3.3 Network Architectures

✓ 설계규칙

① 출력 특성 맵 크기가 같으면, 해당 층 필터 개수도 동일하게 유지한다

② 특징맵 크기가 절반으로 줄어들면, 연산 복잡도를 층마다 일정하게 유지하기 위해 필터 개수를 2배 늘림

✓ Residual Network

(A) shortcut이 여전히 항등 매핑을 수행하되, 차원을 늘리기 위해 0값을 채워 넣음

(B) projection shorcut을 사용하여 차원을 맞춤( 1x1 합성곱으로 수행)

(A) (B) 모두 서로 다른 크기의 특성맵을 가로 지를 때 stride = 2

3.4 Implementation (구현)

✓ 데이터 전처리 & 증강

✓ 스케일 증강

학습용 이미지의 크기를 무작위로 다른 크기로 리사이즈해서 네트워크에 넣는 방법

→ 원래 이미지는 한 가지 고정된 크기(224x224)로만 학습시키지 않고, 입력 이미지를 여러 크기(스케일)에서 보여주어 네트워크가 크기 변화에 강건하도록!

scale augmentation

이미지의 짧은 변을 [256,480]범위 내에서 랜덤하게 선택

crop & flip

224x224 크기의 영역을 원본 이미지나 좌우 반전된 이미지에 무작위로 잘라냄

한 번은 짧은 변이 256으로 맞춰진 이미지에서 crop, 다른 한 번은 480으로 크게 맞춘 뒤 crop

→ 이미지의 불변성을 가지게 됨

ex. 항상 같은 크기의 고양이 사진만 보여주면 “고양이는 딱 이 크기”라고 잘못 배움.

크기를 줄였다 키웠다 하면서 보여주면 “고양이는 크기가 달라도 같은 고양이~”

정규화 (→학습 안정화 목표)

픽셀별 평균값 빼주기

각 픽셀의 RGB값에서 전체 학습 데이터셋의 평균값을 빼주는 작업

→ 입력 데이터 분포가 0 근처로 맞춰져서 학습이 더 안정적이고 빠르게 진행

✓ 왜 입력 분포를 0 근처로 맞추면 학습이 안정적일까?

뉴런의 활성화함수(특히 ReLU, sigmoid,,)는 입력분포가 너무 크거나 치우치면, gradient가 죽거나 폭발

평균이 0에 가깝게 맞춰지면 양수/음수가 균형있게 섞여서 가중치 업데이트에 원활

⇒ 정규화(평균 0 분산 1)는 기울기 소실/폭발을 막고 최적화를 쉽게 함

color augmentation (색상 증강)

[21]에서 사용된 표준 방식 따름

✓ 네트워크 구성 & 초기화

모든 합성곱 뒤, 활성화 함수 전에 Batch Normalization(BN) 적용

가중치 초기화 [13]의 방식

모든 plain/residual 네트워크는 처음부터 학습(pretrain 안씀)

✓ 학습 세팅

Optimizer : SGD (미니배치 =256)

learning rate : 0.1에서 시작, plateau(수렴상태)마다 10배씩 감소

Iteration(반복) : 최대 60만 회

Weight decay(가중치 감쇠) : 0.001, Momentum : 0.9

Dropout 사용 안함

✓ 테스트 세팅

10-crop testing : 표준 평가 방법 사용

Fully convolutional 구조 사용

여러 스케일(224,256,384,480,640)에서 결과를 평가

4. Experiments

4.1 ImageNet Classification

1000개 클래스 포함된 ImageNet 2012 분류 데이터셋 제안 방법 평가

128만개 학습 이미지로 훈련 + 5만개의 검증이미지로 평가

✓ Plain Networks → 18-layer & 34-layer 네트워크 평가

34-layer plain net이 훈련/검증 오류 모두 높음 → Degradation problem

18층 네트워크의 해 공간 ⊂ 34층 네트워크의 해 공간

BN 사용으로 forward/backward 신호 소실은 아님 → 기울기는 정상

✓ [원인 추측] 지수적으로 낮은 수준의 수렴 속도 → 최적화가 어려움

34층도 일정 수준의 정확도는 달성(= 최적화 알고리즘이 어느정도는 작동함을 시사)

✓ Residual Networks → 18-layer & 34-layer 네트워크 평가

Plain Net + 3x3 필터쌍마다 shortcut 추가(항등 매핑 + zero padding; 차원증가)

① 깊이 증가 효과 (18층 vs. 34층)

Plain Net: 34층 → 18층보다 성능저하 (Degradation problem)

ResNet: 34층 → 18층보다 2.8% 성능 향상

→ 잔차 학습이 깊어질수록 성능을 높여주더라~

② 훈련 오류 & 일반화

34층 ResNet은 훈련 오류⬇️

검증 데이터에도 잘 일반화

→ Degradation problem 해결 + 깊이 증가로 정확도 이득

③ Plain Net vs ResNet(동일 깊이, 34층)

ResNet이 PlainNet보다 Top-1 오류율 3.5% 감소

→ 매우 깊은 네트워크에서도 residual learning의 효과 입증

④ 18층 모델 비교

정확도는 Plain과 ResNet 거의 동일

그런데 ResNet이 수렴속도가 훨씬 빠르더라~

✓ Identity vs. Projection Shortcuts

✓ A/B/C shortcut 비교

(A) : (차원 증가시) 0-padding 지름길 사용, (나머지) 항등 지름길 사용 / 모든 지름길 파라미터X

(B) : (차원 증가시) projection 지름길 사용, (나머지) 항등 지름길 사용

(C) : (모든 지름길) projection 지름길 사용

⇒ A
✓ A 0으로 채운 차원은 실제로 잔차학습이 일어나지 않기 때문

✓ B 다수(13개)의 projection 지름길로 인해 추가 파라미터가 도입되었기 때문

✓ 왜 projection을 사용할까?

입력과 출력 차원이 같은 경우 → Identity shortcut 이 효율적

입력과 출력 차원이 다를 경우

Zero padding → 채널 부족분을 0으로 채움(파라미터X)

Projection shortcut → 1x1 Conv로 변환해서 정확히 맞춤(파라미터, 연산량 O)

Zero padding은 단순히 빈 채널을 0으로 두기 때문에, 그 채널에서는 학습이 전혀 안 일어남

Projection은 1x1 Conv를 통해 실제로 의미있는 학습된 변환을 넣어줌

보통 차원이 바뀔 때 projection을 쓰는 게 더 안정적

⇒ Zero padding은 단순히 모양 맞추기인 반면, projection은 단순히 크기만 맞추는 것이 아닌 차원을 늘리거나 줄일때 중요한 특징을 보존/강조하는 방향으로 학습

✓ Deeper Bottleneck Architectures

→ 훈련시간의 부담을 줄이기 위하여 기본블록 → 병목 구조로 수정

✓ Identity shortcut vs. Projection shortcut

Identity shortcut: 입력 x를 그대로 더함 → 파라미터 X, 연산량 X

Projection shortcut: 입력을 1x1 conv 등으로 변환하여 더함 → 파라미터, 연산량 추가

입력과 출력의 shape(특히 채널 수)가 다를 때, 그냥 더하면 안 맞음

1x1 conv → 픽셀 위치(공간좌표)는 그대로, 채널 차원에서 선형결합하여 새로운 채널공간으로 매핑

입력을 원하는 차원으로 바꾼 뒤 더함

✓ 복습

1x1 conv: 채널 변환

3x3 conv: 채널 변환 + 공간

→ projection shortcut은 공간은 건드리지 말고 채널만 맞추자!

원래 shortcut은 “연결선”처럼 아무것도 안하는 통로인데, projection을 쓰면 그 통로 안에 1x1 conv라는 작은 layer 추가

즉, shortcut 경로도 단순한 선이 아니라 연산을 수행하는 새로운 레이어가 되는 것!

✓ Projection shortcut이 비효율적인 이유

Identity shortcut은 입력을 통과시키면 끝이지만,

Projection shortcut은 1x1conv를 고차원 feature에 적용해야함

블록의 입력/출력은 보통 채널수가 많은 고차원 feature map

shortcut 연결은 블록의 입력x와 출력y를 바로 더해야 함

고차원 feature에 1x1 conv를 적용하면 연산량이

이라서 파라미터와 연산비용이 큼 → bottleneck 구조는 중간(3x3 conv)에서 채널을 줄여 효율적으로 계산하려고 만든건데, → projection은 블록 양 끝 고차원 부분에 직접 1x1 conv를 때려야 하니까 연산량⬆️

✓ 50-layer ResNet

34층 네트워크의 2층 블록을 3층 블록으로 교체하여 50층 ResNet 구성

✓ 101-layer and 152-layer ResNets

더 많은 3층 블록을 사용하여 101층과 152층 ResNet 구성

깊이가 크게 증가했음에도 VGG-16/19보다 복잡도 낮음

깊이 늘릴수록 성능 향상(degradation problem X)

✓ Comparisons with State-of-the-art-Methods (최신기법과 비교)

152층 단일 모델 → 기존 앙상블보다 우수~

깊이가 다른 6개의 모델 앙상블(152층 2개 포함) → 테스트 셋 Top-5 오류율 3.57%

ILSVRC 2015 1위~

4.2 CIFAR-10 and Analysis

✓ CIFAR-10 실험 결과

목적: 최고 성능 기록 갱신 X, 극도로 깊은 네트워크 동작 특성 관찰

의도적으로 단순한 아키텍처 사용

구조

입력: 32 x 32 이미지, 첫 층 3x3 conv

그 다음에 3개의 stage (32→16→8)

Stage 1: 특성맵 크기 32x32, 2n개의 3x3 conv 층 - 필터 16개

Stage 2: 특성맵 크기 16x16, 2n개의 3x3 conv층 - 필터 32개

Stage 3: 특성맵 크기 8x8, 2n개의 3x3 conv층 - 필터 64

✓ 왜 2n개일까?

ResNet은 기본적으로 Residual Block 단위로 쌓임

3x3 conv → 3x3 conv (2개) 로 구성 → Residual Block

✓ 왜 3개의 stage?

CIFAR-10 입력은 32x32로 작음

→ 다운샘플링을 너무 많이 하면 feature map 1x1 수준까지 금방 줄어들어 학습이 힘들어짐

전체 층 수: 6n+2(첫 conv 1개+각 stage 6n개 + 마지막 FC 1개)

다운샘플링(8→4): stride=2 conv로 처리

마지막: global average pooling → 10-way FC → Softmax (10-way FC: 출력노드가 10개인 FC, 10개의 클래스 분류 문제에 사)

Identity shortcut만 사용 → plain과 resnet의 깊이/너비/파라미터 수 정확히 동일해서 “잔차 연결 유무”만의 효과를 공정하게 비교 가능

학습

weight decay 0.001, 모멘텀 0.9, BN사용, dropout 없음

미니배치 128, GPU

학습률 0.1 시작 → 32k/48k반복에서 10배 감소 → 64k 반복에서 종료

결과

plain net: 깊어질수록 훈련/테스트 에러⬆️ → 최적화 난이도 증가

ResNet: 깊어질수록 최적화 문제를 극복하고 정확도⬆️

110층 ResNet(n=18): 잘 수렴, SOTA 수준 달성

1202층 ResNet(n=200): 학습은 성공했으나 110층보단 별루

과적합

⇒ Plain 네트워크는 깊어질수록 오히려 성능 저하, ResNet은 깊어질수록 정확도 향상

✓ Analysis of Layer Responses (레이어 반응 분석)

ResNet이 일반 네트워크보다 전반적으로 더 작은 반응값을 가짐

잔차함수가 일반함수보다 보통 0에 가깝다는 가설 뒷받침

깊어질수록 반응이 더 작아짐

✓ Exploring Over 1000 layers ( 1000층 이상 네트워크 탐구)

1202층 네트워크 110층과 훈련 오류는 유사, 테스트 성능은 낮음

과적합때문

4.3 Object Detection on PASCAL and MS COCO

R-CNN 사용

깊은 잔차 네트워크를 기반으로 1위 차지 했다~

[논문리뷰] YOLOv11: An Overview of the Key Architectural Enhancements

Wed, 22 Jul 2026 12:19:50 GMT

Overview

논문명: YOLOv11: An Overview of the Key Architectural Enhancements 학회(출판연도): arXiv (2024) 연구분야: 딥러닝 기반 객체 탐지 및 컴퓨터 비전(Object Detection & Computer Vision)

Abstract(초록)

✓ 아키텍쳐적 분석

모델 구조를 세부적으로 뜯어 보겠다~

보통 논문에서 “아키텍처 분석”이라고 하면
→ 이 모델이 왜 빠른지? 어떤 모듈이 정확도를 높였는지? 기존 아키텍처와 비교해 어떤 구조적 차이가 있는지? 같은 걸 따져 보겠다

✓ 인스턴스 세그멘테이션

물체를 픽셀 단위로 잘라내면서 동시에 “각 객체(인스턴스)”를 구분

각 클래스 내에서도 개별 객체를 분리한다는 점에서 단순 semantic segmentation과 다름

✓ 포즈 추정

객체(특히 사람)의 관절/키포인트 위치를 추정해 “자세”를 파악

[방식]

① Top-down

객체(사람) 탐지 → 그 영역에서 관절 좌표 추정

② Bottom-up

이미지 전체에서 관절 후보 검출 → 이들을 연결하여 각 사람의 포즈 구성

✓ Oriented Object Detection(OBB, 방향성 객체 탐지)

객체의 기울어진 바운딩 박스 검출

기본 Object Detection은 축과 평행한 직사각형 박스만 가능 → 기울어진 물체 표현⬇️

중심 좌표(x,y), 폭, 높이, 회전각(세타) 예측 → 박스를 물체 방향에 맞게 회전

✓ YOLOv 11

C3k2 블록(Cross Stage Partial with kernel size 2), SPPF(Spatial Pyramid Pooling-Fast), C2PSA(Convolutional block with Parallel Spatial Attention) 구성요소의 도입

객체 탐지 + 인스턴스 세그멘테이션, 포즈 추정, Oriented Object Detection(OBB)

mAP & 계산 효율성 개선 + 파라미터 수와 정확도 사이의 trade-off

nano~~extra-large 모델 크기까지 제공 → 엣지 디바이스~~고성능 서버 환경까지 가

1. Introduction(서론)

✓ 배경

CV에서 중요한 건 “객체 탐지(object detection)”

이미지, 비디오 스트림 속 객체를 정확히 식별하고 위치를 찾는 것까지 포함

✓ YOLO

전체 이미지 한 번만 처리 → 객체와 객체의 위치 탐지

회귀문제로 정의 → 1 stage

CNN → 바운딩 박스 + 클래스 확률 동시 예측 : 훨씬 단순화된 파이프라인

✓ YOLOv 11

고도화된 특징 추출 기법 → 파라미터 수를 최소화하면서 정교한 세부 정보를 포착 가능해짐

2. Evolution of YOLO models

<초기 YOLO> single-stage 객체 탐지 방식 ~ NMS-free 학습방식까지

특징추출, 효율성, 멀티태스크 처리 능력 향상

3. What is YOLOv11?

✓ 차별화

→ ① 포즈 추정(posture estimation) ② 인스턴스 세그멘테이션(instance segmentation)

⇒ 모델의 적용 가능성 확장가능

✓ 설계

→ ① 성능 ② 실용성의 균형 에 중점 → 더 높은 정확성과 효율성 해결 목표

4. Architectural footprint of YOLOv11

✓ YOLO 프레임 워크

: BBox 회귀와 객체 분류 작업을 동시에 처리할 수 있는 통합 신경망 구조의 도입 → 객체 탐지의 혁신

① Single-stage(↔ 2단계 탐지 방식)

② 완전 미분 가능 설계 → end-to-end 학습 가능

✓ YOLO 아키텍처의 핵심, 3가지 구성요소

✓ 다중 스케일 특징맵

CNN은 레이어를 거치면서 “특징맵(feature map)”의 크기가 점점 작아짐(해상도⬇️)
→ 채널 수, 추상적 의미⬆️

얕은 레이어(앞단): 해상도 높음, 세부 디테일(모서리,질감,작은 물체) 잘 보존

깊은 레이어(뒷단): 해상도 낮음, 의미적 정보(ex. 이건 고양이) 잘 표현

→ 작은 물체는 앞단 feature에서 잘 보이지만, 뒤로 갈수록 사라짐

→ 큰 물체는 뒷단 feature에서 잘 잡히지만, 앞단에서 구분이 어려움

⇒ 여러 스케일의 feature map을 동시에 활용하는 것이 필요!

대표적인 3가지 구조

FPN(Feature Pyramid Network)

깊은 feature와 얕은 feature를 top-down + lateral 연결해서 결합

작은/중간/큰 객체를 모두 잡도록 설계

PANet

FPN에 bottom-up 경로 추가 → 정보 전달 더 강화

YOLO 계열

YOLOv3부터 3가지 크기의 feature map 사용(13x13, 26x26, 52x52)

작은 grid → 큰 객체 탐지/큰 grid → 작은 객체 탐지

✓ Grid와 Feature Map 관계

✓ 에서 grid = 최종 feature map의 ”cell”

⇒ grid가 작아질수록, 한 칸이 보는 영역(receptive field)가 훨씬 넓어짐

✓ 큰 객체: 넓은 영역을 커버해야하므로, 작은 grid가 유리

✓ 작은 객체: 세밀한 픽셀 차이까지 잡아야하므로, 큰 grid가 유리

① 백본(backbone): 주요 특징 추출기로 작동/CNN을 통해 원본 이미지를 다중 스케일 특징 맵으로 변환

② 넥(neck): 중간 처리 단계로 기능/특수화된 층을 사용해 서로 다른 스케일 특징을 통합 및 강화

✓ 서로 다른 스케일 특징을 통합 및 강화?

특수화된 층: FPN, PANet, C3k2, Attention 모듈

→ 이 층들은 서로 다른 깊이(스케일)에서 나온 특징들을 합치고(aggregation),
중요한 정보는 강조(attention/weighting)해서 모델이 더 잘 인식하도록 도움!

⇒ 작은 물체, 큰 물체 각각에 맞는 정보를 잘 쓰기 위해 다양한 깊이에서 뽑힌 특징들을 합쳐서(통합) 중요한 부분은 더 강조(강화)하는 층들을 사용한다

③ 헤드(head): 예측 매커니즘/정제된 특징맵을 바탕으로 객체 위치(localization)과 분류 결과 최종 출력

✓ YOLOv 11

→ YOLOv 8을 확장 및 개선

4.1 Backbone

→ 입력 이미지로부터 다중 스케일 특징 추출하는 역할 담당

합성곱 층과 특수 블록을 적층하여 다양한 해상도의 feature map 생성!

4.1.1 Convolutional Layers

초기 합성곱(Conv)층을 사용해 이미지를 다운샘플링하면서 특징 뽑음

해상도⬇️ 채널 수⬆️ → 점점 더 추상적인 특징맵 get!

✓ 주요 개선점

✓ C3k2 블록 도입

CSP 병목구조를 더 효율적으로 구현

하나의 큰 합성곱 대신 작은 합성곱 2개 사용

4.1.2 SPPF & C2PSA

✓ SPPF(Spatial Pyramid Pooling-Fast) → 멀리 가까이 동시에 보기

→ 다양한 크기의 객체를 잘 잡기 위해 여러 크기의 receptive field를 동시에 보는 블록

구조

보통 하나의 5x5 max pooling을 반복해서 9x9, 13x13 같은 큰 커널 효과 얻음

마지막에 concat해서 채널 방향 합침

→ ✓SPPF 이거 다시 보기,, 뭔 구조야

✓ C2PSA(Cross Stage Partial with Spatial Attention) → 중요한 부분에 초점

→ “공간적 주의집중(spatial attention)”을 도입해서, 이미지 안에서 어디가 중요한 영역인지 강조

→ CSP(Cross Stage Partial) 구조 위에 어텐션 모듈을 얹은 것

구조

C2f(CSP 변형 블록) + Spatial Attention 모듈

Spatial Attention은 보통 “어떤 위치가 중요할까?”를 학습해서 중요도 맵(heatmap)을 곱해줌

ex. 배경은 약하게, 객체는 강하게

SPPF 블록 → 다양한 크기의 객체에 잘 반응하도록 만드는 블록

YOLOv5, v8에도 있던 블록인데, v11에도 유지됨

SPPF 블록 뒤에 C2PSA 블록 추가

C2PSA = CSP구조(C2f와 비슷) + 공간적 어텐션(spatial attention)

단순 특징맵을 합치는 것이 아닌 어떤 위치/공간이 중요한 지 강조하는 기능 추가

⇒ 모델이 이미지 전체를 균등하게 보는 것이 아니라,

중요한 부분(=관심영역, object 후보 위치)에 집중 가능

⇒ 작은 물체나 복잡한 배경 속에 물체 탐지 정확도가 향상될 수도 있음

4.2 Neck

→ 여러 스케일의 특징을 결합하여 헤드(head)에 전달해 예측에 활용

업샘플링과 다른 레벨의 특징맵의 연결을 통해 다중 스케일 정보를 효과적으로 포착하도록!

4.2.1 C3k2 block

C2f → C3k2 블록으로 교체

업샘플링, 연결 후 속도와 성능 강화

✓ 다운 샘플링

→ feature map 크기를 줄이는 것

✓왜 할까?

계산량 줄이기: 이미지가 클수록 연산량이 커짐

추상적 특징 학습: 국소적인 정보(edge, pattern)를 점차 요약해서 의미적 정보로 변환

큰 수용영역 : 더 큰 맥락 파악

✓ 업 샘플링

→ feature map 크기를 늘리는 것

✓왜 할까?

해상도 복원: 세그멘테이션에서 원본 크기와 같은 출력 필요

작은 객체 탐지 강화: 해상도를 키워서 세밀한 디테일 다시 확보

feature fusion: 깊은 층(추상적 의미) + 얕은 층(디테일)을 합칠 때 크기를 맞춰야 함

✓ Backbone과 Neck 모두 C3k2? → YES!

Backbone

기존 YOLOv의 C2f 블록을 C3k2 블록으로 교체

초기 단계부터 <특징 추출>을 더 가볍고 효율적으로 수행

Neck

마찬가지로 기존 C2f → C3k2로 교체

멀티스케일 <특징을 합치는 과정>에서 연산량을 줄이고 속도를 높임

4.2.2 Attention Mechanism

C2PSA 모듈을 통한 공간적 어텐션 강화

→ 이미지 내의 중요 영역 집중할 수 있게 해서 작거나 부분적으로 가려진 객체 탐지 정확도 향상

4.3 Head

→ 객체 탐지의 분류에 대한 최종 예측

Neck에서 전달된 특징맵을 처리해, 최종적으로 이미지 내 객체의 바운딩 박스가 클래스 레이블 출력

4.3.1 C3k2 block

헤드 내 여러 경로에 배치되어 다양한 깊이의 다중 스케일 특징을 처리하는 역할(효율적)

파라미터 값에 따라 유연하게 동작

C3k = False: C3k2모듈이 C2f 블록과 유사하게 동작(기본적인 bottleneck 구조)

C3k = True: 병목 구조가 C3 모듈로 대체되어, 더 깊고 복잡한 특징 추출 가능

✓ C3k=True/False와 add=True/False 비교

C3k=True/False

C3k2 블록의 구조를 어떤 식으로 쓸 지 선택(C2f형 vs C3형)

add=True/False

skip connection에서 덧셈을 할 지, concat을 할 지 연결 방식 제어

⇒ C3k는 블록 내부 구조 선택

⇒ add는 연결 방식 선택

✓ C3k2 블록의 주요 특징

Faster processing

2개의 작은 합성곱을 사용하여 큰 합성곱 하나보다 계산 부담⬇️

특징 추출 속도 빨라짐

Parameter efficiency

C3k2는 CSP 병목 구조의 더 간결한 버전

학습 가능한 파라미터 수 측면에서 아키텍처를 더 효율적으로

커널 크기 사용자가 정의 가능 → 유연성⬆️

더 세밀한 특징 추출하는데 유

4.3.2 CBS blocks

C3k2 블록 이후 여러 개의 CBS 레이어 포함

특징추출, 탐지과정 ← 기초적인 구성요소로 작동

정제된 특징맵 이후 레이어로 전달되어 바운딩 박스와 분류 예측에 활용될 수 있도록 보장

✓ 특징맵 정제 방법 (Conv → BN → SiLU)

① 관련 특징 추출

② BN을 통해 데이터 흐름을 안정화 및 정규화

③ SiLU(Sigmoid Linear Unit) 활성화 함수를 사용해 비선형성 도입 → 모델 성능 향상 기

4.3.3 Final Convolutional Layers and Detect Layer

각 detection branch는 Conv2D 레이어 집합으로 끝
→ 이 레이어들이 특징맵을 줄여서 BBox 좌표와 클래스 예측에 필요한 출력 수로 변환

✓ Detect layer의 예측

이미지 내 객체 위치를 찾기 위한 BBox 좌표

객체가 존재할 가능성을 나타내는 객체성 점수

탐지된 객체의 종류를 판별하기 위한 클래스 점수

5. Key Computer Vision Tasks Supported by YOLOv11

→ YOLOv 11 다양한 CV 작업 지원

[논문리뷰] You Only Look Once: Unified, Real-Time Object Detection

Wed, 22 Jul 2026 12:09:11 GMT

Overview

논문명: You Only Look Once: Unified, Real-Time Object Detection 학회(출판연도): CVPR (2016) 연구분야: 딥러닝 기반 객체 탐지 및 컴퓨터 비전

Abstract(초록)

✓ 단일 네트워크

입력(이미지)부터 출력(탐지 결과)까지 하나의 신경망이 책임지는 구조

ex. 객체 후보 영역→특징추출→분류를 따로따로 하지 않고
하나의 네트워크에서 한 번에 처리!

✓ 손실함수(Loss Function)

모델이 예측한 값과 실제 정답 사이의 차이를 수치로 나타낸 함수

값이 작을수록 → 예측이 정답에 가깝다.

값이 클수록 → 예측이 많이 틀렸다.

✓ 엔드 투 엔드(end-to-end) 학습

입력에서 출력까지 전체 과정을 “하나의 목적(손실함수)”으로 묶어 직접 최적화

<전통적>: Region Proposal 네트워크 따로, CNN 분류기 따로
→ 각각 부분 최적화

: 탐지 성능(mAP 등)을 반영한 하나의 손실함수로 좌표+ 클래스 예측을 동시에 학습

→ 네트워크 전체가 한 번에 업데이트! (구간 별 개선X, 최종 기록 하나만 보고 훈련)

✓ 왜 목적이 손실함수?

머신러닝 모델은 학습 과정에서 “손실 함수의 값을 최소화”하는
방향으로 파라미터(가중치)를 업데이트

→ 학습 과정 전체의 최종목표가 손실함수를 줄이는 것이기 때문

✓ YOLO에서의 손실함수 예시

바운딩 박스 위치 오차(좌표 손실)

박스 크기 오차(width, height)

객체 존재 여부(objectness)

클래스 분류 오차

✓ 엔드 투 엔드 방식의 장점

전체 최적화, 단순한 파이프라인, 빠른 학습 및 추론, 에러 누적 방지, 확장성과 일반화

→ 처음부터 끝까지 한 팀이 전체를 보고 최적화하기 때문에 최종 결과 품질이 좋아짐

✓ 각각의 다른 팀들이 따로 최적화를 하면 최종적인 결과가 이상해질 수도 있음

✓ YOLO(You Only Look Once)

→ “이미지를 단 한 번만 보고, 동시에 탐지와 분류를 끝낸다”

<전통적> R-CNN 계열: 이미지를 여러 번 본다

→ 먼저 영역 후보(region proposal)를 찾고 그 영역을 다시 CNN으로 분류

: 이미지를 딱 한 번만 본다(look once)

→ 한 번의 네트워크 연산으로 객체의 위치 + 클래스를 동시에 예측

✓ 이미지를 한 번만 전체적으로 훑어서,

그리드 단위로 객체의 위치(바운딩 박스)와 종류(클래스)를 “동시에 예측”하는

실시간 객체 탐지 알고리즘

기존 방식과의 차이점

<기존>

주로 이미지 분류 모델을 변형해 객체 탐지에 사용 → 속도가 느리고 과정이 복잡

객체 탐지를 하나의 회귀(regression) 문제로 정의

→ 바운딩 박스 위치 + 클래스 확률을 동시에 예측

이미지를 입력받으면 “단일 신경망”이 바로 전체 탐지 수행

여러 단계X “한 번에(You Only Look Once)” 결과를 내는 구조

→ 엔드 투 엔드 최적화
(성능 기준으로 전체 네트워크를 직접 조정 가능)

YOLO의 특징

기본 YOLO: 초당 45프레임(실시간 영상 처리 가능)

Fast YOLO: 초당 155프레임(매우 빠른 속도)

mAP(mean Average Precision): 기존 실시간 탐지기보다 약 2배 높음

✓ 장점

빠름 → 실시간 응용에 적합

배경에서의 잘못된 탐지를 줄임

배경(물체가 아닌 부분)을 물체라고 착각하는 일이 적다.

학습한 특징이 일반적이므로, 다른 도메인(ex. 예술작품)에도 잘 적용 가능!

✓ 단점

다른 최신 객체 시스템과 비교했을 때 위치(localization) 정확도가 떨어짐
(박스가 덜 정확할 수도)

⇒ YOLO는 “진짜 물체인지 아닌지(배경인지)”를 잘 구별하지만,
물체의 위치를 아주 정교하게 잘라내는 능력은 부족하다~

1. Introduction(서론)

✓ 왜 객체 탐지가 중요한가?

<사람>: 한 번 흘끗 보기만 해도
①이미지 안에 무엇이 있는지 ②어디에 있는지 ③ 어떻게 상호작용하는지 즉시 파악

→ 이러한 능력을 컴퓨터가 갖추면, 자율주행, 시각 보조 등 다양하게 활용 가능해짐

✓ (P) 이전 방식의 한계 → (S) YOLO의 등장

이전 방식과 YOLO

DPM R-CNN YOLO

핵심 아이디어 부분(Parts) 조합
+ HOG 영역제안
+ CNN 단일 네트워크 한번에
예측

특징 추출 수작업 특징(HOG) CNN CNN

탐지방식 다중 스케일
슬라이딩 윈도우 Selective Search로 후보 생성 → 후보마다 CNN 이미지 그리드별로
동시 예측

학습 구조 HOG + SVM CNN 사전 학습→ SVM → BBox 회귀 엔드 투 엔드 단일 손실로 공동 학

속도 느림(실시간 불가) 매우느림 실시간

(P)

DPM: 슬라이딩 윈도우 방식 ← 이미지 전체 일정 간격 위치에서 분류기 실행

R-CNN:

영역 제안(region proposal) → 이미지 내에 잠재적 바운딩 박스 생성
→ 이 박스 각각에 분류기 적용 → 후처리(박스보정, 중복제거, 재 점수화)

(S): YOLO

하나의 회귀(regression) 문제로 재정의

→ 이미지 픽셀에서 바로 바운딩 박스 좌표와 클래스 확률을 예측하는 방식

⇒ 한 번만 보더라도 “어떤” 객체가 “어디에”있는지 예측 가능

하나의 합성곱 신경망이 여러개의 바운딩 박스와 각 박스에 대한 클래스 확률 동시 예측

전체 이미지에 대해 학습 + 탐지 성능 직접 최적화

✓ 매우 빠름

탐지를 회귀문제로 정의하여 복잡한 파이프라인 필요없음

실시간 스트리밍 충분(기본: 45FPS, 빠른 버전: 150+FPS, 지연 25ms미만)

✓ 이미지 전체를 전역적으로 고려

객체 외형뿐 아니라 “맥락 정보”까지 포함 가능

↔ Fast R-CNN: 전체 맥락 못 봄

⇒ YOLO가 배경 오탐수 절반 이하

✓ 객체에 대한 일반화 가능한 표현 학습

자연 이미지로 학습 후, 예술작품으로 테스트했을 때, 성능하락 덜함

→ 새로운 도메인이나 예상치 못한 입력에도 견고

✓ 정확도는 아쉽긴 하다

작은 객체의 경우 정확한 위치를 지정하는데에 어려움

2. Unified Detection(통합된 탐지)

: 제안 → 분류 → 후처리 를 따로 돌리지 않고 한 개의 CNN이 한 번에 모든 박스와 클래스

동시 예측

⇒ 이미지 전체 맥락을 본 상태로 판단(엔드투엔드 학습, 실시간 처리 속도, 평균 정밀도)

✓ 조건부 확률

→ 어떤 사건이 이미 일어났다는 조건 하에 다른 사건이 일어난 확률

P(A | B): 사건 B가 일어났을 때 사건 A가 일어난 확률

P(A교B): 사건 A와 B가 동시에 일어날 확률

P(B): 사건 B가 일어날 확률

✓ 예측값에서 왜 Bx5 일까?

출력 구조 : S x S x (B x 5 + C)

2.1 Network Design(네트워크 설계)

→ CNN으로 구현 후, PASCAL VOC 객체 탐지 데이터셋으로 성능 평가

→ 네트워크 초기 합성곱 계층은 이미지의 특징을 추출하고,
이후, 완전연결층(FC) 계층들이 츨력 확률과 좌표 예측

구글넷에서 영감

24개의 합성곱 계층 + 2개의 완전 연결 계층

인셉션 대신 1x1 축소 계층 + 3x3 합성곱 계층 배치하는 구조

Fast YOLO버전 학습(초고속 객체 탐지 목적)

합성곱계층(24→9), 필터 수 줄임

✓ 왜 굳이 1x1로 줄일까? 그냥 피쳐맵의 개수를 좀 줄이면 되는 거 아닌가?

그냥 채널 수를 줄이게 되면(필터수의 적게 잡거나, 일부 채널 버림)

→ 어떤 조합을 남길 지가 모델의 학습을 통해 정해지는 것이 아닌 설계자가 미리 결정하는 꼴이 됨

1x1 Conv는 각 위치에서 채널을 선형결합하여
“학습적으로”
“어떤 정보만 압축할지”를 선택

→ 손실을 최소화하며 줄일 수 있음

연산량 K^2 x C_in x C_out

그냥 C_out을 줄이는 건 여전히 3x3xC_in을 모두 계산해야해서 비싸다

1x1로 먼저 C_in → C_mid로 압축 필요

2.2 Training(학습)

✓ 사전학습

분류용 ImageNet(1000 class)로 앞쪽 20개 Conv 먼저 학습

그 위에 Average Pooling + FC 붙여서 약 1주 학습

→ ImageNet 2012 검증셋 Top-5 정확도 88% 달성

프레임워크: Darknet 사용

✓ 프레임워크

→ 딥러닝 모델을 구현, 학습, 추론할 수 있는 툴킷

✓ Darknet

→ YOLO 개발자가 직접 만든 초경량,초고속 딥러닝 프레임워크(C/CUDA 기반)

✓ 객체 탐지용으로 변환

그 뒤에 (Conv 4개 + FC 2개) 추가 + 가중치 무작위로 초기화

탐지 ← 섬세한 시각 정보 필요
⇒ 입력 해상도: 224 x 224 → 448x448

✓ 최종 계층

→ 클래스 확률과 바운딩 박스 좌표 모두 예측

바운딩 박스의 너비, 높이 → 이미지의 너비, 높이로 정규화

바운딩박스의 x,y좌표는 해당 박스가 속한 격자 셀 위치를 기준으로 offset 형태로 예측

✓ 오프셋(offset) 형태

(x,y) 좌표를 셀 전체 이미지 좌표로 예측하지 않고,

셀 좌상단 기준 (0,0), 셀 크기를 1로 정규화한 상대좌표로 예측

⇒ 셀 안에서 상대적 위치를 [0,1] 범위 값으로 나타냄

✓ 왜 offset 형태로 할까?

안정적인 학습 가능

이미지 절대 좌표(0~448)를 직접 예측하면 값의 스케일이 크고 학습이 불안정

셀 단위 오프셋(0~1)은 범위가 작아서 학습이 쉬움

셀 단위 책임 부여

어떤 셀이 객체를 예측해야하는지 명확해짐

이 셀 안에서 객체 중심이 여기쯤 있다라는 방식으로 직관적으로 표현 가능

네트워크 중간/은닉 계층 → Leaky ReLU

일반 ReLU는 x<0일 때 죽어버리는 문제

Leaky ReLU는 음수여도 작은 기울기 0.1을 남겨서 뉴런이 완전히 죽지 않게!

네트워크 출력 계층 → Linear activation fuction(선형활성화함수)

✓ 선형활성화함수

→ 입력값을 가공하지 않고 그대로 출력하는 함수

✓ YOLO에서 선형활성화함수를 사용하는 이유?

→ 출력층에서는 경우에 따라 “비선형성이 필요 없는” 상황 존재

ex. 회귀: 예측값이 제한없이 연속적인 실수여야함

YOLO의 최종 출력은 바운딩 박스 좌표(x,y,w,h)나 confidence 같은 실수값

값을 제한하면 불필요하게 꼬일 수 있기 때문에 선형활성화 사용!

✓ 출력

→ 제곱 오차 합(Sum-Squared Error, SSE)을 최소화 하도록 최적화

BUT (P): 최적화는 쉬우나, 평균정밀도(mAP) 최대화와 딱 들어맞진 않음

① 위치(localization) 오류와 분류(classification) 오류를 동일하게 가중

현실 영향도와 불일치

mAP에선 어떤 장면에는 위치가 더 중요하고, 어떤 장면에서는 분류가 더 중요할 수 있는데 SSE는 구분하지 않고 같은 무게로 더해버림

② 빈 셀이 훨씬 많음(대부분의 격자 셀에 객체 X)

(P)

그 셀들의 confidence를 0으로 끌어내려는 항이 손실을 지배해서 정작 객체가 있는 셀의 신호가 묻힐 수 있음(초기 발산 위험)

(S)

바운딩박스좌표 예측 손실 가중치 ⬆️, 객체가 없는 박스의 신뢰도 예측손실 가중치 ⬇️

파라미터 (5와 0.5는 경험적으로 튜닝한 값)

→ coord =5 (좌표 오차_바운딩 박스 위치/크기에 곱하는 가중치)

: 바운딩 박스 좌표 손실을 얼마나 크게 볼 (정확한 위치 학습) … ①

→ noobj =0.5 (객체가 없는 셀의 confidence 오차에 곱하는 가중치)

: 배경셀의 confidence 손실 약화(배경에 끌려가지 않게) … ②

③ 큰 박스 vs 작은박스

(P)

같은 픽셀 편차라 해도 작은 박스에서 더 치명적인데 SSE는 같게 취급

부분적 (S)

너비와 높이 직접 예측이 아니라 제곱근을 예측하도록

✓ 왜 제곱근 변환이 해결책?

큰 박스: 실제 200px → 예측 210px(오차10) → 상대적으로 덜 중요

작은 박스: 실제 20px → 예측 30px(오차10) → 엄청 중요해야함

but, (S)제곱 오차는 두 경우 모두 10만큼 틀림으로 취급

(S) 제곱근으로 변환하면

큰 박스: 제곱근을 취하면 값이 압축 → 같은 차이라도 오차 작아짐

작은 박스: 제곱근을 취하면 값 변화율 커짐 → 작은 차이도 오차 크게 반영

⇒ 모델이 작은 객체 위치/크기 예측에 더 신경쓰도록 유

✓ 각 셀마다 여러 개의 바운딩 박스 예측 but 학습할 땐 한 객체당 한 박스만 책임지게끔!

→ 각 바운딩 박스 예측기는 특정 크기, 종횡비, 특정 클래스에 특화되어 재현율 향상에 기여

✓ 왜 셀마다 B개의 박스를 예측시키면서 학습할 땐 한 객체당 한 박스만 책임지게 할까?

경쟁 중복 방지

전문화(특정크기/종횡비/클래스)

손실설계와 정합

중복탐지, 후처리 부담 완화

✓ 다중 손실 함수(Multi-part Loss Function) 최적화

→ 학습 과정에서 다중 손실 함수 최적화

✓ 주의

분류 오차(Classification error)는 해당 셀에 객체가 존재할 때만 계산

바운딩 박스 좌표 오차는 해당 예측기가 책임 지는 경우에만 계산
→ 해당 셀 내 예측기 중 IoU가 가장 높은 경우

과적합 방지

드롭아웃(Dropout): 훈련중 랜덤하게 뉴런 일부를 꺼버리는 방식

첫 번째 완전연결 계층 뒤에 드롭아웃(비율0.5)적용 → 계층간 공적응 방지

데이터 증강(Data augmentation): 인위적으로 바꿔서 더 일반적인 패턴 배우게 함

이미지 크기 최대 ±20% 범위에서 임의 스케일 조정 및 평행 이동

HSV 색공간에서 노출과 채도를 ±1.5배 범위에서 랜덤 조정

(H: Hue, S: Saturation, V: Value - 색, 채도, 명도)

2.3 Inference(추론)

→ 학습과 마찬가지로 테스트 이미지에 대해 탐지 결과 예측하는 것도 한 번의 네트워크 평가만!

격자(grid)기반 설계: 바운딩 박스 예측에서 공간적 다양성을 보장

각 객체당 하나의 박스만 예측

중복탐지 → NMS로 해결

✓ 공간적 (위치) 다양성을 보장한다

= 예측되는 바운딩 박스들이 이미지 여러 위치에 고르게 분포되도록 구조적으로 유도

✓ 공간적 다양성을 보장하면 좋은 점?

여러 물체가 서로 떨어져 있을 때: 각 물체의 중심이 다른 셀에 들어가면 각 셀이 자기 물체 담당 → 놓칠 확률(재현율)↓

큰 물체/경계 근처 물체: 인접한 여러 셀에서 각각 “괜찮은” 박스가 나올 수 있어 후보 다양성↑

편향 완화: 데이터가 한 가운데에 많은 중앙편향이 있어도 구조적으로 주변부까지 커

✓ One Network Evaluation vs. End-to-End

One Network Evaluation End-to-End

의미 추론 시 CNN 1회 실행 학습 시 전체 네트워크를 한꺼번에 최적화

방식 Inference 방식 Training 방식

YOLO 장점 실시간 처리 가능 파이프라인 분리없이 직접학습

✓ One Network Evaluation

보통 R-CNN계열은 복잡한 파이프 라인 가짐

→ CNN 여러번 실행

YOLO는 이미지를 넣으면 CNN 한 번만 forward 시켜서
→ BBox + class 확률 동시 예측

⇒ 추론 과정에서 CNN 한 번만 돌리면 된다

✓ End-to-End

훈련 과정의 개념

R-CNN: CNN 따로 학습 + SVM 따로 학습 + BBox regression 따로 학습

YOLO: 입력이미지→출력(박스+클래스 확률)까지 하나의 네트워크로 구성

2.4 Limitations of YOLO(YOLO의 한계)

① 강한 공간적 제약

→ 각 격자 셀은 최대 2개의 바운딩 박스만 예측 + 하나의 클래스만 할당 가능
(모델 단순화, 각 predictor가 다른 형태에 특화되도록 유도/셀당 객체 중심 하나라는 가정)

⇒ 서로 가까이 있는 다수의 객체 예측하는 능력 제한(ex. 무리지어가는 새)

② 새롭거나 특이한 종횡비나 배치를 가진 객체에 대해 일반화X

← 데이터로부터 바운딩박스를 예측하는 법을 학습하기 때문

③ 바운딩 박스 예측에 상대적으로 거친 특징 사용됨

← 네트워크 아키텍쳐에 여러 단계의 다운샘플링이 포함되어 있기 때문

④ 작은 BBox와 큰 BBox 오차 동일하게 취급

→ 작은 BBox에서 IoU 큰 영향

⇒ 잘못된 위치 예측

✓ 공간적 다양성 vs 강한 공간적 제약?

공간적 다양성 보장

그리드로 나눠 셀마다 박스를 예측

→ 이미지 전역의 각 셀이 “내 구역”을 책임짐

→ 큰 물체는 여러 셀이 잡고 NMS로 최종 하나만 남김

강한 공간적 제약

각 셀의 예측 능력에 한계 두기

⇒ 그리드 설계가 후보를 전역에 뿌려주는 다양성을 주는 동시에
셀 단위 예측 한계라는 공간적 제약도 함께 갖는다.

3. Comparison to Other Detection Systems

✓ 객체 탐지 방식

전통 파이프 라인 vs. YOLO의 일체형(통합)모델

<전통> 특징 추출→후보/슬라이딩윈도우→분류/회귀→후처리 단계별로 나뉜 파이프라인

한 번의 CNN으로 박스+클래스를 동시에 예측 → 속도, 단순성 확 살아남

① DPM(Deformable Parts Models) - 슬라이딩 윈도우

DPM: 특징 추출, 영역 분류, 고득점 영역의 바운딩 박스 예측 등 서로 분리된 단계로 구성

↔ YOLO: 이 모든 단계를 하나의 CNN으로 대체

⇒ 특징추출, 바운딩박스 예측, NMS, 맥락 분석 동시에 수행

탐지 작업에 맞게 학습된 특징 사용 (not 고정된 특징)

② R-CNN - 영역제안

R-CNN: Selective Search로 잠재적 바운딩 박스 생성 → 합성곱 신경망으로 특징 추출 →
SVM으로 박스 점수 계산 → 선형 모델로 바운딩 박스 조정 → NMS로 중복 제거

YOLO: 각 격자셀에 잠재적 바운딩 박스 제안 → 합성곱 특징을 이용해 점수
(but, 격자 셀 안에 공간적 제약을 두어 동일 객체에 대한 중복 탐지를 줄임) → 개별 구성요소를 하나의 모델로 통합하여 공동 최적화

③ Other Fast Detectors(Fast R-CNN, Faster R-CNN)

Fast R-CNN과 Faster R-CNN은 R-CNN 속도를 높이기 위해

① 연산 공유 + ② Selective Search 대신 신경망 기반 Region Proposal Network 사용

→ R-CNN 대비 속도, 정확도가 좋긴 하지만, “실시간 성능” 부족

YOLO: 처음부터 파이프라인 없애고 속도를 염두에 두고 설계

④ Single-class Detectors(단일 클래스 탐지기)

얼굴이나 사람처럼 단일 클래스만 탐지하는 경우, 딱 최적화된 탐지기 가능

YOLO는 다양한 객체를 동시에 탐지할 수 있는 범용탐지기

⑤ Deep MultiBox

Selective Search 대신 합성곱 신경망으로 ROI(관심영역) 예측

신뢰도 예측 대신 단일 클래스 예측을 수행하면 단일 객체 탐지 가능

BUT, 범용 객체 탐지 불가능 + 이미지 패치 분류가 필요한 대규모 탐지 파이프 라인에 불과

YOLO, Deep MultiBox 모두 합성곱 네트워크로 바운딩박스 예측
YOLO: 완전한 탐지 시스템

⑥ OverFeat

합성곱 신경망으로 위치 수행 → 슬라이딩 윈도우로 탐지 수행 but, 분리된 시스템

탐지성능X, 지정성능에 최적화 + 국소 정보만 보고 판단(문맥고려X)

⑦ MultiGrasp

YOLO의 격자 기반 바운딩 박스 회귀 접근에 영감을 줌

단 하나의 그립 가능한 영역만 예측

객체의 크기, 위치, 경계, 클래스 예측하지 않아도 ok

YOLO: 여러 객체와 여러 클래스를 동시에, 바운딩 박스와 클래스 확률까지 예측해야함

4. Experiments

PASCAL VOC 2007에서 비교

Fast R-CNN과 YOLO 의 오류 분석

→ 서로 다른 오류 특성을 기반으로 YOLO를 이용해 Fast R-CNN 탐지 결과를 재점수
→ 배경에 대한 오탐을 줄이고, 성능 향상 가능

4.1 Comparison to Other Real-Time Systems

✓ Trade-off

DPM: 빠르긴 한데, 정확도가 너무 안 나옴

R-CNN: 정확도는 높은데, 느려

YOLO: 처음으로 “실시간(30FPS 이상) + CNN 기반 정확도“ 동시 달성!

4.2 VOC 2007 Error Analysis

4.3 Fast R-CNN과 YOLO의 결합

YOLO 배경에 대한 잘못된 객체 탐지 훨씬 적게 발생

→ YOLO를 이용해 Fast R-CNN의 배경 탐지를 제거하면 성능이 크게 향상

⇒ Fast R-CNN이 예측한 각 바운딩 박스에 대해 YOLO가 유사한 박스를 예측했는지 확인
if 有) YOLO가 예측한 확률과 두 박스의 중첩도(IoU)에 기반하여 해당 예측 점수를 조정

⇒ 단순한 모델 앙상블 효과X
YOLO와 Fast R-CNN이 서로 다른 유형의 오류를 범하기 때문!

4.4 VOC 2012 Results

YOLO는 작은 객체 탐지에서 경쟁 모델에 비해 어려움을 겪음

bottle, sheep, tv/monitor 같은 카테고리: 성능 낮음

cat, train 같은 카테고리: 더 높은 성능

Fast R-CNN + YOLO 결합 모델: 상위권 성능!

4.5 Generalizability: Person Detection in Artwork

R-CNN

VOC 2007에서는 높은 AP(Average Precision_평균정밀도)

예술작품에 적용하면 성능이 크게 하락

→ R-CNN의 바운딩 박스 제안이 자연이미지에 최적화되어 있으며,
분류 단계는 작은 영역만 보고 좋은 제안에 의존하기 때문

DPM

예술작품에 적용했을 때 AP 유지력이 좋음

강력한 공간모델로 객체의 형태와 배치를 잘 표현하기 때문에 성능 유지 가능

but, 기본 AP가 YOLO나 R-CNN보다 낮음

YOLO

VOC 2007에서 좋은 AP, 예술작품에 적용했을 때 성능하락폭이 더 적음

DPM과 마찬가지로 객체의 크기,형태뿐 아니라 객체 간 관계와 객체가 주로 나타나는 위치까지 모델링

예술작품과 자연 이미지는 픽셀 수준에서 매우 다르지만,
객체의 크기와 형태가 유사하기 때문에 여전히 양질의 BBox와 탐지 생성 가능

5. Real-Time Detection In The Wild

→ YOLO를 웹캠에 연결해서 실시간 성능이 유지되는지 검증함

6. Conclusion

YOLO는 분류기기반 접근방식과 달리,

①탐지성능과 ②직접적으로 연관된 손실함수 로 학습, ③모델 전체를 공동(joint)학습

새로운 도메인에 대해서도 일반화 성능이 뛰어나서 다양한 응용이 가능하다.

[논문리뷰] ShuffleNet - An Extremely Efficient Convolutional Neural Network for Mobile

Wed, 22 Jul 2026 11:55:15 GMT

Overview

논문명: ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices 학회(출판연도): CVPR (2018) 연구분야: 딥러닝 기반 컴퓨터 비전 백본 네트워크

Abstract(초록)

✓ ShuffleNet

10~150 MFLOPs 수준처럼 연산 자원이 매우 제한적인 모바일 기기에 특화 설계

Pointwise group convolution

Channel shuffle

⇒ 정확도를 높이고 연산량 줄임

✓ 왜 10~150MFLOPs 수준이 연산이 제한적?

최신 대형 CNN 모델(VGG-16, ResNet-50 등)은 수십~수백억 FLOPs를 소모함

VGG-16: 약 15,500 MFOPs(15.3GFLOPs)

ResNet-50: 약 4 GFLOPs

반면, 10~150 MFLOPs는 이런 모델의 1/100 ~ 1/1000 수준에 불과

⇒ 이렇게 적은 연산량은 스마트폰, 드론, IoT 기기처럼 저전력&저성능 CPU나 GPU의 실시간 처리를 할 수 있도록 맞춘 설계

1. Introduction(서론)

<기존> - 더 깊고 더 큰 합성곱 신경망(CNN)을 구축하자!

가장 정확도가 높은 CNN: 수백 개의 층 + 수 천개의 채널 → 수십억 FLOPs 수준의 연산 필요

✓ 층(Layer)

신경망을 구성하는 연산 단위.

입력 → 합성곱 → 활성화 → 풀링 같은 단계 각각이 하나의 층이 될 수 있음

깊이(depth): 층의 개수가 많아질수록 네트워크 깊이가 깊어짐

ex. ResNet-50 → 약 50개의 주요 층

✓ 채널(Channel)

한 층에서 처리하는 특징맵(feature map)의 개수

ex. RGB이미지 → 3개의 채널(R,G,B)

합성곱 층에서는 채널이 필터의 개수와 동일

→ 네트워크가 깊어질수록 채널 수가 늘어나는 경향이 있어서 더 많은 패턴을 병렬 추출 가능하다.

✓ 필터, 특징맵, 채널간의 관계

: 필터(Filter, Kernel) → 특징맵(Feature Map) → 채널(Channel)

필터(Filter, Kernel)

입력 데이터에서 특정 패턴을 감지하는 작은 가중치 행렬

→ 합성곱 연산을 통해 경계, 질감, 모양 등의 특징 추출

하나의 필터 → 입력과 합성곱 → 하나의 특징맵

특징맵(Feature Map)

필터가 입력에 대해 합성곱 연산을 한 결과

해당 필터가 감지한 패턴의 공간적 분포 나타냄

CNN 한 층의 출력은 여러 개의 특징맵으로 구성됨

채널(Channel)

한 층의 출력에서 특징맵들의 집합을 의미하는 “깊이” 방향의 개수

⇒ 필터: 패턴을 찾는 도구

⇒ 특징맵: 찾은 패턴의 지도

⇒ 채널: 이런 지도들의 묶음

- 모바일같은 저전력 환경(10~150 MFLOPs)에서 최고 성능을 달성해보자!

<기존>

1) 가지치기(pruning) 2) 압축(compression) 3) 저비트 표현(low-bit representation) 집중

✓ 가지치기(pruning)

네트워크에서 중요도가 낮은 연결(가중치)나 필터를 제거하여 모델을 가볍게!

⇒ 파라미터 수와 연산량(FLOPs) 감소로 추론 속도 향상 및 메모리 절약 가능

✓ 압축(compression)

학습된 모델을 저장&배포하기 쉽게 크기 줄이기

⇒ 저장 공간 절약, 메모리 대역폭 사용량 감소

✓ 저비트 표현(low-bit representation)

가중치나 활성화값을 32비트(부동소수점) 대신 16비트, 8비트, 심하면 1~4비트로 표현

⇒ 모델 크기 축소 + 연산 속도 향상

✓ 왜 기존의 CNN 연구가 여기에 초점을 맞췄을까?

P: CNN은 정확도를 높이려고 점점 층 수 증가 + 채널 수 증가

→ 수십억 FLOPs, 수백MB 모델 크기
→ 스마트폰, 드론, 로봇 같은 저성능&저전력 기기에서 실행 불가

S: 이미 잘 학습된 기존 큰 모델을 쓰되, “효율적으로 줄이자”

→ 가지치기, 압축, 저비트 표현 기법 같은 모델 경량화 기법이 연구 초점!

연산범위에 맞춰 효율적인 기본 아키텍처 자체를 새로 설계하자!

P: Xception, ResNeXt 같은 최신 구조도 작은 네트워크 안에서는 효율이 떨어짐

→ 밀집 1x1 합성곱(dense 1x1 convolutions) 때문(비용이 큼)

S

포인트와이즈 그룹 합성곱(pointwise group convolution)

1x1 합성곱을 그룹으로 나눠 계산 → 연산량 감소

✓ 포인트와이드 그룹 합성곱

일반 1x1 합성곱: 모든 입력 채널과 모든 출력 채널 연결

그룹 합성곱: 채널을 g개의 그룹으로 나눠서, 각 그룹 안에서만 연산

→ 연산량의 약 g배 절감

⇒ P: 그룹끼리 정보가 안 섞임 → 표현력 저하

채널 셔플(channel shuffle)

그룹 합성곱 때문에 줄어드는 채널 간 정보 흐름 문제 해결

채널 순서를 섞어서 그룹 간 정보가 섞이게 끔

⇒ 같은 연산 예산 내에서 더 많은 채널 → 더 많은 정보 인코딩 가능

⇒ MobileNet보다 40MFLOPs 수준에서 Top-1 오류율 7.8% 낮음

⇒ 실제 ARM칩(하드웨어)에서 AlexNet보다 13배 빠름, 정확도는 비슷

✓ 채널 셔플(channel shuffle)

그룹 합성곱 후, 채널을 섞어서 재배치

다음 그룹 합성곱에서 다른 그룹의 채널을 입력으로 받게 함

⇒ 정보가 그룹 간 흐르게 되어 성능 회복!

✓ 1x1 합성곱 연산을 그룹화 → 연산 절감

채널 셔플 → 정보 흐름 유지

이렇게 절감한 연산량으로 채널 수를 늘려서 작은 모델에서 성능을 키울 수 있는듯

✓ ShuffleNet처럼 연산예산이 제한된 경우, 채널수 늘리는 것이 성능 극대화?

채널: 이미지 특징을 담은 필터의 개수

즉, 채널이 많을 수록

더 다양한 패턴, 형태, 색상 정보 병렬 추출 가능

표현력이 증가 됨

BUT, 무작정 늘릴 수는 없음 → 채널 늘리면 FLOPs도 급증!(속도저하)

⇒ ShuffleNet의 경우

절감한 연산량을 채널수 늘리는데 재투자해서

작은 네트워크에서 부족한 표현력을 보완하여 성능을 키우겠다는 뜻!

2. Related Work(관련연구)

효율적인 모델 설계(Efficient Model Designs)

<최근> 고품질의 심층신경망 임베디드 장치에서 실행하려는 수요⬆️ → 효율적 모델 설계 필요성⬆️

GoogLeNet: 단순 계층 쌓기 대신 복잡도를 낮추며 깊이 증가 Inception모듈

SqueezeNet: 정확도 유지 + 파라미터와 연산량 절감

ResNet: 효율적인 bottelneck구조로 성능 향상

Bottleneck: 중간에 채널수를 줄였다가 다시 늘리는 구조

SENet: 연산량 소폭 증가로 성능 향

NASNet(모바일): 강화학습+모델 검색으로 구조 탐색, ShuffleNet과 비슷한 성능

Group Convolution(그룹 합성곱)

<도입> AlexNet - 2개의 GPU로 모델을 분산하기 위해 사용

<효율성 입증> ResNet

✓ Depthwise Separable Convolution ← Inception 시리즈의 분리 합성곱 아이디어를 일반화

<최근> MobileNet이 Depthwise Separable Convolution 활용하여 경량 모델 중 최고 성능

⇒ ① 그룹합성곱 과 ② Depthwsie Separable Convolution을 새로운 형태로 일반화!

채널 셔플 연산(Channel Shuffle Operation)

<배경> “채널 셔플”이라는 개념이 이전에는 거의 다뤄지지 않았다.

<기존 사례>

cuda-convnet: 랜덤 채널 셔플 + 그룹 합성곱 형태

목적: 구조 효율화X 랜덤 희소 합성곱 실험용O

연구[41]: 2단계 합성곱에서 “채널 셔플” 사용

but, 채널 셔플 자체 효과나 초소형 모델 설계에 미치는 영향은 분석 안 함

⇒ ShuffleNet은 채널 셔플을 의도적으로 설계의 핵심요소로 도입하여,

그룹 합성곱의 단점(그룹 간 정보 흐름 제한)을 해결하고

초소형&저연산 네트워크 환경에서도 성능 향상에 기여 하겠다!

모델 가속(Model Acceleration)

목표: 사전 학습된 모델의 정확도를 유지하면서 추론속도를 높이자!

가지치기(Pruning):네트워크의 연결 [6, 7]이나 채널 [38]을 제거하여 불필요한 연산을 줄임

중요하지 않은 연결(가중치)나 채널 잘라내서 연산량과 메모리 줄임

양자화(Quantization): [31, 27, 39, 45, 44] 저비트 표현으로 계산량 절감

숫자 정밀도를 줄여서 계산을 가볍게 하는 방법

분해(Factorization): [22, 16, 18, 37] 계산을 더 단순하게 분해하여 속도 향상

큰 연산을 작은 연산 여러 개로 쪼개서 효율을 높이자

합성곱 최적화: FFT(푸리에변환) 기반 [25, 35] 또는 다른 알고리즘 [2]으로 연산 속도 개선

합성곱 계산을 더 빠르게 하는 알고리즘 적용(구조X 속도만 개선)

지식 증류(Distillation)

큰 모델이 배운 지식을 작은 모델로 전달하는 기법

⇒ 신경망 모델을 가볍고 빠르게 만드는 대표적 기법

3. Approach

3.1 Channel Shuffle for Group convolutions

<현대>동일한 구조의 빌딩 블록을 반복해서 쌓는 형태

Xception & ResNeXt: Depthwise Separable Convolution 또는 Group Convolution 도입

→ 표현력과 계산 비용 사이에서 우수한 균형 달성

BUT!

P: 1x1 합성곱에서의 연산 비용 충분히 고려X

[ResNeXt] 3x3 계층에서만 그룹 합성곱 적용

→ Residual Unit에서 Pointwise Convolution(1x1 Conv)이 전체 연산량의 93.4% 차지

[소형 네트워크] 연산량을 맞추기 위해 채널 수 제한 → Pointwise Conv이 병목되어 정확도 하락

S: 1x1 계층에도 채널 희소 연결(channel sparse connection) → “그룹 합성곱” 적용하자!

→ 각 합성곱 연산이 자신과 대응되는 입력 채널 그룹에서만 작동하므로 연산 비용⬇️

P: 합성곱을 여러층 쌓게 되면, 그룹 간 정보 흐름 차단

→ 표현력 약화

S: 채널 간 흐름 복원 → 다음 그룹 합성곱 층이 이전 층의 다른 그룹으로부터 입력 받을 수 있도록!

3.2 ShuffleNet Unit

✓ (c)에서 왜 다운 샘플링?

[CNN] 보통 Stage가 바뀔 때 공간 크기를 절반으로 줄이고 채널 수를 늘리는 패턴

계산량 절감: 해상도를 줄이면 이후 레이어에서 연산량이 줄어듦

수용영역 확대: 한 픽셀이 더 많은 영역의 정보를 포괄

추상화 수준 상승: 점점 더 고수준 특징 학습 가능

✓ (c)에서 왜 Add 대신 Concat?(합집합 - 크기는 같은 채널수가 다를때 사용)

stride =2 를 쓰면

출력 채널수를 늘리면서 해상도를 줄임

⇒ 채널 수를 늘리면서 연결하기 위함

⇒ <기존> stride=2 블록에서는 채널을 늘리려면 1x1 Conv 같은 연산 해야함(FLOPs 증가)

⇒ stride=2블록은 Concat만 사용해서 채널 확장 → 연산량 거의 없이 채널 증가 가능

<챗지-ShuffleNet 실 사용 순서 예시>

네트워크 설계에서 stage 첫 블록 (c) → 나머지는 (b) / (a)는 비교 실험용으로만

✓ 연산 효율성

→ 뫄뫄한 수식으로 인해 같은 연산 예산 하에서 ShuffleNet은 더 넓은 특징맵 사용 가능

⇒ 작은 네트워크는 정보를 처리할 채널 수가 부족하므로 채널을 넓히는 건 성능향상에 있어 중요!

✓ Depthwise Conv의 사용전략

Shuffle Net 에서는 “병목 특징 맵(Bottleneck featuremap)”에만 적용

Depthwise Conv는 이론적으로는 매우 낮은 복잡도를 갖지만,
실제 저전력 모바일 기기에서는 효율적으로 구현하기 어렵기 때문

⇒ 계산 대비 메모리 접근 비율이 나쁨

→ 불필요한 오버헤드를 최소화 하기 위함

3.3 Network Architecture

→ 이렇게 채널 수를 2배 늘리고

ShuffleNet Unit의 bottleneck 채널수는 출력 채널수의 1/4로 설정

✓ 왜 1/4 비율일까?

✓ Bottleneck 구조: 줄이기 → 처리 → 늘리기

처음 1x1 Conv에서 채널 수를 줄이면 중간 연산(특히, 3x3 Conv 또는 Depthwise Conv)에 필요한 연산량이 비례해서 줄어듦

마지막 1x1 Conv에서 다시 채널수 복원

너무 많이 줄이면→ 연산량이 줄지만 정보손실도 커짐(정확도 하락)

너무 적게 줄이면→ 정보는 남지만, 연산량 절감 효과 떨어짐

⇒ 그냥 경험적으로~ 좋다

✓ g(그룹 수)와 채널 수의 관계

ShuffleNet 유닛에서 그룹수는 Pointwise Convolution의 연결 희소성을 결정

전체 연산량(약 140MFLOPs)가 대체로 일정하게 유지하도록 출력 채널 수 조정

⇒ 그룹 수가 커질수록 같은 연산 내에서 “출력 채널 수(=합성곱필터수)가 많아진다.

더 많은 정보를 인코딩할 수 있게 하지만, 동시에 각 개별 합성곱 필터가 참조할 수 있는 입력 채널수가 제한되므로 성능저하로 이어질 수도 있음.

그냥 쉽게 생각하면,

그룹 합성곱이라는게,

입력 채널을 g개로 나누고 각 그룹별로 독립적으로 합성곱

g가 늘어나면 날수록 각 그룹의 입력 채널수는 당연히 줄겠지

→ 한 개의 필터가 처리하는 연산량이 줄어서 같은 연산량 예산에서 더 많은 출력 채널

을 배치할 수 있었잖어~

⇒ 이렇게 g가 커질수록 한 개의 합성곱 필터가 볼 수 있는 입력 채널수가 제한되기 때문에

입력 특징 정보의 다양성이 줄어들 수 밖에.

⇒ g가 커져도 성능을 유지하려면 그룹 간 정보가 섞여야 함

⇒ Channel Shuffle은
이전 레이어 출력 채널을 재배치해서 다음 그룹 합성곱이 다른 그룹의 정보를 참조하게끔!

✓ 복잡도 조절법

→ 채널 수에 따라 스케일 팩터(scale factor) 적용

ShuffleNet sx : ShuffleNet 1x의 필터 수를 s배로 늘린 모델 의미

→ 전체 연산 복잡도: s^2

✓ 모델이 작을수록 그룹수를 늘리는게 효과적

가로(같은 모델에서 g) → 그룹수를 늘리면 같은 연산량 내에서 채널수를 늘릴 수 있어서 성능이 좋아지기도 함

세로(같은g에서 모델크기) → 채널수와 연산량이 줄어들면 정확도 떨어짐

✓ 너무 큰 g는 오히려 성능 하락 ex. ShuffleNet 0.5x

✓ 아주 작은 모델의 경우에는 그룹 수가 커질수록 성능이 꾸준히 향상

4. Experiments

[평가방법]

ImageNet 2012 분류 데이터셋에서 제안한 모델 평가

[예외]

Weight Decay 값을 4 x 10^(-5) 로 설정

학습률 정책 사용

데이터 전처리에서 “스케일 증강” 약하게 적용

⇒ 작은 네트워크의 경우 “과소적합”에 더 취약하기 때문에 예외를 둠

⇒ 채널 셔플을 적용하면 모든 경우 오류율 감소 + 그룹수(g)가 클수록 효과가 더 큼!

4.1 Ablation Study

Ablation Study?

→ AI시스템에서 특정부분을 제거함으로써 그 부분이 전체적인 시스템 성능에 기여하는 바를 연구하는 것

즉, 제안한 요소가 모델에 어떤 영향이 미치는지 확인하고 싶을때,

이 요소를 포함한 모델 vs. 요소를 포함하지 않은 모델을 비교하는 것

4.1.1&2 Pointwise Group Convolutions & channel Shuffle 유무

g=1인 모델보다 g>1인 모델 성능이 좋더라~

작은 모델일수록 그룹 합성곱의 이점을 더 많이 보더라~

넓은 특징맵은 더 많은 정보를 인코딩할 수 있어 성능 향상에 기여

작은 네트워크는 특징맵의 폭이 얇기 때문에 넓어지면 이점을 더 크게 누림!

아주 작은 모델의 경우에는 넓은 특징맵이 주는 이점이 더 크더라~

채널 셔플을 적용 한 경우, 분류 성능이 좋더라~

그룹수가 큰 경우 더 큰 폭으로 개선됨 → 그룹 간 정보 교환이 중요하다!

4.2 Comparison with Other Structure Units

같은 연산량에서 더 많은 채널 수 확보 → 정확도 향상

VGG-like, ResNet, Xception-like, ResNeXt 등 다양한 CNN 블록구조와 동일한 연산량 조건으로 성능 비교

MobileNet 대비 우수하더라~

Inception 계열보다도 효율적이더라~

4.3 Comparison with MobileNets and Other Frameworks

모든 연산 복잡도 내에서 SuffleNet이 더 낮은 분류 오류율을 냄

ShuffleNet은 원래 150 MFLOPs 미만 소형 모델을 목표로 설계됐지만, 500MFLOPs이상에서도 더 좋더라

ShuffleNet은 50개의 계층(layers)로 구성된 반면, MobileNet은 28개의 계층만 가지고 있음

→ ShuffleNet의 stage2~4에서 블록 절반을 없앤 26계층 버전(SuffleNet 0.5 shallow (g=3)) 실험

: 그래도 MobileNet보다 성능이 좋더라

⇒ ShuffleNet의 성능이 “깊이”보다 “효율적인 구조 설계”에 기인한다는 것을 시사

→ ShuffleNet이 비슷한 정확도를 가지면서도 효율적이다

✓ 아키텍쳐 확장성

→ ShuffleNet은 단순한 구조 덕분에, 최신 기법을 쉽게 적용 가능하다

4.4 Generalization Ability (일반화)

전이학습평가

전이학습: 이미 대량의 데이터로 학습된 모델의 지식을 다른 관련 작업에 적용하는 과정

MS COCO 객체 탐지 과제에서 Faster R-CNN 프레임워크로 테스트

ShuffleNet 2x

MobileNet보다 해상도 좋다.

ShuffleNet 1x

600해상도에서 MobileNet과 비슷한 성능 but 복잡도는 4배 낮다.

⇒ ShuffleNet이 단순한 구조를 가졌기 때문이다.

4.5 Actual Speedup Evaluation (속도평가)

ShuffleNet은 그룹수(g)가 큰 경우 성능이 더 좋긴 하지만, 구현에서의 효율성이 떨어짐

→ g=3이 good!

[논문리뷰] A ConvNet for the 2020s

Wed, 22 Jul 2026 11:21:34 GMT

Overview

논문명: A ConvNet for the 2020s 학회(출판연도): CVPR(2022) 연구분야: 컴퓨터 비전 백본 네트워크

Abstract

✓ 의미론적 분할

이미지를 픽셀 단위로 분류하는 작업

사진 속 픽셀에 대해 “이 픽셀은 사람”, “이 픽셀은 도로” 와 같이 클래스 레이블 부여

→ 원본 이미지와 크기가 같은 “클래스맵(class map)” 만들어지고, 각 픽셀은 그 픽셀의 의미적 범주를 지님

⇒ 장면의 이해(자율주행, 의료 영상 분석, 위성 이미지 분석 등)에 많이 쓰임

✓ 범용 비전 백본(General-purpose Vision Backbone)

백본(backbone)

이미지에서 특징(feature)을 추출하는 기본 골격 네트워크

백본: 이미지 → 특성(feature) 추출을 담당하는 신경망 구조

특성맵: 백본이 이미지를 통과시켜 얻어낸 결과물

ex. ResNet, Swin-T

범용 백본

특정 작업에만 특화되지 않고, 분류·탐지·분할 등 다양한 비전 작업에 공통적으로 사용할 수 있는 구조

⇒ 한 번 학습된 백본을 가져다가(전이 학습) 다른 작업용 네트워크 입력으로 연결할 수 있도록

⇒ 현재는 Transformer가 우수하다는 인식이 강하지만, 순수 ConvNet 역시 뒤지지 않는 성능을 낼 수 있다!

: 본 논문의 저자는 ConvNeXt를 제안하며, 정확도와 확장성에서 Transformer와 견줄 뿐 아니라, 단순성과 효율성까지 유지함을 보여주려 한다.

1. Introduction

<2010s> CNN이 CV에서 왜 지배적이었는가? (AlexNet → VGG → ResNet)

→ 슬라이딩 윈도우(sliding window), 귀납적 편향(inductive bias), 이동 등변성(translation equivariance)

✓ 슬라이딩 윈도우(sliding window)

작은 크기의 필터(커널)를 입력 데이터(이미지)에 겹치면서 조금씩 이동시키며 연산하는 방식

CNN에서는 이 슬라이딩 과정에서 합성곱 연산이 이루어져 featuremap 만듦

→ 이미지 전체를 한 번에 보는 것이 아니라 “지역적 특징(local feature)”을 잡을 수 있음

→ 필터 가중치를 공유하므로 파라미터 수가 줄어듦

✓ 왜 파라미터 수가 줄어들까?

CNN의 합성곱층에서는

작은 필터(커널) 하나를 학습하고, 이걸 이미지의 모든 위치에 “공유(weight sharing)”해서 적용

ex. 3 x 3 크기, 채널 3개짜리 필터 → 가중치 개수는 3x3x3=27개 뿐

이 필터를 왼쪽 위, 오른쪽 아래 등 모든 위치에 같은 값으로 사용

⇒ 전체 픽셀 위치마다 다른 가중치(필터의 숫자)를 둘 필요가 없음(파라미터수 감소)

✓ 이렇게 해도 괜찮은가?

→ 이미지 특징은 위치에 상관없이 동일한 패턴으로 나타난다는 가정 때문

✓ 귀납적 편향(inductive bias)

모델이 학습할 때 데이터의 일반적인 규칙을 추론하기 위해 가지는 사전 가정

CNN의 경우

1️⃣ 지역성(locality): 중요한 특징은 국소 영역에서 나타난다

2️⃣ 가중치 공유(weight sharing): 같은 특징은 이미지 어디서는 동일하게 나타날 수 있다

3️⃣ 이동 등변성(Translation Equivariance): 물체가 위치를 옮겨도 그 특징은 그대로

⇒ 이러한 편향 덕분에 CNN은 이미지 인식에서 데이터가 적어도 잘 학습하고 연산량도 효율적

<2020s> ViT의 등장

ViT의 주요 목표: 스케일링

→ 작은 데이터셋에서는 CNN이 더 우수하지만,

모델과 데이터셋이 충분히 크다면, ResNet보다도 뛰어난 성능을 낼 수 있음을 보여줌

✓ ViT의 주요 목표가 스케일링인 이유

CNN은 모델 크기를 무작정 키우면 성능이 일정 수준에서 멈추는 경향이 있음

ViT는 데이터와 파라미터를 계속 키워도 성능이 거의 선형적으로 증가

⇒ 큰 데이터+큰 모델 = 성능↑ 이 뚜렷하게 보이는 구조라, 대규모 학습에서 특히 강력!

한계 → CV에는 이미지 분류만 있는 것이 아니다!

** 귀납적 편향(inductive bias)가 없는 기본형 ViT**

ViT는 CNN의 귀납적 편향(지역성, 가중치 공유, 이동 등변성)없이 완전히 데이터 기반으로 학습

→ 데이터가 적으면 성능이 떨어지고, 과적합이 쉬움

** 전역 self-attention의 이차적 복잡도**

ViT의 핵심 연산인 self-attention은 모든 패치가 모든 다른 패치와 상호작용

패치수 = N 이면, 연산량은 N^2

→ 이미지가 커질수록 패치수 급증 → 계산량 폭발

[정리]

ViT는 데이터와 모델이 클수록 CNN을 능가할 수 있다.

하지만 CNN처럼 범용 백본(backbone)으로 쓰이기엔 연산량과 구조상의 한계 존재

특히, 고해상도 입력에서 self-attention의 연산량이 너무 커짐

** <2020s> 계층형 Transformer, Swin-T의 등장**

→ ViT의 한계(self-attenton, 귀납적편향X)를 해결하고자 등장

⇒ ConvNet 차용

지역 윈도우 내에서의 attention

슬라이딩 윈도우 전략

[ImageNet-1K 분류 정확도와 연산량 비교]

✓ ImageNet-1K

1000개의 카테고리(classs)로 분류된 데이터셋

총 이미지 수: 120만 장

✓ ImageNet-22K

약 22,000개의 카테고리로 분류된 훨씬 더 큰 버전

총 이미지 수: 1,400만 장(훨씬 더 세분화된 분류; 개 → 품종 별 100종 이상)

✓ 파인 튜닝(fine-tuning)

이미 학습된 모델로 가져와서, 내가 원하는 데이터나 목적에 맞게 “마무리 학습”하는 과정

가로축

왼: ImageNet-1K로만 학습한 모델

오: ImageNet-22K로 사전학습 후, ImageNet-1K로 파인튜닝한 모델

세로축

ImageNet-1K에서 Top-1 Accuracy(%)

버블크기

해당 모델의 연산량

색상

주황색: ViT, Swin-T

보라색: ConvNet 계열

** 기존 ResNet-50(큰 원)**

→ 정확도는 낮지만, 효율성은 나쁘지 않다

** Swin-T**

→ Transformer 기반으로 정확도 향상

→ 다양한 CV 작업에 활용 가능

** ConvNeXt**

→ ResNet-50을 현대식으로 개량하여 Swin-T

보다 높은 정확도 달성

→ FLOPs 수준은 동일하지만, 구조가 단순하고

효율적

→ ConvNet도 여전히 최신 Transformer와 경쟁

가능하다는 것을 입증

✓ 많은 데이터로 학습하면 좋은 거 아닌가? 왜 22K에서 끝내지 않고 1K로 파인튜닝할까?

데이터가 많으면 일반적인 표현력은 좋아진다. 하지만, 모델의 “최종목적”이 중요한 것!

보통, 새로운 모델 성능을 비교할 때 “ImageNet-1K에서의 정확도” 사용

→ 목표가 1K 기준 평가라면 22K로 학습한 그대로 쓰면 라벨 체계가 맞지 않기 때문에, 라벨 매핑과 모델 조정이 필요하다

ex. 22K에서는 “비글 vs 포메” 라면, 1K에서는 “개” 로 분류해야 함

2. Modernizing a ConvNet: a Roadmap

→ ResNet을 출발점으로 Transformer와 유사한 형태의 ConvNet으로 발전시켜보자!

Macro Design (큰 틀 설계)

ResNeXt 스타일 도입

Inverted Bottleneck 구조

대형 커널 사용

레이어 단위 세부 설계(Micro Design)

2.1 Training Techniques(학습방법)

→ 모델의 구조뿐만 아니라 학습방식도 성능에 큰 영향!

[1단계] ViT의 학습 절차를 적용하여 ResNet-50/200 학습 시킴

→ 둘 다 쓰는 이유는 50은 소형 비교군, 200은 대형 비교군

✓ ResNet-50 → 50개의 층(layer)

대략 50층의 연산 경로를 갖도록 설계

블록 구성(3,4,6,3)

stage1: 3개 블록

stage2: 4개 블록

stage3: 6개 블록

stage4: 3개 블록

✓ stage

CNN이나 ViT에서 해상도(특징맵 크기)가 일정하게 유지되는 구간

1x1, 3x3 같은 Conv 층을 합산해서 개수 계산

✓ 3x3 Conv → 공간적 특징 추출

3x3 필터는 주변 픽셀과의 관계(엣지, 패턴)을 잘 잡아냄

커널이 작아서 연산 효율이 좋고, 여러 층을 쌓으면 큰 수용영역 확보 가능

✓ 왜 커널이 작으면 연산 효율이 좋을까?

연산량 ∝ 커널 크기 ^2 × 출력 채널 수 × 출력 feature map 크기

→ 커널 크기를 키우면 연산량이 제곱으로 늘어남

→ 작은 커널이 계산량이 훨씬 적음

✓ 왜 여러 층을 쌓으면 큰 수용영역을 확보할 수 있을까?

수용영역 = 한 출력 픽셀이 참조하는 입력 이미지 영역 크기

한 층의 3×3 커널 수용영역 = 3×3

두 층을 연달아 쌓으면?

첫 번째 층이 만든 3×3 특징맵 위에서 또 3×3을 봄

입력 이미지 기준으로 보면 → 5×5 영역을 커버

세 층 쌓으면 → 7×7 영역

→ 층이 늘어날수록 수용영역이 커짐

⇒ 작은 커널: 계산량이 적고, 더 많은 층을 쌓아 복잡한 패턴 학습 가능

⇒ 여러 층: 수용영역이 커져서 더 넓은 문맥 정보 반영 가능

✓ 1x1 Conv → 채널(feature map) 조정

채널수 축소/확장에 사용(차원 변화)

공간의 크기는 유지하면서 “채널 간의 결합(정보 혼합)”을 수행

연산량이 매우 적어서 네트워크 폭을 유연하게 조절 가능

⇒ 1x1 Conv는 한 픽셀 위치에서 모든 채널 값을 가중합에 새로운 채널 만들어냄

✓ 정보혼합

서로 다른 특징을 합치고 조합하는 과정

→ (수평선+수직선+ 색상패턴,,,)

<참고> https://ffighting.net/deep-learning-basic/%EB%94%A5%EB%9F%AC%EB%8B%9D-%ED%95%B5%EC%8B%AC-%EA%B0%9C%EB%85%90/1x1-convolution/

✓ ResNet-200 → 200개의 층(layer)

훨씬 깊은 버전, 더 많은 파라미터와 연산량

블록 구성(3,24,36,3)

stage3의 블록 수가 매우 많아짐

→ 더 깊어서 성능은 높지만, 연산량(FLOPs)과 메모리 사용량도 큼

[2단계] ResNet 기본 학습 epoch수 90 → 300으로 학습 기간 연장

⇒ 강력한 데이터 증강 및 정규화 조합 + 대규모 모델을 사용하기 때문

⇒ 짧게 돌리면 잠재력을 다 못 끌어내고, 길게 돌려도 과적합 위험이 낮으므로 늘림

옵티마이저 : AdamW

데이터 증강 : Mixup, Cutmix, RandAugment, Random Erasing

정규화 : Stochastic Depth, Label Smoothing

✓ epoch

전체 학습 데이터셋을 한 번 모두 사용해 학습하는 주기

✓ 옵티마이저 → 가중치를 어떻게 조정할지 결정하는 “규칙” 또는 “알고리즘

AdamW = Adam + Weight Decay(가중치 감쇠; 과적합 방지)

✓ 데이터 증강(입력 쪽 변화)

훈련 데이터를 인위적으로 변형 및 추가해서 데이터의 양과 다양성을 늘리는 기법

✓ 정규화(모델 쪽 변화)

모델이 과적합하지 않도록 학습과정이나 구조를 제약하는 기법

2.2 Macro Design(매크로 설계)

→ Swin-T의 매크로 네트워크 설계 분석

ㄴ ⭐ 1️⃣ 스테이지 연산 비율 + 2️⃣ 스템셀(stem cell) 구조

✓ 매크로 설계란? → 모델을 만들 때, 큰 틀을 먼저 잡는 것을 의미

모델 전반의 골격과 계층 구조를 설계하는 단계

ex. stage가 몇 개일지, 각 stage의 해상도와 채널 수, 어디서 다운 샘플링할 지 등

↔ 마이크로 설계(Micro)

✓ 스템셀(stem cell) 구조

이미지를 처음 받아서 특징 추출이 잘 되게 전처리하는 첫 레이어 집합

스테이지 연산 비율

ResNet: [Stage별 블록 개수] 3:4:6:3

→ 초반 Stage(고해상도)에도 블록이 많아 연산량이 큼

ConvNeXt: [Stage별 블록 개수] 1:1:3:1(→Swin Transformer 스타일)

→ 초반 Stage는 얕게, 중간 Stage(특히 Stage3)에 연산 집중

⇒ 연산의 효율성을 높이고, 중요한 중·후반부 특징 학습 강화!

스템셀 구조

ResNet Stem: 7x7 Conv(Stride=2) + 3x3 MaxPool(stride=2)

→ 2번의 다운샘플링으로 해상도 1/4로 축소

✓ Vision Transformer(ViT)의 패치화(Patchify)

입력 이미지를 일정 크기 “패치(조각)”으로 잘라서 Transformer에 넣음

→ 이때, 패치 생성은 비중첩(non-overlapping) 합성곱으로 구현 가능

ex. 16x16 커널, stride=16 → 이미지가 바로 16x16 크기 토큰들로 변환

✓ Swin Transformer의 Patchify

ViT처럼 단일 패치 크기가 16이 아니라 작은 패치(4x4)로 시작

→ Swin은 다단계 구조라서 초반에 해상도를 너무 줄이면 정보 손실이 커서, 처음에는 조금만

줄임

→ Stage를 거치며 점진적으로 다운 샘플링

ConvNeXt Stem(Patchify Stem): 4x4 Conv(stride=4) 한 번으로도 해상도 1/4 축소

→ Swin Transformer의 patch embedding과 유사

⇒ 초기 연산량을 감소하여, 이후 stage에 더 많은 연산 자원 배분 가능

⇒ 처음부터, 4x4 비중첩 패치화

⇒ ResNet에서도 복잡한 Stem 대신에 ViT, Swin 스타일의 Patchify Stem을 써도 성능 유지

[정리]

ConvNeXt 는
1️⃣ Stage 연산 비율을 Swin 스타일로 조정하고 2️⃣ Stem을 Patchify 방식으로 단순화하여
CNN을 현대화!

⇒ ConvNeXt는 ResNet의 초반 구조(Stem)을 없애고, Swin처럼 4x4 (stride=4) patchify레이어로 시작해도 성능이 거의 떨어지지 않으니, 구조를 단순화하고 효율을 높였다는 뜻!

2.3 ResNeXt-fiy

→ Depthwise Convolution(채널별 공간연산) 도입함으로써 FLOPs 절감

** ResNeXt 아이디어 → 그룹 수를 늘리고, 채널 수(너비)를 확장하라**

Grouped Convolution 사용

합성곱 필터를 여러 그룹으로 나눠서 각 그룹별로 합성곱을 수행 → 연산량(FLOPs) 감소

ex. 입력 채널이 64개, 그룹 수가 4개이면 그룹당 16 채널만 처리

‼️FLOPs가 줄어든 만큼 채널수를 늘려 모델의 표현력 손실 보완

Depthwise Convolution → Grouped Conv의 극단적인 경우

그룹 수 = 입력 채널 수

→ 채널마다 자기 채널만 따로 합성곱

공간적인 특징만 추출하고, 채널 간 결합은 없음 + 채널 결합은 1x1 Conv로 처리

[Grouped Conv vs. Depthwise Conv]

Grouped Conv Depthwise Conv

그룹수 지정 가능 (1~채널수) 채널 수와 동일

채널 처리 방식 그룹 내 채널끼리만 처리 각 채널 독립 처리

채널 결합 가능(같은 그룹 내) 없음 → 1x1 Conv 필요

연산량 절감 O(1/그룹수) O(1/채널수) → 가장 많이 절감

** ConvNeXt의 선택**

ResNeXt → 그룹 수를 여러 개로 나누는 Grouped Conv

ConvNeXt → Depthwise Conv로 변경
: ViT의 MSA처럼 공간 정보 처리와 채널 정보 처리 분리

2.4 Inverted Bottleneck(역병목구조)

** Inverted Bottleneck이란?**

Bottleneck (ResNet/ResNeXt 스타일)

채널 축소 → 연산 → 확장

연산량 절감 목적

Inverted Bottleneck(MobileNetV2·Transformer 스타일)

채널 먼저 확장 → 연산 → 다시 축소

Transformer에서 MLP 은닉 차원이 입력의 4배

ConvNeXt에서도 확장 비율 4를 채택

[ConvNeXt 설계]

: (a) → (b) → (c) 변화가 모두 순차적으로 적용됨

(a) ResNeXt Block → (b) Inverted Bottleneck

채널 확장 → 공간 연산 → 채널 축소로 변경하여, 더 많은 채널 상태에서 공간 특징 학습

(b) Inverted Bottleneck → (c) Depthwise Conv 위치 이동

블록 시작 시 공간 특징부터 추출 → 이후 채널 확장/축소로 더 복합적인 특징 학습

** FLOPs와 성능 변화**

Depthwise Conv 연산량은 증가 → 채널 확장 때문

BUT! 다운샘플링 residual 블록의 shortcut 1x1 Conv 연산량이 크게 감소

[정리]

ConvNeXt는 MobileNet V2:Transformer에서 차용한 Inverted Bottleneck을 활용하여

표현력 강화: 더 많은 채널에서 공간 정보 처리

효율성 유지: FLOPs 감소

공간 채널 분리 처리 + inverted bottleneck 구조 공유

2.5 Large Kernel Sizes (큰 커널 크기)

** ConvNet에서도 커널의 크기를 키우면 성능이 좋아질까?**

ConvNeXt는 “Transfromer가 전역 시야를 갖는 이유”를 ConvNet 방식으로 흉내낸 것

블록 앞쪽의 대형 커널의 Depthwise Conv를 넣어, 적은 채널로 넓은 영역의 공간 정보를 보고,
이후에
1x1 Conv에서 채널을 넓혀 세부처리를 하는데,,

⇒ 7x7에서 성능이 가장 잘 나오더라~

2.6 Micro Design (마이크로 설계)

→ ConvNeXt가 블록 내부 세부 설계(layer 수준)를 Transformer 스타일에 맞게 수정하면서 성능 높이자!

** ReLU → GELU (성능변화X)**

ReLU: 단순하고 빠르지만 값이 0 이하일 때 완전히 끊김

GELU: 부드러운 곡선형 활성화

⇒ 부드러운 비선형성을 가져오지만 성능 차이는 미미

** 활성화 함수 개수 줄이기 (+0.7%)**

ResNet: 거의 모든 Conv layer 뒤에 활성화 함수 붙임

Transformer: MLP 블록에 활성화 함수 1개만 사용

ConvNeXt

Residual block에서 1x1 Conv 2개 사이에 GELU 1개만 남김 → 나머지 GELU 제거

** 정규화 계층 줄이기 (+0.1%)**

Transformer: 정규화 계층 수 적음

ConvNeXt

블록 내의 BN(Batch Norm) 2개 제거 → 1x1 Conv 앞에 BN 1개만 유지

** BN(Batch Norm) → LN(Layer Norm) (+0.1%)**

BN: ConvNet에서 표준, BUT 배치 크기에 민감하고 복잡

LN: Transformer에서 주로 사용, 배치 크기 무관, 더 단순

⇒ 배치 크기에 덜 민감하고 Transformer와 일관성 있는 구조로 만들기 위함

✔️ 기존의 ResNet에서 BN → LN 직접 교체 시 성능 저하

✔️ ConvNeXt는 앞선 구조 변경과 학습 기법 덕분에 LN 사용 가능!

BN (Batch Normalization) LN (Layer Normalization

정규화 기준 배치 내 채널 별 평균/분산 샘플 내 전체 피처 평균/분

배치 크기 영향 있음(작아지면 성능 저하) 없음

주 사용 분야 CNN(이미지), 대규모 배치 학습 RNN, Transformer, NLP

계산 위치 채널별 전체 피처별

✓ 샘플

데이터 1개 의미

✓ 배치

여러 샘플을 묶어서 한 번에 학습시키는 단위

배치크기: 한번에 처리하는 샘플 개수

비유하자면, BN은 반 전체 평균 / LN은 각 학생 자기 점수 평균

** 다운샘플링 구조 변경 (+0.5%)**

ResNet: 스테이지 시작 블록에서 stride =2 Conv로 다운샘플링

Swin Transformer: 스테이지 사이에 별도의 다운샘플링 레이어 존재

ConvNeXt

스테이지 사이에 2x2 Conv(stride=2)로 다운 샘플링 분리

해상도 변경 구간마다 LN 추가 (안정화 목적)

[정리]

큰 구조가 아닌
블록 내부의 연산 순서 및 종류를 Transformer와 비슷하게 바꿔서 성능을 올림

[논문리뷰] LETS-C : Leveraging Text Embedding for Time Series Classification

Sat, 28 Feb 2026 06:35:19 GMT

Overview

논문명: LETS-C : Leveraging Text Embedding for Time Series Classification 학회(출판연도): ACL(2025) 연구분야: 딥러닝 기반 시계열 표현 학습

Abstract

최근 사전학습된 LLM을 시계열 분류 과제에 맞게 파인튜닝하는 방식이 SOTA 달성

하지만, LLM기반 모델들의 학습 파라미터가 수백만 개에 달하는 대규모 모델이라는 단점 존재 ⇒ LLM을 파인튜닝하기 보단, ① 텍스트 임베딩 모델을 통해서 시계열 데이터를 임베딩 한 후 ② CNN과 다층 퍼셉트론(MLP)로 구성된 간단한 분류 헤드와 결합하자!

[결과]

기존 SOTA 모델 능가

평균적으로 SOTA대비 14.5%정도 학습 가능한 파라미터 사용

1. Introduction

시계열 분류

금융, 헬스케어, 활동 인식 등 다양한 분야에서 폭넓게 활용 → 효율적이면서도 정확한 분류 방법에 대한 필요성이 높아지고 있음

TSC의 NLP와 LLM의 적용

프롬프팅 기법

사전 학습 LLM에 파인튜닝 하는 방식

(P) [한계]

- LLM은 수십억개의 파라미터를 가진 거대한 모델 → 계산 비용이 높아 제한된 환경에서는 실용적X - 부분적으로 동결된 사전 학습 LLM을 파인튜닝하더라도 수백만개의 학습가능한 파라미터 필요

(S) LETS-C

기성 텍스트 임베딩 모델을 활용하자!

텍스트 임베딩 + CNN과 MLP로 구성된 분류헤드 결합

텍스트 임베딩 모델: 시간적 데이터에 내재된 복잡한 패턴과 의존성 포착

분류헤드: 서로 다른 클래스간 구분

[기여]

1. 최고 수준 성능

다양한 시계열 도메인 데이터셋에서 SOTA 달성

27개의 베이스라인모델 능가

2. 계산 효율성

기존 SOTA대비 14.5%의 파라미터만을 사용

3. 시계열 임베딩 내재적 판별력

텍스트 임베딩이 분류 정확도 향상에 기여

4. 다양한 텍스트 임베딩 모델에 대한 일반화 성능 - 서로 다른 텍스트 임베딩 모델에서도 굿

5. 정확도 손실을 최소화한 모델 크기 최적화

모델 크기를 줄여도 높은 정확도 유지

2. Related Work

Time Series Classification

[초기연구]

지도학습

DTW, SVM 같은 거리 기반 접근법

특징추출기법 + XGBoost 분류기 결합 방식

CNN, MLP, LSTM같은 순환 신경망(RNN)을 포함한 딥러닝 기반 접근법

최근 Transformer기반 self-attention을 활용하여 장기 의존성 포착

비지도학습

마스킹된 시계열 복원 과제로 사전학습

분류와 같은 다운스트림 과제에 파인튜닝하는 방식

⇒ 높은 계산 비용으로 인해 학습 과정에서 부담有

Language Models for Time Series

[최근 연구]

시계열 - 텍스트 모델링, 시계열에 대한 자연어 설명, 다양한 응용을 포함하여 시계열과 언어의 결합 탐구

프롬프팅 → 시계열 예측에 활용 (일부 설명 가능한 금융 예측 생성 가능성 탐구됨)

Time-LLM

시계열 데이터를 언어 임베딩 공간으로 매핑하여 LLM기반 예측

GPT와 같은 LLM을 파인튜닝 → SOTA 달성
[LETS-C]

LLM을 직접 사용하기보단 텍스트 임베딩 활용

Text Embeddings

NLP의 핵심적 표현 기법

단어 또는 문장을 밀집 벡터 공간으로 매핑하여 의미적, 구문적 정보 포착

단어 수준의 임베딩: Word2Vec, GloVe

문맥기반 임베딩: BERT, RoBERTa

✓ Word2Vec

단어 하나마다 항상 같은 벡터를 부여하는 방식

각 점 = 단어 하나

비슷한 단어들이 공간에서 가까이 모여 있음

✓ GloVe

단어들이 전체 말뭉치에서 얼마나 같이 등장하는지 보는 방식

같이 등장한 빈도 기반으로 벡터 공간 형성

고정된 단어 벡터

시계열

NLP에 비해 대규모 데이터셋 부족

임베딩을 처음부터 학습하는 것에 대한 어려움

⇒ 시계열을 잘 표현하려면, 시퀀스 전체 문맥을 요약할 수 있는 임베딩이 필요한데, NLP에서는 BERT계열이 가장 잘해왔다.

LETS-C는 그걸 학습하지 않고, 그냥 가져다 쓰는(lightweight) 전략을 사용하자는 것! 즉, LLM을 학습하기 보단, 이미 학습된 표현공간을 활용하자는 아이디어

3. Methodology

시계열 분류 데이터셋

다변량 시계열 샘플 x_i를 클래스 레이블 y_i에 대응

목표: 각 시계열에 대해 클래스 레이블(햇y)을 정확히 예측하는 분류기 학습

과정

시계열 데이터 정규화 (전처리)

정규화된 데이터로 임베딩 생성

임베딩과 원본 시계열 데이터 결합

결합 데이터를 CNN과 MLP로 구성된 분류 헤드에 입력

✓ 단순한 분류 헤드를 선택한 이유

** 텍스트 임베딩만으로도** 효과적인 분류를 하기에 충분하다

Preprocessing

x_i의 각 특징 차원 [0,1]범위로 min-max 정규화

일관된 스케일 보장 목적
Text Embedding of Time Series

✓ 임베딩이란?

컴퓨터의 입장에서는 "고양이가 귀엽다"에서 고양이? 귀엽다? 의미를 모름 (숫자만 계산 가능) → 때문에 단어에 숫자를 붙이기 시작했음!

one-hot encoding

이렇게 되면 서로가 모두 다른 값이고 고양이와 강아지가 비슷하다와 같은 정보를 얻을 수 없음

또한 단어 수가 늘면 벡터가 엄청나게 커지는 문제 발생 ** ⇒ 비슷한 의미의 단어는 숫자 벡터에서도 비슷하게 만들자!**

임베딩

복잡한 대상(단어, 문장, 이미지 등)을 의미를 담은 숫자 벡터로 바꾸는 것

벡터간 거리 = 의미 유사도

✓ 텍스트 임베딩이란?

문장(텍스트)의 "의미"를 숫자 벡터 하나로 압축해서 표현하는 것

핵심: 비슷한 의미의 문장은 숫자벡터에서도 가깝게 만들자!

어떤 단어들이, 어떤 순서로, 어떤 문맥에서 함께 나오는지를 배움

수치 문자열의 토크나이제이션 방식이 임베딩 결과에 큰 영향을 미칠 수 있으므로 텍스트 임베딩 적용 전 전처리된 시계열을 문자열 형태로 신중하게 변환하는 것이 중요!

(P) 일반적으로 사용되는 서브워드 토크나이저 → 숫자를 임의로 분할

(S) digit-space 토크나이제이션

각 자릿수를 공백으로 분리

시간 단계 구분을 위해 쉼표 추가

고정 소수점 정밀도 가정 → 소수점 제거

text-embedding-3-large model 사용

변환된 시계열 문자열을 임베딩 공간으로 매핑하기 위함 즉, NLP모델을 쓰기 위함

즉, 정리하자면

시계열은 길고 무겁기 때문에 각 채널별로 텍스트 임베딩을 만든 후

각 채널 임베딩을 쌓아 행렬로 만든다

이 결과는 항상 같은 크기이기 때문에 한 번 계산하면 계속해서 사용 가능하다

Fusing Embedding and Time Series

제로 패딩 적용

차원 일관성 유지 목적

요소별 덧셈을 하기 위해서는 두 벡터(또는 행렬)의 크기가 완전히 같아야 함

보통 임베딩 벡터 길이 < 시계열 길이 이므로 남는 길이는 0으로 채움 ⇒ 즉, 정보는 왜곡하지 않으면서 형태만 맞춘다

요소별 덧셈(element-wise addition) 사용

같은 위치의 값을 더한다 ⇒ 임베딩과 전처리된 시계열 데이터 결합

✓ 임베딩과 전처리된 시계열 데이터의 결합

시계열 임베딩(Global)

텍스트 임베딩으로 얻은 벡터로, 전체 시계열의 전반적인 패턴 요약

전처리된 시계열(local)

정규화 및 패딩만 거친 시계열로 시간 별 세부 변화, 로컬 패턴 ⇒ (P)이 둘의 형태가 다르기 때문에 (S)제로패딩!

요소별 덧셈은 ResNet의 Shortcut과 일맥상통하는 아이디어!

ResNet에서 깊은층이 입력을 뭉그러뜨릴 수 있는 것처럼 LETS-C에서는 임베딩이 원본시계열을 뭉그러뜨릴 수 있음

때문에, 임베딩 정보를 쓰되, 원본 시계열 기준으로 보정만 하자!

⇒ fused = raw time seires + embedding**

✓ ResNet의 Shortcut?

이전 딥러닝에서는 층을 많이 쌓으면 더 똑똑하겠지?라는 믿음으로 CNN을 점점 더 깊게 만듦

그런데 20층 모델보다 50층의 모델이 더 성능이 나쁜것임! 과적합도 아니고 데이터 부족도 아니었음 ⇒ 성능열화문제(degradation problem)

예를 들어, 입력이 고양이 → 출력도 고양이가 나와야함

**(P)** 층을 거치면서 변형이 너무 많아지면 "고양이였다"는 정보 자체가 사라질 수 있음
(S) 어떤 층은 아무 일도 안하는게 최선이라면? → 출력 = 원래 + 바뀐 것 (즉, 차이(residual)을 배우게 하자!)

x: 원본입력 ⭐ 절대로 잃으면 안되는 정보!

F(x): 여러 층을 거쳐 계산한 결과 ex. 귀 강조, 털 질감 등

원본을 보완하기 위해 학습된 변화로, 만일 어떤층이 쓸모가 없다면 F(x)=0 즉, y=x로 학습하도록 함 ⇒ 층을 쌓더라도 최소한 손해를 보지 않음! ⇒ ResNet의 핵심은 학습된 표현이 원본 입력을 대체하지 못하게 하고 원본 입력을 항상 기준으로!

서로 다른 모달리티 임베딩 결합

시계열, 텍스트 임베딩은 서로 다른 종류의 정보

멀모에서 흔한 결합 방식으로는 concat, attention, element-wise addition이 있는데 그중 덧셈이 가장 단순하고 파라미터 증가가 없는 안정적인 방법이었음
Lightweight Classification Head

위에서 결합한 시계열 표현이 1차원 CNN과 MLP로 구성된 분류 헤드와 결합

CNN 출력 → 평탄화 → *MLP(softmax) *→ 시계열 클래스 확률 벡터 출력

⇒ 단순 분류 헤드를 사용함으로써 transformer 기반 기존의 SOTA보다 훨씬 적은 학습 파라미터 사용

✓ 주의: CNN은 특징추출기이고, CNN 뒤의 MLP와 softmax가 분류기!

✓ 텍스트 임베딩을 통해 이미 특징을 다 뽑아 온거 아닌가? 왜 CNN이 필요한가?

텍스트 임베딩 모델은

입력을 고정된 벡터로 매핑, 비슷한 패턴을 가깝게 배치까지는 해줌

하지만 어떤 방향이 클래스 경계인지, 어떤 조합이 최적의 분리인지는 알려주지 않음 ⇒ 즉 임베딩 = feature space, CNN = dicision boundary learner

CNN은 지역적 패턴을 다시 추출해서 데이터셋의 specific한 특징을 강조하고 노이즈를 걸러내는 역할

특징을 또 뽑는다기보단, 특징을 재구성한다는 표현이 더 맞음

local 패턴 강조

embedding이 준 global 정보와 raw가 준 local 정보를 조합하여 어떤 조합이 클래스 구분에 중요한가를 학습!

단순 MLP만 사용할 경우 완전 연결이므로 시간 구조를 직접적으로 활용하지 못함

✓ 시계열 CNN

✓ 최종 흐름

4. Experimental Protocol and Details

Datasets and Evaluation Metrics

벤치마크 기준으로 평가

데이터셋

Ethanol Concentration, Face Detection, Handwriting, Heartbeat, Japanese Vowels, PEMS-SF, SelfRegulationSCP1, SelfRegulationSCP2, Spoken Arabic Digits, UWaveGestureLibrary

변수 차원: 3~963

시계열 길이: 최대 1751

클래스 수: 최대 26개

평가지표: AvgWins

우수한 성능 평균 횟수(동률포함), 학습가능파라미터 수 기준으로 계산 효율성
Baselines

27개의 베이스 라인 모델

전통적

Dynamic Time Warping(DTW), eXtreme Gradient Boosting(XGBoost), RandOm Convolutional KErnel Transform(ROCKET)

MLP기반

DLinear

RNN기반

LSTM, LSTNet, 그리고 Linear State Space Layer(LSSL)

CNN기반

Temporal Convolutional Network(TCN), TimesNet

) 비지도 T-Loss, Temporal Neighborhood Coding(TNC), TS2Vec

Transformer기반

Transformer, Reformer, Informer, Pyraformer, Autoformer, Non-stationary Transformer, FEDformer, ETSformer, Flowformer, PatchTST

) 비지도 TS-TCC, Time Series Transformer(TST), MOMENT

LLM기반

OneFitsAll

5. Results and Analysis

5.1 Performance and Efficiency

Comparison to State of the art

27개의 베이스 라인 모델과 비교했을 때 LETS-C 모든 데이터셋에서 강건한 성능

기존 SOTA 대비 경쟁력 있다~

Computational Efficiency

자원이 제한된 환경에서 성능과 계산 효율성 간의 균형 평가

OneFitsAII대비 평균적으로 14.48%정도의 학습가능파라미터만으로도 좋은 성능

OneFitsAII은 TimesNet이나 FEDformer와 같은 주요 모델 대비 파라미터 수가 적다는 장점이 있는 모델임

LETS-C는 텍스트 임베딩 계산이 딱 1번 수행된다는 점이 중요!

OneFitsAII같은 모델은 부분 동결 LLM을 파인튜닝하는 과정에서 지속적으로 계산 발생
5.2 Effectiveness of LETS-C

텍스트 임베딩이 시계열 분류에 적절한지 검증

동일 클래스 내의 시계열 쌍과 서로 다른 클래스 간의 시계열 쌍에 대해 평균 코사인 유사도 계산

히트맵: 빨간색 - 유사도 높고, 파란색 - 유사도 낮음

클래스 내부 유사도가 클래스 간 유사도보다 일관되게 높게 나타남
Generalization Across Various Text Embedding Models

text-embedding-3-large이외의 다양한 텍스트 임베딩 모델에 대한 일반화 성능 평가

e5-mistral-7b-instruct, gte-large-en-v1.5, nomic-embed-text-v 모델 추가 적용

다양한 텍스트 임베딩 모델 전반에서도 우수한 성능

Optimizing Model Size with Minimal Accuracy Loss

모델 정확도와 모델 크기 간의 trade-off 분석

분류 헤드의 선형 계층 및 합성곱 계층 수를 1개~5개까지 조절

trade-off가 데이터셋에 따라 다소 차이가 있으나 전반적으로 파라미터수를 줄여도 정확도 크게 안변함

5.3 Additional Analysis

Ablation Study

텍스트 임베딩 + 시계열 데이터 결합이 단일 모달리티보다 어떤 이점을 갖는지 검증

Alternative Methods for Fusing Time Series with Embeddings

단순 덧셈 외, 시계열과 임베딩을 결합하기 위한 2가지 추가적인 방법 검증

임베딩 → 합성곱 계층, 시계열 데이터 → 완전연결계층으로 처리한 뒤 두 분기의 특징을 하나의 최종 밀집 네트워크에서 결합

시계열과 임베딩 concat한 후, 경량 분류 헤드를 통해 처리

교차 어텐션은 계산복잡도가 커서 안했음

본 연구의 목표는 경량모델개발이므로 보다 단순한 파라미터 구조의 덧셈 방식 최종 채택

6. Conclusion

기성 텍스트 임베딩을 시계열 분석, 특히 분류 과제에 적용한 최초의 연구

시계열 데이터를 텍스트 임베딩 모델을 통해 투영하고 단순하지만 효과적인 분류 헤드를 사용함으로써 SOTA달성

[논문리뷰] Modern TCN : A Modern Temporal Convolutional Network for Time Series Forecasting

Wed, 18 Feb 2026 06:05:00 GMT

Overview

논문명: ModernTCN: A Modern Temporal Convolutional Network for Time Series Forecasting

학회(출판연도): ICLR(2024)

연구분야: 머신러닝, 시계열 예측, 시퀀스 모델 아키텍쳐 설계

Abstract

최근 Transformer 또는 MLP 기반 모델이 시계열 분석에 주도권을 가지고 있으나, 전통적인 TCN을 현대화함으로써 더 나은 효율성과 성능을 증명

✓ 설명을 덧붙이자면

2018년~2022년동안 시계열 분야는 LSTM → Transformer → 더 복잡한 Transformer 변형과 같이 발전

하지만 Transformer가 NLP에서 성공했을지라도 시계열은 NLP와 분명히 다르기 때문에 Transformer가 항상 최적은 아닐 수 있다.

*[참고]** ① 데이터가 많고 ② 문맥이 복잡하며 ③ 문장 길이가 제한되어 있다 ↔ <시계열>은 ① 데이터가 적고 ② 패턴이 반복적이며 ③ 수 천~수 만 길이 가능

1. Introduction

시계열 예측

** ✓ 시계열 예측이란?**

과거 데이터를 기반으로 미래 값을 예측하는 문제 X_{t-L:t} → X_{t+1:t+H}

시계열 예측은 시간 순서가 절대적이고, 패턴이 고정되어 있지 않으며, 계절성 및 추세, 잡음이 많기 때문에 쉽지 않음

** ✓ TCN은 무엇인가?**

TCN은 시계열 데이터를 처리하기 위해 설계된 1차원 합성곱(1D Conv)기반 시퀀스 모델 즉, 단순 CNN이 아님!

RNN → LSTM/GRU → Transformer → (다시) Convolution

RNN의 경우 병렬화의 어려움과 기울기 소실 문제가 있고,

Transformer의 경우에는 메모리를 많이 사용하고 작은 데이터셋에서는 과적합 등의 문제로 인해 다시 Convolution으로 흐름이 변하고 있는 추세

** ✓ TCN의 3가지 핵심구조**

인과적 합성곱(Causal Convolution)

출력 y_t는 현재와 과거만 연결, 미래는 연결X (시계열 예측에서는 미래 정보를 보면 안되기 때문

확장 합성곱(Dilated Convolution)

커널 사이에 dilation(간격)을 둬서 긴 과거 정보(long-range dependecy)를 적은 층으로 커버

dilation을 1,2,4,8식으로 늘리는데 커널 간격을 띄어서 과거를 샘플링하는 방식

레이어 수는 줄이고 계산량은 거의 유지할 수 있다는 장점

Residual Connection

깊어질수록 gradient 소실 문제 발생

Resnet스타일의 구조를 활용하여 깊은 네트워크에서도 학습 안정성 확보

y=x+TCNBlock(x)

결측치 예측, 행동 예측, 이상치 탐지 등 많은 활동이 가능함

Transformer기반 방법, MLP기반 모델이 특히 두드러짐

2010년대: TCN과 그 변형들이 많이 사용됨

2020년대: Transformer기반, TCN기반 모델들이 몇 년 사이에 등장해서 안정적인 성능 가능

ERF문제

✓ ERF란?

모델의 출력 하나가 실제로 얼마나 넓은 입력 범위의 정보에 영향을 받는지

실제로는 학습과 추론에서 의미이쎅 기여하는 범위를 의미

입력시계열의 더 넓은 범위의 데이터를 사용하여 각 출력 지점의 정보 계산

전통적 TCN의 경우 : 이론상 reception field는 커질 수 있지만, 실제 ERF는 중앙에 집중되고 멀어질수록 영향이 급격히 줄어드는 경우가 많음

** Transformer/MLP기반 모델의 경우** : 전역적인 ERF를 가짐으로써 먼 시점의 정보도 출력에 실질적인 영향을 줌 ⇒ 제한된 ERF로 합성곱 기반 모델이 약세

Modorn TCN의 등장

Transformer 블록과 유사한 구조

ERF를 효과적으로 증가시킬 수 있는 대형 커널 주로 사용

현재 기준에서 성능이 그다지 높지 않지만, 합성곱이 변수간 의존성도 포착 가능

장단기예측, 결측값 보간, 분류, 이상탐지를 포함한 5가지 주요 시계열 분석 과제로 평가 → 우수한 성능 ✓ 색이 진할수록 해당 시점 출력에 더 큰 영향을 미친다는 의미 ⇒ 깊게 쌓기, 복잡한 구조, 멀티 브랜치가 아닌 큰 커널을 사용한 현대적 conv를 사용하자! ⇒ 합성곱이 시계열에서 밀린 이유는 구조가 낡았기 때문이지 합성곱 자체가 약해서가 아니다

2. Related work

2.1 Convolution In Time Series Analysis

1. MICN

인과적 합성곱뿐만 아니라 다중 스케일 합성곱 구조 제안

시계열에서 국소적 특징과 전역적 상관관계를 결합하기 위함

2. SCINet

재귀적인 다운 샘플 - 합성곱 - 상호작용 구조 도입

[한계]

제한된 ERF로 인해 장기 의존성을 모델링하는데에 어려움

3. TimesNet

1차원 합성곱을 사용하는 다른 모델과 달리 1차원 시계열을 2차원 변형으로 변환한 뒤, CV에서 사용되는 2D 합성곱 백본을 활용해서 정보성 높은 표현을 얻음

⇒ Transformer가 강한 이유는 attention이 아닌 블록설계에 있다. 때문에, Modern TCN은 ① Transformer block 구조 차용, ② attention 제거, ③ 큰 커널의 Conv로 ERF를 확보하고, ConvFFN으로 변수간 의존성 처리

2.2 Modern Convolution in Computer Vision

1. ConvNeXt

: ConvNet → ViT → Modern Conv(ConvNeXt)

20년대에 들어오면서 ViT가 제안되며 ConvNet을 능가

이를 따라 잡기 위해 Modern Conv가 도입되었고, ConvNeXt는 합성곱 블록을 Transformer 블록과 유사하게 설계

2. RepLNet

구조적 재파라미터화 기법으로 커널 크기를 31x31로 확장

Transformer의 전역 ERF에 더 가까워지기 위함

3. SLak

큰 커널을 2개의 직사각형 병렬 커널로 분해

동적 희소성 사용 → 커널 크기 51x51로 확장

3. Modern TCN

3.1 Modernize The 1D Conv Block

[1D 합성곱 블록의 재설계]

DWConv

각 feature별로 토큰들 사이의 시간적 정보 학습

Transformer의 self-attention 모듈과 동일한 역할

ConvFFN

Transformer의 FFN 모듈과 유사

2개의 PWConv로 구성

ConvFFN블록의 hidden 채널수가 입력 채널보다 r배 더 큰 inverted bottleneck 구조 채택

✓ inverted bottleneck (역병목 구조)

: 입력과 출력 차원을 중간층(Hidden layer)의 차원을 훨씬 크게(r배) 가져가는 구조 즉, 채널을 먼저 확장하고 연산한 후 다시 줄이는 구조 ↔ [병목구조]: 중간채널을 줄였다가 다시 늘리는 구조→ 더 적은 파라미터로도 효율적으로 깊은 특징을 학습할 수 있음

[참고]

⇒ 이러한 설계는 시간정보와 feature 정보의 혼합을 분리함

⇒ 즉, DWConv와 ConvFFN은 각각 시간 차원 또는 feature 차원 중 하나에서만 정보를 혼합하고, 이는 두 차원을 동시에 섞는 전통적인 합성곱과 다름!

[한계]

시계열의 특성을 고려하지 못함

시계열은 feature, 시간 차원 이외에도 변수 차원이 존재

하지만 그림2(b)와 같이 설계된 합성곱 블록을 쌓은 백본은 변수 차원을 제대로 처리하지 못함

3.2 Time Series related modifications

[CV]

백본 이전에 각 픽셀의 3채널(RGB) 특징을 embedding layer을 통해 D차원 벡터로 임베딩하여 RGB채널 정보를 혼합

[한계]

유사한 변수 혼합(각 시점에서 m개의 변수를 단순히 d차원 벡터로 임베딩하는 방식)은 시계여에는 적합하지 않음

시계열의 변수들 간의 차이는 RGB 채널간 차이보다 훨씬 크기 때문

단순한 임베딩 레이어만으로 변수간 복잡한 의존성을 학습할 수 없고, 서로 다른 행동 특성을 고려하지 못해서 변수의 독립적인 특성마저 잃게 될 수 있음

이러한 임베딩 설계는 변수 차원을 제거하게 되어 이후 변수간 의존성을 연구할 수 없음

1. Patchify Variable-independent Embedding (패치화 변수 독립 임베딩)

입력: 길이 L을 갖는 M개의 변수의 입력 시계열

적절한 패딩 후 이를 patch 크기P의 N개의 패치로 나눔

- 패칭 과정의 stride = S (연속된 두 패치의 비중첩 길이) - 즉 시간 축을 길이가 P짜리 덩어리로 나눈다. ![](https://velog.velcdn.com/images/hyooo__s/post/4fb03f07-9349-4563-9aee-e41a62160492/image.png)

이후 패치들은 D차원 임베딩 벡터로 변환

입력 임베딩

m: 변수 개수(채널, 센서수)

d: 임베딩 차원(feature 차원)

n: 패치 개수(시간 토큰 수)

L이 아니라 N으로 Patchify

✓ 왜 M x D x N 이어야 하는가?

M이 가장 먼저 있는 이유 : 변수는 처음부터 섞으면 안된다. → 각 변수는 독립적으로 patchify 및 embedding

D가 있어야 하는 이유 : 이 패치를 어떠한 관점으로 볼 것인가? 상승하강, 주기성, 변화량 등을 담는 표현 공간임

마지막에 N인 이유 : 시간축으로 Conv해야함 즉, N이 새로운 time axis

구현을 단순화하기 위해 본 논문에서는

Patchify embedding을 완전 합성곱 방식 채택

X in shape를 M x 1 x L로 확장한 뒤, 커널 크기 P, Stride를 S를 갖는 1D Conv layer에 입력

이 Stem layer는 입력 1채널을 D개의 출력 채널로 매핑 (시간축만 압축)

단 M개의 단변량 시계열은 서로 독립적으로 임베딩 → 변수 차원 유지 가능

2. DWConv (시간)

채널A, 채널 B가 서로 정보를 주고 받지 않고, 채널 A 내부에서만 과거 시점들을 컨볼루션으로 시간적으로 혼합한다는 뜻

원래 시간 정보를 학습하도록 설계됨

DWConv만으로 시간 간, 변수 간 의존성을 동시에 학습하는 것은 어렵기 때문에, DWConv가 변수 차원 정보 혼합까지 담당하도록 하는 것은 부적절

기존의 feature 독립 DWConv를 feature와 변수 모두에 대해 독립적인 형태로 수정 ⇒ 각 단변량이 사간적 의존성을 독립적으로 학습하도록!

DWConv에 큰 커널을 사용

ERF 확장 및 시간 모델링 능력 향상

3. ConvFFN (특징)

각 토큰의 새로운 특징 표현을 학습

DWConv가 feature 및 변수가 독립적이므로 이를 보완하기 위해 feature 및 변수를 혼합해야함!

단일 ConvFFN으로 feature과 변수간의 의존성을 학습하는데에는 무리 ⇒ PWConv를 grouped PWConv로 대체해서 서로 다른 group수를 설정

즉 단일 ConvFFN을 ConvFFN1, ConvFFN2로 추가 분리

ConvFFN1: 변수별 새로운 feature 표현학습

ConvFFN2: feature별 변수 간 의존성 포착

위 3개의 수정을 거쳐 최종 Modern TCN 블록 완성

3.3 Overall Structure

4. Experiments

Modern TCN 좋다~

5. Model Analysis

커널 크기 늘리는 것이 ERF 에 좋았다~

6. Conclusion And Future Work

시계열 분석에 있어서 컨볼루션 기반도 좋다~ 향후 더 긴 시퀀스, 다양한 도메인에서의 일반화 및 모델 경량화, 추론 최적화같은 방향 확장이 과제

n	이름	결과
1	unigram	I / love / financial / markets
2	bigram	I love / love financial / financial markets
3	trigram	I love financial / love financial markets

Metric	핵심 아이디어	장점	단점
MAPE	실제값 기준 비율 오차	직관적	0에서 터짐
sMAPE	평균 기준 비율 오차	대칭적, 안정적	약간 해석 어려움
MASE	naive 모델 대비 성능	dataset-independent	직관성 낮음

구분	Epoch 학습	Meta-learning
데이터	하나	여러 task
목표	정확도 ↑	적응 속도 ↑
일반화	같은 task	새로운 task

	DPM	R-CNN	YOLO
핵심 아이디어	부분(Parts) 조합 + HOG	영역제안 + CNN	단일 네트워크 한번에 예측
특징 추출	수작업 특징(HOG)	CNN	CNN
탐지방식	다중 스케일 슬라이딩 윈도우	Selective Search로 후보 생성 → 후보마다 CNN	이미지 그리드별로 동시 예측
학습 구조	HOG + SVM	CNN 사전 학습→ SVM → BBox 회귀	엔드 투 엔드 단일 손실로 공동 학
속도	느림(실시간 불가)	매우느림	실시간

	One Network Evaluation	End-to-End
의미	추론 시 CNN 1회 실행	학습 시 전체 네트워크를 한꺼번에 최적화
방식	Inference 방식	Training 방식
YOLO 장점	실시간 처리 가능	파이프라인 분리없이 직접학습

	Grouped Conv	Depthwise Conv
그룹수	지정 가능 (1~채널수)	채널 수와 동일
채널 처리 방식	그룹 내 채널끼리만 처리	각 채널 독립 처리
채널 결합	가능(같은 그룹 내)	없음 → 1x1 Conv 필요
연산량 절감	O(1/그룹수)	O(1/채널수) → 가장 많이 절감

	BN (Batch Normalization)	LN (Layer Normalization
정규화 기준	배치 내 채널 별 평균/분산	샘플 내 전체 피처 평균/분
배치 크기 영향	있음(작아지면 성능 저하)	없음
주 사용 분야	CNN(이미지), 대규모 배치 학습	RNN, Transformer, NLP
계산 위치	채널별	전체 피처별