jja_jja.log

[논문 리뷰] Accurate and energy efficient ad-hoc neural network for wafer map classification (Journal of Inteligent Manufacturing, 2025)

Sun, 12 Jul 2026 07:22:07 GMT

Paper: Accurate and energy efficient ad-hoc neural network for wafer map classification
Authors: Ana Pinzari, Thomas Baumela, Liliana Andrade, Maxime Martin, Marcello Coppola, Frédéric Pétrot
Journal: Journal of Intelligent Manufacturing, 36, 2863–2880, 2025
DOI: https://doi.org/10.1007/s10845-024-02390-7
Published online: May 1, 2024
Keywords: Wafer Map Classification, Edge AI, Lightweight CNN, INT8 Quantization, Energy Efficiency, Semiconductor Manufacturing

0. 들어가며

반도체 제조에서 수율(yield)은 생산 라인의 수익성을 결정하는 핵심 지표다. 웨이퍼 위 불량 다이의 공간적 분포를 나타내는 wafer map은 공정 편차, 정렬 오류, 초점 문제, 스크래치, 국소 오염과 같은 이상 원인을 추적하는 데 사용된다. 따라서 수많은 wafer map을 빠르고 정확하게 분류하는 작업은 공정 제어와 수율 개선의 중요한 출발점이다.

최근의 wafer map 연구는 높은 정확도를 위해 VGG, ResNet, GoogLeNet과 같은 대규모 CNN을 활용하는 방향으로 발전했다. 하지만 제조 장비 옆의 저전력 보드에서 24시간 모델을 실행해야 한다면 이야기가 달라진다. 파라미터가 수천만 개인 모델은 높은 정확도를 제공할 수 있지만, 메모리 사용량과 연산량, 전력 소비, 배포 비용까지 증가시킨다.

이 논문은 이 지점에서 매우 현실적인 질문을 던진다.

단순한 흑백 wafer map 58개 클래스를 분류하기 위해, 자연 이미지용으로 설계된 거대한 CNN을 그대로 사용해야 하는가?

저자들은 wafer map이라는 제한적이고 규칙적인 도메인에는 범용 대형 네트워크가 과도하다고 본다. 대신 AlexNet의 연속 convolution 구조와 GoogLeNet의 Inception 아이디어를 필요한 만큼만 가져와, 478,150개 파라미터의 목적형 ad-hoc CNN을 설계한다. 이후 모델을 INT8로 양자화하고 Google Coral, STM32MP1, NVIDIA Jetson에서 실제 처리량과 전력을 측정한다.

이 연구의 핵심은 “작은 모델도 정확하다”는 선언에 그치지 않는다. 데이터, 모델, 수치 표현, 하드웨어, 제조 takt time을 하나의 시스템 문제로 연결했다는 데 있다.

검은 점은 웨이퍼 위에서 탐지된 결함의 위치를 나타내며, 하단 notch는 웨이퍼의 방향을 알려준다.

1. Abstract

반도체 제조의 수익성은 수율과 밀접하며, 공정 변화의 원인을 찾기 위해 wafer map의 결함 분포를 분석해야 한다. 기존 연구는 주로 최신 대형 신경망으로 wafer map을 분류하지만, 저자들은 이 문제에는 훨씬 작고 목적에 맞게 정의된 네트워크를 사용할 수 있다고 주장한다.

연구에는 STMicroelectronics의 28 nm 제조 시설에서 얻은 실제 데이터가 사용된다. 데이터는 300 mm 웨이퍼의 58개 결함 클래스로 구성되며, 희소 클래스를 보완하기 위한 전문가 감독 기반 합성 데이터가 포함된다. 저자들은 경량 CNN을 설계하고 INT8 quantization을 적용한 뒤 여러 저전력 보드에서 정확도, 소비 전력, 처리량, 전력 효율을 측정한다.

그 결과 224×224 크기의 wafer map을 58개 클래스로 분류하면서, 약 1 W 수준의 보드에서 97% 이상의 정확도와 제조 현장에 충분한 처리량을 달성할 수 있음을 보인다. 전용 TPU를 사용한 Google Coral은 최대 1,600 inference/s와 320 inference/s/W를 기록한다.

Abstract를 한 문장으로 압축하면

Wafer map의 단순한 입력 구조와 실제 제조 처리량에 맞춰 네트워크를 작게 설계하고 INT8로 양자화하면, 대형 CNN 없이도 높은 정확도와 현장 배포 가능한 전력·속도를 동시에 확보할 수 있다.

2. Step 01 - Problem

2.1 범용 이미지 모델을 특수 제조 데이터에 그대로 적용한다

AlexNet, VGG16, ResNet, GoogLeNet은 복잡한 RGB 자연 이미지에서 수많은 객체를 구분하기 위해 설계됐다. 반면 이 논문의 wafer map은 다음 특성을 가진다.

흑백 단일 채널 이미지다.
결함의 위치와 형태가 핵심 정보다.
동일 검사 장비에서 생성돼 영상 간 간섭과 변동이 비교적 작다.
필요한 처리량이 비디오처럼 초당 수십 프레임이 아니다.
분류 대상이 공정 전문가가 정의한 제한된 결함 유형이다.

문제 난이도와 데이터 구조가 다른데도 자연 이미지용 대형 CNN을 그대로 사용하는 것은 불필요한 연산과 메모리, 전력을 초래할 수 있다.

2.2 기존 연구는 정확도는 보고하지만 배포 비용은 충분히 측정하지 않는다

wafer map 연구는 주로 다음 결과를 강조해 왔다.

classification accuracy
class imbalance 개선
data augmentation 효과
mixed defect 인식
unknown 또는 uncertain sample 처리

하지만 실제 장비에 탑재하려면 정확도 외에도 다음 질문에 답해야 한다.

모델이 소형 보드의 메모리에 들어가는가?
한 장을 처리하는 데 몇 ms가 걸리는가?
실제 보드 전체가 몇 W를 소비하는가?
초당 처리량은 생산 라인의 wafer 생성 속도를 따라가는가?
전력 1 W당 몇 장을 분류할 수 있는가?

저자들은 선행 연구가 높은 정확도에 집중하면서 이러한 hardware-level metric을 충분히 다루지 않았다고 지적한다.

2.3 공개 데이터셋은 실제 생산 라인을 충분히 대표하지 못한다

WM-811K는 대표적인 공개 benchmark지만 저자들은 세 가지 한계를 강조한다.

클래스 불균형이 심하다.
전체 중 일부만 라벨링되어 있다.
결함 클래스가 9개 수준으로, 실제 생산 라인의 세분화된 분류 체계를 충분히 반영하지 못한다.

따라서 이 연구는 WM-811K뿐 아니라 28 nm 공정의 58개 결함 유형을 포함한 STMicroelectronics 데이터로 모델을 설계하고 평가한다.

따라서 저자들이 정의한 핵심 연구 공백은 다음과 같다.

실제 제조 데이터의 세분화된 결함 클래스를 높은 정확도로 분류하면서, 소형 저전력 하드웨어에 배포 가능한 모델·수치 표현·처리량·전력까지 함께 최적화한 연구가 부족하다.

논문이 검토한 기존 연구는 다음 방향으로 나뉜다.

연구 방향	대표 아이디어	남은 문제
불균형 완화	rotation, flip, shift, zoom, oversampling	augmentation 품질과 클래스 대표성에 민감
선택적 분류	불확실한 샘플에서 abstention	정확도 외 배포 자원 분석은 제한적
Active learning	uncertain sample만 전문가가 추가 라벨링	labeling cost와 accuracy trade-off 필요
경량 CNN	depthwise convolution, 축소형 CNN	여전히 수백만 파라미터인 경우가 많음
INT8/Binary model	정수 양자화, 이진 신경망	메모리·속도는 다루지만 실제 전력 분석이 부족
Edge board 배포	Jetson Nano 등에서 실행	“실행 가능” 이상의 power/accuracy 분석이 제한적

Saqlain 등의 모델은 약 270만 개, Wang 등의 모델은 230만 개, Tsai와 Lee의 모델은 160만 개 파라미터로 줄어들었지만, 저자들은 이것도 소형 저전력 보드에는 여전히 크다고 본다. 또한 기존 연구가 model size나 runtime을 줄였더라도 실제 소비 전력과 정확도의 trade-off를 체계적으로 측정한 사례는 부족하다고 주장한다.

이 논문의 차별점은 “경량 모델” 한 가지가 아니라 다음 네 요소를 함께 검증한다는 것이다.

Purpose-defined CNN
        ↓
INT8 quantization
        ↓
Multiple edge boards
        ↓
Accuracy + latency + throughput + power + i/s/W

4. Dataset: 실제 28 nm 공정의 58개 결함 클래스

4.1 STMicroelectronics 데이터

원시 wafer data는 프랑스 Crolles의 STMicroelectronics 28 nm 공정에서 수집됐다.

항목	내용
Wafer	300 mm
Process node	28 nm
Defect classes	58개
Original resolution	400×400
Total samples	121,550개
Samples per class	약 2,000–3,000개
Data type	흑백 단일 채널 wafer map

희소 결함은 실제 생산에서 충분히 모으기 어렵다. 이를 해결하기 위해 STMicroelectronics는 결함 이미지를 합성하는 drawing tool을 사용한다. 단순히 기계적으로 생성한 이미지를 모두 넣는 것이 아니라, 공정 엔지니어가 실제와 유사한 샘플을 선별해 학습 데이터에 포함한다.

따라서 이 데이터는 “모두 실제 원본”이라기보다 실제 제조 데이터와 전문가 검수 합성 데이터가 결합된 균형 데이터셋으로 이해해야 한다.

Cluster-Big, Donut-EOW-Dense, Fingerprint, Full-Wafer, Horizontal-Multi, Matrix의 예시를 보여준다.

4.2 왜 224×224로 줄였는가?

입력 해상도는 accuracy뿐 아니라 첫 convolution 이후의 feature map 크기, FLOPs, 메모리 사용량을 결정한다. 저자들은 100×100부터 300×300까지 여러 해상도를 비교한다.

작은 해상도에서는 결함의 미세한 형태가 손실되어 학습이 느리고 validation accuracy가 낮아졌다. 250×250과 300×300은 좋은 성능을 보였지만, 224×224도 거의 유사한 속도로 수렴했다. 또한 224×224는 VGG16, MobileNetV1, GoogLeNet과의 비교에 자주 사용되는 표준 크기다.

최종적으로 nearest-neighbor interpolation을 사용해 400×400 이미지를 224×224로 변환한다.

100×100과 150×150에서는 정보 손실로 수렴이 느려지지만, 224×224는 더 큰 해상도와 유사한 수렴 성능을 유지한다.

Insight

이 과정은 모델 경량화가 layer 수를 줄이는 것만으로 끝나지 않음을 보여준다. 입력 해상도도 모델 설계 변수이며, 필요한 정보가 유지되는 최소 해상도를 찾는 것이 연산량을 줄이는 첫 단계다.

5. Step 02 - Idea

자연 이미지용 대형 CNN을 축소하는 대신, wafer map에 필요한 multi-scale spatial feature만 남긴 48만 파라미터 CNN을 처음부터 설계하고, 이를 INT8로 변환해 실제 생산 속도에 맞는 하드웨어에서 실행한다.

핵심 아이디어는 세 부분으로 구성된다.

AlexNet에서 global spatial feature를 보는 초기 convolution 아이디어를 차용한다.
GoogLeNet의 Inception block으로 서로 다른 크기의 패턴을 병렬 추출한다.
불필요한 fully connected layer를 제거하고 INT8 PTQ를 적용한다.

이 접근을 저자들이 ad-hoc이라고 부르는 이유는 범용 모델을 가져와 단순 fine-tuning한 것이 아니라, 특정 데이터와 특정 하드웨어 제약에 맞춰 직접 구조를 선택했기 때문이다.

6. Proposed Method: 목적형 CNN을 어떻게 설계했는가?

6.1 AlexNet에서 가져온 것: 큰 receptive field의 초기 특징 추출

AlexNet의 첫 layer는 11×11 kernel 96개와 stride 4를 사용한다. 이는 복잡한 자연 이미지에서 넓은 영역의 특징을 빠르게 보는 데 유리하지만, 단일 채널 wafer map에는 과도하다.

저자들은 다음과 같이 축소한다.

Kernel: 11×11 → 7×7
Filters: 96 → 32
Stride: 4 → 2
Input channels: RGB 3채널이 아니라 grayscale 1채널

Convolution layer의 파라미터 수는 다음과 같다.

$$ N_{param}=m\left(k_xk_yn+1\right) $$

여기서 $m$은 출력 kernel 수, $k_x\times k_y$는 kernel 크기, $n$은 입력 channel 수, 마지막 1은 bias다.

논문의 계산에 따르면 첫 layer는 다음과 같이 줄어든다.

Model	First convolution parameters
AlexNet: 96×(11×11×1+1)	11,712개※
논문에 제시된 AlexNet 비교값	17,712개
Proposed: 32×(7×7×1+1)	1,600개

※ 논문 본문은 AlexNet 첫 layer를 17,712개로 제시하지만, 단일 채널이라는 동일 조건에서 단순 계산하면 11,712개다. 원래 AlexNet의 RGB 3채널 기준이라면 34,944개다. 따라서 이 숫자는 본문의 산술 또는 조건 표기에 불일치가 있는 것으로 보인다. 블로그에서는 논문의 주장과 계산 조건을 구분해 읽을 필요가 있다.

6.2 GoogLeNet에서 가져온 것: Inception block

wafer defect는 작은 국소 결함부터 웨이퍼 전체를 덮는 패턴까지 크기가 다양하다. 하나의 kernel size만 사용하면 특정 scale의 특징에 편향될 수 있다.

Inception block은 같은 입력에 여러 연산을 병렬 적용한다.

1×1 convolution
1×1 → 3×3 convolution
1×1 → 5×5 convolution
3×3 max pooling → 1×1 convolution

각 branch의 출력을 channel 방향으로 concatenate한다. 3×3과 5×5 앞의 1×1 convolution은 channel을 줄여 계산량을 억제하는 bottleneck 역할을 한다.

6.3 경험적 architecture search

저자들은 NAS를 사용하지 않고 다음 순서로 구조를 경험적으로 단순화한다.

AlexNet에서 거대한 fully connected layer 제거
convolution filter 수 축소
하나의 Inception block 추가
마지막에 최소한의 dense softmax layer만 유지

Architecture	Parameters	FLOPs	Accuracy mean	Std. Dev.
AlexNet	58,495,738	2,126,591,932	97.16%	±0.07
Test 1: FC 제거	4,258,554	2,018,125,756	96.94%	±0.07
Test 2: filter 축소	465,590	56,258,108	95.09%	±0.11
Proposed: Test 2 + Inception	478,150	125,518,940	99.89%	±0.01

제안 모델은 AlexNet보다 파라미터가 약 122배 적고, FLOPs는 약 16.9배 적다. Test 2보다 파라미터와 FLOPs는 조금 증가하지만 accuracy가 95.09%에서 99.89%로 크게 개선된다. 이는 Inception block이 단순한 부가 구조가 아니라 multi-scale defect를 표현하는 핵심 요소임을 시사한다.

6.4 최종 네트워크 구조

최종 모델은 총 17개 layer 중 10개가 learnable layer이며, 입력 224×224×1을 7×7×116으로 줄인 뒤 flatten하고 58개 클래스에 대한 softmax를 출력한다.

Stage	Configuration
Input	224×224×1
Conv1	32 filters, 7×7, stride 2, no padding
Pool1	2×2, stride 2
Inception	1×1, 3×3, 5×5, max-pool branches
Pool2	3×3, stride 2
Bottleneck	12 filters, 1×1
Conv2	116 filters, 3×3, stride 2, zero padding
Conv3	116 filters, 3×3, stride 2, zero padding
Flatten	7×7×116
Classifier	Dense + Softmax, 58 classes
Total parameters	478,150

활성함수는 마지막 layer를 제외하고 ReLU를 사용한다. loss는 categorical cross-entropy, optimizer는 Adam이다. batch size는 512에서 시작해 256, 128, 32로 줄이고, learning rate도 $10^{-3}$에서 $10^{-6}$까지 decay한다.

224x224×1 → Conv/Pool → Inception → Conv → Flatten → 58-way Softmax 흐름

7. Step 03 - Challenge

Challenge 1. 58개 클래스를 균형 있게 구성해야 한다

희귀 결함은 실제 생산에서 거의 발생하지 않아 데이터 수집만으로 클래스당 수천 장을 확보하기 어렵다. 저자들은 drawing tool과 전문가 검수를 사용하지만, 합성 데이터의 현실성과 중복성 관리가 중요하다.

Challenge 2. 정확도와 모델 크기 사이의 비선형 trade-off

AlexNet의 layer를 단순히 제거하면 파라미터는 줄지만 accuracy도 하락한다. 실제로 Test 2는 465,590개 파라미터로 작지만 accuracy가 95.09%다. 여기에 약간의 연산을 추가한 Inception block이 accuracy를 99.89%로 회복한다. 즉, 경량화는 무조건적인 pruning이 아니라 필요한 표현력에 연산을 선택적으로 배분하는 문제다.

Challenge 3. 양자화 후 정확도를 유지해야 한다

FP32에서 높은 정확도를 얻더라도 INT8 변환 과정에서 weight와 activation의 표현 범위가 제한된다. 대표 calibration set이 전체 값의 범위를 충분히 포함하지 못하면 quantization error가 커질 수 있다.

Challenge 4. 하드웨어별 최적 실행 방식이 다르다

Coral은 INT8 Edge TPU에서 가장 빠르다.
STM32MP1은 정수 연산이 FP 연산보다 유리하다.
Jetson GPU는 batch size 1에서는 병렬성을 충분히 활용하지 못한다.
CPU, GPU, TPU는 같은 모델이라도 power–throughput 특성이 다르다.

따라서 “모델이 작다”는 사실만으로는 배포 가능성을 판단할 수 없고, 목표 하드웨어에서 직접 측정해야 한다.

Challenge 5. 제조 현장의 real-time 요구를 정확히 정의해야 한다

비디오 추론의 real-time과 wafer inspection의 real-time은 다르다. 논문에서 검사 장비는 웨이퍼 한 장을 검사하는 데 약 90초–5분이 걸린다. 따라서 수백 FPS가 아니라 약 1 inference/s만으로도 생산 속도를 충분히 따라갈 수 있다.

8. Quantization: FP32 모델을 INT8로 바꾸기

8.1 왜 INT8인가?

Quantization은 weight와 activation을 표현하는 bit 수를 줄이는 기술이다. 일반적으로 FP32 대신 INT8을 사용하면 다음 이점이 있다.

weight memory가 이론적으로 약 1/4로 감소
정수 SIMD 또는 전용 accelerator 활용 가능
memory bandwidth 감소
multiplier의 면적과 전력 감소

저자들은 multiplier의 area와 power complexity가 bit-width $b$에 대해 대략 $O(b^2)$로 증가한다고 설명한다. 따라서 32-bit 연산을 8-bit로 줄이는 것은 단순히 저장 공간만의 문제가 아니다.

Neuron의 정수 누적은 다음과 같이 생각할 수 있다.

$$ v_j=\sum_{i=0}^{n-1}x_iw_{ij},\qquad o_j=v_j+b_j $$

INT8 곱셈 결과는 더 넓은 bit-width로 누적하고, scale과 zero-point를 사용해 다시 INT8 범위로 mapping한다. 실제 TFLite integer pipeline에서는 weight와 activation은 INT8을 사용하고 accumulation과 bias는 일반적으로 INT32를 사용한다.

8.2 PTQ와 QAT

방법	설명	장단점
PTQ	이미 학습된 모델을 calibration data로 변환	간단하고 재학습 불필요, 정확도 손실 가능
QAT	학습 중 quantization effect를 모사	정확도 유지에 유리하지만 학습 복잡도 증가

저자들은 8-bit 이하의 극단적인 quantization이 아니라 off-the-shelf board와 accelerator에서 잘 지원되는 INT8을 목표로 하므로 Post-Training Quantization(PTQ)을 선택한다. 변환에는 전체 입력 범위를 대표하는 calibration subset을 사용하고, input과 output까지 INT8인 full integer model을 생성한다.

Quantization	Accuracy
QAT	97.63%
PTQ	97.35%

QAT가 PTQ보다 0.28%p 높지만, 저자들은 단순한 변환과 배포를 위해 PTQ를 사용한다.

주의할 해석

FP 모델의 test accuracy 99.92%와 PTQ의 97.35%를 비교하면 약 2.57%p가 감소한다. 절대 성능은 여전히 높지만 “정확도 손실이 거의 없다”는 표현은 기준에 따라 다르게 볼 수 있다. 결함별 위험도가 다르다면 전체 accuracy가 아니라 quantization 전후 class-wise recall도 비교하는 것이 더 적절하다.

9. Experimental Design

9.1 STMicroelectronics 데이터 분할

58개 클래스에서 클래스당 2,000장씩 총 116,000장을 balanced subset으로 사용한다.

116,000장: training 80% / testing 20%
원 데이터에서 남겨둔 5%인 5,550장: validation
Early stopping 및 batch size·learning rate 조정

Test accuracy는 99.922%, validation accuracy는 99.935%다.

약 10 epoch에서 과적합 징후가 나타난 뒤 hyperparameter 조정과 학습 진행으로 accuracy와 loss가 안정화되는 흐름을 보여준다.

9.2 K-fold 평가

저자들은 shuffled data를 세 fold로 나누는 예시를 제시하고, Table 5에서는 세 fold 평가를 다섯 차례 반복한다. 각 iteration의 평균 validation accuracy는 99.88–99.89%로 안정적이다.

9.3 WM-811K 외부 평가

저자들은 모델 구조의 범용성을 확인하기 위해 WM-811K에도 적용한다.

Setting	Samples	Classes	Parameters	Test accuracy
Single-defect classes	25,519	8	163,276	99.53%
8 defects + 일부 None	32,891	9	165,133	96.63%

전체 성능은 아래 Figure 7. 참고

WM-811K 이미지는 64×64로 resize하며, 작은 입력에서 정보를 과도하게 줄이지 않기 위해 첫 convolution의 stride를 2에서 1로 바꾼다. 나머지 구조는 유지한다.

None을 포함하면 accuracy가 약 2.9%p 감소한다. 저자들의 분석에 따르면 형태가 뚜렷한 Donut, Center, Edge-Ring, Near-full은 잘 분류되지만, None 내부에는 Scratch·Loc·Edge-Loc과 유사한 패턴이 포함되어 혼동이 발생한다.

10. Accuracy Results

10.1 ST 데이터 성능

Metric	Result
Test Top-1 accuracy	99.922%
Validation Top-1 accuracy	99.935%
Repeated fold average	99.88–99.89%
PTQ INT8 accuracy	97.35%

58개 클래스의 대부분은 precision, recall, F1-score가 99% 이상이다. 주요 오분류는 형태적으로 유사한 클래스에서 발생한다.

EOW-EXTREME vs. EOW-EXTREME-LIGHT
RANDOM과 반복 정도가 약한 edge defect
VERTICAL-3H vs. VERTICAL-9H

특히 VERTICAL 클래스 일부 오류를 확인하는 과정에서 회전 augmentation 때문에 서로 반대 클래스에 잘못 라벨링된 샘플이 발견됐다. 이는 모델 평가가 데이터 품질 진단 도구 역할도 할 수 있음을 보여준다.

데이터 품질에 대한 중요한 교훈

저자들은 결론에서 효율적인 모델보다 먼저 크고, 잘 라벨링되고, 균형 잡힌 데이터셋이 필요하다고 강조한다. 실제로 일부 오분류가 모델 자체가 아니라 augmentation 과정의 오라벨에서 비롯됐다는 분석은 이 주장을 뒷받침한다.

11. Hardware Evaluation: 정말 edge에서 돌아가는가?

11.1 평가 하드웨어

x86 desktop CPU: 48 cores / 96 threads
Google Coral CPU: Quad Cortex-A53
Google Coral Edge TPU v1: 4 TOPS
NVIDIA Jetson CPU: Quad Cortex-A53
NVIDIA Jetson Maxwell GPU: 128 CUDA cores
STM32MP1 CPU: Cortex-A7

TFLite를 사용해 FP32, FP16, INT8 모델을 만들고, Coral TPU용 모델은 Edge TPU compiler로 별도 변환한다.

Keras model → TFLite float/INT8 → Edge TPU compile → Coral/MP1/Jetson`의 배포 흐름을 보여준다.

11.2 Batch size 1의 처리량과 latency

Hardware	Execution	Throughput (i/s)	Latency (ms)
x86 CPU	FP32	52.5	19.0
x86 CPU	FP16	322.5	3.1
x86 CPU	INT8	312.5	3.2
Coral CPU	FP16	20.0	49.4
Coral CPU	INT8	31.8	31.4
Coral TPU	INT8	902	1.11
STM32MP1 CPU	FP16	4.5	223
STM32MP1 CPU	INT8	5.5	181
Jetson CPU	INT8	56	17.8
Jetson GPU	FP	47	21.2

가장 느린 STM32MP1도 5.5 inference/s를 처리한다. 목표였던 약 1 inference/s를 여유 있게 넘기므로 모든 보드가 제조 라인의 기본 처리량 요구를 만족한다.

Coral TPU는 batch size 1에서도 902 inference/s와 1.11 ms latency를 기록한다. Jetson GPU는 batch size 1에서 47 inference/s로 CPU INT8보다 느린데, 이는 128개 CUDA core를 한 장의 이미지로 충분히 채우지 못하기 때문이다.

11.3 Batch inference와 전력

저자들은 100장 단위의 이미지와 여러 batch size를 사용해 처리량과 보드 전체 전력을 측정한다.

Coral TPU: batch가 커질수록 약 1,600 inference/s까지 증가
STM32MP1: INT8 약 5.6 inference/s로 안정적이며 메모리 사용량이 작아 더 큰 batch 가능
Jetson GPU: batch가 커지면 약 255 inference/s까지 증가

12. Power Efficiency: 낮은 전력과 높은 에너지 효율은 다르다

전력 효율은 다음과 같이 계산된다.

$$ \eta_{power}=\frac{\text{Throughput (inferences/s)}}{\text{Power (W)}} $$

단위는 inference/s/W이며, 수치가 높을수록 동일 전력으로 더 많은 이미지를 처리한다.

Board	Processing unit	Throughput	Power	Efficiency
Coral	TPU	1,600 i/s	5.0 W	320 i/s/W
Coral	CPU INT8	33 i/s	4.3 W	7.7 i/s/W
STM32MP1	CPU INT8	5.6 i/s	1.2 W	4.7 i/s/W
Jetson	GPU	255 i/s	5.8 W	44 i/s/W
Jetson	CPU INT8	56 i/s	2.9 W	19 i/s/W

Coral TPU는 Jetson GPU보다 약 7.3배, STM32MP1 INT8보다 약 68배 높은 inference/s/W를 보인다. 전용 ASIC이 특정 연산에서는 GPU보다 효율적이고, GPU는 범용 CPU보다 효율적이라는 전형적인 결과다.

전력 효율의 역수로 active inference 한 건당 에너지를 근사할 수 있다.

$$ E_{inference}=\frac{P}{\text{Throughput}}=\frac{1}{\eta_{power}} $$

Device	Approx. active energy/inference
Coral TPU	약 3.1 mJ
Jetson GPU	약 22.7 mJ
STM32MP1 INT8	약 212.8 mJ

여기서 흥미로운 역설이 생긴다.

절대 소비 전력이 가장 낮은 장치: STM32MP1, 약 1.2 W
한 inference를 가장 적은 에너지로 처리하는 장치: Coral TPU, 약 3.1 mJ

즉, 낮은 W가 곧 높은 energy efficiency를 의미하지 않는다.

하지만 wafer map은 연속적으로 고속 도착하지 않고 검사 장비가 한 장을 생성하는 데 90초–5분이 걸린다. 매우 빠른 Coral은 대부분의 시간을 idle 상태로 기다릴 수 있다. 이 경우 실제 총에너지는 active efficiency뿐 아니라 다음 요소에 좌우된다.

idle power
wake-up/shutdown energy
batch arrival interval
duty cycle
standby 또는 clock scaling 가능 여부

논문은 이 점을 정성적으로 논의하지만 실제 production arrival trace를 사용한 장기 에너지 측정까지 수행하지는 않는다.

보드별 i/s/W 시간 변화를 보여줌.

13. Step 04 - Contribution

13.1 방법론적 기여

Application-specific model design
범용 대형 CNN을 단순 압축하지 않고 wafer map의 입력 구조에 맞춰 478,150개 파라미터의 네트워크를 직접 설계했다.
Multi-scale feature와 경량화의 결합
Inception block을 한 개만 사용해 1×1, 3×3, 5×5 scale의 결함을 포착하면서 연산량을 제한했다.
Deployment-aware quantization
INT8 PTQ를 적용하고 input/output까지 정수인 TFLite model을 실제 accelerator에 배포했다.

13.2 실험적 기여

58-class ST 데이터에서 FP model test accuracy 99.922%
반복 fold 평균 accuracy 99.88–99.89%
INT8 PTQ accuracy 97.35%
WM-811K 8-class accuracy 99.53%, 9-class accuracy 96.63%
AlexNet 대비 parameter 약 122× 감소, FLOPs 약 16.9× 감소

13.3 시스템·산업적 기여

STM32MP1에서 약 1.2 W, 5.6 inference/s
Coral TPU에서 1,600 inference/s, 320 inference/s/W
가장 느린 장치도 제조 목표인 1 inference/s 이상 달성
칩이나 accelerator 단독이 아니라 보드 전체 전력을 실제 power meter로 측정

따라서 이 연구는 높은 accuracy를 가진 모델을 제시한 것보다, 제조 takt time을 만족하는 가장 작은 시스템을 선택할 수 있는 근거를 제공했다는 점이 더 중요하다.

14. Step 05 - Pros & Cons

Pros

1. 모델이 아니라 전체 배포 시스템을 평가한다

parameter와 FLOPs뿐 아니라 accuracy, latency, throughput, power, inference/s/W를 함께 측정한다. Edge AI 논문에서 실제 배포 가능성을 판단하는 데 필요한 지표를 폭넓게 제공한다.

2. 현장 요구를 과도하게 설정하지 않는다

제조 장비가 요구하는 처리량을 약 1 inference/s로 정의하고, 그 이상을 무조건 추구하지 않는다. 이는 benchmark 최고 속도보다 필요한 성능을 최소 자원으로 달성하는 engineering 관점이다.

3. 실제 제조 데이터의 클래스 복잡도가 높다

58개 클래스를 사용해 8–9개 클래스의 공개 benchmark보다 세분화된 현장 분류 문제를 다룬다.

4. 데이터 품질 문제까지 분석한다

오분류를 확인하는 과정에서 rotation augmentation으로 인한 오라벨을 발견한다. 모델 성능 분석이 데이터셋 검증과 연결된다.

5. 공개 데이터로 추가 검증한다

사내 데이터에서만 성능을 보고하지 않고 WM-811K에서 구조를 재평가한다.

6. 재현 가능한 배포 도구를 사용한다

TensorFlow Lite와 Edge TPU compiler 등 일반적으로 접근 가능한 toolchain을 사용한다.

Cons

1. private dataset이라 완전한 재현이 어렵다

ST 데이터는 수율 정보의 민감성 때문에 공개되지 않는다. 클래스 정의, 실제·합성 비율, 합성 절차, lot 분포를 외부 연구자가 동일하게 재현하기 어렵다.

2. 데이터 누설 가능성을 배제하기 어렵다

합성 또는 회전 변형된 유사 샘플이 random split의 train과 test에 동시에 들어가면 accuracy가 과대평가될 수 있다. wafer ID, lot, 시간, 장비 단위의 group split 여부가 명확하지 않다.

3. 99.9% 성능이 실제 원본 데이터의 일반화와 동일하지 않을 수 있다

데이터는 클래스당 2,000장으로 균형화됐고 전문가 선별 합성 데이터가 포함된다. 이 조건은 실제 생산에서 희귀 클래스가 극도로 적고 새로운 변형이 나타나는 자연 분포와 다르다.

4. Quantization loss가 작지만 무시할 수준은 아니다

FP test accuracy 99.922%에서 PTQ 97.35%로 약 2.57%p 감소한다. 전체 accuracy만으로는 어떤 결함 클래스가 양자화로 더 크게 손상됐는지 알 수 없다.

5. 비교의 공정성이 제한적이다

AlexNet 등과 model size·FLOPs·accuracy를 비교하지만, 다양한 최신 mobile architecture를 동일한 hardware와 동일한 hyperparameter budget에서 충분히 비교하지는 않는다. “두 자릿수 또는 두 orders의 전력 절감”은 동일 데이터·동일 보드에서 대형 모델과 직접 측정한 결과가 필요하다.

6. Architecture search가 경험적이다

Test 1, Test 2, Inception 추가 과정은 직관적이지만 exhaustive하지 않다. 왜 Inception block이 하나이며, filter가 32·12·116이어야 하는지 systematic sensitivity analysis가 부족하다.

7. Static closed-set classification에 머문다

58개 알려진 클래스 중 하나를 고르는 문제다. 실제 현장에서 새로운 결함이 발생하면 기존 클래스로 강제 분류할 수 있으며, unknown rejection이나 continual update는 다루지 않는다.

8. 실제 장기 에너지 사용량은 측정하지 않았다

보드의 active power와 throughput은 측정했지만, wafer 도착 간격을 반영한 하루·월 단위 energy, standby, wake-up, shutdown 전략은 future work로 남는다.

9. 비용·열·신뢰성 지표가 빠져 있다

보드 가격이 저렴하다고 논의하지만 정량적인 total cost of ownership, 온도, thermal throttling, 장시간 안정성, 장비 통합 비용은 평가하지 않는다.

15. Step 06 - Takeaway

15.1 입력 해상도 또는 시계열 window도 최적화 변수다

이 논문이 224×224를 찾은 것처럼, 시계열에서는 다음이 resource–accuracy trade-off를 결정한다.

window length
sampling rate
patch size
number of sensors
frequency feature resolution

모델 구조를 바꾸기 전에 입력 표현의 최소 충분 조건을 찾는 실험이 필요하다.

15.2 Domain-specific inductive bias를 남긴다

저자들은 범용 CNN을 무조건 줄이지 않고 wafer defect의 multi-scale spatial structure를 Inception block으로 보존한다. 시계열에서는 sensor relation, operating condition, local temporal pattern을 남기면서 나머지 범용 연산을 줄이는 방식으로 응용할 수 있다.

15.3 Accuracy와 efficiency를 Pareto frontier로 본다

모델 비교를 하나의 accuracy 순위가 아니라 다음 다목적 관점으로 설계할 수 있다.

Model	Accuracy/F1	Params	Latency	Power	Energy/sample
Teacher	높음	큼	느림	큼	큼
Distilled student	중–높음	작음	빠름	낮음	낮음
Quantized student	허용 범위	매우 작음	매우 빠름	더 낮음	더 낮음

최고 정확도 하나보다 Pareto-optimal model을 제시하는 것이 현장 배포 연구의 기여를 더 분명하게 만든다.

15.4 생산 속도와 추론 속도를 연결한다

초당 수백 회 inference가 가능하다는 사실보다 센서 데이터 또는 제품이 얼마나 자주 도착하는지가 중요하다. 필요한 throughput보다 모델이 지나치게 빠르면 idle power와 batching 전략이 전체 에너지를 좌우한다.

16. Step 07 - Limitation

16.1 저자가 제시한 future work

Power-aware kernel implementation
memory load/store처럼 전력 소모가 큰 명령을 줄이고, 경우에 따라 중간 결과를 저장하는 대신 재계산해 에너지와 성능을 trade-off한다.
전용 hardware implementation
범용 보드보다 더 특화된 accelerator에서 모델을 구현한다.
Ternary 또는 binary quantization
INT8보다 bit-width를 더 낮춰 메모리와 연산 에너지를 추가 절감한다.
Power state 최적화
wafer 도착 주기에 맞춰 downclock, standby, shutdown을 적용한다.

16.2 추가로 가능한 후속 연구

A. Lot·시간·장비 단위 external validation

Random image split 대신 서로 다른 lot, 날짜, 검사 장비, 제품군을 train/test로 분리해 실제 domain shift에 대한 일반화를 평가해야 한다.

B. Synthetic-to-real 분리 평가

학습에는 합성 데이터를 사용하더라도 test는 실제 원본 데이터만으로 구성하고, 클래스별 실제·합성 비율과 성능을 보고하면 모델의 현장 일반화 근거가 강해진다.

C. 최신 경량 모델과 공정한 비교

MobileNetV2/V3, EfficientNet-Lite, ShuffleNet, SqueezeNet, TinyML architecture를 동일 해상도, 동일 데이터, 동일 양자화, 동일 보드에서 비교할 필요가 있다.

D. Quantization sensitivity analysis

Layer-wise quantization error와 class-wise recall 변화를 분석하고, 민감한 layer만 FP16 또는 INT16으로 유지하는 mixed-precision 전략을 적용할 수 있다.

E. Open-set/continual learning 결합

새로운 결함은 기존 58개 중 하나가 아닐 수 있다. Unknown rejection, clustering, expert labeling, classifier update를 연결하면 open-world wafer inspection으로 확장할 수 있다.

F. 실제 workload 기반 에너지 평가

실제 검사 장비의 timestamp와 batch arrival trace를 사용해 다음을 포함한 총에너지를 측정할 수 있다.

active inference energy
idle energy
boot/wake-up energy
cooling energy
24시간 또는 wafer 1,000장당 에너지

G. Cost-sensitive metric

모든 클래스 오류 비용이 같지 않다. 치명적 공정 이상 클래스에는 높은 recall을 요구하고, 오경보로 인한 엔지니어 검토 비용까지 포함한 risk-weighted metric이 필요하다.

17. 논문을 읽고 얻은 Insight

Insight 1. 범용 SOTA가 산업 SOTA는 아니다

ImageNet에서 뛰어난 대형 모델이 특정 제조 데이터에서도 가장 좋은 선택이라는 보장은 없다. 산업 현장에서는 accuracy뿐 아니라 자원, 유지보수, takt time, 전력이 함께 평가돼야 한다.

Insight 2. 작은 모델은 데이터가 단순해서가 아니라 설계가 정확해서 강하다

Test 2는 46만 파라미터지만 accuracy가 95.09%다. 거의 같은 크기의 제안 모델은 Inception block을 통해 99.89%를 기록한다. 핵심은 무작정 작게 만드는 것이 아니라 데이터에 필요한 scale의 특징을 남기는 것이다.

Insight 3. 전력, 처리량, 에너지는 구분해야 한다

STM32MP1은 1.2 W로 가장 낮은 전력을 소비하지만 inference당 active energy는 Coral TPU보다 크다. 반대로 Coral TPU는 active efficiency가 높지만 idle time이 길면 전체 에너지 이점이 줄 수 있다.

Insight 4. 실제 real-time은 application arrival rate로 정의된다

wafer 한 장이 90초–5분마다 생성된다면 1,600 inference/s는 필수 조건이 아니다. 가장 느린 MP1도 충분하다. 연구의 목표는 가능한 가장 빠른 시스템이 아니라 필요한 속도를 가장 적절한 자원으로 만족하는 시스템이어야 한다.

Insight 5. 깨끗한 데이터가 경량화의 전제다

균형 잡히고 잘 라벨링된 데이터가 있어야 작은 모델도 높은 정확도를 유지한다. 데이터 품질이 낮으면 모델을 키워도 근본적인 오류를 해결하기 어렵다.

Insight 6. 모델 압축 결과는 실제 hardware에서 확인해야 한다

parameter와 FLOPs 감소가 곧 latency와 power 감소로 직결되지는 않는다. kernel implementation, SIMD, memory access, accelerator 지원, batch size가 실제 결과를 바꾼다.

18. 7-Step 최종 정리

Step	항목	이 논문에 대한 답
01	Problem	기존 wafer map 연구는 범용 대형 CNN의 정확도에 집중해 저전력 장비의 메모리·처리량·전력을 충분히 고려하지 않았다.
02	Idea	wafer map의 multi-scale spatial pattern만 포착하는 478K CNN을 직접 설계하고 INT8로 변환해 실제 edge board에 배포한다.
03	Challenge	58개 클래스 균형화, 경량화에 따른 표현력 손실, quantization error, 하드웨어별 실행 특성, 실제 takt time 정의가 어렵다.
04	Contribution	FP accuracy 99.922%, PTQ accuracy 97.35%, AlexNet 대비 parameter 122× 감소, STM32MP1 1.2 W, Coral TPU 320 i/s/W를 달성했다.
05	Pros & Cons	실제 보드 전체 전력을 측정한 배포 지향 연구지만, private·합성 데이터, random split, 제한된 baseline, closed-set 가정이 약점이다.
06	Takeaway	목표 정확도와 takt time을 먼저 정한 뒤 입력·모델·quantization·hardware를 함께 최적화하고 Pareto frontier로 평가해야 한다.
07	Limitation	group-based external validation, mixed precision, open-set learning, 실제 workload 기반 장기 에너지 측정이 후속 연구 기회다.

19. Conclusion

이 논문은 wafer map 분류에서 높은 정확도를 얻기 위해 반드시 대형 CNN이 필요한 것은 아니라는 점을 보여준다. 저자들은 28 nm 공정의 58개 결함 클래스를 대상으로 AlexNet의 초기 spatial feature extraction과 GoogLeNet의 multi-scale Inception 아이디어를 결합한 478,150개 파라미터의 ad-hoc CNN을 설계한다.

제안 모델은 FP 환경에서 99.922%의 test accuracy를 기록하고, INT8 PTQ 이후에도 97.35%를 유지한다. AlexNet보다 파라미터를 약 122배 줄이면서도 높은 정확도를 보였고, STM32MP1, Jetson, Coral에서 모두 제조 라인의 처리량 요구를 충족했다. 특히 STM32MP1에서는 약 1.2 W로 실행되고, Coral TPU에서는 최대 1,600 inference/s와 320 inference/s/W를 기록했다.

가장 인상적인 부분은 최고 처리량 장치를 무조건 최선으로 보지 않는다는 점이다. wafer inspection의 실제 속도가 90초–5분/wafer라면 5.6 inference/s의 저전력 MP1도 충분하다. 반면 inference 한 건당 active energy만 보면 Coral TPU가 훨씬 효율적이다. 결국 최적 하드웨어는 정확도와 최고 속도가 아니라 workload의 도착 간격, idle power, 가격, 유지보수까지 포함해 결정해야 한다.

다만 private dataset에 전문가 검수 합성 데이터가 포함되고, random split에서 유사 샘플 누설 가능성을 배제하기 어렵다는 점은 성능 해석의 한계다. 양자화로 accuracy가 약 2.57%p 감소한 원인과 클래스별 영향도 더 자세히 분석할 필요가 있다. 또한 새로운 결함을 처리하는 open-set capability와 실제 장기 workload 기반 에너지 측정은 후속 연구로 남는다.

그럼에도 이 논문이 전달하는 메시지는 분명하다.

산업 AI의 좋은 모델은 가장 크거나 가장 빠른 모델이 아니라, 현장의 정확도와 처리량을 만족하면서 가장 적은 자원으로 안정적으로 운영되는 모델이다.

[논문 리뷰] Enhanced detection of unknown defect patterns on wafer bin maps based on an open-set recognition approach (Computers in industry, 2025)

Fri, 10 Jul 2026 02:39:06 GMT

Paper: Enhanced detection of unknown defect patterns on wafer bin maps based on an open-set recognition approach
Authors: Jin-Su Shin, Min-Joo Kim, Beom-Seok Kim, Dong-Hee Lee
Journal: Computers in Industry, Vol. 164, 104208, 2025
DOI: https://doi.org/10.1016/j.compind.2024.104208
Keywords: Wafer Bin Map, Unknown Defect Detection, Open-Set Recognition, One-Class SVM, Entropy Estimation

0. 들어가며: 정확한 분류기보다 먼저 필요한 질문

웨이퍼 빈 맵(Wafer Bin Map, WBM)은 웨이퍼 위 각 다이(die)의 전기적 검사 결과를 공간적으로 나타낸 지도다. 결함이 특정 위치나 방향에 반복적으로 나타나면 WBM에는 Center, Edge-Ring, Scratch와 같은 패턴이 형성된다. 이러한 패턴은 단순한 불량 표시를 넘어 공정 이상, 장비 문제, 설계 결함의 원인을 추적하는 단서가 된다.

기존 WBM 연구의 전형적인 목표는 이미 정의된 결함 클래스를 얼마나 정확하게 분류하는가였다. 그러나 실제 제조 현장에서는 공정 미세화, 신규 장비 투입, 레시피 변경에 따라 학습 데이터에 없던 결함 패턴이 계속 등장한다. 이때 폐쇄형 분류기(closed-set classifier)는 새로운 패턴을 “모른다”고 말하지 못하고, 가장 비슷한 기존 클래스 중 하나로 억지로 분류할 가능성이 높다.

이 논문은 바로 이 지점을 문제 삼는다.

이 논문의 핵심 질문은 “알려진 결함을 얼마나 잘 분류하는가?”가 아니라, “학습한 적 없는 결함을 기존 결함으로 오인하지 않고 어떻게 걸러낼 것인가?”이다.

논문은 이를 위해 Open-Set Recognition(OSR)을 WBM 분석에 적용하고, C-mean filtering, Radon transform, One-Class SVM, entropy 기반 재판정을 결합한 EEOC-SVM(Entropy-Estimation One-Class SVM) 파이프라인을 제안한다.

1. Abstract

반도체 제조에서는 WBM의 결함 패턴을 빠르게 탐지하고 분류해야 품질을 관리하고 원인을 분석할 수 있다. 하지만 기술과 공정이 지속적으로 변하면서 기존 학습 데이터에 포함되지 않은 새로운 결함 패턴이 증가하고 있다. 미지 결함은 사전에 학습할 클래스가 존재하지 않고, 산업 보안으로 데이터가 폐쇄되어 있으며, 대규모 제조 데이터의 라벨링 비용도 높기 때문에 탐지가 어렵다. 그 결과 실제 현장에서는 엔지니어의 경험과 직관에 크게 의존한다.

저자들은 이 문제를 해결하기 위해 OSR 기반 방법론을 제안한다. 먼저 C-mean filtering으로 핵심 패턴을 보존하면서 잡음을 줄이고, Radon transform으로 WBM의 방향성과 위치 정보를 20차원 특징으로 압축한다. 이후 알려진 결함 데이터만으로 OC-SVM의 결정 경계를 학습한다. 마지막으로 결정 경계와 샘플 사이의 거리에서 확률과 entropy를 추정하고, 불확실성이 큰 샘플을 이웃 정보로 재분류하는 EEOC-SVM을 사용한다.

공개 데이터 WM-811K에서 제안법은 평균 정확도 0.92, 미지 클래스 재현율 0.76을 보였고, 실제 제조 현장에서 수집된 Eye와 Windmill 패턴에서는 모든 평가 구성에서 0.98의 정확도와 1.00의 미지 클래스 재현율을 기록했다.

Abstract를 한 문장으로 압축하면,

알려진 WBM 결함만으로 경계를 학습하고, 경계 부근의 애매한 샘플을 entropy와 이웃 구조로 다시 판단함으로써 사전에 정의되지 않은 결함을 탐지한다.

2. Step 01 - Problem

2.1 Closed-set 가정과 실제 제조 환경의 충돌

대부분의 지도학습 기반 WBM 분류기는 학습과 테스트에 동일한 클래스 집합이 존재한다고 가정한다. 예를 들어 학습 클래스가 Center, Donut, Edge-Ring이라면 테스트 샘플도 이 셋 중 하나라고 전제한다. 하지만 실제 현장에서는 신규 공정과 장비로 인해 어느 클래스에도 속하지 않는 패턴이 등장할 수 있다.

이때 일반적인 Softmax 분류기는 모든 출력 확률이 낮더라도 가장 큰 값을 갖는 기존 클래스에 샘플을 할당한다. 즉, 새로운 결함을 탐지하지 못하는 것뿐 아니라 기존 결함으로 잘못 확신하는 문제가 발생한다. 미지 결함의 미탐은 원인 분석 지연, 품질 문제 확산, 추가 검사 비용 증가로 연결될 수 있다.

2.2 왜 미지 결함 데이터를 미리 모아 학습하면 안 되는가?

이 질문 자체가 미지 결함 문제의 역설을 드러낸다.

앞으로 발생할 결함의 형태와 시점을 미리 알기 어렵다.
반도체 데이터는 보안상 공개와 공유가 제한된다.
방대한 제조 데이터를 전문가가 라벨링하는 데 큰 비용이 든다.
새로운 패턴은 표본 수가 적어 안정적인 지도학습이 어렵다.

따라서 미지 클래스 샘플을 충분히 확보한 뒤 다중 클래스 분류기를 다시 학습하는 전략은 최초 발생 시점의 탐지 문제를 해결하지 못한다.

2.3 기존 접근의 한계

논문이 정리한 선행 접근은 크게 네 방향이다.

접근	기본 아이디어	결정적 한계
OOD/IND 동시 학습	알려진 분포 내·외 샘플을 함께 학습	OOD 결함도 사전에 정의하고 수집해야 함
혼합 결함 조합	알려진 단일 패턴의 조합으로 미학습 복합 패턴 표현	전혀 새로운 단일 패턴이나 조합 밖의 유형에는 취약
confidence threshold	확신이 낮은 샘플의 판단을 보류	임계값에 민감하고 알려진 클래스의 recall이 감소할 수 있음
segmentation/feature extraction	핵심 결함 영역을 추출해 후속 분석	unknown 여부를 직접 판정하는 완결된 해법은 아님

따라서 저자들이 정의한 핵심 연구 공백은 다음과 같다.

미지 결함에 대한 사전 정보나 학습 샘플 없이, 알려진 결함 데이터만으로 새로운 WBM 패턴을 안정적으로 탐지하는 실용적 방법이 부족하다.

3.1 Open-Set Recognition

OSR은 학습된 known class는 올바르게 인식하면서, 학습하지 않은 unknown class는 기존 클래스에 배정하지 않고 거부하는 문제다. 일반적인 OOD detection과 유사하지만, OSR은 known class 분류와 unknown rejection을 함께 고려하는 데 초점을 둔다.

논문은 다음 비교군을 다룬다.

SoftMax threshold: 클래스별 출력 확률이 임계값을 넘지 못하면 unknown으로 판단한다.
Pre-SoftMax: Softmax 이전 logit과 클래스별 평균 activation 사이의 거리를 사용한다.
OpenMax: 클래스별 activation의 극단값을 Weibull distribution으로 모델링해 unknown score를 만든다.
VGG16 + GMM: 딥 특징을 저차원으로 줄인 뒤 GMM likelihood로 known/unknown을 구분한다.
OC-SVM: 알려진 데이터가 차지하는 영역의 경계를 학습하고, 경계 밖 샘플을 이상으로 본다.

이 연구가 OC-SVM을 택한 이유는 unknown 샘플 없이도 알려진 데이터만으로 경계를 만들 수 있고, 딥러닝 기반 OSR보다 구조가 단순하며 제조 현장에서 해석·운영하기 쉽기 때문이다.

3.2 WBM의 특징을 어떻게 표현할 것인가?

OSR은 특징 공간에서의 거리와 밀도에 크게 의존한다. 원본 80×80 이미지를 그대로 펼치면 6,400차원이 되어 거리 기반 모델에 부담이 되고, 지나치게 압축하면 중요한 패턴이 사라진다.

WBM 연구의 특징 추출 방식은 다음과 같이 나뉜다.

Geometry: 면적, 장·단축, 반지름, 편심도 등 형태 정보
Density: 웨이퍼를 여러 구역으로 나누고 각 구역의 결함 밀도를 사용
Radon transform: 여러 각도에서 결함 픽셀의 선적분을 계산해 방향성과 위치를 표현
CNN/Autoencoder: 네트워크가 데이터에서 특징을 자동으로 학습

저자들은 WBM 패턴이 위치뿐 아니라 선형 구조와 방향성을 갖는다는 점에서 Radon transform을 선택한다.

4. Step 02 - Idea

잡음은 제거하되 결함의 선형 구조는 보존하고, 방향성 특징으로 known 영역의 경계를 만든 뒤, 그 경계에서 애매한 샘플만 entropy와 이웃 정보로 다시 판단한다.

전체 방법론은 네 단계로 요약된다.

C-mean filtering: WBM의 고립 잡음을 제거하면서 Scratch·Edge-Ring과 같은 패턴을 보존한다.
Radon transform: 2차원 WBM을 방향성과 위치가 반영된 20차원 특징으로 압축한다.
OC-SVM: 알려진 모든 패턴을 하나의 known 집합으로 합쳐 경계를 학습한다.
Entropy-based label replacement: 경계 부근의 불확실한 상위 5% 샘플을 KNN 기반 가중 투표로 재판정한다.

** 알려진 결함만으로 OC-SVM을 학습하고, 테스트 단계에서 entropy 기반 label replacement를 수행하는 전체 구조**

Fig. 1이 전체 학습·추론 구조를 보여준다면, Fig. 2는 Scratch 패턴을 unknown으로 가정했을 때 테스트 샘플이 OC-SVM의 결정 경계와 EEOC-SVM의 label replacement를 거쳐 최종 분류되는 과정을 보여준다.

5. Proposed Method

5.1 C-mean filtering: 패턴을 훼손하지 않는 잡음 제거

WBM에는 실제 결함 패턴과 무관한 고립 불량 다이가 섞일 수 있다. 일반적인 median filter는 주변 픽셀의 중앙값을 사용해 잡음을 줄이지만, 얇고 긴 Scratch나 웨이퍼 가장자리의 Edge-Ring처럼 폭이 좁은 패턴까지 지울 수 있다.

논문의 C-mean filter는 각 결함 픽셀 주변의 국소 평균이 임계값 이상인지 확인한다. 주변에도 충분한 결함 픽셀이 존재하면 패턴의 일부로 유지하고, 그렇지 않은 고립점은 잡음으로 간주해 None으로 바꾼다.

이를 간단히 쓰면 다음과 같다.

$$ \operatorname{Bin}(P_i)= \begin{cases} 2, & \frac{1}{|n_i|}\sum_{j\in n_i}\operatorname{Bin}(P_j) \ge t_c \ 1, & \text{otherwise} \end{cases} $$

여기서 $n_i$는 픽셀 $P_i$의 이웃 영역, $t_c$는 결함 패턴으로 유지할 기준이다. 핵심은 무조건적인 평활화가 아니라 주변 결함 밀도에 제약을 둔 필터링이라는 점이다.

Median filter는 선형 결함을 훼손할 수 있지만, C-mean filter는 핵심 구조를 상대적으로 보존한다.

Insight

이 단계가 주는 교훈은 단순하다. 제조 이미지의 전처리는 일반적인 영상 품질 개선이 아니라, 공정적으로 중요한 형태를 보존하는 방향으로 설계해야 한다. 최신 딥러닝 모델을 쓰더라도 도메인 지식을 반영한 전처리가 데이터 효율성과 해석 가능성을 높일 수 있다.

5.2 Radon transform: 2차원 패턴을 방향성 특징으로 변환

Radon transform은 2차원 이미지에 여러 각도의 직선을 통과시키며 픽셀 값을 누적하는 변환이다. 각도 $\theta$와 원점으로부터의 거리 $\rho$로 직선을 표현하면 다음과 같다.

$$ x\cos\theta+y\sin\theta=\rho $$

WBM $M(x,y)$의 Radon transform $g(\rho,\theta)$는 다음과 같이 나타낼 수 있다.

$$ g(\rho,\theta)=\sum_x\sum_y M(x,y),\delta(x\cos\theta+y\sin\theta-\rho) $$

각 $\rho$와 $\theta$에 대한 값을 모으면 sinogram이 만들어진다. 예를 들어 Scratch처럼 특정 방향으로 늘어진 패턴은 sinogram에서도 뚜렷한 선형 응답을 보인다. 저자들은 각 행의 평균으로 열 벡터 $G_\mu$를 만들고, cubic interpolation으로 이를 20차원 특징 벡터로 변환한다.

즉, 80×80=6,400차원 원본을 20차원으로 줄이면서도 결함의 방향과 공간적 분포를 보존하려는 것이다.

원본 → C-mean → sinogram → 20D feature

Insight

이 논문에서 Radon transform은 단순한 차원 축소 도구가 아니다. WBM의 결함 형태와 잘 맞는 inductive bias다. 데이터가 제한된 제조 환경에서는 대규모 딥러닝 표현을 무조건 사용하는 것보다, 결함 형상과 물리적 의미가 맞는 특징을 선택하는 것이 더 안정적일 수 있다.

5.3 OC-SVM: 알려진 모든 결함을 감싸는 경계 학습

OC-SVM은 입력을 RBF kernel로 고차원 공간에 매핑하고, 알려진 데이터 대부분을 포함하면서 원점과 최대한 떨어진 경계를 찾는다. 목적함수는 다음과 같다.

$$ \min_{w,\xi_i,\rho} \frac{1}{2}|w|^2+ \frac{1}{\nu l}\sum_{i=1}^{l}\xi_i-\rho $$

subject to

$$ w\cdot\Phi(x_i)\ge\rho-\xi_i,\qquad \xi_i\ge0 $$

$\nu$는 경계 밖으로 허용할 샘플 비율 및 support vector 비율과 관련된 하이퍼파라미터다.

흥미로운 점은 Center, Donut, Edge-Ring 등 알려진 하위 클래스를 따로 분류하지 않고 하나의 known class로 합쳐 경계를 학습한다는 것이다. 이 연구의 1차 목표는 known 클래스 사이의 구분이 아니라 known vs. unknown이기 때문이다.

테스트 샘플 $x$의 decision score는 다음과 같다.

$$ D(x)=\sum_{i=1}^{l}\alpha_iK(x_i,x)-\rho $$

$D>0$: known 영역 내부일 가능성이 높음
$D=0$: 결정 경계 위
$D<0$: unknown 영역일 가능성이 높음

** hyperplain 경계 내외부에 대한 sample들을 확인할 수 있음 **

5.4 EEOC-SVM: 거리에서 불확실성을 만들고 애매한 샘플만 재판정

기본 OC-SVM은 경계 안과 밖을 이진적으로 나눈다. 하지만 경계 바로 안쪽과 바로 바깥쪽의 샘플은 사실상 매우 비슷할 수 있다. 저자들은 이 경계 부근 오분류를 줄이기 위해 decision score를 확률처럼 변환한다.

결정 경계 $D=0$에서 known 확률을 0.5로 두고, 양의 거리는 $[0.5,1]$, 음의 거리는 $[0,0.5]$로 각각 Min-Max scaling한다.

$$ P_1(D)=P(\text{known}\mid D),\qquad P_2(D)=1-P_1(D)=P(\text{unknown}\mid D) $$

이후 이진 entropy를 계산한다.

$$ H(D)=-\left[P_1(D)\log_2P_1(D)+P_2(D)\log_2P_2(D)\right] $$

$P_1$과 $P_2$가 0.5에 가까우면 entropy가 크고 판단이 애매하다. 반대로 둘 중 하나가 1에 가까우면 entropy가 작아 확신이 높다.

논문의 label replacement 절차는 다음과 같다.

모든 테스트 샘플의 entropy를 계산한다.
entropy가 가장 큰 상위 5%를 high-uncertainty sample로 선택한다.
각 샘플에 cosine similarity 기반 KNN을 적용한다.
이웃의 예측 클래스와 entropy 기반 가중치를 클래스별로 합산한다.
가중합이 가장 큰 클래스로 최종 라벨을 교체한다.

중요한 점은 전체 예측을 복잡하게 만드는 것이 아니라, 판단이 애매한 일부 샘플만 선택적으로 보정한다는 것이다.

Decision score → probability scaling → entropy → top 5% → KNN weighted vote → relabel

비판적으로 볼 지점

이 확률은 calibration된 사후확률이 아니라 decision distance를 Min-Max scaling한 값이다. 따라서 $P_1(D)$를 엄밀한 확률로 해석하기보다는 경계와의 상대적 거리를 정규화한 confidence proxy로 보는 편이 정확하다. 또한 테스트 배치의 최솟값과 최댓값이 바뀌면 scaling 결과와 entropy도 달라질 수 있다.

6. Step 03 - Challenge

Challenge 1. 잡음을 없애면서 결함 모양을 보존해야 한다

잡음을 적게 제거하면 불필요한 픽셀이 특징 공간을 흐리고, 과도하게 제거하면 Scratch와 Edge-Ring 같은 실제 결함이 훼손된다. 논문은 C-mean filtering으로 이 trade-off를 다룬다.

Challenge 2. 6,400차원 원본과 과도한 차원 축소 사이의 균형이 필요하다

고차원 원본은 거리 기반 모델에 불리하고 계산량이 크다. 반면 geometry 6차원처럼 지나치게 축약하면 패턴 구분 정보가 손실된다. 논문은 Radon 기반 20차원을 중간 지점으로 제시한다.

Challenge 3. unknown 샘플 없이 unknown을 탐지해야 한다

미지 결함의 정의상 학습 단계에 해당 샘플이 없다. 따라서 일반적인 supervised binary classifier를 만들 수 없다. known 데이터의 support만 추정하는 OC-SVM이 이 제약에 대응한다.

Challenge 4. 경계 기반 이진 판단은 불안정하다

결정 경계 근처에서는 아주 작은 변화가 known/unknown 라벨을 뒤집을 수 있다. EEOC-SVM은 entropy로 이런 샘플을 선별하고 국소 이웃 구조로 보정한다.

Challenge 5. 실제 미지 결함으로 검증하기 어렵다

공개 데이터의 클래스 하나를 의도적으로 숨기는 leave-one-class-out 평가는 편리하지만, 진짜 미래 결함과 완전히 같지는 않다. 저자들은 이를 보완하기 위해 공개 데이터에 없는 실제 현장 패턴 Eye와 Windmill을 추가로 평가했다.

7. Experimental Design

7.1 Dataset: WM-811K

논문이 사용한 WM-811K 부분집합은 171,380개 샘플로 구성된다.

Pattern	Samples	Pattern	Samples
Center	4,294	Donut	555
Edge-Loc	5,189	Edge-Ring	9,680
Loc	3,593	Random	866
Scratch	1,193	Near-full	149
None	145,861	Total	171,380

데이터 불균형이 매우 크다는 점이 중요하다. None이 전체의 약 85%를 차지하므로 accuracy만 높다고 unknown detection이 잘된다고 볼 수 없다.

7.2 Leave-One-Class-Out unknown simulation

저자들은 여덟 결함 패턴을 하나씩 unknown으로 숨긴다. 예를 들어 Scratch 시나리오에서는 Scratch를 학습 데이터에서 완전히 제외하고 테스트 세트에만 포함한다. 나머지 클래스는 known으로 사용한다. 이 과정을 모든 결함 클래스에 반복한다.

또한 5-fold cross-validation에서는 known 데이터의 fold만 바꾸고, unknown 클래스는 매 반복에서 100% 테스트 세트에만 포함한다.

7.3 평가 지표

Unknown을 positive, known을 negative로 두면 다음과 같다.

$$ \operatorname{Accuracy}=\frac{TP+TN}{N},\qquad \operatorname{Recall}_{unknown}=\frac{TP}{TP+FN} $$

Unknown recall은 실제 미지 결함 중 몇 개를 미지로 잡았는지 보여준다. 저자들은 unknown 미탐이 품질 리스크로 이어질 수 있다는 점에서 recall을 핵심 지표로 사용한다. 동시에 recall만 높이도록 경계를 넓히면 known 샘플이 대량으로 unknown 처리될 수 있으므로 전체 accuracy도 함께 보고한다.

8. Experimental Results

8.1 WM-811K 기본 성능

Unknown scenario	Accuracy	Unknown Recall
Center	0.94	0.90
Donut	0.94	1.00
Edge-Loc	0.88	0.48
Edge-Ring	0.94	0.95
Loc	0.90	0.54
Random	0.94	1.00
Scratch	0.91	0.21
Near-full	0.94	1.00
Macro Average	0.92	0.76

Main result 요약 정리표 전체 내용은 하단에 Table 6 참고

Donut, Random, Near-full은 recall 1.00으로 잘 검출되지만, Scratch는 0.21, Edge-Loc은 0.48, Loc은 0.54에 그친다. 이 차이는 제안법이 모든 unknown을 균일하게 잘 찾는 것이 아니라, known class와 형태적으로 얼마나 분리되는가에 성능이 크게 좌우됨을 보여준다.

Scratch, Loc, Edge-Loc은 서로 국소적·선형적인 형태가 유사하다. 한 클래스를 숨겨도 나머지 유사 클래스가 known 영역을 형성하므로, 숨긴 클래스가 경계 안으로 흡수될 수 있다. 반대로 Donut, Near-full처럼 다른 클래스와 형태 차이가 큰 패턴은 unknown으로 쉽게 분리된다.

5-fold 결과의 macro 평균도 accuracy 0.92, recall 0.76으로 거의 동일해, 알려진 데이터의 split 변화에는 비교적 안정적이었다.

8.2 Feature extraction 비교

Feature method	Dimension	Macro Accuracy	Macro Recall
CNN Autoencoder	64	0.71	0.40
Flattened image	6,400	0.81	0.51
Radon + Geometry + Density	59	0.87	0.66
Geometry	6	0.83	0.61
Density	13	0.83	0.71
Proposed Radon feature + EEOC-SVM	20	0.92	0.76

Feature extraction 요약 정리표 전체 내용은 하단에 Table 7 참고

결과는 “특징이 많을수록 좋다”거나 “딥러닝 특징이면 무조건 좋다”는 단순한 결론을 지지하지 않는다. 6,400차원 원본도, 6차원 geometry도 최적이 아니었다. 논문의 20차원 Radon 특징이 가장 높은 평균 성능을 보였다.

다만 이 비교는 순수한 feature ablation으로 보기 어렵다. 제안 행에는 Radon 특징뿐 아니라 EEOC-SVM의 label replacement가 함께 들어가므로, 성능 향상이 특징 추출과 entropy 보정 중 어디에서 얼마나 발생했는지 완전히 분리되지 않는다.

8.3 OSR 모델 비교

OSR model	Macro Accuracy	Macro Unknown Recall
Soft-Max	0.82	0.37
Pre-SoftMax	0.82	0.37
OpenMax	0.79	0.44
VGG16 + GMM	0.71	0.52
EEOC-SVM	0.92	0.76

제안법은 차선 모델인 VGG16+GMM보다 accuracy가 0.21, unknown recall이 0.24 높다. 특히 Edge-Ring에서 제안법의 recall은 0.95로, 다음으로 높은 OpenMax의 0.42보다 0.53 높다.

하지만 Scratch에서는 EEOC-SVM recall이 0.21로 비교 모델보다 낮다. 따라서 평균값만 보면 놓치기 쉬운 클래스별 실패 양상이 존재한다.

Accuracy와 Recall 모두 유의미한 성능 결과 이뤄냈다.

9. Case Study 2: 실제 제조 현장 데이터

9.1 새로운 결함 패턴 Eye와 Windmill

저자들은 공개 데이터 실험에서 끝나지 않고 실제 제조 현장의 미지 결함 두 종류를 사용한다.

Eye: Center와 Edge-Ring이 결합된 것처럼 보이는 새로운 단일 패턴, 715개
Windmill: Loc 패턴 네 개가 특정 위치에 반복적으로 나타나는 형태, 221개
총 936개 샘플

모델은 WM-811K만으로 학습하고, 테스트 세트에 다음 세 구성을 추가한다.

Dataset 1: Eye만 추가
Dataset 2: Windmill만 추가
Dataset 3: Eye와 Windmill을 동시에 추가

즉, Dataset 3은 여러 미지 클래스가 동시에 나타나는 상황을 평가한다.

학습에는 WM-811K만 사용

9.2 실제 데이터 성능

Model	Macro Accuracy	Macro Unknown Recall
Soft-Max	0.81	0.63
Pre-SoftMax	0.71	0.65
OpenMax	0.76	0.45
VGG16 + GMM	0.80	0.68
EEOC-SVM	0.98	1.00

EEOC-SVM은 Eye, Windmill, Eye+Windmill 세 구성 모두에서 accuracy 0.98, recall 1.00을 기록했다. 비교 모델들은 복수 unknown이 동시에 등장한 Dataset 3에서 대체로 성능이 하락했지만, EEOC-SVM은 성능을 유지했다.

이 결과는 현장 적용 가능성을 보여주는 논문의 가장 강한 증거다. 다만 공개 데이터에서 Scratch recall이 0.21이었던 것과 비교하면, 실제 데이터 성능 1.00은 Eye와 Windmill이 기존 특징 공간에서 상대적으로 잘 분리된 사례였을 가능성도 있다. 따라서 이를 모든 미래 결함에 대한 일반적 성능으로 확대 해석해서는 안 된다.

9.3 탐지 이후의 활용: clustering으로 unknown 유형 분리

Unknown으로 탐지하는 것만으로는 엔지니어가 새로운 결함 종류를 이해하기 어렵다. 논문은 EEOC-SVM이 unknown으로 판정한 샘플을 UMAP으로 시각화하고 DBSCAN으로 clustering한다.

그 결과 다음 군집이 형성된다.

Cluster 0: known defect pattern
Cluster 1·2: Eye pattern
Cluster 3: Windmill pattern

이는 unknown detection → 유사 샘플 군집화 → 신규 클래스 후보 생성 → 전문가 라벨링으로 이어지는 운영 흐름을 보여준다.

10. Step 04 - Contribution

10.1 방법론적 기여

첫째, 알려진 결함 분류에 집중해 온 WBM 연구를 미지 결함 탐지 문제로 확장했다. 특히 unknown 샘플을 학습에 요구하지 않는 OSR 구성을 제시했다.

둘째, C-mean filtering–Radon transform–OC-SVM–entropy relabeling을 연결해 WBM의 형태적 특성과 불확실성을 함께 고려했다.

셋째, 단순한 threshold rejection을 넘어 경계 부근 샘플을 entropy로 선별하고 이웃 구조로 보정하는 EEOC-SVM을 제안했다.

10.2 실험적 기여

WM-811K 8개 leave-one-class-out 시나리오에서 macro accuracy 0.92, unknown recall 0.76
비교 OSR 모델 대비 accuracy 최소 0.10, recall 최소 0.24 향상
실제 Eye/Windmill 데이터에서 accuracy 0.98, unknown recall 1.00
복수 unknown class가 동시에 나타나는 경우에도 동일한 현장 데이터 성능 유지

10.3 산업적 기여

이 모델은 unknown을 기존 결함으로 강제 분류하지 않고 검토가 필요한 후보군으로 분리할 수 있다. 이후 clustering을 적용하면 유사한 신규 결함을 묶어 엔지니어 검토와 라벨링의 우선순위를 정할 수 있다. 즉, 자동 분류기의 완전 대체라기보다 제조 품질 엔지니어를 위한 조기 경보 및 triage 도구로서 의미가 크다.

11. Step 05 - Pros & Cons

Pros: 강점

1. 문제 정의가 실제 현장과 맞닿아 있다

새로운 결함은 라벨이 생기기 전에 먼저 발생한다. 이 연구는 “충분한 학습 데이터를 모은 뒤 분류한다”는 사후 대응이 아니라 최초 출현 단계의 탐지를 목표로 한다.

2. unknown 학습 데이터가 필요 없다

known 데이터만으로 경계를 학습하므로 보안, 희소성, 라벨링 비용 문제가 큰 반도체 제조 환경에 적합하다.

3. 도메인 지식과 경량 모델을 결합했다

Radon transform은 결함의 방향성을 반영하고, 20차원 특징과 OC-SVM은 상대적으로 가볍다. 모델의 decision distance와 전처리 결과도 딥 네트워크보다 설명하기 쉽다.

4. 공개 데이터와 실제 현장 데이터로 이중 검증했다

leave-one-class-out 실험만 수행하지 않고 Eye·Windmill이라는 실제 신규 패턴을 추가했다는 점은 산업 응용 논문으로서 강점이다.

5. 탐지 이후의 workflow를 제시했다

DBSCAN clustering을 통해 unknown을 신규 유형별로 묶어 라벨링과 클래스 업데이트로 이어질 가능성을 보였다.

Cons: 구조적·환경적 약점

1. 형태가 비슷한 unknown에 취약하다

Scratch recall 0.21, Edge-Loc 0.48, Loc 0.54는 중요한 경고다. known과 unknown의 특징 분포가 겹치면 one-class boundary만으로 구분하기 어렵다.

2. 평가 지표가 충분히 다면적이지 않다

Accuracy와 unknown recall만으로는 false alarm burden을 충분히 알 수 없다. 특히 None이 145,861개인 불균형 데이터에서는 unknown precision, known recall/specificity, FPR, F1, AUROC/AUPR, OSCR 같은 지표가 함께 필요하다.

3. heuristic 의존성이 있다

Entropy 상위 5%, C-mean threshold, OC-SVM의 $\nu$, RBF kernel parameter, KNN 이웃 수 등 여러 설정이 존재한다. top 5%가 다른 공정이나 unknown prevalence에서도 최적이라는 보장은 없다.

4. distance scaling이 확률 calibration은 아니다

Min-Max scaling으로 얻은 $P_1(D)$는 calibrated probability가 아니다. 테스트 배치 구성이나 극단값에 따라 같은 샘플의 confidence가 달라질 수 있다.

5. ablation이 완전히 분리되지 않았다

제안법과 feature extraction 비교에서 Radon 20차원과 EEOC-SVM이 동시에 적용된다. OC-SVM + Radon과 EEOC-SVM + Radon의 직접 비교, entropy selection ratio별 민감도 분석 등이 있으면 각 구성의 기여를 더 명확히 확인할 수 있다.

6. 실제 데이터 검증의 범위가 제한적이다

실제 unknown은 두 유형, 총 936개다. 높은 성능은 고무적이지만 공정·제품·장비·기간이 다른 조건으로 일반화되는지는 추가 검증이 필요하다. 또한 데이터 수집과 선별 과정이 제한적으로 공개되어 재현이 어렵다.

7. known 세부 클래스 분류는 해결하지 않는다

이 모델은 알려진 모든 결함을 하나의 known 집합으로 묶는다. 따라서 unknown을 발견한 뒤 기존 known defect의 구체적 유형까지 제공하려면 별도의 다중 클래스 분류기가 필요하다.

12. Step 06 - Takeaway

이 논문의 가장 유용한 takeaway는 특정 모델인 OC-SVM 자체보다 현장형 unknown handling workflow에 있다.

12.1 “분류”와 “거부”를 분리한다

제조 AI 시스템에서 모든 샘플을 기존 클래스에 강제 배정하지 않고, low-confidence/unknown 후보를 별도 경로로 보낼 수 있다.

Input
  ├─ confident known → 기존 분류·조치
  └─ uncertain/unknown → 군집화 → 전문가 검토 → 신규 라벨 → 모델 업데이트

이는 wafer뿐 아니라 시계열 이상 탐지, 설비 고장 진단, VLA failure taxonomy에도 적용할 수 있다. 기존 failure mode에 맞지 않는 사례를 억지로 분류하는 대신 unknown bucket을 유지하고, 반복 발생한 사례를 군집화해 taxonomy 확장 후보로 삼을 수 있다.

12.2 불확실한 일부 샘플에만 비용을 집중한다

전체 데이터에 고비용 모델이나 전문가 검토를 적용하지 않고, decision boundary 근처의 샘플만 선별한다. 이는 active learning, human-in-the-loop, selective prediction으로 자연스럽게 확장된다.

12.3 도메인에 맞는 representation을 먼저 설계한다

Radon transform을 그대로 다른 데이터에 복사할 필요는 없다. 중요한 것은 데이터의 구조에 맞는 특징을 설계하는 사고방식이다.

WBM: 방향·위치 → Radon feature
시계열: 주기·추세·스펙트럼 → temporal/frequency representation
로봇/VLA: 객체 관계·trajectory deviation → spatial/action representation
산업 설비: 운전 조건·센서 관계 → condition-aware representation

12.4 unknown detection 뒤에 discovery를 붙인다

Unknown 판정은 끝이 아니라 시작이다. 논문의 DBSCAN처럼 unknown 후보를 군집화하고 대표 샘플을 전문가에게 제시하면, 신규 failure mode 발견과 라벨링 효율화로 이어질 수 있다.

13. Step 07 - Limitation

13.1 저자가 제시한 future work

저자들은 다음 연구 방향을 제안한다.

Stream-based online active learning
새롭게 탐지된 unknown을 전문가가 검토하고, 기존 known 분류기의 성능을 유지하면서 신규 클래스를 지속적으로 업데이트한다.
Multi-task learning with language models
WBM 이미지뿐 아니라 공정과 장비의 의심 원인을 설명하는 텍스트 정보를 결합해 결함 원인을 더 상세히 분석한다.

13.2 추가로 가능한 후속 연구

A. Test-batch-independent uncertainty

Min-Max scaling 대신 Platt scaling, isotonic regression, conformal prediction, energy score 등으로 샘플 단위 confidence를 안정적으로 만들 수 있다. 특히 conformal prediction은 원하는 오류율에 맞춰 prediction set이나 rejection rule을 제공할 가능성이 있다.

B. 여러 known class를 보존하는 multi-boundary OSR

모든 known 클래스를 하나로 합치지 않고 클래스별 prototype, hypersphere, mixture density를 학습하면 Scratch–Loc처럼 유사한 패턴 사이의 국소 경계를 더 정교하게 표현할 수 있다.

C. 형태와 공정 문맥의 multimodal 결합

WBM 모양만으로 구분하기 어려운 결함은 장비 ID, recipe, chamber, lot history, sensor trace와 함께 판단할 수 있다. 동일한 형상도 발생 공정과 운전 조건에 따라 의미가 다를 수 있기 때문이다.

D. Continuous/streaming open-world learning

현장에서는 unknown이 한 번만 등장하지 않는다. unknown 탐지, drift 감지, 군집 형성, 전문가 라벨링, 신규 클래스 편입, catastrophic forgetting 방지를 하나의 연속 파이프라인으로 다뤄야 한다.

E. 비용 기반 평가

미지 결함 미탐 비용과 known 샘플 오경보 비용이 다르다. 향후에는 단순 accuracy를 넘어 검사 비용, engineer review load, detection delay, lot-level risk를 포함한 cost-sensitive evaluation이 필요하다.

F. 더 엄격한 실험 설계

공정·장비·시간 기준 external split
unknown 클래스 수 증가에 따른 성능 곡선
unknown prevalence 변화 실험
각 모듈별 독립 ablation
top-$q$%와 KNN $k$에 대한 sensitivity analysis
confidence interval 및 statistical significance
OSCR, AUPR, FPR@TPR 등 OSR 특화 지표

14. 논문을 읽고 얻은 Insight

Insight 1. Unknown detection은 분류기의 부가 기능이 아니라 별도의 문제다

Known-class accuracy가 높아도 unknown을 잘 찾는다는 보장은 없다. 배포 환경이 열려 있다면 classifier 설계 단계부터 rejection과 uncertainty를 고려해야 한다.

Insight 2. 높은 평균 성능보다 “어떤 unknown이 실패하는가”가 더 중요하다

이 논문의 평균 recall은 0.76이지만 Scratch는 0.21이다. 현장에서는 평균값보다 실제 위험도가 큰 결함 유형에서 모델이 실패하는지를 먼저 봐야 한다.

Insight 3. 도메인 특징은 여전히 강력하다

20차원 Radon 특징이 CNN autoencoder와 원본 flattening보다 좋은 결과를 냈다. 제한된 제조 데이터에서는 물리·형상 기반 inductive bias가 복잡한 모델보다 효과적일 수 있다.

Insight 4. Unknown은 즉시 이름을 붙이지 않아도 가치가 있다

처음부터 Eye 또는 Windmill이라는 정답 클래스를 맞히지 못하더라도, 기존과 다른 패턴을 분리해 엔지니어에게 알리는 것만으로 조기 대응 가치가 있다.

Insight 5. 실제 운영의 완성은 feedback loop에 있다

논문의 진짜 확장 가능성은 detect → cluster → inspect → label → update의 반복 구조다. 모델의 한 번짜리 성능보다 새로운 지식을 얼마나 안전하게 축적하는지가 open-world 제조 AI의 핵심이다.

15. 7-Step 최종 정리

Step	항목	이 논문에 대한 답
01	Problem	기존 WBM 분류기는 closed-set을 가정해 학습하지 않은 신규 결함을 기존 클래스로 오분류한다.
02	Idea	C-mean으로 형상을 보존하고 Radon 특징으로 known 경계를 학습한 뒤, 경계 부근 샘플을 entropy와 KNN으로 재판정한다.
03	Challenge	결함 구조 보존형 잡음 제거, 적정 차원 특징 설계, unknown 없는 학습, 경계 불확실성, 실제 미지 결함 검증이 어렵다.
04	Contribution	WM-811K에서 0.92 accuracy/0.76 recall, 실제 Eye·Windmill에서 0.98 accuracy/1.00 recall을 달성했다.
05	Pros & Cons	경량·설명 가능·현장 지향적이라는 강점이 있지만, 유사 패턴과 heuristic, 제한된 지표·현장 데이터에 취약하다.
06	Takeaway	Unknown rejection 뒤에 clustering, human review, active update를 연결하는 workflow를 다른 제조 AI 문제에 적용할 수 있다.
07	Limitation	calibrated uncertainty, multi-boundary OSR, multimodal context, streaming learning, 비용 기반 평가가 후속 연구 기회다.

16. Conclusion

이 논문은 WBM 분석의 초점을 “알려진 결함의 분류 정확도”에서 “학습하지 않은 결함의 조기 탐지”로 옮긴다. 제안된 EEOC-SVM은 C-mean filtering으로 핵심 구조를 보존하고, Radon transform으로 방향성 특징을 추출하며, known 데이터만으로 OC-SVM 경계를 학습한다. 여기에 결정 경계 기반 entropy와 KNN label replacement를 적용해 애매한 샘플의 오분류를 줄인다.

공개 데이터에서 평균 accuracy 0.92와 unknown recall 0.76, 실제 Eye·Windmill에서 accuracy 0.98과 recall 1.00을 기록한 점은 분명 인상적이다. 특히 실제 제조 데이터와 복수 unknown 상황을 검증하고, clustering을 통해 신규 유형 발견 가능성까지 보여준 것은 큰 장점이다.

반면 Scratch와 같은 유사 패턴에서 recall이 크게 낮아지고, 확률 calibration과 threshold 민감도, 불균형 환경의 false positive, 제한된 실제 데이터 범위가 충분히 분석되지 않은 점은 남은 과제다. 따라서 이 모델을 “모든 미지 결함을 해결한 방법”으로 보기보다는, 미지 패턴을 조기에 격리하고 전문가 검토와 지속 학습으로 연결하는 실용적 출발점으로 평가하는 것이 적절하다.

결국 이 논문이 남기는 가장 중요한 메시지는 다음과 같다.

현장 AI는 자신이 아는 것을 맞히는 능력뿐 아니라, 자신이 모르는 것을 구분해 인간에게 넘기는 능력도 갖춰야 한다.

[논문 리뷰] A framework for detecting unknown defect patterns on wafer bin maps using active learning (2025 ESWA)

Sun, 22 Feb 2026 13:25:46 GMT

원문 paper 링크

Motivation

기존 WBM 결함 패턴 분류 연구는 대부분 closed-set 가정에 기반한 지도학습 접근이었으며, 실제 제조 환경에서 새롭게 발생하는 unknown defect pattern을 효과적으로 탐지하지 못한다는 한계 존재함
unknown 패턴이 테스트 또는 운영 환경에 등장하면, 기존 분류기는 이를 알려진 클래스 중 하나로 오분류하여 전체 분류 성능을 저하시킬 수 있으며, 이는 수율 관리와 비용 측면에서 심각한 문제를 초래함
따라서 본 논문은 known 패턴에 대한 높은 분류 성능을 유지하면서도 unknown 패턴을 탐지하고, 이를 active learning과 결합해 지속적으로 모델을 업데이트할 수 있는 통합 프레임워크를 제안

0. Abstract

반도체 제조에서 Wafer Bin Map(WBM)의 결함 패턴을 탐지·분류하고 결함의 원인을 규명하는 일이 품질 관리에 중요하다고 서술
최근 딥러닝 기반 방법이 다수 적용되었으나, 분류 성능 저하, 라벨링 한계, 새로운 결함 패턴의 탐지·학습 불가라는 한계를 가진다고 지적
기존 연구가 “정확도/속도” 최적화에 치우쳐 unknown defect pattern 탐지와 분류를 우선순위로 두지 않았다고 문제를 정의
위 내용을 해결하기 위해 다음의 파이프라인 제안
- known/unknown을 가르는 One-Class SVM 기반 이상 탐지기 설계
- known 패턴은 ImageNet1K로 사전학습된 ResNet50을 transfer learning으로 미세조정해 세부 클래스를 분류
- unknown 패턴은 DBSCAN 클러스터링으로 새 라벨을 부여하고, active learning으로 분류기와 탐지기를 지속 업데이트
WM-811K 데이터셋 실험으로 unknown 패턴 탐지와 known 패턴 분류 성능 유지가 가능함을 검증했다고 주장
실제 산업 데이터에서 WM-811K에 없는 “Eye Defect Pattern”을 unknown으로 두고 적용 가능성을 보였다고 결론

1. Introduction

1.1 Problem Define

반도체 산업이 고집적/나노스케일 공정으로 진화하면서 제조 비용과 결함 리스크가 증가
이전에 없던 unknown, mixed, complex defect가 발생하면 수율 저하 및 공정 안정성 약화를 유발
WBM은 전기적 die test/sort 결과로부터 생성되며,** 불량 칩의 공간 분포를 시각적으로 제공한다고 정의 (Table 1)**
** WBM 결함 패턴은 결함의 root cause와 밀접히 연관**되어 있어, 패턴 분류 및 라벨링이 공정 원인 추적에 도움이 된다고 강조
- 그러나 unknown 패턴의 정확한 분류/라벨링은 여전히 공정 엔지니어의 경험, 직관, 시각 검사에 크게 의존한다고 문제를 제기

기존 접근 한계
1. 다수의 연구가 supervised learning 기반이며, 모든 라벨이 사전에 정의된 closed-set 가정
2. supervised는 Softmax 등 최종 분류층이 “기존 라벨 분포 기반 추론”을 수행하기 때문에 정의되지 않은 결함을 구분하지 못한다고 지적
3. unsupervised는 unknown을 볼 수 있으나, 많은 샘플을 사람이 확인해야 하고 분류 성능이 supervised보다 낮을 수 있다고 정리
4. semi-supervised는 라벨 효율은 개선하지만, unknown 패턴에서 정확한 라벨 부여가 어렵고 탐지 능력이 떨어질 수 있다고 서술

1.2 Contribution

목표는 known 패턴에 대해 높은 분류 정확도를 유지하면서 unknown 패턴을 올바르게 탐지하는 “종합 프레임워크”를 제안
구성은 One-Class SVM(known/unknown), ResNet50 transfer learning(known class 분류), DBSCAN(unknown clustering), active learning 기반 업데이트로 요약
WM-811K와 실제 산업 데이터로 효과를 검증

해당 논문은 관련연구를 supervised, unsupervised, semi-supervised, active learning 관점으로 정리했고, “unknown pattern을 다루지 못한다”는 공통 한계를 중심으로 서술

2.1 Supervised learning

종류: CNN, Dual DCNN, U-Net+CBAM, 개선형 CBAM, WSCN(분류+세그멘테이션), YOLO 기반 위치 예측
목표: 정확도 향상, 모델 경량화, 학습 시간 단축
한계: 정답 라벨과 데이터 균형이 필요하고, 실제 제조 환경에서는 샘플링 검사로 인해 데이터가 불균형·불완전해 라벨 확보가 어렵다고 지적
따라서 unknown 패턴이 발생하면 탐지하지 못해 분류기를 지속 재학습해야 하며 비용이 증가하는 문제 발생

2.2 Unsupervised learning

종류: SVM 기반 초기 분류 후 유사도 랭킹, 극좌표 변환+DPGMM 기반 유사도 랭킹, 텐서 보팅 기반 유사도 비교 등의 접근
한계: unknown 패턴을 시각화/발견할 수 있으나, 라벨 기반 학습이 아니라 분류 정확도와 속도가 떨어지고, 결과 해석을 위해 많은 수작업 검토가 필요함

2.3 Semi-supervised learning

종류: 라벨이 제한된 상황에서 active learning, 회전 불변 표현 학습, PCA 기반 autoencoder, mixed-type을 multi-label로 바꾸는 방법
한계: 기존 라벨과의 유사성에 의존하거나, 발생 가능한 패턴 유형/분포를 사전에 가정하는 경우가 많아 “완전히 새로운 패턴”을 식별하기 어렵다고 지적
- OOD(Out-of-distribution) 탐지 연구도 언급되었으나 관심 OOD 데이터가 함께 학습되어야 하는 제약 존재

2.4 Active learning

본 연구는 unknown 패턴이 공정에서 계속 생길 수 있다는 문제를 반영하여 stream-based를 채택했고, 제조 환경 특성(로트 단위, 심한 imbalance)을 고려해 window-based buffer로 데이터를 모아 처리하는 online active learning을 제안

종류: pool-based와 stream-based active learning
pool-based: 오프라인에서 큰 unlabeled pool 중 정보량 높은 샘플을 고르는 방식이며 closed-set 한계
stream-based: 데이터가 흐르며 즉시 라벨 쿼리 여부를 결정하고 new class도 처리 가능하나, 순차 처리로 선택 품질이 낮을 수 있음

3. Proposed Method

프레임워크 4step으로 구성되어 있기에 이를 기준으로 각 subsection 별로 설명

1) unknown defect 탐지 2) known class 분류 3) unknown에 대한 unsupervised clustering 4) active learning 추가로, offline 학습(탐지기·분류기 학습)과 online 테스트(운영 중 unknown 수집 및 업데이트)로 구조 분리

offline training과 online test, 그리고 unknown buffer와 active learning 업데이트 루프 과정

3.1 Step 1: detect unknown defect patterns

Step 1은 OSR(Open Set Recognition) 및 anomaly detection 관점으로, 운영 환경에서 들어오는 샘플을 known/unknown으로 binary classification 진행
목적: Step 2 분류기가 unknown을 known으로 오분류하여 성능이 무너지는 것을 최소화하는 것
따라서 “패턴의 상세 클래스”가 아니라 “known인지 unknown인지”만 결정

3.2 Step 2: classification of known pattern samples

Step 2는 supervised learning 기반 분류기로 known class를 세부 클래스로 분류

backbone으로 ResNet, DenseNet, ViT, EfficientNet 등을 언급했으나, 본 연구 구현에서는 ResNet50 기반 pre-trained classifier를 구축

WM-811K 데이터의 severe imbalance 문제를 고려해, ImageNet1K로 사전학습된 ResNet50의 convolution layer 가중치를 활용하는 transfer learning을 적용 (Fig 5, 6에서도 pre trained model 구조와, transfer learning 방식에 대해서 설명)
convolution layer를 동결하지 않고 fine-tuning을 수행해 WBM 도메인에 적응하도록 함.

ResNet 구조 설명

ResNet의 residual block이 gradient vanishing을 완화하기 위한 skip connection 구조
ResNet50은 bottleneck 구조(1×1로 차원 축소, 3×3으로 학습력 유지, 1×1로 복원)를 사용해 파라미터 수를 줄이고 과적합을 완화

클래스별 최적 Threshold 기반 unknown 재판정

논문은 Step 1에서 unknown이 known으로 들어오는 경우를 고려했다고 서술했다.

이를 완화하기 위해 ResNet50 다중분류 과정에서 Unknown Defect Pattern Class를 개념적으로 도입하고, One-vs-All 방식으로 클래스별 threshold를 학습해 “어느 known 클래스도 임계값을 넘지 못하면 unknown으로 처리”하는 다단계 프로세스를 설계했다고 설명했다. (Fig. 7에서 핑크색 부분)

임계값 탐색은 Algorithm 1에 제시되어 있으며, 평가 지표로 precision을 사용

3.3 Step 3: unsupervised learning for unknown pattern samples

WBM은 80×80 형태이며, 고차원에서 클러스터링은 curse of dimensionality로 비효율적일 수 있다.
misclassified known 샘플과 true unknown 샘플을 구분하기 위해 차원 축소가 필요하다고 논문이 주장했다.
본 연구는 unknown으로 판정된 샘플에 대해 t-SNE로 차원 축소 및 시각화를 수행했다고 설명했다.
이후 여러 클러스터링 알고리즘을 비교했고, cluster proportion 지표로 “동일 결함이 동일 클러스터에 모이는 정도”를 정량화했다고 서술했다.
DBSCAN을 최종 선택한 이유는 (Fig. 7. visualization 부분) (1) 클러스터 개수를 사전 지정할 필요가 없고, (2) 비선형 클러스터 및 노이즈에 강하며, (3) 반도체 환경에서 defect 수를 미리 알기 어렵다는 특성과 맞기 때문이다.

3.4 Step 4: Model update process based on active learning

Step 4는 탐지기와 분류기를 unknown 패턴으로 update하는 단계 (Fig. 8. 업데이트 과정)
DBSCAN으로 군집화하여 엔지니어가 검토할 데이터의 노이즈와 양을 줄이고, HITL(Human-in-the-loop)로 최종적으로 unknown 패턴 존재와 라벨을 확정
unknown 패턴이 기존 패턴과 유사하거나 anomaly detector가 예측 가능하면 active learning만으로도 충분할 수 있으나, 패턴 정의가 추가로 필요하면 엔지니어 도메인 지식이 효과적

4. Case study 1: using WM-811K dataset

4.1 WM-811K dataset

실험 목표 및 구성
- WM-811K 오픈 데이터셋으로 제안 프레임워크의 각 모듈을 설명하고 성능 검증
- “Original classifier(업데이트 전)”와 “Updated classifier(active learning 후)”를 비교했고, 모든 결함을 미리 학습한 benchmark classifier와도 비교
데이터 설명
- WM-811K는 총 811,457장의 WBM 이미지로 구성되며, 약 21.3%만 라벨이 있고 나머지 78.7%는 unlabeled
- 결함 패턴은 8종(Center, Donut, Edge-Loc, Edge-Ring, Loc, Random, Scratch, Near-Full)과 정상(None) 1종으로 구성
- unknown 패턴 시뮬레이션을 위해 8개 결함 패턴을 하나씩 “leave one out”으로 unknown 처리하여, 해당 패턴을 train/val에서 제외하고 test에는 포함하는 8개 시나리오
- None 패턴은 항상 known으로 가정해 모든 학습 시나리오에 포함

4.2 Step 1: detect unknown defect pattern samples (with One-Class SVM)

One-Class SVM을 abnormal detector로 선택했고, known defect를 하나의 클래스처럼 취급하여 “known defect 범위 밖이면 unknown”으로 판단하는 방식으로 설계
rbf 커널을 사용했고, NU 파라미터를 grid search로 0.10으로 설정

8개 시나리오 평균 macro accuracy가 85.4%
Center 87%, Donut 90%, Edge-Loc 81%, Edge-Ring 72%, Loc 83%, Random 91%, Scratch 88%, Near-Full 91%
특히, Edge-Ring 시나리오가 상대적으로 낮은 정확도를 보였다는 점이 수치로 확인되어 이는 Step 2/Step 4 보강이 필요한 현실적 근거로 작동함

4.3. Step 2: classification of known pattern samples (with ResNet50)

unknown 패턴이 test에 존재하면 supervised classifier는 이를 제대로 탐지하지 못해 오분류가 발생하고 성능이 저하
Table 6에서 Step 4 적용 전(original classifier) 성능을 제시한 것을 봤을 때, macro accuracy가 약 0.90, 평균 F1-score가 0.83임을 확인할 수 있다.

이 결과는 “unknown을 처리하지 않으면 분류기가 잘 학습된 것처럼 보이더라도 실제 운영에서는 성능이 무너질 수 있다”는 논문의 문제의식을 수치로 뒷받침한다.

4.4 Step 3: unsupervised learning for unknown pattern samples

t-SNE를 사용해 unknown 후보 샘플을 저차원으로 임베딩하고 시각화
여러 클러스터링 알고리즘을 적용해 cluster proportion으로 비교했으며, Table 7에서 DBSCAN이 macro 89%로 가장 우수
KMEANS는 유사한 패턴(Edge-Loc, Loc, Scratch 등)에서 성능이 낮은 것을 볼 수 있고, hierarchical clustering은 성능이 유사할 수 있으나 패턴별 threshold 지정이 필요하다.
따라서 DBSCAN을 선택

4.5. Step 4: Model update process based on active learning

DBSCAN 군집화 → 엔지니어 라벨링(HITL) → 업데이트 학습으로 분류기를 unknown 클래스까지 포함해 재학습하는 과정

performance gain ratio를 함께 제시하여 업데이터 전/후에 대한 성능 확인 가능
- precision +14%, recall +6%, F1 +10%, accuracy +4% 개선
updated classifier 성능을 확인했을 때, macro 평균
- precision - 0.91
- recall - 0.91
- F1 - 0.91
- accuracy - 0.94

해당 막대그래프를 봤을 때, 업데이트 전후 성능 차이를 직관적으로 확인할 수 있음

4.6(추가) - Benchmark 및 관련 연구들과의 비교 실험

모든 결함 클래스를 포함해 학습한 benchmark classifier의 클래스별 정밀도/재현율/F1과 샘플 수 확인
데이터가 많다고 항상 좋은 것이 아니며(Near-Full과 Scratch 비교), 라벨 노이즈가 경계가 불명확한 패턴에서 성능을 악화시킬 수 있음을 확인
또한 WBM은 경계가 흐린 패턴이 많아 Edge-Loc vs Loc, Scratch vs Loc/Edge-Loc 같은 혼동이 발생할 수 있음

Table 10에서 related studies와 updated classifier를 macro, micro accuracy로 비교했고, micro accuracy는 None 비중이 매우 커서 높게 나올 수 있음을 함께 설명
updated classifier는 micro accuracy 0.98 수준으로 상위 성능군에 속하고, macro accuracy도 0.94로 경쟁력 있음을 확인함.

5. Case study 2: using real field data

실험 목적과 데이터 구성
- 실제 제조 현장 데이터로 제안 방법의 현장 적용성 평가
- 공정 관심 영역의 wafer bin 번호를 선택해 WBM 이미지로 전처리하였으며, 전체 WBM을 공정 엔지니어가 도메인 지식으로 라벨링 진행
WM-811K만으로 학습한 existing classifier를 real field test 데이터(unknown “Eye” 포함)에서 평가하고, proposed method 적용 후 proposed classifier와 비교

5.1 Real field industrial data

Fig. 10에서는 실제 데이터 결함 패턴 예시 시각화

결함 클래스는 Edge-Loc, Center, Edge-Ring, Eye, Near-full, Scratch로 구성
- Eye는 WM-811K에 없는 unknown single defect pattern이며, Center와 Edge-Ring이 결합된 mixed defect처럼 볼 수 있음

Fig. 11에서는 real field 데이터의 패턴 분포

Fig. 12에서 학습 데이터는 WM-811K의 9패턴(known)만 포함하고, test에만 Eye를 추가해 총 10패턴으로 평가하는 구성을 제시

5.2. Performance for real field industrial data

Table 11에서 existing classifier의 성능을 제시했고, Eye 클래스는 학습되지 않았으므로 precision/recall/F1이 모두 0

Eye와 유사한 Center, Edge-Ring 및 Near-full, Random 등에서도 오분류 영향으로 성능이 안 좋아지는 것을 확인할 수 있음
macro 평균
- precision 0.69
- recall 0.81
- F1 0.72
- accuracy 84%

Table 12에서 proposed classifier 성능을 제시하여, Eye 클래스에 대한 성능을 확인함.

precision - 1.00
recall - 0.88
F1 - 0.94
전체 macro 평균은 precision 0.88, recall 0.89, F1 0.88, accuracy 92%
performance gain ratio는 precision +28%, recall +10%, F1 +22%, accuracy +10%로 제시

Fig. 13에서 confusion matrix를 통해 predict 분포를 확인할 수 있음

Table 13에서 unknown detect ratio(Recall) 0.91, anomaly detection accuracy 0.89, unknown cluster proportion 1.00 등을 포함한 종합 지표를 보이고 있음

6. Conclusions

기존 WBM 분류 연구가 unknown defect 패턴의 등장과 그로 인한 분류기 성능 저하를 충분히 고려하지 못했다고 문제를 강조
본 연구는 unknown 패턴을 효과적으로 탐지하면서 known 패턴 분류 성능을 유지했고, active learning으로 탐지기와 분류기를 지속 업데이트하는 전략을 제안
WM-811K에서 Step 4 미적용 시 모든 지표가 최소 4%에서 최대 14%까지 악화될 수 있음을 언급하며, Step 4 적용 후 성능이 유의미하게 개선됨을 강조
real field 데이터에서 Eye unknown 패턴을 포함할 때 proposed classifier가 existing classifier 대비 10%~28% 개선을 보임
프레임워크 적용이 실제 제조 환경에서 비용 절감과 품질 관리 강화로 이어질 수 있다고 주장

Future works

known 패턴만으로 unknown 탐지 효율을 높이기 위해 OSR과 zero-shot learning 등을 탐색
또한 known 패턴으로 학습된 딥네트워크 레이어를 활용해 uncertainty estimation과 clustering을 결합하고, data selection을 고도화해 active learning 효율을 높일 수 있을 것 같다.

[논문 리뷰] Deep open-set recognition for silicon wafer production monitoring (2022 Pattern Recognition)

Fri, 20 Feb 2026 05:27:05 GMT

원문 paper 링크

Motivation

실리콘 웨이퍼 생산 모니터링의 중요성
WDM의 특성 및 문제점
기존에 관찰되지 않았던 새로운 결함 패턴(novel patterns)을 조기에 감지하는 것이 매우 중요

1. Introduction

핵심 목표 반도체 생산에서 wafer가 여러 단계 검사 장비를 거치며, 각 검사 결과로 결함 좌표 리스트인 WDM이 나온다. 정상 상태에서는 결함이 드물고 랜덤 분포지만, 특정 패턴(예: 링, 스크래치, 클러스터 등)이 나타나면 공정 문제와 연관되어 신속한 조치가 필요하다. 또한 제조 현장에서는 기존에 알려진 패턴뿐 아니라 처음 보는 새로운 패턴도 발생할 수 있으므로, 이를 탐지하는 것이 “분류보다 더 어렵고 중요할 수 있다.”

Fig. 1 Wafer 설명 이미지
- (a): Wafer 이미지 예시
- (b): Wafer Defect Map(WDM) 패턴 예시
- ST 데이터셋에 존재하는 12가지 알려진 결함 클래스(예: Edge, Center, Donut, Normal 등) 각각에 대한 WDM 예시와 해당 클래스의 인스턴스(데이터 샘플) 수
  
  1.1 Problem Define

Wafer Defect Map(WDM) 기반 패턴 인식은 기존 연구가 풍부하지만, 대부분이 known 패턴만 가정하는 closed-set 분류에 머물러 실제 제조 현장에서 중요한 새로운(unknown/novel) 결함 패턴 탐지(open-set)를 충분히 다루지 못했다고 했다.
WDM는 결함 좌표가 20,000×20,000 격자 규모로 표현될 수 있어, 이를 원 해상도 이진 이미지로 그대로 CNN에 입력하는 것은 메모리·연산 측면에서 사실상 불가능하다고 했다.
기존 방법들은 WDM를 Wafer Bin Map(예: 200×200)으로 축소하는 전처리를 사용해 왔지만, 저자들은 이 binnning 과정이 정보 손실을 유발하여 분류/탐지 성능을 떨어뜨릴 수 있다고 문제를 제기했다.

1.2 Contribution

full-resolution WDM를 처리하는 custom SSCN 아키텍처를 제안했다.
WDM 모니터링을 open-set recognition으로 처음 다루고, GMM 기반 novelty detection을 제안했다.
클래스 불균형을 줄이기 위한 WDM 특화 data augmentation(특히 noise injection, random mixing)을 설계했고, open-set 상황에서도 test-time augmentation을 안전하게 쓸 수 있음을 논증했다고 했다.

자세한 reference는 논문 본문 내용을 참고하면 좋을 것 같다.

2.1 Wafer monitoring 관련 연구

WDM가 “거대한 이진 이미지(여기서는 20,000×20,000)”에 해당하여 표준 CNN 입력으로 쓰기 어렵기 때문에, 대부분의 기존 연구가 WDM를 Wafer Bin Map으로 축소
초기 연구들은 지역/기하 기반 handcrafted feature(면적, 둘레, 클러스터 밀도 등)와 SVM/결정트리 등을 사용했으나, 패턴의 회전/이동/부분 패턴에 취약하고, 무엇보다 새로운 패턴 탐지에는 불리
이후 CNN 기반 방법들이 Wafer Bin Map을 입력으로 하여 성능을 높였지만, 여전히 closed-set이며 novelty detection을 제공하지 못함
WM-811K 같은 공개 데이터셋은 이미 bin map 수준의 작은 이미지이므로, 본 논문이 목표로 하는 원해상도 WDM 처리를 검증하기에는 부적절

2.2 Open-set Recognition

Open-set recognition
- “known classes를 인식하면서, 어느 known에도 속하지 않는 샘플을 novelty로 검출”하는 문제
전통적 방법(SVM 경계 수정, centroid 거리, sparse representation reconstruction error)에서 출발해, 최근에는 딥러닝 기반 방법(OpenMax, compact decision regions, latent space outlier detection, semantic space embedding, autoencoder 기반 방법 등)이 발전
autoencoder 기반 방법은 작은 이미지에 맞춰져 있어 WDM에 직접 적용하기 어려움
wfaer 맥락에서 SEM 이미지 기반 open-set 연구는 있으나, 이는 localized defect 이미지이며 WDM와 입력 특성이 달라 직접 적용이 어려움

3. Problem Formulation

notation
- WDM $$w$$: wafer 내 결함 위치는 2-dimension 좌표 list 형태이며, 패턴 인식 관점에서는 $$w \in {0,1}^{K \times K}$$의 이진 이미지로 볼 수 있다.
- 정상 상태에서는 결함이 드물고 무작위 분포하지만, 공정 실패는 Fig. 1(b)와 같은 패턴이 만들어진다. 이 패턴은 known class $$ℓ∈L$$ 일 수도 잇고, 이전에 관측되지 않은 novel pattern일 수도 있다. 저자들은 open-set 문헌의 unknown/out-of-distribution 용어 대신, 산업 맥락에서 “새로운 결함 패턴”임을 강조하기 위해 novelty라고 부른다고 했다.

목표는 open-set classifier 𝐾를 학습하여 각 WDM에 대해 known label 또는 Novel을 출력하는 것

두 가지 핵심 문제

입력 크기 문제: full-resolution WDM의 크기가 매우 커서(여기서는 K=20,000), single precision gray-scale 이미지로 로드하면 약 3GB가 필요하다고 함
극단적 클래스 불균형: Normal이 압도적으로 많고 BasketBall 등은 매우 희소함 (Fig. 1(b) 참조).

4. Proposed Solution

논문은 제안 방법을 (4.1) known-class 분류, (4.2) novelty detection, (4.3) data augmentation, (4.4) 전체 파이프라인으로 구성해 설명

4.1 Classification of known classes: Submanifold Sparse Convolution Network(SSCN)

원문은 “open-set 문제는 known-class 다중분류를 포함한다”고 전제한 뒤, 일반 CNN이 full-resolution WDM에 직접 적용 불가하다고 했다(VGG16/ResNet50의 입력 크기 예시로 224×224 RGB 언급). 따라서 WDM를 효율적으로 처리하기 위해 Submanifold Sparse Convolution(SSC) 기반 네트워크를 구축했다고 했다.
SSC는 일반 convolution과 출력 형태는 같지만, receptive field의 active sites(즉 입력의 non-zero 위치)에서만 출력을 계산하도록 설계된 연산자

이 성질 때문에 SSC는 입력 희소성을 유지하며(active locations 수를 증가시키지 않음), 이는 일반 convolution이 희소성을 “퍼뜨리는(densify)” 것과 대비되는 것을 위 figure에서 확인해볼 수 있음

SSCN architecture

아키텍처는 VGG16의 convolutional part에서 영감을 얻되, SSCN block을 반복하는 구조로 설계
각 block은 SSC + BatchNorm + ReLU + stride 2 MaxPool로 구성되어, block 하나당 해상도를 각 차원에서 2배씩 줄임
전체는 13개의 block 이후 convolution layer를 거쳐, 각 WDM을 128차원 latent representation $$L(w)$$로 변환
최종적으로 FC + SoftMax로 known class 점수를 출력

저자들은 기존 CNN 기반 방법과의 차이를 “기존은 binning 전처리로 정보 손실이 발생할 수 있으나, SSCN은 full-resolution에서 정보를 버리지 않는 data-driven 처리”라고 강조했다. 또한 13번 pooling으로 downsampling factor가 2^13이며, 이는 기존 CNN 기반 WDM 분류에서 언급된 downsampling(예: 2^5)보다 훨씬 크다고 했다. 파라미터 수는 164,077로, VGG16의 큰 FC 층을 쓰지 않아 훨씬 적다고 했다.

내 생각
- 해당설계는 WDM를 “이미지”로 억지로 다루기보다, 본질적으로 “희소한 좌표 집합”이라는 성질을 활용해 연산량을 줄이는 방향
- feature map이 layer를 거치며 불필요하게 densify되지 않게 하는 것이고, 이는 거대 해상도에서 연산/메모리 병목을 회피하는 실질적 전략을 보임
- 13번의 down sampling을 통해 wafer 이미지의 방대한 full-resolution에서 시작해도 latent 정보를 얻을 수 있다는 게 좋은 것 같다.

4.2 Detection of novel patterns: Gaussian Mixture Model (GMM) outlier in latent space

open-set의 두 번째 과제는 known class가 아닌 샘플(=novelty)를 탐지하는 것

분류기 penultimate layer의 latent representation $$L(w)$$에 outlier detector를 적용하는 접근을 사용
분류기는 같은 클래스 샘플을 latent space에서 비슷한 영역으로 모으는 경향이 있으므로, known classes의 latent 분포는 multimodal 분포 𝜙로 볼 수 있고, novelty는 이 분포의 저밀도 영역에 위치할 것이로가 함.

이를 위해 known class 개수($$L$$)만큼의 component를 갖는 GMM을 적합해 latent 분포를 모델링

novelty score는 그 negative log-likelihood $$S(w)$$로 정의
판정은 𝑆(𝑤) > 𝜂면 Novel로 두며, η는 known 샘플에서 false positive 확률이 목표값 α가 되도록 설정
또한 GMM 과적합을 막기 위해, 학습 데이터 중 90%로 SSCN을 학습하고, 다른 5%의 latent로 GMM 파라미터를 EM으로 추정하며, 남은 5%로 score 분포를 계산해 (1−𝛼)-quantile로 threshold를 잡음

4.3 Data Augmentation

ST 데이터셋이 “전통적 이미지 분류 데이터셋에 비해 작고, 클래스 불균형이 극단적”이어서 과적합 위험이 크기에 이를 완화시키기 위한 작업인 data augmentation이 필요하다.

이를 완화하기 위해 label-preserving 변환 집합 $$𝑇^ℓ$$을 정의
회전/좌우반전/작은 평행이동 같은 일반적 변환 외에 WDM에 특화된 두 변환을 추가

Noise injection: Normal wafer에는 불순물로 인한 무작위 결함이 항상 존재하므로, 소수의 랜덤 결함을 추가해도 레이블이 바뀌지 않는다고 했다. 특히 Normal WDM에서 결함 수의 경험적 분포 𝜓를 구하고, 여기서 샘플링한 결함 수 𝐷개를 wafer 내부에 균일한 polar coordinate로 추가
Random mixing: BasketBall, Slice처럼 under-represented 클래스에서 같은 클래스의 WDM 일부를 랜덤 crop하여 겹쳐 합성(superimpose)함으로써 새로운 학습 샘플을 만든다고 했다. 이는 mixup과 유사하지만, WDM에 맞게 설계되었고 라벨은 바꾸지 않는다고 했다. 또한 STMicroelectronics 엔지니어가 원본과 합성본을 구분하지 못했다는 경험적 검증을 언급했다.

Test-time Augmentation

테스트에서 여러 증강 버전의 예측을 평균해 안정화하는 접근을 취하며, open-set에서도 안전하려면 변환이 Novel 레이블도 보존해야 한다고 했다. 회전/반전/이동은 역변환이 존재하는 구조로 인해 Novel 보존을 논증했고, noise injection은 본질적으로 모든 클래스에 자연 잡음을 모사하므로 Novel도 보존한다고 설명

4.4 WDM monitoring pipeline

최종 파이프라인, 테스트 WDM $$w$$에 대해 N 개의 증강 맵 $$A_w$$을 만들고, 네트워크에 모두 통과시켜 novelty score와 classification score를 각각 평균한다. 평균 novelty score가 threshold를 넘으면 Novel로 판단하고, 아니면 known class 점수 평군이 최대인 클래스로 분류한다고 함. (N = 250으로 실험) (7)과 (8) 수식은 위 내용을 포함하고 있다.

5. Experiments

5.1 Setup

datasets:
- ** STMicroelectronics의 Agrate Brianza(Italy) 공장에서 획득·라벨링된 ST dataset을 사용했고, 총 31,893개 WDM이라고 함. WDM는 Normal 또는 12개 결함 클래스 중 하나로 라벨링되어 있으며, Fig. 1(b)에 클래스 예시와 개수가 함께 제시**
Open-set 평가 설계:
- 일반적으로 CIFAR-100/ImageNet처럼 클래스가 많은 데이터에서 일부 클래스를 제외해 Novel로 둠 하지만, , 본 산업 데이터는 결함 클래스가 12개뿐이고 실제 novelty 라벨이 없다.
- 그래서 leave-one-out으로 12개의 결함 클래스 중 하나를 학습에서 제외하고, 그 클래스를 테스트에서 Novel로 간주하여 novelty detection 성능을 평가했다고 했다. Normal 클래스는 항상 known으로 둠
Metric:
1. confusion matrix
2. multi-class AUC 2개 (1vsRest-AUC, 1vs1-AUC)

5.2 Classification of known classes

저자들은 먼저 13개 클래스에 대한 closed-set 분류 성능을 평가

학습/연산 환경
- Adam optimizer, NVIDIA Titan Xp GPU에서 100 epoch 학습에 약 8시간이 걸렸다고 했다. WDM 1개 분류 평균 시간은 0.061 ± 0.055초이며, 이는 N=250 증강 생성 및 처리 시간을 포함한다고 했다. SSC layer 연산량이 입력 sparsity에 의존하므로 클래스별로 시간 변동이 크다고 해석했다.

비교 방법:
- 제안 SSCN은 full-resolution WDM을 직접 처리한다.
- 비교군으로는 WDM를 20,000×20,000에서 224×224로 binning해 grayscale 이미지(픽셀 값=해당 bin 내 결함 수)로 만든 뒤, ImageNet pretrained VGG16과 ResNet50을 fine-tuning했다고 했다.
- 공정 분야에서 pretrained CNN fine-tuning이 표준적이어서 이를 비교군으로 삼았다고 했다.
- custom wafer CNN(다른 논문)의 pretrained 파라미터가 공개되어 있지 않아, ST dataset 규모에서 scratch 학습은 과적합 위험이 커서 제외했다고 했다.
증강 효과 실험: SSCN을 (i) 증강 없이, (ii) 전통적 기하 증강만, (iii) 제안 증강(노이즈 주입+랜덤 믹싱 포함)으로 비교했다고 했다. VGG16/ResNet50도 동일하게 비교했다고 했다.

Result

해당 confusion matrix는 SSCN이 전반적으로 높은 분류 정확도를 보임을 나타내며, 오분류는 주로 패턴이 유사한 클래스(예: ClusterSmall과 Incomplete) 사이에서 집중됨을 보여 준다.

해당 10-fold cross-validation 기반으로 클래스별 정확도와 1vsRest-AUC/1vs1-AUC를 제시하며, SSCN이 1vs1-AUC에서 최상위(rank=1)를 기록해 불균형 상황에서도 defect 클래스 분류 성능이 안정적임을 보여 준다. 또한 제안 증강(noise injection, random mixing)이 전통적 기하 증강 대비 성능 향상에 기여함을 차이값으로 제시한다.

SSCN은 13개 클래스 중 6개 클래스에서 다른 방법보다 높은 정확도를 보였고, 전체적으로 1vs1-AUC 기준으로는 SSCN이 모든 fold에서 1위(avg rank=1)였다고 했다.
ResNet50은 Normal 클래스 정확도가 높아 1vsRest-AUC에서는 유리했으나, 클래스 비율 영향을 제거한 1vs1-AUC에서는 SSCN이 더 좋은 trade-off를 보였다고 해석했다.
증강을 제거하면 특히 소수 클래스 정확도가 크게 떨어졌고, 제안 증강이 불균형에 대한 강건성을 높인다고 결론냈다.

5.3 Detection of novel patterns

open-set 성능은 “leave-one-out로 특정 defect class를 Novel로 간주”하여 평가했다. 비교는 동일한 SSCN 기반에서 novelty score를 다르게 정의하는 방식으로 공정하게 수행했다고 함.

비교 기법: SoftMax baseline, PreSoftMax, OpenMax, SoftMax entropy(SME), latent 기반 Isolation Forest(IFOR), confidence interval(CI), 그리고 제안 GMM이라고 했다.
평가: Novel vs Known 이진 AUC로 비교하고, novel class별 AUC 및 평균 rank를 보고, Wilcoxon test로 유의성을 검정함. 일부 클래스에서는 Mann–Whitney test로 best vs second-best AUC 차이 유의성을 검정했다고 함.

해당 Table에서는 leave-one-out로 정의한 Novel 클래스별 AUC를 비교한 결과로, 제안 GMM이 12개 중 8개 Novel 클래스에서 최고 성능을 기록하고 평균 rank에서도 1위를 차지함을 보여 준다. 또한 Wilcoxon 검정 결과를 통해 제안 방법이 다른 기준 방법들 대비 유의하게 성능이 높다는 점을 뒷받침한다.

6. Conclusion

결론에서 저자들은 대규모 wafer 자동 모니터링이 산업적으로 중요하며, 본 논문은 WDM에 대한 open-set 패턴 인식을 다룬다고 정리했다.

Submanifold Sparse Convolution 기반의 단순한 딥러닝 모델이 full-resolution WDM 입력에서 클래스 불균형에 더 강건하며, 이는 WDM를 binning으로 줄이는 것이 정보 손실을 유발할 수 있음을 시사한다고 했다.

또한 WDM에서 open-set을 처음으로 다루고, SSCN latent에 GMM을 적합한 novelty detector가 기존 open-set 방법보다 우수하다고 결론냈다.

WDM 특화 증강이 성능에 중요하며, test-time augmentation도 known과 Novel 레이블 모두 보존하므로 open-set에서도 안전하다고 재강조했다.

추가로, 여러 STMicroelectronics 생산 사이트에 배포를 진행하고 있으며, point cloud를 다루는 다른 산업 문제로 확장도 연구 중이라고 했다. 향후에는 autoencoder latent가 GMM 분포를 따르도록 유도하는 기법을 참고해, classifier와 GMM을 joint training하는 방향을 연구 중이라고 했다.

[논문 리뷰] Enhancing Time Series Forecasting via Multi-Level Text Alignment with LLMs (DASFAA 2025)

Thu, 12 Feb 2026 09:14:13 GMT

Motivation 계열 데이터의 연속성과 LLM의 이산적 토큰 간의 간극을 좁히고, 기존 텍스트 리프로그래밍(Reprogramming) 방식의 낮은 해석 가능성(Interpretability) 문제를 해결하고자 함. Solution 시계열을 Trend, Seasonal, Residual로 분해한 뒤, 각 요소를 텍스트 앵커 및 프로토타입에 매핑하는 'Multi-level text alignment'를 제안. 뿐만 아니라 모델의 판단 근거를 설명할 수 있는 해석 가능성을 확보함.

1. Introduction

핵심 목표 "시계열 데이터(연속적 수치)"와 "LLM(이산적 텍스트 토큰)" 사이의 간극을 줄이고, 해석 가능성을 높이는 것

1.1 Problem Define

figure 1: LLM을 활용한 시계열 예측에서 시계열 데이터를 텍스트 기반 표현과 정렬하는 다양한 접근 방식

(a): Contrastive Learning 방식: 시계열 데이터의 형태(Shape), 빈도(Frequency), 값(Value)을 분석하여 가장 유사한 단어 임베딩과 매핑

(b): Text Prototypes Reprogramming: 시계열 패치(Patch)를 선형 레이어(Linear)를 통해 '텍스트 프로토타입'으로 변환하여 LLM에 입력하는 방식

(c): Semantic Informed Prompt: 프롬프트 검색(Retrieval)을 통해 시계열 임베딩과 텍스트 사이를 연결하려 시도

이러한 방식들은 텍스트 프로토타입을 임의로 선정하거나, 데이터의 실제 특성을 제대로 반영하지 못하는 경우가 많았음.

예시로, 실제로는 '상승(Upward)'하는 추세인데, 엉뚱하게 '하락(Decline)'이라는 단어와 매핑되거나 전혀 상관없는 단어와 연결되어 해석이 불가능해짐.

(d)와 같이 Proposed Anchors Alignment 방식

핵심 아이디어
1. 시계열을 통째로 넣는 대신, 추세(Trend), 계절성(Seasonal), 잔차(Residual)의 세 가지 성분으로 분해
2. LLM이 이해할 수 있는 명확한 언어적 앵커(Anchors)를 사용하여 시계열을 설명하도록 유도
설명
- User: give me several words described time series trend처럼 명시적으로 요청
- 모델은 increase, decrease, stable (증가, 감소, 안정)와 같이 사람이 직관적으로 이해할 수 있는 단어(앵커)들과 시계열 데이터를 alignment 수행
- 즉, 모호한 텍스트 프로토타입 대신, 구체적인 설명이 가능한 단어들과 매핑하여 예측의 정확도와 설명력을 동시에 높임

1.2 Contributions

backbone model 유지: LLM 자체를 수정하지 않고, 입력단의 Alignment 방식만 개선하여 효율성 확보
Multi-Level Text Alignment: 시계열을 분해(추세, 계절성, 잔차)하고 각 성분을 그에 맞는 텍스트 표현으로 변환하여, 정보 손실을 줄이고 해석력을 높임.
- 추세(Trend) $\rightarrow$ 해석 가능한 앵커(increase, decrease 등)와 정렬.
- 계절성/잔차 $\rightarrow$ 전반적인 표현력 향상
높은 성능 달성: 여러 TSF task에 맞는 benchmark datasets에 대해거 기존 SOTA보다 정확도가 높고 해석이 용이함을 증명함.

기존 접근 방식
- 시계열의 텍스트 변환 (Promptcast, LLMTime): 수치 데이터의 입출력을 프롬프트로 재구성하여, 시계열 예측을 '문장 대 문장(Sentence-to-Sentence)' 작업으로 변환해 처리함.
- 패치화 및 미세 조정 (GPT4TS, TEMPO): 시계열 데이터를 패치(Patch) 단위로 토큰화하거나, 사전 학습된 LLM의 일부(Add&Norm 레이어 등)를 미세 조정(Fine-tuning)하여 적용함.
- 검색 기반 프롬프트 (S2IP-LLM): 의미론적(Semantic) 프롬프트나 검색(Retrieval) 기반 방식을 통해 시계열 임베딩과 텍스트 정보를 연결함.
- 프로토타입 기반 정렬 (TEST, TimeLLM): 대조 학습을 통해 시계열을 단어 임베딩에 매핑하거나(TEST), 백본 모델 수정 없이 텍스트 프로토타입으로 리프로그래밍(TimeLLM)함.
주요 한계
- 해석 가능성(Interpretability) 결여: 시계열을 단순한 토큰 시퀀스로만 취급하여 데이터 고유의 시간적 구조(Temporal Structure)를 무시하는 경향이 있음.
- 매핑의 부정확성: 주로 "시계열 $\rightarrow$ 패턴 $\rightarrow$ 텍스트"의 패러다임을 따르는데, 이 과정에서 임의로 선택된 텍스트 프로토타입이 데이터의 실제 특성을 제대로 반영하지 못함.
- 모델 투명성 저하: 잘못된 정렬(Alignment)로 인해 예측 정확도가 떨어지며, 모델이 왜 그러한 예측을 했는지 설명하기 어려움(다변량 시계열에서 특히 두드러짐).

3. Methodology

본 연구는 시계열 데이터를 성분별로 분해해 텍스트 앵커와 정렬하는 4단계 프레임워크(분해, 정렬, 프롬프트, 투영)를 적용하고, 미세 조정 없는 GPT-2(초기 6개 층)를 백본으로 활용하여 해석 가능한 예측을 수행

3.1 Time Series Input Decomposition

Decomposition $$X^{(i)} = X_T^{(i)} (추세) + X_S^{(i)} (계절성) + X_R^{(i)} (잔차)$$
- 추세 ($X_T$): 이동 평균(Moving Average) 등을 통해 장기적인 패턴을 추출
- 계절성 ($X_S$): 반복되는 단기 사이클을 추출
- 잔차 ($X_R$): 위 두 요소를 뺀 나머지 불규칙한 변동
- 분해 방법으로는 이동 평균법이나 STL(Seasonal-Trend decomposition using Loess)

Patching:
- 분해된 각 성분(T, S, R)을 LLM이 처리할 수 있는 토큰 단위인 패치(Patch)로 자름
- 이 과정은 긴 시계열 데이터를 작은 조각($P_T, P_S, P_R$)으로 나누어 임베딩할 준비를 하는 단계

3.2 Multi-level text alignment

추세(Trend) 정렬 $\rightarrow$ 해석 가능성(Interpretability) 초점:추세는 사람이 말로 설명하기 쉬움 (예: "증가한다", "감소한다", "안정적이다").
따라서 추세 패치($P_T$)는 사전에 정의된 텍스트 앵커(Anchors, $W_{trend}$)와 직접 정렬 이를 통해 모델이 "이 데이터는 상승 추세다"라고 명확히 이해하게 만듬
계절성(Seasonal) & 잔차(Residual) 정렬 $\rightarrow$ 정보 표현력 초점:이들은 단순한 단어로 정의하기 어렵습니다. 따라서 사전 학습된 LLM의 단어 임베딩 공간($E$)에서 학습된 텍스트 프로토타입($E'{seasonal}, E'{residual}$)과 정렬
- 잔차($Residual$)가 계절성보다 불규칙하므로, 잔차를 표현하는 프로토타입의 개수($V'$)를 더 많이 할당하여 표현력을 높임
정렬 메커니즘 (Multi-Head Cross-Attention):시계열 패치를 Query(Q)로, 텍스트 앵커/프로토타입을 Key(K)와 Value(V)로 사용하여 어텐션 연산을 수행
- 수식: $Z_T^{(i)} = \text{Attention}(Q_T^{(i)}, K_T^{(i)}, V_T^{(i)})$이 과정을 통해 시계열 데이터가 텍스트의 의미를 담은 임베딩($Z$)으로 변환

3.3 Component-specific prompts

정렬된 임베딩만 넣는 것이 아니라, LLM이 작업을 더 잘 수행하도록 텍스트 지시사항(Prompt)을 함께 넣어줌

프롬프트 구성:
- 도메인 지식: 데이터셋의 배경 정보
- 통계적 특징: 데이터의 평균, 분산 등 요약 정보
- 작업 지시(Task Instruction): "지난 512 스텝의 [추세, 계절성, 잔차]를 보고 다음 96 스텝을 예측하라"는 식의 템플릿
백본 모델 (Backbone LLM):
- GPT-2의 초기 6개 레이어 사용
- 중요한 점은 GPT-2를 미세 조정(Fine-tuning)하지 않고 Frozen 상태로 사용
- 오직 앞단의 정렬 모듈과 뒷단의 투영 레이어만 학습

3.4 Output Projection

LLM을 통과한 결과물을 다시 시계열 수치로 변환

Linear Projection
- LLM에서 나온 출력 임베딩을 선형 레이어(Linear Layer)에 통과시켜 각 성분별 예측값을 만듬
역정규화 및 합산 (De-Norm & Summation)
- 정규화되었던 값을 다시 원래 스케일로 돌려놓음(De-Norm).
- 마지막으로 예측된 추세($\hat{X}_T$), 계절성($\hat{X}_S$), 잔차($\hat{X}_R$)를 모두 더하여 최종 예측값 $\hat{X}$를 도출

4. Experiments

목적: 최신 SOTA 모델(PatchTST, DLinear, TimeLLM 등) 대비 장기·단기·퓨샷 예측 성능의 우수성 입증 .
실험 설정
- 데이터셋: ETT 계열, Weather, ECL, Traffic 등 7종 (입력 길이 512, 예측 범위 96~720)
- 백본 모델: 공정한 비교를 위해 GPT-2의 초기 6개 레이어만 사용 (TimeLLM, GPT4TS와 동일 조건) .
  - 평가 지표: MSE(평균 제곱 오차), MAE(평균 절대 오차) .
  - 결과: 대부분의 벤치마크에서 가장 낮은 오차율을 기록했으며, 특히 Weather와 ETTm1 데이터셋에서는 기존 최고 모델(LLM4TS) 대비 20% 이상 성능 향상을 달성함 .

Zero shot train
- 특정 데이터셋에서 훈련된 모델이, 한 번도 보지 못한 다른 데이터셋에 대해 추가적인 fine-tuning 없이 얼마나 잘 예측하는지를 평가
Zero shot task에서 좋은 성능을 보임
- ETTm2 → ETTm1 (location 차이) ETTm datasets → 15분 단위의 고주파 데이터 (변동성이 크고, 노이즈가 많을 수 있음) ETTm2 datasets 자체에 대해서 trend seasonal residual 등이 anchor alignment이 덜 부합한 것으로 생각

4.1 Multi-level text alignment variants

정렬(Alignment) 과정이 없으면 성능이 75% 이상 급락하므로, 추세·계절성·잔차 3가지 성분 모두를 정렬하는 것이 필수
의미 없는 단어를 앵커로 사용하면 오차가 커지지만, 동의어를 사용하면 성능 차이가 없어 모델이 단어의 실제 '의미'를 파악하고 있음을 입증
단순한 데이터 입력보다 좋은 작업 지시문과 도메인 지식을 함께 제공해야 LLM의 추론 능력을 극대화하여 예측 정확도를 높일 수 있음

4.2 Multi-level text alignment interpretation

실험방법 ETTm1 데이터셋을 사용하여, 시계열의 Trend Patches와 미리 정의된 앵커 단어들 사이의 Attention Score를 히트맵으로 표현
결과
- (a) Synonymous Anchors: '상승(rise, increase)'이나 '하락(drop, decrease)'과 같은 단어들이 실제 해당 추세를 보이는 시계열 구간에서 높은 score값
- (b) Noise Anchors: '새(bird)', '초콜릿(chocolate)'처럼 시계열과 무관한 단어들을 앵커로 사용했을 때는 score값 낮음

5. Conclusion and future work

결론: 사전 학습된 LLM을 활용해 시계열 성분을 텍스트 앵커 및 프로토타입과 정교하게 매핑하는 '다단계 텍스트 정렬 프레임워크'를 제안하여 예측 정확도와 해석 가능성을 동시에 향상
성과: 실험을 통해 텍스트 앵커와 정렬된 시계열 토큰이 데이터의 추세를 명확하고 직관적으로 설명할 수 있음을 입증
향후 과제: 앵커와 토큰 간의 정렬 모듈을 더욱 최적화하고, 시계열과 자연어 등 다양한 데이터를 아울러 공동 추론(Joint Reasoning)이 가능한 멀티모달 모델로 확장할 계획

[논문 리뷰] Machine node-enhanced graph contrastive learning with long-range prompt model for quality propagation in multistage manufacturing systems (2025.08 Manufacturing Systems Journal)

Tue, 03 Feb 2026 12:03:29 GMT

원문 paper는 해당 링크를 참고해주시길 바랍니다.

0. Abstract

현대의 제조 공정은 더욱 복잡한 다단계 제조 시스템(MMSs, Multistage Manufacturing Systems)이 주류를 이루고 있다. 이에 따라 공정이 복잡해짐에 따라 품질 전파(Quality Propagation)를 예측하는 것이 매우 중요해졌다. 딥러닝이 해결책으로 떠올랐지만, 기존 모델들은 1. 개별 공정만 보거나, 2. 실제 공정 흐름을 무시하거나, 3. 라벨링 된 데이터에만 의존하여 노이즈에 취약하다는 한계가 있었다.

본 논문은 이러한 문제를 해결하기 위해 MNGCLP (Machine Node-enhanced Graph Contrastive Learning with Long-range Prompt) 모델을 제안한다. 이 모델의 핵심은 다음과 같다.

Solution

MNGCLP (Machine Node-enhanced Graph Contrastive Learning with Long-range Prompt) 모델을 제안

1단계: 기계 간의 생산 관계를 모델링하여 생산 공정 그래프(Production process graph)를 형성한다.
2단계: 대조 학습 기반의 사전 훈련 과정에서 기계 강화 그래프(Machine-enhanced graph)를 설계한다. 이는 생산 공정의 논리를 위반하지 않으면서 생산 정보를 추가하고, 라벨 의존도를 낮추는 역할을 한다.

3단계: 사전 훈련된 모델을 미세 조정(Fine-tuning)하기 위해 원본 그래프에서 포착된 기계 노드 간의 장거리 관계(Long-distance relationship)를 Prompt로 사용한다.

지도 학습 기반 그래프 신경망(Supervised GNN) 대비 RMSE는 2.4%, MSE는 4.8%, MAE는 9.8% 향상되었으며, 대조 학습 기반 그래프 신경망(Contrastive GNN) 대비 RMSE는 2.5%, MSE는 5.0%, MAE는 6.3% 향상되었다. 이에 따라 MNGCLP 모델은 전통적인 모델보다 우수한 성능을 보였으며 예측 결과에 대한 합리적인 설명을 제공하였다.

친절하게 용어 설명 부분도 따로 제공해준다.

1. Introduction

1.1 Motivation

과거의 공장은 단순한 직렬구조였지만, 현대의 다단계 제조 시스템(MMSs)은 기계들이 직렬과 병렬로 복잡하게 얽힌 '직렬-병렬 하이브리드(Serial-Parallel Hybrid)' 형태를 띤다. 이런 환경에서는 앞단 기계의 미세한 오차가 뒷단으로 넘어가며 증폭되거나 변형되는 품질 전파(Quality Propagation) 현상이 발생한다. 마치 나비 효과처럼, 초기 단계의 작은 변수가 최종 제품의 품질을 결정짓는 핵심 요인이 되는 것이다.

1.2 Problem Definition - 기존 연구

단일 단계 모델의 한계: 기존의 단일 단계 모델은 개별 기계나 단일 단계의 품질만을 예측할 뿐, 공정 간의 품질 전파(Quality Propagation) 효과를 무시한다.
기존 다단계 모델의 한계: 일부 모델이 품질 전파를 고려하긴 하나, 단순히 단계 내의 기계 특성(Feature)을 집계하는 수준에 그치거나 실제 생산 공정과 일치하지 않는 기계 간 공간 관계를 사용한다.
데이터 의존성 문제: 전통적인 모델은 라벨 데이터(정답 데이터)에 대한 의존도가 매우 높다. 따라서 노이즈가 섞인 데이터를 충분히 활용하기 어렵고, 이는 예측 정확도 저하와 해석 가능성 부족으로 이어진다.

1.3 Contribution

"라벨이 부족하고 노이즈가 많은 현실 공장 데이터"를 제대로 활용하기 위해 그래프 대조 학습(Graph Contrastive Learning) 제안
정답(Label)이 없어도 데이터 자체의 구조를 학습할 수 있는 자기 지도 학습(Self-supervised Learning)을 사용
기존 대조 학습은 그래프를 무작위로 자르거나 변형했지만, 공장 프로세스를 함부로 끊으면 문제 발생 따라서, 실제 생산 공정의 흐름을 해치지 않으면서 기계 노드를 강화(Enhancement)하는 새로운 기법 적용

기존 모델들의 한계와 MNGCLP의 접근 방식을 위 그림으로 명확히 비교

(a) Multistage manufacturing systems: 현대의 공정은 그림처럼 Stage 1의 여러 기계(병렬)가 Stage 2(직렬)로 합쳐지는 복잡한 구조

(b) Traditional Model (기존 모델): 단순히 각 단계의 기계 특징(Feature)을 더하기(Fusing)만 한다. 기계끼리 어떻게 영향을 주고받는지(화살표)는 무시된다.

(d) MNGCLP (제안 모델):

그래프 구축: 실제 공정 흐름 그대로 그래프를 그린다.
Pre-training (사전 훈련): 기계 노드 강화(Enhancement)를 통해 정답 라벨이 없어도 다양한 전파 경로를 미리 학습한다 .
Fine-tuning (미세 조정): 마지막으로 장거리 프롬프트(Prompt)를 사용해 멀리 떨어진 기계 간의 영향력까지 고려하여 최종 품질을 예측한다.

2. Literature review

크게 단일 단계 예측, 다단계 예측, 그리고 그래프 대조 학습의 흐름으로 기존 연구를 분석

1. 단일 단계 품질 예측 (Single-stage Quality Prediction) 초기 연구들은 복잡한 공정 전체를 보기보다는, 개별 기계나 특정 단계의 품질을 맞추는 데 집중했다.

머신러닝(ML) 기반: 데이터 불균형 문제를 해결하기 위해 향상된 트리 모델을 사용하거나, 작은 데이터셋에서 부스팅(Boosting) 기법을 활용했다.
딥러닝(DL) 기반: CNN을 활용해 고품질 라벨에 대한 의존도를 낮추거나 , 동적 특징 추출 네트워크를 도입해 성능을 높였다.

하지만 한계로, 이 방법들은 단일 단계 공정에만 초점을 맞추고 있어, MMSs(다단계 제조 시스템)에서 단계와 단계 사이로 품질 영향이 퍼져나가는 전파 효과(Propagation effects)를 무시한다.

2. 다단계 품질 예측 (Multistage Quality Prediction) 공정이 복잡해지면서, 여러 단계를 아우르는 모델들이 등장했다.

통계 및 ML 접근: PCA와 연관 규칙을 결합하거나, 엔트로피 정보를 이용해 중요한 특징을 선택한 후 랜덤 포레스트(RF)를 쌓아 올리는 방식이 제안되었다 .
딥러닝 접근
- DMMTL (Deep Multistage Multi-Task Learning): 비선형 은닉 상태 표현을 사용하여 다단계 제품의 다중 출력 예측을 수행했다 .

SDK (Stochastic Depth Koopman): 품질 정보의 전파를 선형화하여 모델의 해석 가능성을 높였다.
- LSTM: 양방향 직렬-병렬 LSTM 모델을 도입해 데이터 이상치를 처리하기도 했다.

하지만 이 또한 한계가 존재하는데, 1. 구조적 한계: 대부분 직렬(Serial) 생산 공정에만 적용 가능하며, 단계 내의 복잡한 병렬 흐름 관계를 무시하고, 2. 라벨이 없거나 노이즈가 섞인 데이터는 활용하지 못한다.

3. 그래프 신경망과 대조 학습의 등장 (GNN & GCL) 여기서 그래프(Graph) 데이터 구조가 구원투수로 등장한다. 그래프는 기계(노드)와 공정(엣지)의 관계를 표현하는 데 탁월하기 때문이다.

그래프 신경망 (GNN): PGAT(Path Enhanced Bidirectional Graph Attention Network) 같은 모델은 기계 간의 장거리 의존성을 학습하는 데 성공했다. 하지만 여전히 고품질 라벨 데이터에 크게 의존한다는 한계

이 문제를 해결하기 위해 그래프 대조 학습(Graph Contrastive Learning, GCL)이 도입되었다. GCL은 라벨이 없어도 데이터 자체의 구조를 학습(Self-supervised)하여 라벨 의존도를 낮춘다.

위 Table 1처럼,

생산 단계 내 기계들의 복잡한 상호 의존성을 모델링한다.
각 단계의 다중 품질 지표를 동시에 예측한다.
노이즈가 있는 라벨 데이터도 효과적으로 활용한다.

3. Proposed Framework

해당 section에서는 제안한 모델에 대해서 더 깊게 설명한다 앞서서도 언급한 것처럼, MNGCLP 모델은 크게 데이터 전처리 및 그래프 구축, 사전 훈련(Pre-training), 그리고 미세 조정(Fine-tuning)의 3단계로 나뉜다.

3.1 Problem Definition - 공장의 문제

MNGCLP 모델을 이해하기 위해서는 먼저 해결하려는 문제가 무엇인지, 그리고 공장의 요소들이 수식으로 어떻게 정의되는지 명확히 해야 한다.

핵심은 "복잡한 관계를 가진 기계들의 특징을 입력받아, 노이즈가 섞인 환경에서도 최종 품질을 정확히 예측하는 것"이다.

1. 기계와 특징 (Machines & Features) 공장은 수많은 기계($M$)의 집합이다. 각 기계는 저마다의 상태 값을 가진다.

기계 ($M_m$): 전체 기계 집합 $\mathcal{M}$에 속한 개별 기계.
특징 ($x_m$): 각 기계의 설정값(모터 속도, 압력 등)이나 원자재 속성. 이를 $F_m$ 차원의 벡터 $x_m$으로 정의한다.

2. 예측 목표: 품질 지표 (Quality Indicators) 각 생산 단계($k$)마다 우리가 맞춰야 할 정답(Target)이다.

품질 ($y_k$): $k$ 단계의 품질 측정값 집합 $y_k = {y_{k,1}, ..., y_{k,n_y^k}}$이다.
문제: 실제 데이터는 노이즈(Noise)가 많고, 기계 간의 상호작용으로 인해 품질이 비선형(Nonlinear)적으로 변해 예측이 매우 까다롭다.

3. 핵심 내용: 생산 공정 그래프 (Production Process Graph) 기계들을 독립적으로 보지 않고, '연결된 관계'로 파악하기 위해 그래프를 그린다.

그래프 ($G$): $G = (\mathcal{V}, \mathcal{E})$
- 노드 ($\mathcal{V}$): 기계 그 자체.
- 엣지 ($\mathcal{E}$): 제품이 이동하는 생산 흐름.
인접 행렬 ($A$): 기계 간의 연결도. 기계 $a$에서 $b$로 제품이 넘어가면 $A_{a,b}=1$로 표시한다.

4. MNGCLP의 최종 목표 (Goal)결국 이 모델이 하고자 하는 것은 다음 한 문장으로 요약된다. "기계 특징($X$)과 연결 관계($A$)를 입력으로 받아, 노이즈를 이겨내고 각 단계의 품질($Y$)을 정확히 맞추는 것."

이를 위해 MNGCLP는 두 단계로 문제를 푼다.
- 사전 훈련 ($f_{en}$): 정답 없이 기계 간의 전파 효과(Propagation effects)를 먼저 공부한다.
- 다중 작업 예측 ($f_r$): 공부한 내용을 바탕으로 여러 품질 지표를 동시에 예측한다.
  
  $$h_G^k = f_{en}(X, A; \theta_{en})$$
  
  $$y_k = f_r^k(h_G^k; \theta_r^k)$$

3.2 Machine node-enhanced graph contrastive learning with long-range prompt framework

원 논문에서는 수식 관련한 내용들이 많지만, 수식에 대한 설명은 최소한으로 정리하고자 한다.. (내용이 방대하다.)

전체 Framework

*1) 데이터 전처리 및 생산 공정 그래프 구축 (Data Pre-processing & Graph Construction) *

Figure 2의 상단(Purple Box)에 해당하는 부분이다.
데이터 수집: 초기 단계 기계의 원자재 속성과 가공 매개변수, 후속 기계들의 가공 매개변수를 수집한다.
정규화(Normalization): 데이터 품질을 높이기 위해 수집된 데이터를 정규화한다.
그래프 변환: 각 기계를 노드(Node)로, 기계 간의 생산 흐름을 엣지(Edge)로 설정하여 생산 공정 그래프(Production Process Graph)를 생성한다. 이를 통해 직렬 및 병렬 기계 간의 제품 전파 영향을 모델링한다 .

2) 기계 노드 기반 그래프 대조 사전 훈련 (Pre-training)

Figure 2의 좌측 하단(Blue Box)에 해당하는 부분이다.
이 단계의 목표는 품질 라벨 없이 기계 간의 인접한 전파 효과(Adjacent Propagation Effects)를 학습하는 것이다.
배경: 라벨 데이터에 노이즈가 많거나 라벨링이 어려운 경우, 이를 모두 제거하면 학습할 데이터가 부족해진다. 따라서 라벨이 없는 데이터까지 모두 활용하기 위해 자기 지도 학습(Self-supervised Learning) 방식인 대조 학습을 도입한다 .
기계 노드 강화(Machine Node Enhancement): 기존 대조 학습처럼 노드를 무작위로 삭제하면 공정이 끊긴다. 대신, 인접한 기계 노드 쌍을 융합하여 새로운 노드를 추가하거나 역방향 엣지(Reverse Edge)를 추가하는 증강 기법을 사용한다.

효과: 이를 통해 모델은 생산 공정의 흐름을 위반하지 않으면서도 다양한 관계 패턴을 학습하게 되며, 라벨 노이즈에 강건한 특징 표현을 익힌다 .

3) 장거리 프롬프트 미세 조정을 통한 다중 작업 예측 (Fine-tuning)

Figure 2의 우측 하단(Red Box)에 해당하는 부분이다.
사전 훈련된 모델은 인접한 관계는 잘 알지만, 멀리 떨어진 기계 간의 관계(Global Interaction)를 파악하는 데는 한계가 있다. 이를 장거리 프롬프트로 보완한다.

Transformer 기반 프롬프트: Transformer를 사용하여 기계 노드 간의 장거리(Long-distance) 관계 정보를 포착하고, 이를 '프롬프트(Prompt)' 형태로 그래프에 추가한다 .
다중 작업 예측(Multi-task Prediction): 사전 훈련된 그래프 인코더에 프롬프트를 적용하여 각 단계의 특징을 추출하고, 이를 통해 여러 품질 지표를 동시에 예측한다.

최종 학습: 소량의 고품질 라벨 데이터를 사용하여 전체 모델을 미세 조정(Fine-tuning)함으로써, 사전 훈련과 실제 예측 작업 사이의 격차(Gap)를 줄이고 예측 성능을 극대화한다 .

3.3 The model construction of proposed MNGCLP

이 섹션에서는 제안된 MNGCLP 모델의 상세 구축 과정을 다룬다. 모델은 크게 ① 공정 그래프 구축 및 임베딩, ② 기계 노드 강화 그래프 대조 학습(사전 훈련), ③ 프롬프트 미세 조정을 통한 다중 작업 예측(미세 조정)의 세 가지 핵심 모듈로 구성된다 .

3.3.1 Process Graph Construction & Embedding

이 모듈은 복잡한 제조 데이터를 그래프 구조로 변환하여 기계 간의 전파 효과를 학습할 준비를 하는 단계이다.

기계($m$)를 노드, 생산 흐름을 유향 엣지(Directed Edge)로 정의하여 그래프 $\mathcal{G}$를 생성한다.
각 기계의 다양한 특징(원자재, 공정 변수 등)을 MLP(다층 퍼셉트론)에 통과시켜 동일한 차원의 벡터 $x_m^e$로 임베딩한다.

Figure 3(a) 설명

Input Production Process: 왼쪽 박스는 실제 공정이다. Stage 1의 병렬 기계들과 Stage 2의 기계들이 복잡하게 연결되어 있다.
Production Process Graph $\mathcal{G}$: 가운데 그림처럼 실제 공정을 노드($m_1 \sim m_7$)와 화살표로 변환한다.
Embedding: 오른쪽으로 넘어가며, 각 노드의 특징 벡터가 MLP, BatchNorm, ReLU를 거쳐 임베딩 벡터로 변환되는 과정을 보여준다.

3.3.2 Machine Node-Enhanced Graph Contrastive Learning

이 모듈은 라벨이 없는 데이터를 활용해 기계 간의 인접한 전파 효과를 사전 훈련(Pre-training)하는 단계이다.

증강(Augmentation): 기존의 노드 삭제 방식 대신, 생산 공정을 유지하기 위해 기계 노드 추가(AMN)와 역방향 엣지 추가(RPE)를 사용한다.
대조 학습: 원본 그래프에서 파생된 두 증강 그래프($\hat{\mathcal{G}}^1, \hat{\mathcal{G}}^2$)가 서로 유사한 표현을 갖도록(Maximize Agreement) 학습한다.

Figure 3(b) 설명

Node Augmentation (왼쪽): 인접한 두 기계 노드($m_1, m_3$)의 특징을 섞어(Mixup) 새로운 가상 노드 $m_{z_{1,3}}$를 만들고 그래프에 추가하는 과정이다.
Add Edge & Node (가운데): 붉은 점선 화살표로 역방향 엣지가 추가되고, 노란색 점선 원으로 새로운 노드가 추가된 두 개의 증강 그래프($\hat{\mathcal{G}}^1, \hat{\mathcal{G}}^2$)를 보여준다.
Contrastive Learning (오른쪽): 두 증강 그래프가 파라미터를 공유하는 Graph Encoder $f(\cdot)$를 통과해 특징($h$)을 추출하고, Projection Head를 거쳐 최종적으로 두 특징 간의 일치도를 최대화하는 학습 과정을 나타낸다.

Algorithm 1 설명: 그래프 대조 학습 절차

1. 초기화: 공정 그래프 $\mathcal{G}$를 구축하고 기계 특징을 임베딩한다.

2. 반복 학습 (Epochs)

각 배치(Batch)마다 그래프 증강 함수 $\mathcal{T}$를 적용하여 두 개의 증강 그래프 $\hat{\mathcal{G}}^1, \hat{\mathcal{G}}^2$를 생성한다.
그래프 인코더($f_{en}$)를 통해 각 단계별 특징($h$)을 추출하고, 매핑 네트워크($MLP^p$)로 투영($z$)한다.
두 증강 그래프 간의 유사도를 높이고 다른 샘플과는 멀어지도록 대조 손실(Contrastive Loss, $\mathcal{L}_{con}$)을 계산한다.
인코더와 매핑 네트워크의 파라미터를 업데이트한다.

3.3.3 Multitask Prediction by Prompt Fine-tuning

사전 훈련된 모델에 장거리 의존성을 주입하고, 실제 품질 라벨을 이용해 미세 조정(Fine-tuning)하는 단계이다.

Transformer 프롬프트: Transformer를 이용해 멀리 떨어진 기계 간의 관계(Global Information)를 포착하고, 이를 프롬프트($X^T$) 형태로 기존 노드 특징에 더해준다.
다중 작업 예측: 각 단계의 품질 지표마다 별도의 MLP를 두어 동시에 예측한다.

Figure 3(c) 설명

Prompt Generation (아래쪽 박스): 노드 특징이 Transformer (Multi-Head Attention)를 통과하며 전역적인 관계를 학습하고, 이를 Long-range prompt (색깔 격자)로 변환한다.
Prompt-enhanced Graph (가운데): 생성된 프롬프트가 기존 그래프의 노드 특징에 더해진다($\oplus$).
Prediction (오른쪽): 프롬프트가 추가된 그래프가 Pre-trained Graph Encoder를 통과한 후, 각 단계($n_y^1, n_y^K$)의 여러 품질 지표를 예측하는 Prediction Network (MLP)로 연결된다.

Algorithm 2 설명: 미세 조정 예측 절차

1. 초기화: 그래프 $\mathcal{G}$ 구축 및 특징 임베딩

2. 반복 학습 (Epochs)

프롬프트 생성: Transformer를 사용해 장거리 관계를 포착한 프롬프트 특징 $X^T$를 추출하고, 이를 그래프 노드에 추가한다.
특징 추출: 사전 훈련된 인코더($f_{en}$)로 단계별 특징 $h_G^k$를 추출한다.
다중 작업 예측: 각 단계($k$)의 각 품질 지표($j$)에 대해 예측값 $\tilde{y}_{k,j}$를 계산한다.
손실 계산 및 업데이트: 노이즈 라벨을 마스킹한 후 회귀 손실($\mathcal{L}_{reg}$)을 계산하고, 전체 모델(인코더 포함)을 업데이트한다.

4. Case Study

4.1 Description of Dataset

1) 데이터셋 개요

MCMP 데이터셋은 2020년 Liveline Technologies가 Kaggle에 공개한 것으로, 미국 디트로이트 인근의 실제 생산 라인에서 수집되었다.
직렬 및 병렬 기계가 혼합된 공정과 조립 과정을 모두 포함하고 있어, 복잡한 현대식 다단계 제조 시스템(MMSs)을 대표하는 데이터셋이다 .

2) Figure 4 설명: MCMP 데이터셋 구조

실험에 사용된 실제 제조 데이터(MCMP)의 구조를 보여준다.
Stage 1: 기계 1, 2, 3이 병렬로 작동하고 Combiner로 합쳐진다. 각 기계는 12+2개의 특징을 가진다.
Stage 2: 기계 4, 5가 직렬로 연결된다.
각 단계가 끝날 때마다 15개의 품질 지표(Measurements)를 측정한다.

3) Table 2 설명: 품질 지표와 노이즈 문제

이 데이터셋의 목표는 각 단계에서 15개씩, 총 30개의 품질 지표를 예측하는 것이다.
하지만 실제 현장 데이터답게 노이즈(Noise)가 매우 심각하다는 특징이 있다.

심각한 노이즈: 물리적으로 불가능한 '0'이나 '음수' 값이 무작위로 섞여 있다. 특히 1단계의 7개 지표와 2단계의 2개 지표는 0값의 비율이 20%를 넘는다.

극단적 사례: 심지어 노이즈 비율이 전체 샘플의 98%에 달하는 지표도 존재한다.

4.2. Experimental settings

4.2.1. Data Preprocessing

1. 데이터 분할 및 표준화

MCMP 데이터셋을 학습:검증:테스트 = 6:2:2 비율로 무작위 분할한다.
예측에 도움이 되지 않는 타임스탬프(Timestamp) 정보는 제거한다.
기계 특징(Feature)마다 분포가 다르므로, 평균을 제거하고 단위 분산으로 스케일링하는 표준화(Standardization)를 수행한다.

2. 라벨 노이즈 제거 (Label Denoising)

기존 연구들은 단순히 특정 임계값(예: 14~16 범위 밖, 혹은 1e-4 미만)을 벗어나면 데이터를 버리는 방식을 택했다.
하지만 본 논문은 유용한 정보를 최대한 살리기 위해 데이터 분포를 정밀 분석하였다.

위 그래프는 각 단계(Stage)와 지표(Measurement)별 데이터 분포를 보여준다.

(a) Stage 1 - Measurement 1: 0 근처의 값과 정상적인 분포가 섞여 있다.
(b) Stage 1 - Measurement 12: 역시 0 근처에 노이즈가 존재한다.
(c) Stage 2 - Measurement 4: 0값의 비율이 높다.

(d) Stage 2 - Measurement 6: 0과 1mm 사이에 데이터가 집중되어 있다 .

이 분석을 통해, 단순히 데이터를 버리는 것이 아니라 1e-3 mm (붉은 선) 미만의 값을 노이즈 라벨로 식별하여 Masking 처리하는 전략을 수립

4.2.2 Baseline Models

*1. 머신러닝 (Machine Learning) *

ENR (Elastic Network Regression): 릿지(Ridge)와 라쏘(Lasso) 회귀를 결합한 모델

CatBoost: 범주형 데이터 처리에 강한 부스팅 트리 모델

RRF (ReliefF Random Forest): 특징 선택(ReliefF)과 랜덤 포레스트를 결합한 모델

*2. 딥러닝 (Deep Learning) *

FNN (Feed-forward Neural Network): 4계층의 완전 연결 신경망

CNN (Convolutional Neural Network): 2계층의 합성곱 신경망

DMMTL: 직렬 MMS를 위한 딥러닝 기반 다단계 다중 작업 학습 모델

*3. 그래프 신경망 (GNN) *

GAT (Graph Attention Network): 어텐션 메커니즘을 사용하는 GNN

GIN (Graph Isomorphism Network): 그래프 구조 표현력이 뛰어난 GNN
PGAT (Path Enhanced GAT): MMS 품질 예측을 위해 경로 강화 기법을 사용한 최초의 GNN 모델

4. 그래프 대조 학습 (Graph Contrastive Learning)

InfoGraph: 노드와 그래프 간의 상호 정보를 최대화하는 비지도 학습 모델

GraphCL: 노드 삭제, 엣지 교란 등 다양한 증강 기법을 사용하는 대조 학습 모델

4.3. Results Comparison

4.3.1. Ablation study

MNGCLP-AMN: 기계 노드 추가(Adding Machine Nodes) 기능을 뺀 모델. RMSE가 0.3208에서 0.3268로 증가(성능 하락)했다. 이는 새로운 노드를 추가하여 생산 공정 정보를 풍부하게 만드는 것이 중요함을 의미한다.
MNGCLP-RPE: 역방향 엣지(Reverse Production Edges)를 뺀 모델. 역시 성능이 하락했다. 역방향 정보 또한 공정 이해에 필수적이다.
MNGCLP-TPF: Transformer 프롬프트(TPF)를 제거한 모델. 성능 저하가 발생했다. 이는 단순히 인접한 기계뿐만 아니라, 멀리 떨어진 기계 간의 관계를 학습하는 것이 중요함을 시사한다.

TPF(Transformer Prompt Fine-tuning)의 중요성은 위 Figure 6의 어텐션(Attention) 히트맵에서 시각적으로 확인할 수 있다.

장거리 영향력: 가로축과 세로축은 기계($m0 \sim m5$)를 나타낸다. 그림을 보면 $m5$(마지막 기계)가 $m0, m1$(초기 기계)에 강한 영향을 미치고 있음(0.36, 0.28)을 알 수 있다.
이는 물리적으로 거리가 멀더라도 생산 공정 상의 논리적 연결고리가 존재하며, Transformer가 이를 성공적으로 포착하여 프롬프트로 활용하고 있음을 증명한다 .

4.3.2. Results comparison for other methods

위 Table 5를 보면 MNGCLP는 RMSE(0.3208), MSE(0.1029), MAE(0.0805) 모든 지표에서 가장 낮은 오차율을 기록하며 1위를 차지했다.

위 Table 6의 기존 모델의 한계는 아래와 같다.
- PGAT, GAT, GIN: 그래프 기반이지만 노이즈 라벨에 취약하여 MNGCLP보다 성능이 낮다. 특히 PGAT는 깨끗한 라벨 데이터가 많이 필요한데, MCMP 데이터셋의 노이즈 때문에 제 성능을 못 냈다 .
- GraphCL, InfoGraph: 기존 대조 학습 모델들은 노드 삭제 등 공정 흐름을 끊는 증강 기법을 사용했기 때문에, 공정 특화 증강을 사용한 MNGCLP보다 성능이 떨어진다.

위 Fig. 7 성능 개선율을 봤을 때, MNGCLP는 지도 학습 기반 SOTA 모델인 PGAT 대비 RMSE를 2.4%, MSE를 4.8% 개선했다.

대조 학습 비교: 일반적인 대조 학습 모델인 GraphCL 대비 RMSE를 2.5%, MAE를 6.3% 개선하며, 제조 데이터에 특화된 프레임워크의 우수성을 입증했다.

4.3.3. Computational Costs

성능이 좋아도 학습이 너무 오래 걸리면 현장에서 쓰기 어렵다. 학습 시간을 비교해보면 아래 Table 7과 같다.

CNN (1713.4s) / DMMTL (636.1s): 구조가 단순하여 빠르지만 예측 정확도가 낮다.
PGAT (4626.8s): 복잡한 경로 코딩 때문에 학습 시간이 매우 길다.
MNGCLP (2325.2s): 성능이 가장 좋으면서도 PGAT의 절반 수준의 시간만 소요된다. InfoGraph나 GraphCL보다는 약간 느리지만, 이는 Transformer 프롬프트 추가에 따른 비용이며 성능 향상 폭을 고려할 때 합리적인 트레이드오프(Trade-off)이다.

4.4 Analysis and discussion

4.4.1 Alignment and uniformity analysis of stage representation

정렬성 (Alignment): 비슷한 품질을 가진 샘플끼리는 특징 공간상에서 가깝게 모여 있어야 한다. 이는 노이즈의 영향을 줄이는 데 중요하다.

균일성 (Uniformity): 특징들이 특정 영역에만 쏠리지 않고 공간 전체에 고르게 분포해야 데이터의 다양성을 잘 보존할 수 있다.

위 그림은 고차원의 특징을 2차원으로 축소하여 시각화한 것이다.
PGAT (왼쪽): 점들이 널리 퍼져 있고 섞여 있어(Dispersed), 비슷한 샘플끼리 뭉치지 못했다.
GraphCL (가운데): 일부 개선되었으나 여전히 경계가 모호하다.
MNGCLP (오른쪽): 같은 색깔(단계별 특징)의 점들이 확실하게 군집(Cluster)을 이루고 있다.
이는 MNGCLP가 노이즈 속에서도 유의미한 특징을 잘 잡아내어 정렬시켰음을 의미한다.

위 그림은 특징들이 공간상에 얼마나 고르게 퍼져있는지(밀도)를 보여준다.
PGAT (왼쪽): 특정 각도($0^\circ, 90^\circ$)에 피크가 솟아 있고 밀도 변화가 심하다(Highly clustered). 정보가 특정 패턴에만 쏠려 있다는 뜻이다.
GraphCL (가운데): 일부 영역에 빈 공간(Gaps)이 많다.MNGCLP (오른쪽): 밀도 곡선이 전체적으로 부드럽고 평탄(Smoother)하다.
이는 데이터의 다양한 정보를 편향 없이 골고루 학습했음을 보여준다.

4.4.2 The quality prediction fitting results

실제 현장에서 가장 중요한 것은 "그래서 예측값이 실제값과 얼마나 비슷한가?"이다.

위 그래프는 200개의 무작위 샘플에 대한 예측 결과를 보여준다.

구성: 빨간 실선은 실제값(True Values), 파란 실선은 MNGCLP 예측값, 하단 막대그래프는 오차(Error)를 나타낸다.
분석:
- (a)~(d): MNGCLP(파란선)가 실제값(빨간선)의 복잡한 등락 추세를 매우 정확하게 따라가고 있다 .
- 오차: 하단의 오차 막대를 보면, MNGCLP가 다른 모델들(하늘색, 주황색 막대)에 비해 오차의 크기가 작고 변동폭이 안정적이다.
- 난이도: Stage 2(그림 c, d)의 오차가 Stage 1(그림 a, b)보다 상대적으로 큰데, 이는 공정이 뒤로 갈수록 누적된 영향으로 인해 예측이 더 어려워짐을 시사한다.

결론적으로, MNGCLP는 데이터의 특징을 명확하게 구분(Alignment)하면서도 다양성을 잃지 않으며(Uniformity), 이를 통해 복잡한 제조 공정에서도 실제값에 매우 근접한 예측 성능을 달성하였다.

5. Conclusion and Future Works

5.1 Conclusion

본 연구는 라벨링이 어려운 다단계 제조 시스템(MMSs)의 품질 예측을 위해 MNGCLP 프레임워크를 제안하였다.

핵심 방법론
- 사전 훈련: 기계 노드 강화(Machine Node Augmentation) 기법을 통해 생산 공정 정보를 유지하면서도, 라벨 없는 데이터에서 기계 간 품질 전파 효과를 효과적으로 학습하였다 .
- 미세 조정: Transformer로 포착한 기계 간 장거리 관계를 프롬프트(Prompt)로 활용하여, 사전 훈련 모델과 실제 예측 작업 간의 간극을 해소하고 정확도를 높였다 .
- 성능 입증: 실제 제조 데이터(MCMP) 실험 결과, 지도 학습 기반 GNN 대비 RMSE 2.4%, 대조 학습 모델 대비 2.5% 성능이 향상되어 모델의 우수성을 입증하였다.

5.2 Future Works

향후 연구는 모델의 한계를 보완하기 위해 다음 세 가지 방향으로 진행될 예정이다 .

시공간 모델링: 데이터의 시간적 흐름(Temporal correlation)을 반영하기 위해 시공간 신경망(Spatial-Temporal Neural Networks)을 적용한다.
이종 그래프 확장: 기계와 결합기(Combiner) 등 다양한 설비 간의 관계를 정교하게 표현하기 위해 이종 그래프(Heterogeneous Graph)를 도입한다.
대규모 데이터 확보: 더 많은 MMSs 데이터를 수집하여 사전 훈련 모델의 Generalization 성능을 강화한다.

[논문 리뷰] Stochastic Deep Koopman Model for Quality Propagation Analysis in Multistage Manufacturing Systems (2023.12 Manufacturing Systems Journal)

Mon, 02 Feb 2026 08:12:33 GMT

다단계 제조 시스템(MMS)의 복잡한 공정을 모델링하기 위해 최근 딥러닝이 도입되고 있으나, 높은 비용과 전문 지식, 그리고 낮은 해석력이 장벽으로 작용하고 있다. 본 논문에서는 이를 해결하기 위해 Stochastic Deep Koopman (SDK) 프레임워크를 제안한다.

원본 paper는 해당 링크를 참고하시길 바랍니다.

Summary

01 Problem 기존 딥러닝 모델의 '블랙박스(해석 불가)' 문제와 SoV 모델의 '선형성 제약'으로 인해, 복잡한 비선형 다단계 제조 공정(MMS)의 인과관계를 규명하지 못하는 한계

02 Idea VAE로 추출한 잠재 변수를 Koopman 연산자로 전파시켜, 비선형 공정을 '해석 가능한 선형 모델'로 변환하고 확률적(Stochastic) 분포로 노이즈를 제어한다.

03 Challenge 현대 제조 공정의 고도 비선형성(Non-linearity)을 다루면서, 동시에 현장의 심각한 노이즈 및 불확실성(Uncertainty)을 극복하고 공정 간 결합(Coupling)을 수학적으로 풀어내는 것

04 Contribution SDK 프레임워크를 통해 기존 SOTA 모델 대비 최고의 예측 정확도(MSE)를 달성하고, 품질 변동의 '추적 가능성(Traceability)'을 확보하여 근본 원인 분석을 가능하게 함.

05 Pros & Cons (강점) 노이즈 환경에서도 강건한 높은 예측 정확도와 희소성(Sparsity) 기반의 해석력 (약점) 학습을 위한 방대한 데이터 및 센서 투자 비용, 차원 확장(Lifting)에 따른 계산 복잡도 증가 우려

06 Takeaway 복잡한 시계열/공정 데이터에서 '인과관계 규명'이 중요하다면, 딥러닝에 Koopman 이론을 접목하여 비선형성을 '제어 가능한 선형성'으로 변환하는 접근법이 매우 유효하다.

07 Limitation 현장 적용을 위한 방대한 데이터 확보(Data Acquisition)의 어려움과 비용 문제, 이를 해결하기 위한 연합 학습(Federated Learning) 도입이나 물리 지식(Physics-informed) 통합이 후속 과제임

0. Abstract

SDK의 핵심은 VAE(Variational Autoencoder)로 추출한 주요 품질 정보를 Koopman 연산자를 통해 선형적으로 전파시키는 데 있다. 이를 통해 복잡한 비선형적 품질 변화를 해석 가능한 선형 모델로 포착할 수 있다. 오픈소스 데이터셋을 활용한 비교 실험 결과, SDK는 기존 데이터 기반 모델보다 뛰어난 단계별 예측 정확도를 보였다.
특히, SDK 고유의 선형 전파 특성(Linear Propagation)은 공정 전반의 품질 변화를 추적(Traceability) 가능하게 하여 근본 원인 분석을 용이하게 한다. 결론적으로, 본 프레임워크는 물리적 도메인 지식 없이도 적용 가능한 범용적인 가상 계측(Virtual Metrology) 도구로서, 제조 산업의 궁극적 목표인 ZDM(Zero Defect Manufacturing) 실현에 기여한다.

1. Introduction

이 연구는 다단계 제조 시스템(MMS)의 품질 관리를 위한 기존 접근 방식들이 가진 다음과 같은 한계점들을 지적하고 저자들은 이러한 문제를 해결하기 위해 Stochastic Deep Koopman (SDK) 프레임워크를 제안한다.

1.1 Problem Definition

1. 다단계 제조 시스템(MMS)의 복잡성: MMS는 공정이 연속적으로 연결되어 상호 의존성이 높기 때문에, 특정 단계의 품질이 이전 단계들의 누적된 영향을 받아 인과관계를 규명하기 어렵다.

2. 기존 딥러닝(Deep Learning)의 한계: DNN, CNN 등은 비선형 데이터 처리와 예측 성능이 우수하지만, 내부가 블랙박스(Black-box)여서 불량 발생 시 근본 원인을 설명하거나 추적할 수 없다.

기존 해석 가능 모델(SoV)의 한계: 변동 전파(SoV) 모델은 수학적 해석력은 뛰어나지만, 시스템이 선형(Linear)이어야 한다는 제약 때문에 복잡한 현대의 비선형 공정에는 적용이 불가능하다.

1.2 Solution

1. Koopman Operator를 통한 선형화: 비선형 동적 시스템을 고차원 잠재 공간으로 매핑하여 **선형적으로 진화(Linearly Evolve)하게 만듦으로써, 비선형 공정에서도 선형 모델의 해석 가능성을 확보했다.

2. 확률적 VAE 기반의 강건한 특징 추출: VAE를 통해 핵심 품질 지표를 자동 추출하고, 동시에 잠재 변수를 가우시안 분포(Gaussian Distribution)로 모델링하여 공정 노이즈에 대한 강건성(Robustness)을 확보했다.

3. 단계별 품질 전파 및 추적 가능성: 전체 공정을 뭉뚱그리지 않고 단계별(Stage-wise) 전파 과정을 모델링하여, 중간 단계의 품질을 예측하고 이상 발생 시 원인 공정을 정확히 추적할 수 있게 했다.

2. Literature Review

제조 시스템에 가상 계측(Virtual Metrology, VM)을 통합하기 위한 연구는 꾸준히 진행되어 왔다. 특히 딥러닝(Deep Neural Network, DNN)의 등장은 고차원 데이터 처리에 획기적인 발전을 가져왔지만, 다단계 제조 시스템(MMS)에 적용하기에는 여전히 명확한 한계가 존재한다.

따라서, 기존 연구들의 흐름을 단일 공정 vs 다단계 공정, 그리고 해석 가능성(Interpretability) 측면에서 분석하고, 왜 새로운 접근법이 필요한지 알아보고자 한다.

2.1 딥러닝 기반 VM의 발전과 한계 (Single-Stage)

최근 연구들은 복잡한 시스템을 근사(Approximation)하기 위해 다양한 DNN 변형 모델들을 시도했다.

LSTM: 시계열 데이터의 장기 의존성을 학습하기 위해 LSTM을 활용했다.
CNN: 용접이나 적층 제조(Additive Manufacturing) 같은 공정에서는 이미지 데이터를 처리하여 결함을 탐지하기 위해 CNN이 사용되었다.

이러한 접근법의 가장 큰 장점은 자동화된 특징 공학(Automated Feature Engineering)으로서, 사람의 개입 없이도 중요한 특징을 추출할 수 있다. 하지만 치명적인 단점으로 해석력 부족과 대부분의 연구가 단일 단계 공정(Single-stage)에 국한되어 있다는 점이다.

2.2 다단계 제조 시스템(MMS) 한계

실제 생산 라인은 여러 스테이션이 연결된 MMS(Multistage Manufacturing Systems) 형태이다. MMS 모델링이 어려운 이유는 '공정 간 결합(Interstage Couplings)' 때문이다. 특정 단계의 품질은 현재 공정뿐만 아니라 이전 단계들의 누적된 영향을 받는다.
기존의 데이터 기반 방식은 모든 단계의 정보를 뭉뚱그려(Aggregate) 학습한다. 이는 공정 간의 인과관계를 가려버려, 불량 발생 시 어느 공정이 문제인지(Bottleneck) 파악하기 어렵게 만든다.

2.3 기존 MMS 모델링 기법의 한계 (SoV 및 기타)

기존 연구들과 제안하는 SDK 모델 간의 특징 비교(자동화된 특징 추출, 비선형성 지원, 해석 가능성, 단계별 예측)

Monitoring the state of intermediate product: Clustering[18], PCA+Decision Tree[19] 등을 통해 중간 제품을 분류하려 했으나, 직접적인 품질 수치 예측에는 한계가 있었다.
Graph/Attention Network : PGAT(path enhanced bidirectional graph attention network)[21]나 Multi-task learning[22] 등은 공정 간 상호작용을 학습하려 했으나, 운영 의사결정을 지원하는 프레임워크로는 부족함이 있었다.
Bayesian Methods: 불확실성을 다룰 수 있지만[23, 24], 공정 변수 분포에 대한 사전 지식(Prior Knowledge)이 필요하여 복잡한 시스템에 적용하기 어렵다.
SoV (Stream-of-Variation) 분석:
- MMS 모델링의 주류인 SoV 분석은 상태 공간(State Space)을 이용해 변동 전파를 모델링한다.
- 가시성이 뛰어나고 제어(Control)가 쉽다는 장점이 있지만, "선형 동적 시스템(Linear Dynamics)"이어야 한다는 강력한 제약 조건이 있다.
- 최근에는 신경망과 SoV를 결합하려는 시도[28, 29]가 있었지만, 비선형 전이(Nonlinear Transition)로 인해 공정 제어나 공차 할당 같은 최적화 알고리즘을 적용하기 어려워지는 문제가 발생한다.

2.4 Stochastic Deep Koopman(SDK) 제안

본 논문은 위에서 언급한 한계들을 극복하기 위해 새로운 프레임워크를 제안한다. VAE + Koopman Operator 우리는 각 공정 단계에 Variational Autoencoder (VAE)를 적용하여 핵심 품질 정보를 추출하고, Koopman Operator를 통해 이 정보가 공정을 따라 어떻게 전파되는지를 모델링한다.

이 프레임워크는 다음 세 가지 핵심 속성을 가진다.

확장성 (Scalability): 센서 데이터의 자동 처리를 통해 대규모 시스템에 적용 가능
유연성 (Extensibility): 비선형 시스템도 모델링 가능
해석 가능성 (Interpretability): 선형 잠재 역학(Linear Latent Dynamics)을 통해 의사결정 지원

2.5 Main Contributions

MMS 특화 가상 계측: 단순 예측을 넘어 공정 간 품질 '전파(Propagation)'에 초점을 맞춘 프레임워크 설계
선형성(Linearity) 확보: Koopman Operator를 통해 비선형 품질 전파를 선형적으로 표현함으로써, 근본 원인 분석(Root Cause Analysis)을 위한 가시성과 해석력 제공
확률적(Stochastic) 모델링: 새로운 확률적 딥러닝 기법을 통해 불필요한 정보를 제거하고, 공정 및 센서 노이즈에 대한 강건성(Robustness) 확보

3. Problem Statement

이 연구는 $N$개의 단계(Stage)로 이루어진 다단계 제조 시스템(MMS)을 정의하는 것에서 시작합니다. 각 단계 $k$에서는 공정 센서 데이터($X_k$)가 수집되고, 이에 따른 제품 품질($Y_k$)이 결정됩니다.

3.1 품질 추정의 인과성 (Causality)

다단계 공정의 핵심은 "누적된 영향" 이다. $k$ 단계에서의 품질 $\tilde{Y}_k$는 해당 단계의 데이터뿐만 아니라, 그 이전의 모든 공정($1$부터 $k$까지)의 영향을 받아 결정된다.

$$\tilde{Y}_k = g_k(X_1, ..., X_k), \quad k \geq 1 \quad \text{(1)}$$
- 현재의 품질($Y_k$)은 과거부터 현재까지의 모든 공정 변수($X_1 \dots X_k$)에 의해 결정되는 인과적(Causal) 관계를 가진다. 즉, 품질을 정확히 예측하려면 전체 공정의 이력을 모두 고려해야 한다.

3.2 기존 SoV 모델의 접근과 한계

이러한 인과관계를 풀기 위해 기존의 SoV(Stream-of-Variation) 모델은 다음과 같은 선형 상태 공간 방정식(State-Space Equation)을 사용해 왔다.

$$\tilde{Y}i = A_i \tilde{Y}{i-1} + B_i X_i \quad \text{(2)}$$
- $A_i \tilde{Y}_{i-1}$ (Propagation): 이전 단계의 품질이 현재 단계로 전이되는 영향 (전이 행렬)
- $B_i X_i$ (Current Impact): 현재 단계의 공정 변수가 품질에 미치는 직접적인 영향 (입력 행렬)

핵심 문제 식 (2)는 복잡한 비선형(Nonlinear) 시스템을 선형 관계($A, B$ 행렬)로 단순화하여 근사한다. 하지만 현대의 제조 공정은 고도로 비선형적이기 때문에, 이러한 선형 모델(Linearized mapping)로는 실제 품질 변동을 정확하게 포착하는 데 근본적인 한계가 존재한다.

따라서, 이 논문은 식 (1)의 비선형성을 유지하면서도, 식 (2)처럼 명쾌한 전파 구조를 가질 수 있는 새로운 프레임워크(Koopman)를 제안한다.

4. Preliminary: Koopman Operator Theory

본 논문의 핵심 엔진인 Koopman Operator에 대해 먼저 짚고 넘어가고자 한다. 공학 수학이나 제어 이론을 공부하신 분들에게는 익숙할 수도 있지만, 이 논문에서는 딥러닝과 결합하여 아주 독창적인 방식으로 사용되었다.

4.1 비선형 시스템을 다루는 두 가지 관점

우리가 흔히 마주치는 현실의 시스템은 대부분 비선형(Nonlinear)이다.

$$x_{t+1} = F(x_t)$$

이러한 비선형 시스템을 해석하거나 제어하기 위해 우리는 보통 선형화(Linearization) 과정을 거친다.

기존의 방식 (Local Linearization): 테일러 급수 전개(Jacobian) 등을 이용해 특정 동작점(Operating Point) 근처에서만 선형적으로 근사한다. 하지만 이는 국소적(Local)이라 시스템의 전반적인 거동을 설명하지 못한다.
Koopman의 방식 (Global Linearization): 1931년 B.O. Koopman이 제안한 방식으로, 관점을 완전히 바꾼다. 상태 변수 $x$ 자체를 보는 것이 아니라, 측정 함수(Measurement Function) $\gamma(x)$를 통해 무한 차원의 힐베르트 공간(Hilbert Space)으로 매핑하면, 그 공간에서는 시스템이 선형적으로 진화한다는 이론이다.

4.2 Koopman Operator의 정의

Koopman Operator $K$는 다음과 같이 정의된다.

$$\gamma(x_{t+1}) = \gamma \circ F(x_t) = K\gamma(x_t)$$

즉, 원래 공간($x$)에서는 복잡하게 꼬여있는 비선형 움직임($F$)이, 새로운 고차원 공간($\gamma$)에서는 단순한 행렬 곱($K$) 형태의 선형 움직임으로 표현된다는 것이다.

4.3 Time vs Stage

기존의 Koopman 연구들은 대부분 시간(Time)에 따른 유체 역학이나 동적 시스템의 변화를 예측하는 데 사용되었다. 하지만 본 논문(SDK Framework)의 독창적인 점은 이 개념을 시간($t$)이 아닌 제조 단계(Stage, $k$)에 적용했다는 것이다.

"제조 공정의 단계별 품질 변화(Quality Propagation)를 Koopman Operator를 통해 선형적으로 풀어내겠다." 이것이 바로 이 논문이 복잡한 다단계 공정을 해석 가능한 선형 모델로 바꿀 수 있었던 핵심 이론적 배경이라고 볼 수 있다.

5. Proposed Method

해당 paper의 핵심이라고 볼 수 있는 부분이다. 크게 기본이 되는 결정론적(Deterministic) 모델을 설명한 뒤, 이를 현실적인 노이즈 처리가 가능한 확률적(Stochastic) 모델(SDK)로 확장하는 순서로 구성되어 있다.

이 연구의 목표는 다단계 제조 시스템(MMS)의 비선형성을 잠재 공간(Latent Space)으로 가져와 선형적으로 풀어내는 것이다.
저자들은 먼저 기본 모델(Base Model)을 제안하고, 이를 노이즈에 강건한 확률적 모델(SDK)로 발전시킨다.
전체 프레임워크는 각 단계(Stage $k$)마다 1) 인코딩(Encoding), 2) Koopman 전이(Transition), 3) 예측(Prediction)의 세 가지 모듈로 구성된다.

5.1 Encoding Module by AE

첫 번째 단계는 복잡한 공정 데이터($X_k$)를 Koopman 이론이 적용 가능한 불변 부분공간(Invariant Subspace)으로 매핑하는 것이다.

목표: 비선형적인 품질 전파가 선형적으로 근사될 수 있는 잠재 공간을 찾는 것이다.
왜 PCA가 아닌 AE인가? PCA는 차원 축소를 목적으로 하지만, Koopman 이론에서는 선형성을 확보하기 위해 때로는 차원을 유지하거나 늘려야 한다. Autoencoder(AE)는 비선형 매핑이 가능하므로, 최적의 부분공간을 찾는 데 훨씬 유연하다.
수식: $$\hat{H}_k = \phi_k(X_k)$$
- 여기서 $\hat{H}_k$는 현재 단계의 공정 데이터에서 추출한 일시적 품질 지표(Temporal Quality Indicators)이다.
- 학습: 디코더($\psi_k$)는 학습 시에만 사용되며, 입력 데이터($X_k$)와 재구성된 데이터($\tilde{X}_k$) 사이의 차이(Reconstruction Loss)를 줄이는 방향으로 인코더를 학습시킨다.

5.2 Koopman Transition Module

이 프레임워크의 핵심 엔진이다. 현재 단계의 품질($H_k$)은 '현재 공정의 영향($\hat{H}k$)' + '이전 단계에서 넘어온 영향($H{k-1}$)'으로 결정된다.
선형 전파 수식: $$H_k = \hat{H}k + K{k-1}H_{k-1}$$

위 수식에서 $K_{k-1}$이 바로 Koopman 행렬이다. 이 수식을 통해 비선형 시스템을 잠재 공간에서 선형적으로 다룰 수 있게 된다.

대각 행렬 (Diagonal Matrix): 계산 효율성과 해석력을 위해 $K$를 대각 행렬로 구성한다. 이는 각 품질 지표가 서로 섞이지 않고 독립적으로 전파(Decoupled Propagation)됨을 의미하여 추적 가능성을 높인다.
동적 행렬 (Input-dependent Matrix):기존 연구들이 $K$를 고정된 정적 행렬로 둔 것과 달리, 이 논문에서는 Auxiliary Network를 통해 입력 데이터($X$)에 따라 고윳값($\lambda$)이 변하도록 설계했다.
- 장점: 고정된 선형 모델이 아니라, 입력 조건(작업 환경)에 따라 변화하는 동적인 선형 모델을 구현하여 정확도를 높였다.

5.3 Prediction Module

잠재 공간에서 선형적으로 전파된 최종 품질 지표($H_k$)를 이용해 실제 품질 지수($Y_k$)를 예측한다.
구조: 간단한 2계층 MLP(Multi-layer Perceptron)를 사용한다.

$$\tilde{Y}_k = \text{MLP}_k(H_k)$$
의미: 전체 시스템을 수식으로 풀면 비선형이지만, 내부의 전파 과정(Accumulation)은 Koopman 행렬들의 곱으로 이루어진 선형 시스템이다. 즉, "복잡한 비선형성"을 "선형 전파 + 비선형 매핑"으로 분해한 것이다.

5.4 Two-step Training

복잡한 딥러닝 모델을 한 번에 학습시키면 그래디언트 소실/폭주 등으로 인해 불안정해질 위험이 있다. 저자들은 이를 방지하기 위해 2단계 학습법을 제안한다.

1. Step 1: 사전 학습 (Pre-training)

AE 학습: 각 단계별로 오토인코더를 비지도 학습으로 먼저 훈련시켜 데이터 재구성 능력을 확보한다.
전이 모듈 학습: 순차적으로(Stage 1 -> N) Koopman 모듈과 예측 모듈을 학습시킨다.

2. Step 2: 미세 조정 (Fine-tuning)

모든 모듈을 연결하여 전체 네트워크를 구성하고, 전체 손실 함수(Total Loss)를 최소화하도록 튜닝한다.
Loss Function: 예측 오차($L_{pred}$) + 재구성 오차($L_{recon}$)

5.5 Stochastic Deep Koopman Model (SDK)

제조 현장은 항상 노이즈와 불확실성이 존재한다. 따라서 기본 모델(Base Model)은 이를 완벽히 다루지 못하므로, 저자들은 확률적(Stochastic) 접근을 도입
AE $\rightarrow$ VAE: 오토인코더를 Variational Autoencoder (VAE)로 교체한다. 이제 잠재 변수는 고정된 값이 아니라 가우시안 분포($\mu, \sigma$)를 가진다.

$$P(\hat{H}_k | X_k) \sim \mathcal{N}(\hat{\mu}_k, \hat{\sigma}^2_k)$$
분포의 전파 (Propagation of Distribution):평균($\mu$)과 분산($\sigma$)이 각각 별도의 Koopman 연산자를 통해 전파된다.
- $\mu_k = \hat{\mu}k + K^{\mu}{k-1}\mu_{k-1}$
- $\ln \sigma_k = \ln \hat{\sigma}k + K^{\sigma}{k-1} \ln \sigma_{k-1}$
  
  두 개의 별도 Auxiliary Network를 사용하여 평균용 행렬($K^\mu$)과 분산용 행렬($K^\sigma$)을 각각 생성한다.
Reparameterization Trick: 확률 분포에서 샘플링을 하면 미분이 불가능해져 역전파(Backpropagation) x 따라서 재파라미터화 트릭 사용
- $$H_k = \mu_k + \epsilon \cdot \sigma_k, \quad \text{where } \epsilon \sim \mathcal{N}(0, 1)$$랜덤 노이즈 $\epsilon$을 별도로 분리하여, $\mu$와 $\sigma$에 대해 미분이 가능하도록 만든다. 이렇게 생성된 $H_k$가 최종 예측 모델(MLP)의 입력으로 들어간다.
손실 함수의 변화: VAE를 사용하므로, 학습 시 잠재 변수가 정규 분포를 따르도록 강제하는 KL-Divergence ($L_{KLD}$) 항이 추가된다.
$$\mathcal{L}{total} = \sum{i=1}^{N} \left( \rho_i \mathcal{L}{pred,i} + \theta_i (\mathcal{L}{recon,i} + \omega_i \mathcal{L}_{KLD,i}) \right) \quad \text{}$$
- $\mathcal{L}_{pred}$: 정답(품질)을 얼마나 잘 맞췄는가? (예측 오차)
  - $\mathcal{L}_{recon}$: 원본 데이터($X$)를 얼마나 잘 복원하는가? (재구성 오차)
- $\mathcal{L}_{KLD}$ (KL-Divergence): 학습된 잠재 분포 $P(\hat{H}_k|X_k)$가 표준 정규분포 $\mathcal{N}(0, I)$와 얼마나 유사한가? (정규화 항)

6. Case Study: Results and Analysis

실제 디트로이트 근처의 고속 연속 제조 라인에서 수집된 "Multistage continuous-flow manufacturing process (MCMP)" 오픈소스 데이터셋을 사용하여 모델을 검증

시스템 구성: 2단계(Stage) - 5개 기계(Machine) 구조
- Stage I: 3개의 병렬 기계(Machine 1, 2, 3) $\rightarrow$ 결합기(Combiner)
- Stage II: 2개의 직렬 기계(Machine 4, 5).
데이터:
- 입력 ($X$): 총 55개 변수 (Stage I: 41개, Stage II: 14개)
- 출력 ($Y$): 각 단계별 15개의 품질 측정값 (총 30개 레이블)

6.1 Data Pre-processing

MCMP 데이터셋의 품질 측정값(레이블)은 노이즈가 많고 오류가 잦다는 문제가 있다. 따라서 기존 연구에서는 마스킹 기법을 사용했지만, 본 paper에서는 이를 개선하기 위해 자동화된 노이즈 제거(Denoising) 기법 제안

자동 전처리 2단계
- Zero-reading 제거: 데이터의 20% 이상이 0으로 기록된 레이블은 신뢰할 수 없으므로 삭제

이상치(Outlier) 제거: 남은 레이블 중, 중위수(Median)로부터 표준편차의 3.5배를 벗어나는 값은 이상치로 간주하여 제거

결과
- 전처리 후, 예측해야 할 품질 레이블의 개수는 Stage I에서 8개 ($q_1=8$), Stage II에서 13개 ($q_2=13$)로 최종 형성

6.2 Implementation Details

데이터 분할: 전체 데이터를 학습(70%), 검증(10%), 테스트(20%) 세트로 무작위 분할
잠재 공간 크기 ($d_h$): 모든 단계의 잠재 변수 차원을 60으로 통일($d_{h,1} = d_{h,2} = 60$)
- 이유: 충분히 큰 잠재 공간을 만들어두면, 각 공정 단계는 그 중 자신에게 필요한 일부 부분공간(Subset)에만 영향을 미치게 되므로 모델링이 가능하기 때문이다.
- 이에 따라 Koopman 행렬들($K, K^\mu, K^\sigma$)의 크기는 모두 $60 \times 60$이 된다.
하이퍼파라미터 설정
- Batch size: 64
- Learning rate: 사전 학습(Pre-training) 시 $10^{-3}$, 미세 조정(Fine-tuning) 시 $3 \times 10^{-4}$
- 가중치: $\theta = 0.1$ (재구성 오차 가중치), $\omega = 5 \times 10^{-5}$ (KL Divergence 가중치), $\rho = 1$ (예측 오차 가중치)

6.3 Performance Evaluation

저자들은 MCMP(Multistage continuous-flow manufacturing process) 데이터셋을 활용해 SDK와 최신 알고리즘들의 성능을 비교 분석했다. 결론적으로 SDK는 단순 정확도뿐만 아니라, 가변적인 공정 조건과 노이즈 환경에서도 가장 신뢰할 수 있는 모델임이 확인되었다.

1. Benchmarks

기본 모델: ANN (기초 신경망), RF (Random Forest)
SOTA 모델: PGAT (그래프 어텐션), DMMTL (다단계 멀티태스크 학습)
Ablation 모델: S-AEK (정적 Koopman 행렬), E-AEK (동적 Koopman 행렬)

2. Quantitative Results

SDK의 우수성: SDK는 Stage I, Stage II 및 전체 MSE에서 가장 낮은 오차를 기록하며 최고의 성능을 입증했다.

RF: Random Forest(RF)가 일부 딥러닝 모델보다 우수한 성능을 보였는데, 이는 데이터셋의 크기가 작고 전처리가 잘 되어 노이즈가 적었기 때문으로 분석된다.

단계별 난이도: 누적된 공정 영향으로 인해 모든 모델에서 Stage I보다 Stage II의 예측 오차가 더 높게 나타났다.

3. Robustness Analysis

E-AEK vs. S-AEK: 정상 범위에서는 비슷하나, 조건이 급변하는 구간에서는 입력 데이터에 따라 변하는 동적 전이 행렬을 가진 E-AEK가 더 우수한 성능을 보인다.

** SDK: SDK는 확률적(Stochastic) 모델링을 통해 공정 노이즈와 이상치에 대한 강건성을 확보하여, 모든 작동 구간에서 가장 안정적이고 낮은 오차를 기록했다.**

6.4 Anaysis in the Latent Space

SDK 모델이 블랙박스가 아니라, 잠재 공간(Latent Space) 분석을 통해 공정의 내부 거동을 어떻게 투명하게 보여주는지 설명한다.

1. 잠재 차원의 결정 (Dimension Lifting)

Koopman 기반 아키텍처는 선형 근사를 효과적으로 수행하기 위해 특징의 차원을 확장(Lift)해야 한다. 저자들은 Elbow Method를 사용하여 최적의 잠재 차원을 $d_{h,k} = 60$으로 결정했다. 차원이 너무 크면 계산 비용이 늘어나고 그래디언트 소실 문제가 발생할 수 있다.

2. 전이 행렬의 시각화 및 희소성 (Sparsity)

학습된 Koopman 전이 행렬을 시각화하면 품질 지표가 어떻게 전파되는지 직관적으로 볼 수 있다. 아래 그림에서 대각 성분의 밝은 점들은 품질 전파 경로를 나타낸다.

결과 해석: $\mathcal{K}^{\mu}_1$는 35개, $\mathcal{K}^{\sigma}_1$는 20개의 0이 아닌 고윳값(Eigenvalues)을 가진다.
의미: 전체 잠재 변수 중 약 절반만이 다음 단계 품질에 유의미한 영향을 미친다는 희소성(Sparsity)을 보여준다.

*이는 이상 발생 시 어떤 지표가 문제였는지 역추적(Backtracking)하여 근본 원인(Root Cause)을 빠르게 파악할 수 있게 해준다. *

3. SoV 모델과의 연결성

SDK는 데이터로부터 핵심 지표와 전이 행렬을 스스로 학습한다는 점에서, 사전 물리 지식이 필수적인 전통적 SoV(Stream-of-Variation) 방법론의 한계를 극복한 데이터 기반 SoV라고 볼 수 있다.

6.5 Interpretability of SDK

Koopman 모듈 자체는 선형이라 해석이 쉽지만, 앞뒤에 붙은 신경망(Encoder, Prediction)은 여전히 블랙박스입니다. 이를 보완하기 위해 민감도 분석(Sensitivity Analysis)을 수행하여 모델의 설명력을 높였다.

1. 민감도 분석 방법 확률적 네트워크의 특성상 계산이 까다롭지만, 노이즈 변수($\epsilon$)를 0으로 고정하여 명목 작동 조건(Nominal Condition)에서의 입력 변수 중요도를 계산했다.

2. 분석 결과 위 히트맵에서 밝은 부분은 해당 공정 변수가 품질에 큰 영향을 미침을 나타낸다. 분석 결과, 일부 소수의 공정 특성(Sparse subset)만이 최종 품질을 결정한다는 것을 알 수 있다. 반면, 어두운 영역(품질과 상관관계가 낮은 변수들)은 향후 더 정밀한 모니터링을 위해 추가적인 센서 데이터 확보가 필요함을 시사한다.

6.6 Discussion

1. SDK의 차별점

기존 VM 아키텍처들이 여러 모델을 이어 붙여(Splicing) 사용하는 것과 달리, SDK는 통합된 프레임워크 안에서 단계별 품질 추정을 수행한다. 이를 통해 중간 단계의 지표들까지 정교하게 조정되어 전체적인 예측 정확도를 높이고 실시간 제어 알고리즘 설계를 용이하게 한다.

2. 한계점 (Limitations) 및 비용

데이터 및 센서 투자: 학습을 위해 방대한 산업 데이터가 필요하며, 이를 위한 센서 설치 비용과 시간이 소요된다.
계산 복잡도: 잠재 공간의 차원 확장과 2단계 학습 과정으로 인해 계산 복잡도가 증가할 우려가 있다.
반론: 하지만 실험 결과 전체 학습 시간은 기존 NN 기반 모델들과 비슷했다. 초기 투자 비용은 향상된 운영 효율성과 ZDM(무결점 제조) 달성을 통해 충분히 상쇄될 수 있다.

7. Conclusion

본 논문은 제조 경쟁력 확보와 ZDM(Zero Defect Manufacturing) 실현을 위해, 다단계 제조 시스템(MMS)에서 실시간으로 결함을 감지할 수 있는 Stochastic Deep Koopman (SDK) 모델을 제안했다.

핵심 기여점 (Key Conclusions)
- 새로운 프레임워크: VAE와 Koopman Operator를 결합하여, 공정 라인을 따라 품질이 전파되는 과정을 단계별(Stage-by-stage)로 정확히 포착
- 향상된 해석 가능성: 기존 블랙박스 모델과 달리, 품질 변동의 추적 가능성(Traceability)을 높여 근본 원인 분석(Root Cause Analysis)과 효과적인 품질 제어를 가능하게 했다.
- 범용성 (Versatility): 복잡한 물리적 도메인 지식 없이도 데이터만으로 학습이 가능하여, 다양한 제조 현장에 유연하게 적용될 수 있는 가상 계측(VM) 도구임을 입증했다.
향후 연구 방향 (Future Works):
- 데이터 확보: 연합 학습(Federated Learning)을 도입하여 데이터 부족 문제 해결 및 협업 모델 개발
  - 성능 고도화: 물리적 지식(Physical Knowledge)을 데이터 기반 모델에 통합하는 Physics-informed Learning 적용.
  - 확장성: 단순 감지를 넘어 실시간 제어(Control) 및 경제성/지속가능성 분석(ROI)으로의 연구 확장

[논문 리뷰] Advancements in Soft-Sensor Technologies for Quality Control in Process Manufacturing: A Review (IEEE Sensors Journal 2025.05)

Sun, 01 Feb 2026 14:28:11 GMT

해당 paper는 2000년부터 2024년까지 머신러닝(ML) 기반 소프트 센서 기술의 진화 과정을 포괄적으로 다루고 있으며, 제조 현장에서의 품질 예측을 위한 알고리즘, 산업별 적용, 그리고 방법론적 변화를 상세히 분석하고 있다.

원본 paper는 해당 링크를 참고하시길 바랍니다.

Summary

01 Motivation 물리적 측정의 한계와 오프라인 분석의 지연(최대 12시간)으로 인한 제조 현장의 실시간 품질 제어 불가능 문제를 해결하기 위한 기술적 대안이 필요하다.

02 Review Focus 2000년부터 2024년까지의 연구를 분석하여, 단순 통계 모델에서 딥러닝으로 이어지는 소프트 센서 기술의 진화(Evolution)와 산업별 적용 양상을 체계적으로 규명한다.

03 Key Challenges 공정 데이터의 비선형성(Nonlinearity), 시계열적 지연(Time Delay), 그리고 데이터 주기 차이(Multirate Sampling)로 인한 데이터 불균형이 소프트 센서 개발의 주요 걸림돌이다.

04 Contribution 머신러닝 알고리즘의 분류 체계(Taxonomy)를 정립하고, 시멘트 공정 등에서 에너지 소비를 최대 9.3%까지 절감할 수 있는 실질적 효용성을 입증했다.

05 Comparative Analysis 딥러닝은 정확도가 높으나 연산 비용이 크고, Tree 기반 모델은 $O(N \cdot D)$의 선형적 복잡도와 낮은 성능 편차를 보여 실시간성과 안정성 면에서 우수하다.

06 Practical Insight 현장 적용(Deployment) 시, 무조건적인 고성능 딥러닝보다는 경량화(Lightweight)와 성능 안정성이 보장된 Tree 모델이나 엣지 컴퓨팅 전략이 더 유효할 수 있다.

07 Future Directions 딥러닝의 데이터 요구량을 충족하기 위한 GAN 기반 데이터 증강, 타 공정 지식을 활용하는 전이 학습(TL), 그리고 데이터 보안을 위한 연합 학습(FL)이 핵심 연구 주제가 될 것이다.

0. Abstract

최근 머신러닝은 제조 공장의 품질 관리를 강화하는 핵심 도구이다. 그러나 제조 현장에서 실시간 품질 평가는 여전히 어려운 과제이다. 이에 대한 해결책으로 2000년 이후 소프트 센서(Soft Sensor)가 주목받고 있다. 소프트 센서는 ML을 활용해 공정 품질 지표를 예측하는 기술로, 공정 안정성 확보, 제품 폐기율 감소, 에너지 및 연료 효율 향상과 같은 이점을 제공한다.
초기에는 정유, 폴리머, 시멘트, 철강 산업을 중심으로 개발되었으나 점차 다양한 산업으로 확산되고 있다. 알고리즘 측면에서는 단순 선형 알고리즘에서 시작하여 신경망, SVM(Support Vector Machine), 트리 기반 모델을 거쳐, 최근에는 복잡한 딥러닝 모델로 진화하였다. 데이터 가용성과 컴퓨팅 파워의 증가는 딥러닝 알고리즘을 소프트 센서 연구의 주류로 만들고 있으며, 이는 에너지 소비 절감과 생산율 향상, $CO_2$ 발자국 감소에 기여할 것이다.

1. Introduction

Problem
물리적 센서의 설치 제약과 오프라인 분석의 긴 소요 시간(최대 12시간)으로 인해 제조 현장에서 실시간 품질 평가 및 즉각적 제어가 불가능한 한계를 해결하고자 한다.

1.1 Problem Definition

2000년 이후 철강, 시멘트, 폴리머, 정유 등 공정 제조 산업은 새로운 도전에 직면했다. 과거에는 단순히 비용 절감과 생산 용량 증대가 주된 관심사였으나, 현재는 사회적 책임과 생태학적 발자국(Ecological Footprint) 감소가 필수적인 요구사항으로 대두되었다. 낮은 품질은 단순한 비용 손실을 넘어 사회적, 환경적 악영향을 초래하기 때문이다.

1. 실시간 품질 평가의 불가능성: 적절한 측정 장비의 부재, 설치 공간의 제약, 높은 비용 문제로 인해 공정 중 실시간으로 품질을 확인하는 것은 현실적으로 불가능에 가깝다.

2. 오프라인 분석의 시간 지연: 기존 방식은 공정 후 샘플을 채취하여 실험실에서 분석하는 오프라인 방식에 의존한다. 이 과정은 결과 확인까지 최대 12시간이 소요되므로, 공정 엔지니어가 이상 상황에 대해 즉각적으로 대응하거나 제어하는 것을 어렵게 만든다.

1.2 Solution

이러한 물리적 센서의 한계를 극복하고 실시간 대응 체계를 구축하기 위해 소프트 센서(Soft Sensor) 기술이 개발되었다. 이는 하드웨어 센서를 대체하는 수학적 모델로서, 2000년 이후 데이터 가용성의 증가와 함께 급격히 성장하고 있다.

1. 소프트 센서의 정의 및 원리: 소프트 센서는 이용 가능한 공정 데이터(온도, 압력 등)와 품질 변수 간의 상관관계를 분석하여, 측정하기 어려운 미지의 실시간 품질 변수를 정확히 추정해 내는 가상의 센서 모델이다.

2. 에너지 및 비용 절감 효과: 소프트 센서를 통한 실시간 예측은 공정 효율을 극대화한다. 예를 들어, 시멘트 밀(Mill) 공정에서 1일 압축 강도를 예측하여 클링커 분말도를 최적화할 경우 약 3%의 에너지를 절감할 수 있다. 또한, 시멘트 킬른(Kiln)에서 유리 석회(Free lime)를 예측하여 제어할 경우 연료 소비를 9.3%까지 줄일 수 있음이 입증되었다.

3. 데이터 기반 모델로의 진화: 복잡한 물리, 화학적 공정 지식이 없어도 구축 가능한 데이터 기반(Data-driven) 모델이 확산되고 있다. 이는 공정 데이터가 풍부해짐에 따라 더욱 정교해지고 있으며, 제조 현장의 품질 관리 패러다임을 사후 분석에서 실시간 예측 및 제어로 전환시키는 핵심 솔루션으로 자리 잡고 있다.

2. Methodology

저자들은 주요 데이터베이스에서 390개 이상의 연구를 검색하고 스크리닝하여, 최종적으로 107개의 논문을 선정하였다. 선정 기준은 출판 연도, 적용된 ML 알고리즘, 관련 산업(정유, 시멘트, 수처리 등), 샘플링 모델, 튜닝 접근법, 평가 지표 등을 고려하였다. 본 리뷰 논문은 다음의 4가지 주요 질문에 대한 답을 찾는 것을 목표로 수행되었다.

Key Research Question

2000년 이후, 공정 제조 산업에서 품질 변수 예측을 위한 소프트 센서 개발과 관련하여 머신러닝은 어떻게 발전해 왔는가?
해당 기간 동안 주로 사용된 지배적인 ML 알고리즘은 무엇인가?
제조 분야의 품질 관리를 목적으로 소프트 센서가 주로 개발된 핵심 산업군은 어디인가?
샘플 확보, 모델 튜닝, 그리고 성능 평가를 위해 어떠한 방법론이 사용되었는가?

1. 정보 추출 단계

Year (연도): 해당 연구가 출판된 시점
ML Algorithms Used (사용된 ML 알고리즘): 소프트 센서 구현에 사용된 머신러닝 모델의 종류
Industries (산업): 해당 기술이 적용된 제조 분야 (예: 시멘트, 정유, 철강 등)
Sample Features (샘플 특징): 데이터의 특성 및 샘플링 방법
Tuning Methods (튜닝 방법): 모델의 성능을 최적화하기 위해 사용된 하이퍼파라미터 튜닝 기법
Evaluation Metrics (평가 지표): 모델의 성능을 측정하기 위해 사용된 척도 (RMSE, $R^2$ 등)

2. 연구 목표 달성 단계

Objective (Evolution): 'Year' 데이터를 분석하여 시간의 흐름에 따른 기술의 진화(Evolution) 양상 파악
Objective (Algorithms): 'ML Algorithms Used' 데이터를 통해 시기별 지배적인 알고리즘 트렌드 분석
Objective (Industries): 'Industries' 데이터를 통해 어떤 산업 분야에서 소프트 센서가 주로 활용되는지 파악
Objective (Methodology): 'Sample Features', 'Tuning Methods', 'Evaluation Metrics' 데이터를 종합하여 연구 방법론(Methodology)의 변화와 표준 정립

3. Data

3.1 ML Taxonomy

소프트 센서에 사용되는 ML 알고리즘은 크게 지도 학습(Supervised)과 비지도 학습(Unsupervised)으로 나뉜다.

지도 학습과 비지도 학습을 상위 계층으로 두고, 각각 전통적 방법(Non-DL)과 딥러닝(DL)으로 세분화한 분류도이다.
지도 학습 (Supervised):
- 전통적 방법: 회귀(Regression), 트리 기반(Tree-based), KNN, SVM/SVR, 베이지안, 얕은 신경망(Shallow Neural Net)
- 딥러닝(DL): 다층 퍼셉트론(MLP), CNN, RNN
비지도 학습 (Unsupervised):
- 전통적 방법: 클러스터링, PCA, LDA
- 딥러닝(DL): 오토인코더(AE), DBN(Deep Belief Network), RBM(Restricted Boltzmann Machine), SOM(Self-Organizing Map), GAN

3.2 Histroical Background

지난 20여 년간 제조 공정의 품질 예측을 위한 소프트 센서 기술은 단순한 통계 모델에서 복잡한 딥러닝 시스템으로 비약적인 발전을 이루었다. 이 과정은 공정 데이터의 특성(비선형성, 시계열성, 데이터 불균형)을 극복하기 위한 알고리즘의 진화 과정과 궤를 같이한다.

1. 1990년대 ~ 2000년대 1990년대 초반, 연구자들은 제조 품질 변수를 예측하기 위해 PLS(부분 최소 제곱), PCA, ANN과 같은 데이터 기반 알고리즘을 사용하기 시작했다. 그러나 이 분야에 대한 집중적인 연구와 새로운 알고리즘의 개발은 2000년 이후 본격화되었으며, 이는 공정 품질 예측을 위한 소프트 센서(Soft Sensor)의 실질적인 적용으로 이어졌다.

2. 2010년 ~ 2016년: ANN과 SVM을 통한 비선형성 극복 이 시기에는 공정의 복잡한 비선형성을 처리하기 위해 ANN의 변형 모델들과 SVM이 집중적으로 연구되었다.

ANN 변형 모델 (ELM, RBF): 기존 ANN의 느린 학습 속도와 지역 최소값(Local Minima) 문제를 해결하기 위해 ELM(Extreme Learning Machine)이 도입되었다. 또한, RBF(방사 기저 함수) 신경망 역시 ANN보다 우수한 성능을 보이며 활발히 연구되었다.
SVM (Support Vector Machine): 통계학적 학습 이론에 기반한 SVM은 적은 데이터로도 일반화 성능이 뛰어나고 비선형성 처리에 강점을 보였다. 시멘트 가마의 유리 석회(Free lime) 예측, 철강 빌렛 온도 예측, 폴리머 용융 지수 예측 등 다양한 분야에서 SVM 기반 소프트 센서가 개발되었다.
앙상블(Ensemble) 기법: 단일 모델로는 계절성이나 공정 노후화 같은 다양한 운전 모드를 대변하기 어렵다는 한계를 극복하기 위해, 여러 하위 모델을 결합하여 예측 안정성을 높이는 앙상블 기법이 제안되었다.

3. 2018년 이후: 딥러닝(Deep Learning)의 부상과 데이터 문제 해결 2018년을 기점으로 딥러닝(DL) 모델이 소프트 센서 개발의 주류로 부상했다.

Stacked AE(SAE), CNN, GRU, MLP 등의 알고리즘은 단순한 예측을 넘어 특징 추출(Feature Extraction)과 데이터 증강(Data Augmentation)이라는 새로운 가능성을 열었다.
특징 추출 및 예측: SAE를 이용해 품질과 관련된 비선형 특징을 추출하고 이를 회귀 모델에 입력하는 방식을 제안했다.
CNN은 특징 추출기와 예측기 역할을 동시에 수행하기도 한다.
데이터 불균형 해소 (GAN의 활용): 소프트 센서 개발의 고질적인 문제는 '공정 데이터(빠른 주기)'와 '품질 데이터(느린 주기)' 간의 다중 속도 샘플링(Multirate sampling)으로 인한 데이터 불균형이다. 이를 해결하기 위해 GAN(생성적 적대 신경망)이 활용된다.
- 원리: 생성자(Generator)는 실제 데이터 분포를 모방하여 가짜 샘플을 만들고, 판별자(Discriminator)는 진위를 가려내며 경쟁적으로 학습한다.
- 효과: GAN을 통해 부족한 레이블 데이터를 증강했을 때 RMSE와 $R^2$ 성능이 크게 향상되었다. 이는 딥러닝이 단순한 모델링 도구를 넘어, 데이터 부족 문제를 근본적으로 해결하는 데 기여하고 있음을 시사한다.

4. Results and Discussion

4.1 Industries and Algorithms

2000년 이후 소프트 센서 관련 연구가 급격히 증가하고 있음을 보이고 있음

2000-2005년에는 선형 회귀가 1/3을 차지했으나, 2021-2024년 기간에는 딥러닝(DL) 알고리즘이 전체 논문의 약 56%를 차지할 정도로 비중이 확대되었다.
그럼에도 SVM/SVR, 트리 기반 모델은 그 단순성과 효율성 덕분에 여전히 널리 사용되고 있다.

정유, 폴리머, 시멘트 산업이 전통적으로 가장 많은 비중을 차지하지만, 최근에는 수처리(Water treatment) 및 철강(Steel) 공정에서의 도입이 증가하고 있다.

4.2 Sampling

일반적인 경험 법칙(Rule of thumb)에 따르면, 샘플 수는 입력 파라미터(Feature) 수의 10배에서 100배가 되어야 한다. 따라서 품질 데이터의 경우 드물게 생성되는 반면 공정 데이터는 빈번하게 생성되므로 데이터 불균형이 발생한다. 이를 해결하기 위해 GAN(생성적 적대 신경망)을 활용하여 가상 샘플을 생성하고 라벨 데이터를 증강하는 연구가 활발하다.

딥러닝 모델의 등장과 함께 요구되는 샘플 수가 급증했다.
예를 들어, LSTM 모델의 경우 3만 개 이상의 파라미터 학습을 위해 58,364개의 샘플이 사용되었습니다.

4.3 Metrics

모델 적합성을 평가하기 위해 다양한 지표가 사용된다.

결정계수 ($R^2$): 모델 예측값과 실제값의 관계를 측정하며 단위가 없다.
RMSE (Root-Mean-Square Error): 가장 널리 쓰이는 지표이나, 측정 단위에 의존적이라 서로 다른 공정 간 비교가 어려울 수 있다.

모델의 적합도가 시간이 지남에 따라 평균 0.74에서 0.94로 크게 향상되었음을 보여준다.
ANN, 딥러닝(DL), 트리 기반 알고리즘이 타 모델 대비 더 높은 적합도를 달성하는 경향이 있다.
특히 Tree 기반 모델은 Q1과 Q3 사이의 범위(IQR)가 가장 좁게 나타나는데, 이는 다양한 연구 및 적용 환경에서도 성능 편차가 크지 않고 타 알고리즘 대비 가장 일관되고 안정적인 예측 정확도를 보임을 시사한다.

여전히 RMSE가 선호되지만, 최근 들어 산업 간 비교가 용이한 $R^2$의 사용이 증가하고 있다.

4.4 Lightweight Models & Edge Computing

리소스가 제한적인 환경이나 빠른 응답이 필요한 경우, 클라우드 대신 엣지 컴퓨팅(Edge Computing)이 유리할 수 있다. 이를 위해 모델의 크기를 줄이는 경량화 기술이 중요해졌음을 시사한다.

경량화 기술 목록은 아래와 같다.
- 가중치 압축(Weight Compression): SVD 등을 통해 가중치를 줄임
- 가지치기(Pruning): 덜 중요한 가중치를 제거하여 모델 크기를 최대 90%까지 축소
- 양자화(Quantization): 파라미터를 낮은 비트 수로 변환하여 메모리 사용량 감소
- 지식 증류(Distillation): 복잡한 교사 모델(Teacher)의 지식을 작은 학생 모델(Student)에 전달하여 정확도를 유지하면서 연산량을 줄임

4.5 Performance Criteria

소프트 센서 알고리즘 선택 시 고려해야 할 정성적 비교 결과는 다음과 같다.

정확도가 최우선 목표라면 DL이나 SVM이 적합하며, 학습 속도가 중요하다면 트리 기반 알고리즘이나 KNN, Naïve Bayes가 추천된다.

Ja Hyeob Koo, Yong Ho Song, Jae Hyeon Shim, So Yeong Lee, Young Hoon Lee, LOL: Learning with One Lightweight Sensor-Aware Predictive Model For Sleep Quality, IEEE ICTC 2025 proceeding, Jeju, 2025

2025 IEEE ICTC에서 직접 연구했던 표를 가져오면, Transformer 모델($O(T^2 \cdot d)$) 대비 선형적인 시간 복잡도($O(N \cdot D)$)와 현저히 낮은 구조적 복잡도를 가짐으로써 실제 현장 적용성(Deployment)까지 보장한다는 점을 강력하게 뒷받침한다.
즉, Tree 모델은 단순히 성능의 편차가 적을 뿐만 아니라, 연산 효율성 측면에서도 딥러닝 모델 대비 압도적인 경량화가 가능하여 실시간성이 요구되는 제조 현장에 가장 최적화된 모델임을 알 수 있다.

5. Conclusion

연구의 급성장: 2000년 이후 머신러닝 기술의 확산과 공정 효율화(에너지 절감, 불량률 감소)에 대한 산업계의 강력한 동기가 맞물려 소프트 센서 연구가 급증했다.
기술의 진화: 초기 단순 선형 알고리즘에서 시작하여, 공정의 비선형성, 다중 속도 샘플링, 시간 지연 등의 복잡한 문제를 해결하기 위해 딥러닝(DL) 모델로 발전했다.
모델의 공존: 딥러닝이 주류가 되었으나, 자원이 제한된 환경에서는 여전히 SVM, 트리 기반 모델 등 전통적 알고리즘이 효율적인 대안으로 활용되고 있다.
평가 지표의 변화: 전통적으로 사용되던 RMSE 외에, 단위의 영향을 받지 않아 산업 간 성능 비교가 용이한 결정계수($R^2$)의 활용이 확대되었다.
새로운 접근법: 개별 공정 모델의 한계와 데이터 부족 문제를 극복하기 위해, 지식을 공유하는 전이 학습(Transfer Learning)과 연합 학습(Federated Learning)이 새로운 해결책으로 부상했다.
향후 과제: 미래 연구는 딥러닝을 중심으로 전개되겠지만, 실시간 공정 통합을 위한 시간 제약 극복, 입력 변수의 자동 선택, 그리고 GAN 등을 활용한 부족한 라벨 데이터 생성 기술이 해결해야 할 핵심 과제로 남아있다 .

[논문 리뷰] Chronos-2: From Univariate to Universal Forecasting (Amazon 2025.10)

Mon, 19 Jan 2026 04:53:03 GMT

해당 리뷰에서는 아마존에서 2024년에 발표한 Chronos는 기존 단변량 예측에 집중되었으나, 2025년 10월, Chronos-2로서 단변량, 다변량, 그리고 공변량을 포함한 예측 작업을 제로샷(zero-shot) 방식으로 처리할 수 있는 사전 학습 모델을 제안한다. 이에 대해서 Time-Series Forecasting 연구 방향성에서 이를 접목시키고자 정리한 글이다.

이전 Chronos-1 original paper

핵심 내용 정리

01. Problem 기존 연구의 결정적 결함 (Gap)기존의 시계열 파운데이션 모델(Chronos-1, TimesFM, Lag-Llama 등)은 대부분 단변량(Univariate) 예측에 국한되어 있었다. 그러나 실제 산업 현장(에너지, 리테일 등)에서는 여러 변수가 상호작용하는 다변량 데이터와 외부 요인(날씨, 가격 등)인 공변량(Covariates) 처리가 필수적이다. 기존 모델들은 다변량 데이터를 처리할 때 단순히 변수를 이어 붙이거나 독립적으로 취급하여 변수 간의 복잡한 상관관계를 놓치거나 연산 효율성이 급격히 떨어지는 한계를 보였다.

*02. Idea * 이 논문만의 독창적인 한 줄 논리"그룹 ID(Group ID)와 그룹 어텐션(Group Attention)을 통해, 아키텍처 변경 없이 배치 내 시계열 간 정보를 유연하게 공유하여 제로샷 다변량/공변량 예측을 구현한다."

** 03. Challenge **

예측 문제의 이질성: 도메인마다 변수 개수와 의미가 제각각이라, 모델이 학습 시 보지 못한 새로운 작업에서 변수 간 상호작용을 스스로 추론해야 하는 기술적 어려움이 있었다.
데이터의 희소성: 다변량 의존성과 정교한 공변량 정보가 포함된 고품질의 사전 학습 데이터를 대량으로 확보하는 것이 불가능에 가까웠다.

*04. Contribution *

방법론적 혁신: 배치 축을 활용해 정보를 교환하는 그룹 어텐션과 단변량 데이터를 다변량 구조로 변환하는 멀티베리에이타이저(Multivariatizers) 기법을 제안했다.
성능적 가치: fev-bench를 포함한 주요 벤치마크에서 SOTA를 달성했으며, 특히 공변량 활용 작업에서 독보적인 성능 향상을 입증했다.
실용적 효율성: 8,192단계의 긴 컨텍스트를 지원하면서도 중급형 GPU(NVIDIA A10G)에서 초당 300개의 시계열을 처리하는 높은 처리량을 확보했다.

05 Pros & Cons

강점(Pros): 별도의 파인튜닝 없는 뛰어난 제로샷 범용성, 변수 개수가 늘어나도 연산량이 완만하게 증가하는 확장성($O(V)$), 그리고 $sinh^{-1}$ 변환을 통한 이상치 대응 능력이 탁월하다.
약점(Cons): 현재는 수치형과 범주형 공변량만 지원하며, 텍스트나 이미지와 같은 멀티모달 입력은 아직 처리하지 못한다. 또한 다변량 성능의 상당 부분이 합성 데이터에 의존하고 있다.

*06. Takeaway *

합성 데이터 생성 전략: 실제 다변량 데이터가 부족할 때, 이 논문에서 사용한 멀티베리에이타이저(동시성/순차적 변환) 개념을 차용해 풍부한 학습 데이터를 직접 구축할 수 있다.
그룹 ID 기반의 유연한 모델링: 추천 시스템이나 다변량 분석 시, 모델 구조를 고정하지 않고 그룹 ID 할당 방식만 조절하여 데이터 간의 관계를 동적으로 학습시키는 로직을 응용할 수 있다.

*07. Limitation *

멀티모달 통합: 텍스트 기반의 이벤트 정보나 뉴스 기사 등을 예측에 통합하는 멀티모달 파운데이션 모델로의 확장이 필요하다.
검색 증강 예측(RAG): 그룹 어텐션을 활용해 과거의 유사한 시계열 패턴을 검색하고 이를 예측에 참고하는 Retrieval-augmented forecasting 기법의 정교화가 과제로 남아있다.
희소 메타데이터 최적화: 메타데이터가 매우 부족하거나 노이즈가 심한 환경에서 최적의 그룹화를 수행하는 방법론에 대한 추가 연구가 필요하다.

0. Abstract

사전 학습된 시계열 모델은 별도의 추가 학습 없이도 정확한 예측을 수행하는 '추론 전용' 예측 시스템을 가능하게 했다.

하지만 기존 방식들은 주로 단변량(univariate) 예측에 집중되어 있어, 다변량 데이터와 공변량(covariates)이 중요한 실제 환경에 적용하기에는 한계가 존재한다.

따라서 단변량, 다변량, 그리고 공변량을 포함한 예측 작업을 제로샷(zero-shot) 방식으로 처리할 수 있는 사전 학습 모델인 Chronos-2를 제안하고자 한다. -> 이전 모델(Chronos-1)이 시계열 하나하나를 언어의 '단어'처럼 처리하는 데 집중했다면, Chronos-2는 여러 시계열 간의 관계(다변량)와 외부 요인(공변량, 예: 날씨, 프로모션)까지 한 번에 고려할 수 있도록 진화했다.

Chronos-2는 그룹 어텐션(group attention) 메커니즘을 사용하여 그룹 내 여러 시계열 간 정보를 효율적으로 공유하며, 이를 통해 In-context learning, (ICL)을 수행한다. 이러한 ICL 능력 덕분에 Chronos-2는 실제 예측 파이프라인에서 즉시 사용할 수 있는 범용 예측 모델로서 사용된다.

1. Introduction

1.1 Problem Define

최근 시계열 예측 분야는 개별 데이터셋마다 모델을 학습시키던 과거의 방식에서 벗어나, 대규모 데이터로 사전 학습된 ‘Foundation Models’을 활용하는 방향으로 패러다임이 전환되고 있다. 그러나, 이러한 발전에도 불구하고 실제 산업 현장에 적용하기에는 다음과 같은 치명적인 한계점들이 존재한다.

1. 단변량(Univariate) 중심의 설계: 기존의 대다수 사전 학습 모델은 과거의 단일 관측값만 참고하는 단변량 예측에 최적화되어 있다. 그러나 실제 환경에서는 클라우드 서버의 CPU와 메모리 사용량이 연동되어 움직이거나, 소매점의 매출이 프로모션이나 날씨 같은 외부 요인(공변량)에 의해 결정되는 등 다변량(Multivariate) 데이터의 처리가 필수적이다.

2. 학습 데이터의 희소성: 다변량 의존성과 복잡한 공변량 정보가 포함된 고품질의 시계열 데이터를 대량으로 확보하는 것은 현실적으로 매우 어렵다.

3. 도메인별 이질성: 각 예측 작업마다 변수의 개수와 의미가 다르기 때문에, 보지 못한 새로운 작업(Unseen Task)에서 변수 간의 상호작용을 모델이 스스로 추론해내기가 기술적으로 까다로웠다.

4. 기존 아키텍처의 비효율성: Chronos-1을 포함한 초기 모델들은 T5 계열 모델로, 시계열을 단순 언어 토큰으로 취급하여 처리했으나, 이는 시계열 데이터가 가진 고유의 물리적 특성이나 정교한 확률 분포를 반영하는 데 한계가 있었다.

1.2 Key Contribution

Chronos-2는 위에서 언급한 한계점들을 극복하고, 단변량부터 다변량, 공변량 포함 작업까지 모두 수행할 수 있는 ‘범용 시계열 예측 모델(Universal Forecaster)’로서 다음과 같은 핵심적인 기여는 아래와 같다.

1. 아키텍처의 고도화 (Patching & Quantile Head): Chronos-1이 T5 언어 모델 아키텍처를 그대로 사용하여 Token Classification 방식을 택한 것과 달리, Chronos-2는 시계열 데이터의 특성에 최적화된 Patching 기법을 도입했다. 이를 통해 더 긴 컨텍스트를 효율적으로 처리할 수 있게 되었다. 뿐만 아니라 Quantile Head를 탑재하여 단순한 수치 예측을 넘어 정교한 확률적 분포를 직접 예측함으로써 예측의 불확실성까지 효과적으로 포착한다.

2. 그룹 어텐션(Group Attention) 메커니즘 도입: 여러 시계열 변수를 '그룹'으로 묶고, 배치 축(Batch axis)을 통해 정보를 공유하는 혁신적인 어텐션 방식을 제안했다. 이 메커니즘은 변수의 개수가 늘어나도 연산 비용이 급격히 증가하지 않도록 설계되었으며, 동시에 변수 간의 복잡한 상관관계를 학습할 수 있게 한다.

3. In-Context Learning, ICL의 극대화: 모델 파라미터를 별도로 수정하지 않고도 입력된 데이터 샘플들 사이의 관계를 실시간으로 파악하여 예측에 반영하는 능력을 갖췄다. 이는 추가적인 파인튜닝 없이 즉시 현장에 투입하여 결과를 도출할 수 있는 제로샷(Zero-shot) 성능의 핵심이 된다.

4. 합성 데이터(Synthetic Data)를 통한 데이터 한계 돌파: 고품질의 실제 다변량 데이터가 부족한 문제를 해결하기 위해, 단변량 시계열에 인위적인 다변량 구조와 상관관계를 주입한 대규모 합성 데이터를 학습에 적극 활용했다. 이를 통해 모델은 한 번도 경험하지 못한 산업군의 외부 변수(공변량)까지 잘 처리할 수 있는 범용성을 확보했다.

5. SOTA 성능 및 실용성 입증: 주요 벤치마크에서 기존 모델들을 압도하는 성능을 기록했으며, 특히 공변량이 포함된 작업에서 가장 뚜렷한 성능 향상을 보였다. 아울러 중급형 GPU(NVIDIA A10G) 환경에서도 초당 300개의 시계열을 처리할 수 있을 만큼 높은 계산 효율성을 증명했다.

시계열 예측이 전통적인 통계 모델에서 최신 파운데이션 모델로 어떻게 진화했는지, 그리고 Chronos-2가 해결하고자 하는 기존 모델들의 한계가 무엇인지 살펴보고자 한다.

2.1 시계열 예측 정의와 종류

시계열 예측은 과거의 관측값 $y_{1:T}$를 바탕으로 미래의 값 $y_{T+1:T+H}$를 추정하는 작업

단변량 예측(Univariate): 단일 시계열의 과거 데이터만 사용하는 방식이다.
공변량 활용(Covariate-informed): 타겟 변수 외에 예측에 도움이 되는 외부 변수(예: 날씨, 공휴일)를 함께 고려한다.
다변량 예측(Multivariate): 여러 연관된 시계열(예: 여러 종목의 주가) 간의 상호 의존성을 동시에 모델링한다.
제로샷 예측(Zero-shot): 특정 데이터셋에 대해 별도의 학습(Training) 과정 없이, 이미 학습된 모델을 통해 즉각적으로 예측을 수행하는 방식이다

2.2 Time Series Foundation Model(TSFM)의 등장

시계열 파운데이션 모델은 크게 세 가지 방향으로 발전

LLM 기반 방식: 이미 강력한 성능이 증명된 거대 언어 모델(LLM)의 추론 능력을 시계열 예측에 그대로 이식하려는 시도이다.
Transformer 기반 방식: 시계열 데이터를 패치(Patch) 단위로 나누어 인코더-디코더 구조로 처리하는 PatchTST 등이 대표적이다.
Chronos-1의 접근: 시계열의 수치 데이터를 일정한 구간으로 나누어 토큰화(Quantization)하고, 이를 언어 모델처럼 학습시키는 혁신적인 방식을 제안했다.

기존 사전 학습 모델들은 여전히 다음과 같은 한계 존재

단변량 편향: Lag-Llama, TimesFM, Chronos-1을 포함한 대다수 모델은 단변량 예측에 국한되어 있으며, 다변량 시나리오에서도 각 변수를 독립적으로 취급하여 변수 간 관계와 공변량을 무시한다.
확장성 및 기능 부족: Moirai-1은 다변량 입력을 지원하지만 내부적으로 데이터를 평면화(Flattening)하여 고차원 데이터 처리에 한계가 있고, Toto는 공변량 지원이 부족하다.
성능 정체: 결과적으로 많은 최신 접근법들이 실제 제로샷 환경에서는 단순한 단변량 모델 대비 유의미한 이점을 제공하지 못하고 있다.

Chronos-2의 접근: Group Attention

Chronos-2는 이러한 간극을 메우기 위해 Group Attention Mechanism을 도입했다. 이는 다변량 예측을 위한 교차 어텐션 구조와 여러 단변량 시계열 간의 교차 학습 개념을 일반화한 것이다. 해당 모델은 연관된 시계열 그룹 위에서 작동하며, 아키텍처 변경이나 작업별 적응 없이도 단변량, 다변량, 공변량 포함 작업을 하나의 통합된 프레임워크 내에서 자연스럽게 수용한다.

3. The Chronos-2 Model

Chronos-2의 핵심인 아키텍처와 데이터 처리 파이프라인(Scaling & Tokenization)을 디테일하게 살펴보고자 한다.

Figure 1. Chronos-2 Pipeline

3.1 Scaling and Tokenization

모델에 입력되기 전, 시계열 데이터는 수치 안정성을 확보하고 모델이 이해할 수 있는 벡터 형태로 변환

Input Construction: 타겟($Y$)과 공변량($X$)을 결합하여 하나의 시퀀스($V$)를 구성한다. 범주형 공변량은 Target Encoding 또는 Ordinal Encoding을 통해 수치화된다.
Robust Scaling: 표준화(Standardization)를 거친 후, $sinh^{-1}$ 변환을 추가로 적용한다. 이는 로그 변환과 유사하게 분산을 안정시키고 Outlier의 영향을 줄이는 역할을 한다. $$\tilde{v}{t,d} = \sinh^{-1} \left( \frac{v{t,d} - \mu_d}{\sigma_d} \right)$$
Meta Features: 각 시계열에는 Time Index와 Mask 정보가 추가된다. 시간 인덱스는 패치 기반 입력에서 시계열의 순서를 명시하며, 마스크는 결측치나 미래 공변량을 식별하는 데 사용된다.
Patching & Embedding: 긴 시계열을 $P$ 길이의 패치(Patch) 단위로 나누어 처리 효율을 높인다. 각 패치는 잔차 네트워크(Residual Network)를 통해 임베딩 공간으로 매핑된다.

3.2 Architecture

Chronos-2는 T5 인코더 설계를 따르며, 크게 두 가지 어텐션 레이어가 번갈아 나타나는 구조를 가진다.

Time Attention 동일한 변수 내에서 시간축을 따라 패치 간의 정보를 집계한다. 기존 T5의 상대적 위치 임베딩 대신 최신 LLM에서 표준으로 쓰이는 RoPE(Rotary Position Embeddings)를 도입
*Group Attention *
- Chronos-2의 '인컨텍스트 학습(ICL)'을 가능하게 하는 핵심 layer. Batch 내에서 서로 연관된 시계열들을 하나의 '그룹'으로 묶고, 이들 사이의 정보를 공유**
  - 단변량: 독립적인 예측 수행
  - 다변량: 여러 변수 간의 동학(Dynamics) 공유
  - 공변량 활용: 타겟과 외부 변수 간의 관계 학습
Quantile head 모델의 최종 출력단으로, 21개의 분위수(Quantiles) $Q = {0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99}$를 직접 예측한다. 이는 9개 분위수를 썼던 기존 모델보다 극단적인 사건(Rare events)에 대한 예측력을 높인다.

3.3 Training (2 Stage Training)

Heterogeneous Tasks 학습 배치는 단변량 예측, 다변량 예측(과거 전용 공변량 포함), 알려진 미래 공변량이 포함된 다변량 예측 등 다양한 시나리오로 구성된다. 각 태스크는 타겟 차원($D$), 공변량 차원($M$), 그리고 각 차원의 역할(타겟, 과거 전용, 미래 공유 등)에 의해 정의된다.

Quantile Regression Objectvie 목적함수 $$\mathcal{L} = \sum_{q \in Q} \left( q \cdot \max(z - \hat{z}_q, 0) + (1 - q) \cdot \max(\hat{z}_q - z, 0) \right)$$

$Q$: 예측하고자 하는 분위수의 집합 ($|Q|=21$)
$z$: 실제 정규화된 타겟 값
$\hat{z}_q$: 모델이 예측한 $q$ 분위수 값

이 손실 함수는 타겟 차원에서만 계산되며, 알려진 공변량이나 결측치는 계산에서 제외된다. 이를 통해 모델은 단순 점 예측이 아닌 확률 분포 전체를 학습한다.

2 Stage Training

1단계: 최대 컨텍스트 길이를 2,048로 설정하고 출력 패치 수를 적게 하여 기본 성능을 확보한다.

2단계: 컨텍스트 길이를 8,192로 확장하고 출력 패치 샘플링 수를 늘린다. 이를 통해 고빈도 데이터의 장기 계절성(Long-term seasonality)을 포착하고 휴리스틱 없이도 긴 미래를 예측할 수 있게 한다.

3.4 Inference

Chronos-2는 별도의 아키텍처 변경 없이 그룹 ID 지정만으로 다양한 작업을 수행한다.

역정규화 및 결과 복원 (De-normalization) 퀀타일 헤드에서 출력된 값($\hat{z}$)은 학습 시 적용했던 $sinh^-1$ 변환의 역함수인 $sinh$를 활용하여 원래의 수치 스케일($\hat{y}$)로 복원된다.$$\hat{y}{t,d}^{q} = \mu_d + \sigma_d \cdot \sinh(\hat{z}{t,d}^{q})$$

Grouping Strategy by task
- 단변량 예측: 배치 내의 각 아이템에 고유한 그룹 ID를 할당하여 서로 독립적으로 예측하게 한다.
- 다변량 예측: 동일한 다변량 시계열에 속하는 변수들에 같은 그룹 ID를 부여하여 변수 간 동학(Dynamics) 정보를 공유하게 한다.
- 공변량 활용 예측: 타겟과 관련된 모든 공변량에 동일한 그룹 ID를 할당한다. 이때 미래 공변량 값은 입력 $W$에 직접 포함시키며, 모델이 공변량에 대해 내놓은 예측값은 무시하고 타겟 변수의 결과만 사용한다.

4. Training Data

해당 부분에서는 모델의 범용 성능을 결정짓는 핵심 요소인 학습 데이터의 구성과 생성 전략을 다룬다. 특히 부족한 다변량 데이터를 어떻게 합성 데이터로 극복했는지가 핵심이다.

최근 대규모 시계열 데이터셋이 확장되고 있으나, 여전히 대부분 단변량(Univariate) 데이터에 치중되어 있다는 한계가 있다. Chronos-2는 이러한 한계를 극복하고 인컨텍스트 학습(ICL) 능력을 부여하기 위해 대규모 합성 데이터(Synthetic Data)를 적극적으로 활용했다.

4.1 Univariate Data - 데이터 다양성 확보

TSI(Trend, Seasonality, and Irregularity)
- 추세(Trend), 계절성(Seasonality), 불규칙성(Irregularity) 성분을 무작위로 생성하고 조합하여 다양한 형태의 시계열을 만든다.
TCM (Temporal Causal Model): 시간적 인과 모델에서 무작위 인과 그래프를 샘플링한 뒤, 자기회귀(Autoregression) 방식을 통해 시계열을 생성한다.

4.2 Multivariate Data - Multivariatizers 도입

다변량 및 공변량 관련 작업의 경우, Chronos-2는 전적으로 합성 데이터에 의존한다. 실제 고품질 다변량 데이터를 구하기 어렵기 때문에, 모델이 다양한 다변량 구조를 배울 수 있도록 멀티베리에이타이저(Multivariatizers)라는 개념을 도입했다.

** Multivariatizers: 기본 단변량 생성기(AR, ETS, TSI, KernelSynth 등)에서 샘플링된 여러 시계열을 가져와, 이들 사이에 인위적인 의존성을 부여하여 다변량 동학(Dynamics)을 생성**

Cotemporaneous(동시성) Multivariatizers: 동일한 시점에서 여러 시계열에 선형 또는 비선형 변환을 적용한다. 이를 통해 변수 간의 즉각적인 상관관계(Instantaneous correlations)를 생성한다.
Sequential(순차적) Multivariatizers: 시간의 흐름에 따른 의존성을 유도한다. 이는 선행-지연 효과(Lead-lag effects)나 공적분(Cointegration)과 같은 복잡한 다변량 특성을 만들어낸다.

이렇게 생성된 데이터는 모든 변수를 예측해야 하는 다변량 태스크와, 일부 변수를 미리 알고 있는 정보로 설정하는 공변량 태스크 학습에 모두 사용된다.

5. Experiments

Chronos-1, TimesFM, MOIRAI 등 최신 시계열 파운데이션 모델들이 포함하여 성능 평가 진행

5.1 Benchmark Results - Fev bench

fev-bench는 단변량(Uni), 다변량(Multi), 공변량 포함(Cov) 태스크를 모두 아우르는 벤치마크다.
통합 성능: Chronos-2는 모든 카테고리에서 가장 낮은 오차율(Relative MASE/WQL)을 기록하며 1위를 차지했다.
공변량 태스크(Covariate-informed): 특히 외부 변수를 활용하는 작업에서 기존 모델 대비 성능 향상 폭이 가장 컸다. 이는 그룹 어텐션을 통한 타겟-공변량 간의 관계 학습이 매우 효과적임을 시사한다.
다변량 태스크(Multivariate): 다변량 구조를 명시적으로 모델링하지 못하는 단변량 전용 모델(TimesFM 등)보다 뛰어난 성능을 보였다.

5.2 Benchmark Results - GIFT-Eval

벤치마크 구성 및 특징
- GIFT-Eval은 55개의 데이터셋에서 파생된 97개의 태스크로 구성된 방대한 벤치마크
- 고빈도 데이터 (High-frequency): 데이터 포인트 사이의 간격이 좁은 고빈도 시계열을 중점적으로 다룬다.
- 장기 예측 (Long-horizon): 아주 먼 미래까지 예측해야 하는 고난도 작업이 포함되어 있다.
- 비교군: 기존에 이 분야에서 두각을 나타냈던 TiRex 및 TimesFM-2.5와 같은 최상위 모델들과 성능을 겨뤘다.
zero shot 일반화: 모델이 학습 시 보지 못한 데이터셋으로 구성된 GIFT-Eval에서도 높은 성능 달성
(a): weighted quantile loss(WQL), (b): Mean Absolute Scaled Error(MASE) metric 사용
- WQL (Weighted Quantile Loss): 확률적 예측(Probabilistic forecasting)의 정확도를 측정하는 지표
- MASE (Mean Absolute Scaled Error): 점 예측(Point forecasting)의 성능을 나타내는 지표

5.3 Benchmark Results - Chronos Benchmark 2

벤치마크 구성 및 특징
- 데이터셋 규모: 총 27개의 다양한 시계열 태스크로 구성되어 있다.
- 데이터 특성: 대다수의 시계열이 평균 300단계 미만의 짧은 이력(Short histories)을 가지고 있다. 이는 모델이 매우 적은 정보만으로도 정확한 패턴을 찾아내야 함을 의미한다.
- 엄격한 제로샷 평가: Chronos-2의 학습 코퍼스에 이 데이터셋들은 전혀 포함되지 않았다. 즉, 모델이 한 번도 보지 못한 데이터에 대해 즉각적으로 수행한 순수 제로샷 성능이다.

5.4 Improvements with In-Conetext Learning

ICL 능력을 확인하기 위해 fev-bench를 세 가지 서브셋(단변량, 다변량, 공변량)으로 나누어 실험 진행

1) Univariate Tasks

배치의 여러 시계열을 하나의 그룹으로 묶어 정보를 공유하는 교차 학습(Cross-learning)을 수행한다.

2) Multivariate Tasks

현상: Chronos-2를 단변량 모드로 돌려도 다변량을 지원하는 기존 모델(Toto-1.0 등)보다 뛰어난 성능을 보였다. (a) 그림
이유(Takens’s Embedding Theorem): 이론적으로 단일 변수의 지연된 관측값들만으로도 전체 시스템의 동학을 재구성할 수 있다. 즉, 과거 데이터가 충분히 길다면 강력한 단변량 모델만으로도 다변량 모델만큼의 구조적 파악이 가능하다는 것이다.

3) Covariate Tasks

가장 극적인 성능 향상은 공변량(외부 변수)이 포함된 작업에서 나타났다 (b) 그림.
Chronos-2가 타겟 데이터와 외부 변수(날씨, 가격 등) 사이의 복잡한 상관관계를 효과적으로 활용하고 있음을 증명한다.

5.5 Domain Case Studies

에너지 가격 예측 (a) 그림
- 단변량 모드: 과거 가격 데이터만 보았을 때는 변동 패턴을 정확히 짚어내지 못한다.
- ICL 모드: '부하량(Load)'과 '태양광/풍력 발전량' 데이터를 공변량으로 함께 고려, 가격의 급등락 패턴을 훨씬 정교하게 예측.
리테일 수요 예측 (b) 그림
- 프로모션이나 휴일 정보를 공변량으로 입력했을 때,** ICL을 통한 예측 정확도가 타 모델 대비 월등히 높음.**

5.6 Ablation Study

Model Size
- Small 모델 28M 개의 파라미터 수의 모델을 가지고 학습시켜도 성능과 효율성이 좋았음.
- 특히 GIFT-Eval 벤치마크에서는 베이스 모델과 성능 차이가 단 1% 수준에 불과했다.

Systhetic Data Only
- 결과: 이 모델은 Chronos Benchmark II와 GIFT-Eval에서 실제 데이터를 포함한 버전과 비교해도 성능 차이가 근소했다. fev-bench에서는 성능 격차가 다소 발생했으나 여전히 준수한 결과를 보여주었다.
- 의의: 이는 사전 학습 모델에서 합성 데이터가 결정적인 역할을 함을 증명한다.

Long-context Post-Training
- 2,048단계의 컨텍스트로 먼저 학습한 후, 8,192단계로 확장하여 후속 학습(Post-training)을 진행한 효과를 분석
- 결과: 컨텍스트 길이를 8,192로 확장했을 때, 특히 GIFT-Eval 벤치마크에서 유의미한 성능 향상이 관찰되었다.
- 의의: 이는 GIFT-Eval에 포함된 고빈도 데이터(High-frequency datasets)들이 긴 계절적 주기를 가지고 있기 때문이다.

6. Discussion

Chronos-2는 단순한 성능 향상을 넘어, 제로샷(Zero-shot) 환경에서 단변량, 다변량, 공변량 데이터를 하나의 통합된 프레임워크로 처리할 수 있음을 입증했다. 특히 그룹 어텐션(Group Attention)과 합성 데이터의 조합은 시계열 파운데이션 모델이 나아가야 할 새로운 이정표를 제시

Are Language Models Actually Useful for Time Series Forecasting? (NeurIPS 2024 SpotLight) 논문리뷰

Sat, 03 Jan 2026 07:31:27 GMT

현재 Tiem Series task 연구에서 LLM을 접목하고자 하는 연구들이 많이 쏟아지고 있음. (AAAI, NeurIPS, ICLR ..) 하지만, 해당 paper는 과연 Time Series Forecasting task에서 LLM이 정말 유용할까? 라는 근본적인 질문을 던지며, 현재 LLM을 접목한 Time Series 연구들에 대해서 반박하는 ablation study를 주장함. 이는 2024 NuerIPS에서 spotlight을 받았으며, forecasting task 안에서 LLM의 insight가 실질적으로 time series 예측에 영향을 주지 않는다는 것을 공개함.

0. Abstract

많은 연구에서 Time Series Forecasting 연구에 LLM을 활용하고 있지만, 실제로 LLM component를 removing하거나 replacing 해도 예측 성능이 떨어지지 않는다. 심지어 특정 벤치마크 데이터셋에서는 성능 향상이 일어난다.

→ 이는 시계열의 sequential dependencies를 잘 representation 학습이 일어나지 않고, 또한 few shot에서도 큰 영향이 있지 않는다.

또한 computational cost 측면에서도, scratch 보다 더 나은 점이 없다.

💡즉, TS encoder의 성능이 매우 좋다는 것을 의미하며, patching과 attention 연산 구조의 모델이 LLM based와 성능 측면에서 거의 유사하다.

1. Introduction

1.1 problem define

LLM + Time Series 분야 연구들에서는 한 가지 가정이 존재하는데,
- LLM이 텍스트에서 sequential dependencies를 잘 하는데, 이는 Time Series data에서도 sequential dependencies를 잘 반영해서 일반화할 수 있다는 것이다.
그런데 해당 가설은 불명확하다. LLM과 MTSF 사이에서의 connection에 대해서 정말 conventional한 TS encoder나 Attention 모듈이 LLM 보다 좋은지는 확인해볼 필요가 있다.
해당 연구에서 우리가 주장하는 것은 LLM이 가지고 있는 내재적인 Reasoning 들을 TS task에서 제대로 활용하는 연구들 downstream task들이 있을 수 있다. 실제 text를 함께 활용하는 연구들에서
그러나 8개의 벤치마크 데이터셋과 5개의 또 다른 시계열 데이터셋에 대해서 비교했을 때, conventional한 attention layer를 추가하는 것과 TS Encoder를 사용하는 것이 LLM block을 활용하는 것과 맞먹거나 오히려 더 좋다.
Ablation 진행을 위해서 2가지 정도 초점을 둠
1. reproducing을 완벽하게 하는 것 (실제 paper에서 제시한 value까지 함께 표에 첨부)
2. LLM 모듈을 replacing 할 때, attention layer 시 랜덤 초기화를 하거나 아니면 아예 LLM 모듈을 빼버림
  1. 이 과정에서 training과 inference 시간 3배까지 줄일 수 있었음
새롭게 사용한 5가지 데이터셋에 대해서도 기존 8개의 오픈 벤치마크 데이터셋과 거의 유사한 양상을 보였다.
뿐만 아니라 few shot 환경에서도 10%의 training data를 활용했을 때, forecasting 측면에서 큰 도움이 되진 않았다.

1.2 key contribution

직관적인 Ablation 연구 제안 및 검증

저자들은 LLM 기반 시계열 모델에서 LLM의 실제 효용성을 격리하여 측정할 수 있는 세 가지 비교 방법(w/o LLM, LLM2Attn, LLM2Trsf)을 제안

pretraining 및 sequence 모델링 능력의 영향력 분석

무작위 초기화 실험을 통해 아무런 영향 없음 발견
data shuffling and few shot: transfer 이뤄지지 않음 발견

Patching과 Attention 구조는 여전히 강력하다.

3. Experimental Setup

3가지 ablation study 진행

w/o LLM
LLM2Attn
LLM2Trsf

Reference Method (architecture)

OneFitALL(GPT4TS)

Time-LLM

CALF(CrossModal Alignment Forecasting)

전체 LLM ablation methods

(a) w/ LLM: 기존 LLM 기반 모델

(b) w/o LLM: LLM without 모델: 기존 LLM 기반 모델: 언어 모델(LLM) 성분을 완전히 제거합니다. 대신 인코딩 과정을 거친 입력 토큰들을 기존 참조 모델의 마지막 출력 층(final layer)으로 직접 전달합니다.

(c) LLM2Attn: LLM → 기본적인 Self-Attention 1개만 사용: 거대한 언어 모델을 무작위로 초기화된(학습되지 않은) 단일 멀티 헤드 어텐션(multi-head attention) 레이어로 교체합니다.

(d) LLM2Trsf: LLM 단순 트랜스포머로 교체: 언어 모델을 무작위로 초기화된 단일 트랜스포머 블록(transformer block)으로 교체합니다.

Datasets and Evaluation Metrics

Benchmark Datasets
- ETT (Electricity Transformer Temperature): 전력 변압기 관련 7개 요인 데이터입니다. 시간 단위(ETTh1, ETTh2)와 15분 단위(ETTm1, ETTm2)의 4개 하위 집합으로 나뉩니다.
- Illness: CDC에서 기록한 주간 독감 의심 환자 비율 데이터입니다.
- Weather: 미국 1,600개 지역의 11개 기상 특징 데이터(2010~2013년)입니다.
- Traffic: 샌프란시스코 고속도로의 시간당 도로 점유율 데이터입니다.
- Electricity (ECL): 321개 고객의 시간당 전력 소비량 데이터(2012~2014년)입니다.
- Exchange Rate: 8개국의 일일 환율 데이터(1990~2016년)입니다.
- Covid Deaths: 266개 국가/지역의 일일 코로나19 사망자 통계입니다.
- Taxi (30 min): 뉴욕시 1,214개 지점의 30분 단위 택시 승차 데이터입니다.
- NN5 (Daily): 영국 내 111개 ATM의 일일 현금 인출 데이터입니다.
- FRED-MD: 1959년부터 수집된 107개의 미국 월간 거시경제 지표입니다
Data split
- ETT datasets: training 60% validation 20% test 20%
- Illness, Weather, Electricity: training 70%, validation 10%, test 20%
Evaluation Metrics
- MSE
- MAE

4. Result

해당 부분에서 6가지 핵심 질문을 통해서 LLM의 종합적인 평가를 재고하고자 한다.

4.1 RQ1: 사전 학습된 언어 모델이 예측 성능에 기여하는가 ?

RA1 : No

시계열 예측 모델에서 거대한 LLM을 걷어내도 성능은 비슷하거나 오히려 더 좋아진다.

LLM을 빼버리거나 단순한 구조(attention or transformer block)로 바꾼 게 더 좋다. 특히, Time-LLM 경우, 모든 실험 사례 26/26에서 LLM이 없는 모델이 최고점이 아님

→ 현재 유형처럼 번지는 LLM 기반 시계열 예측 방식이 실제 예측 정확도 면에서 실질적인 이득을 주지 못하고 있음.

4.2 RQ2: LLM 기반 방법론들이 그만한 computational cost를 할애할 가치가 있는가 ?

RA2: No
언어 모델의 파라미터가 frozen된 경우에도 training, inference 시 상당한 overhead 발생
Training part
- Time-LLM의 경우 66억 개 파라미터 보유 → weather 데이터셋 학습 시 3003분 소요, ablation 모델은 24만 개 파라미터만으로 평균 2분대 학습 가능
Inference part
- 추론 시간의 경우, 최대 배치 사이즈로 나누어 샘플당 추론 시간을 추정했습니다. Time-LLM, OneFitsAll, CALF는 수정된(어블레이션) 모델들보다 평균적으로 각각 28.2배, 2.3배, 1.2배 더 긴 시간이 소요

4.3 RQ3: 언어 모델의 사전 학습(pretraining)이 시계열 예측 task의 성능 향상에 직접적인 도움이 되는가?

RA3: LLM은 시계열에 대해서 아는 게 없다.

→ 시계열 연구자들이 흔히 하는 가설인, “LLM은 문장을 이해하는 능력이 뛰어나니 숫자의 흐름(sequence)도 잘 이해할 것이다.”를 반박함.
w/o Pre + FT > w Pre + FT가 더 좋은 성능을 보임 (즉, random weight에서 시계열 데이터만 보고 새로 학습하는 것이 더 성능이 잘 나옴)
transfer learning 효과 x
즉, 성능이 올라가는 이유는, LLM이 time series 형태를 잘 이해해서가 아니라, 시계열 데이터를 LLM input에 맞게 잘 preprocessing하고 나중에 학습시키는 finetuning 과정에서 성능이 올랐다.

4.4 RQ4: LLM이 시계열 데이터의 Sequential Dependencies라는 특징을 제대로 된 representation을 표현할 수 있는가?

RA4: 순서를 섞어도 별 다른 차이가 없음을 증명

논리: 시계열 예측은 sequence가 생명이다. → 어제-오늘-내일의 순서가 섞인 데이터를 보고도 내일을 맞춘다면, 그 모델은 사실 순서(시퀀스)를 보고 있는 것이 아닌 단순히 통계적 수치(분포)만 보고 있음을 의미
따라서 셔플링 진행
- 셔플링 방식
  - 전체 시퀀스를 무작위로 섞는 방식 (sf-all)
  - 시퀀스의 앞부분 절반만 섞는 방식 (sf-half)
  - 시퀀스의 뒷부분 절반만 섞는 방식 (ex-half)
- 일반적인 언어 모델 → 단어 순서가 섞이면 문장 이해 x
- Time series LLM 모델은 순서를 엉망으로 섞었을 때 발생하는 성능 저하율이, LLM을 아예 안 쓴 단순한 모델들과 거의 똑같음
즉, LLM이 시계열 데이터를 처리할 때, 텍스트를 읽을 때처럼 정교하게 “시간의 흐름”을 파악하는 것이 아니라, 단순히 숫자들의 통계적 특성만을 파악하고 있을 가능성이 높음

4.5 RQ5: LLM이 데이터가 부족한 few-shot learning에 도움이 되는가?

RA5: 유의미하게 유용하지 않음을 시사
데터가 부족한 few shot 환경에서 pretrain된 가중치에 인코딩된 지식이 성능에 도움이 될 가능성이 존재했음
따라서 10% 데이터만 사용하여 모델과, ablation 모델들을 학습함.
결과 (LLaMA & GPT-2)
- LLaMA (Time-LLM): 비싼 LLaMA를 쓰나, 그냥 다 떼버리고 직접 예측하나 승률이 8:8로 동일함 즉, 굳이 무거운 LLaMA를 쓸 필요가 없음
- GPT2 (CALF): 오히려 LLM을 제외한 가벼운 모델이 14번 중 12번이나 이겼음. 데이터가 적을 때 무거운 LLM을 돌리는 것이 오히려 방해가 될 수도 있음을 시사
즉, 데이터가 부족할 때 LLM의 사전 지식이 도움이 될 것이라는 기대는 시계열 예측에서 근거가 부족

4.6 RQ6: 현재 LLM을 접목한 Time Series Forecasting 연구에서 뽑아내는 성능은 실제로 어디서 오는 것일까 ?

LLM을 제거해도 성능이 유지된다는 것을 확인
이에 따라 “왜 단순한 방식이 잘 작동하는가?”를 파악하기위해 patching, decomposition 등 시계열 모델에서 흔히 쓰이는 인코딩 기법들 적용
Patching + Attention {Attn) 구조

Instance Norm → Pathcing(Chaanel_Independence) → Linear Projection → One layer Attention → Final Projection
해당 구조
- 소규모 데이터 (<100만 row) 단순한 PAttn 구조가 효과적
- 대규모 데이터 (Traffic ..) CALF의 인코더를 활용하되 Cross Modal Attetnion 제거한 Linear Trsf 모델이 더 좋은 성능을 보임

즉, LLM 기반 시계열 모델의 성능은 LLM의 언어적 지식이 아니라, "데이터를 패치로 쪼개고(Patching) 어텐션으로 관계를 파악하는 구조" 그 자체에서 나옴

5. Appendix part

5.1 Limitaition

only time series forecasting 측면에서 진행
1. LLM이 시계열과 어떻게 상호작용하는지 더 정확하게 파악하기 위해서는 classification이나 QA와 같은 다른 작업에서도 평가가 이뤄져야 함
dataset 특성
1. 대부분의 벤치마크 데이터셋들은 모두 일정한 시간 간격을 가진 데이터들임.
2. 따라서 real world 실생활 데이터들은 불규칙한 데이터가 많음

5.2 Broader Societal Impact

연구자들이 단순히 유행을 따라 모든 application에 LLM을 적용하는 것 대신에 실제로 LLM component가 왜 필요한지, LLM 성능과 연산 비용 간의 합리적인지 꼼꼼히 따져봐야 함
더 작고 단순한 모델이 성능이 좋다는 발견 → 실제 현장에서 저렴하게 배포할 수 있고 해석이 쉬운 확장 가능한 모델을 개발하는 데 기여 가능

5.3 Additional Experimental Details

LLaMA 7B → A100 GPU(80GB)

GPT 2 → RTX A6000 GPU(48GB)

→ LLM 제거한 베이스라인 모델들은 훨씬 작은 GPU에서도 학습 가능

하이퍼파라미터: 기존 모델 복제 시에는 원본 설정을 그대로 썼고, 어블레이션 모델(단순화된 모델)은 파라미터가 적기 때문에 학습률이나 배치 크기를 일부 조정
PAttn
- PAttn: 패칭과 1개 층의 어텐션을 결합한 모델입니다. 기존 PatchTST 모델에서 위치 임베딩과 피드 포워드 층을 제거하고 트랜스포머 인코더를 단순한 어텐션 구조로 바꾼 형태
- LTrsf: CALF 모델의 인코더에서 텍스트 정렬 기능을 뺀 모델로, 대규모 데이터셋에서 성능이 더 좋음
- 비교 결과: PAttn 모델은 모든 LLM 기반 모델을 합친 것보다 더 자주 최고 혹은 차선의 성능을 기록했습니다(34회 vs 33회)
신뢰 구간 (Confidence Intervals): 딥러닝 모델은 실행할 때마다 결과가 조금씩 다를 수 있으므로, 결과의 안정성을 확인하기 위해 신뢰 구간을 보고
새로운 5개 데이터셋 검증: 기존 연구에서 다루지 않았던 환율, 코로나 사망자 등 5개의 새로운 데이터셋에서도 실험을 진행, 그 결과 역시 시계열 예측 작업에 언어 모델은 굳이 필요하지 않다

즉, 부록은 본문의 주장이 단순히 몇몇 사례에 그치는 것이 아니라, 다양한 환경과 데이터셋에서도 일관되게 나타나는 현상임을 데이터로 증명하고, 연구자들이 더 효율적인 모델을 찾는 데 도움을 주고자 해당 paper 작성되었음.

Time-LLM ablation study (MSE)
CALF ablation study (MSE)

OneFitsAll ablation study (MSE)

실제 제조 현장에서 이를 접목시키기 위해서는 downstream task에서 잔존 수명 예측을 진행한다고 했을 때, 특정 이벤트(로그)가 수치적 변화(센서)에 어떤 인과적 영향을 주었는가 그리고 LLM을 어떤 부분에 적용할 것인가.

embedding 추출용인가 decoder 부분에서 예측에 직접적으로 활용할 것인가 혹은 현재 paper에서 제공하는 Patching + Attention(PAttn)을 활용할 것인가.
Time LLM을 reprogramming해서 변형해서 활용할 것인가 등에 대해서 고민하고 직접 실험해보며 진행할 필요가 있다. 데이터셋에 대한 요소들도 고민해볼 필요가 있다.

Case Western Reserve University (CWRU) Bearing Data: 베어링 고장 데이터셋으로, 수치 데이터 외에 각 실험 단계에 대한 설명(Metadata/Text)이 상세히 기록

BPI Challenge (Process Mining) Datasets : 제조 공정의 이벤트 로그(Event Log)가 중심인 데이터셋

TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (AAAI 2025) 논문리뷰

Tue, 23 Dec 2025 08:57:35 GMT

1. Introduction

다변수 시계열 예측(MTSF)의 성능을 높이기 위해, 시계열과 텍스트를 결합한 LLM 기반 프레임워크인 TimeCMA를 제안함.

Problem Define

전통적 딥러닝 모델: 학습 파라미터 수의 한계로 인해 데이터가 부족한 상황(Low-data regime)에서 성능이 급격히 저하됨.
기존 LLM 기반 모델: 시계열을 자연어로 변환해 LLM에 입력하나, 시계열 고유의 정보와 텍스트 정보가 복잡하게 얽히는 Data Entanglement 발생.
노이즈 문제: 시계열 임베딩과 텍스트를 단순 결합(Concat)할 경우, 텍스트가 시계열 신호의 노이즈로 작용하여 예측 정확도를 떨어뜨림.

보통 LLM 기반 시계열 예측 모델은 시계열을 자연어로 만든 다음 그대로 LLM에 넣는 방식 사용 → 어디서 어떤 정보가 나왔는지 알 수가 없음. 의미(정보)가 섞여있음

반면, TimeCMA의 경우 entangled 하지만 풍부한 자연어 데이터 + disentangle 하지만 상대적으로 약한 시계열 임베딩 모두를 사용해서 성능 향상

Contribution

Dual-Modality Encoding (이중 경로 인코딩) 두 가지 경로로 데이터를 인코딩하여 상호 보완적인 특징을 학습함.

시계열 브랜치 (TS Branch): 정제(Disentangled)된 형태이나 상대적으로 표현력이 약한 시계열 임베딩 생성.
LLM 브랜치 (Text Branch): 시계열을 자연어 프롬프트화하여 Robust하고 풍부하지만, 정보가 얽힌(Entangled) 임베딩 생성.

Cross-Modality Alignment (교차 모달리티 정렬)

선택적 정보 추출: 두 임베딩 간의 유사도를 기반으로 LLM 임베딩 중 시계열 특징과 일치하는 핵심 정보만 필터링함.
노이즈 제거: 단순 결합 시 발생하는 텍스트 노이즈 문제를 해결하고 정보의 순도를 높임.

효율성 및 추론 최적화 (Efficiency)

LLM의 고질적인 문제인 연산 비용과 속도를 해결하기 위해 두 가지 최적화 기법을 도입함.
Last-Token 집중 설계:
- 텍스트 프롬프트의 마지막 토큰에 모든 핵심 시퀀스 정보가 응축되도록 유도함.
- 추론 시 LLM의 전체 토큰이 아닌 마지막 토큰 임베딩만 사용하여 연산량 급감.
Inference 속도 개선:
- 마지막 토큰 임베딩을 저장(Caching)하여 재사용하는 구조를 통해 실시간 예측 환경에서도 빠른 대응이 가능함.
- 결과적으로 LLM의 강력한 추론 능력을 유지하면서도 계산 비용을 대폭 낮춤.

Related Work는 생략하도록 한다.

3. Methodology

3.1 Dual-Modality Encoding

Time Series Encoding Branch

시계열 데이터를 전통적인 딥러닝 방식으로 처리하는 브랜치

(1) 입력 데이터 정의

X_T ∈ ℝ^(T × N)

T: 시계열의 길이 (time steps)
N: 변수 개수 (예: 온도, 습도, 인구수 등)

즉, 각 열이 하나의 변수이고 각 행이 시간에 따른 값을 의미

** (2) Inverted Embedding **

X_T: 원래 시계열 데이터 (T × N)
W_e: 학습 가능한 가중치 (C × T)
b_e: bias (C × N)
H_T: 최종 시계열 임베딩 (C × N) — 각 변수마다 하나의 벡터

즉, 각 변수에 대해 하나의 벡터 표현(embedding)을 만들어냄.

"변수가 곧 토큰이다" 변수 단위 토큰화: 하나의 변수(Channel)가 가진 전체 시계열 데이터를 단일 '토큰'으로 정의함.
통념의 전환: 시점(Time-step)마다 벡터를 만드는 기존 방식과 달리, 변수별로 하나의 임베딩 벡터를 생성함.
기존 방식과 비교

(3) 시계열 정규화 (Reversible Instance Normalization)

시계열 변수들의 분포 차이(distribution shift)를 줄이기 위해 입력 X_T를 평균 0, 표준편차 1로 정규화

(4) TSEncoder: Pre-LN Transformer 사용

H_T 벡터들을 Transformer로 처리하여 시계열 간 상호작용 학습
여기서 Pre-LN (Pre-LayerNorm) 구조 사용:
- 원래 Transformer는 "Attention → FFN → LayerNorm"
- Pre-LN은 "먼저 LayerNorm → Attention/FFN"
  
  → 학습 안정성 및 수렴 속도 향상됨
H_T^i: i번째 layer의 입력
He_T^i: i번째 layer의 normalized output
μ, σ: 평균과 표준편차
γ, β: 학습 가능한 scaling/shift 파라미터

→ 이 과정을 거치며 변수 간 표현을 학습하게 됨.

3.2 LLM-Empowered Encoding Branch

(1) Pre-trained LLM: GPT-2

GPT-2는 텍스트 입력을 받아 고차원 임베딩으로 바꾸는 모델
여기서 중요한 건:
- GPT-2는 파라미터를 모두 동결 (frozen): 학습하지 않음
- 단지, 텍스트를 임베딩으로 바꾸는 역할만 수행

(2) Tokenizer 처리

PS ∈ ℝ^(S × N)  →  PG ∈ ℝ^(G × N)

PS: 입력 프롬프트 텍스트 (ex. “The temp readings were 23.4, 24.1, 25.0”)
PG: 토크나이저로 바꾼 GPT-2의 token ID

각 시계열 변수마다 1개의 프롬프트 문장을 만듭니다 (즉, N개의 프롬프트 → 각각 G개의 token)

(3) **GPT-2 인코딩 구조

Transformer 디코더 구조를 따릅니다. 수식 정리해보면:

Position Encoding 추가
GPT-2의 i번째 Layer 처리
- (9) Multi-head masked self-attention (MMSA)
- (10) Feed-forward network
- (11) MMSA 내부 연산 → 여기서 ϕₒ, ϕ_q, ϕ_k, ϕ_v는 각각 Output / Query / Key / Value를 위한 선형변환

(4) Last Token Embedding 저장 왜 GPT-2에서 나온 전체 토큰이 아니라 "마지막 토큰"만 쓰는가?

GPT-2는 masked self-attention 구조라서 마지막 토큰은 앞선 모든 토큰의 정보를 집약한 요약본 역할

→ 효율성 ↑, 성능 유지

LN = {l₁, ..., l_N} ∈ ℝ^(N × E)

LN: N개의 변수 각각에 대한 마지막 토큰 임베딩 (각 크기 E)

이걸 저장해놓고 계속 재활용함 (GPT2 파라미터 업데이트 안하니까) → 학습 속도와 추론 속도 개선

(5) **PromptEncoder 정의

GPT-2를 거쳐 나온 마지막 토큰 임베딩(LN)을 후처리해서, 시계열 임베딩과 결합 가능한 형태로 바꾸는 Transformer 인코더 역할

3.3 Cross-Modality Alignment

(1) Linear 변환 (공통 공간으로 투영)

먼저 시계열 임베딩 H_T와 LLM 임베딩 L_N을 동일한 임베딩 공간으로 바꾸기 위해,

3개의 선형 레이어를 사용

ψ_q(H_T)   → Query
ψ_k(L_N)   → Key
ψ_v(L_N)   → Value

이건 Self-Attention의 구조를 그대로 따름

(2) Channel-wise 유사도 계산

⊗: 행렬 곱
M_T: 유사도 매트릭스 (C × E)
- 시계열 임베딩의 각 채널(C)이 LLM 임베딩의 각 차원(E)에 얼마나 주목할지를 나타냄
softmax: attention 가중치 정규화

→ 각 시계열 채널이 어떤 LLM 표현 차원을 참고할지 선택

(3) 임베딩 정제 및 결합

ψ_v(L_N) ⊗ M_T: LLM 표현에서 주목할 부분만 추출 (attention-based aggregation)
ω_c: 또 다른 선형 레이어로 변환
⊕ H_T: 시계열 원본과 합쳐서 residual connection

→ 원래 시계열 구조를 유지하면서 LLM 정보 덧입힘

3.4 Time Series Forecasting

(1) 입력: Cross-Modality 임베딩

시계열 브랜치와 LLM 브랜치가 결합된 고차원 벡터를 입력으로 사용함.
각 변수(Variable)별로 길이 $c$를 가진 임베딩을 보유한 상태임.

(2) Layer Norm: 정규화

학습 과정에서 발생하는 내부 공변량 변화(Internal Covariate Shift)를 방지하고 학습의 안정성을 높임. 각 임베딩의 스케일을 일정하게 맞춰주어 모델이 특정 변수에 편향되지 않도록 함.

(3) Masked Multi-Head Self Attention (MMSA)

Inverted Embedding 구조를 취하고 있으므로, 시간축이 아닌 변수 간의 상관관계(Inter-variable correlation)를 집중적으로 학습함. Masking을 통해 예측 시점 이후의 정보 간섭을 차단하며 데이터의 인과 관계를 보존함.

(4) 두번째 LayerNorm + Cross Attention

두 모달리티(시계열/텍스트) 간의 정보를 교차 참조하여, 시계열 예측에 가장 최적화된 특징을 다시 한번 정렬함.

(5) Projetion Layer → 예측 값 생성

W_p: 선형 weight matrix
b_p: bias
입력 Ȟ_C ∈ ℝ^(C × N) → 출력 X̂_M ∈ ℝ^(M × N)

각 변수에 대해 미래 M타임스텝 예측값 생성됨

(6) Denormalization

모델 성능 향상을 위해 전처리 단계에서 정규화(Standardization 등)했던 데이터를 실제 물리적인 수치로 다시 되돌리는 과정임.

(7) Loss 계산 식 예측 손실 (Prediction Loss: MSE)

정규화 손실 (Regularization Loss): 모델 파라미터의 L2 norm

→ 람다로 두 loss의 비중 조절

4. Experiment

(1) 성능 비교 실험

총 8개의 벤치마크 데이터셋, prompt 기반 LLM, 시계열 전용 LLM, Transformer 계열, 선형, CNN과 비교

→ LLM base 모델이 딥러닝이나 linear한 전통적인 모델보다 성능이 나음

→ Inverted embedding is essential for capturing multivariate dependencies

Inverted embedding은 변수가 많은 데이터셋에서 더 강력한 성능을 발휘
결론: LLM + Prompt + Inverted 구조 조합이 매우 효과적

(2) Ablation Studies of Model Design

Cross-modality alignment는 단순한 concat보다 훨씬 효과적
시계열 인코더와 LLM 브랜치가 모두 필요
PromptEncoder는 있어도 좋지만, 성능 기여는 상대적으로 낮음

(3) Ablation Studies of Model Design

실험 내용

5가지 종류의 프롬프트를 실험 (Fig. 4a 참조)
- Prompt 1: capture time frequence
- Prompt 2: indicate prediction steps
- Prompt 3: summarize average value
- Prompt 4: review historical time
- Prompt 5: 추세 요약 (trend abstraction)

MSE 기준 숫자가 마지막 토큰으로 끝나는 프롬프트가 성능이 좋음

Prompt 5 > Prompt 3 > Prompt 2 순
Prompt 5는 추세 요약이므로 가장 유익한 정보 포함
Prompt 3는 평균값 기반이라 불필요한 노이즈 포함 가능
Prompt 1, 2는 문장형태가 많아 성능 낮음

(4) Last Token Attention Analysis (GPT-2 마지막 토큰집중 분석)

방법:

프롬프트를 텍스트 영역 / 시계열 수치 영역으로 나눔
GPT-2 마지막 레이어에서 마지막 토큰 <ΔT>가 어디에 attention을 주는지 시각화

결과 (Fig. 5 참조):
GPT-2의 마지막 토큰은 텍스트보다 시계열 값에 더 집중함
→ 이는 "프롬프트 안에 포함된 수치 정보"가 실제로 LLM 임베딩 품질에 영향을 주는 걸 의미

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models (38th NeurIPS 2024) 논문 리뷰

Tue, 23 Dec 2025 07:46:18 GMT

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models (38th NeurIPS 2024) 코드 링크: https://github.com/thuml/AutoTimes

** 한줄 요약 ** LLM은 기본적으로 Autoregressive 구조이므로, 시계열 예측에 LLM을 적용하기 위해서는 이 또한 Autoregressive하게 진행해야 한다는 철학으로 설계된 모델. 기존 LLM4TS가 등한시한 “다음 토큰 예측 능력”을 다시 살려서, 시계열 forecasting에 활용한다 !

TimeCMA와 다른 요소들

LLM을 정말 예측에 활용할 수 있음
LLM을 다루는 요소들 직접적으로 실험 적용 가능 (in-context learning, LoRA finetuning ..)
TimeCMA보다 늦게 나온 논문이지만, 실험 표 기준으로 성능은 더 우세
LLM을 직접적으로 다뤄볼 수 있음 (LLama 등 ..)

현재 사용 중인 TimeCMA와 비교하여 또 다른 접근 방향성인 AutoTimes를 소개하고자 한다.

0. Abstract

TimeCMA와 같은 LLM 기반 시계열 예측 연구들은, LLM을 encoder처럼 임베딩을 뽑기 위해 활용/사용하거나, 비-autoregressive 방식으로 처리함으로써 LLM의 본질적인 autoregressive, decoder-only 구조를 무시했다는 한계를 가진다.

이에 반해 해당 논문인 AutoTimes는 LLM의 원래 설계 철학인 'Next Token Prediction'과 Autoregressive Decoding 방식을 그대로 시계열 예측에 도입한다.

시계열 데이터를 segment 단위로 tokenize하고, 각 시점의 시간 정보를 자연어 문장으로 구성해 LLM의 input으로 사용, 마치 텍스트 생성하듯이 다음 시점 값을 순차적으로 예측한다.

추가적인 fine-tuning 없이도 강력한 성능을 보이며, LoRA PEFT 적용 시, 전체 파라미터의 0.1%만으로 SOTA 성능을 기록한다.

1. Introduction

Problem Define & Motivation

Lookback Series: 예측에 사용되는 과거 시계열
Predicted Series: 앞으로 예측해야 할 미래 시계열
Relevant Series: 맥락으로 사용될 수 있는 다른 변수들

최근 LLM (대형 언어 모델)을 시계열 예측에 도입하는 시도들이 활발하지만, 다음과 3가지의 문제가 있음

기존 연구들은 LLM을 non-autoregressive하게 사용함.
즉, LLM의 "다음 토큰 예측(next token prediction)"이라는 본질적인 구조를 무시하고, 시계열을 인코더처럼 flatten → project → 예측하는 방식으로 활용함.
또한 언어 프롬프트(language prompts)를 시계열 예측에 활용하려고 할 때 모달리티 불일치(modality disparity) 문제가 발생함

figure 1 (a) Forecasting Approach

기존 방식 (Non-Autoregressive): 전체 시계열을 flatten → project해서 LLM에 넣고 한 번에 예측 (1,2,3 → 4,5)
AutoTimes (Autoregressive): LLM의 원래 방식대로, 토큰 하나씩 순차적으로 생성 (1,2,3 → 4), (1,2,3,4 → 5)

figure 2 (b) Prompting Mechanism

기존방식: 언어로 만든 설명(예: "예측을 시작합니다") 같은 텍스트를 프롬프트로 사용 → 모달리티 mismatch 발생
AutoTimes: 시계열 데이터 자체를 프롬프트로 사용 → "in-context forecasting" 가능

LLM은 시계열도 텍스트처럼 다룰 수 있다면, 굳이 언어 프롬프트를 쓰지 않아도 됨 → Self-prompting, in-context forecasting 가능

TimeCMA는 시계열과 LLM 표현을 정렬(alignment)하는 방식에 집중하지, 언어적 설명을 사용하지 않음.

1. Time Series Forecasting

전통적인 시계열 예측 기법들

키워드: Transformer, patch attention, frequency domain, decomposition
핵심 내용:
- 기존 시계열 모델들은 시계열의 패턴 구조 (시계성, 주기성 등)를 반영하기 위해 다양한 구조적 개선 시도
- 예: Autoformer, FEDformer, TimesNet, PatchTST 등

2. Large Language Models for Time Series (LLM4TS)

LLM을 시계열에 적용한 최근 연구들

키워드: Tokenization, in-context learning, LLM-as-encoder, non-autoregressive
핵심 내용:
- 시계열을 LLM에 맞게 token화하는 방식 연구됨
- 대부분 LLM을 encoder처럼 사용하며, autoregression을 버림
- 예: Time-LLM, UniTime, OFA, TimeGPT

3. Tokenization for LLMs

시계열을 언어 모델에 입력 가능한 형태로 바꾸는 방법

키워드: Segment encoding, timestamp prompt, value-as-token
핵심 내용:
- 시계열을 토큰 시퀀스로 표현하기 위한 다양한 전략 연구
- Segment 구조, 시간 표현, 정규화 방식 등 포함
- 예: Time2Vec, ValueToken

4. LoRA and Lightweight Fine-tuning

LLM을 효율적으로 fine-tune 하는 기법들

키워드: LoRA, PEFT, adapter tuning, parameter-efficient
핵심 내용:
- 전체 LLM을 재학습하는 대신, 작은 부위만 훈련하는 경량 fine-tuning 기법
- AutoTimes는 LoRA를 적용하여 파라미터 0.1% 수준으로 tuning 가능함

3. Methodology

LM을 autoregressive 시계열 예측기로 재활용하는 방식

AutoTimes는 기존 LLM이 갖고 있는 “다음 토큰 예측(next token prediction)” 능력을 그대로 시계열 예측에 적용 이를 위해 다음 세 가지 핵심 설계가 사용

시계열 데이터를 자연어처럼 token화 (Segment Embedding)
Timestamp를 문장으로 만들어 Positional Embedding으로 활용
LLM을 frozen 상태로 사용하며, autoregressive하게 next-token(시계열 값) 생성

Model Perspective

LLM은 본래 언어 전이(Language Transitions)를 학습
AutoTimes는 이를 시간 전이(Time Series Transitions) 학습으로 재활용

언어의 흐름(the → quick → brown...)처럼 시계열 흐름(x₁ → x₂ → x₃...)도 자연어처럼 모델링 가능하다는 시각

Token Perspective

각 단어 token에 대응되듯, 각 시계열 segment도 token처럼 다룸
시간 흐름에 따른 시계열 값들이 LLM의 autoregressive decoding으로 생성됨

자연어 토큰과 시계열 token을 1:1 대응시키며 학습 → 결국 token-wise alignment를 통해 시계열 예측 가능

Step 1. Time Series Segmentation

연속된 시계열을 고정 길이 segment로 나눔 (s₁, s₂, ..., s₇)
이때 segment는 하나의 "토큰"처럼 간주됨
각 segment는 이후 LLM에 입력되는 입력 시퀀스의 구성 요소

Step 2. Timestamp to Position Embedding (TE)

각 시점(timestamp)을 자연어 문장으로 변환

예: "This is the series from 2016/7/1 00:00:00 to 2016/7/1 23:00:00"
이 문장은 LLM을 통해 임베딩되며 → position encoding 역할을 수행

기존 LLM은 텍스트 위치(positional embedding)를 기반으로 학습함 → 시계열도 시간 정보를 자연어로 변환해서 LLM이 이해하게 함

Step 3. Segment Embedding (SE)

각 segment는 작은 MLP 혹은 CNN 등을 통해 embedding (SE₁, SE₂,...)
이 임베딩은 TE(Position Embedding)와 합쳐짐 → [TE + SE]

→ 최종적으로 LLM 입력은 [TE₁+SE₁], [TE₂+SE₂], ... 순서로 구성

Step 4. Language Model Forward Pass

이 [TE+SE] 시퀀스를 LLM에 입력함
LLM은 학습되어 있던 언어 흐름 방식으로 다음 segment embedding을 autoregressive하게 생성

❄️ LLM은 frozen (즉, 미세조정하지 않음)

Step 5. Segment Projection & Prediction

LLM이 출력한 hidden state를 다시 예측값으로 변환해야 함

→ 작은 projection head (MLP 등)를 통해 ŝ₁, ŝ₂,... 형태의 시계열 segment 예측
예측값과 정답값(s₂’, s₃’, ...)의 차이를 통해 MSE/MAE loss 계산

4. Experiment

설명
- Forecasting 모델은 Source Domain 데이터에 대해 사전 학습됨.
- Target domain에서는 lookback window만 제공 (S₁~S₃)
- 이 정보만으로 미래 시점 (S₄'~S₅')을 바로 예측
한계점
- Target 도메인에 대한 적응 없이 예측 수행 → 도메인 간 분포 차이 발생
- 일반화 성능이 떨어질 수 있음

설명
- Target Domain에서 사전 시계열 (P₁~P₄)을 Prompt처럼 추가
- 즉, 모델 입력은 [P₁, P₂, ..., P₄, S₁, S₂, S₃] 처럼 구성됨
- 모델은 해당 컨텍스트 기반으로 미래 (S₄'~S₅') 예측
특징
- P₁~P₄: target domain에서 과거에 관측된 시계열 (프롬프트 역할)
- S₁~S₃: 예측할 구간 이전의 lookback 시계열
- LLM은 큰 context window를 사용해 전체 prompt + lookback을 입력으로 삼고 autoregressive하게 예측 수행

< 성능 지표 - SMAPE>

SMAPE (Symmetric Mean Absolute Percentage Error) → 예측값이 실제값과 얼마나 가까운지 %

🔥 In-context forecasting은 모든 구간에서 Zero-shot보다 우수한 성능 → 특히 Year, Others에서 큰 성능 차이

같은 TimeLLM이어도 실험 환경이 달라서인지, 같은 datasets에서 다른 값이 나옴
그럼에도 AutoTimes에서 더 좋은 성능 보임

파라미터 수가 큰 모델일수록 성능을 좋아짐

batch size 224로 ETTh1 데이터셋에 대한 training/inference time 비교 및 파라미터 튜닝 수에 대해서 비교했을 때, AutoTimes 모델이 가장 우위에 있다.

AutoTimes는 원래 LLM의 중간층을 고정(frozen)시킨 채로 학습하지만, 성능을 더 높이기 위해 "LoRA"를 추가 도입할 수 있으며, 이는 실제 성능 향상으로 이어진다.

5. Conclusion

result
- SOTA 성능 달성
- Zero-shot / In-context forecasting 가능
- 시계열 값 + 타임스탬프 모두 효과적으로 활용
future work
- Low-Rank Adaptation (LoRA) 통합 강화
- 더 큰 LLM 백본과의 결합으로 확장성 향상 예정

Plot image

FiLM: Visual Reasoning with a General Conditioning Layer (2017.12 CVPR)

Wed, 02 Jul 2025 06:43:53 GMT

citation이 2600회가 넘는 최근 computer vision 뿐만 아니라 다양한 generalization한 딥러닝 논문에서도 인용되기에 근간이 되는 paper로 보일 수 있으며, 현재 한국과학기술연구원 인턴과정 중 프로젝트에서 공휴일 tagging 부분에 대해서, 이 FiLM layer를 접목시켜 공휴일 정보를 더 잘 활용할 수 있도록 하기 위해 본 paper를 리뷰하며 FiLM layer의 원리를 파악하고자 한다.

1. Introduction

Visual Reasoning의 중요성 및 어려움
1. VQA task에서 여러 단계를 거치는 복잡한 추론(CLEVR datasets)에서 어려움 존재.
2. 종종 데이터셋의 specific한 biases만을 이용하는 경향 존재, 따라서 reasoning 뒤에 숨겨진 복잡한 underlying structure를 제대로 포착하지 못함.
FiLM 제안
1. 일반적인 목적의 conditioning 방법 제안
  1. Question과 같은 입력된 conditioning 정보를 바탕으로 intermediate features에 대한 간단한 affine transformation을 거쳐서 (선형 변환) 신경망 계산에 영향을 준다.
→ 이미지 스타일 변환, 음성 인식 등 다양한 분야에서 성공을 거둔 Conditional Normalization의 일반화

2. Method

CNN 구조에서 단일 FiLM layer가 적용되는 과정을 설명한 그림

2-1 notation

$F_{i,c}$: 신경망의 활성화 값 ($i$번째 입력 데이터의 $c$번째 feature map에 해당하는 값)
$\gamma_{i,c}$: FiLM layer에 의해 학습되는 scaling parameter ($i$번째 입력 데이터의 $c$번째 feature map에 대한 스케일링 계수 역할)

$\beta_{i,c}$: FiLM layer에 의해 학습되는 shifting or bias parameter (각 요소가 해당하는 피처 맵에 addition됨)

feature-wise affine transformation

여기서 f, h 함수는 신경망과 같은 임의의 함수

2-2 FiLM Generator / FiLM-ed Network

FiLM Generator
- Conditional Normalization (조건부 정규화, CN)
  - 조건부 정규화는 Batch Normalization 등과 같은 정규화 레이어에 특정 컨디셔닝 정보(예: 스타일 정보, 클래스 정보)를 활용하는 방식
  - 일반적으로 정규화 레이어는 피처의 평균과 분산을 0과 1로 맞춘 뒤, 학습 가능한 스케일 $\gamma$과 시프트 $\beta$ 파라미터를 적용하여 피처의 분포를 조절
  - 따라서 조건부 정규화는 이 $\gamma$와 $\beta$ 파라미터를 고정된 값이 아닌, 컨디셔닝 정보의 함수로 학습시키는 방식
  $\gamma \ , \beta$를 출력하는 함수를 FILM Generator라고 칭함
- 이 두 파라미터는 GRU network를 포함한 언어 파이프라인을 통해 생성
- 여기서 GRU는 질문 전체의 의미를 함축하는 question embedding을 추출하는데, 이것이 바로 GRU의 최종 hidden state라고 언급.


💡
한 줄 정리

  1. FiLM Generator는 CN에서 매개변수를 만드는 부분과 같다

2. FiLM은 그 매개변수를 이용한 선형 변환을 중간 피처에 적용하는 방식

3. CN은 그 FiLM 변환의 한 형태(정규화된 피처에 적용)

FiLM-ed Network

FiLM 레이어가 적용되는 신경망을 Feature-wise Linearly Modulated network, 즉 FiLM-ed network라고 함

FiLM 레이어는 FiLM Generator가 타겟 네트워크의 피처 맵을 스케일링(크게/작게), 음수로 만들기(negating), 비활성화(shutting off), 선택적 임계값 적용(ReLU 뒤에 올 경우) 등 다양한 방식으로 조작 가능
각 피처 맵은 독립적으로 조건화하여 FiLM Generator 활성화 값을 세밀하게 제어 가능
입력: 224x224 크기로 조정된 이미지.
초기 피처 추출 스크래치부터 학습된 CNN을 사용하거나, ImageNet 데이터셋 (ImageNet Large Scale Visual Recognition Challenge)으로 사전 학습된 Deep Residual Learning for Image Recognition의 ResNet-101 conv4 레이어를 고정된 피처 추출기로 사용 → 이를 통해 128개의 14x14 이미지 피처 맵을 추출
공간 정보 통합
- 이미지 피처에 상대적인 x, y 공간 위치(스케일 범위 -1~1)를 나타내는 두 개의 좌표 피처 맵 concatenate.
  - 이는 각 ResBlock 입력 및 최종 분류기의 입력에도 사용되어 공간 추론 도움
주요 처리
- 여러 개의 (모델에서 4개 사용) FiLM이 적용된 Residual Blocks (ResBlocks)로 이미지 피처 처리
- 각 FiLM이 적용된 ResBlock은 1x1 Convolution으로 시작하여 3x3 Convolution으로 이어지는 아키텍처를 가짐
- 중요: FiLM 레이어 바로 앞에 오는 Batch Normalization 레이어의 파라미터는 끔
  - FiLM 레이어의 역할과 중복되는 부분을 피하고, 질문 정보를 통한 조절(modulation) 역할을 FiLM 레이어가 명확하게 수행하도록 하기 위함
최종 분류기
- 1x1 Convolution을 통해 512개의 피처 맵으로 듬
- 글로벌 맥스 풀링(global max-pooling)을 수행
- 1024개의 히든 유닛을 가진 두 레이어 MLP(Multi-Layer Perceptron)를 사용
- 최종 답변에 대한 Softmax 분포를 출력

Conditional Normalization에 대한 related works 존재 자세한 내용은 생략

4. Experiments

4-1 results

컬럼 설명
- Model: 사용된 모델의 이름
- Overall: 전체 질문에 대한 정답률
- Count: 이미지 속 객체의 수를 세는 질문에 대한 정답률
- Exist: 특정 속성을 가진 객체가 존재하는지 묻는 질문에 대한 정답률
- Compare Numbers: 두 그룹의 객체 수를 비교하는 질문에 대한 정답률
- Query Attribute: 특정 객체의 속성(색상, 모양 등)을 묻는 질문에 대한 정답률
- Compare Attribute: 두 객체의 속성을 비교하는 질문에 대한 정답률
결론
- CLEVR 데이터셋과 같이 구조화되고 다단계적인 추론이 필요한 작업에서 매우 효과적이며, 이전의 명시적으로 추론을 모델링하거나 추가 감독 신호를 사용한 모델보다 우수한 성능

4-2 What Do FiLM Layers Learn?

활성화 시각화 (Activation Visualizations)
- FiLM은 질문과 관련된 객체나 영역에 해당하는 특징 맵(feature map)의 활성화를 집중시키는 방식으로 작동

$\gamma$
- scale : -15~19까지 넓은 값
- 0값에서 빈도수 가장 많음
  - 이는 FiLM이 질문 정보에 기반하여 특정 피처 맵 전체를 끄거나(shut off) 상당히 억제(suppress)하도록 학습한다는 것을 의미
- 음수값 36% 존재 이는 ReLU 함수 통과시, $\gamma_{i,c}F_{i,c}$의 부호가 바뀜 / 따라서, $\gamma$값이 양수일 때와 비교했을 때, 값 자체가 현저히 달라질 수 있음
$\beta$
- scale: -9~16까지 넓은 값
- 음수값 76% 존재, $\beta$는 활성화 값에 더해지는 shift 값이므로, $\beta$가 음수이고 γ가 작거나 0에 가까울 때 활성화 값이 0 이하가 되어 ReLU를 통과하지 못하게 만들 수 있음.
  - 이는 $\beta$ 역시 어떤 활성화를 ReLU를 통과시킬지 선택하는 데 기여

4-3 Ablations

figure 대체 자세한 내용은 생략

$\gamma$와 $\beta$에 가우시안 노이즈를 추가했을 때 CLEVR 데이터셋에서의 정확도 변화를 보여주는 그래프

ResBlock 1-4에서 FiLM layer를 제거했을 때 Overall 성능이 현저히 낮아지는 것을 확인할 수 있음

5. Conclusion

FiLM의 핵심 역할
- FiLM은 뉴럴 네트워크의 중간 특징(feature)을 효율적이고 의미있게 조작하여, 질문에 대한 시각적 추론 능력을 크게 향상
언어와 이미지의 상호작용 강화
- RNN이 질문을 처리하여 FiLM 레이어를 통해 CNN의 이미지 처리 방식을 조절함으로써, 모델이 이미지에 대한 다양하고 다단계적인 추론 작업을 가능하게 함.
강력한 일반화 능력
- FiLM 모델은 아키텍처 변경, 테스트 시점 제거(ablation), FiLM 레이어 자체에 대한 제약 등에도 강건하며, 익숙하지 않거나 더 어려운 데이터에 대해서도 더 잘 일반화하고, 적은 샘플로도 학습하며, 심지어 zero-shot 일반화 능력 보임
Normalization과의 관계 재정의
- FiLM의 성공이 이전에 가정되었던 것처럼 normalization과 밀접하게 연결되어 있지 않다는 증거를 제시
- 이는 RNN이나 강화 학습과 같이 normalization이 덜 일반적인 다른 설정에도 FiLM을 적용할 수 있는 가능성을 열어줌
다양한 분야로의 확장성
- 시각적 추론 사례를 통해 FiLM의 강점을 입증하며, 이는 FiLM과 유사한 기술들이 다양한 도메인에서 성공을 거두고 있음을 보여주는 광범위한 연구
- FiLM이 특정 도메인에만 국한되지 않는 다재다능한 접근 방식임을 강조

CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting (24.04 ICLR) Paper Review

Tue, 15 Apr 2025 05:14:04 GMT

CARD(Channel Aligned Robust Blend Transformer)는 시계열 예측을 위한 특별한 transformer 모델
CI (Channel-Independent) 방식 Transforemer의 주요 단점 해결하고자 설계 (new robust loss function 중요)
Multi-Channel 즉, Multivariate Time series task에 적용시킨다면 매우 유용할 것으로 보여짐

관련 코드

https://github.com/wxie9/CARD
관련 논문

CARD: Channel Aligned Robust Blend Transformer for Time Series...

0. Background

Channel-Independent Strategy

CI 전략, 시계열 예측에서 훈련의 안정성 높이기 위한 각 채널(변수)을 독립적으로 처리
- 즉, 각 채널(feature)들을 개별적으로 예측
장점
- train 단계에서, 모델의 robustness 향상
  - 특정 채널의 noise나 anomaly 다른 채널에 미치는 영향 줄임
  - overfitting risk 줄어듬
단점
- 채널 간의 상관관계 아예 무시 (critical)
- real time-series data에서는 변수들 사이에 서로 영향 주고받는 경우 多

1. Introduction

Channel-Dependent (CD) 방식으로 다변량 시계열 예측에서 서로 다른 변수 간의 상호 의존성을 고려하여 예측 성능을 높이지만, 최근 연구에서 일반적으로 CI이 CD보다 성능이 더 좋다는 것을 입증함. (시계열 데이터 특성상, 변수 간의 의존성이 복잡하기에 노이즈가 많으므로, 오히려 CD 모델에서 overfitting 가능성이 매우 높음.)
CARD 모델은 채널 간의 의존성을 활용하면서, 과적합 문제를 줄이는 새로운 Transformer 모델
1. Channel Aligned Attention map: 시간적 상관관계와 채널 간의 동적 의존성 모두 포착
  1. 예측 변수(채널) 간의 상관관계 파악 (채널 간 attention)
  2. 각 토큰 내의 local information align (Hidden Dimension Attention)
2. Token Blend Module: 다양한 resolution의 token 생성, Multi-Scale 지식을 효율적으로 활용
  1. Mutil-head Attention에서 동일한 위치의 토큰을 다른 head에 걸쳐 병합하는 대신, 동일한 head 내에서 인접한 토큰을 결합하여 새로운 토큰 생성

3. Robust Loss Function: 예측 불확실성 기반, 예측 중요도를 가중하여 과적합 문제 완화
    1. 과적합 측면에서 기존 query, key token에 Exponential Smoothing 적용시, 더 나은 성능을 보인, ETSformer 연구를 활용함
        1. 모든 차원에 대해 동일하게 유지되는 고정된 EMA 파라미터를 사용하는 것으로 충분히 훈련 과정을 안정화할 수 있음을 발견
        즉, 학습 가능한 파라미터를 포함하지 않는 EMA를 사용하여도 충분한 효과를 얻을 수 있다는 점을 제시하고 있음.

Transformers for time-series forecast
1. LogTrans
2. Informer
3. AutoFormer
4. FEDformer
5. Pyraformer
6. PatchTST
7. Crossformer
RNN, MLP, CNN for time-series forecasting

3. Model Architecture

The architecture of CARD

1. Input

    time-series data

2. Tokenize

    시계열 데이터 작은 patch 단위로 나눠서 이를 토큰으로 처리

    이 때, 각 채널별로 독립적으로 처리

    여기서 토큰화된 데이터는 "**패치된 토큰 텐서**"라는 형태로 표현

    이 텐서는 여러 채널(Channels), 즉 여러 변수에 대한 시계열 정보 포함


    - 최종 input size 설명
        - 필요한 요소들
            1. 채널 수 (C)

            다변량 시계열 데이터의 변수 개수를 의미합니다. 각 변수는 독립적인 시계열 데이터를 나타냅니다 (예: 온도, 습도, 압력).

            1. 패치 길이 (P)

            각 토큰이 포함하는 시계열 데이터 포인트의 개수를 의미합니다. 예를 들어, 패치 길이가 16이면 각 토큰은 16개의 연속적인 데이터 포인트를 포함합니다.

            1. 스트라이드 (S)

            토큰을 생성할 때, 각 토큰이 이전 토큰에서 얼마나 이동하는지를 나타냅니다. 스트라이드가 작을수록 토큰 간에 겹치는 부분이 많아집니다.

            1. 입력 시퀀스 길이 (L)

            모델에 입력되는 전체 시계열 데이터의 길이를 의미합니다. 예를 들어, 96시간 동안의 데이터를 입력으로 사용한다면 입력 시퀀스 길이는 96이 됩니다.

            1. 히든 차원 (d)

            토큰이 dense MLP layer를 거쳐 최종적으로 갖게 되는 차원입니다.


3. Attention
    - 이미지

        ![](https://velog.velcdn.com/images/jja_jja/post/769f3507-b1b8-4e58-a625-0083b603cd77/image.png)



    3.1 Attention over Channel Dimension

    - 서로 다른 채널(변수) 간의 상관관계 파악
    - Process
        1. 데이터 준비
            - tokenize로 얻은 “패치된 토큰 텐서” (C,N,P)
                - C : 채널 수, N: 토큰 개수, P: 패치 길이
        2. Q, K, V 생성
        3. Dynamic Projection 기법 사용
            - MLP layer에서 head dimension을 줄여  “요약된” 토큰 정보 얻음
                - attention 연산의 computational cost 줄이기 위함
            - dynamic에 대한 추가 설명
                - 모든 정보를 동일하게 취급하여 단순히 차원을 축소하는 것이 아니라, 데이터의 특성에 따라 중요한 정보는 보존하고 불필요한 정보는 제거하는 방식으로 차원을 축소
                    - 차원 축소를 통해 attention 연산의 computational cost가 줄어든다고 봄
                - input data에 따라 동적으로 중요한 정보를 선택
                - 시계열 데이터의 각 시점(time step)마다 중요한 채널이 다를 수 있다는 점을 고려

            - DP block module에서의 작동원리

                ```python
                def dynamic_projection(self,src,mlp):
                    src_dp = mlp(src)
                    src_dp = F.softmax(src_dp,dim = -1)
                    src_dp = torch.einsum(’bnhef,bnhec -> bnhcf’,src,src_dp)
                ```

                - K (Key)와 V (Value) 텐서 처리:
                DP Block은 어텐션 연산에 사용될 Key (K)와 Value (V) 텐서를 입력으로 받음

                - MLP 레이어 적용:
                DP Block 내의 MLP 레이어 $F_{pk}$ 및 $F_{pv}$는 Key와 Value 텐서의 head dimension을 줄이는 역할
                이때, MLP 레이어는 각 차원의 중요도를 학습하고, 중요한 정보는 보존하고 불필요한 정보는 제거
                - Softmax 정규화:
                MLP 레이어를 통과한 텐서에 소프트맥스 함수를 적용하여 각 차원의 가중치를 정규화, 이를 통해 각 차원의 중요도를 0과 1 사이의 값으로 표현
                - 요약된 토큰 생성:
                정규화된 가중치를 사용하여 Key와 Value 텐서를 가중합, 이를 통해 head dimension이 축소된 "요약된" 토큰을 생성
                - 어텐션 연산:
                요약된 토큰은 어텐션 연산에 사용되어 계산 복잡도를 줄이면서도 중요한 정보를 보존

        4. attention score 계산
        5. softmax 함수 적용
        6. Value와 같이 weighted sum 진행
        7. output - 새로운 tensor 형태 (C,N,P) 

    3.2 Attention over Token Dimension

    - 토큰 간의 temporal dependency 파악하고 이를 모델링에 활용
    - 시계열 데이터, 시간적 의존성 파악하는 것 매우 중요
    - Process
        1. 데이터 준비
            - 3.1 에서 진행한 채널 차원에서의 어텐션 최종 output을 input으로 사용
                - 이 tesnor (C, N, P)의 형태 가짐
        2. Q, K, V 생성
        3. Exponential Moving Average (EMA)
            - EMA를 Q와 K에 적용하여 각 query 토큰이 더 많은 key 토큰에 대해 더 높은 attention score 얻음

            $y_t = \alpha x_t \ + \ (1-\alpha)y_{t-1}$

            $\alpha$는 smoothing factor로 0~1 사이의 값, $\alpha$값이 클수록 최근 값에 더 큰 가중치 부여 

            → 현재 시점에서의 정보 뿐만 아니라 과거의 정보까지 포함 (즉, 더 넓은 시간 범위의 정보를 “기억”)

            → 이는 Q, K attention score 연산 시, 각 query 토큰은 더 많은 key 토큰들과 유사한 패턴 공유하게 됨.

            → 결국 두 토큰이 유사한 패턴을 가진다면, 더 높은 attention score를 가지게 됨.

            → 이는 각 query 토큰은 자신과 관련된 정보를 더 많이 활용할 수 있게 됨.

            → EMA는 최근 값에 더 큰 weight를 주기 때문에 과거의 이상치가 현재 attention score에 미치는 영향이 크지 않음.

            → 이는 anomaly에 robust한 예측 가능하게 함.

        4. attention score 계산
        5. softmax 함수 적용

            ![](https://velog.velcdn.com/images/jja_jja/post/13dcd082-fa77-4588-bb36-e9fb4f5aca42/image.png)


        6. Value와 weighted sum 진행
        7. outout - 토큰 차원에서의 어텐션 결과는 각 채널별로 시간적 의존성이 고려된 새로운 텐서가 됨

        ![](https://velog.velcdn.com/images/jja_jja/post/85c1dbb3-89e9-4810-b240-17fbdcf1f1a5/image.png)



    
    💡

    CARD 모델은 3.1 채널 차원에서의 어텐션 연산과 3.2 토큰 차원에서의 어텐션 연산 번갈아가면서 수행

    1. 채널 간의 inter-dependency와 temporal-dependency를 모두 고려해서 시계열 데이터의 복잡한 구조 학습
    2. information fusion 서로 다른 채널의 정보와 시간적 정보를 융합
    3. robustness
    

    ![](https://velog.velcdn.com/images/jja_jja/post/fb507950-08d5-47a3-b301-1d302ffa17d4/image.png)


    - Standard Token Construction은 사실 new token 만드는 게 concat에 불과함.
    - 하지만 Token Blend Module은 output token에 대해서 tensor 형태도 rearrange해서 인접한 토큰들이 섞이도록 함.
    - 즉 Token Blend 작업은 텐서의 차원을 재배열하여 인접한 토큰들의 정보를 섞는 과정,이는 multi-scale 정보를 효과적으로 활용하기 위한 특별한 방식
    - 코드

        ```python
        def forward(self, src, *args,**kwargs):
            # construct Q,K,V
            B,nvars, H, C, = src.shape
            qkv = self.qkv(src).reshape(B,nvars, H, 3, self.n_heads, C // self.n_heads).permute(3,
                0, 1,4, 2, 5)
            q, k, v = qkv[0], qkv[1], qkv[2]

            if not self.over_channel:
                attn_score_along_token = torch.einsum(’bnhed,bnhfd->bnhef’, self.ema(q), self.ema(k
                ))/ self.head_dim ** -0.5
                attn_along_token = self.attn_dropout(F.softmax(attn_score_along_token, dim=-1) )
                output_along_token = torch.einsum(’bnhef,bnhfd->bnhed’, attn_along_token, v)

            else:
                # dynamic project V and K
                v_dp,k_dp = self.dynamic_projection(v,self.dp_v) , self.dynamic_projection(k,self.
                dp_k)
                attn_score_along_token = torch.einsum(’bnhed,bnhfd->bnhef’, self.ema(q), self.ema(
                    k_dp))/ self.head_dim ** -0.5
                attn_along_token = self.attn_dropout(F.softmax(attn_score_along_token, dim=-1) )
                output_along_token = torch.einsum(’bnhef,bnhfd->bnhed’, attn_along_token, v_dp)

        # attention over hidden dimensions
        attn_score_along_hidden = torch.einsum(’bnhae,bnhaf->bnhef’, q,k)/ q.shape[-2] ** -0.5
        attn_along_hidden = self.attn_dropout(F.softmax(attn_score_along_hidden, dim=-1) )
        output_along_hidden = torch.einsum(’bnhef,bnhaf->bnhae’, attn_along_hidden, v)

        # token blend
        output1 = rearrange(output_along_token.reshape(B*nvars,-1,self.head_dim),
                                                ’bn (hl1 hl2 hl3) d -> bn hl2 (hl3 hl1) d’,
                                                hl1 = self.n_heads//self.merge_size, hl2 = output_along_token.shape[-2]
                                                ,hl3 = self.merge_size
                                                ).reshape(B*nvars,-1,self.head_dim*self.n_heads)
        output2 = rearrange(output_along_hidden.reshape(B*nvars,-1,self.head_dim),
                                                ’bn (hl1 hl2 hl3) d -> bn hl2 (hl3 hl1) d’,
                                                hl1 = self.n_heads//self.merge_size, hl2 = output_along_token.shape[-2]
                                                ,hl3 = self.merge_size
                                                ).reshape(B*nvars,-1,self.head_dim*self.n_heads)

        # post_norm
        output1 = self.norm_post1(output1).reshape(B,nvars, -1, self.n_heads * self.head_dim)
        output2 = self.norm_post2(output2).reshape(B,nvars, -1, self.n_heads * self.head_dim)

        # add & norm
        src2 = self.ff_1(output1)+self.ff_2(output2)
        src = src + src2
        src = src.reshape(B*nvars, -1, self.n_heads * self.head_dim)
        src = self.norm_attn(src)
        src = src.reshape(B,nvars, -1, self.n_heads * self.head_dim)
        return src
        ```

4. Signal Decay-Based Loss Function

overall objective loss
기본적인 MSE 손실 활용 (l2 norm의 제곱) —> 모든 예측 시점에 대한 오차를 동일하게 취급 . 하지만, 실제로는 먼 미래의 예측은 불확실성이 더 크기 때문에 이 점을 고려한 loss식 필요

![](https://velog.velcdn.com/images/jja_jja/post/9fadab01-4928-4f5c-a4cc-1c4c80895f22/image.png)

초기 loss 함수 (Negative Log-likelihood estimation)

1번 식에 markov process 가정 및 분산 추정 적용 (1차 Markov Process 따른다고 가정) 이는 예측 시점이 멀어질수록 불확실성이 커진다는 것을 의미 $\sigma^2$은 noise의 분산 $I$는 identity matrix 활용

최종 loss function
- 위 3번식에서 도출

5. Experiments

5.1 Long Term Forecasting

기존 SOTA 모델 혹은 baseline 모델들 대비 특히 일부 데이터셋에서 높은 성능을 보임.

5.2 Reconstruction based Anomaly Detection

특정 데이터셋에서는 TimesNet 혹은 PatchTST 모델이 높은 성능을 보였지만, 전체 평균 Avg에 대한 성능 결과는 CARD가 압도적이다.

5.3 Boosting Effect of singal Decay-Based Loss Function

Signal Decay-Based Loss Function의 효과

MSE 감소 효과, 기존의 MSE 손실함수 대신 이 손실 함수를 사용 했을 때, Transformer, CNN, MLP에서 3~12% loss 감소
제안하는 손실 함수는 특히 주파수 영역 정보를 많이 활용하는 FEDformer와 Autoformer의 성능을 향상

5.4 Influence of Input Sequence Length

기존의 long term forecasting 트랜스포머 모델들은 긴 입력 시퀀스를 효과적으로 활용 x

input length가 길어짐에 따라 성능 저하되는 문제점 보임

→ 하지만 CARD는 이런 단점 본질적인 문제 x / input sequence가 더 길고, 노이즈가 많은 과거 시퀀스 입에서도 robust한 성능 유지 설명

5.5 Influence of Token Blend Size

일반적으로 token blend가 1에 가까울수록 즉, 표준 token blend일 경우 loss가 높게 나오는 경향 보임

→ 따라서 token blend size를 키울수록 성능 향상에 도움이 됨

6. Conclusion

새로운 Transformer 모델 (CARD): 이 논문에서는 시계열 예측을 위한 새로운 Transformer 모델인 CARD를 소개
채널 의존적 (Channel-dependent) 모델: CARD는 채널 의존적인 모델로, 다양한 변수와 숨겨진 차원 (hidden dimensions) 간의 정보를 효과적으로 정렬
Attention 메커니즘 개선: CARD는 토큰과 채널 모두에 attention을 적용하여 기존 Transformer를 개선
Attention 메커니즘 설계: 새로운 attention 메커니즘 설계는 각 토큰 내의 로컬 정보를 탐색하여 시계열 예측에 더 효과적
토큰 블렌드 모듈 제안: 시계열 데이터에서 다중 스케일 정보 지식 (multi-scale information knowledge) 활용을 위한 토큰 블렌드 모듈을 제안
Robust 손실 함수 도입: 시계열 분석의 중요한 문제인 과적합 (overfitting) 문제를 완화하기 위해 robust 손실 함수를 도입
우수한 성능: 다양한 수치 벤치마크를 통해 제안된 모델이 최첨단 모델보다 성능이 우수함을 입증

Tel2Veh: Fusion of Telecom Data and Vehicle Flow to Predict Camera-Free Traffic via a Spatio-Temporal Framework (24.05) CVPR

Tue, 08 Apr 2025 13:50:26 GMT

1. 문제의식

차량 흐름 예측은 차량 관리에 중요한 부분
차량 센서 범위의 한계로 제약이 크지만, mobile network coverage를 활용
→ 도로에서 모바일 사용자들의 네트워크 활동(Cellular Traffic)을 차량 흐름의 대용으로 사용 가능
- 여기서 문제점이, Cellular Traffic 정보가, 차량 흐름과 직접적으로 일치하지 않을 가능성 존재
- Cellular Traffic 정보는, 차량 운전자 뿐만 아니라, 보행자의 데이터도 포함하기 때문
  
  Contribution Cellular Traffic을 활용하여 카메라가 없는 지역(차량 흐름을 알기 어려운 지역)에서 차량 흐름을 예측하는 task 제안 Geographical Cellular Traffic(GCT) Flow와 Vehicle Flow으로 구성된 Tel2Veh 데이터셋 구축

(a) 카메라 장착 지역

과거 데이터: 수집된 과거 Cellular Traffic Flow와 Vehicle Flow 수집
Fusion Framework로 미래 시점의 Vehicle Flow 예측

(b) 카메라 미장착 지역

현재데이터: 수집된 현재의 Cellular Traffic Flow만 수집
Fusion Framework로 미래 시점의 Vehicle Flow 예측

2. 데이터 형태

GCT(Geographical Cellular Traffic) Flow 데이터는 이동통신사로부터 제공받음

Vehicle Flow(차량 흐름) 데이터는 연구진이 직접 카메라를 설치하여 촬영한 영상에서 차량을 검출(detection)하고 계수(count)하는 방식으로 수집

2.1 GCT Flow - csv

특정 도로 구간에서, 정해진 시간 간격 동안 발생한 GCT의 총 횟수 (5분 간격)

차량 흐름 데이터 수집
- 통신 회사에서 GCT 데이터 가져오기

International Mobile Station Equipment Identity (IMEI), latitude, longitude, and log time.

→ IMEI는 개인 식별자 데이터라 삭제

이 논문에서는 49개의 구간 중 9개의 도로 구간을 선택하여 카메라 설치 후 진행

→ 이 때 road segment를 20m x 20m로 설정 (grid cell로 나눔)
- 특정 시간대 GCT 양 많음 (출퇴근 시간, 점심시간 대 ..) GCT 데이터 형태 gct flow와 vehicle flow는 서로 유사한 형태를 띄지만 다른 점 존재

2.2 Vehicle Flow - csv

특정 도로 구간을 일정 시간 동안 통과하는 차량의 수 (5분 간격)

차량 흐름 Detection
- BOT-SORT, YOLOv7 사용
- BoT-SORT: Robust Associations Multi-Pedestrian Tracking는 다중 객체 추적(MOT)을 위한 알고리즘
→ 객체의 움직임과 외형 정보를 결합하여 객체를 정확하게 식별하고 추적 vehicle flow 데이터 형태 GCT Flow와 Vehicle Flow data 간의 피어슨 상관계수 값 화살표 표시된 부분에서 보시다시피, 데이터 수집 과정에서 오류 존재하는 부분 있음

3. Spatio-Temporal Fusion Framework

3.1 Task Definition

N개의 GCT (Geographical Cellular Traffic) 흐름과 M개의 차량 흐름을 과거 시간 간격 T_{in} 동안 수집
위 데이터를 바탕을 N개의 미래 차량 흐름 예측 (49개 도로 구간에 대해서) Overview of the two-stage fusion framework
3.2 Stage 1: Feature Extraction (1단계: 특징 추출)

STGNN(Spatio - Temporal GNN) 활용
STGNN은 1D Convolution Network에서 K개의 커널을 사용하여 시공간적 입력 N개의 위치에서 D개의 관측값, 크기 N x D을 다중 채널 특징 맵(크기 K x N x D)으로 변환 각 맵은 서로 다른 시간 패턴을 포함할 수 있다
output

: multi-channel feature maps

3.3 Stage 2: Fusion and Prediction

MGAT (Multi-Channel Graph Attention) Fusion 활용
우리의 input은 stage 1으로부터 나온 multi-channel feature maps이기 때문에 일반 GAT보다 MGAT가 효과적 예측하고자 하는 n번째의 GCT 통행 수 notation 설명 부분

3.4 Loss Function

람다 : 학습 가능한 파라미터, 두 loss간의 균형 맞춤 Vehicle Flow에 대한 ground truth와 예측값의 MAE loss GCT Flow에 대한 ground truth와 예측값의 MAE loss

4. Experiment

4.1 Setting

STGNN 계열의 모델들을 3가지 선정하여, 이 모델이 프레임워크에 통합되기 전 후를 비교하여 향상도를 나타낸다.

이를 통해 이 프레임워크의 효과를 입증함

4.2 baselines

GWNET: Graph WaveNet for Deep Spatial-Temporal Graph Modeling
ESG: Learning the Evolutionary and Multi-scale Graph Structure for Multivariate Time Series Forecasting
MFGM: TelTrans: Applying Multi-Type Telecom Data to Transportation Evaluation and Prediction via Multifaceted Graph Modeling w/o는 프레임워크 통합하기 전의 성능, w는 프레임워크 통합 이후의 성능을 나타내며, IR은 전후의 성능 비교를 나타낸 Improvement Ratio를 나타낸다.

전반적으로 10%가 넘는 성능을 보였으며, 현재 STGNN을 활용한 교통량 예측에서 우수한 성능을 보이는 MFGM 모델에서는 20% 가까이의 성능 향상을 보이는 우수한 프레임워크를 입증한다. 9월 26일 도로 ID 37에 대한 15분 간격의 예측 결과

5. Conclusion

이로써, 교통량 예측 task에서 Tel2Veh라는 데이터셋과 함께 활용 프레임워크를 제공하며, 시계열 예측으로 많이 사용되는 STGNN의 계열의 모델들의 성능 향상에 기여했다.

Temporal Data Meets LLM - Explainable Financial Time Series Forecasting (2023. 06) 리뷰

Sat, 21 Dec 2024 14:23:44 GMT

paper https://arxiv.org/abs/2306.11025

목차 0. Abstract

Introduction
Related Works
Methodology
Experiments
Conclusion

0. Abstract

Cross-Sequence reasoning and inference
- Time-Series data가 가지는 복잡한 dependence 특징을 포착해야 한다.
- 데이터 내의 Temporal pattern을 이해하는 것은 정확한 예측을 하는 데에 있어서 필수적이다.
Complex multi-modal finance temporal data
- 정확한 주가 예측을 수행하기 위해, 단순히 numerical seqeunce로 이뤄진 주가 뿐만 아니라, 해당 주식에 관련된 다른 금융 데이터(과거 뉴스, 거시경제 시장 지표, 차트 흐름 등)을 함께 처리해야 함.
Interpretability and explainability
- DL 모델의 Black Box는 의사결정을 하는 데에 적은 부분의 insight밖에 주지 못함
- 투명성 부족 ← 신뢰성에 대한 우려 발생 + 사용자의 신뢰 저하 가능 / 이는 막대한 투자와 자산이 걸려있는 금융 관련 분야 더욱 중요

1. Introduction

앞서서 언급된 3가지 문제점에 대해서 LLM을 활용함으로써 얻을 수 있는 장점 및 해결

Cross-Sequence reasoning and inference
- Transformer 계열의 모델은 input으로 들어온 text sequence 간의 관계를 모두 고려한다, 따라서 데이터의 복잡한 관계 또한 학습할 수 있음.
- LLM은 시계열 데이터 내의 complex relation을 학습할 수 있다고 봄.
Complex multi-modal finance temporal data
- LLM은 학습 시에 다양한 주제, 스타일, 형식을 아우르는 많은 양의 데이터로 학습
- Numerical market data, textual news, articles, social media post 등 서로 다른 source 가지는 데이터가 많은 financial forecasting task에서 유용하다.
Interpretability and explainability
- LLM은 인간이 이해할 수 있는 형태의 설명을 생성하는 능력이 있습니다. 이는 모델의 예측에 대한 신뢰를 높이고, 추론 과정에 대한 명확한 설명을 제공한다.

2.1 Traditional Statistical / Econometric Methods

ARMA-GARCH 모델 → 전통 통계적/계량경제학적 기법, 오랜 기간 financial time-series 예측의 핵심 방법으로 자리잡음
- 이런 모델 → 금융 시계열에서 의존성과 변동성 군집을 capture하는 능력 널리 사용
- 모델 종류
  1. 벡터 자기회귀 모델(Vector Autoregressive Models, VAM)
  2. 상태 공간 모델(State-Space Models)
  3. 칼만 필터(Kalman Filter)
  4. 확산 모델(Diffusion Models)
  5. 벡터 오류 수정 모델(Vector Error Correction Model, VECM)
  6. 동태적 확률 일반 균형(DSGE)

2.2 Machine Learning Techniques

Decision Tree, SVM 등과 같은 설명력이 충분한 기법들이 적극적으로 사용 됨
그러나 최근 RNN, CNN, Transformer 계열의 모델과 같은 딥러닝 모델이 이 작업에 적용

→ 이는 복잡하고 비선형적인 관계를 더욱 더 잘 표현할 수 있다.

2.3 Large Language Models

GPT-3, GPT-4, LLaMA(Alpaca, Vicuna 등 포함)가 대표적인 LLM

3. Methodology

3.1 Data

input

3.1.1 : NASDAQ-100 stock price data (from yfinance)
- Numerical price time-series를 percentage-change time series로 Normalize 진행, Percentage Change를 bin로(범주화) 분류
- 주간 예측 예시 (이번 주와 지난 주 사이의 가격 변화를 12개 구간으로 나눔
  - "D5+", "D5", "D4", "D3", "D2", "D1", "U1", "U2", "U3", "U4", "U5", "U5+”
  - D5+는 5% 이상 하락, U5+는 5% 이상 상승을 의미
  - Di는 (i-1)%에서 i% 사이의 가격 하락 의미
  - Bin의 숫자는 granularity(주,월 등)에 따라 달라짐

3.1.2 : Company Profile data : GPT 4를 이용
- company description
  - general positive/negative factors (description)
  - 예시 이미지(figure 1)

회사 설명: Apple은 아이폰, 아이패드, 애플 워치 등의 제품을 제조하는 미국 캘리포니아에 본사를 둔 기술 회사입니다.
- 긍정적인 요인: 경제 성장, 기술 혁신, 성공적인 제품 출시, 법적 규제 완화 등.
- 부정적인 요인: 인플레이션, 기술 혁신 지연, 환경 규제 등.

3.1.3 : Finance/Economy News data : GPT 4 이용
- Google Custom Search API 사용 → NASDAQ-100 주식에 대한 주간 뉴스 상위 5개 가져옴
- 위와 같은 방식으로 Macro economy와 현재 금융 현황에 대해서 똑같이 진행
- 예시 이미지(figure 2)

- 한 주 모든 뉴스 요약과 키워드 ← 메타 요약으로 통합한 예시 제공 (figure 3)
- 예시 이미지

3.2 Instruction-Based Zero-shot/Few-shot Inference with LLMs

zero-shot, few-shot inference 실험에서 다음 instruction-based prompt 사용

instruction-based prompt 이미지
- Prompt 구조
  - Instruction
  - Company Profile
  - 과거 뉴스 요약 및 키워드
  - Categorized stoch price
  - cross-sequence few-shot learning example 포함
- Cross-sequence few-shot learning example ?
  
  → 예측하고자 하는 종목과 유사한 종목의 주가 의미
  - 이 논문에서는 “AAPL”를 기준으로 GPT-4를 통해서 예시 도출
  → “AAPL”과 가장 유사한 나스닥 주식 상위 3개 ⇒ “MSFT”, “GOOGL”,”AMZN”
Prompt 구조와 Instruction은 경험적으로 고정

3.3 Insturction-based Fine-tuning with Open LLaMA

LLaMA 13B를 통해서 Instruction based fine-tuning 진행
LLaMA 13B 특징
- zero-shot에서 보통 Prompt에 대한 명령들을 효과적으로 실행 x → 그저 Prompt의 일부를 복제하는 경향 있음
- 따라서 Fine-tuning 과정 거치지 않는다면, 정상적인 Inference 불가능하다.
Binary Classification에 대해서 GPT4와 대등한 성격 보이나, D5+, U5+와 같은 극단적인 예측을 더 생성하는 경향있어서 Higher Squared Error 발생함.
fine-tuning된 LLaMA의 output 예시

해석

요약: 주식 시장은 Apple의 비용 최적화와 신제품 출시 및 시장 확장을 통한 수익 창출에 긍정적으로 반응할 가능성이 높습니다. 규제 문제에도 불구하고, 회사의 환경적 책임 이행과 금융 상품의 다양화 노력은 장기적인 전망에 긍정적인 영향을 미칠 것으로 예상됩니다. 결과적으로 Apple의 주가는 또 한 번의 강력한 성장 주를 보일 것으로 예상되며, 예상 수익률은 U5+입니다.

키워드: 비용 절감, 신제품 출시, 확장, 규제, 공급망

주가 수익률: U5+

4. Experiments

4.1 Experiment Setup

Data time window
- Baseline 모델과 LLaMA 모델 모두 training이 필요함
  - 2017/06/12~2022/06/05까지의 5년치 데이터 사용하여 Training
  - ++ 2022/06/05 ~ 2023/06/04까지의 52주간의 데이터를 통해 Evaluation
Baseline Models
- ARMA-GARCH (p=q=1) → 통계 기반
- LightGBM
- Gradient-boosting tree model
Eval metrics
- Binary precision : 등락( D or U )을 정확하게 맞추는 것
- Bin precision : 등락률 (D1, D2, … )을 정확하게 예측하는 것
- MSE of consecutive bin ordinals : -6(D5+) ~ 5(U5+)까지의 MSE 계산
- GPT 4가 도출하는 summary 및 keyword 들에 대해서 ROUGE 1 및 ROUGE 2 도출
  - ROUGE 설명
    
    https://ariz1623.tistory.com/307

Forcasting stock return

LLM 기반 모델들이 baseline model들 보다 더 나은 성능 보이고 있음
특히 GPT-4 Few-Shot w/ COT 모델이 가장 좋은 성능 보임, MSE가 10대로 떨어지는 것을 봤을 때, prediction direction에 관한 예측 뿐만 아니라 더 정확하게 변화를 포착함
LLaMA
- Fine-tuning 이후 bin Precision 성능이 좋지 않음 → fine-grained Reasoning 능력 부족
- MSE 값이 높은 것으로 봤을 때, 예측 시 양 극단적인 값을 예측하는 경우가 많은 것으로 판단 가능

Explanations generated by the LLM

LLM이 생성한 Summary(S)와 Keyword(K)에 대해서 평가
GPT-4 few-shot with COT가 가장 높은 ROUGE score 달성

5. Conclusion

기존 ML/DL 모델들이 금융 도메인에서 data를 다룰 때 어려움을 겪는, Cross-Sequence reasoning or inference, Complex multi-modal data, 설명력 부족 등에 문제점 → LLM을 통해 극복하고자 함.
Point-wise 예측이 아닌, 등락 및 등락률 (주간 예측 기준 12개의 등락/등락률로 나눔)을 예측하고자 한 점이 인상 깊음 → 현실적으로는 정말 point-wise 보다는 등락/ 등락률만을 정확하게 예측하더라도 실제로 유의미한 결과를 얻을 수 있다고 생각
처음 이 금융 도메인에서 LLM을 이용한 것에 대한 potential을 보이는 것에 contribute를 가짐

DSBA 세미나 유튜브 영상을 참고해서 작성한 내용입니다.

https://www.youtube.com/watch?v=e0Lupg19fuo

Mostra: A Flexible Balancing Framework to Trade-off User, Artist and Platform Objectives for Music Sequencing 리뷰

Sat, 21 Dec 2024 14:09:20 GMT

해외 최고 음악 스트리밍 서비스 Spotify에서 유저, 아티스트, 플랫폼 모두의 이익을 고려한 노래 추천 모델인 MOSTRA를 제안함 (2022.04.22) ACL 등재

Abstract 및 개념 정리

사용자 만족도 + 아티스트 및 플랫폼 중심의 목표를 최대화 하는 것 → 플랫폼의 장기적 건강과 지속 가능성 보장하는 데에 매우 필요하다
4가지 objectives를 바탕한다.
- 만족도(Sat)
- 발견(Discovery)
- 노출(Exposure)
- 증진(Boost)
4가지 목표에 대해서 이러한 목표들 간의 성능 trade-off의 필요성과 잠재력을 강조, submodular인 multi-objective beam search decoding이 포함되어 있는 Set Transformer 기반의 encoder-decoder 구조인 Monstra 제안
Beam search 내용
- 시퀀스를 생성하는 작업에서 사용,
  - 효율적인 탐색을 통해 높은 확률을 가진 시퀀스를 선택적으로 탐색 (가장 가능성 있는 출력 시퀀스를 찾아내는 데 목적)
- 기본원리
  - BFS와 유사하지만 beam size를 parameter로 받아서 탐색해야 할 후보의 수 제한
    - beam size 작을수록, 탐색 공간이 줄어들어 연산 비용이 감소하지만, 최적 해를 놓칠 가능성 커짐 (크면 그 반대)
    - 따라서 적절한 parameter 값 조절 중요
    - 작동 방식
      1. 초기화 : 시작 토큰 설정
      2. 확장 : 현재 상태에서 가능한 모든 다음 상태 확장 (각 상태에 대한 확률 소프트맥스로 구함)
      3. 선택 : 확장 상태 중 확률이 높은 상위 N개 선택 (N : beam size)
      4. 종료 조건 검사 : 종료 토큰, 다른 종료 조건까지 2, 3단계 반복
      5. 결과 반환 : 최종적으로 선택된 상태(시퀀스) 중에서 가장 높은 확률의 시퀀스 출
- Set Transformer 내용
  - Set Transformer 구조
  - 전통적인 Transformer(순차적인 데이터 처리에 강점) 하지만 집합과 같은 순서가 없고 크기가 가변적인 데이터를 직접적으로 처리하는 데에 제약 존재.
    - 핵심 특징
      1. 순서 독립성
        
        입력으로써 주어진 요소들의 순서에 의존 x → 집합 처리에 필수적인 특성 의미
        
        모델이 집합 내의 요소들을 어떤 순서로 입력받더라도 동일한 결과 출력
      2. Self-Attention 메커니즘
        
        집합 내의 각 요소가 서로 attention
        
        요소들 사이의 관계 모델링함 → 순서에 구애받지 않는 데이터의 특성 잘 반영
      3. Pooling by Multihead Attention (PMA)
        
        Pooling을 통해서 집합의 크기를 동적으로 조정 가능 → 고정된 크기의 표현을 생성하여 집합의 크기 변해도 처리 가능
4가지 목표를 균형있게 조절하여 목표에 대한 영향을 동적으로 제어함으로써 다른 목표 만족시킬 수 있는 능력 부여
4가지 목표 간에 존재하는 trade-off에 대한 insight 제시
제안된 framework가 다양한 관심 지표(metric of interest)들에 걸쳐 우수한, just-in-time 균형을 달성할 수 있음을 보인다.

1. Introduction

기존 추천 모델은 유저의 만족도에 집중해서 설계되었다. 하지만 실제로는 아티스트(가수), 플랫폼의 이익도 함께 고려해야 한다.
- 이 논문은 특히 음악 스트리밍 플랫폼의 맥락에서 추천 시스템이 사용자 만족도, 신흥 아티스트의 노출 및 콘텐츠 발견 촉진과 같은 전략적 목표 사이의 균형을 맞추는 것이 매우 중요하다고 언급
MOSTRA (Multi-Objective Set Transformer)
- 4개의 objective(목표)를 함께 고려하여 가장 적절한 노래 순서대로 랭킹하는 모델
- Encoder : Set Transformers
- Decoder : Submodular Multi-Objective Beam Search

설명 : 추천 시스템 발전 및 multi-objective 최적화에 대한 연구 개괄 크게 3가지 부분으로 구성

일반적인 추천 시스템 2. multi-objective 추천 3. beam-search 알고리즘
일반적인 추천 시스템
- Matrix Factorizaiton
- instance - level
  - 각 아이템의 점수를 독립적으로 매기는 방법
- set - level
  - 함께 추천된 아이템들을 문맥으로 고려하여 아이템의 점수를 매기는 방법
Multi-Objective RecSys
- 여러 목표를 동시에 고려 → 하나의 함수로 aggregate하는 방식
- 여러 목표를 고려한 reward 함수 정의하는 방식
Beam Search Algorithm
- Machine Translation, image Captioning .. → 가능한 모든 시퀀스 중 특정 목표 최대화
- 제한된 너비의 BFS 방식
  - 자세한 설명
    - 매 n번째 스텝에서 n+1 길이의 최대 k개 시퀀스까지 확장하고 목표 점수가 최대화 되는 시퀀스를 택함

3. Objectives & Stakeholders

아래는 스포티파이에서 제시한 Mostra paper로, 자세한 내용을 살펴보고 싶다면 참고해도 좋다. Mostra: Balancing multiple objectives for music recommendation - Spotify Research

6. 결론

새롭게 문제 정의

“just-in-time multi-objective potimisation”

Monstra 아키텍처는 시스템 디자이너가 다양한 목표(objectives) 사이의 trade-off를 실시간으로 조절할 수 있게 하고, 이는 새로운 beam-search 알고리즘을 통해 제어 → “반사실적 결정” 개념을 사용해 다양한 목표 사이의 균형을 효과적으로 나타냄

Large Language Model Can Interpret Latent Space of Sequential Recommender(2023.10) - 논문리뷰

Sun, 01 Sep 2024 09:28:34 GMT

오늘은 시퀀셜 추천시스템에서 LLM을 활용해 SeqRec 모델의 latent space를 더 자세히 이해할 수 있도록하는 RecInterpreter를 제안한 논문을 리뷰하고자 한다.

논문 링크 : https://arxiv.org/abs/2310.20487

그럼 abstract부터 하나씩 살펴보자.

0. Abstract

문제정의 전통적 시퀀스 추천 시스템, 항목의 시퀀스를 모델링해서 사용자의 선호 예측 But, 이 시스템의 숨겨진 표현을 해석하는 능력은 아직 완전하지 않다. 따라서 이 논문에서는 LLM이 ID-based Sequential Rec sys의 숨겨진 표현을 이해할 수 있을까라는 의문과 함께 RecInterpreter 프레임 워크 제안 해결방안 크게 총 3가지 정도의 solution이 제안됩니다. 하나씩 살펴보면,

Multimodal Adaptation : RecInterpreter, 상호작용 시퀀스의 표현과 텍스트 설명을 사용하여, 표현을 LLM의 토큰 임베딩 공간으로 매핑하는 lightweight adapter 활용
Sequence Recovery : sequence-recovery prompt를 사용하여 LLM이 시퀀스 내 항목에 대한 텍스트 설명 생성 유도
Sequence Residual Analysis : 시퀀스 residual prompt를 활용해서 LLM이 새로운 항목이 추가된 후 시퀀스이 변화를 비교하여 추가된 항목을 식별하도록 함

1. Introduction

시퀀스 추천 시스템 개요

이전에 상호작용한 항목(검색, 시청, 구매, 리뷰 기록 내역 등) 기반으로 다음 관심을 가질 가능성(클릭 혹은 구매까지 이어지는 경우)이 있는 항목을 예측하는 추천시스템
이때 Discrete ID (이산 ID)로 모델링을 하게 된다. 즉, 사용자가 행의 순차적 패턴을 반영하는 숨겨진 표현을 학습하는 것이다. 위 이미지에서 (a), (b), (c) 파트를 각각 자세히 살펴보자.
1. (a) SeqRec 과정
1. 항목 ID 처리
  - Discrete ID로 변환
  - Titanic, Twilight, Star Wars → ID1 ID2 ID3
2. 시퀀스 모델링
  - input → user가 상호작용한 항목(ID) sequence
  - 이를 학습해서 사용자의 행동 패턴 캡처
3. 숨겨진 표현 생성
  - Hidden Representation → SeqH 토큰 생성
  - SeqH 토큰은 사용자가 시청한 영화 목록(ID 시퀀스)을 SeqRec 인코더와 같은 추천 시스템을 통해 숨겨진 상태 SeqH로 변환한다.
  - 이 SeqH 토큰은 사용자의 시청 패턴을 요약하는 벡터 표현
4. Next Item predict
  - 이 SeqH 토큰을 기반으로 다음 item 예측 !!
    2. (b) LLM4Rec 과정
5. text prompt 생성
  - 사용자 상호작용 item 기반으로 text prompt 생성
6. LLM 입력
7. 다음 항목 예측
  - “The Gotfather” ← 다음 항목으로 예측
    3. (c) RecInterpreter
8. 항목 ID 처리 + hidden representation 생성 SeqRec 초입부분 똑같음
9. representation space mapping
  - lightWeight 어뎁터 (linear layer)를 통과하여 숨겨진 표현을 LLM으 토큰 임베딩 공간으로 매핑
  - lightweight adapter이란?
    - 대형 언어 모델(LLM)과 같은 복잡한 모델에 적은 계산 자원을 사용하여 새로운 기능을 학습하거나 기존 기능을 확장
      - SeqRec과 동일하게 입력을 주어진 항목 ID 처리, 이를 통해 hidden representation 생성
    - 이 adapter는 주로 단순한 linear layer로 구성
-> SeqH 토큰을 LLM이 이해할 수 있는 토큰 임베딩으로 변환한다.
1. text prompt 생성
-> 이 때 SeqH 생성
1. 다음 항목 예측 및 설명

여기서는 recommendation specific token을 갖기 위해 우리는 sequence recovery token을 제안한다.
empricial하게 LLaMA는 sequence hidden state를 이해할 수 있지만, 단점이 존재한다.
- 정보가 compressive하기에 limitation이 존재한다.
기존 시청기록과 추가적으로 새롭게 들어온 항목을 반영한 각각의 representation을 반영함
실험적으로 이 method 굉장히 효과적 + 대상 아이템의 text desciption까지 이해함
linear projection layer만이 tunable 하기에 여러 platform에서 adaptation하기에도 용이
gen recommender의 hidden state는 이산적으로 설명 어려움 그러나, RecInterpreter는 surrogate하게 설명 가능 !!!

3.Inspire LLMs to understand sequential recommenders

3.1 Sequence-Recovery Prompting

이전 멀티모달 LLM 연구에서 영감받음
LLM이 추천 hidden state를 바탕으로 item을 text로 reconstruct하는 접근 방식
1) Seqeunce Encoding via Sequential Recommenders*
$E_s$ : 상호작용한 item 목록의 embedding을 concat
사용자 상호작용 시퀀스 $s_1, s_2, ...,s_m$을 SeqRec인 SASRec, DreamRec을 사용해 hidden state로 인코딩
2) Representation Adaptation vis Lightweight Adapter*
LLM의 token size (LLaMA → 4096)로 dimension 표현 매핑 layer`
이 hidden state token은 textual content와 user interaction을 둘 다 보유3) Prompt Design for the Adapter Training
각 프롬프트 두 가지 component 포함
1. input → projected된 hidden state SeqH 포함
2. Output → Auto Regressive하게 hidden state에 대해 text description을 reconstruct함

3.2 Sequence-Residual Prompting

Tokenizer(토크나이저)

text data, LLaMA 모델이 이해할 수 있는 형식으로 변환
세 개의 토크나이저가 각각 영화 목록(List1, List2)과 질문 텍스트를 토큰으로 변환하는 역할

SeqRec Encoder (SeqRec 인코더)

user가 시청한 영화 목록을 ID sequence로 받고, 이를 latent state 상으로 변환
SeqRec 인코더는 두 개의 시퀀스(SeqH1과 SeqH2)를 생성합니다. SeqH1은 초기 시청 목록(List1)을 나타내고, SeqH2는 추가된 영화를 포함한 시청 목록(List2)을 나타냄

linear layer (선형계층)

SeqH1과 SeqH2 두 가지 숨겨진 상태를 LLaMA의 입력 공간으로 매핑
이 선형 계층은 튜닝 가능한 모듈로, 학습 과정에서 파라미터가 업데이트 이뤄짐

LLaMA 부분

LLaMA는 두 시퀀스의 숨겨진 상태를 바탕으로 잔차 항목(새로 추가된 영화)을 텍스트로 식별하고 설명
위 이미지에서는 "This user watched movie Twelve Monkeys in List2 but not in List1."이라는 텍스트 응답을 생성
Sequen일반적으로 recommendation , 매우 sparse 따라서 representation을 통해 모든 것 이해 → 어려운 문제
Flamingo는 두 비슷한 이미지 제시하고, 차이를 제공해서 LLM의 visual modalities 강화한 논문
여기서도 비슷하게 LLaMA가sequence의 residual item, 더 잘 식별하도록 프롬프트 제안 → 두 hidden state를 project한 뒤, figure 참고하기
LLaMA가 이전 hidden satet와 다음 hidden state를 비교 → 추가적으로 어떤 item을 interaction했는지 이해할 수 있음 !!

3.3 Instantiate Oracle Items

위의 training step으로 generative recommender가 어떻게 작용되는지 설명
1) DreamRec*
DreamRec으로 gen된 item → hidden vector, 따라서 nearest item을 추출해야 함 → 이는 candidate로밖에 제한되버린다.
이 논문에서는 DreamRec으로 oracle item의 description을 생성할 수 있기에 explicit한 추천(result) 얻을 수 있다. _ - Drawing inspiration from the proposed sequence-residual prompting, we could let LLaMA provide the description of the oracle item generated by DreamRec, thus directly acquiring the recommendation results._
2) Construct Sequence-Residual task with oracle item*
Sequence residual prompting의 input으로 기존 sequence와 DreamRec으로 생성한 아이템이 포함된 seqeuence 동시 입력 DreamRec의 sequential encoder와 linear projection adapter에 적용시킴
3) Training and Inference*
Training 시, 기존과 동일한 sequence residual prompting framework 사용
Inference 시, 앞서 설명한 방법으로 oracle item의 text description 획득 (→ DreamRec은 불가능한 부분이었음)

4. Experiment

1) Experimental Settings

LLM의 tuning → 매우 time-consuming 따라서 ML100K와 STEAM dataset을 활용
Rec backbone → GRU4Rec, Caser, SASRec, DreamRec 사용

2) Sequence - Recovery Result

Pop 알고리즘 가장 인기 있는 10개 영화 게임 추천
복원된 아이템의 수 의미
결과
- 추천 성능 → DreamRec이 MovieLens와 Steam 데이터셋에서 다른 알고리즘 대비 4개 이상의 아이템 복원한 비율 매우 우수
- Caser(컨볼루션AI 시퀀셜 임베딩 추천) 와 SASRec도 꽤 많은 아이템 복원 가능
- LLaMa, MovieLens가 Steam에 비해 더 나은 복원력 보이는 데 → Steam dataset의 게임 description이 더 복잡하고 noisy하기 때문
Sequence-Residual Result*
LLaMa → DreamRec과 가장 좋은 interaction 보인다 !!
MovieLens가 Steam보다 더 나은 성능 보임, + 다른 모델 대비 DreamRec 사용 시 Steam에서도 준수한 성능 보임
Instantiate Oracle items*
DreamRec을 통해 inference를 통해 추천 결과를 instantiate할 수 있다 !!
다만 DreamRec 의 에시와 비슷하게, candidate를 벗어나는 instance가 실험으로 다수 발견
즉, 우리가 알고있던 평가 metric Hitrate, NDCG가 아닌 gpt를 통해 evaluation 진행
위 프롬프트를 통해 ChatGPT가 추천된 항목 중에서 사용자가 선호할 가능성이 높은 영화를 선택하도록 평가.
RecInterpreter의 역할로써 DreamRec의 오라클 아이템을 텍스트로 구체화하여 추천의 이해와 해석을 돕고, 사용자가 명확하게 이해할 수 있는 추천 결과를 제공

5.Conclusion and Limitation

Conclusion

RecInterpreter 제안
- 대규모 언어 모델(LLM)이 기존의 시퀀스 추천 시스템의 숨겨진 표현을 이해할 수 있도록 돕는 프레임워크
- 멀티모달 언어 모델에서 motivation,
  - 이미지, 오디오 인코더와 같은 모달리티별 인코더의 숨겨진 표현을 LLM이 간단한 projeciton을 통해 인식 가능
- 생성적 추천 완성
  - 생성적 추천 시스템에서 RecInterpreter는 생성된 항목을 텍스트로 구체화하여 명확하게 해석하고 설명할 수 있는 새로운 방법
미래 연구 가능성
- RecInterpreter를 이용해서 sequence recovery, sequence residual prompt 외에 새로운 프롬프트 framework 설계함으로써 latent space를 더 잘 이해할 수 있게끔 가능
- 협업 필터링 모델, 대화형 추천시스템 (CRS)와 같은 다른 추천시스템 이해하는 데 LLM 활용하는 것 유망할 수 있다.

Limitation

단순한 projection - linear layer 사용
1. 더 복잡한 adapter 필요한 경우 한계점
dataset 크기
1. 더 큰 dataset과 충분한 computing 자원을 통해 RecInterpreter 성능 높일 수 있음

이렇게 LLM을 활용해서 sequence recsys의 latent space상에서 어떻게 해석될 수 있는지에 대해서 살펴보았다. 추천시스템을 적용시키고 유저에게 제공해주기 위해서는 이에 알맞는 설명력을 갖추는 것이 필연적인데, LLM을 활용해서 이런 설명력들을 보완하는 여러 연구들이 현재 다양하게 진행되고 있다. 따라서 이와 관련된 내용들이 궁금한 사람들은 추가적으로 LLM + Rec에 대해서 더 찾아봐도 좋을 것 같다.

RecGURU: Adversarial Learning of Generalized User Representations for Cross-Domain Recommendation (2021.11)

Fri, 16 Aug 2024 07:43:41 GMT

Cross-Domain 추천시스템에서 Adversarial learning을 적용시켜 user의 representation을 일반화시키는 RecGURU 모델 논문을 소개하고자 한다. 출처 : https://arxiv.org/abs/2111.10093

먼저 핵심만 가지고 전체적인 흐름을 소개하고 세부적인 내용을 살펴보자. 간단하게 살펴보고 싶은 사람은 핵심정리 내용만 봐도 무방하다.

핵심정리

1. data sparse problem 해결 _ → original SeqRec에서 사용자 행동 데이터 부족한 경우 많음 _2. Generalized User Representations 생성 -> 여러 도메인에서 사용자의 정보를 통합하여 일반화된 사용자 범용 표현 만듦

Generalized User Representation Unit (GURU)

Self Attention AutoEncoder

-> user의 latent representation 파악하기 위해 사용 이 때 소스 도메인과 타겟 도메인 모두 작동 2. domain discriminator -> 생성된 user representation의 출처 도메인을 예측

Adversarial Learning
- Generator : 인코더 부분이 사용자 표현 생성
- Discriminator : 생성된 표현의 출처 도메인을 식별 목표 : 인코더와 식별자 번갈아가면서 학습, 식별자는 도메인 구분할 수 없을 때까지 학습

세부 내용

1. Abstract

RecGURU 모델 프레임워크 공개한 논문
RecGURU는 data sparse을 해결하기 위한 Cross-Domain Recommendation에서 사용자의 정보를 통합하여 일반화된 사용자 표현(GUR)을 생성한다.
이 모델은 두개의 모듈
- autoencoder
- domain discriminator
- 서로 다른 도메인에서 생성된 사용자 임베딩을 하나의 글로벌 GUR로 통합
실험 결과에서 RecGURU는 기존의 sequencial 및 Cross-Domain 추천 방법들보다 우수한 성능을 보임.
논문에서는 두 개의 공개 cross-domain dataset과 실세계 애플리케이션으로부터 수집된 대규모 데이터셋에서 실험 결과를 제시 (Experiments에서 자세히 살펴보자)

2. Introduction

SeqRec
- 사용자들의 최근 행동과 장기적인 행동 이력 활용 -> 온라인 사용자의 선호도와 의도를 모델링하는 데에 사용
- RNNs와 Attention Machanism 활용
Cross-Domain Rec
- data sparse 해결
- transfer learning : 한 도메인에서 다른 도메인으로 사용표현을 매핑하는 방식을 사용함
- 그러나 대부분의 기존 방법은 각 도메인에서 겹치는 사용자 데이터를 기반으로 transfer 수행, 겹치는 사용자가 거의 없거나 아예 없을 때는 수행 x -> 이는 실제 응용에서 종종 충분한 수의 겹치는 user 수를 확보하는 데에 어려움을 갖고 있음
RecGURU 설명
- 구성
  - GURU(G) 모듈 : 일반화된 사용자 표현 (GUR) 생성
  - CDSRec(C) 모듈 : GUR을 활용해 도메인 간 협력 시퀀셜 추천 수행
- 모듈
  - AutoEncoder :각 도메인에서 유익한 user 임베딩 생성
    - self-attention encoder : 소스 및 타겟 도메인의 행동 시퀀스를 재구성하는 두 개의 decoder와 모델 가중치 공유
    - 학습 : 행동 시퀀스 reconstruct을 통해 초기 임베딩 생성
  - Adversarial Learning :
    - encoder(generator) : 사용자 임베딩 생성
    - Discriminator : 생성된 임베딩의 출처 도메인 식별
    - 학습 과정 : 판별자가 도메인을 구분하지 못할 때까지 인코더와 판별자를 번갈아 가면서 학습
    - 결과 : 두 도메인의 사용자 임베딩이 통계적으로 구별 x
핵심 기여
- 도메인 간 협력 없이 단일 GUR로 사용자 표현 통합
- 겹치는 사용자가 없을 때도 효과적
- 아마존 데이터셋과 실제 데이터셋(Wesee와 Tencent Video)을 통해 성능 입증

3. Method

3-1 loss 설명

BPR(Bayesian PErsonalized Ranking) loss 함수를 변형시킴
간단하게 설명하면, 긍정 샘플과 부정 샘플을 구별하여 긍정적인 상호작용의 확률을 최대화하고 부정적 상호작용의 확률을 최소화하는 것을 목표로 함.
궁극적으로 사용자가 좋아하는 아이템이 그렇지 않은 아이템보다 높은 순위에 오르게 끔 함.
최종 손실 함수는 총 3가지 손실함수로 이뤄져 있음.

reconstruction loss : 주로 오토인코더나 생성 모델에서 사용되며, 원본 데이터를 재구성했을 때의 차이를 측정
discriminative loss : 이 항목은 분류 성능을 향상시키기 위해 사용될 수 있으며, 모델이 서로 다른 클래스 또는 데이터 포인트 간의 차이를 잘 구별할 수 있도록 유도, 이 손실은 보통 낮아야 하므로, 총 손실에서 -함
l2 정규화 loss : 이는 모델 파라미터에 대해 정규화를 적용하여 오버피팅을 방지하는 데 사용

3-2 모델 구조 설명
임베딩 (Embedding)
- Item & Position Embedding
  - 도메인 A와 B의 사용자 interaction sequence는 각각 항목과 위치 임베딩을 통해 임베딩
  - $e^{a}{i}, e^{b}{i}$
  - 이 임베딩은 항목의 정체성 $v^{a}{i}, v^{b}{i}$ 그리고 시퀀스 내 위치를 결합하여 상호작용 순서 포착
시퀀스 임베딩 (Sequence Embedding)
- 단기 시퀀스 임베딩 (short-term Sequene Embedding)
  - 두 도메인의 단기 행동 sequence는 시퀀스 임베딩을 통해 임베딩
GURU 인코더
- latent embedding - 잠재 임베딩
  - 이 단기 시퀀스 임베딩은 GURU 인코더에 입력되어 일반화된 latent user representation $h^{a}{i}, h^{b}{i}$ 생성
  - 인코더는 이 임베딩을 결합하여 long term sequence representation 형성
AutoEncoder 작업 학습
- Reconstructed Seqeunce
  - GURU 인코더의 출력 → 입력 시퀀스를 재구성하는데에 사용
    
    → 도메인별로 디코더(Decoder A와 Decoder B)를 통해 수형
CDSRec 모델
- 도메인별 다음 항목 추천 (Domain-Specific Next Item Recommendation)
- GURU 인코더에서 생성된 일반화된 사용자 표현(GUR)은 두 도메인의 CDSRec 모델에서 사용
- 각 CDSRec 모델은 주의 변환기 층(attention transformer layer)과 피드포워드 층(feed-forward layers)을 사용하여 시퀀스의 다음 항목을 예측
GUR (Generalizing User Representations)
- GURU 모듈
  - Domain Discriminator : 사용자 표현에 제약 적용 → 도메인 간 일반화 보장
  - 모든 사용자에 대한 제약 : 사용자 임베딩에 제약 적용 → 사용자가 도메인 A or 도메인 B에 속하는지 예측
  - 겹친 user에 대한 제약 : 두 도메인이 모두 있는 user에 대해서 두 도메인의 임베딩간 L2 거리 최소화하여 일관성 유지

4. Experiment

기본 알고리즘: POP, BPRMF, SAS, Bert4Rec
제안된 변형 방법들: AutoRec, AutoEM, RecGURU
성능 지표:
- HR@5 (Hit Ratio at 5): 추천된 상위 5개 항목 중 히트율
- HR@10 (Hit Ratio at 10): 추천된 상위 10개 항목 중 히트율
- NDCG@5 (Normalized Discounted Cumulative Gain at 5): 상위 5개 항목의 중요도 순서 고려한 지표
- NDCG@10 (Normalized Discounted Cumulative Gain at 10): 상위 10개 항목의 중요도 순서 고려한 지표

여기서, RecGURU가 대부분의 시나리오에서 최고 성능을 보이며, 특히 HR@10과 NDCG@10에서 큰 향상을 보이는 것을 알 수 있음

(a) 그래프:
- Discriminator Loss: 도메인 판별자의 손실
- Wasserstein Distance: 두 확률 분포 간의 거리, 초기에는 증가하다가 점차 감소하며 수렴
(b) 그래프:
- Recon Loss A/B: 소스와 타겟 도메인의 재구성 손실
- BPR Loss: 추천 작업의 BPR 손실
- 재구성 과제는 약 400회 반복 후 수렴, 추천 작업은 약 100회 반복 후 수렴

5. Conclusion

RecGURU : RecGURU는 일반화된 사용자 표현(GUR)을 기반으로 하는 새로운 형태의 크로스 도메인 순차 추천 프레임워크
기존 방식과의 차별점 소개
- 지식 전이: 기존 크로스 도메인 추천 시스템은 주로 도메인 간의 지식 전이에 중점을 두었으나, RecGURU는 조금 다른 접근을 사용
- GURU 모듈: RecGURU는 다양한 도메인에서 통합된 사용자 표현을 추출할 수 있는 GURU 모듈을 제안
세부 기술:
- autoencoder: 각 도메인에서 사용자 표현을 생성하기 위해 오토인코더가 사용
- 도메인 일반화: 도메인 간 일반화는 도메인 구별 가능한 임베딩을 통계적으로 구별할 수 없을 때까지 discriminator와 encoder를 대립적으로 학습
안정성 및 학습 효과:
- 다양한 안정화 및 학습 향상 기법들을 제안
실험 결과:
- 공개된 데이터셋과 자체 수집한 데이터셋에서 RecGURU의 효과와 성능 입증

IDGenRec: LLM-RecSys Alignment with Textual ID Learning(2024.03) - 논문리뷰

Wed, 31 Jul 2024 07:31:24 GMT

논문 링크 : https://arxiv.org/abs/2403.19021

jja_jja.log

[논문 리뷰] Accurate and energy efficient ad-hoc neural network for wafer map classification (Journal of Inteligent Manufacturing, 2025)

0. 들어가며

1. Abstract

Abstract를 한 문장으로 압축하면

2. Step 01 - Problem

2.1 범용 이미지 모델을 특수 제조 데이터에 그대로 적용한다

2.2 기존 연구는 정확도는 보고하지만 배포 비용은 충분히 측정하지 않는다

2.3 공개 데이터셋은 실제 생산 라인을 충분히 대표하지 못한다

3. Related Work: 경량화는 있었지만 전력 측정은 부족했다

4. Dataset: 실제 28 nm 공정의 58개 결함 클래스

4.1 STMicroelectronics 데이터

4.2 왜 224×224로 줄였는가?

Insight

5. Step 02 - Idea

6. Proposed Method: 목적형 CNN을 어떻게 설계했는가?

6.1 AlexNet에서 가져온 것: 큰 receptive field의 초기 특징 추출

6.2 GoogLeNet에서 가져온 것: Inception block

6.3 경험적 architecture search

6.4 최종 네트워크 구조

7. Step 03 - Challenge

Challenge 1. 58개 클래스를 균형 있게 구성해야 한다

Challenge 2. 정확도와 모델 크기 사이의 비선형 trade-off

Challenge 3. 양자화 후 정확도를 유지해야 한다

Challenge 4. 하드웨어별 최적 실행 방식이 다르다

Challenge 5. 제조 현장의 real-time 요구를 정확히 정의해야 한다

8. Quantization: FP32 모델을 INT8로 바꾸기

8.1 왜 INT8인가?

8.2 PTQ와 QAT

주의할 해석

9. Experimental Design

9.1 STMicroelectronics 데이터 분할

9.2 K-fold 평가

9.3 WM-811K 외부 평가

10. Accuracy Results

10.1 ST 데이터 성능

데이터 품질에 대한 중요한 교훈

11. Hardware Evaluation: 정말 edge에서 돌아가는가?

11.1 평가 하드웨어

11.2 Batch size 1의 처리량과 latency

11.3 Batch inference와 전력

12. Power Efficiency: 낮은 전력과 높은 에너지 효율은 다르다

13. Step 04 - Contribution

13.1 방법론적 기여

13.2 실험적 기여

13.3 시스템·산업적 기여

14. Step 05 - Pros & Cons

Pros

1. 모델이 아니라 전체 배포 시스템을 평가한다

2. 현장 요구를 과도하게 설정하지 않는다

3. 실제 제조 데이터의 클래스 복잡도가 높다

4. 데이터 품질 문제까지 분석한다

5. 공개 데이터로 추가 검증한다

6. 재현 가능한 배포 도구를 사용한다

Cons

1. private dataset이라 완전한 재현이 어렵다

2. 데이터 누설 가능성을 배제하기 어렵다

3. 99.9% 성능이 실제 원본 데이터의 일반화와 동일하지 않을 수 있다

4. Quantization loss가 작지만 무시할 수준은 아니다

5. 비교의 공정성이 제한적이다

6. Architecture search가 경험적이다

7. Static closed-set classification에 머문다

8. 실제 장기 에너지 사용량은 측정하지 않았다

9. 비용·열·신뢰성 지표가 빠져 있다

15. Step 06 - Takeaway

15.1 입력 해상도 또는 시계열 window도 최적화 변수다

15.2 Domain-specific inductive bias를 남긴다

15.3 Accuracy와 efficiency를 Pareto frontier로 본다

15.4 생산 속도와 추론 속도를 연결한다

16. Step 07 - Limitation

16.1 저자가 제시한 future work

16.2 추가로 가능한 후속 연구

A. Lot·시간·장비 단위 external validation

B. Synthetic-to-real 분리 평가

C. 최신 경량 모델과 공정한 비교

D. Quantization sensitivity analysis

E. Open-set/continual learning 결합

F. 실제 workload 기반 에너지 평가

G. Cost-sensitive metric

17. 논문을 읽고 얻은 Insight