Devbottle.log

[논문리뷰] Anomaly Detection via Reverse Distillation from One-Class Embedding

Tue, 03 Dec 2024 07:37:44 GMT

H. Deng and X. Li, "Anomaly Detection via Reverse Distillation from One-Class Embedding," arXiv preprint arXiv:2201.10703, 2022. [Online]. Available: https://arxiv.org/abs/2201.10703 (2022 CVPR)

INTRODUCTION

Unsupervised Anomaly Detection(UAD)에서 Knowledge Distillation(KD)은 Teacher-Student 모델을 활용하는 접근 방식이다. 이 기법은 사전 학습된 Teacher 모델의 지식을 Student 모델로 전이(transfer)하는 데 초점을 맞춘다.

UAD 관점에서 일반적인 Teacher-Student(T-S) 모델 전략은 다음과 같다: 학습 과정에서는 Normal 데이터만 제공하고, 추론 과정에서는 Anomalous 샘플이 입력되었을 때 Teacher와 Student 모델에서 생성한 Representation의 차이를 계산한다. 이는 Teacher 모델이 Anomalous 샘플에 대한 Representation을 생성할 수 있지만, Student 모델은 그렇지 못하다는 점에서 착안한 방법이다.

하지만 기존의 t-s model method는 다음과 같은 한계점을 가지고 있다.

Teacher와 Student 모델의 아키텍처가 동일한 경우, 샘플을 처리하는 논리 또한 동일하기 때문에 Anomaly를 발견하기 어려울 수 있다.
Data Flow가 Teacher와 Student 모델에서 동일하게 구성되므로 차별화된 표현이 어렵다.

이러한 문제점을 해결하기 위해서 본 논문은 Reverse Distillation이라는 knowledge distillation에 대한 새로운 paradigm을 제시하고 있다.

구체적으로, Teacher Encoder와 Student Decoder를 결합하여 Heterogeneous 아키텍처를 구성한다. 이 구조에서 Student 모델은 Low-Dimensional Embedding을 입력받아 Teacher 모델의 Representation을 예측하도록 설계되었다. Regression Task 관점에서 이는 Low-Level Embedding 입력값을 통해 Teacher Representation을 재현하는 행위로 볼 수 있다.

reverse structures는 다음과 같은 장점을 가지고 있다.

동일한 아키텍쳐를 가지지 않는 대칭성을 가지고 있다. teacher model을 down-sampling filter으로, student model을 up-sampling filter으로 삼고 있다.
Compact한 Embedding Vector를 생성하여 Normal 패턴을 복원한다. 이를 통해 Anomalous 요소를 제거하고 Reconstruction된 Representation이 Teacher 모델과 구별되도록 한다.
Autoencoder 기반 방법이 Pixel 단위 계산으로 높은 연산 비용을 요구하는 반면, Reverse Distillation은 Dense Feature 수준에서 Region 단위로 계산하여 효율성을 높인다.

Reverse Distillation의 효과를 극대화하기 위해, 논문에서는 One-Class Bottleneck Embedding(OCBE)을 제안한다. OCBE는 Multi-Scale Feature Fusion(MFF) 블록과 One-Class Embedding(OCE) 블록으로 구성되며 Student Decoder와 함께 학습 가능한 구조이다. 이를 통해 High-Level Feature와 Low-Level Feature를 결합하여 풍부한 Normal 패턴 정보를 포함한 Embedding을 생성한다.

METHOD

Reverse Distillation

WideResNet을 backbone으로 설정하여 Teacher encoder $D$와 Student decoder $E$는 서로 symmetric이면서 reverse한 구조를 가진다.

다운샘플링은 Convolutional layer를 사용해 kernel size를 1, stride를 2로 설정하여 구현하며, 업샘플링은 Deconvolutional layer를 사용해 kernel size를 2, stride를 2로 설정하여 구현한다.

Encoder의 feature를 decoder에서 효과적으로 학습하도록 하기 위해 multi-scale feature-based distillation을 적용한다. Neural network의 shallow layer는 color, edge, texture와 같은 low-level 정보를 담고 있으며, deep layer는 local/global semanic, structural 정보를 포함하고 있다. Teacher-Student(T-S) 모델에서 low-level 및 high-level feature 간 유사성이 낮다면, 이는 local abnormality와 지역적/전역적 구조적 이상(outlier)이 존재함을 나타낸다.

주어진 문장의 내용은 Teacher-Student(T-S) 모델에서 지식 전이를 수행 방법을 수학적으로 정의해보자면 다음과 같다:

$\phi$ : 입력 데이터 $I$를 one-class bottleneck embedding 공간으로 투영하는 함수.
Teacher와 Student 모델의 k번째 계층에서 활성화(activation) 텐서를 매칭하는 방식으로 지식 전이를 수행.
- Teacher 모델의 $k$ 번째 계층 활성화: $f^k_E$
- Student 모델의 $k$ 번째 계층 활성화: $f^k_D$
- $f^k_E, f^k_D \in \mathbb{R}^{C_k \times H_k \times W_k}$
  - ( $C_k$ ): 채널 수
  - ( $H_k$ ): 높이 (Height)
  - ( $W_k$ ): 너비 (Width)
( h, w ) 위치에서의 Cosine Similarity: $$$ \text{Cosine Similarity} = \frac{\left(f^k_E(h, w)\right)^T \cdot f^k_D(h, w)}{|f^k_E(h, w)| |f^k_D(h, w)|} $$$

Anomaly Map $(M^k)$:
- Teacher와 Student의 벡터 간 유사성을 기반으로 ( k )번째 계층에서의 이상 탐지 맵을 생성.

$$$ M^k(h, w) = 1 - \frac{\left(f^k_E(h, w)\right)^T \cdot f^k_D(h, w)}{|f^k_E(h, w)| |f^k_D(h, w)|} $$$

multi-scale knowledge distillation을 고려할 때, multi-scale anomaly map을 축적하여 student의 loss function을 얻도록 한다. $$$ \mathcal{L}{KD} = \sum{k=1}^{K} \left{ \frac{1}{H_k W_k} \sum_{h=1}^{H_k} \sum_{w=1}^{W_k} M^k(h, w) \right} $$$

One-Class Bottleneck Embedding

Encoder의 마지막 embedding block에서 출력된 벡터를 바로 Decoder의 입력 벡터로 사용할 경우 다음과 같은 문제가 발생한다.

Teacher 모델의 고차원 표현은 풍부한 정보를 포함하지만, redundancy와 high freedom으로 인해 Student 모델이 anomaly-free feature를 정확히 학습하지 못하게 만든다. 이러한 문제는 Student 모델이 필요하지 않은 anomaly-related feature까지 학습하게 하여, Knowledge Distillation의 효과를 저하시킬 수 있다.
마지막 layer에서 출력된 embedding 벡터는 high-level information을 포함하고 있기 때문에, Decoder가 이를 기반으로 low-level information(예: color, edge, texture)을 추정하는 것이 어렵다.

논문에서는 이러한 문제를 해결하기 위해 학습 가능한 One-Class Embedding Block(OCBE)을 도입하여 Teacher 모델의 high-dimensional representation을 low-dimensional space로 투영하도록 한다. 이와 함께, low- 및 high-level feature를 MFF(Multi-scale Feature Fusion) block에서 concatenation하여 high-dimensional representation을 생성하도록 설계한다.

One-Class Embedding을 위해 다음과 같은 구조를 제안한다:

하나 이상의 $(3 \times 3)$ Convolutional Layer(stride = 2)와 $(1 \times 1)$ Convolutional Layer(stride = 1)를 포함하여 down-sampling을 구현.
각 Layer를 통과할 때 ReLU Activation Function을 적용하며, $(1 \times 1)$ Convolutional Layer에는 추가로 Batch Normalization을 적용.

OCBE를 통해 얻을 수 있는 주요 이점은 다음과 같다:

High- 및 low-level feature 정보를 포함하면서도 compact한 표현이 가능하다.
Student 모델이 샘플의 정상 패턴(normal pattern)을 효과적으로 학습할 수 있다. 즉, Teacher 모델에서 추출한 feature를 정확히 추정할 수 있다.

Anomaly Scoring

실제 추론 과정에서 teacher model은 anomality에 대한 feature를 원활하게 추출해준다. 하지만, student model은 anomaly-free representation을 생성하도록 학습했기 때문에 teacher model과 다른 형태가 될 것이다.

T-S representation pair로부터 얻은 anomaly map $(M^k)$의 집합을 얻을 수 있다. 여기서 map안의 크기들은 k번째 feature 텐서의 point-wise anomaly를 의미한다.

query image에서 anomality를 localize할려면, $M^k$을 image size에 맞춰서 up-sampling이 진행되어야 한다. $\Psi$ 를 bilinear up-sampling operation으로 정의한다면, 모든 anomaly map들에 대한 pixel-wise accumulation $S_I{^q}$는 다음과 같이 표현된다.

$$$ S_{AL} = \sum_{i=1}^{L} \Psi(M^i). $$$

up-sampling된 score map의 noise를 제거하기 위해 Gaussian filter를 적용한다.

$S_{AL}$에 모든 value를 평균값을 취하면 anomalous region의 value들은 score map에 대한 response가 가장 높다는 것을 확인할 수 있다. 따라서 $S_{AL}$에 최댓값을 sample-level anomaly score $S_{AD}$로 정의한다.

EXPRIMENTS

$256\times 256$의 anomality dataset에 대한 실험 결과를 TOP-2 AUROC(%)로 나타낸 것이다. Reverse Distillation method가 모든 threshold에서 높은 binary classification performance를 보여준다.

anomaly localization에 대한 정량적 평가는 위와 같다. AUROC와 PRO average score 두 가지 평가 지표를 사용한 것으로 보인다.

PRO score: anomaly regions과 예측된 이상 영역 간의 영역 기반 비교를 수행.

픽셀 단위가 아니라, 이상이 존재하는 특정 region의 크기와 위치가 얼마나 잘 예측되었는지를 평가.
실제 이상 영역 $(R_\text{GT})$과 예측 영역$(R_\text{pred})$의 Intersection over Union (IoU) 계산.

AUROC는 픽셀 단위로 one-classification performance를 평가, 큰 anomality에 편향될 위험 존재. PRO score는 IoU를 통해, localize performance 평가

AUROC - pixel 단위로 평가한 결과, 전반적으로 매우 좋은 성능을 냄을 확인 PRO score - transistor dataset에서 localization performance는 매우 poor함을 확인

공간적으로 크게 틀어지는 경우에 detection이 힘든 것을 확인

student model에 들어오는 sample은 anomality이기 때문에 detection은 되지만, localization이 안되는 것을 확인
higher-level layer의 feature를 MFF에 넣을 때 더 높은 AUROC를 달성
128 $\times$ 128 으로 resizing 시킨다면 resolution이 감소하여 높은 AUROC를 달성

cs231n 5강

Tue, 14 May 2024 07:50:48 GMT

Convolutional Neural Networks

Fully Connected Layer

다층으로 구성된 퍼셉트론을 주로 Fully connected layer라고 부른다.

3차원 이미지를 1차원 벡터로 늘려뜨려 내적 연산을 통해 10 class로 이뤄진 activation layer에 출력한다.

Convolution Layer

Convoluation layer는 기존의 이미지 차원을 보존하면서 filter와의 공간적 내적 (spatial convolution)을 통해 계산한다.

입력 이미지와 filter를 convolve하면 1개의 숫자가 나온다.

즉, filter와 입력 차원의 일부 (filter의 크기)를 내적하여 1개의 숫자가 나오게 된다.
1개의 숫자가 나오는 식은 $w^Tx+b$이다. 여기서 $w^Tx$는 553=75이고, b는 bias이다.

만약 filter가 10번 슬라이딩(convolve)하면 10개의 숫자가 나온다.

여기서 계산 형태가 유사함을 빌미로 Convolution이라고 지칭한거지, 실제 Convolution의 정의와는 약간의 차이가 있다.

슬라이딩을 통해서 $28\times28$ 크기의 activation map이 만들어진다. 하지만 공간적인 특징을 더 다채롭게 추출하기 위해서는 가중치가 서로 다른 $5\times{5}\times3$ 필터를 추가로 슬라이딩 해줘야한다.

이렇게 $5\times{5}\times3$ 필터 6개를 사용한다면, 입력 이미지와의 내적 계산이 6번 반복되므로 activation map의 크기는 $28\times{28}\times{6}$ 이다.

$28\times{28}\times{6}$ 크기의 activation map은 다음 layer에서 입력 데이터로 취급하게 된다.

필터의 크기는 depth는 입력 데이터의 depth와 동일해야한다.
10개의 필터를 사용할 때, 필터의 크기는 $5\times5\times10$ 이다.

Convolution Layer가 깊어짐에 따라 입력 이미지의 어떠한 특징을 추출해주는지 잘 보여주는 그림이다.

초반 Layer (Low-level feature) : 객체의 color & edge들을 추출해준다.
중반 Layer (Mid-level feature) : 객체의 corner & blob들을 추출해준다.
후반 Layer (High-level feature) : 객체의 디테일한 구조적 특징들을 추출해준다.

이를 통해 CNN이 계층 구조를 가지는 뉴런과 유사하다는 것을 보여준다.

다음 그림은 CNN이 어떻게 구성되는 지 보여주고 있다.

Convolution layer에 activation function인 ReLU를 쌓고, activation map의 크기를 줄여주는 pooling layer를 쌓는 방식을 여러 번 진행한다.
마지막에 Fully connected layer를 쌓아 이미지의 클래스를 예측한다. (여기서 행(column)은 volume이고 열(row)은 activation map이다.)

filter가 어떻게 슬라이딩하는지에 따라서 출력 차원의 결과를 한 번 살펴보자

7x7 input assume 3x3 filter

filter가 입력 이미지를 어떻게 슬라이딩하는 지에 대한 예를 들어보자

입력 이미지의 크기 = 7x7, 필터의 크기 = 3x3, stride(보폭) = 1
이렇게 슬라이딩을 하게 된다면 출력 차원은 $5\times5$가 될 것이다.

7x7 input assume 3x3 filter applied with stride 2

이제부터는 filter가 2칸 씩 슬라이딩 하면서 내적 계산을 한

CNN에서 중요한 것은 공간적 복잡도와 시간적 복잡도를 낮추는 것이기 때문에 2칸 씩 슬라이딩 하는 것을 자주 이용한다고 한다.

7x7 input assume 3x3 filter applied with stride 3

filter가 3칸 씩 슬라이딩 한다면 전체 입력 이미지를 표현할 수 없기 때문에 적용할 수 없다.

결국 입력 차원과 filter 차원 그리고 stride에 따른 출력 차원의 크기는 다음과 같이 공식화할 수 있다.

practice1

1 pixel만큼 zero padding을 해주었기 때문에 입력 이미지의 크기는 $9\times9$이다.

$N=9, F=3, stride=1$일 때, 출력 차원의 크기는 $7\times7$이다.

practice2

filter의 depth 3이 생략되어 있는데 입력 이미지의 color (RGB)를 내적하는 것은 당연하기 때문이다.

모든 사이드에 2 pixel만큼 padding 시켜줬기 때문에 $36\times36\times3$이다. $F=5, stride=1$이므로, 출력 차원은 $32\times32$ 이고, 이러한 필터가 10개 있으므로, 최종적으로 $32\times32\times10$이 출력된다.

그럼 파라미터 개수는?

$5\times5\times3$ filter의 파라미터 개수는 다음과 같다. 하나의 filter에 대한 파리미터 개수는 76개 이다.

해당 Layer에서의 전체 파라미터는 $76\times10=760$개가 된다.

1x1 convolution layers

1x1xD filter의 convolution은 차원을 줄여주는 역할을 한다.

84x84x64의 입력 이미지를 D개의 1x1x64 필터로 convolve하면 출력 이미지의 크기는 84x84xD이 된다.
D개의 1x1x64 필터는 수학적으로 FC layer와 같다. 따라서 FC layer와 D개의 1x1x64 필터는 서로 대체할 수 있다.
다만 FC layer는 고정된 크기를 가지는 입력 이미지를 가지지만 convolution layer는 84x84과 비슷하거나 공간적으로 더 큰 입력 이미지를 받아들인다는 점이 다르다.

뇌/뉴런 관점에서 convolution layer

Convolution layer는 입력 이미지를 국소적으로 여러 번 바라보고, FC layer는 입력 이미지를 전체적으로 1번 보는 것과 같다.

Convolution layer는 입력 이미지를 필터와 convolution을 통해 activation map을 얻는다.
- 입력 이미지 일부분에서 feature을 추출하므로 전체 이미지에서는 여러 개의 특징을 추출한다. 따라서 이미지 확대, 축소, 이동해도 이미지의 특징을 잘 찾을 수 있다.
FC layer는 32x32x3의 이미지를 3072x1의 벡터로 만든 후, 가중치 W와 내적해 1개의 숫자를 추출한다.
- 이미지 전체 feature를 추출하므로 효과적이지 않다.

Pooling layer

Pooling layer는 representaions를 downsampling을 통해 공간 & 시간 복잡도를 낮추도록 한다.

주의할 점은 depth는 줄이지 못한다는 것이다. 또한, pooling할 때 padding하지는 않는다.

filter의 크기와 stride을 선택하여 입력 이미지를 downsampling하는 것을 Max Pooling이라고 한다.

filter 안에 존재하는 숫자 중 가장 큰 값을 선택하여 출력 데이터의 크기를 줄인다. 이 또한 test model의 성능을 높여주는 regularization 기법의 일종이다.

보통의 경우에 pooling을 위한 filter의 크기와 stride의 크기는 다음과 같이 설정한다.

[간단 리뷰] Emerging Properties in Self-Supervised Vision Transformers

Mon, 13 May 2024 09:33:13 GMT

Link : Emerging Properties in Self-Supervised Vision Transformers

Background

ViT

이미지를 여러 patch로 나누어 embedding 후, 각 패치를 하나의 token으로 생각하여 transformer 구조에 입력한다. $\rightarrow$ 이후 class token을 추가하여 학습 후, FC layer를 통해 class를 예측하도록 한다.
CNN의 inductive bias (translation invariance 및 locality 같은 가정)을 크게 줄여줘 모델의 자유도가 높다. 대신 학습에 다량의 데이터가 필요하다.

Knowledge Distillation (지식 증류)

teacher와 student 모델을 이용해 교사의 예측 분포를 학생 모델에 전이하는 방법론
Soft/Hard label을 기반으로 큰 모델이 갖는 일반화 능력을 작은 모델에 전이할 수 있다.

Soft labels : 교사 모델의 예측 분포 Hard label : 정답

Self-supervised model

정답이 없는 상황에서 데이터 자체가 갖고 있는 특성을 기반하여 레이블이 없이 학습하는 방법론
Unsueprvised learning의 한 방법론, downstream task를 잘 수행할 수 있도록 하는 representation을 얻기 위함 (Representation learning)

DINO 전체 모델

DINO 모델의 학습 과정을 보여주고 있다.

Fig1. Self-distillation with no labels

$x_1$ 와 $x_2$ 은 각각 Anchor data 그리고 positive or negative data이다.
오직 학생 모델에 대한 backpropagation을 진행하도록 한다.
학생 모델에서 하나의 epoch에 끝날 때, mini-batch를 통해 업데이트한 파라미터는 ema(exponential moving average)를 통해 교사 모델에 소폭 업데이트를 반영한다.

교사 모델은 학생 모델들의 앙상블과 동일한 효과이므로 항상 학생 모델에 비해 더욱 높은 성능을 보인다.

하나의 입력 이미지에서 큰 패치 (224 $\times$ 224)를 Global view, 작은 패치(96 $\times$ 96)를 Local view이라고 한다.
- 학생 모델 : 모든 패치를 입력으로 활용
- 교사 모델 : Global view 패치만 입력하여 학습
각 네트워크로부터 출력된 레이블 간의 Cross-entropy Loss를 활용해 학생 모델의 가중치($\theta_s$) 업데이트한다.

Dino 모델의 forward 구조

ViT를 encoder (backbone)으로 활용하는 경우에는 Batch Normalization을 사용하지 않는다

Collapse를 방지하기 위해 centering과 sharpening을 동시에 사용한다

complete collapse를 없애주기 위해서 교사 모델에 bias를 더해준다. 특정 dismension으로 collapse되는 것을 방지해 주지만 전체 dimension으로 uniform하게 collapse 된다.
Sharpening을 통해 특정 dimension의 값이 커지도록 조정하면 된다.

semantic한 부분에서 attentation이 잘 되는 것을 볼 수 있다.

Acknowledge

cs231n 4강

Fri, 10 May 2024 06:01:35 GMT

review...

지난 3강에서 우리는 3가지를 배웠다

score vector : classifier를 통과해 나온 class의 크기
Loss function : 바로 분류한 결과와 실제 값의 차이를 정량적으로 확인하는 function이다.
regularization : model의 overfitting을 막기 위한 규제 기법

세 가지 기술은 최적화 기법을 통해 모델의 파라미터 $W$를 최적화 시켜줄 수 있다. 그럴러면 $\nabla_WL$을 알아야 한다.

1. Backpropagation

지난 강의의 마지막 부분에서 gradient를 해석적으로 계산하는 것이 더욱 정확하고 빠른 방법임을 설명을 통해 들었다.

그럼 다음과 같은 의문이 들 것이다.

Neural Network의 미분 계산을 어떻게 해야하지?? 미분을 통해서 어떻게 가중치를 최적화시킨다는 말인가??

Computational graph

f라는 함수(computation)를 하나의 노드를 표현한 Computational graph를 통해 미분 계산과, 가중치 최적화를 보기 쉽게 표현할 수 있다.

노드의 입력 gradient를 Upstream gradient라고 하고, 노드의 local gradient에 의한 출력 gradient를 Downstream gradient라고 한다.

Downstream gradient는 chain rule에 의해서 Upstream gradient 정보를 가지게 된다.

위 사진에서 $x$에 대한 Downstream gradient는 이렇게 표현한다. $$ \frac{\partial{L}}{\partial{x}} = \frac{\partial{L}}{\partial{z}}\times\frac{\partial{z}}{\partial{x}}$$

Patterns in backward flow

Add gate : 입력식 그대로 출력하여 주는 방식이다. max gate : 비교되는 두 변수 중에서 max에 해당된 변수에 gradient 값을 통과시켜준다. mul gate : 두 변수값을 switch해준다.

Scalar operation

example 1

$$f(x,y,z)=(x+y)z $$

$x=-2, y=5, z=-4$라고 예시가 주어졌다고 하자

함수 $f$는 위의 그래프로 나타낼 수 있다.

이제부터 변수 $x,y,z$에 대한 gradient를 계산해야한다. 각각의 노드를 표현하게 된다면 다음과 같음 함수로 이뤄진다.

$$ f=qz \ q = x+y$$

각각의 backpropagation을 구하기 위해 chain rule를 적용하면 다음과 같이 계산된다.

example 2

$$ f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2x_2)}}$$

에 대한 backpropagation은? 먼저 computational graph로 표현해보자

$\sigma(x)=\frac{1}{1+e^{-x}}$는 sigmoid function으로써 classification에서 쓰이는 activation function 중에 하나이다.

** 여기서 sigmoid function에 대한 미분 계산을 사전에 정의해줄 수 있다면 계산 비용도 아낄 수 있지 않을까? **

$$ \frac{d\sigma(x)}{dx}=\frac{e^{-x}}{1+e^{-x}}=\Big(\frac{1+e^{-x}-1}{1+e^{-x}}\Big) \Big(\frac{1}{1+e^{-x}}\Big)=(1-\sigma(x))(\sigma(x)) $$

이렇게 sigmoid function을 하나의 big node로 볼 수 있다.

Vectorized operations

모든 Neural Network의 경우에는 벡터(행렬) 형식의 입력과 출력이 진행된다. 이러한 경우에서는 어떻게 backpropagation이 진행될 것인가?

$$ \begin{aligned} \frac{df}{dx_1} = [\frac{df}{dx_1},; 0, ; \dots, ; 0] \ \frac{df}{dx_2} = [0, ; \frac{df}{dx_2}, ; \dots, ; 0] \end{aligned} $$

$$ \vdots%% $$

$$ \begin{aligned} \frac{df}{dx_{4096}} = [0, ; \dots, ; \frac{df}{dx_{4096}}] \end{aligned} $$

$4096\times4096$ 크기의 Jacobian 행렬 계산을 해줘야한다.

사실 이 뿐만 아니라 병렬로 100개의 인풋을 받는다고 하면 input vector는 $100\times4096$이 될 것이고, Jacobian 행렬의 크기는 무려 $[409,600\times409,600]$가 될 것이다.

그러나 행렬식을 잘 보면 Jacobian 행렬은 대각행렬이므로 굳이 행렬 전체를 계산해줄 필요가 없고, 출력에 해당된 요소에만 backpropagation을 진행해주면 된다.

$$ \begin{aligned} q=W\cdot{x}=\begin{pmatrix} W_{1,1}x_1+ &\cdots &+W_{1,n}x_n \ & \vdots \ W_{n,1}x_1+ &\cdots &+W_{n,n}x_n \end{pmatrix} \space\space \end{aligned} \ f(q)=\lVert{q}\rVert^2=q^2_1+\cdots+q^2_n \space\space $$

요소 별($W, x$) gradient는 다음과 같이 표현된다. $$\begin{aligned} \frac{\partial{L}}{\partial{x}}=\frac{\partial{L}}{\partial{q}}\times \frac{\partial{q}}{\partial{x}} \end{aligned} \ \begin{aligned} \frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{q}}\times \frac{\partial{q}}{\partial{W}} \end{aligned}$$

$\frac{\partial{L}}{\partial{q}}$은 gradient를 구하면 되는데, $\frac{\partial{q}}{\partial{x}} & \frac{\partial{q}}{\partial{W}}$는 어떻게 계산해야할까?

행렬의 미분 (from data science school)
$$\begin{aligned} q=W\cdot{x}=\begin{pmatrix} W_{1,1}x_1+ & W_{1,2}x_2+ & \cdots &+W_{1,n}x_n \ W_{2,1}x_1+ & W_{2,2}x_2+ & \cdots &+W_{2,n}x_n \ & & \vdots & \ W_{n,1}x_1+ & W_{n,2}x_2+ & \cdots &+W_{n,n}x_n \end{pmatrix} \end{aligned} \ f(q)=\lVert{q}\rVert^2=q^2_1+\cdots+q^2_n$$ 일 때, 행렬 $W$와 $x$에 대한 미분 결과는 다음과 같다.
1. $\frac{\partial{q}}{\partial{x}}$ 에 대한 미분
$$ \frac{\partial{q}}{\partial{x}}= \begin{aligned} \begin{pmatrix} \frac{\partial{q}}{\partial{x_1}}\ \frac{\partial{q}}{\partial{x_2}}\ \vdots\ \frac{\partial{q}}{\partial{x_n}} \end{pmatrix} \end{aligned} =\begin{pmatrix} W_{1,1} & W_{2,1} & \cdots & W_{n,1} \ W_{1,2} & W_{2,2} & \cdots & W_{n,2} \ & & \vdots & \ W_{1,n} & W_{2,n} & \cdots &W_{n,n} \end{pmatrix} \= W^T$$
2. $\frac{\partial{q}}{\partial{W}}$ 에 대한 미분
$$ \frac{\partial{q}}{\partial{W}}= \begin{aligned} \begin{pmatrix} \frac{\partial{q}}{\partial{W_{1,1}}} & \frac{\partial{q}}{\partial{W_{1,2}}} & \cdots & \frac{\partial{q}}{\partial{W_{1,n}}}\ \frac{\partial{q}}{\partial{W_{2,1}}} & \frac{\partial{q}}{\partial{W_{2,2}}} & \cdots & \frac{\partial{q}}{\partial{W_{2,n}}}\ & & \vdots\ \frac{\partial{q}}{\partial{W_{n,1}}} & \frac{\partial{q}}{\partial{W_{n,2}}} & \cdots & \frac{\partial{q}}{\partial{W_{n,n}}}\ \end{pmatrix} \end{aligned} = \begin{aligned} \begin{pmatrix} x_1 & x_2 & \cdots & x_n \ x_1 & x_2 & \cdots & x_n \ & & \vdots \ x_1 & x_2 & \cdots & x_n \ \end{pmatrix} \end{aligned} = \begin{pmatrix} x_1 & x_2 & \cdots & x_n \end{pmatrix} = x^T$$

행렬 미분의 법칙을 알기만 한다면 다음과 같이 계산이 가능하다

$$\begin{aligned} \frac{\partial{L}}{\partial{x}}=\frac{\partial{L}}{\partial{q}}\times \frac{\partial{q}}{\partial{x}} = \frac{\partial{L}}{\partial{q}}\space{W^T} \end{aligned} \ \begin{aligned} \frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{q}}\times \frac{\partial{q}}{\partial{W}} = x^T\space{\frac{\partial{L}}{\partial{q}}} \end{aligned}$$

Conclusion

이번 챕터는 수학적인 내용이 매우 많이 나왔다.

그러나 차근차근 되짚어 본다면 또 어려운 내용이 아니므로 걱정은 하지 않도록한다! (나에게 하는 말이다)!

[간단 리뷰] SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields

Wed, 08 May 2024 08:19:30 GMT

NeRF...?

NeRF는 Multi-view image와 해당 카메라의 방향 및 공간 좌표 정보만으로 3D 장면을 암묵적으로 표현하는 방식이다.

실제 데이터가 3D mesh data가 아니고 기하적 구조를 띄우지 않지만 MLP의 가중치에 내제되어 있다는 점에서 '암묵적'이란 표현을 쓴다

inpainting 3D scene은 장면에서 보이는 임의의 object를 제거하고 누락된 pixel를 예측하여 복원해주는 기술이다.

(NeRF를 이용하여 2D 이미지를 3D로 변환한 결과물)

기존 NeRF기술들의 문제점

NeRF는 3D-mesh와 같이 명확한 형태로 나타나 있지 않고, Network의 weigh에 내제되어 있어 조작이 쉽지 않다.
inpainting된 3D 장면은 단일 시점에서만 아니라 다른 여러 시점에서도 모형과 기하적으로 그럴듯하게 보여야한다.
전문가가 annotation을 지정하기 위해선 3D보단 2D에서 더 많은 직관을 얻을 수 있다. 그러나 다양한 시점에서 object에 대한 annotation을 전부 지정하는 것은 어렵다.

저자는 단일 시점에서 최소한의 annotation만으로도 여러 시점에서 일관된 3D-segmentation mask를 얻을 수 있다고 주장한다.

최소한의 annotation만으로도 일관된 3D-segmentation mask를 얻을 수 있을려면?

전문가가 object 위에 annotation을 지정하면, video-based model(vision-transformer)로 초기 mask를 생성한다.

전문가가 object에 대한 annotation를 지정하면 알아서 Segmentation mask를 만들어주는 것을 interactive segmentation라고 한다. ** Positive click : 관심 object에 해당된 point Negative click : 관심 object가 아닌 point**

mask를 semantic NeRF에 fitting하여 여러 시점에서도 일관된 semantic segmentaiton mask을 3D로 랜더링한다.
multi-view image set에 pre-trained 2D inpainter를 적용하여 2D inpainting image를 생성한다.
customized NeRF fitting process

2D inpainting image
mask 영역의 기하학적 구조를 정규화하기 위한 inpainting depth image

두 가지 요소를 perceptual loss(지각 손실)을 통해 3D inpainting scene을 재구성한다.

연구 동향 파악 중간 점검

Labeling Problem
- 현재 방대한 양의 image dataset을 labeling 시키는 것은 불가능하다고 함
- pre-trained model에 대한 연구가 활발한 만큼, self-supervised learning에 대한 중요도가 높은 것 같음
Multi-modal
- vision-text modality: pre-trained model을 어떻게 fine-tuning을 할 것인가?에 대한 주제
- Lidar-camera modality:
NeRF
- 좀 더 진행해봐야 알 듯!

[간단 리뷰] Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic

Tue, 07 May 2024 10:47:35 GMT

Semi-supervised Semantic segmentation(SSS)의 일반화 성능 향상을 위한 random intensity based Data augmentation

computer vision을 위한 dataset에서 일일히 labeling시키는 것은 cost가 매우 나가는 문제가 발생한다.

따라서 최근에 object classification/detection 및 segmentation같은 downstream task을 위해 semi-supervised learning 혹은 unsupervised learning에 대한 연구가 많이 진행되고 있다.

해당 논문은 semi-supervised learning에서 data augmentation을 다룸으로써 일반화 성능을 높히는 논문을 제시하고 있다.

Semi-supervised learning은 다음과 같은 가정을 따른다.

Smoothing assumption : 인접한 data point들은 그 출력 값 또한 인접할 것
Cluster assumption : Data point들이 같은 cluster에 있다면 같은 class에 속할 것 이로 인해 약간의 data perturbation이 일어나도 일관성이 존잰
Manifold assumption : 고차원의 data point는 저차원의 manifold으로 표현가능

SSS에서 Data augmentation problem

기존 SSS data augmentation의 경우, auto-augmentation technique을 사용하는데, 다음과 같은 문제가 발생하게 된다.

SSS에서 data augmentation의 경우 *하나의 image에 대해서 서로 다른 view를 제공해주는 것이 목적이므로 * auto-augmentation이 합리적인 technique이 아님을 지적
기존 Copy-Paste 방식은 unlabeled sample간의 혼합에 의존하는데, 이는 pesudo label에 과도하게 의존하여 confirmation bias를 유발할 수 있다

(auto-augmentation 및 RandomAug은 마지막 장 Appendix에 설명해주겠다)

How to slove it? (AugSeg)

random intensity-based augmentation ($A_r(.)$)

discrete space 대신 continuous space상에서 intensity를 균일하게 샘플링한다.
augmentation pool의 크기를 고정하지 않고 random하게 하여 data diversity를 높인다.
제시한 augmentation pool에서 invert같은 strong intensity-based augmentation은 제거하고 RandomAug와 같이 pool을 단순화시킨다.

이렇게 함으로써 data distribution distort는 최소화하면서도 Semi-supervised learning에 적합한 augmentation을 수행할 수 있게 된다.

Adaptive CutMix-based augmentation ($A_\alpha(.)$)

모델의 현재 예측에 대한 신뢰도 점수 $\rho_i$를 계산하여, 이를 unlabeled-labeled 혼합 여부를 결정하는 triggering probability로 사용한다.

최종적으로 이렇게 생성된 혼합 후보들과 원래 unlabeled 데이터를 추가로 혼합하여 augmented data를 생성한다.

Appendix

Auto augmentation

Downstream task에 맞는 최적의 augmentation 전략을 찾는 기법이다. $\rightarrow$ 특정 dataset에 대한 augmentation 전략이 맞더라도 다른 dataset으로 전이하는 경우 일반화 능력이 떨어질 수 있기 때문이다.

RandomAug

기존의 Auto augmentation 기법들은 대상 작업에 최적화된 증강 전략을 찾기 위해 복잡한 탐색 과정을 거치는 반면, RandomAug는 이를 단순화하여 임의의 증강 기법들을 조합하는 방식을 취한다.

discrete space에서 증강 기법들의 조합을 샘플링한다. (각 조합은 하나 이상의 증강 기법으로 이루어진다.)
augmentation의 magnitude은 사전에 정의된 범위 내에서 랜덤하게 샘플링된다.
augmentation의 종류와 개수는 미리 정해진 집합(pool)에서 random하게 선택된다.
일반적으로 좀 더 약한 augmentation들이 더 자주 선택되도록 Weight를 부여한다.

[간단리뷰] MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

Tue, 07 May 2024 07:21:42 GMT

자율주행의 3D segmentation을 위해 두 modality인 camera와 Lidar를 융합한 논문이다

Camera: scence에 대한 풍부한 정보를 가지고 있지만, object의 크기가 다양할 때, segment 성능이 낮아지고 3D segmentation 적용이 쉽지 않다. Lidar: 3D semantic segmentation이 가능하지만, laser point들이 희소하기 때문에 object의 디테일이 떨어wu segmentation이 부정확하다는 문제가 있다.

Laser point가 희소한 이유? $\rightarrow$ 센서로부터 등방성으로 퍼져나가기 때문에 멀리 갈수록 point들이 희소함

최근 Computer-vision의 트렌드는 multi-modal인 만큼 두 센서를 융합하여 3D semantic segmentation의 정확성과 강인함을 높이겠다는 논문이다.

3D semantic segmentation의 문제점?

저자는 Multi-modal segmentation이 3가지 문제점을 가지고 있다고 한다.

1) Heterogeneity between modalities

Lidar의 3D point cloud와 Camera의 scence는 기본적으로 균일하지 않다. intra-modal feature extraction을 통해 이러한 비균일성을 해결할 수 있다고는 해도 joint optimization의 부족으로 인해 optimal한 feature가 나오지 않다.

2) Limited intersection on the field of view (FOV) between sensors.

두 sensor 간에 FOV의 최대 교집합이 제한되어 있다. 그림에서 볼 수 있듯이, camera의 FOV가 제한되어 있다. 제한된 상황에서 multi-modal data을 통한 segmentation 성능은 시원치는 않을 것이다.

data augmentaion 기법은 주로 2D domain에 대해서만 다루고 있다. point cloud를 projection해서 사용할 수 있다는 이야기인데... 이러면 point cloud에서 중요한 정보를 왜곡될 수 있다는 위험성이 있다. 한 마디로 3D point cloud에 대한 augmentation이 어렵다

How to slove it?

intra-modal (camera & Lidar)의 feature를 추출한 후, 다음과 같은 과정을 통해 inter-modal feature fusion을 진행한다.

GF-Phase (Geometry-based Feature Fusion)
Cross-modal Feature Completion
SF-Phase (Semantic-based Feature Fusion)

camera FOV outside 부분에 대한 feature를 예측하는 단계이다. FOV inside point의 feature와 cross-modal supervision을 이용해 모델을 학습시킨다.

학습된 모델로 FOV 외부 포인트에 대한 가상의 카메라 특징(pseudo-camera features)을 예측하여 결측값을 완성한다.

cross-modal supervision? 서로 다른 모달리티(예: 이미지, 텍스트 등) 간의 상호 지도학습을 의미.
예를 들어, image-caption 모델에서:

1) image modality만 사용하면 시각 정보만 반영 2) Caption을 같이 사용하면 언어적 지식도 활용 3) 두 modality가 서로 지도학습을 하면서 상호보완을 함

(2) GF-Phase

LiDAR feature과 카메라 feature을 Fully Connected Layer을 통해 동일한 차원의 feature으로 변환한다.

이후, concatenate하여 MLP를 통과시켜 geometry-based fusion feature을 생성한다.

Geometry-based Feature Fusion (GF-Phase)가 필요한 이유?:

기하 정보 활용

LiDAR point cloud는 3차원 공간 상에서 위치 정보를 포함하는데, GF-Phase에서는 이 기하 정보를 활용하여 feature들을 융합한다.

Spatial Alignment 고려

GF-Phase에서는 기하 정보를 바탕으로 LiDAR point와 camera pixel의 대략적으로 정렬할 수 있도록 한다.
이를 통해 fusion 시 발생할 수 있는 Spatial misalignment 문제를 완화할 수 있다.

보완적 특징 통합

다른 종류의 feature들을 기하 정보를 기반으로 융합하여 통합된 표현을 얻을 수 있다.

(3) SF-Phase

여기서 LIDAR SFAM과 Camera SFAM은 각각 sementic feature aggregate module이다.

간단하게 해당 모듈의 목적은 각각의 modality에서 나온 data로부터 각 category에 해당하는 semantic feature vector를 추출하는 것이다.

이후 두 modality에 대한 semantic feature vector를 SFAM을 input으로 넣음으로써, inter-modal feature fusion vector를 구할 수 있다.

3) Decomposed as the asymmetric transformation

L-only: LiDAR data에만 회전, 평행이동, 스케일링 등의 변환 적용
C-only: image에만 스케일링, 회전, 크롭, 색상변화, JPEG 압축 등의 변환 적용
Symmetric: random flipping은 두 modality에 동일하게 적용되는 대칭 변환

이처럼 LiDAR와 이미지 각각에 독립적이고 비대칭적인 변환을 적용함으로써 보다 다양한 상황을 반영한 augmented 데이터를 생성한다.

개인적으로 느꼈던 2023 CVPR segmentation 트렌드 (계속 조사하고 있지만...ㅎ)

자율주행을 위한 Lidar를 이용한 multi-modal 연구가 활발하다.
- 주요 issue는 2D & 3D modality gap으로 인한 Lidar data performance degradation인 듯하다
Computer-vision에 prompt질이 가능하도록 pre-trained model 연구를 성행하고 있다.
- CV에서도 few-shot 혹은 zero-shot learning을 위함이다.
- 그리고 pre-trained model에 관련된 연구에서 self-supervised learning에 대한 코멘트를 줄차게 들여놓는다.
순수 computer vision의 색깔은 많이 옅어진 느낌이 들었다. caption아니면 Lidar를 이용한 multi-modal 연구가 성행되고 있다.!

[간단리뷰] Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

Sun, 05 May 2024 12:14:59 GMT

CLIP (Contrastive Language-Image Pre-training)

Contrastive learning 기반 ConVIRT 모델에서 간략화된 버전이 CLIP이라고 한다. image & text encoder를 Jointly training하도록 한다.

Positive한 $N$개의 pair 요소들에 대해 Cosine 유사도가 최대가 되도록 (Pulling)
Negative한 $N^2-N$개의 pair 요소들에 대해 Cosine 유사도가 최소가 되도록 (Pushing)

Zero-shot learning

Ex) CIFAR-10 dataset을 예측하려 한다. Image와 문장화된 label을 Embedding하여 representation한다면 별도의 fine-tuning없이도 바로 예측이 가능하다!

Adopted vision-language model을 통해 segment image 성능 향상

bilion-scale의 image-text pair으로부터 multi-modal feature들을 학습하는 model을 vision-language model이라고 한다.

image - text pair pretrained model을 fine-tuning을 한 Adopt CLIP을 제시했다.

기존 pre-trained vision-language model의 문제점

Generalization Problem

CLIP과 같은 Pre-trained model을 이용하여 인간 수준의 segment 능력을 달성할 수 있었다.

여기서 말하는 "인간 수준의 segment 능력"이란 수 천개의 category들을 가지고 segmentation 할 수 있는 수준 즉, 단어 사전을 열어보고 (Open-Vocabulary) 인지하는 수준이다.

이를 위해선 two-stage approachs가 필요하다

model에서 class agnostic mask를 생성
pre-trained CLIP의 classification 능력을 masked image에 전이하도록 함

class agnostic mask : object의 종류는 무시하고, 영역만을 mask로 표시하는 것 즉, 이미지에 있는 foreground object으로 보이는 object를 추출하는 방식

여기서 model의 mIoU의 성능을 결정 짓는 요소는 두 가지이다.

mask를 생성해주는 mask generator
classifier

CLIP은 매우 훌륭한 mask generator를 갖고 있지만 classifier 성능은 보통인 model이다.

이 경우, ground-truth mask와 비슷한 수준의 mask를 생성한다. 그러나 ADE20K-150 dataset으로 측정한 mIoU 성능은 겨우 20.1%이다.

MaskFormer는 매우 훌륭한 classifier 성능을 가지고 있지만 mask generator 성능은 보통인 model이다.

COCO dataset으로 측정한 mIoU 성능은 CLIP보다 높은 66.5%이다.

즉, CLIP은 classificaiton의 결함으로 인해 Open-vocabulary segement model로써 한계가 있다.

저자는 CLIP의 낮은 성능의 이유로 CLIP의 원본 image data와 masking된 image의 domain gap에 의해 발생한다고 한다.

쉽게 말해서 masked image는 crop 및 re-size되었으므로 domain이 원본 이미지와 그 만큼 차이가 난다는 뜻이다.

Zero token Problem

masked image의 background pixel은 CLIP transformer으로 들어갈 때 "zero token"으로 취급한다.

zero token은 아무런 쓸모도 없을 뿐더러 원본 이미지에는 zero token이 존재하지 않으므로 두 이미지의 domain distribution간에 차이(shifting) 문제가 발생하여 성능이 저하됨을 분석하였다.

그래서 Mask-adapted CLIP는 어떻게 만들어지는가?

Generalization

image-caption dataset을 준비하도록한다. (COCO Captions)
image-caption pair에서 caption으로부터 명사를 추출하도록 한다.
pre-trained segmentation model을 이용해 class-agnostic mask를 생성한다.
pre-trained model인 CLIP으로 masked image와 caption으로부터 추출한 명사와의 best-matching이 되도록 할당해준다.

masked image와 새로운 category들 사이의 weakly-supervied alignment를 통해 Open vocabulary classification에 대해서 adopted CLIP이 더 나은 일반화 성능을 보여준다.

segmentation label를 사용하는 COCO-staff의 경우에는,
category의 종류 수가 제한되어 있어 
일반화 성능이 떨어지는 문제가 발생한다.

Fine-tuning

zero token $\rightarrow$ learnable prompt token으로 변환한다.
CLIP의 weight를 고정시켜 learnable prompt token을 학습할 수 있도록 한다. (내가 생각한 이유는 아래에 적었당)

이를 통해 masked image의 CLIP 성능이 대폭 증가된다고 한다.

✔️ 제시한 Query에 따라 segmentation이 매우 잘 됨을 확인할 수 있다. ⚠️ 참에 해당하는 카테고리는 Building & Rail인데 예측한 문장은 skyscraper & road

의미는 동일하나 엄밀히 틀린 예측에 해당함 이러한 뜻은 비슷하나 다른 단어들을 구별하는 능력에 한계가 있다는 것으로 논문은 마무리를 하였다.

[간단리뷰] Segment Anything

Sun, 05 May 2024 10:09:51 GMT

segment model의 “foundation model”을 만들어 보겠다

foundation model? 논문 상에서는 두 가지 요건을 설명하고 있다.

새로운 dataset에 대하여 zero-shot 혹은 few-shot learning을 수행해야함
prompting 기술을 이용해 특징 task를 수행할 수 있어야함

$\rightarrow$ Promptable model & pre-trained it on a broad dataset

진정한 foundation model을 구성할려면 세 가지 구성 요소를 고려해야 한다고 한다.

What task will enable zero-shot generalization?
What is the corresponding model architecture?
What data can power this task and model?

먼저 segmentation을 위한 large-scale source가 존재하지 않으므로 “data engine”이라는 기술을 통해 data를 수집하고록 한다.

data engine을 사용하여 data를 수집한다.
새로운 data를 토대로 모델의 성능을 개선시키는 작업을 반복적으로 진행한다.

1. task

✅ the goal is to return a valid segmentation mask given any segmentation prompt

여기서 “promptable하다”는 뭔 말일까?

Query로써 text 혹은 spatial information을 주어졌을 때, 합리적인 segmentation 결과가 나와져야 한다는 뜻이다

심지어 prompt가 애매모호하거나 여러 조건들을 붙이더라도 masking 결과는 합리적이어야 한다.

2. model

foundation model을 위해 다음과 같은 조건을 만족해야한다.

flexible prompt
compute mask in real-time
must be ambiguity-aware

3. Data

새로이 얻은 data distribution에 대해서 강력한 일반화 성능을 얻기 위해서, SAM에 굉장히 종류가 다양하고 거대한 mask dataset을 있어야한다.

Sgement Anything (SA) project의 이유

model의 성능은 다음과 같은 요소에 의해서 결정됨

model scale
dataset size
total training compare

그러나 Computer vision에는 충분한 dataset이 없다

그래서 CV의 foundation model을 구성하기 위해 어떻게 구성했는가?

Segment Anything Model (SAM)

flexible prompt

image encoder와 prompt encoder / mask decoder 세 가지로 구성한다. prompt encoder에 다른 입력이 들어와도 image encoder는 동일한 작업을 하기 때문에 prompt에 굉장히 유연하다.

compute mask in real-time

Embedding된 image은 Web-browser에서 ~10ms로 searching을 통해 prompt encoder와 mask decoder prediction을 진행한다.

must be ambiguity-aware

single prompt에 대해서 multiple maks를 예측함으로써, 모호성을 잡아낼 수 있다.
- 가령 타조 머리에 annotation 했다면, 이것이 타조 머리인지? 타조 몸통인지? 타조 전체인지?에 대한 여러 task를 잡아내고, G.T.와 비교하여 score를 매기도록 한다. 이를 통해 prompt의 모호성을 잡아낼 수 있다.

data engine

data engine에는 3단계로 이뤄짐 $\rightarrow$ assisted-manual / semi-automatic / fully-automatic

assisted-manual

전문가들이 mask를 직접 annotate시킴 (전통적인 대화형 segmentation 설정과 유사)

semi-automatic

SAM은 prompt을 통해 object에 대한 mask를 자동으로 생성시킨다. 예측한 mask는 전문가가 추가적으로 보정을 해준다.

fully-automatic

foreground point의 규칙적인 그리드를 prompt하여 평균적으로 이미지당 약 100개의 고품질 mask를 생성

conclusion

✔️ SAM이 segment에 실패해도 하나의 prompt에 multi-task (point)를 수행함으로써 정확성을 올릴 수 있었음

✔️ SAM는 pretrain model로써, downstream task에 맞춰서 적용하면 되는데, fine-tuning을 위해서 self-supervied learning의 중요성이 커질 듯

⚠️ SAM은 아직 고쳐야할 점들이 많음

미세한 구조에 대해서는 놓치는 부분들이 많고, 작은 구성 요소들이 hallucination를 일으킬 수 있
image encoder가 무겁나면 real-time processing이 어려움
text-to-mask task가 아직 완벽하게 강인하진 않음
더욱 뛰어난 segmentation을 위한 prompt 디자인은 아직 몰루?

공부 일지

Fri, 03 May 2024 16:59:23 GMT

CS 및 CV를 공부하기 위해 내가 어떤 공부를 해야하는가를 정리한 글이다.

기록용 글이므로 두서없음을 주의할 것

Computer Science

운영체제 - 한기대 최덕수 교수

Not yet

자료구조 - 세종대 최유경 교수

Not yet

선형대수학 - 이상엽

Not yet

Deep Learning & Computer vision

cs231n(2017 spring)

on going

딥러닝1 - 한경훈 교수 딥러닝2 - 한경훈 교수 딥러닝3 - 한경훈 교수

밑바닥부터 시작하는 딥러닝를 참조하면서 공부하는 것을 추전

cs231n 3강

Fri, 03 May 2024 05:19:48 GMT

1. Loss function

Loss function은 무엇인가? 바로 분류한 결과와 실제 값의 차이를 정량적으로 확인하는 function이다. 이를 통해 우리는 현재 분류 결과가 얼마나 좋은지 혹은 나쁜지를 판단할 수 있는 근거를 가지게 된다.

$L_{i}(*)$가 우리가 선택할 Loss function이 되고, $L$은 각 요소에 대한 Loss function의 평균값이 된다.

좋은 성능의 분류기를 설계하기 위해서 $L=0$이 되도록 최적화작업을 해줘야한다.

"최적화"라는 의미를 곧 이따가 설명하도록 하겠다. 우선 Loss function부터! cs231n에서 소개한 Loss function은 두 가지가 있다.

** 1) SVM Loss ** ** 2) Softmax **

그리고 L2 norm Loss, L1 norm Loss 등이 있다. 모든 Loss function의 역할은 각각 다르고 이에 따라서 선택을 해줘야 한다. 이번 챕터에서는 '분류'라는 테마에 맞춰서 설명한 것 같다.

1) Multiclass SVM loss

Multiclass SVM loss는 각 class에 대한 score를 매겼을 때, score가 참에 해당된 class의 score와 얼마나 차이나는 지 함수이다.

자기 자신을 제외한 나머지 score vector와 ground truth에 해당하는 score vector 간의 차이와 margin term(+1)을 더한 값이 0보다 크면 손실이 발생한다

분류기를 통과해 나온 class에 따른 score는 다음과 같다.

첫번째 데이터인 고양이의 SVM Loss를 계산해보자 고양이의 score vector는 $s_{y_{i}}=s_1=3.2$이다. 나머지 score vector는 각각 $s_2=5.1, s_3=-1.7$이다. 그럼 $L_1 = max(0,5.1-3.1+1) + max(0,-1.7-3.1+1)=2.9+0=2.9$가 된다.

그 다음 데이터인 자동차의 SVM Loss를 계산해보자 자동차의 score vector는 $s_{y_{i}}=s_2=4.9$이다. 나머지 score vector는 각각 $s_2=1.3, s_3=2.0$이다. 그럼 $L_2 = max(0,1.3-4.9+1) + max(0,2.0-4.9+1)=0$가 된다. 매우 훌륭하게 분류되었음을 알 수 있다.

다음은 SVM Loss의 code를 함수로 나타낸 것이다

def L_i_vectorized(x,y,W):
    scores = W.dot(x)
    margins = np.maximum(0, scores-scores[y]+1)
    margin[y] = 0
    loss_i = np.sum(margins)
    return loss_i

2) Softmax Loss

What is Softmax?

출력 vector들을 [0,1]사이로 배치해주고, 확률 분포로 나타내준다.
softmax Function을 통과해 나온 class별 확률값들의 총합은 항상 '1'이다.

softmax Loss는 softmax를 negative log likelihood로 표현하도록 한다. (loss 값은 양의 범위에서 일어나야하므로 negative이다.)

3) SVM Loss vs Softmax Loss

그럼 분류를 위해서 쓰인 두 Loss function은 어떤 특성을 보이는 가? 이를 표로 정리해보았다.

score가 변화에 따라 Loss에 변화됨은 Loss function마다 다르다
- Multiclass SVM Loss는 class score의 차이만 고려하기 때문에 Loss가 0이면 더 이상 학습하지 않는다.
- softmax Loss는 score를 확률 기반으로 다루기 때문에 score의 변화를 적극적으로 반영한다. 따라서 복잡한 task를 처리하려고 할 때는 대부분 softmax loss를 사용한다.

train model에서 $Loss=0$이 되는 가중치 $W$는 유일하지 않다
- train data에서 추정한 $W$은 $2W$ 혹은 $3W$ 모두 좋은 성능을 낼 수 있다.
- 그러나 그 말이 test data에서도 올바른 성능을 낼 거라는 가능성은 매우 낮다.

그렇다면 수 많은 $W$ 중에서 '우리가 선택해야하는 $W$은?'

Regularization을 이용해 train을 통해 추정한 $W$가 test data에도 유효한 성능을 내는지 확인한다.

2. Regularization

쉽게 말하자면, 모델의 복잡도가 증가하는 걸을 막기 위해 학습 과정에서 별도의 규제를 추가하는 기술이다.

train data의 정확도가 얼마나 좋은 지는 중요하지 않다. test data의 예측이 얼마나 정확한지가 중요하다.

다시 말해, train data 뿐만 아니라 test data도 일반적으로 표현할 수 있는 모델을 우리는 원한다.

다음과 같이 표현되며, $\lambda$는 hyperparameter이다. ~~혹시, 이게 어떠한 과정을 통해 규제가 이뤄지는지 궁금할 수 있겠는데, 꽤나 고급진 수학 전개가 필요하다.~~ ~~이는 나중에 다뤄보겠다.~~

다음과 같은 input data와 가중치가 있다고 하자

두 가중치 모두 input data와의 행렬곱은 1로 동일하다.

L1 Regularization $\rightarrow{w_1}$에 최적화
- L1 Regularization는 가중치의 요소가 희소 (sparse)할 때 최적화되어 있다.

L2 Regularization $\rightarrow{w_2}$에 최적화
- L2 Regularization는 모든 가중치 요소에 골고루 영향을 미치게 된다.

모델과 데이터 특성에 따라서 올바른 Regularization 전략을 선택해야한다.

3. Optimization

Optimization은 최적의 classifier를 만족하는 가중치 $W$를 찾기 위한 기법이다.

Loss function은 그 자체로 classifier의 성능을 높이진 않는다.
하지만 최적화 기법을 이용하여 $Loss=0$이 되는 가중치 $W$를 탐색할 수 있다.

가장 일반적인 전략은 gradient descent이다.

함수 그래프의 미분식을 통해 특정 값에서의 함수의 기울기를 계산할 수 있었다는 것을 알고 있다.

여기서 문제를 드리도록 하겠다.

기울기가 0이 되는 값으로 이동할려면 어떻게 해야하는가? (hint : 기울기를 경사로 생각해보자. 경사가 없는 평지로 이동할려면?)
- 기울기(경사)가 낮은 방향으로 이동하면 된다.*

우리는 1차원 스칼라 함수가 아닌 N-차원 벡터 함수에 대한 gradient를 구할려고 한다면, 다변수 미분을 진행하면 된다.

미분 계산하는 것에는 두 가지 방법이 있다. 1.수치적 미분 방법(numerical gradient) : 근사적인 풀이일 뿐더러 계산이 느리단 단점이 있어 거의 안쓴다.

$$ \frac{f(x)}{dx}=lim_{x\to\infty} \frac{f(x+h)-f(x)}{h} $$

2.해석적 미분 방법(analytic gradient) : 정확하고 빠르지만 오류가 날 가능성이 존재한다.

함수 $f(x)=x^2+x+2$을 변수 $x$에 대해서 미분한 식은 $\frac{d}{dx}f(x)=2x+1$이 된다. 미분식에 변수를 대입하면 해당 함수의 기울기가 나온다.

일반적으로 해석적 방법을 사용하지만, 미분이 가능한지를 수치적으로 볼 경우에는 수치적 방법을 사용한다.

cs231n 2강

Tue, 30 Apr 2024 03:07:14 GMT

1. Image classifier

이미지 분류기로 두 가지 기술을 소개하고 있다.

1) Nearest Neigbor

2) Linear Classification

두 기술에 대해서 가볍게 짚을 예정이다.

1) K-Nearest Neighbors

image의 Feature을 추출하여 만든 여러 data point들이 있다고 하자.

Distance Metirc을 이용해서 가까운 이웃을 K개 만큼 찾고, 이웃끼리 투표를 하는 방법이다. 그리고 가장 많은 득표수를 획득한 레이블로 예측한다.

그럼 이제 우리는 두 가지 측면을 따져야 한다. 1) 그럼 두 벡터간의 거리는 어떻게 구할 것인지? => distance metric 2) 거리가 가까운 data point의 개수를 어떻게 설정할 것인지? => number of K 이는 알고리즘이 자동으로 선택이 불가하고, 사람이 직접 설정을 해줘야하는 문제이다. 이러한 파라미터들을 hyperparameter라고 한다.

(1) distance metric

벡터간의 거리를 구하는 방법은 L1 norm distance와 L2 norm distance로 나눠져 있다.

L1 norm은 두 벡터의 원소 차이를 절댓값으로 나타내어 합한 형태, L2 norm은 원소 차이를 절댓값의 제곱항 형태로 합한 형태이다.

벡터가 개별적인 의미를 가지고 있다면(ex. 키, 몸무게) L1 Distance를, 일반적인 벡터 요소들의 의미를 모르거나 의미가 별로 없을 때는 L2 Distance를 사용한다.

(2) number of K

K=1의 경우에는, 초록색 점들사이에서 중간에 노란 점이 끼어있다. 또한 초록색 영역이 파란색 영역을 침범하고 있다. 이는 잡음 noise 이거나 가짜 spurious이다.

K=3의 경우에는, 초록색 영역 한가운데에 존재하던 노란색 영역이 사라졌다. 그리고 중앙은 초록색이 점령하였다. 그리고 파란색과 빨간색 사이의 뾰족한 영역도 부드러워졌다.

K=5의 경우에는 파란색과 빨간색 영역이 아주 부드러워졌다.

대체로 NN 분류기를 사용하면, K는 적어도 1 보다는 큰 값으로 사용해야 한다.

2) Linear Classification

Linear classification은 이미지 분류 정보를 가중치 $W$에 저장을 하는 Parametric Approach이다. $f(x,W)=Wx+b$으로 계산이 된다.

$b$는 bias으로 특정 카테고리에 우선권을 주도록 한다. Ex) 고양이 데이터 > 개 데이터에서는 고양이 클래스에 상응하는 bias가 더 커지게 된다

Linear Classification은 K-NN에 비해 test 모델에서 계산 복잡도가 현저히 낮다는 장점을 가지고 있다.

K-NN은 train model없이 test model에서 입력 데이터 포인트와 나머지 데이터 포인트 간의 거리를 계산해야 하므로 실시간 적용이 어렵다.
반면 Linear Classification은 train model에서 학습한 가중치 $W$를 활용하여 test model에서는 입력 데이터에 대한 계산만 수행하면 되므로 계산 복잡도가 현저히 낮아진다.

학습한 가중치 $W$를 이용해 input data를 행렬곱하게 된다면 각 카테고리에 해당하는 score가 계산이 될 것이다. 우리는 이 중에서 가장 높은 score에 해당한 카테고리를 선택하면 된다.

이를 선형 분류기로 해석하는 관점도 가지고 있다.

다만 Linear Classifier는 각 클래스에 따라 하나의 템플릿만 학습한다는 한계점이 존재한다.

오른쪽을 보고 있는 말, 왼쪽을 보고 있는 말의 이미지를 학습한다면, 머리가 두개 달린 말의 이미지가 가중치 $W$에 쌓일 수도 있다.

데이터 분포가 하나의 형태로 모여지는 것이 아닌 다양한 형태로 존재하는 경우에 Linear Classification이 제대로 구별이 힘들다.

3) Setting Hyperparameters

K-NN에서만 hyperparameter를 다뤘지만, 추후에 나올 모델들 모두가 이러한 과정을 걸쳐야하므로 일부로 뒤로 뺐다.

** train data : 모델을 학습하기 위함 **
** validation data : 학습한 모델이 충분한 성능을 내는 지 검증하기 위한 데이터**
** test data : 실제 적용할 데이터**

이러한 방식을 통해 최적의 hyperparameter를 결정할 수 있다

2. Conclusion

Linear Classification을 학습하기 위해서는 Loss function에 대해서 알아야 한다. 하지만 2강은 두 classifier를 소개하는 것으로 마무리했기 때문에 다음 강의 정리에서 소개하도록 하겠다.

cs231n 스터디 시작 (진행 중)

Fri, 26 Apr 2024 15:15:55 GMT

🚩시작을 하며...

졸업을 하고서야 컴퓨터 비전을 희망하는 나에겐 남은 시간이 별로 없다. 왜냐면... 대학원 진학을 위한 준비를 해야하기 때문에!!

그러니 이제부터 공부한 것들을 하나씩 포스팅해가며 컴퓨터 비전 전공자가 되기 위한 기나긴 여정을 진행할 예정이다.

CS231n

CS231n 2강 (24-04-30 업데이트)

CS231n 3강 (24-05-03 업데이트)

Devbottle.log

[논문리뷰] Anomaly Detection via Reverse Distillation from One-Class Embedding

INTRODUCTION

METHOD

Reverse Distillation

One-Class Bottleneck Embedding

Anomaly Scoring

EXPRIMENTS

cs231n 5강

Convolutional Neural Networks

Fully Connected Layer

Convolution Layer

7x7 input assume 3x3 filter

7x7 input assume 3x3 filter applied with stride 2

7x7 input assume 3x3 filter applied with stride 3

practice1

practice2

1x1 convolution layers

뇌/뉴런 관점에서 convolution layer

Pooling layer

[간단 리뷰] Emerging Properties in Self-Supervised Vision Transformers

Background

ViT

Knowledge Distillation (지식 증류)

Self-supervised model

DINO 전체 모델

Acknowledge

cs231n 4강

review...

1. Backpropagation

Computational graph

Patterns in backward flow

Scalar operation

example 1

example 2

Vectorized operations

Conclusion

[간단 리뷰] SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields

NeRF...?

기존 NeRF기술들의 문제점

최소한의 annotation만으로도 일관된 3D-segmentation mask를 얻을 수 있을려면?

연구 동향 파악 중간 점검

[간단 리뷰] Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic

Semi-supervised Semantic segmentation(SSS)의 일반화 성능 향상을 위한 random intensity based Data augmentation

SSS에서 Data augmentation problem

How to slove it? (AugSeg)

random intensity-based augmentation ($A_r(.)$)

Adaptive CutMix-based augmentation ($A_\alpha(.)$)

Appendix

Auto augmentation

RandomAug

[간단리뷰] MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

자율주행의 3D segmentation을 위해 두 modality인 camera와 Lidar를 융합한 논문이다

3D semantic segmentation의 문제점?

1) Heterogeneity between modalities

2) Limited intersection on the field of view (FOV) between sensors.

3) Multi-modal data augmentation

How to slove it?

1) Jointly Optimize intra-modal extraction & inter-modal feature fusion

2) GF-Phase를 위한 cross-modal 완성 및 semantic-based feature phase (SF-Phase) 제안

(1) cross-modal 완성

(2) GF-Phase

(3) SF-Phase

3) Decomposed as the asymmetric transformation

개인적으로 느꼈던 2023 CVPR segmentation 트렌드 (계속 조사하고 있지만...ㅎ)

[간단리뷰] Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

CLIP (Contrastive Language-Image Pre-training)

Zero-shot learning

Adopted vision-language model을 통해 segment image 성능 향상

기존 pre-trained vision-language model의 문제점

Generalization Problem

Zero token Problem

그래서 Mask-adapted CLIP는 어떻게 만들어지는가?

Generalization

Fine-tuning

[간단리뷰] Segment Anything

segment model의 “foundation model”을 만들어 보겠다

1. task

2. model

3. Data