_yoonji99.log

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners(CVPR, 2021)

Sun, 25 Feb 2024 08:28:56 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

Abstract

Mased auto encoders(MAE)가 컴퓨터 비전 분야에서 scalable self-supervised learners 임을 증명
아이디어 : 입력 이미지의 패치를 랜덤하게 마스킹한 후 missing pixels를 복원하도록 학습
인코더-디코더 구조는 비대칭 구조.
- 인코더: 마스킹 되지 않은 부분만 처리
- 디코더: 인코더보다 훨 가볍게 설정되고 마스킹된 부분과 되지 않은 부분 모두 처리
입력 이미지에 대한 최적 마스킹 비율 : 75%
학습 속도&정확도 높일 수 있었음
최종적으로 transfer learning 성능도 검증

Intro

딥러닝이 핫해지고 하드웨어들이 발전하면서 거대한 모델들이 엄청나게 많은 데이터를 overfit하게 학습하게 되었고 수 백만의 labled 이미지를 필요로 하게 되었다.

NL에서는 autoregressive 언어 모델인 GPT와 masked autoencoding 모델인 BERT가 성공했는데,

매우 simple한 아이디어: 데이터의 일부를 지우고, 지운 내용 예측하도록 모델 학습

Masked autoencoder
- Denoising autoencoder의 일부
- NLP에서 성공한다음 cv에서도 성공적으로 안착하려고 함
NLP와 CV 차이점
- (1) Architecture가 다르다
  - 컴퓨터 비전에서는 일반적으로 CNN을 사용하는데 이는 NLP와 다르게 mask token 혹은 positional embedding과 같은 indicators가 존재하지 않는다.
    
    ⇒ 하지만 ViT의 등장으로 어느 정도 해결될 수 있었다.
- (2) Information density가 다르다
  - NLP: highly semantic & information-dense
  - CV: sptial redundancy (이웃 패치로부터 missing 패치가 충분히 회복될 수 있음)
  - ⇒ 해당 차이점은 높은 비율의 마스킹을 통해 충분히 완화될 수 있다.*
- (3) Autoencoder의 Decoder가 수행하는 바가 다르다
  - NLP: missing words를 예측하는 역할. 풍부한 semantic 정보를 포함하여야 함
  - CV: Pixels를 재구축하는 역할. 상대적으로 덜 semantic함

위와 같은 차이점들을 고려하여 본 연구는 MAE의 간단하고, 효과적이고, Scalable한 형태로 visual 표현학습을 할 수 있도록 제안한다.

모델 구조
- 모델의 구조는 아래와 같이 인코더와 디코더가 비대칭적인 형태를 띈다.
- 인코더*는 마스크 토큰이 없는 visible한 패치만 처리하게 되고,
- 디코더*는 훨씬 가벼운 형태로 마스크 토큰과 함께 latent representation을 사용하여 재구축하게 된다.
Contribution
- 마스크 토큰을 디코더에서 활용할지라도 상당히 작은 구조를 띄고 있기 때문에 계산 측면에서 많은 감소가 존재한다.
- 높은 마스킹 비율은 인코더가 작은 부분만 처리할 수 있게 하면서 정확도 또한 최적화할 수 있다.
- 전반적인 transfer learning 시간을 줄이고, 메모리 소비를 줄여 MAE를 거대 모델에 쉽게 스케일업 할 수 있게 한다.

Masked language modeling

NLP에서의 성공적인 사전학습 모델인 BERT와 GPT가 대표적이다.

입력 시퀀스의 일부를 지우고, 지워진 부분을 재복원할 수 있도록 학습하는 전략이다.

Autoencoding

오토인코더는 인코더에서 입력 데이터를 잠재 표현에 매핑하고, 디코더에서 재복원하는 모델이다.

DAE는 입력 신호를 망가뜨리고, 재복원 시에 온전한 신호로 복원하는 방법이다.

픽셀을 마스킹하는 방법이나 색상 채널을 제거하는 방법이 DAE의 일종이라고 볼 수 있다.

Masked image encoding

마스킹에 의해 망가뜨려진 이미지로부터 표현을 추출하는 방법이다.

DAE에서의 노이즈의 일부로 마스킹을 보는 것이다.

초기 연구로는 iGPT, BEiT 등이 있다.

Self-supervised learning

사전학습을 위해 여러 pretext task 집중하는 방법이다.

최근에는 대조학습이 제일 유명하긴 한데 이는 data augmentation에 너무 의존한다는 단점이 있다.

오토인코더를 활용하는 것은 개념적으로 다른 방향을 추구하는 것이고, 제시하고자 하는 행동 또한 다르다.

Approach

모델의 구조는 앞서 계속 언급했듯, 오토인코더의 형태를 띈다.

인코더는 입력 데이터를 잠재 표현으로 매핑하고, 디코더는 잠재 표현으로부터 입력 데이터를 복원한다.

하지만 일반적인 오토인코더와는 다르게, MAE의 인코더는 마스킹이 되지 않은 부분만을 입력으로 사용하고, 디코더는 마스크 토큰과 잠재 표현 모두를 사용해서 입력 신호를 복원한다.

그리고 디코더는 인코더보다 훨씬 가벼운 형태를 띈다.

Masking
- ViT를 따르기 때문에, 이미지를 안 겹치는 패치로 자른다.
  
  그 후 비복원추출로 랜덤하게 마스킹할 패치를 선택한다. 이 때 랜덤하게 선택할 확률은 Uniform 분포를 따르도록 한다. Center bias를 방지하기 위해서다.
  
  마스킹 비율을 높게 가져가서 중복을 상당히 많이 제거한다. 그래서 visible 이웃 패치로부터의 외삽으로 주변이 쉽게 예측되지 않도록 한다.
MAE encoder
- 마스킹되지 않은 25% 정도의 visible 패치만 사용하기 때문에 아무리 큰 ViT 인코더를 써도 속도가 상당히 빠르다.
MAE decoder
- 디코더는 visible 패치와 mask token 모두를 입력으로 받는다.
  
  그리고 꼭 positional embedding을 추가해줘야 하는데, 없으면 mask token이 아무 정보를 못 갖게 된다.
  
  디코더는 이미지 복원 작업을 수행하는 사전학습 시에만 사용되기 때문에, Flexible하게 구성하면 된다.
  
  인코더 구성과 독립적으로 만들면 되기 때문에 비대칭적으로 가볍고, 좁은 네트워크로 구성해도 된다.
  
  실제 논문에서는 토큰 별로 인코더보다 디코더에서 1/10 속도로 처리 가능하도록 했다.
Reconstruction target
- MAE는 masked 패치의 픽셀들을 예측함으로써 입력 데이터를 복원한다.
  
  디코더의 출력은 픽셀 벡터들이다. 출력한 후에는 reshape을 통해 원본 이미지 형태로 변환된다.
  
  손실 함수는 MSE를 사용하며, 오직 masked 패치에서만 손실 함수가 계산된다.
  
  추가로 Reconstruction target을 정규화된 픽셀 값으로 사용하기도 하는데, 그렇게 한다면 표현 품질이 향상된다.
Simple implementation
- 샘플링 시에 어떠한 sparse operation이 필요없기 때문에 상당히 효율적이다.
  
  그저 positional embedding으로 각 패치별로 순서 부여하고, 랜덤하게 셔플하고, 뒤에서부터 마스킹 비율에 맞게 제거하는게 끝이다. 그리고 디코더에서 다시 복원할 때는 원래의 postional embedding에 맞게 세우면 된다.

ImageNet Experiments

사전학습은 ImageNet-1K 데이터셋을 사용했다.

Baseline 모델은 ViT-Large를 사용했는데, 이는 굉장히 크기 때문에 오버피팅 문제가 존재한다.

하지만 제안하는 MAE를 사용하면 지도학습 방식으로 사전학습 시키는 것보다 오버피팅 문제가 적기에 훨씬 성능이 좋다.

scratch, our impl은 규제 term을 하나 추가해서 성능을 높인 것이다.

Ablation study의 시작은 마스킹 비율에 관한 실험으로, 75%가 가장 좋은 성능을 얻음을 확인할 수 있다.

실제 이미지 예시를 살펴봐도 75%를 마스킹했을 시에는 상당히 괜찮게 복원하지만, 이보다 더 많은 비율을 마스킹하면 복원이 힘든 것을 볼 수 있다.

위 표들은 Ablation study의 각 결과들이다. Decoder depth, width를 보면 그렇게 깊게 혹은 넓게 쌓을 필요가 없음을 알 수 있다.

인코더에서는 masked token을 사용하지 않을 때가 더 좋은 성능에 더 빠른 연산 속도를 보였다.

Reconstruction target을 여러 시나리오로 구성 가능한데, 정규화한 픽셀 값을 복원할 때가 성능이 가장 좋았다.

Data augmentation에 있어서는 꽤나 강건한 것을 알 수 있다.

Mask sampling은 랜덤하게 할 때가 가장 좋았다.

오히려 랜덤하게가 아니라 다른 규칙을 기준으로 하면 많은 부분을 마스킹할 수 없게 되고, 많은 부분을 마스킹하면 왜곡된 결과가 나오는 것을 알 수 있다.

대조학습 모델 MoCo나 지도학습 기반 BEiT 같은 모델을 활용해서 사전학습하는 것보다 MAE가 더 뛰어났다.

Fine-tuning 할 수록 성능이 더 좋아지긴 하는데, 큰 차이가 없기 때문에 어느 정도는 Freeze 시키고 뒤 쪽만 Fine-tuning하는 것이 더욱 좋은 전략일 것이다.

Transfer Learning Experiments

Semantic segmentation Task에서도 MAE로 사전학습 시켰을 때 mIoU가 가장 좋았다.

다른 이미지 데이터셋에 대한 분류 실험에서도 MAE가 제일 좋았다.

Reconstruciton target을 픽셀로 할 것이냐, Token으로 할 것이냐 고민할 수 있는데,

대부분의 전이학습 상황에서 픽셀로 할 때 성능이 더 우수했다.

Discussion and Conclusion

NLP에서 성공적이었던 자기지도학습 방법 BERT를 성공적으로 컴퓨터 비전에 접목시켰다고 할 수 있다.

그치만 논하고자 하는 것은 NLP에서는 결국 Semantic한 단어를 가리게 되는데, 비전에서의 패치가 Semantic하냐는 것이다. 그렇다면 픽셀도 Semantic 한가? 그래서 사실 Semantic 한 것을 가리려면 객체(Object)를 가리는 것이 더욱 논리적일 것이다.

하지만 그러기에는 어려우니까 저자는 높은 마스킹 비율을 사용해서 대부분을 가려버리면 비슷한 효과가 있지 않을까 주장하는 것이다.

[백준] 11726번 2xn 타일링 - 파이썬(Python)

Thu, 17 Aug 2023 03:18:07 GMT

🗒️ 문제

https://www.acmicpc.net/problem/11726

🖥️ 풀이

#n=1) 1개
#n=2) 2개
#n=3) 3개
#n=4) 5개
#n=5) 8개  --> 피보나치 수열로 풀기.

def fibo(n):
    dp=[0]*(1001)#dp 리스트에 공간확보
    dp[1]=1
    dp[2]=2
    for i in range(3,1001):
        dp[i]=(dp[i-1]+dp[i-2])%10007
    return dp[n]

n=int(input())
print(fibo(n))

[백준] 1463번 1로 만들기 - 파이썬(Python)

Thu, 17 Aug 2023 03:12:24 GMT

🗒️ 문제

https://www.acmicpc.net/problem/1463

🖥️ 풀이

# 중요포인트: 연산수만 가지고 비교함. 실제 n이 어떻게 줄어들었는지는 고려X
'''d[2]=1 (2/2)
    d[3]=1 (3/3)
    d[4]=2 (4/2 -> 2/2)
    d[5]=3 (5-1 -> 4/2 -> 2/2)
    d[6]=2 (6/3 -> 2/2) (= 1 + d[6//3])
    d[7]=3 (7-1 -> 6/3 -> 2/2) (= 1 + d[6])'''

n = int(input())
d = [0] * (n+1)

for i in range(2, n+1):
    d[i] = d[i-1] + 1 # 1 더하는 이유: 기본적으로 연산 한번은 하니까
    if i % 2 == 0:
        d[i] = min(d[i], d[i//2] + 1)# 1 더하는 이유:d리스트는 최소 "연산수" 니까(1을빼면 연산수는+1돼서)
    if i % 3 == 0:
        d[i] = min(d[i], d[i//3] + 1) #위와 동일

print(d[n])

✔️ 참조

https://seongonion.tistory.com/40

[논문 리뷰] Attention Is All You Need (NIPS, 2017)

Sun, 13 Aug 2023 05:57:16 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

0. Abstract

Transformer 제안
- RNN, CNN모두 생략
- 오로지 어텐션 기반
- 병렬적으로 작동이 가능해서 학습 속도가 빨랐음

1. Introduction

RNN기반 모델들은 그동안 대표적인 시퀀스 모델링, 시퀀스 변환모델
- 언어모델, 인코더-디코더 구조의 경계를 넓히려고 많이 노력했음
문제점) RNN기반 모델의 본질적인 순서 위치는 긴 시퀀스에서 치명적 (병렬적으로 작동X)
- 계산적 발전 이루었음에도 제약 여전히 발생
어텐션: input과 ouput시퀀스의 길이와 상관없이 다양한 task에서 시퀀스 모델링과 시퀀스 변환에서 짱됨
- 일부 RNN은 어텐션과 함께 쓰이기도 함
Transformer제안: recurrent한 특징 제외하고, 어텐션 통해 입력과 출력 사이에 종속성 유지
- 병렬화 가능
- 짧은 학습 시간으로도 번역의 질 향상 가능

2. Background

시퀀스 계산 줄이는 방법: CNN방법 사용(Extended Neural GPU,ByteNet ,ConvS2S )
- 병렬적으로 모든 입력과 출력 위치들 계산
- 한계 존재) 필요 연산량이 위치간 거리에 따라 증가(=먼 위치 간의 의존성 학습 어렵게 만듦)
Transformer에서 위 문제 해결
- 어텐션 가중치 평균화 → 유효한 해상도 줄임 (multi-head attention으로 해결)
- 순서 기반 RNN 안씀
Self-attention
- 시퀀스의 서로 다른 위치 간의 관계 연관시켜서 시퀀스의 표현 계산
- 읽기 해석, 요약 등으로 성공적으로 쓰임
Recurrent-attention
- End-to-end memory에서 사용, 순서대로의 recurrence X
- 간단한 질문에 대답 잘함
- =⇒ 그치만 Transformer가 얘보다 더 낫다.(순서 기반 RNN 안씀)

3. Model Architecture

Transformer 특징
- 한번에 하나씩, 각 step은 자동 회귀적, 다음에 생성되는거는 이전꺼도 반영
- stack of self attention, point-wise, 인코더 디코더에 모두 fully connected layer

3-1. Encoder and Decoder Stacks

인코더 특징
- 6개의 identical layer
  - 각 layer에는 2개의 sub layer
    - 1번째: multi-head self attention
    - 2번째: position wise fully connected feed forward network
- residual connection (2개의 sub layer 사이)
  - sub layer결과(embedding layer포함) = layer norm, 512차원 출력
- layer norm
디코더 특징
- 6개의 identical layer
  - 각 layer에는 2개의 sub layer
    - mask attention: 미래 정보 참조 못하게 하기 위해 mask씌움
- residual connection
- layer norm

3-2. Attention

요소
- 쿼리, 키, 벨류
output
- weighted sum of the values (유사성 함수를 통해 계산된 가중치)

3-2-1. Scaled Dot-Product Attention

Scaled dot-product
- 그냥 dot product 하는 것 보다 scale 시 더 가벼워짐
- 유사도 값이 너무 크면 softmax가 saturate되고, gradient vanishing되기 때문
dot-product
- scaled와 비슷, sqrt(D_Q) 만 뺌
- 더 빠르고, 공간 효율적일수있지만, 많은 연산 코드 필요
additive attention
- 하나의 hidden layer가지고 feed forward network
- 더 작은 데이터에 유리

3-2-2. Multi-Head Attention

single attention보다 multi attention이 더 성능 좋은걸 알아냄
병렬, 동시적으로 각 attention 계산

⇒ 동시적으로 각기 다른 subspace의 각기 다른 위치에서 계산

3-2-3. Applications of Attention in our Model

3가지 방법으로 우리 모델에서 attention 사용
- encoder-decoder attention: 쿼리: 이전 디코더 레이어로부터, key&value: 인코더의 output
- encoder의 self-attention: 키 쿼리 벨류 모두 인코더의 input으로 부터
- 디코더의 self-attention: 미래 정보 masking하기

3-3. Position-wise Feed-Forward Networks

fully connected feed forward network
- 각 위치에 대해 분리되게 적용 가능
- 2개의 선형 변환이 있었기에 가능 (relu 활성화 함수사용)

3-4. Embeddings and Softmax

동일 W가중치를 임베딩 레이어마다, softmax이전에 사용
임베딩
- input token전환 & output token을 벡터로
softmax
- 디코더의 output을 확률적으로 바꾸려고

3-5. Positional Encoding

positional encoding
- embedding과 같은 차원 (이 두개가 더해질수있어야해서)
- 다양한 방
  - 여기선 사인, 코사인 함수 사용
    - 상대적인 위치에 따라 모델이 쉽게 학습할 수 있도록 하기 위해
    - 어떤 고정된 오프셋 k에 대해서든 P Epos+k는 P Epos의 선형 함수로 표현될 수 있기 때문
    - 더 긴 시퀀스 길이로 외삽(extrapolate)할 수 있을 것

4. Why Self-Attention

3가지 요구사항 기반으로 self attention 활용
- 레이어당 총 연산비용
- 동시성 있는 연산 (적은 연산으로)
- 장거리 의존성 간의 경로 길이
  - 종속성을 학습하는 능력에 영향을 미치는 주요 요소 중 하나는 신호가 네트워크 내에서 이동해야 하는 경로의 길이
  - 많은 시퀀스 변환 task에서 자주 요구되는 사항
  - 다른 레이어 유형으로 구성된 네트워크에서 임의의 두 입력 및 출력 위치 간의 최대 경로 길이를 비교

5 Training

5-1. Training Data and Batching

데이터: standard WMT 2014 English-German dataset

5-2. Hardware and Schedule

5-3. Optimizer

Adam

5-4. Regularization

Residual Dropout
- output of each sub-layer,
- ums of the embeddings and the positional encodings in both the encoder and decoder stacks

[논문 리뷰] A PCB Dataset for Defects Detection and Classification

Sat, 12 Aug 2023 06:19:59 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

전처리

PCB특징 추출 및 transform test image
- SURF(이걸로)
  - Scale Invariant Feature Transform (SIFT) 알고리즘의 개선된 버전으로, 계산 복잡성이 적고 SIFT에 비해 빠르게 실행
  - SURF와 SIFT로 선택된 특징점은 모두 안정적이며 회전, 스케일, 밝기에 불변
- SIFT
  - SIFT는 스케일과 회전 변환에 있어서 더 나은 매칭 효과를 가지지만, 밝기 변화에 있어서는 SURF가 더 나은 매칭 효과를 가지므로, 실제 응용 시나리오를 고려하여 PCB 등록에는 SURF가 선택
  ⇒ 템플릿과 테스트 이미지의 SURF 특징점을 얻은 후,
  
  매칭 포인트를 통해 2차원 기하학적 변환을 추정하고,
  
  테스트 이미지를 기하학적 변환으로 회복

이진화

: 바이너리 맵을 사용하면 PCB의 윤곽과 모양을 흑백으로만 표현하여 비교하기가 더 편리합니다.

: 그레이스케일 이미지를 이진 이미지로 변환하여 결함의 위치를 얻는 것
- 이진화 방법
  - 적응적 임계값 분할 알고리즘 : 전역 값으로 임계값을 사용하는 대신 이미지의 작은 영역에 대해 임계값을 계산합니다. PCB 이미지는 다양한 영역에서 다른 조명 조건을 가질 수 있기 때문

       - **결함의 위치 찾기**

        : 결함의 위치를 찾기 위해 먼저 템플릿과 테스트 이미지의 XOR 이진 이미지를 얻습니다.

        dst(I) = src1(I) ⊕ src2(I)

        여기서 dst(I)는 결과 이진 이미지이고, src1(I), src2(I)는 각각 템플릿과 테스트의 이진 맵입니다. XOR 연산은 템플릿과 테스트 이미지의 해당 위치의 픽셀 값이 동일한 경우, 결과 이미지에서 해당 위치의 픽셀 값이 1이 되며, 그렇지 않은 경우에는 0이 됩니다.

        - **가짜 결함 걸러내기**

            : 많은 노이즈와 원치 않는 가짜 결함이 포함될 수 있습니다. 실제 결함을 얻기 위해 **중앙값 필터링과 수학적 형태학 처리**를 사용합니다. 

            - **중앙값 필터링**

                : 이미지의 작은 노이즈 점을 제거하는 비선형 필터링 기술입니다. 

                : 기본 아이디어는 픽셀 점 (x, y)의 이웃 픽셀 값들을 정렬한 후 중간 값으로 원래 픽셀의 값을 대체하는 것

            - **수학적 형태학 처리**

                : 기하학적 구조의 분석과 처리를 위한 이론과 기법으로, 기본 형태학 연산자로는 침식, 팽창, 개방, 폐쇄가 있음.
                침식 (Erosion):
                A ⨁ B = {z | Bz ⊆ A}
                팽창 (Dilation):
                A ⊕ B =  z | (B)z ∩ A 6= ∅
                개방 (Opening):
                A ◦ B = (A ⨁ B) ⊕ B
                폐쇄 (Closing):
                A • B = (A ⊕ B) ⨁ B


        *본 논문에서는 XOR 연산의 결과 이미지를 먼저 5×5 커널로 필터링하여 작은 독립 점을 제거하고, 15×15 직사각형 요소로 클로징 연산을 수행하여 결함의 지역 부분을 연결하고 강화*

        *→ 3×3 직사각형 요소로 개방 연산을 수행.* 

        *→ 이진 이미지에서 주요 객체가 강조되고 연속적으로 클로징과 개방 연산을 수행함으로써 **결함의 위치를 찾습니다.***


    너무 작은 점을 제거하기 위해 면적 임계값을 설정하고, 인접한 중복 후보 영역을 제거하기 위해 **비 최대값 억제(NMS)**를 설정

    결론) **참조 비교 기반 방법**을 기반으로 하여, 우리는 결함을 분류하기 위해 **엔드-투-엔드 컨볼루션 신경망 모델**을 소개했습니다. 이 모델은 상대적으로 적은 레이어로 높은 정확도를 달성하기 위해 **Densenet**에서 영감을 받은 밀집한 **단축 경로(dense shortcuts)**를 사용합니다. 이 모델은 우리의 데이터셋에서 높은 성능을 달성했습니다.

[논문 리뷰] ONLINE PCB DEFECT DETECTOR ON A NEW PCB DEFECT DATASET (2019)

Sat, 12 Aug 2023 06:16:11 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

0. 요약

데이터셋

DeepPCB :6가지 유형의 PCB 결함의 위치와 클래스에 대한 1,500개의 템플릿과 테스트 이미지 쌍을 포함(대부분 다 이걸로 사용하는듯) ㄴ 장점: 정렬 - 템플릿 이미지와 테스트 이미지는 템플릿 매칭 방법을 사용하여 정렬되므로 이미지 전처리에 큰 노력을 줄임 2. deep model PCB결함 감지기의 딜레마 정확도와 효율성 사이에서 딜레마에 직면합니다. 높은 정확도를 위해서는 더 많은 층을 갖는 수십 개 또는 수백 개의 레이어로 더 깊은 모델이 필요합니다. 반면, 높은 효율성을 위해서는 많은 파라미터와 덜 깊은 구조가 필요 3. 위의 딜레마 극복 방법(결함 감지능력 향상) 그룹 피라미드 풀링(GPP): GPP는 그룹화된 풀링과 업샘플링을 통해 다양한 해상도의 특성을 병합합니다. GPP의 각 그룹은 지역적인 컨텍스트 정보와 훨씬 더 큰 범위의 컨텍스트 정보를 모두 가지며 해당 스케일에서 PCB 결함을 예측

1. 전반적인 흐름

네트워크 구조 (a) 입력 이미지 쌍에서 특징 추출을 위해 컨볼루션 백본과 최대 풀링 연산 사용. (b) 템플릿 이미지와 테스트 이미지의 특징 차이 계산. (c) 그룹 피라미드 풀링 모듈을 사용하여 다양한 해상도의 특징 획득. (d) 각 특징 맵에서 다양한 스케일의 예측 생성. (e) 예측된 결과에 대해 non-maximum suppression (NMS) 수행하여 최종 예측 결과 얻음.

2. 실험 결과

딥 뉴럴 네트워크 기반의 모델들과 복잡한 이중 단계 모델, 그리고 이미지 처리 기술 기반의 알고리즘에 대해 제안된 모델은 평균 평균 정밀도를 1.0%에서 9.3%로 향상

GPP 모듈에서의 Max 풀링이 Average풀링보다 1.5% 더 높은 mAP를 제공하는 것을 보여줌

[논문 리뷰] PCB-Defect-Detection-using-Deepstream (2022)

Sat, 12 Aug 2023 06:10:07 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

The defects include:

Missing hole Mouse bite Open circuit Short circuit Spurious copper spur

1. 전반적인 흐름 및 특징

훈련
YOLOv5사용
데이터: Roboflow에 호스팅
코드 포함
훈련 결과
NVIDIA DeepStream SDK : AI 기반 비디오 및 이미지 이해와 다중 센서 처리를 위한 완전한 스트리밍 분석 도구킷을 제공

[논문 리뷰] PCB Defect Detection Using Denoising Convolutional Autoencoders (2020)

Sat, 12 Aug 2023 06:07:06 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

0. 전반적인 흐름

결함찾기+불량 PCB복구

네트워크 구조
결함 탐지 ->입력으로부터 복구된 PCB를 예측 복구시킨다음에, 복구시킨것과 입력의 차이 구해서 불량 판별
구조적 유사성 더 정확한 차이를 계산하기 위해 구조적 유사성을 활용
특이점
- 학습 전 noise추가
- normal PCB넣어서 초기가중치 추출 후, 본격 학습

1. 실험 절차

데이터셋 DeepPCB 데이터셋을 사용하여 실험을 진행 : 1500개의 불량 PCB와 해당 정상 PCB의 이미지 쌍이 포함되어 있으며, 총 6 종류의 결함을 포함 : 불량과 정상 PCB의 이미지 쌍으로 훈련되었으며, 더 나은 결과를 얻기 위해 불량 PCB에 노이즈를 추가
훈련 절차 (이렇게 해도 ㄱㅊ을지 물어보기) 제안된 노이즈 제거 자기 인코더를 훈련하기 전에,
1. 먼저 정상적인 PCB만을 사용하여 자기 인코더를 훈련
2. 그런 다음 이 네트워크의 가중치를 제안된 네트워크의 초기 가중치로 사용하여 모델의 정확성을 높임
차이 비교 절차
- 출력은 복구된 PCB
- 입력과 출력 차이 비교 : 출력을 입력에서 빼면 불량 부분이 위치 : 차이가 임계값보다 크면 입력은 불량으로 간주, 그렇지 않으면 불량이 아닌 것으로 간주
- 임계값 설정 : 최적의 임계값을 결정하기 위해 4가지 다른 임계값에 대해 true positive rate recall, precision, selectivity, accuracy 및 F-score를 계산(Table 1처럼)

2. 결과

[서베이 리뷰] Visual Anomaly Detection for Images: A Survey

Sat, 12 Aug 2023 06:01:20 GMT

지도
비지도

시각적 탐지 세부 수준

이미지 수준: 전체 이미지가 정상인지 비정상인지에 대한 질문에 초점
픽셀 수준: 이미지 내의 비정상적인 영역을 감지하거나 위치를 파악

점차 딥 컨볼루션 네트워크의 강력한 표현 능력을 시각적 이상 탐지 문제와 결합하는 문제에 주목하고, 최종적으로 종단 감지 접근 방식을 개발

III. IMAGE-LEVEL VISUAL ANOMALY DETECTION

비지도 이미지 수준 이상 탐지 방법

A. 밀도 추정

먼저 정상 이미지나 특징의 확률 분포 모델을 추정한 후, 새로 관찰된 이미지가 이상인지 정상인지를 확인하고 식별하기 위해 설정된 분포에 대해 테스트
테스트 이미지나 이미지 특징이 정상 이미지 샘플로 추정된 확률 분포 모델과 일치하지 않는 경우, 이를 이상으로 분류
가우시안 모델 및 가우시안 혼합 모델 [10], [11], 최근접 이웃 및 커널 밀도 추정 방법과 같은 비모수 추정 방법 ⇒ 많은 수의 훈련 샘플이 필요

C. 이미지 재구성(auto-encoder젤 많이사용)

재구성 기반 이상 탐지 방법은 정상 이미지의 재구성 오류가 작고 이상 이미지의 재구성 오류가 크다고 가정
중복 압축과 중복 분리
고차원 데이터의 이상 탐지를 위해 딥 오토인코더
성능 향상
- 잠재 공간의 분포와 오토인코더의 재구성 오류를 동시에 활용하여 재구성 기반 모델의 이상 탐지 성능을 더욱 향상
  - 잠재 공간 분포
    - 잠재 공간 분포: 가우시안 혼합 모델
    - 잠재 코드의 확률 분포: 자기 회귀 신경망으로 모델링
    - 잠재 코드에 메모리 유닛을 도입하고, 몇 개의 특징 메모리 유닛을 사용하여 잠재 분포를 표현
  - 오토인코더의 재구성 오류 활용
    - 이미지 재구성의 난이도를 증가
      - 색상 제거 또는 기하학적 변형 → 변환된 불완전한 입력 이미지를 사용하여 원래의 입력 이미지를 재구성하도록 훈련 (재구성 오류가 보통 큼)
        
        → 정상 이미지와 이상 이미지 사이의 차이를 효과적으로 증가시킬 수 있으며, 이상 탐지의 성능을 향상
      - ex. GAN(생성적 적대 신경망)을 시각적 이상 탐지에 처음 도입했습니다. GAN 모델은 사전에 정상 이미지로 훈련되며, 이후 테스트 이미지와 가장 가까운 정상 이미지 사이의 차이를 계산하여 이상을 감지
  - 이미지 재구성과 적대적 훈련을 결합
    - 오토인코더와 적대적 훈련을 동시에 사용하여 이미지 이상 탐지에 활용
    - 최적화 기법
      - 합성곱 오토인코더인 생성기와 판별자가 포함됩니다. 평균 제곱 오차 손실과 적대적 손실 두 가지로 모델을 최적화
    - test단계 탐지 지표
      - 1) 테스트 단계에서는 재구성 오류와 판별자의 출력 확률이 탐지를 위한 지표
      - 2) 재구성된 이미지의 잠재 코드와 입력 이미지의 잠재 코드 간의 차이도 이상의 지표
  - 오토인코더와 적대적 네트워크의 공동 모델에서 잠재 코드의 특징 분포를 제약하거나 정규화

D. 자기 지도 분류(Self-supervised classification)

특정 보조 작업(선행 작업)을 활용하여 대규모 비지도 데이터로부터 사용 가능한 감독 정보를 추출
자기 지도된 감독 정보를 활용하여 주로 딥 컨볼루션 신경망을 통해 시각적 표현을 학습하고, 이러한 표현은 이미지 분류, 객체 탐지 및 이상 탐지와 같은 여러 하위 작업으로 전이

IV. PIXEL-LEVEL VISUAL ANOMALY DETECTION

비지도 픽셀 수준의 이상 탐지 접근 방법

A. 이미지 재구성

이미지 공간에서 이상을 탐지

방법1) 딥 컨볼루션 오토인코더로 입력 이미지를 압축하고 재구성
- 정상 이미지의 재구성을 학습한 후, 입력 이미지와 재구성된 이미지 사이의 픽셀 차이를 평가하여 잠재적인 이상을 탐지
- 이상도 측정법) 재구성 전후의 픽셀 간 거리 및 이미지 구조 유사성 측도 (SSIM) [49]을 사용하여 이러한 차이를 측정
방법2) 변이형 오토인코더(VAE) + 생성적 적대신경망(GAN)
- GAN으로 재구성된 이미지의 품질 향상
- VAE-GAN의 이상도 측정법) 픽셀수준의 L1거리 사용
이상치 탐지법
- 재구성 확률, 우도점수 활용 가능
- 입력 이미지와 가장 가까운 정상 이미지 간의 차이를 계산
  - AnoGAN
    - GAN모델 훈련 → 테스트 이미지와 가장 가까운 정상 이미지 사이의 차이를 추정하여 이상을 탐지
    - 정상이미지) 반복적인 최적화 과정을 통해 얻음
      
      ⇒ 반복적인 탐색과정 수행해야 하기에, 실제론 효율X
  - 탐지 성능 향상: 재구성의 어려움 증가시키기 방법
    - 일부 정보 제거 → 완전하지 않거나 손상된 입력이미지로부터 원래의 이미지 재구성하도록 convolution 오토인코더 사용
    - 정보의 저하 과정은 비정상 이미지의 재구성 난이도를 효과적으로 증가시킬 수 있으므로 정상 및 비정상 샘플 간의 이상 점수를 크게 키울 수 있으며, 이로써 탐지 성능을 향상

B. 특성 모델링

특성 공간에서 이상을 탐지

수작업으로 설계된 특성 or 신경망에 의해 학습된 특성을 사용하여 → 전체 이미지의 지역 영역의 효과적인 표현을 구축하는 데 전념
정상 이미지의 특성 분포를 모델링
- 희소코딩, 가우시안 혼합모델, 클러스터링 (머신러닝 모델)
  
  : 이상 탐지를 위해 테스트 이미지의 지역 특성이 모델링된 특성 분포와 일치하지 않는 경우 해당 영역은 이상으로 레이블링
성능 향상 방법
- 다중 스케일 모델 앙상블 전략 : 다양한 이미지 영역 크기에서 유도된 여러 단일 모델의 결과를 결합
이상 탐지 방법
- 이미지를 많은 작은 이미지 패치로 나눈 다음 이미지 패치 수준에서 이상을 모델링하고 탐지
  - 훈련 및 테스트 중에 매우 시간이 소요되며, 특히 딥 신경망이 깊은 이미지 특성을 추출해야 할 때는 더 그렇습니다
실제 적용 사례
- MVtecAD로 비지도 이미지 이상탐지 알고리즘 평가
- 전이된 딥 합성곱 특성을 활용하고 특성 회귀를 통해 이상을 탐지
  - 사전에 학습된 딥 합성곱 특성 (예: ResNet18 [8])을 회귀 목표 또는 선생으로 사용하고, 정상 이미지의 대상 특성을 흉내 내거나 회귀하는 일련의 학생 네트워크를 훈련합니다. 테스트 중에는 학생 네트워크를 사용하여 선생 네트워크의 출력을 예측한 다음 해당 예측 오류와 불확실성 (분산)에 따라 이상 점수를 계산
- 일부 특성 기반 방법은 사전에 학습된 깊은 계층적 합성곱 특성을 활용하여 다중 공간 컨텍스트 정보를 코딩하려는 방향으로 진행되고 있으며, 이는 픽셀 수준의 이상 탐지 및 분할에 큰 잠재력을 보여주고 있습니다. Shi 등 [66]은 VGG19 [7]를 비롯한 사전에 학습된 깊은 합성곱 네트워크의 계층적 특성을 최대한 활용하고 이상 탐지를 위한 효과적인 특성 재구성 메커니즘을 개발했습니다.
- 계층적 합성곱 인코더를 제안하여 계층적 특성을 추출하고, 자기 지도 학습 전략을 설계했습니다. 이상 탐지를 위해 특별히 특성 일치 메커니즘을 개발했습니다. 구체적으로, 정상 이미지 패치의 특성을 사전에 추출하고 저장합니다. 그런 다음, 참조 단계에서 테스트 이미지의 특성은 가장 가까운 이웃 검색 방법을 사용하여 이전에 저장된 특성과 일치시킵니다. 마지막으로, 최소 일치 거리를 각 패치의 이상 점수로 취합니다. Cohen 등 [68]은 비슷한 특성 일치 메커니즘을 채택합니다. 그러나 그들은 ResNet18 [8]의 이미지넷 [69]에서 얻은 피라미드 구조의 합성곱 특성을 사용하기를 제안합니다.
- 또 다른 이미지의 시각적 이상 탐지를 위한 연구 방향으로는 Grad-CAM [70] 및 해석 가능한 심층 생성 모델 [71], [72]과 같은 기울기 기반 주의 메커니즘을 활용하는 것이 있습니다. Venkataramanan 등 [72]은 이상 영역을 찾기 위한 유도된 주의 메커니즘을 개발했습니다. Liu 등 [71]은 정상 데이터로만 훈련된 변분 오토인코더를 사용하여 이미지에서 잠재적인 이상을 추정하기 위한 기울기 기반 시각적 해석 방법을 제안했습니다.

결과적으로, 가장자리 또는 질감 영역에서 자주 큰 재구성 오류가 발생하여 많은 수의 잘못된 이상 경보가 발생할 수 있습니다.

[논문 리뷰] Are Transformers Effective for Time Series Forecasting? (AAAI, 2023) (NLinear, DLinear)

Sat, 12 Aug 2023 05:56:11 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

0. Abstract

LTSF해결위한 Transformer based 해결책의 급증
Transformer는 의미론적인 상관관계를 잘 해결함
순서가 있는 연속적인 point에서 시간적 관계추출해야됨
Transformer에서 encoding, token이용하면서 정보를 순서대로 놓아도,
self attention매커니즘의 순서가 변하지 않는 것은 일시적 정보손실을 반드시 낳는다*
LTSF-Linear가 기존의 정교한 Transformer-based LTSF 를 넘어서 좋은 성능 보여줌

1. Introduction

시계열

시계열 문제는 data기반 세계에 만연함
시계열 문제 해결 변천사 : 머신러닝 → 딥러닝

Transformer

Transformer 장점: 순서기반 모델, 병렬적이지 않은 해결, 다양한 적용 분야(NLP, 음성인식, cv
최근 시계열 위한 Transformer기반 해결책 엄청 많이 나옴
흔하지 않은 LTSF 해결위한 transformer모델들

Transformer 원리

Transformer원리: multi-head-self-attention 매커니즘→ self attention이 긴 시계열에서는 잘 작용못함

⇒ 요약: 긴 시계열 예측에서 Transformer가 self attention문제로 정보손실 발생할수도있는데, 진짜 효과적인거 맞냐? (목적: 긴 시계열 예측(LTSF))

non-Transformer로의 LTSF해결

⇒ 요약: 우리는 transformer based말고, non-transformer based인 DMS예측으로 해결하겠다

LTSF-Linear 소개

LTSF-Linear 개념: 1layer 선형 모델로 과거 시계열 회귀하여 미래 바로 예측함
LTSF-Linear 적용: 9개의 널리쓰이는 dataset들에 적용해봄
LTSF-Linear 적용결과: 현존하는 복잡한 Transformer보다 20~50% 더 성능 좋음

2. Preliminaries: TSF Problem Formulation

수식 해석

X: 과거 시계열을 나타내는 변수

C: 여러 시간 단계에서 C 변수의 값
L: 현재 시점에서 모델이 과거 데이터를 얼마나 멀리까지 살펴볼 것인지를 지정하는 값
Xti: time step X집합 = t=1부터 L까지의 시간 집합들

T: 미래 time step 측정한 과거시점(L)+1 ~ L+T = 현재2023년 ~ 2021년(L), T=5이면, X^은 2022년(L+1) ~ 2026년(L+T)

⇒ 요약: DMS가 긴 시계열에 유리하다.

3. Transformer-Based LTSF Solutions

Transformer-based models로 LTSF에서 많이 발전함
vanilla Transformer model의 문제점과 여러 해결법들

(vanilla Transformer model로 LTSF문제 다룰때의 문제점:

기존 self attention으로는 2차 시간/기억의 복잡성(앞에껄 기억못함)문제 발생

& 자동회귀 decoder로 인해 error누적)

(a) preprocessing: 시계열 데이터를 구성 요소로 분해 : 전체적인 추세, 계절성 패턴, 주기적인 변동 및 잔차 오차 → 분해해서 예측, 이상치 탐지, 시뮬레이션 등에서 활용가능 (b) embedding: 긴 시계열의 의존성 포착 및 시간적 문맥 강화 (c) encoding: 긴 시계열의 의미론적 유지를 위한 2가지 전략 (d) decoding

*Transformer based LTSF solution들은 self attention의 순서무관적인 성질이 불가피하게 적용되므로, 시간적 정보손실이 불가피하다. *

→ 시계열 모델링에서는 연속적인 시간적 관계가 위치관련한 것보다 중요하므로

4. An Embarrassingly Simple Baseline for LTSF

1. DMS 사용할 것 (기존 Transformer based LTSF문제들의 해결방안들 : 전부 IMS 사용(오류누적심함)
→ 이 연구에서는 DMS사용할것**
1. DMS기반 LTSF-Linear사용할 것
→ 과거값(L)을 입력으로 사용하고, T시점에서 한 번에 전체 예측을 수행*
→ 모델이 각 변수의 중요도를 동일하게 고려하고, 변수 간에 공간적인 상관관계를 반영X*
1. DLinear와 NLinear 개념
DLinear: 시계열 데이터의 구성 요소를 분해하고 선형 레이어를 통해 각 구성 요소를 처리하는 방법*
NLinear: 데이터셋 분포 변화 클때 사용*

5. Experiments

Experimental Settings

사전 세팅 : 9개의 현실 데이터셋 특징 → 모두 다변량 시계열 → MSE, MAE로 비교 → 4개의 최신 Transformer based methods(FEDformer, Autoformer ,Informer ,Pyraformer ) 포함 → naive DMS method: Closest Repeat : look-back 윈도우를 통해 이전의 데이터를 살펴보고, 윈도우 내의 마지막 값(가장 최근 값)을 반복하여 예측에 사용합니다. 예를 들어, 10개의 이전 데이터로 구성된 look-back 윈도우가 있다고 가정해봅시다. 해당 윈도우 내의 마지막 값이 50이라면, Repeat 방법은 이후의 예측에 계속해서 50을 사용)

Comparison with Transformers

Quantitative results

성능 측면
- 다변량 : 변수간 상관관계 없더라도 대부분 transformer적용보다 LTSF-Linear적용한게 예측 성능 좋음
  - NLinear, DLinear : 분포 이동 및 trend-seasonality특징 처리하는데 좋음
- 일변량 : transformer적용보다 LTSF-Linear적용한게 예측 성능 좋음
Repeat method
- Exchange-Rate 데이터에서 성능이 젤 좋음 : Transformer based방법들은 일부 잡음에 대해 train data에서 과적합되어 정확도 감소
  Qualitative results
Transformer의 한계
- Transformer는 비주기적이고, 다른 시간적 패턴을 가진 데이터는 추세 및 결과를 예측 잘 못함

6. More Analyses on Transformer-Based Solutions

1) Can existing LTSF-Transformers extract temporal relations well from longer input sequences?

일반적으로 시계열 모델에서 LTSF-Linear 성능은 input look-back window size가 증가함에 따라 성능 향상
Transformer는 look-back window size가 증가함에 따라 성능이 저하 or 안정적일수도
- 대부분의 Transformer들에는 input=96이 젤 적당함

2) What can be learned for long-term forecasting?

Transformer는 단기 시계열 예측에만 유용
→ look-back window가 작아야 유용함!*
단기시계열
- look-back window 영향 큼
장기시계열
- look-back window 영향 작음

3) Are the self-attention scheme effective for LTSF?

결론
- self-attention같은 복잡한 디자인은 LTSF에 쓸모없다
확인 과정 (ex. Informer)
- 기존의 Transformer (예: Informer)에서 이러한 복잡한 디자인이 필수적인지 여부를 확인
- Informer를 점진적으로 Linear로 변환
  - 1) Att.-Linear: 각 self-attention 레이어를 linear 레이어로 대체
    - self-attention 레이어는 가중치가 동적으로 변하는 fully-connected 레이어로 간주
  - 2) Embed + Linear: Informer의 다른 보조 디자인 (예: FFN)을 제거하여 임베딩 레이어와 linear 레이어만 남김
  - 3) 모델을 단일 linear 레이어로 단순화

4) Can existing LTSF-Transformers preserve temporal order well?

결론
- 기존 LTSF-Transformer : 시간적 관계 제한적으로 보존,
- 모든 경우에 대해 LTSF-Linear의 성능 하락폭이 Transformer 기반 방법보다 크며, 이는 기존의 Transformer들이 시간적 순서를 잘 보존하지 못한다

5) How effective are different embedding strategies?

Transformer들 위치, 시간 임베딩 유무 성능 비교

6) Is training data size a limiting factor for existing LTSF Transformers?

Transformer모델을 시간을 원래꺼와 줄였을때의 성능 비교

(Traffc 데이터셋에서 실험을 수행하여 전체 데이터셋 (17,544 * 0.7 시간)에서 훈련된 모델(Ori.)과 축소된 데이터셋 (8,760 시간, 즉, 1년)에서 훈련된 모델(Short)의 성능을 비교)
- 결과: 축소된 훈련 데이터를 사용한 예측 오차가 보통적으로 더 낮음
- 더 적은 데이터를 사용해야 한다는 결론을 내릴 수는 없지만, 이는 훈련 데이터의 규모가 제한적인 요인이 아니라는 것을 보여줌

7) Is effciency really a top-level priority?

DMS 디코더를 사용하는 기본 Transformer와 비교했을 때, 대부분의 Transformer 변형은 실제로는 비슷하거나 더 나쁜 추론 시간과 매개변수를 유발

7. Conclusion and Future Work

Conclusion

장기 시계열 예측 문제에 대한 신흥 Transformer 기반 솔루션의 효과성을 의심합니다.
저희는 DMS 예측 기준선으로서 극히 간단한 선형 모델인 LTSF-Linear을 사용하여 주장을 검증

📖 사전 지식 자료

Transformer

개념

트랜스포머(Transformer)는 2017년에 발표된 딥러닝 모델로, 주로 자연어 처리(Natural Language Processing, NLP) 작업에 사용되는 강력하고 혁신적인 아키텍처입니다. 이 모델은 기존의 순환 신경망(RNN) 기반 모델의 한계를 극복하고, 특히 긴 시퀀스 데이터를 처리하는데 뛰어난 성능을 발휘하여 자연어 처리 분야에서 혁신적인 발전을 이끌어냈습니다. 트랜스포머는 "Attention is All You Need"라는 논문에서 처음 소개되었으며, 구글 브레인(TensorFlow) 팀에 의해 개발되었습니다. 이 모델은 인코더와 디코더라는 두 가지 주요 구성 요소로 구성되어 있으며, 각각은 다수의 층으로 구성됩니다. 트랜스포머의 주요 특징은 다음과 같습니다:

어텐션(Attention) 메커니즘: 기존의 RNN과 LSTM과 같은 순환 신경망은 시퀀스 데이터를 순차적으로 처리하며 정보를 전달하는 방식이었습니다. 하지만 트랜스포머는 어텐션 메커니즘을 통해 입력 시퀀스의 모든 단어들을 동시에 처리하고, 특정 단어가 다른 단어들과 얼마나 연관되어 있는지를 계산합니다. 이를 통해 시퀀스 간의 관계를 더 잘 이해하고 처리할 수 있게 되었습니다.

셀프 어텐션(Self-Attention): 트랜스포머의 인코더와 디코더 층은 셀프 어텐션 메커니즘을 사용합니다. 이는 입력 시퀀스 내의 각 단어가 서로 어떻게 관련되어 있는지를 계산하여 가중치를 부여하는 방식입니다. 이를 통해 모델은 문장 내의 단어들 사이의 문맥을 파악하고 중요한 정보를 잘 추출할 수 있습니다.

위치 인코딩(Positional Encoding): 트랜스포머는 입력된 단어들의 위치 정보를 학습하는 데에 순서 정보가 없는 멀티헤드 어텐션을 사용합니다. 따라서 위치 정보를 주입하여 각 단어의 상대적인 위치를 모델에게 알려주어야 합니다. 이를 위해 위치 인코딩을 사용하여 단어의 상대적인 위치 정보를 임베딩에 추가합니다.

멀티헤드 어텐션(Multi-Head Attention): 트랜스포머에서는 어텐션을 여러 개의 헤드로 분할하여 독립적으로 계산하는 멀티헤드 어텐션을 사용합니다. 이를 통해 다양한 관점에서의 어텐션 정보를 학습하고, 모델의 성능을 향상시킵니다.

트랜스포머는 기존의 NLP 작업들을 획기적으로 개선시키면서, 특히 번역과 같은 시퀀스-투-시퀀스(Seq2Seq) 작업에 매우 성공적으로 적용되었습니다. 이후 많은 변형 모델들이 개발되어 다양한 자연어 처리 작업에 응용되고 있으며, 트랜스포머 아키텍처는 자연어 처리 분야의 핵심 기술로 자리잡고 있습니다.

transformer에서 self-attention으로 인해 정보손실 어떻게?

시계열 데이터가 [10, 20, 30, 40]이라고 가정.

Transformer 모델은 이 데이터를 (토큰으로 분할하고 임베딩을 적용)한 뒤 self-attention을 통해 처리. 그러나 self-attention은 순서 정보를 고려하지 않고 각 토큰을 독립적으로 처리하기 때문에, [10, 20, 30, 40]과 [30, 20, 40, 10]을 동일하게 취급. 이는 일부 상대적인 순서 정보는 보존되지만, 절대적인 시간적인 흐름에 대한 정보는 손실될 수 있다는 의미

Transformer에서 self-attention의 역할 및 효과?

Long-range 의존성 학습: 모든 위치가 다른 위치와 상호작용하기 때문에, 장기적인 의존성을 더 쉽게 학습

효율적인 정보 전달: 입력의 중요한 부분에 집중하여 효율적인 정보 전달

희소성 편향? low rank property?

희소성 편향 Sparsity bias(희소성 편향)란, 특정 데이터 또는 정보가 다른 데이터에 비해 상대적으로 희소하게 분포되어 있을 때 발생하는 경향을 가리키는 용어. . 이때, 중요한 정보가 희소하게 분포되어 있다면, 모델은 그 중요한 정보에 더 집중하고 학습하도록 ⇒ 입력 시퀀스를 분할해서 데이터를 희소하게 만들어서, 중요 정보에 더 집중하도록

low rank property self-attention은 입력 시퀀스의 길이에 따라 큰 행렬 연산을 수행해야 합니다. 이러한 연산은 계산량이 많고 메모리 사용량도 증가시키는 단점이 있습니다. 하지만 일부 행렬은 실제로는 다른 행렬로 근사될 수 있는 경우가 있습니다. 이렇게 근사 가능한 행렬을 저차원의 행렬로 대체하는 것을 저차원 속성 ⇒ 입력시퀀스의 행렬을 저차원 행렬로 줄여서, 중요 정보에 더 집중하도록
- 저차원 근사: self-attention 레이어에서 사용되는 일부 행렬을 더 낮은 차원의 행렬로 근사
- 저차원 연산: self-attention 계산을 수행할 때 행렬 연산을 저차원의 연산으로 대체

변형들

LogTrans
- 개념

    - **희소성 편향이 어케 적용?**
        - LogTrans에서는 이러한 계산 복잡도를 줄이기 위해 입력 시퀀스를 **여러 세그먼트로 분할**합니다. 그리고 각 세그먼트에 대해 **self-attention을 적용**할 때, 이전 세그먼트와의 관계를 고려하여 **연결되는 부분만을 선택**합니다. 이렇게 함으로써 특정 세그먼트와 연결된 부분만을 집중적으로 계산하고, 다른 부분은 무시함으로써 계산량을 크게 줄입니다.

            이 과정은 마치 공을 미로 속으로 놓고 특정 규칙에 따라 미로를 통과시키는 것과 비슷합니다. 희소성 편향은 마치 어떤 통로를 통해 통과시킬지를 선택하는 규칙이라고 생각할 수 있습니다. 이렇게 선택된 통로만을 따라 self-attention 연산을 수행하여 계산 비용을 줄이


    - Transformer 모델을 기반으로 한 로그 데이터 분석을 위한 변형 모델
    - 로그 데이터는 주로 시계열 형태로 구성
    - self-attention과 시계열 특성을 고려하여 로그 데이터의 패턴을 학습하고 예측
- **Encoder**
    - LogSparse , convolutional self-attention
- **Decoder**
    - IMS(Iterated Multi-Step)

Informer
- 개념

    - 시계열 데이터에 대한 예측을 수행하는 Transformer 기반의 모델
    - 입력 시퀀스의 길이와 패턴을 고려하여 자동으로 가변적인 길이의 시계열 데이터를 처리
- **Encoder**
    - ProbSparse and distiliting self-attention
- **Decoder**
    - DMS(Direct Multi-Step)

Autoformer
- 개념

    - 자동 기계 학습 모델 구조 탐색(automated model architecture search)을 위한 Transformer 기반의 모델
    - 네트워크 구조, 층 수, 헤드 수, 임베딩 차원 등의 하이퍼파라미터를 자동으로 조정
    - **series auto correlation with decomposition (서로 다른 시간 간격만큼 데이터가 얼마나 상관되어 있는지) :** 자기상관성은 주기성과 추세 등의 패턴을 파악하는 데 도움이 되며, 시계열 데이터의 미래 값을 예측하거나 시계열 모델을 구축하는 데 중요한 정보를 제공
- **Encoder**
    - Series auto-correlation with decomposition
- **Decoder**
    - DMS with auto-correlation and decomposition

Pyraformer
- 개념

    - **희소성 편향이 어케 적용?**
        - 입력 시퀀스를 **여러 레벨의 피라미드 구조로 분할**하고, 각 레벨에서 self-attention을 수행하는 방식

    - 피라미드 구조(pyramid structure)를 활용하여 입력 시퀀스의 길이에 따라 유연하게 처리할 수 있는 Transformer 기반의 모델
    - 입력 시퀀스를 여러 다양한 해상도로 다운샘플링하고, 각 해상도에서의 정보를 합성하여 전체 시퀀스에 대한 표현을 생성
- **Encoder**
    - Multi-resolution pyramid attention
- **Decoder**
    - DMS along spatio-temporal dimension

FEDformer
- 개념

    - 데이터 분산 학습을 위한 효율적인 Transformer 기반 모델
    - Federated Learning + Transformer
    - 여러 개의 클라이언트에서 분산된 데이터를 학습하고 전역 모델을 업데이트
    - 중앙 집중화된 데이터를 전송하지 않고, 로컬 데이터에서 그래디언트를 계산하여 개인 정보 보호와 데이터 보안을 강화
- **Encoder**
    - Frequency enhanced block with decomposition
- **Decoder**
    - **DMS** with frequency attention and decomposition

Repeat
- 개념

Seasonal-Trend Decomposition

연간 매출 데이터를 가정해보면, 계절적 패턴(예: 연말에 매출이 증가하는 경향)과 전반적인 추세(예: 연간 매출이 점차 상승하는 경향)

장점

시계열 데이터는 시간에 따라 변화하는 데이터이기 때문에, 계절성과 추세를 분해하여 개별 구성 요소를 분석함으로써 데이터의 특성을 파악할 수 있습니다. 이를 통해 다음과 같은 이점을 얻을 수 있습니다:
1. 계절성 추정: 계절성-추세 분해를 통해 계절성 구성 요소를 추정할 수 있습니다. 이를 통해 데이터의 주기적인 변동성을 확인하고, 계절성 패턴을 파악할 수 있습니다. 예를 들어, 매월 판매량 데이터에서 계절성 구성 요소를 추정하여 매년 같은 시기에 어떤 제품이 가장 많이 팔리는지를 확인할 수 있습니다.
2. 추세 파악: 추세 구성 요소를 추정함으로써 데이터의 장기적인 변동성을 파악할 수 있습니다. 추세는 데이터가 장기적으로 증가하거나 감소하는 경향을 보여줍니다. 이를 통해 시장 동향을 예측하거나 장기적인 패턴을 파악할 수 있습니다.
3. 잔차 분석: 잔차는 계절성과 추세를 제외한 나머지 변동성을 나타냅니다. 잔차를 분석함으로써 계절성과 추세로 설명되지 않는 불규칙한 요소들을 파악할 수 있습니다. 이를 통해 예측 모델의 정확도를 높이거나, 데이터의 이상치를 감지할 수 있습니다.

Etc

Naive DMS, DMS, IMS

개념
- Naive DMS
  - 다음 시간 단계의 값을 예측하기 위해 이전 시간 단계의 값을 사용
- DMS
  - 여러 시간 단계를 한 번에 예측하는 방법
  - 이전 시간 단계의 값을 사용하여 한 번에 다음 여러 시간 단계를 예측
- IMS
  - 예측된 값을 다시 입력으로 사용하여 반복적으로 예측하는 방법
예시

- **Naive DMS**
    - t=6의 값을 예측하려면, t=5의 값을 그대로 사용.

        예측: t=6, y=30

- **DMS**
    - t=6, t=7, t=8의 값을 예측하려면, 이전 시간 단계의 값을 사용하여 한 번에 세 가지 값을 예측

        예측: t=6, y=35
        t=7, y=40
        t=8, y=45

- **IMS**
    - t=6, t=7, t=8의 값을 예측하려면, 이전 시간 단계의 값을 사용하여 첫 번째 예측을 수행하고, 이 예측값을 다시 입력으로 사용하여 두 번째 예측을 수행. 이러한 과정을 반복하여 여러 시간 단계를 예측

        예측: t=6, y=35 (t=5의 값 사용)
        t=7, y=40 (t=6의 예측값 사용)
        t=8, y=45 (t=7의 예측값 사용)

[논문 리뷰] Forecasting with Sparse but Informative Variables: A Case Study in Predicting Blood Glucose (AAAI, 2023)

Sat, 12 Aug 2023 05:23:50 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😊 개인 기록용 포스트입니다

1. Introduction

SIV(희소하지만 정보를 제공)의 효과적 활용 위해, 이 논문의 독자적인 접근방식이 rMSE면에서 기준선 접근방식보다 뛰어남

SIV가 손상되면 논문의 독자적 접근방식도 성능 낮아질것
결론*) 논문의 접근방식은 예측에서 SIV를 더 효과적 사용가능

내재+외재 = 예측정확도 향상

But 혈당과 같은 생리학적 변수의 예측에서는 내재+외재에서 예측 정확도가 향상되는 경우 없을수있음

보조신호와 대상 신호간의 비제로값이 상대적 불일치 때문

보조신호(외재)가 대상 신호(내재)에 영향 미치는데 매우 희소( 희소하지만 정보를 제공하는 변수(SIV) =⇒ 희소성에도 불구하고 SIV를 활용하여 전반적인 예측 개선

SIV문제

언제 발생) 부가변수가 시간에 따라 대상 변수의 크기를 증가시키거나 감소시킨다는 것을 알고는 있지만 정확한 효과가 알려지지 않을 때 발생
왜 문제점인가) 일반적인 다중 입력 예측 접근방식이 부가변수 활용 못하도록함.(=단일 입력만 처리 가능)

SIV문제 극복 모델

예측정확도 향상되는 방향으로 활용
중요한 변수가 대부분의 시간에서 0값을 가질때 발생하지 않도록

The Linked Encoder/Decoder

내재적 효과와 외재적 효과의 분리(연결된 2개의 디코더 네트워크통해 구현) + 도메인 지식의 통합(SIV네트워크의 출력 제한)

Contribution

희소하지만 정보를 제공하는 변수(SIV) 문제를 제시합니다.
SIV의 효과를 분리하고 도메인 지식을 통합함으로써 SIV를 활용하는 혁신적인 예측 접근 방식을 제안합니다.
혈당 측정을 예측하는 문맥에서 모델을 평가하고, noise가 적은 경우에도 SIV를 효과적으로 활용함을 보여줍니다.

2. Problem Setup

다중 입력 단일 출력 시계열 예측작업

기존엔 단일 대상변수의 미래값 예측
but 추가 보조변수(x’)의 미래값 예측 하도록

하려는 것

대상신호의 다음 h개의 시간점 예측

걍 SIV문제를 혈당예측(BG농도 추정)에 활용하겠다.

인슐린, 탄수화물 측정 이후 정확한 예측 중요해서, 그 시간동안 가장 혈당 변동성이 크고 개인에게 위험 제공해서

3. Methods

인코더 1개 , 디코더 2개(SIV동태, 내재적 동태)로 구성 특징

디코더 공통: hidden state공유하며 병렬처리
SIV 디코더: SIV신호를 입력받음

$h_0θt$는 두개의 디코더의 합

내재, 외재적 효과 모두 포착
즉, yˆt = FC($h_0θt$)

주의점

x0=0일때는 φ가 활성화되지 않으며, h0θt = hθt가 됨
SIV신호: 시간별로 이동되어, 인코더의 상대적 위치를 암묵적 표현

하나의 SIV를 가진 설정에 대한 제안된 아키텍처 개요 제시

여러 SIV가 있는 경우, 보조 디코더 수 늘리고, 각 SIV의 알려진 효과에 따라 제한 적용

φ

관련된 SIV신호와 $h_0θt$만 입력받음 $h_0θt$
모든 SIV디코더 시스템에의해 수정됨

FC 이후의 디코더 단계에 전달되는 hidden state

SIV 개수 +1개

SIV 활용이 어려운 이유

SIV가 입력 창의 단 하나의 시간점에서만 발생
훈련 중 gradient에 거의 영향X

Figure3

기준선, 제거 실험에 대해 성능 향상
입력시계열의 첫번째 0이 아닌 SIV값 이전까지의 값=0
계속 누적되어 구성됨

4. Experimental Setup

<예측>

BG: 혈당
목표: 2가지 SIV (탄수화물, 인슐린 볼러스)기반하여 미래 30분 후의 BG(h=6)예측
h=6: 일반적인 BG 예측 벤치마크
대상, 보조변수: 0~1사이 스케일링 , 최대 예상값에 선형스케일링 적용
각 개인 훈련, 검증, test data: 겹치는 길이 T + h (모델 입력과 레이블로 사용)

<평가>

SIV가 제거될때, 모델이 학습할 수 있는 대상변수로부터 최대 정보량 학습할 수 있도록
SIV가 없는 데이터에서 훈련 및 테스트
기준 인코더/디코더 오차와 SIV사용의 개인별 개선도 비교
- 이 방법이 기준에 비해 개인별로 얼마나 큰 개선 제공하는지 확인
- 기준에서 SIV 잘 모델링X → 개인에 대해 기준오차 높음
- SIV 사용 낮으면 → 우리 접근방식이 기준에 비해 더 큰 개선 제공

5. Conclusion

SIV(Silent Information Versioning) 문제는 RNN을 사용한 다중 입력 예측에서 발생하는 일반화 성능 저하 문제입니다.

이 문제는 희소하게 샘플링된 변수(SSV) 문제와는 별개로, 결측치와 노이즈를 처리하는 기존의 보간 접근 방식으로는 해결할 수 없습니다.
SIV 문제는 아직 해결되지 않았지만, 변수 간 상호 관계를 학습하기 위해 어텐션 메커니즘과 같은 여러 기법이 제안되었습니다.
그러나 이러한 기법들은 희소성 문제를 고려하지 않거나 도메인 지식을 충분히 활용하지 않는 경우가 많습니다.
SIV 문제를 해결하기 위해 변수 간 관계를 명시적으로 모델링하는 다양한 접근 방식이 제안되었지만, 희소성 문제를 다루지 않거나 도메인 지식을 충분히 활용하지 못한 경우가 있습니다.
우리의 연구는 SIV 문제를 해결하기 위해 은닉 상태의 부호를 제한함으로써 더 유연한 접근 방식을 제안하고 있습니다.

[논문 리뷰] Outlier Impact Characterization for Time Series Data (AAAI,2021)

Sat, 12 Aug 2023 05:11:13 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😅 이번 리뷰는 손필기로 대체합니다 😊 개인 기록용 포스트입니다

[논문 리뷰] Greykite: Deploying Flexible Forecasting at Scale at LinkedIn (KDD,2022)

Sat, 12 Aug 2023 05:07:09 GMT

📌 본 내용은 논문 입문자가 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다.📌 😅 이번 리뷰는 손필기로 대체합니다 😊 개인 기록용 포스트입니다

[Deep Learning] Loss Function 총 정리 (MAE, MSE, RMSE, Cross Entropy)

Sat, 12 Aug 2023 04:58:28 GMT

📌 본 내용은 개인적으로 정리한 Loss function의 전반적인 흐름과 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. 📌

0. 목차

1. Loss function 개념

2. 데이터 형식에 따른 손실 함수

3. 데이터 형식에 따른 손실 함수 - 회귀

4. 데이터 형식에 따른 손실 함수 - Entropy, Cross Entropy

5. 데이터 형식에 따른 손실 함수 - Binary, Categorical Cross Entropy

6. Index

[Michigan DL/cs231n] 13강: Attention

Sat, 12 Aug 2023 04:41:56 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌 😅 이번 강은 손필기로 대체합니다.

[Michigan DL/cs231n] 12강: Recurrent Neural Networks

Sat, 12 Aug 2023 04:39:56 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌 😅 이번 강은 손필기로 대체합니다.

[Michigan DL/cs231n] 11강: Training Neural Networks (Part2)

Sat, 12 Aug 2023 04:16:57 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌

1. Learning Rate Schedules

1) 비교

해석
- very high LR: loss가 급증함
- low LR: 매우 천천히 학습 진행
- high LR: 매우 빨리 수렴하지만, loss가 덜 낮아짐
- good LR: 적당
질문
- Q. 어떤 LR이 가장 사용하기 적절한가?
- A. 다 ㄱㅊ음! high LR부터 시작해서 줄여가보자.
  
  = LR Schedule 이라고 함

2) LR Decay

a. Step Schedule

개념
- 고정된 point들에 LR을 감소해줌
- ex. ResNet → 0.1부터 시작해서 30 epoch마다 0.10.1, 0.10.1*0.1 이런식으로 줄임
문제점
- trial & error가 너무 많음 = train model 에 너무 많은 새로운 hyper parameter넣음 = 너무 많은 경우의 수를 생각해서 tuning 해야됨 = LR을 decay할 특정 지점 선택해야됨 ⇒ 몇번 반복시마다 LR줄일건지 & 어떤 LR로 줄여나갈건지 결정해줘야 됨

b. Cosine Schedule

개념
- LR을 decay할 특정 지점 설정하는 대신, 초기 LR만 설정
  - 기존보다 매우 적은 hyperparameter로 train하기 더 쉬움
  - train longer ↑ → 성능 ↑
해석
- 절반쯤에 LR이 떨어짐 = 첨에 LR 높게 시작하고, train 끝쯤에 LR이 0에 가까워짐
문제점
- 계산 복잡도 올라감

c. Linear Schedule

개념
- 기존보다 simple함
cf) cos과 linear중에 뭐가 더 나은지는 연구가 적어서 말하기 애매함.
- domain별로 선호하는 LR schedule 존재
  - cv : cos schedule 선호
  - NLP: linear 선호

d. Inverse Sqrt Schedule

개념
- square root 사용
문제점
- 초기 high LR에서 갑자기 확 줄어듦

e. Constant

개념
- 젤 흔함
- 생각보다 잘 적용됨 (걍 이거 사용해도 ㄱㅊ음)
- 더 복잡한 schedule로 갈수록, 몇% 더 좋은 성능
기존 Schedule과의 차이
- 모델 work/not work에서 차이X
- constant → 더 복잡한 schedule로 갈수록, 몇% 더 좋은 성능
- 걍 모델이 work만 되게 하면 되면, constant가 괜찮은 선택
cf) SGD+Momentum → LR decay schedule 선택 중요 RMSProp or Adam → 걍 constant 써도 ㄱㅊ

관련 질문

Q. Loss가 높아졌다 낮아졌다 다시 높아지는 경우가 있나요? A. 있음. zero-grad가 되는 경우를 고려하지 않을때, task의 type에 따라 bad dynamic을 볼 수도 있다. data corruption이 explode를 유발 가능하다 (일반적인 답은 아님, 사바사)

3) Early Stopping

개념
- val의 accuracy가 감소하려할때 (overfitting 전) 반복 중지시켜야됨
  - 매 iteration마다의 model snapshot저장후, val set에서 가장 잘 work시의 weight가져옴

2. (GPU多) Choosing Hyperparameters

📍 Grid, Random Search 1) 방법

a. Grid Search

개념
- 미리 정해진 숫자들

b. Random Search

개념
- 범위 내의 랜덤한 숫자들

2) 비교

해석
- Grid Search: 중요 파라미터들을 덜 잡아냄
- Random Search: 중요 파라미터들을 더 많이 잡아냄

3) Random Search Weight decay

3. (GPU 無) Choosing Hyperparameters

📍 총 7step 과정

1) 과정

a. 초기 loss 측정

weight decay 설정 안한 상태에서, 맨 처음 loss 확인 ex. softmax → 맨 처음 loss값이 logC가 아니면, 네트워크 오류있음

b. 작은 sample을 overfit해보기

작은 training set (5~10 미니배치)에서 100% accuracy가 나오는지 확인
- loss가 잘 안떨어지면, LR, weight initialization 고려

c. loss가 줄어드는 LR찾기

Step2의 architecture 고정 후, 모든 train data 활용하여 100 iteration동안의 LR시도 → loss가 줄어드는 LR 찾기

d. epoch 1~5번 돌려보며, weight decay 조정

여기서 엄청 낮은 성능을 얻을리X

e. Refine grid, train longer

Step4에서 고른 모델 epoch 늘려서 train시킴 → 엄청 오래걸릴수도

f. Learning curve 확인하기

train loss → 움직이는 손실평균
train loss

- **해석**
    - **loss가 처음에 평평하다가 갑자기 감소**
        = **weight 초기화**가 좋지 않음 (train 초기에 진전이 없어서)


    ![](https://velog.velcdn.com/images/ha_yoonji99/post/149a1864-5e3e-487b-a139-6bc72798b7e3/image.png)


- **해석**
    - **loss가 감소하다가 더 떨어질 가능성 있지만 안떨어짐**
        = **LR 설정** 좋지 않음 (LR이 너무 높았을것)


![](https://velog.velcdn.com/images/ha_yoonji99/post/dc557201-6215-4113-b628-4879dbe433fd/image.png)


- **해석**
    - **너무 빨리 LR을 줄인 경우**
        = loss가 **flat해지는 지점까지 기다렸다가 decay**하기

train, val accuracy

- **해석**
    - **train과 val의 accuracy가 같이 증가 & 적당한 차이 유지**
        →  **해결) train 더 시키면 됨**


    ![](https://velog.velcdn.com/images/ha_yoonji99/post/bb7a1684-31a3-4065-9ddc-50ac0e1f25c4/image.png)


- **해석**
    - **train과 val gap이 갈수록 커짐 = 오버피팅**
        → **해결) regularization ↑***(=L2 규제에서 $\lambda$를 더 크게 지정 or data augmentation)***, data 더 모으기**


![](https://velog.velcdn.com/images/ha_yoonji99/post/4f829e97-873a-4c48-94dc-d60ec7f87dc1/image.png)


- **해석**
    - **gap이 거의 없음 = 언더피팅**
        **→ 해결) train longer, 더 큰 모델 사용**

g. GOTO step5

하이퍼파라미터 조정 반복
LR, LR decay schedule, update type
regularization(L2, Dropout strength)

4. After Training: Model Ensemble (Tip&trick: LR schedule, polyak averaging)

📍 앙상블, transfer learning, large-batch training

1) Model Ensembles

개념

- multiple 서로 다른 모델들 학습
- 학습 결과를 test time에 평균내기
- 앙상블 하면 **2%정도** 성능 올라감

Tips & Tricks (하나의 모델로 앙상블 효과 내기)
- 방법
  - LR schedule 활용하기

        : LR decay 주고, 특정 시점마다 다시 LR 높게 주면서 구간별 모델의 snapshot을 저장하여 모델이 낸 결과를 평균내어 앙상블 구현


    - **Polyak averaging**

        ![](https://velog.velcdn.com/images/ha_yoonji99/post/397b97e5-17bd-4405-87b6-730cac3d9178/image.png)


        : train 후의 파라미터가 아닌, **train 시의 파라미터** moving average(x)를 test에 활용

5. After Training: Transfer Learning

📍 feature extract, fine tuning

1) 발생 배경

CNN에서 많은 데이터가 필요하다는 문제에 해결책 제시

2) CNN에서 적용해보기

개념
- dataset이 작다면 매우 효과적
- CNN을 feature 추출기로 만들고 → 그 위에 linear 분류
사용 예시
- feature를 우리가 신경쓰는 어떤 작은 data set에 적용 (=이미지넷의 1000개 카테고리 분류대신, 10개의 종류 분류정도만 하고 싶은 것) → 행렬 임의로 재초기화 (ex. imageNet: 40961000, 새로운 class: 4096c10) → *(Freeze these)** 모든 이전 계층의 가중치 고정 → 선형 분류기 훈련 → 마지막 계층 파라미터들만 훈련 → 데이터에 수렴
성능 비교 예시

![](https://velog.velcdn.com/images/ha_yoonji99/post/6587057d-6334-464e-b0b8-783955797df5/image.png)


- **해석**
   - Alexnet feature들을 이전 방법에 적용시키면 더 좋은 성능

![](https://velog.velcdn.com/images/ha_yoonji99/post/a3c88ac1-0fa9-447b-bb2e-041d5afe06fb/image.png)


- **해석**
    - **imageNet에서 feature추출한 pretrained model로 → feature벡터위에 NN적용**
        = transfer learning으로는 젤 간단한 예시 (단순히 feature vector추출하고 사용)

    - 최근접이웃 방법으로 image 복구작업 수행

3) Bigger dataset: Fine-Tuning

개념
- 마지막 layer버리고, 새 layer(새로운 데이터셋의 분류 category와 관련되도록 초기화)로 대체 = 모델 전체를 새 분류 dataset에 맞춰 다시 학습
- 고정된 feature 추출기X, 실제 모델로 역전파하며 모델 가중치 계속 update → downstream에서의 성능 개선
downstream 성능 향상 위한 trick & tips
- 먼저 feature extraction → 그 위에 linear model학습 → 전체 모델 다시 fine tuning
- fine tuning진행 시, LR을 크게 감소시켜야 할수도 있음
- 컴퓨팅 비용을 아끼기 위해 low layer를 freeze해라.
성능 비교

- **해석**
    - **고정된 Feature Extraction:** 전체 network freeze하고 **feature extraction**으로만
    - **fine tuning: 새로운 dataset**에 대해 전체 신경망 모델 계속 학습 → 성능 더 ↑

6. After Training: Transfer Learning_Architecture Matters & 특징 일반화

해석
- imageNet에서 잘되면 다른 데서도 잘됨
- 예시

1) Transfer Learning 특징 일반화

	매우 비슷한 dataset	매우 다른 dataset
매우 적은 data	제일 윗계층에서 linear classifier사용	곤란한 상황, 여러 단계로부터 linear classifier 시도
꽤 많은 data	몇개의 layer 미세조정	더 많은 계층 fine tuning

2) 전이학습 활용 예시들

a. 물체 인식, image captioning

해석
- 둘 다 CNN으로 imageNet pretrain함 + fine tuning

b. 정리 중 . . ⚠ 🚧

[Michigan DL/cs231n] 10강: Training Neural Networks (Part1)

Sat, 12 Aug 2023 03:52:18 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌

1. Activation Functions : Sigmoid

📍 3가지 문제점: saturated gradient, not zero-centered, 연산비용

전체 흐름

- **해석**
    - **axon from a neuron:** 이전 뉴런에서의 입력
    - **cell body의 f:** **activation function**으로 비선형화
        - 없으면 단일 선형 layer로 축소되므로 반드시 필요

1) 소개

개념
- 가장 classic 함
- 존재 or 부재에 대한 확률적 해석
- 0~1사이로 만듦
- “Firing rate” of neuron
  - 다른 들어오는 뉴런으로부터 신호 받은 후, 일정 속도로 신호 발화
  - 모든 입력의 총 속도에 비선형성 의존
    
    ⇒ sigmoid: 발화속도에 대한 비선형 의존성을 모델링 한 것

문제점 3가지 a. (젤 문제)포화된(Saturated) 뉴런들이 gradient를 죽임 (= 네트워크 훈련 어렵게 만듦)

- **x가 매우 작을때**
    - **local gradient(d$\sigma$/dx)가 0에 수렴**
    - **downstream gradient(dL/dx)도 0에 수렴하게 됨**

        **→ 가중치 update도 0에 가까워짐(가중치 update행렬과 관련된 손실의 모든 기울기가 매우 낮을거라서) → 학습 느려짐**

- **x가 0일때**
- **x가 매우 클때**
    - **gradient가 0에 수렴**

        → 매우 깊은 layer일때, 하위 layer에서 gradient 훈련 신호X (걍 0이라서)

b. sigmoid output들은 zero-centered가 아님

![](https://velog.velcdn.com/images/ha_yoonji99/post/6ec7acac-4822-4647-b3c5-fcb47e3b5bab/image.png)


- (원소 1개일때) **가정**
    - **모든 input neuron이 항상 +라면 W gradient는 어떻게 될까?**
        - (local gradient)가 항상 +가 됨
        - (upstream gradient)가 항상 +가 됨 (모든 손실or 기울기가 양수, Wi에 대한 모든 손실 or 기울기가 양수)

        **⇒ W에 대한 모든 기울기가 동일 부호 갖게 됨**

        **(=모두 양, 음이 된다는 제약 때매, 가중치의 특정값에 도달하는 경사하강법 단계 만들기 어려움)**

        - **부연설명**
            ![](https://velog.velcdn.com/images/ha_yoonji99/post/880a8800-8c8d-43d1-9808-85e48fe88672/image.png)
           - W초기값이 원점이고, 손실 최소화 위한 가중치 값은 원점에서 오른쪽 하단으로 이동위해 **W1은 +단계,  W2는 -단계여야 하는데, 둘다 같은 부호면 해당 사분면에 정렬된 단계 수행방법 X**
                - **경사하강절차가 해당 방향으로 진행하는 방법**
                    - 모든 경사가 위로 이동하는 지그재그 패턴

        **⇒ 결론) not zero-centered한 문제 때문에, train시 매 update마다 한쪽에 치우치니까 매우 불안정함**


- **(원소 여러개일때) Minibatch일때**
   - **not zero-centered한 문제 완화됨**
        - 미니배치에 대해 모두를 평균내면, 때로는 양수, 음수 나올수 있어서

c. 지수함수의 계산비용이 비쌈

![](https://velog.velcdn.com/images/ha_yoonji99/post/ab3f816e-b272-4ed7-9dfd-535466c10ed2/image.png)


- 지수함수는 많은 clock cycle이 돌아서 비쌈
- cf) relu와 sigmoid 비교했을때, sigmoid가 훨 오래걸림

2. Activation Functions : Tanh

📍 문제점: saturated gradient

개념
- Scaled & Shifted version of Sigmoid
- [-1,1] 범위
- zero-centered함
- 여전히 saturated할때 gradient가 죽음
  - saturating non-linearity를 neural network에 사용해야된다면, tanh>sigmoid 사용하는게 합리적
  - 그래도 saturated 문제때매 엄청 좋은 선택X

3. Activation Functions : ReLU, Leaky ReLU

📍 문제점: not zero-centered, -일때 gradient vanishing 1) relu

개념
- + 영역에서 saturate되지 않음 (=기울기 소실X, killing gradient X)
- 연산 비용 효율적 (cheapest 비선형함수)
  - cf) binary와 같이 구현가능, 간단한 임계값만 고려해서 계산비용↓
- sigmoid, tanh보다 매우 빨리 수렴
  - cf) 5000 layer같이 매우 깊은 layer면, sigmoid로 수렴하기 매우 힘들것 (batch norm 안쓸때)
문제점
- Not zero-centered output (sigmoid와 동일문제)
  - relu는 음수X, 모두 + or 0임
  - 이런 문제가 있긴하지만 gradient vanishing처럼 심각한 문제는 아니라 괜찮음
- 음수일때의 기울기 문제

    - **x가 매우 작을때 (dead relu; x<0이면 완전히 학습X)**
        - **local gradient(d$\sigma$/dx)가 0**
        - **downstream gradient(dL/dx)도 0**
            - cf) 그러면 sigmoid보다 더 안좋은것 아닌가? (sigmoid는 0에 수렴하는데 여기선 아예 0인데?)

                → 그래도 completely 0이 아녀서 학습 가능

    - x가 0일때
    - x가 매우 클때
        - **local gradient(d$\sigma$/dx)가 1**

    - cf) **Dead relu, Active relu**

        ![](https://velog.velcdn.com/images/ha_yoonji99/post/69241d15-ae2f-41d1-a181-ea586a0da560/image.png)


        - **active relu**
            - gradient 받고 정상적으로 train함
        - **dead relu**
            - 이 문제는 **모든 데이터가 음수**일때 발생, 일부가 + 이면 ㄱㅊ
            - **절대 train 불가**
            - **극복 방법 (trick)**
                - 0.01같이 조금의 positive 기울기로 초기화 (Leaky relu)

2) Leaky relu

개념
- 음수일때 작은 + 를 포함함
- 0.01 → hyperparameter임 (각자의 network에 맞게 학습 필요)
장점
- saturate되지 않음
- 효율적 연산 비용
- sigmoid, tanh보다 훨씬 빠른 수렴속도
- gradient vanishing되지 않음 ( local gradient가 0이 될 일이 없어서; 음, 양 모두에서)

3) PReLU

개념
- leaky relu에서 이어진 것
- $\alpha$ 를 학습해서 알맞게 가져옴 (learnable parameter)
- 스스로 학습 파라미터를 갖고 있는 비선형 함수
backprop into \alpha
- $\alpha$에 backprop해서 $\alpha$에 대한 손실 도함수 계산 후, $\alpha$에 대한 gradient decent step 만들기
- 문제점) 0에서 미분 불가능 → 해결) 두 방향 중 한 쪽을 고르기 (자주발생X여서 신경안써도됨)

4) ELU (Exponential Linear Unit)

개념
- relu보다 더 부드럽고, zero-centered 경향 ↑
수식
- $\alpha(exp(x)-1)$ (if x≤0)
  - (default $\alpha$=1)
  - zero-gradient 피하기 위함
  - 약간 sigmoid 모양
문제점
- 여전히 지수함수 포함
- $\alpha$ 때매 학습해야됨

5) SELU (Scaled Exponential Linear Unit)

개념
- Scaled version of ELU
- batch norm 제외하고, 깊은 SELU 네트워크 학습 가능
장점
- deep neural network + SELU = self normalizing property = layer가 깊어질수록 → 자기 정규화 속성 ↑ = 활성화 함수 잘 작동 ↑ & 유한한 값으로 수렴 = batch norm과 같은 정규화 제외 가능

4. Activation Functions : 전체 비교

걍 relu써라

5. Data Preprocessing

1) 개념

더 효율적 training 위해

2) 방법 2가지

(image data인 경우)

a. zero-center : 평균을 빼서 원점으로 가져옴

이렇게 해야 하는 이유?
- 이전에 sigmoid의 문제점으로 gradient가 항상 + or -면, W update도 항상 + or - 되는 문제 지님
- 비슷하게, 여기서도 train data가 모두 + or - 면, W update도 모두 항상 + or -.
- ⇒ 제한적으로 update될 수 밖에 없음*

b. normalized : 동일 분산 갖도록 크기 scaling (표준편차로 나눠서)

(input이 저차원, 이미지 아닌 경우)

원점 중심으로 옮기고 → rotate함
decorrelated data
- 공분산 matrix ?
whitened data
- identity matrix
normalize 전, 후 비교

- *(before norm)* **원점으로부터 멀면, weight matrix의 작은 변화에도 큰 변화 발생**→ *optimization process 어렵게 만듦*
    - ex. -2x+1 일때  zero-centered 되지 않으면, 함수가 -2.1x+1로 바뀔때, 데이터 분류 상황이 많이 바뀜 → classification loss 많이 변화 → optimization process 어렵게 만듦
- *(after norm)* zero-centered 되어있어서, **W의 작은 변화에 덜 민감**

3) 관련 질문들

Q1. 이런 전처리를 train, test에 적용? A1. 항상 train에 적용, test에서는 같은 정규화 사용
Q2. batch-norm사용시에도 전처리 필요? A2. batch norm을 모든 처리 이전 맨 첫단계에서 사용시 안해도 됨. but 전처리를 직접 하는거 보단 성능 낮을듯 ⇒ 실무에선 전처리 → batch norm 둘다 사용

6. Weight 초기화

📍 Xavier 출현배경 + Xavier에 대해 1) 방법 3가지 (모두 문제있음)

a. W=0, b=0으로 초기화

문제점
- 모든 output들이 0이되고, 모든 gradient가 동일해짐 = output은 input과 관련이 없어짐 ⇒ gradient =0이 돼서 totally stuck됨
- 대칭이 깨지지X (계속 같은 gradient 학습) → 학습 불가됨
b. small random 숫자들로 초기화*

문제점
- deeper network에서 문제 발생 = local gradient들이 모두 0이 됨 → downstream gradient도 0이 돼서 학습 X
  - 증명
    - 해석
      - 각 6개의 layer의 hidden unit값들을 시각화한것
      - hidden state = W가 Din, Dout의 사이에 small random값으로 초기화 되어 x와 내적한값
      - 이 hidden state들의 기울기가 점점 0에 수렴하게 됨
        
        cf) weight의 local gradient = 이전 layer의 activation
        
        결과
      - layer가 깊어질수록 activations가 0에 수렴 (학습에 매우 bad) ⇒ local gradient들이 모두 0이 됨 → downstream gradient도 0이 돼서 학습 X

c. W를 조금 더 큰 숫자로 초기화

문제점
- local gradient들이 모두 0이 됨 → downstream gradient도 0이 돼서 학습 X
  - 증명
    - 해석
      - tanh로 인해 극단값으로 밀려남
        
        결과
      - local gradient들이 모두 0이 됨 → downstream gradient도 0이 돼서 학습 X

2) 해결 방법

a. Xavier Initialization

방법

- **std = 1/sqrt(Din)**
- 하이퍼파라미터 X

결과

!

- layer가 깊어져도 ㄱㅊ음

conv layer에서 적용 방법

도함수
- Xavier의 목표
  - output 의 activation 분산 = input의 activation 분산 하기! (왜냐면 기존 초기화 방법들은 input과 output의 분산이 달라서 문제였어서)
  - 증명

        - **가정**
            - x,w는 모두 가우시안 분포를 따른다. (0 분산)
        - **결과**
            - **Var($w_i$) = 1/Din 이면, Var($y_i$) = Var($x_i$)이다**

            **⇒ 따라서 Xavier 초기화 = 1/sqrt(Din) 이 된 것.**

cf) ReLU로 input x와 W를 내적한다면?

- **결과**
    - **Xavier에서 relu 작동 X**
        - 이유) Xavier는 x와 w가 zero-mean임을 가정하는데 relu는 그렇지 않아서 맞지 않음

7. Weight 초기화 : Kaiming / MSRA 초기화

📍 relu그대로 사용대신, w초기화 방법 변경 → resnet에서 안맞는 부분 해결 1) 방법

relu그대로 사용, 대신 weight초기화 변경
(기존) std=1/sqrt(Din) → (변경) std=sqrt(2/Din)
- relu는 반을 죽이니까 걍 2배를 해도 됨 (뉴런의 절반이 죽을거라는 사실에 대해 조정)

2) 문제점

VGG를 scratch 내면서 train 시킴 (지적받음)
Residual Network에선 유용 X

- **이유: residual connection 이후의 output에 input을 다시 넣어서 분산, 분포가 엄청 클 것**
    - ex. Var(F(x))(1번째 output에 대한 분산) **=** Var(x)(input에 대한 분산) *(여기까진 정상)*

        Var(F(x)+ x)(2번째 output에 대한 분산) **>>** Var(x)(input에 대한 분산) *(residual로 input을 다시 넣어줘서 분산이 더 큼, 일치X)*

- **따라서, Xavier or MSRA에서 분산이 매우 크므로 → bad gradient → bad optimization**

3) 해결책

첫번째 conv를 MSRA로 초기화
두번째 conv (last layer)를 0으로 초기화

⇒ Var(x+F(x)) = Var(x) 일치 가능

= 분산이 너무 커지지 않을수있음

4) 질문

Q. (W 초기화 목적) 초기화의 idea가 손실함수의 global minimum에 도달하기 위함인가? A. 아님, train 전엔 그 minimum이 어딘지 모름, 대신 모든 gradient가 초기화를 잘 행할 수 있도록 하는 것 = 잘못된 초기화 하면 zero gradient가 되어버릴 수 있어서 = lost landscape에서 flat한 곳에서 시작하여 걸어가지(train) 않도록 도와주는 작업

8. Regularization : Dropout

1) 사용 목적

과적합 방지

2) 방법

a. Loss뒤에 $\lambda$$R(W)$ 붙이기

L2 norm → 젤 사용 多

b. Dropout

방법
- 각 layer마다 순전파 시, 랜덤하게 몇몇 뉴런들을 0으로 세팅
- 얼마나 drop할건지는 hyper parameter임; 0.5가 일반적

구현하기

Dropout하는 이유 2가지
- 중복 적용하는 것 방지
  - x의 feature잘 학습 위해, 필요없는 feature 덜 배우고 중복 노드 배우는걸 방지
- ⇒ 결론) 과적합 방지*
- 앙상블처럼

    - Dropout은 파라미터 공유하는 **여러 Neural Network 앙상블 training**
    - 여러 submodel 만들어서, **앙상블처럼 최종 결론 투표 결정**

Test Time에서의 Dropout
- 문제점

    - **z**=random변수 (순전파 이전에 정함)
    - **결론) test시, random하게 뉴런을 끄게 되면 test마다 결과가 다 다르게 도출**

        이유) 각 forward pass마다 random하게 뉴런 떨어트려서

- **해결책**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/9e08c8c1-706a-4d1c-a13e-467d70aa3baf/image.png)


    - 이러한 randomness (**z**) 를 **평균**내자!

- **해결방법**
    - **위의 integral 근사화 하는 방법**

        ![](https://velog.velcdn.com/images/ha_yoonji99/post/e7499c3d-b8d8-405c-ae50-fbe0b0424548/image.png)


        - ***(dropout시)* 4개의 각기 다른 train시에 만들어진 random mask들 곱해짐**
            → **z** (random 변수)에 대해서 평균내는 것


- **구현**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/67431721-9a30-4917-bede-d6c2f089363c/image.png)


    - **방법**
        - test time에선 모든 뉴런들 사용
        - **but 각 뉴런을 drop할때 dropping 확률(p) 써서 layer의 output을 rescale함**

결론(전체 구현)

- **train**: 걍 그대로 dropout
- **test**: 적절한 확률(p) 사용해서 output을 rescale하고, randomness없앰
    - *각 개별 layer에만 적용 가능*
    - *stacking multiple dropout layer시 사용X*

일반적인 구현 방법 (Inverted Dropout)

- 일반적으로,, **train**시 drop & scale 모두 함(뉴런을 1/2개 dropout시키고 남은 뉴런들을 2배함 )

    **test**시에 모든 뉴런 사용 + 모든 normal weight matrix 사용

9. Dropout architectures

📍 Dropout이 아키텍처들에 어케 쓰이는지

결론
- AlexNet, VGG : 맨 윗단 레이어인 FCLayer에서 dropout적용
- 이외 최신 아키텍처: FCLayer를 줄였기에, dropout 사용할일 거의 없음

10. Regularization : A common pattern

Batch norm

- **train (randomness추가)**
    - **랜덤 확률로** **미니배치** 사용해서 정규화
- **test (**average out randomness)
    - **고정된 확률**로 정규화

최신 아키텍처에는…
- dropout 사용X
  
  → 대신 batch norm or L2 정규화

11. Regularization : Data Augmentation

📍 좌우대칭, 밝기조절 등

개념

- input data에 randomness를 부여하는 방법의 일종
- **비슷한 image이지만 CNN모델은 다른 이미지로 인식하며, 밝기조절 or 좌우 대칭 등을 randomness의 일종으로 볼 수 있음**

방법
- Horizontal Flips (좌우 대칭)

- **Random Crops & Scales (랜덤 자르기, 사이즈 조절)**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/59c54463-3b9d-46d3-b34d-7fd9c975e4f7/image.png)


    - **train**
        - 랜덤하게 이미지 잘라내고, 사이즈 조정
    - **test**
        - test용 이미지를 5개의 스케일로 만든 후, 224*224 사이즈의 이미지를 10개로 크롭하여 10개에 대한 분류 결과 투표시킴

- **Color Jitter**
    - RGB 픽셀에 대해 PCA 진행하여, 조도 조절하는 방법

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/23e624b0-efbb-42a4-bdf2-61912246752d/image.png)

12. Regularization : Drop Connect

13. Regularization : Fractional Pooling

14. Regularization : Stochastic Depth

15. Regularization : Cut out

16. Regularization : Mix up

[Michigan DL/cs231n] 8강: CNN Architecture

Sat, 12 Aug 2023 03:10:06 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌

1. ImageNet classification Challenge

1) 개념

엄청 큰 규모 dataset
이미지 분류에 대한 큰 bench mark
CNN설계에서 많은 시사점 남김
2010, 2011년 → Neural Network base X

2012년 → CNN이 첨으로 거대한 주류가 되던 해 (AlexNet이 압도함)

2. AlexNet

📍 계산구조 시사점: 초기 메모리多,파라미터수(fc layer)에서, 계산비용(conv에서 多) 1) 설계

227 * 227 inputs
5 conv layers
Max pooling
3 fully-connected layers
relu 비선형 함수

2) 단점

Local response normalization사용 (현재는 사용X, batch norm의 선구자)
2개의 GTX 580 GPU에 학습됨
- 각각 3GB 밖에 안됨 (현재는 12-18GB)
- GPU 메모리에 맞추기 위해 2개의 서로 다른 물리적 GTX카드로 분산됨 (GPU 여러개로 분할은 현대에서도 가끔 사용하지만 주로 사용X)

3) citations(인용횟수)

모든 과학분야에서 젤 인용 多

4) 계산 구조

a. Conv Layer

C=3 : RGB
input size; H/W=227 : input size
filters=64 : output size의 channel과 같아야 됨
output size; H/W=56 : ((W-K+2P)/S)+1 → ((227-11+4)/4)+1 = 56
memory(KB)=784 : (number of output elements) * (bytes per element) / 1024 → (64(5656))*4/1024 = 784
params(k) = 23 (학습가능 파라미터 수) : number of weights =(weight shape)+(bias shape) = (CoutCink*k) + Cout = (64311*11) + 64 = 23,296
flop(M) = 73 (총 연산수 = 부동 소수점 연산수) : Number of floating point operations(multipy+add) = (number of output elements)*(1개의 output elem당 연산 수) = (CoutH’W’) * (Cinkk) = (645656) * (31111) = 72,855,552

b. pooling layer

Cin = Cout = 64
output size; H/W = 27 : ((W-K+2P)/S)+1 = 27.5 (Alexnet은 항상 나눠떨어지지x) = floor(27.5)=27 걍 내림함
memory(KB) = 182 : (number of output elements) * (bytes per element) / 1024 = 182.25
params(k) = 0 : pooling layer에는 learnable parameter 없음
flop(M) = 0 : Number of floating point operations(multipy+add) = (number of output positions)*(1개의 output position당 연산 수) = (CoutH’W’) * (k*k) = 0.4 MFlop

c. flatten

flatten output size = 9216 (모든 공간구조 파괴, 벡터로 평면화) : Cin * H * W =25666 = 9216

d. FC

FC params : Cin * Cout + Cout = 9216 * 4096 + 4096 = 37,725,832
FC flops : Cin * Cout = 9216 * 4096 = 37,748,736

5) 위 계산에서 알 수 있는 특징

시행착오적
지금은 사용 적음

a. Memory 사용량

초기에 메모리 多
- 이유) 초기 conv layer의 output이 상대적으로 높은 공간 해상도와 많은 수의 filter가져서

b. parameter 수

모든 파라미터들은 fc layer에 존재
- 이유) 66256의 tensor 가지고 있고, 4096의 숨겨진 차원으로 완전히 연결되어 있어서
  - Alexnet의 모든 learnable parameter가 fully connected layer에서 나옴

c. 계산 비용

conv layer에서 연산량 多
- 이유) 계산 비용은 fc에서는 별로 안큼.(걍 곱하기만 해서) 반면 conv layer에는 filter수가 많고, 높은 공간 해상도면 계산비용 ↑

3. ZFNet: Bigger AlexNet

📍 계산구조 시사점: 더 큰 네트워크가 더 성능 good

1) 특징

more trial, less error

2) AlexNet과 바뀐 점

conv1
- (11x11 stride 4) → (7x7 stride 2)로 바뀜
  - 기존 4만큼 down sample → 2만큼 down sample로 바뀜
  - 높은 공간 해상도 & 더 많은 receptive field & 더 많은 컴퓨팅 비용
conv3,4,5
- (384,384,256 filters) → (512,1024,512)로 바뀜
  - filter 크게 = 네트워크 더 크게

=⇒ 결론) 더 큰 네트워크가 더 성능이 좋다

4. VGG: Deeper Networks, Regular Design

📍 계산구조 시사점: 굳이 큰 필터 필요X, conv layer개수 더 중요, 채널 수 많아져도 계산비용 동일 - Stage 사용 1) AlexNet, ZFNet 공통 문제점

ad hoc way (네트워크 확장, 축소 어려움)
hand design 맞춤형 convolution architecture

⇒ VGG는 네트워크의 동일한 조건으로 전체 적용 (단순화함)

2) VGG 설계 규칙 (정확한 구성에 대해 생각X)

기본 세팅
- All conv are 3x3 stride 1 pad 1
- All max pool are 2x2 stride 2
- After pool, double channels
stage
- Alexnet은 5개의 conv layer있었고, VGG는 더 깊게 한것
- 1개의 stage = conv, pooling layer등 포함
- VGG: 5개의 stage

3) 특정 설계 규칙 채택 이유

a. conv layer

기존: learnable parameter여서 매번 달라짐

→ conv = 3x3 으로 고정시킨 것
증명
- 가정1: 1개의 conv layer + 5x5 kernel size 일때,

    conv(5x5, C→C) = (kernel, input → output) 

    **params = $25C^2$, FLOPs =** $25C^2HW$

    (C개의 conv filter 가지고 있어서)

- **가정2:** 2개의 conv layer + 3x3 kernel size 일때,

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/a1864905-f126-40ae-a730-c4a3895b008c/image.png)


    **params = $18C^2$, FLOPs =** $18C^2HW$

    (각각 $9C^2$ 씩)

- **결론**

**⇒ 가정2의 더 작은 kernel size에 더 많은 conv layer개수가 파라미터 개수나, 연산량 면에서 효율적**

- 단일 5x5 conv 보다 good

=⇒ 굳이 큰 필터 필요X → hyperparameter로 kernel size 신경 필요X → conv layer수만 신경

b. pooling layer

해석
- pool 할때마다 채널 수 2배로
증명
- stage 1

- **stage 2**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/8722aa38-b762-4ab6-9c55-bf76a1fd6c4f/image.png)


- **결론**

    =⇒ **채널 수 많아져도, 메모리 2배 감소, 계산 비용 동일**

4) AlexNet vs VGG-16

⇒ 결론) 네트워크 ↑ → 성능 ↑

5) 질문

Q. VGG도 multiple GPU사용?

A. multiple GPU있었지만, 데이터 병렬처리로 배치분할 & 배치별로 다른 GPU에서 계산

→ 모델 분할 X, 미니배치 분할O

5. GoogLeNet: Focus on Efficiency

📍 Stem, Inception Module, Global Average pooling, Auxiliary Classifier

기존) network커지면 : 성능 더 좋음

1) 개념

효율성에 초점 ⇒ 전체적인 복잡성 최소화

2) Stem network

개념
- input image를 엄청나게 down sampling함 (경량의 stem 이용)
- 몇개의 layer만으로 매우 빠르게 down sampling가능
- 값비싼 convolution 수행필요X
구조

VGG와의 비교

- VGG가 GoogleNet보다 18배 더 비쌈

3) Inception Module

개념
- 전체 네트워크에서 반복되는 로컬 구조
- 기존의 conv-conv-pool의 구조처럼, GoogleNet은 작은 inception module design해서 전체 네트워크에서 반복
구조

- 3x3 max pooling stride 1

![](https://velog.velcdn.com/images/ha_yoonji99/post/1c87c91e-b41d-455b-8726-2267d4cc8e26/image.png)

기능
- 기능1
  - 기존의 kernel size를 대신하여 3x3 stack으로 대체할 수 있단것
  - hyper parameter로 kernel size제거 (항상 모든 kernel size 수행할 것이므로)
- 기능2
  - 더 비싼 conv (3x3…) 사용전에 1x1 conv사용하여, 채널 수 줄임 (bottleneck현상 활용)

4) Global Average Pooling

개념
- 파라미터를 줄여야하므로
- 평탄화하여 공간정도 파괴하기보다, 전체에 대한 average pooling으로 공간 차원 축소한 뒤 FC Layer 한번 사용
구조

VGG와 비교

5) Auxiliary Classifiers (보조 분류기)

개념
- Batch norm 발생전에 생김
  - 10개 이상 layer가 있을때 train하기 어려웠음
  - 10개 이상 layer train 위해서 ugly hacks에 의존해야 했음
- Network 깊이가 깊을때, 중간 layer의 학습 돕기 위해 설계
- 최종적으로 맨 끝, 중간 이 2개 각각에서 점수 받음
  - gradient 계산해서 backprop하여 gradient 전파 (당시 심층 네트워크 수렴시키기 위한 trick)
  - 추가적인 보조 분류기 출력 (gradient)를 앞 계층에 넣고, 중간 계층에도 이게 도움되며, 이것들의 일부에 기반해서 분류할 수 있어야 됨

6. Residual Networks

📍 batch norm 발견이후/지름길/VGG(Stage) + GoogLeNet(Stem, Inception Module, Global Average pooling) 사용 1) 모델 생성 배경

문제점
- Batch Norm발견 후, 기존에는 bigger layer이 더 성능 좋았는데 이제 깊은 모델이 성능 더 안좋아짐 ! = layer가 깊어질수록 효율적인 최적화 불가능 !
문제에 대한 이유 예상
- 깊은 모델이 overfitting 된 거다.
기본 가정
- deeper model은 shallower model을 모방할 수 있다 ex. 56 layer가 20 layer를 모방한다(20 layer의 모든 layer를 56 layer에 copy한다고 생각) → 따라서 deeper model은 최소한 shallow model보다 더 성능이 좋다
- ⇒ 발생하는 문제점이 기본 가정에서 벗어남*
해결책
- layer가 깊은 경우, identity function을 더 쉽게 학습할 수 있도록 network 변경해야됨
- 그렇게 해서 나오게 된게 Residual Network

결론) layer가 깊어질수록 효율적인 최적화 불가능 → layer가 깊을때 identity function을 더 쉽게 학습하도록

2) Shortcut

개념

- **지름길** 생성

장점
- identity function을 매우 쉽게 배울 수 있음
  - 지름길 사이의 block들을 가중치=0으로 block identity 계산 가능 = deep network가 emulate(모방)하기 쉽게 만듦
- gradient 전파를 개선하는데 도움
  - ex. 역전파의 +일때, 기울기를 입력에 모두 복사. 이 residual block을 통해 역전파시 지름길로 복사해줄 수 있음

3) 모델 구조

개념
- VGG(단순한 설계 원칙)와 GoogleNet(수학적 계산)의 가장 좋은 부분에서 영감 받음
- 많은 residual block의 stack임
- a. VGG에서 따온 것*

  - **각 residual block은 2개의 3x3 conv 있음**
  - **Stage 구조**
    - 각 stage의 첫번째 block은 stride 2 conv로 해상도 반으로 줄임
    - 채널 2배로 늘림

**b. GoogleNet에서 따온 것**

  - **Stem 구조**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/ef33eb8a-3ec5-4fed-a362-826f16fcf116/image.png)


    - 처음 input을 **down sampling**함

  - **Global Average Pooling**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/fa2d3a0b-77aa-4469-8fde-ed71cfe3ee42/image.png)


    - 그대로 fully connected layer로 안넘김
    - **파라미터 줄이기 위함**

**c. 사용자가 정해야할 것**

  - **초기 네트워크 너비** ex. C=64
  - **stage당 block 수** ex. 3 residual blocks per stage

4) 모델 예시

a. ResNet-18

b. ResNet-34

해석
- 매우 낮은 error 달성
VGG-16과 비교

- 둘다 resnet이 더 좋음
- GFLOP: ResNet은 앞에 downsampling하고 시작해서 차이 많이 남

5) Bottleneck Block (GoogleNet의 Inception Module)

개념
- 더 깊어짐에 따라 Block design수정
Basic Block

- 각 conv layer에서만 계산 됨

Bottleneck Block

- 4배 많은 channel의 입력 수락

**⇒ 결론) 계산 비용 증가시키지 않으면서, 더 깊은 네트워크 구축 가능**

6) 최종 전체 모델 구조

개념
- 깊게 쌓을수록, 더 error 줄어듦 !!
결과
- 다 이겼음

7. Improving Residual Networks: Block Design

📍 Conv 전에 Batch norm과 Relu넣기

개념
- Conv 전에 Batch norm과 Relu를 넣어서 성능 개선가능

8. Compare Complexity

전체 비교

해석
- size of dot: 학습 파라미터 수
- G-Ops(Operations): 해당 아키텍처의 여유경로 계산하는데 걸리는 FLOP수
- Inception-v4: Resnet + Inception
- VGG: 가장 높은 메모리, 가장 많은 연산량 (매우 비효율)
- GoogLeNet: 매우 효율적 연산량, 그치만 성능은 그닥..
- AlexNet: 매우 적은 연산량, 그치만 엄청 많은 파라미터 수
- ResNet: 심플 디자인, 더 나은 효율성, 높은 accuracy (더 깊게 설계함에 따라)

9. Model Ensembles

2016 우승자: 좋은 모델들끼리 앙상블함

10. ResNeXt

📍 ResNet 개선 버전 - Group 추가

개념
- 하나의 bottleneck이 좋으면, 이를 병렬적으로 구성하면 더 좋지 않겠는가!

계산 결과
- Total FLOPs: (8Cc+9c^2)HWG
- 이걸로 패턴 도출 가능
  - C=64,G=4,c=24 ; C=64,G=32,c=4 일때 위와 같은 결과 도출 가능
  - ⇒ 결론) Group 으로 병렬적으로 할때 더 좋은 성능 보임*

1) Grouped Convolution

구조
- group=1일때

- **group=2일때**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/156e1bcb-6ecc-462a-89fe-7accbe87445e/image.png)


- **group=G일때**

    ![](https://velog.velcdn.com/images/ha_yoonji99/post/cd92ebfa-e6c0-4fd4-a96e-0ff4f353f99d/image.png)

2) ResNeXt에 Group 추가

구조

3) Group별 성능 결과

해석
- Group을 추가함에 따라 성능 더 좋아짐!

11. SENet

(Squeeze and Excite)

개념
- Residual block 사이에 Global pooling, FC, Sigmoid 넣어서 Global context 만듦

[Michigan DL/cs231n] 7강: Convolutional Neural Network

Thu, 10 Aug 2023 03:42:22 GMT

📌 본 내용은 Michigan University의 'Deep Learning for Computer Vision' 강의를 듣고 개인적으로 필기한 내용입니다. 내용에 오류나 피드백이 있으면 말씀해주시면 감사히 반영하겠습니다. (Stanford의 cs231n과 내용이 거의 유사하니 참고하시면 도움 되실 것 같습니다)📌

0. LastTime: Back prop

기존 문제점) 일반 선형분류 or fully connected network는 입력이미지의 2D공간 구조 존중X
- 무조건 1D로 바꿨어야됨
해결책) 이미지, 공간구조 다룰줄 아는 operator 새로 정의하면됨

1. 구성 요소

1) Fully Connected network

2) Convolutional Network

2. Fully Connected Layer

벡터화

3. Convolution Layer

📍filter가 weight역할 해줌(input에 대한 영향력 전달) 1) 구조

input volume

3차원 (3x32x32) (RGB x Height x Width)
filter
- weight matrix와 동일 역할
- filter의 RGB와 input의 RGB맞추는것 중요!
- input image의 모든 공간위치로 슬라아드하여, 또 다른 3차원 계산
- 입력 tensor의 전체 깊이에 걸쳐 확장됨

2) first filter

filter
- input image의 내부 어딘가에 붙임
- input tensor의 일부 공간 위치에 할당
  
  ⇒ input tensor와 filter 사이의 내적곱 진행
output
- 1개의 element (single number)
- 1개의 filter와 input tensor의 작은 local chunk 계산
- input image의 이 위치가 하나의 filter와 얼마나 일치하는지 효과적으로 알려주는 단일 스칼라숫자 계산

3) second filter

activation map
- filtering한 결과를 부르는 다른 말
green filter
- 앞과 weight값이 다른 filter

4) 여러개의 filter

여러 filter (6x3x5x5)
- 집합 6개의 3차원 필터
- 6 x 3 x 5 x 5 = filter수 x input channel수 x (filter크기)
- 6개의 activation map 나옴
stack activation maps (6개)
- 크기는 달라졌지만 첫 input과 같은 3차원 공간구조 보존
- 해당 필터에 대한 전체 입력이미지의 응집정도 나타냄
- 합성곱층의 출력의 공간구조 생각 가능
28 x 28 grid
- 입력 tensor의 동일 공간 grid에 해당 (각 위치에서 합성곱층은 특징벡터 계산)
6-dim bias vector
- 원래 하나의 filter당 1개 bias있음
- 총 6차원(vector) bias 있는 것

5) 3차원 tensor batch

6) 일반화

input
- N x Cin X H x W = (개수 x batch의 각 입력image에 있는 채널수 x 각 입력 요소의 공간 크기)
output
- N x Cout x H’ x W’ = (개수 x filter개수(Cin과 다를수있음) x input image의 H,W와 다를수O)

4. Stacking Convolutions

📍filter(conv)뒤에 활성화함수 넣어서 선형 극복

Convolution layer를 stacking가능 (더이상 fully connected layer X)

해석
- input
  - 3차원 tensor batch N개
- W1 : 6x3x5x5
  - 의미: 6개의 convolution filter
- Nx3x32x32
  - 부르는 이름: 3 layer CNN with input in Red, first hidden layer blue, second hidden layer green
Q. 2개 convolution layers stack하면 어케됨?

A. 또 다른 convolution 얻음 (y=W2W1x도 여전히 linear classifier임)
- 각 convolution 작업자체가 linear 연산자이므로, 하나의 convolution을 또 stack하면, 또 다른 합성곱 만들어짐
- ⇒ 극복) 각 선형 연산 사이에 비선형 활성화함수 삽입*
- (fully connected layer같이 3차원 tensor의 각 요소에 대해 작동)*

5. 학습가능한 convolutional filter

📍MLP: 모든 이미지 template을 학습함- 1번째에서는 모서리 위주 1) 기존 linear classifier

conv filter가 뭘 학습하는가? → one template per class (1차원만 가능해서)

2) MLP

conv filter가 뭘 학습하는가? → Bank of whole image templates (다차원도 가능해서)
fully connected: 입력 이미지의 전체 크기에 걸쳐 확장됨 = fully connected network와 1번째 layer는 각각 입력 이미지와 동일 크기를 갖는 template bank 가짐

3) First layer conv filters

conv filter가 뭘 학습하는가? → local image templates (모서리, 반대 색 학습)

ex. green blob next to red blob
- image의 반대 색상을 찾고있다는 것
- 1번째 convolution 연산후 2번째 feature이 뭔지에 대한 해석은 해당 3D 출력 tensor에서 각 활성화 map이 각 위치의 정도 제공
- 해당 chunk가 1번째 layer에서 학습된 각 template과 얼마나 일치하는지 (ex. 합성곱 네트워크의 1번째 층에서 학습된 이러한 필터들과 유사효과)

6. Padding

📍기존: W-K+1 → 패딩후: W-K+1+2P

깊이, 채널 고려X

1) 기본

출력크기 (일반화)

: W-K+1
문제점

: feature map이 각 layer마다 줄어듦(공간 차원이 줄어듦)

2) 해결책: 패딩

zero-padding

패딩 추가 후
output 일반화 식

: W-K+1+2P
Same padding
- 입출력이 동일 공간 크기 가져서 → 공간 크기 추론이 쉬워짐

7. Receptive fields

1) 1개의 conv layer 적용

                      (1)                               (2)

해석
- output image의 각각의 공간 위치는 input image의 local region에만 의존
- ex. 2는 1의 영역에만 의존
  - 1의 영역: receptive field of the value of output tensor

2) 여러개의 conv layer를 stack

해석
- 녹색 영역은 전이적으로 맨 왼쪽 input tensor의 주황부분의 공간에 따라 달라짐
2가지 해석
- receptive field in the input: 여러개의 합성곱층 거친 후, 해당 뉴런 값에 영향 미칠수있는 input image의 공간 크기
- receptive field in the previous layer: 이전층의 영향
문제점
- 매우 높은 해상도 이미지로 작업하려면 → conv layer많이 쌓아야됨 = 매우 큰 receptive field 유지위해 엄청 많은 conv layer 쌓아야됨
해결책
- stride 써서 downsampling하기

8. Stride convolution

📍receptive field 더 빨리 구축 → ((W-K+2P)/S)+1) 1) Stride

개념
- 가능한 모든 위치에 conv filter 배치하는 대신, 가능한 N의 위치마다 배치
- ex. stride=2 → output=3x3
output
- downsample됨
- receptive field를 더 빨리 구축가능
  - 모든 layer에서 receptive field가 2배가 되기 때문
- ((W-K+2P)/S)+1

9. Recap: Convolution Example

📍걍 일반화 식들 정리 1) output volume size?

주의점
- output은 filter 개수와 동일해야됨 !!!!

2) Number of learnable parameters?

일반화 식
- filter 개수 * (channel수filter크기(kk)+1(bias))

3) Number of multiply-add operations?

일반화 식
- output volume size * 1filter

4) example: 1x1 convolution

10. Convolution Summary

비교

fully connected layer	1x1 conv layer
공간구조 파괴 : 전체 tensor 하나로 평면화 → 벡터 출력	공간구조 유지
: 신경망 내부의 adapter 사용

11. Other types of convolution

12. Pooling Layers

📍pooling더 쓰는 이유: 학습파라미터X, 값이 안변함

개념
- 학습 매개변수(파라미터) 없음

파라미터
- kernel size
- stride
- pooling function
Max pooling

**a. Max pooling with 2x2**
(= kernel size (2,2) & stride=2)
→ kernel size = stride면 중첩되는 영역X
**b. pooling이 stride보다 더 많이 쓰이는 이유**

- **이유1)** max pooling같은 경우, 변환에 일정량의 불변성 있음**(해당 구역에서 값이 안변함)**
- **이유2) learnable parameter없음**

pooling summary

13. 앞서 배운것들 결합한 Convolutional Networks

1) 기본 CNN 구조

앞서 배운것들 연결하는 방법 많음
- 하이퍼파라미터가 있어서

2) 예시: LeNet-5

해석
- conv후에 relu넣는게 일반적
Q. maxpool로 비선형하게 만들수있는데 왜 relu함?

A. 걍 relu넣는게 일반적 (더 많은 규칙성 제공)

14. (Fully connected Network에서) Batch Normalization

📍선형적으로 할수있음 1) 개념

네트워크 내부에 일종의 layer추가하여 deep network를 train할수 있도록
(평균=0, 단위분산분포 있도록) 이전 layer로부터 나온 결과를 어떤 방식으로든 정규화하기

2) 왜 정규화해야됨?

internal covariate shift (ICS) ↓ → 학습 과정 안정화, 최적화 ↑
- ICS: 학습과정에서 각 층의 입력 분포가 변하는 것 의미
- 일반적으로 신경망에서 학습이 진행될수록 가중치, 편향이 업데이트 되고, 이는 각 층의 입력 데이터에 영향줌 → 이로 인해 이전 층에서 학습한 표현들이 변경되어 다음 층에 영향 미치게 됨
- ICS는 학습의 안정성, 속도 ↓시킴

3) Batch Norm 식

backprop에 사용이 어케되냐
- 미분 가능 함수여서 gradient를 전달해줄수O

4) 특징

(ICS제거 위해) 각 layer의 입력 feature 분포를 re-centering, re-scaling
각 layer마다 input의 분포가 달라지는 것 방지

batch ↕
- 각 벡터의 평균값
첫번째 식
- 채널별 평균값
두번재 식
- 채널별 분산
세번째 식
- 1,2번째 식 가져와서 정규화
- e : 0으로 나누지 않기 위함(작은 상수)
- zero centered 됨
문제점 (학습 파라미터를 넣는 궁극적 이유)
- Q. zero mean일때, 제약이 많이 걸리지 않을까?
해결책
- 기본 정규화 후 추가 작업(학습가능 파라미터 넣기) 필요

⇒ identity function 을 커버해줌

5) 학습 시 batch normalization

최종 batch normalization 식

- $\hat{x}_{i,j}$ : 정규화된 input
- $y_{i,j}$ : 벡터의 각 요소에서 보고자하는 평균, 분산이 뭔지 스스로 학습 가능

6) 검증(test)시 batch normalization

a. 문제점

다른 input 넣었는데, 넣는 것이 달라도 점수 같아버림
같은 input 넣었는데, output이 달라져버림
ex. 고양이 사진 넣었을때의 점수와, 강아지 사진 넣었을때의 점수가 같아버릴때
ex. 웹서비스에서 동시에 고객이 같은 자료 업로드했는데 output이 다를때

b. 해결책

배치의 요소에 대해 모델이 독립적이여야됨 (= train과 test 둘다에서 성능 좋아야됨)
train 시에는 경험적으로 하지만, test에서는 그렇지 X (= batch에 기반하여 계산X)
방법
- train
  - 모든 새로운 벡터와 시그마 벡터의 모든 평균 중 일부 실행 중인 지수 평균 추적
- test
  - batch 요소 사용하는 대신, $M_j,$ $\sigma$ 같은 고정 scalar 될것 (상수)
  - test 시간 배치의 요소간에 독립성 회복 가능
수식

- **해석**
    - $M_j, \sigma$가 상수면, $y_{i,j}$가 **linear 연산**될 것
        - test에서 batch정규화가 독립적
        - test에 이전 선형 연산자가 융합할수있기에 **test시간 오버헤드=0**이 됨
        - ex. CNN에서 배치정규화 뒤에 conv 있으면, **2개의 선형연산을 1개로 융합가능**
        - $y_{i,j}$: (배율, 이동) scaling단계에서 학습된 가중치 $\gamma$ 곱하고 학습된 값으로 $\beta_j$만큼 이동

15. (Convolutional Network에서) Batch Normalization

📍장점(train쉽게, LR높게,regularization, test 추가비용x) 및 단점 존재

1) 비교

fully connected
- 앞서 말한것
convolutional
- batch 차원에 대한 평균화 + spatial(공간차원)의 input에 대한 평균화

2) 위치

FC뒤 or 활성화함수 앞에 위치함

3) 특징

장점
- 심층 신경망 train을 더 쉽게 만듦
- 더 높은 LR을 가능하게 하고, 더 빨리 수렴 가능
- 네트워크 초기화에 더 견고해짐
- 학습 중 regularization과 같은 역할
- test시 추가 비용 없음: conv와 병합 가능
단점
- 이론적 해석 부족 : 최적화에 도움 되는 이유에 대한 정확한 이해X
- train, test에서 다르게 동작함 → 흔한 버그의 원인이 됨

16. Layer Normalization

📍배치차원평균X, D 평균O

Batch norm의 train- test에서 다른 작업하는 것에 대한 해결책
기존에 대한 변형 → transformer, RNN에서 주로 사용

1) 특징

기존과 공통점
- $M$, $\sigma$ 구하고 정규화 과정은 똑같음
차이점
- 배치차원에 대한 평균 대신, 기능 차원(D)에 대한 평균계산 (↔)
- train 요소에 의존 안하므로, train과 test에 같은 작업 가능

17. Instance Normalization

📍배치차원평균X, D 평균X, 공간차원 평균O

(CNN에서) 공간 차원에 대해서만 평균 구함

18. 최종 비교

📍CNN에서 Batch norm, Layer norm, Instance norm, Group norm (예를 들어 input이 이미지set (2x3x64x64)가 input이라고 했을 때..)

Batch norm: 이미지set전부와 각각의 채널별로 정규화한다. (2개의 이미지와 R, 2개의 이미지와 G, 2개의 이미지와 B)(2x1x64x64)
Layer norm: 하나의 이미지에 대해서 정규화 한다. (1x3x64x64)
Instance norm: 하나의 이미지에 대해 각각의 채널별로 정규화 한다. (채널 R에 대한 1개의 이미지)(1x1x64x64)
Group norm: 하나의 이미지에 대해 여러 채널에 대해 정규화 한다. (채널 R과 G에 대한 1개의 이미지)(1x2x64x64)

_yoonji99.log

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners(CVPR, 2021)

Abstract

Intro

Related work

Approach

ImageNet Experiments

Transfer Learning Experiments

Discussion and Conclusion

[백준] 11726번 2xn 타일링 - 파이썬(Python)

🗒️ 문제

🖥️ 풀이

[백준] 1463번 1로 만들기 - 파이썬(Python)

🗒️ 문제

🖥️ 풀이

✔️ 참조

[논문 리뷰] Attention Is All You Need (NIPS, 2017)

0. Abstract

1. Introduction

2. Background

3. Model Architecture

3-1. Encoder and Decoder Stacks

3-2. Attention

3-2-1. Scaled Dot-Product Attention

3-2-2. Multi-Head Attention

3-2-3. Applications of Attention in our Model

3-3. Position-wise Feed-Forward Networks

3-4. Embeddings and Softmax

3-5. Positional Encoding

4. Why Self-Attention

5 Training

5-1. Training Data and Batching

5-2. Hardware and Schedule

5-3. Optimizer

5-4. Regularization

[논문 리뷰] A PCB Dataset for Defects Detection and Classification

전처리

[논문 리뷰] ONLINE PCB DEFECT DETECTOR ON A NEW PCB DEFECT DATASET (2019)

0. 요약

1. 전반적인 흐름

2. 실험 결과

[논문 리뷰] PCB-Defect-Detection-using-Deepstream (2022)

1. 전반적인 흐름 및 특징

[논문 리뷰] PCB Defect Detection Using Denoising Convolutional Autoencoders (2020)

0. 전반적인 흐름

1. 실험 절차

2. 결과

[서베이 리뷰] Visual Anomaly Detection for Images: A Survey

III. IMAGE-LEVEL VISUAL ANOMALY DETECTION

IV. PIXEL-LEVEL VISUAL ANOMALY DETECTION

[논문 리뷰] Are Transformers Effective for Time Series Forecasting? (AAAI, 2023) (NLinear, DLinear)

0. Abstract

1. Introduction

시계열

Transformer

Transformer 원리

non-Transformer로의 LTSF해결

LTSF-Linear 소개

2. Preliminaries: TSF Problem Formulation

3. Transformer-Based LTSF Solutions

4. An Embarrassingly Simple Baseline for LTSF

5. Experiments

Experimental Settings

Comparison with Transformers

Quantitative results

Qualitative results

6. More Analyses on Transformer-Based Solutions

7. Conclusion and Future Work

Conclusion

📖 사전 지식 자료

Transformer

개념

transformer에서 self-attention으로 인해 정보손실 어떻게?

Transformer에서 self-attention의 역할 및 효과?

희소성 편향? low rank property?

변형들

Seasonal-Trend Decomposition

Etc

Naive DMS, DMS, IMS

[논문 리뷰] Forecasting with Sparse but Informative Variables: A Case Study in Predicting Blood Glucose (AAAI, 2023)