code_hsb.log

(미)딥러닝 PART.CS231n 10강

Mon, 07 Nov 2022 05:22:46 GMT

RNN

구조

동작방법
1. 히든 state의 재귀적인 반복
  1. 출력 y를 가지려면 끝단에 FC레이어 존재
    1. 매 스탭에서 동일한 가중치 행렬 W가 사용됨
    2. 재귀적으로 피드백하는 것으로 h0는 초기상태로 0으로 초기화
    3. 입력 -> ht-1, xt 2개/ 출력 -> 다음 상태 ht

학습

cost함수 구하는 법
1. y는 h를 이용하여 만듬
2. 그라디언트도 동일

loss함수
1. 매 타임스탭의 셀마다 y값이 출력됨
2. 따라서 매 스탭마다 loss가 생성됨
3. 데이터 입력 1개를 넣으면 loss가 하나가 나오고 모든 데이터를 거치면 나온 데이터 수만큼의 loss를 평균내어 최종 loss를 구하는데
-> 여기서는 하나의 입력을 넣었는데 여러개의 loss가 나온 거임

최종 loss 구하기

1.모든 타임 스탭마다 loss가 생성 2. 소프트맥스를 거치니 소프트맥스 크로스엔트로피 loss를 계산함 3. 모든 셀의 loss를 더해서 최종 loss를 생성 4. 그라디언트도 동일한 방식으로 최종 그라디언트를 구함 ※ 순전파 : loss를 구하는 과정/ 역전파 : 그라디언트를 구하는 과정

자연어 처리

test data를 사용

입력으로 'h'하나를 학습된 모델에 넣음
출력 'e'가 다음 타임 스탭의 입력으로 들어감
따라서 'h'를 아는 'e'로 'l'의 출력을 함
따라서 'h'를 아는 'e'를 아는 'l'로 'l'의 출력을 함
학습에서는 'h' 'e' 'l' 'l'을 넣고 ht의 ht+1의 입력으로 seq한 학습을 하고 / 테스트에서는 학습된 히든 state들과 이전 출력의 다음 입력으로 seq한 예측을 할 수 있음

loss, 역전파

역전파 Through time
1. 시퀀스 스탭마다 출력값이 존재하여 loss를 더하여 최종 loss를 구하고 그라디언트도 마찬가지이다. 2 근데 이럴 경우 seq가 긴 경우 문제가 될 소지가 있다 -> 법전으로 하면 학습이 느리다.

batch backprop

트레인 스탭을 100으로 자른다.
100스탭만 순전파하고 서브 seq의 loss를 계산하고 그라디언트 스탭을 진행한다.
순전파시 이전 배치에서 계산한 hidden state는 유지한다. -> 다음 배치에서 순전파를 계산할 때 이전 hidden을 사용한다
그라디언트 스탭(역전파)은 현재 배치에서만 진행된다. ※ 확률적 경사하강의 seq 데이터 버전이다.

다이어그램

RNN

LSTM

GAN PART.Pix2Pix

Wed, 28 Sep 2022 09:43:24 GMT

우리 프로젝트에 가장 가까울 수 도 있는 모델

특징

CGAN을 사용한 이미지간 변환이 pix2pix라는 이름으로 출시되었을 때 바로 사용할 수 있을 만큼 간단한 화풍 묘사 신경망이라는 평가
pix2pix 아키텍쳐는 훈련하기가 쉽고 파라미터 조율이 간단해서 최종 사용자들에게 인기를 끌었다.
cgan의 생성자에 mnist처럼 레이블을 넣은 대신 실제 이미지를 넣은 것 -> cyclegan이 cgan 두개를 이어 붙인 거라면 pix2pix는 cgan 한개

판별기

입력 : x이미지, y이미지 두개를 접합
출력 : 0, 1로 분류 -> 입력으로 들어온 이미지가 실제 이미지인지 가짜 이미지인지 분류 ★ 2개 이미지 입력 및 단일 분류 출력

생성기

Unet 기반

skip connection : 깊은 모델이 입력단의 데이터를 잊지 않도록 하는 목적(케라스에서는 concatenate layer로 나타냄)

훈련

https://drive.google.com/file/d/1eSkw6UDfhY9wugUKBr5QwfKfzNaBBmha/view?usp=sharing

딥러닝 PART.Batch Normalization

Tue, 16 Aug 2022 08:40:16 GMT

신경망에서의 학습

학습시 Gradient 기반의 방법들은 파라미터 값의 작은 변화가 신경망 출력에 얼마나 영향을 미칠 것인가를 기반으로 파라미터 값을 학습
변화가 신경망 결과에 매우 작은 변화를 미치게 될 경우 효과적인 학습 불가
Gradient 라는 것은 변화량으로 변화량이 매우 작아지거나(Vanishing) 커진다면(Exploding) 신경망 학습이 불가

안정적인 학습을 위한 간접적인 방법

Sigmoid, tanh : 매우 비선형적인 방식으로 입력 값을 매우 작은 출력 값의 범위로 squash e.g. sigmoid는 실수 범위의 수를 [0, 1]로 맵핑
위의 문제점 :

출력의 범위를 설정하여 매우 넓은 입력 값의 범위가 극도로 작은 범위의 결과 값으로 매핑
이러한 현상은 비선형성 레이어들이 여러개 있을 때 더욱 학습이 악화
- 첫 레이어의 입력 값에 대해 매우 큰 변화량이 있더라도 결과 값의 변화량은 극소
간접 X -> 직접적으로 "학습하는 과정 자체를 전체적으로 안정화"하여 학습 속도를 가속 시킬 수 있는 근본적인 방법인 "배치 정규화(Batch Normalization)"를 사용

정규화를 하는 이유

그래프를 왼쪽에서 오른쪽으로 만들어, 로컬 옵티멈에 빠질 수 있는 가능성을 낮춘다.
로컬 옵티멈에 빠지는 것이 Gradient가 매우 작아져서 신경망 결과에 매우 작은 영향을 주게 되어 발생
학습 자체에서 안정화를 시켜버림

학습 불안정화가 일어나는 이유

각 레이어나 엑티베이션 마다 입력값의 분산이 달라지기 때문

Covariate Shift : 이전 레이어의 파라미터 변화로 인하여 현재 레이어의 입력의 분포가 바뀌는 현상
Internal Covariate Shift : 레이어를 통과할 때 마다 Covariate Shift 가 일어나는 현상

배치정규화

정의 : 각 batch 별 평균과 분산을 기준으로 각 레이어에서 나오는 output을 정규화하는 기법
평균과 분산을 조정하는 과정이 별도의 과정으로 떼어진 것이 아니라, 신경망 안에 포함되어 학습 시 평균과 분산을 조정하는 과정 역시 같이 조절

즉, 각 레이어마다 정규화 하는 레이어를 두어, 변형된 분포가 나오지 않도록 조절
- 레이터를 통과할 때마다 이전 레이어와 값들이 너무 심하게 차이나는 정도를 줄이고자 사용
- 통과할 때마다 변형된 분포가 나오지 않게 하여 Covariate Shift가 일어나지 않게 해준다.

배치란? 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음

-> 헷갈렸던 부분 : cnn의 배치란 batch_size = 10이면 mnist 데이터의 0~9행
수식
- 미니 배치의 평균과 분산을 이용해서 정규화 한 뒤 scale 및 shift 를 감마(γ) 값, 베타(β) 값을 통해 실행
  
  -> 미니 배치의 평균과 분산으로 정규화하는 것은 말 그대로 전체 데이터의 측정치로 정규화하는 것이 아니라는 의미 -> 중요 포인트는 감마(γ) 값, 베타(β) = 일반 정규화와 다른 부분

위에서...
- 감마와 베타는 학습 가능한 변수. 즉, 역전파에서 같이 학습됨
- 이렇게 정규화된 값을 활성화 함수의 입력으로 사용하고, 최종 출력 값을 다음 레이어의 입력으로 사용 (활성화 함수의 출력을 정규화의 입력으로 사용하면 위의 간접적인 방법과 같은 결과)
특징

활성화 함수 앞쪽에 배치(4, 5일차 비교)

신경망에 포함되어 역전파를 통해 학습됨

이전 스터디에서

정규화 : 학습셋 전제 집합에 정규화 실시
배치 정규화 : 미니 배치 단위로 정규화 실시 근데 cnn에 적용하고자 할 때는 cnn의 특성을 고려해줘야한다.
- DNN의 배치 정규화
  - 발제자분 : "각 feature의 평균과 분산을 구해서 batch에 있는 각 특성(feature)을 정규화, batch전반에 걸쳐서 처리되므로 batch size와 관련이 깊음"
  1. 세로 120451이 하나의 샘플이다.
  2. 가로 1, 3, 6이 feature가 된다. (여기서 feature란 cnn의 feature 맵이랑 연결시켜 보면 하나의 픽셀을 feature라고 하고 feature들이 모여서 feature 맵이라고 하는 것 같다.)
  ∴ BN은 batch에 있는 “모든” sample들에 대해서 “각 feature의 평균과 분산”을 구하여 정규화
  
  batch_size = m 입력 사이즈 = n

CNN의 배치 정규화
- 위의 모양으로 입력x와 가중치w의 곱(wixi+b)가 생김
- CNN의 경우 컨볼루션 성질을 유지 시키고 싶기 때문에 각 채널을 기준으로 각각의 감마와 베타를 만들게 된다.(★ 채널을 따져야한다.)
batch_size = m 필터 사이즈 = p x q 채널 개수 = n