정이는 성장중

[paper] ControlNet, Adding Conditional Control to Text-to-Image Diffusion Models

Thu, 13 Feb 2025 07:45:19 GMT

Adding Conditional Control to Text-to-Image Diffusion Models, 2023, arxiv

ControlNet은 Stable Diffusion 모델에 조건을 추가하여 더 정밀한 이미지 생성을 가능하게 하는 신경망 아키텍처입니다. Stable Diffusion은 원래 텍스트 입력을 바탕으로 이미지를 생성하는 모델로, 입력된 텍스트에 따라 이미지를 생성할 수 있는 강력한 능력을 가지고 있습니다. 텍스트만으로는 원하는 형태나 레이아웃을 반영하기 어려울 뿐 아니라, UNet의 각 레이어에 원하는 컨디션을 concat해주더라도 충분한 퀄리티가 나오기까지의 cost가 굉장히 많이 필요합니다.

** Stable diffusion (latent diffusion model)**

ControlNet

ControlNet은 이러한 문제를 해결하기 위해 Stable Diffusion에 조건적 제어(conditional control)를 추가하는 방안을 고안했는데요, ControlNet은 텍스트와 함께 추가적인 condition 이미지를 입력받아, 이 컨디션에 맞는 이미지를 생성합니다. 예를 들어, 사용자가 제공하는 Canny edge, pose, segmentation map, depth map 등을 추가적으로 입력받아, Stable Diffusion의 이미지 생성 과정을 세밀하게 조정할 수 있게 됩니다. 이렇게 하면, 이미지 생성 시 사용자가 원하는 정확한 형태나 구성 요소를 반영하는 것이 가능합니다.

기존 Stable Diffusion 모델의 UNet 부분을 고정된 부분(frozen layers)으로 두고, condition을 학습하는 복제본(trainable copy)을 두어 두 브랜치로 이루어져 있습니다.

피규어를 살펴보면, Stable Diffusion 모델의 원래 파라미터는 frozen되어 그대로 사용됩니다. 즉, Stable Diffusion의 대형 파라미터는 그대로 유지됩니다. frozen 모델에 복제본(trainable copy)을 만들어 이 부분을 학습합니다. 복제본은 입력된 조건적 이미지(예: Canny edge, pose, segmentation map 등)로부터 특징을 학습하며, 이를 통해 이미지를 생성할 때 더 정교한 제어가 가능합니다.

Denosing process in ControlNet

아키텍처를 자세히 들여다보면, denoising process에서 노이즈 $\epsilon$를 예측하는 UNet은 두 브랜치로 이루어져 있고, condition이 들어가는 ControlNet 브랜치는 zero convolution layer를 사용하여 연결됩니다.

Zero-initialized Layers

zero convolution 레이어들은 bias와 weight들이 모두 0으로 설정되어 있어, 학습이 전혀 되지 않은 상태에서는 기존 stable diffusion의 output과 같습니다. 이 방식은 학습 초기 단계에서 불필요하거나 유해한 노이즈가 모델에 영향을 미치지 않도록 하고, 이는 모델의 기존 성능(사전 학습된 Frozen Model)을 보호하면서 새로운 condition을 점진적으로 학습할 수 있도록 돕습니다.

Sudden Convergence Phenomenon

기존 Stable Diffusion 모델을 그대로 두고, 그 위에 ControlNet을 덧붙이는 방식이므로, finetunning시 학습 속도가 빨라지고 더 적은 데이터로도 효과적인 학습이 가능합니다.

또 그러한 방식을 사용하기 때문에, 논문에서는 ControlNet이 학습 초기에도 high quality의 이미지를 생성하는데, 그 과정에서 "sudden convergence phenomenon"을 경험한다고 언급합니다. 이는 학습 초기에 점진적으로 조건을 따라가지는 않지만, 특정 시점에 갑자기 퀀텀 점프를 하여 빠르게 조건을 따르게 되는 현상입니다. 이는 기존 모델을 보호하면서도 새로운 조건을 빠르게 학습할 수 있도록 도와주는 중요한 특징입니다.

Docker container 환경 구축하기, 서버 간 파일 전송

Fri, 24 Jan 2025 07:43:10 GMT

사용하고 있는 서버에서 다른 서버로 프로젝트 옮기기..

상황

ssh접속으로 사용하고 있는 서버에서 gpu사양이 더 좋은 다른 서버로 코드 및 파일 전체, conda 가상환경을 이동하고자 함
현재 사용 서버에는 도커 없음, 루트계정 권한 없음 (일반사용자계정)
이동하려는 새로운 서버에는 도커 컨테이너 환경을 만들고자 함

➤ 기존에 사용하던 서버에서 루트 권한이 없어 도커를 설치할 수 없기 때문에, vscode에서 Dockerfile을 작성하는 대신 코드를 서버에서 서버로 보내는 방법을 사용하려고 한다.

requirements.txt 생성

일단 conda 가상환경을 저장해준다.

pip freeze > requirements.txt

프로젝트 코드 압축

터미널에서 tar -czfg [압축할 폴더명] [경로]

tar -czfg project_code.tar.gz /project/path

server to server 파일 및 코드 이동

scp -P [옮길 서버의 포트번호] [압축한 폴더명] [사용자계정]@[옮길 서버의 IP]:[저장할 경로]

scp -P 22 project_code.tar.gz requirements.txt user@server:/path/target/directory

이동한 서버에는 도커가 이미 설치되어 있어, 아래는 도커 설치 이후 컨테이너를 빌드하는 과정이다.

a. Base image

https://hub.docker.com/_/docker 해당 링크에서 여러 베이스 이미지를 검색할 수 있다. 원하는 베이스 이미지를 사용하면 되는데, 나는 컨테이너에서 conda를 이용해 파이썬 버전을 따로 관리할 예정이라 우분투와 설치되어있는 cuda 드라이버 버전에 맞추어 주었다.

태그란을 클릭하면 cuda 드라이버와 우분투 버전별로 베이스이미지들이 있고, dockerfile에서 사용할 베이스 이미지를 새로 사용할 서버에 맞게 선택해준다.

b. Dockerfile 작성

도커파일은 설치가 필요한 것들과 config를 설정해주면 되는데, 나는 이런식으로 작성해주었다. conda 환경도 같이 구축한다.

# 예시
FROM nvidia/cuda:11.1.1-cudnn8-devel-ubuntu20.04
#FROM nvidia/cuda:12.2.0-base-ubuntu22.04
#FROM spped2000/dinov2manyproblem:lastest
ARG DEBIAN_FRONTEND=noninteractive
ENV TZ=Asia/Seoul

# Updating Ubuntu packages
RUN apt-get update && yes|apt-get upgrade
RUN apt-get install -y emacs wget bzip2 git vim gcc g++ libgl1-mesa-glx
RUN apt-get install -y tzdata

RUN wget https://repo.continuum.io/archive/Anaconda3-2021.04-Linux-x86_64.sh
RUN bash Anaconda3-2021.04-Linux-x86_64.sh -b
RUN rm Anaconda3-2021.04-Linux-x86_64.sh

# Set path to conda
ENV PATH /root/anaconda3/bin:$PATH

# Updating Anaconda packages
RUN conda config --remove channels defaults
RUN conda config --add channels conda-forge
RUN conda config --set channel_priority strict

c. Docker 이미지 빌드

작성한 Dockerfile을 기반으로 이미지를 빌드한다. 만든 이미지의 빌드는 터미널에서 다음 커맨드를 입력한다. docker build -t [태그명] -f [도커파일 경로]

docker build -t tagname -f dockerfilepath/Dockerfile .

그럼 이미지가 만들어진다.

d. Docker 컨테이너 생성

컨테이너 생성은 아래 커맨드를 사용해 생성한다. -it는 터미널 연결이 끊겨도 컨테이너에서 코드가 계속 돌아갈 수 있도록 하는 옵션이고, 딥러닝 코드를 돌릴 예정이므로 gpu를 사용하는 옵션도 지정해주었다. 그다음 --name [컨테이너명] [이미지이름]:[태그명]이렇게 arg들을 주면 된다. run 옵션은 다음 글을 참고하자. run명령어옵션 다만 여기에서 호스트 서버의 데이터를 이용해야 할 경우 볼륨을 생성해주어야 하는데, 글 맨 아래 내용을 참고하길 바란다.

docker run -d -it --name containername --gpus all imagename:tag

나는 docker run -d -it --name hj --gpus all docker-ai-image:latest 커맨드를 사용하여 hj라는 컨테이너를 생성해주었다.

e. Docker 컨테이너 Attach

컨테이너를 생성했으면 ssh 접속한 것처럼 터미널을 붙일 수 있다.

방법 1)

docker attach containername

다음 커맨드를 사용하여 터미널을 컨테이너 환경의 터미널로 변경할 수 있고,

방법 2) vscode에서 Docker 익스텐션을 설치하였으면 사이드바의 도커에서 해당 컨테이너를 우클릭하여 컨테이너에 접속할 수도 있다. Attach shell 또는 attach vscode를 사용하면 된다.

방법 3) command palette에서 attach까지 검색하면 컨테이너 터미널로 변경하는 커맨드가 나온다.

*첫번째 CLI방법으로 도커에서 빠져나올때 exit나 CTRL+C로 나오면 컨테이너가 종료되기 때문에, 터미널을 종료하더라도 컨테이너에서 실행중인 코드를 계속 유지하고 싶다면 CTRL+P+Q로 나와야만 유지할 수 있다.

생성한 컨테이너에 접속하면 사용자이름이 root계정으로 바뀌고 conda도 잘 설치되어있는 모습을 볼 수 있다.

@ 서버에서 다른 서버의 도커 컨테이너로 파일을 직접 전송하는 방법은 없기 때문에, 서버로 전송한 프로젝트 파일을 다시 컨테이너로 옮겨주어야 했다.

두 가지 방법이 있는데,

방법 1) 직접 컨테이너로 옮기는 방식

직접 컨테이너로 옮기는 방식은 docker cp [프로젝트 압축파일 경로] [container_id]:[컨테이너에서 프로젝트파일을 저장할 경로]

docker cp /path/project/file container_id:path/container/destination

이렇게 사용하면 되고, *container_id는 docker ps를 치면 확인할 수 있다.

방법 2) 볼륨 생성하기

다른 방법은 호스트 서버에 데이터가 있고 그 데이터를 컨테이너에서 이용하는 방법이다. 컨테이너에 파일데이터를 직접 옮겨줄 경우 컨테이너를 삭제하면 안의 파일들도 다 삭제되기 때문에, 도커에서는 볼륨이라는 것을 사용한다. 볼륨은 컨테이너가 삭제되더라도 데이터를 지속적으로 보존할 수 있게 해주는데, 볼륨을 사용하면 컨테이너를 삭제해도 데이터는 볼륨에 저장되고, 새로운 컨테이너를 실행할 때 이 볼륨을 다시 마운트할 수 있다.

먼저 서버에서 볼륨을 생성해준다.

docker volume create my_volume

그리고 컨테이너 실행시 볼륨의 경로를 지정해주는 옵션을 함께 넣어주면 된다.

docker run -v my_volume:/path/to/data

아무튼 파일 압축을 풀고 conda requirements 파일을 이용해 가상환경을 다시 구축해주었다.

끝!

[paper] Stable diffusion

Wed, 04 Dec 2024 06:39:07 GMT

_High-Resolution Image Synthesis with Latent Diffusion Models, 2022, CVPR _ Stable Diffusion은 2022년 8월 Stability AI에서 발표한 text-to-image 생성 모델로, 오픈소스로 공개되어 인공지능 이미지 생성 분야에서 큰 주목을 받았는데요, 24년 12월 기준 1만 2천회가 넘는 인용수를 가지는 논문입니다. 최근 컴퓨터비전에서 주로 연구 및 발전되고 있는 생성모델 분류이고, 다양한 여러 태스크에서 stable diffusion의 아키텍처를 이용하여 SOTA를 달성한 모습을 많이 볼 수 있습니다.

Introduction

기존의 이미지 생성 모델인 Generative Adversarial Networks(GAN)와 Variational Autoencoders(VAE)는 훈련의 불안정성, mode collapse, 낮은 해상도 등의 문제를 겪었습니다. Diffusion 모델은 이러한 한계를 극복하며 고품질 이미지 생성을 가능하게 했지만, 픽셀 공간에서 동작하므로 높은 cost과 학습 시간이 요구됩니다.

Image generation model의 분류

Autoregressive(AR) 모델:
- 픽셀 단위로 순차적으로 이미지를 생성하며, 밀도 추정에서 강력한 성능을 보임
- 그러나 낮은 해상도에만 적합하며, 높은 계산 비용으로 인해 고해상도 이미지를 생성하는 데 제약이 있음
GAN(Generative Adversarial Networks):
- 높은 품질의 이미지를 생성할 수 있지만, 학습이 불안정하며, 데이터 분포의 다양한 모드를 모두 학습하지 못하는 mode collapse 문제를 겪음
Diffusion 모델(DM):
- 노이즈를 추가하고 제거하는 과정을 통해 이미지를 생성하며, GAN의 mode collapse 문제를 해결
- 그러나 픽셀 공간에서 작동하기 때문에(pixel-level의 reconstruction) 계산 비용이 높고, train 및 test가 비효율적

diffusion model에서 상당한 리소스가 소요된다는 점을 해결하기 위해 저자들은 diffusion model의 학습 단계를 분석했을때, likelihood 기반의 모델들이 다음 그림과 같은 두가지 단계를 거친다는 것을 발견했습니다.

Likelihood based model의 Training Stages

First, Perceptual compression
Second, Semantic Compression

먼저 피규어를 설명하기에 앞서서 Rate(bits/dim)은 압축에 사용되는 비트수인데요, 0에 가까워질수록 압축에 사용되는 비트수가 적기 때문에 크게 압축된 상태라고 보시면 됩니다. 그래서 학습단계에서는 원본 상태(=압축률 낮음, 비트수 많음)에서 압축이 큰 단계로 가는 것이 latent space로 가는 과정이라고 할 수 있겠습니다.

그래서 첫 번째로 perceptual compression 단계에서는 high frequency 영역을 제거하면서 semantic 정보를 유지하는 단계입니다. 그림상에서 오른쪽 하단 부분인데요, 오른쪽 세장의 사진에서 선글라스 낀 남성의 모습이 유지되는 것을 알 수 있습니다.

그러고 나서 Semantic compression 단계를 거친다고 합니다. 이 단계에서는 semantic하고 coneptual한 구성을 파악하는 단계입니다. 그림상에서 왼쪽인데요, 왼쪽에서는 선글라스, 남성 등의 context가 사라지고 사람 얼굴만 유지되는 것을 알 수 있습니다.

그래서 perceptually equivalent하면서, 적합한 space를 찾아서 diffusion 모델을 학습시키겠다는 것이 논문의 요지입니다. perceptually equivalent하다는 것은 원본과 거의 차이가 없는, 즉 피규어 상에서 가장 오른쪽에 있는 사진으로부터 세번째 사진 지점의 latent space에서 high-resolution의 이미지를 위한 diffusion을 학습시키겠다는 것입니다.

Arcitecture

이를 위해 학습단계를 구별되도록 아키텍처를 설정하는데요, 첫번째 단계인 perceptual compression 단계는 Autoencoder, Semantic Compression 단계는 Diffusion Model로 구성을 합니다.

Distinct Training phases

Perceptual compression → Autoencoder
Semantic compression → Latent Diffusion Model(LDM)

autoencoder를 통해 효율적인 작은 차원으로 만들면서, perceptual하게 동등한 data space로 만드는 것입니다. 압축된 공간에서부터 diffusion model이 동작하기 때문에, 효율적인 이미지 생성을 할 수 있습니다.

1. Autoencoder

빨간색 부분이 Autoencoder입니다. Autoencoder에서는 perceptual compression을 위해 두가지 loss를 활용하는데요,

perceptual loss

patch-based adversarial objective

perceptual loss는 VGG같은 pretrained model을 사용하여 high-level의 featuremap을 뽑아서 원본과 비교하는 형식의 loss입니다. 기존에 주로 사용하는 L1, L2 loss의 경우 pixel-level의 compression, reconstruction을 진행하면서 blurriness 문제가 발생하는데, perceptual loss를 사용하면 피할 수 있고 보다 이미지 매니폴드를 잘 따르게 할 수 있다고 합니다.

patch-based adversarial objective는 PatchGAN에서 사용하는 loss인데, 패치단위에서 패치의 real/fake 여부를 판별하게 만들면서 local realism을 학습할 수 있도록 하는 것입니다.

모델 코드 내에서는 autoencoder가 perceptual loss를 따르도록 하고, autoencoder가 생성한 이미지를 구별해내는 dicriminator가 patch-based loss를 따르도록 하여 adversarial하게 학습을 진행하고 있습니다.

이때 latent space가 높은 variance를 갖는 것을 피하기 위해 논문에서는 두가지 regularization을 언급하는데요,

Regularization for avoiding high-variance of latent space

KL-reg

VQ-reg

첫번째로는 latent space가 VAE처럼 정규분포를 따르도록 KL penalty를 주는 것, 두번째는 디코더의 레이어에 vector quantization을 주는 것입니다. 뒤에서 나오는 실험파트에서 VQ-reg가 더 좋았다고 언급합니다.

이렇게 만들어진 latent space는 x의 representation을 잘 보존하고, 적합한 압축률을 가진다고 합니다.

2. Latent Diffusion Model(LDM)

그림상에서 초록색 부분입니다.

👉 기존의 diffusion model(DM)에서는 노이즈가 정규분포를 따른다고 가정하고, 타임스텝 t에 따른 노이즈를 예측(예측된 noise $\epsilon_\theta (x_t, t)$)하여 L2 loss를 줄이는 방식으로 학습했는데요,

👉 LDM에서는 기존의 DM처럼 노이즈를 예측하는 것은 똑같지만 x대신 오토인코더의 latent space에 임베딩된 feature를 사용하여, 타임스탭 t가 주어졌을때 노이즈 스텝에서의 t시점 잠재공간 z의 noise를 예측하도록 학습합니다.

이렇게 학습하는 것이 pixel-level의 고차원과 비교했을때 likelihood 기반의 모델에 적합하다고 합니다. 즉 이 space가 semantinc bits에 더 잘 집중하고, 학습시 cost가 적다고 합니다.

3. Conditioning Mechanism

기존의 diffusion model의 경우 $p(x|y)$로 같은 condition y가 주어졌을때 x를 생성하는 작업이 가능했지만, 주로 condition은 클래스 라벨이나 블러리한 이미지로 다른 condition에 대한 탐구가 이루어지지 않았는데요, stable diffusion에서는 LDM에서 $Z_t$ → $Z_{t-1}$로 가는 기존의 UNet의 레이어를 어텐션 레이어를 사용함으로써 다양한 모달리티를 condition으로 사용할 수 있습니다.

domain specific한 encoder $\tau _\theta$로 y를 적합한 latent space로 변환하고, UNet 레이어마다 cross attention을 계산할 수 있습니다.

equation은 다음과 같습니다:

여기서 $\varphi$는 UNet의 중간 representation을 attention matrix 계산을 위해 flatten 시킨 노테이션입니다.

👉 그러면 수식은 기존의 LDM에서 임베딩된 y($\tau_\theta(y)$)가 주어졌을 때의 노이즈를 예측하는 것으로 변형되고, 이 때 두 인코더 $\varepsilon$과 $\tau$는 동시에 학습됩니다. 이 메커니즘을 통해 encoder $\tau$는 domain에 적합한 expert가 되고, 예를 들어서 text가 condition으로 들어온다고 하면 트랜스포머모델을 사용할 수 있습니다.

Experiments

Regularization에 대한 실험 AutoEncoder에 대한 regularization으로 vector quantization을 사용하는 것이 성능이 좋았다는 것을 언급하고 있습니다. f는 down sampling 계수인데, 기존 dimension에서 다운샘플링될때 한 비트에 대응되는 픽셀 수입니다.

Compression에 따른 성능 비교 LDM-1은 기존 pixel space의 diffusion model입니다. 아래 figure를 보면 너무 많이 압축된 LDM-32의 경우에는 정보 손실로 인해 일정 train step 이후 충분한 학습이 어렵습니다. 반면 적당이 압축된 LDM-{4, 8, 16}의 경우에는 FID, Inception score모두 좋은 성능을 보이는 것을 확인할 수 있습니다.

CelebA-HQ (왼쪽), ImageNet (오른쪽) 두 데이터셋에서 압축률에 따른 FID score를 확인했을때는, 상대적으로 어려운 ImageNet같은 데이터셋에서는 압축률을 줄여야함을 알 수 있습니다.
기타 실험 결과 및 성과
- 기존 모델들과의 성능 비교: 기존의 GAN, VAE 기반 모델들과 비교하여 더 나은 성능과 효율성을 입증하였습니다.
- Text-to-Image, Layout-to-Image, Super Resolution, Inpainting 등 다양한 응용 사례: 텍스트를 통한 이미지 생성, 레이아웃 기반 이미지 생성, 초해상도, 이미지 복원 등 다양한 응용 분야에서 우수한 성능을 보였습니다

YAML과 Hydra를 이용한 config 관리

Wed, 02 Oct 2024 06:59:10 GMT

모델 config에서 YAML과 Hydra를 사용하는 이유

딥러닝이나 머신러닝 프로젝트를 하다 보면, 모델의 config 파일을 통해 학습에 필요한 다양한 설정을 정의하게 됩니다. 이러한 설정 파일을 만들 때 가장 많이 사용하는 포맷이 YAML입니다. 또한, 설정 파일을 효율적으로 관리하고, 다양한 실험 환경을 지원하기 위해 Hydra라는 프레임워크도 함께 사용하는 경우가 많습니다.

오늘은 YAML과 Hydra로 모델의 설정 파일을 만들고 관리하는 방법에 대해서 살펴보겠습니다.

1. YAML: 설정 파일 형식

먼저, YAML은 "YAML Ain't Markup Language"의 줄임말로, 데이터를 표현하는 데 매우 간결하고 사람이 읽기 쉬운 포맷입니다. JSON과 비슷한 형식이지만, 가독성이 훨씬 뛰어나기 때문에 구성 파일로 많이 사용됩니다.

YAML 사용 이유

가독성: 들여쓰기를 사용해 구조를 표현하기 때문에, 데이터를 직관적으로 이해할 수 있습니다. 중괄호나 대괄호를 사용하는 JSON보다 훨씬 간결하게 표현됩니다.
유연한 데이터 구조: 딕셔너리, 리스트 같은 다양한 데이터 구조를 쉽게 표현할 수 있습니다.
주석 지원: #을 사용해서 주석을 추가할 수 있어, 설정 파일에 설명을 추가할 수 있습니다. 이는 JSON과 비교했을 때 큰 장점입니다.

YAML의 기본 문법

YAML에서 가장 기본적인 데이터 표현은 키-값 쌍입니다. 설정 파일에서 변수와 그 값을 정의하는 방식입니다.

model:
  name: resnet50
  learning_rate: 0.001
  epochs: 50

위의 예시는 model이라는 키에 대한 세부 설정을 표현한 것입니다. name, learning_rate, epochs는 각각 모델의 이름, 학습률, 학습 횟수를 나타냅니다.

리스트와 딕셔너리 표현

YAML은 리스트와 딕셔너리를 사용하여 복잡한 데이터를 직관적으로 표현할 수 있습니다.

# 리스트 표현
layers:
  - conv1
  - conv2
  - conv3

# 딕셔너리 표현
dataset:
  name: CIFAR10
  path: /datasets/cifar10
  batch_size: 32

리스트는 -로 항목을 구분하며, 딕셔너리는 들여쓰기를 통해 하위 키와 값을 표현합니다. 이런 방식으로 모델의 구성이나 데이터셋 정보를 YAML에 정의할 수 있습니다.

Hydra: 설정 관리 프레임워크

다음으로 Hydra는 구성 파일을 동적으로 관리하고 다양한 실험 환경을 지원하기 위해 만들어진 Python 프레임워크입니다. 실험에서 하이퍼파라미터 튜닝이나 다양한 설정을 테스트할 때 매우 유용합니다.

Hydra의 핵심 기능

Hydra는 YAML 파일을 바탕으로, 실행 시점에 설정 값을 쉽게 변경하거나, 여러 실험을 자동으로 관리하는 기능을 제공합니다.

Config Override

Hydra는 커맨드 라인에서 설정 파일에 정의된 값을 쉽게 오버라이드할 수 있습니다. 예를 들어, config.yaml 파일에서 학습률을 0.001로 정의했더라도 실행 시 다음과 같이 값을 변경할 수 있습니다.

python train.py model.learning_rate=0.01

이처럼 코드 수정 없이 커맨드 라인에서 파라미터 값을 변경할 수 있어 매우 유용합니다.

구성 파일 상속 및 계층화

Hydra는 구성 파일을 상속하고, 계층적으로 관리할 수 있습니다. 예를 들어, 모델 구조, 데이터셋, 학습 파라미터 등 여러 설정 파일을 나누고, 실행 시 필요한 부분만 결합하여 사용할 수 있습니다.


# config.yaml
defaults:
  - dataset: cifar10
  - model: resnet50
  - optimizer: adam

실행 시 데이터셋을 cifar100으로 바꾸고 싶다면 이렇게 할 수 있습니다.

python train.py dataset=cifar100

멀티런 기능 (Multirun)

여러 하이퍼파라미터 조합을 실험할 때, Hydra의 멀티런 기능을 사용하면 한 번의 명령어로 여러 설정을 자동으로 테스트할 수 있습니다.

python train.py -m model.learning_rate=0.001,0.01 optimizer=adam,sgd

위 명령어는 learning_rate와 optimizer의 다양한 조합으로 자동으로 여러 번의 실험을 수행합니다.

3. YAML과 Hydra의 사용 예제

이제 YAML과 Hydra를 결합하여 어떻게 사용하는지 살펴보겠습니다.

1) YAML 파일 작성 우선, config.yaml 파일에 모델과 학습에 필요한 기본 설정을 정의합니다.

# config.yaml
model:
  name: resnet50
  learning_rate: 0.001
  layers:
    - conv1
    - conv2
    - conv3

dataset:
  name: CIFAR10
  path: /datasets/cifar10
  batch_size: 32

optimizer:
  type: adam
  weight_decay: 0.0005

2) Hydra로 설정 파일 로드 이제 Python 코드에서 Hydra를 이용해 이 설정 파일을 로드하고, 필요한 값을 사용합니다.

import hydra
from omegaconf import DictConfig

@hydra.main(config_path=".", config_name="config")
def train(cfg: DictConfig):
    print(f"Using model: {cfg.model.name}")
    print(f"Learning rate: {cfg.model.learning_rate}")
    print(f"Dataset path: {cfg.dataset.path}")

if __name__ == "__main__":
    train()

3) 실행 시 설정 오버라이드 위의 코드를 실행할 때, 다음과 같이 설정을 동적으로 오버라이드할 수 있습니다.

python train.py model.learning_rate=0.01 dataset.batch_size=64

이 명령어는 학습률을 0.01로, 배치 사이즈를 64로 변경하여 실행하게 됩니다.

4) 멀티런으로 실험 자동화 하이퍼파라미터 튜닝을 위해 멀티런 기능을 사용할 수도 있습니다.

python train.py -m model.learning_rate=0.001,0.01 optimizer.type=adam,sgd

이 명령어는 learning rate와 optimizer의 다양한 조합으로 자동으로 실험을 수행합니다.

4. 마무리

모델의 config를 관리하는 것은 매우 중요하지만, 이를 직접 코드로 구현하면 복잡해지고 관리가 어려워질 수 있기 때문에 YAML과 Hydra를 사용하면 설정 파일을 보다 직관적이고 가독성 좋게 관리할 수 있으며, 다양한 실험을 손쉽게 실행할 수 있습니다.

[paper] NOPE: Novel Object Pose Estimation from a Single Image

Fri, 13 Sep 2024 01:50:07 GMT

NOPE: Novel Object Pose Estimation from a Single Image은 arxiv 기준 23년 3월에 게재된 페이퍼입니다.

페이퍼 내용에 앞서 6D pose estimation task를 살펴보겠습니다.

먼저 최근 6D Pose estimation은 CAD model과 같은 3D 모델을 사용하여 instance level에서 estimation하거나, 카테고리의 general한 feature를 이용하는 경우(category-level이라고 함)로 크게 분류할 수 있습니다.

approach는 다음과 같이 분류할 수 있습니다.

Feature-based Methods 이미지에서 특징점을 추출하고,이를 바탕으로 3D공간에서 객체의 위치와 방향을 추정

Neural Surface Reconstruction-based Methods 객체의 3D 구조를 학습하여 6D 포즈를 추정할 때 이 3D구조를 참고하는 방식 ex.NeuSurfEmb

Template Matching-based Methods 사전 생성된 템플릿 이미지와 입력 이미지 간의 유사성을 기반으로 객체의 6D 포즈를 추정하는 방식 ex. GigaPose

Pose Regression-based Methods 단일 RGB 이미지ㅣ로부터 직접적으로 6D 포즈를 regression하는 방식으로 특징점 추출이나 3D 구조 재구성을 하지 않으며, 신경망을 사용해 직접적으로 표즈를 예측하는 방식

최근에는 정확도가 낮은 pose regression 방식보다는 reconstruction-based method를 거친 후 키포인트를 조정하는 방식의 아키텍처로 많이 연구가 이뤄지고 있고, 오늘 소개할 NOPE은 reconstruction, template mathching methods와 가깝다고 볼 수 있습니다.

기존의 object pose estimation (OPE) 방법들은 3D 모델, 다수의 이미지(reference images, 비디오 시퀀스)를 필요로 하고 새로운 객체나 카테고리에 대해 재학습이 필요한 반면에, NOPE은 single 이미지만으로 새로운 객체의 상대적인 3D pose(rotation)을 예측할 수 있다고 합니다. 또한 3D 모델이나 새로운 instance에 대한 재학습도 필요없다고 합니다.

Framework

NOPE 모델의 아키텍처는 요약하면 아래와 같은 방식으로 동작합니다.

여기서 논문 제목 때문에 헷갈릴 수 있는 요소가 있는데, 정말 single 이미지에서의 pose estimation이 아니고, 포즈 정보를 가지고 있는 reference 이미지 한장이 필요합니다. 포즈 정보를 알고 있는 reference 이미지 한장만 있으면 _category 정보, instance의 CAD 모델, 다수의 reference 이미지(또는 비디오 시퀀스)_가 없어도 pose estimation을 할 수 있다,는 것이 이 모델의 contribution이라고 할 수 있습니다.

요약

reference image를 바탕으로 다양한 view에서의 객체의 예상모습(pose포함)을 생성하고,생성한 이미지의 representation을 템플릿으로 사용해 쿼리이미지의 representation과 매칭하여 상대적인 포즈추정

네트워크 구성

네트워크는 U-Net과 같은 모양으로 구성이 되어있고, 이 네트워크는 reference 이미지가 특정 상대적인 포즈에서 어떻게 보일지에 대한 임베딩을 생성합니다. 또 각 레이어에서는 포즈 임베딩을 condition으로 사용하는데, reference 이미지가 주어진 상대적 포즈에서 어떻게 보일지를 예측합니다.

과정

이미지 임베딩 reference 이미지와 query 이미지를 U-Net을 통해 임베딩
템플릿 생성 reference 이미지에서 객체의 다양한 view에서 보이는 모습을 예측하여 각 view에 해당하는 임베딩 생성 생성한 임베딩은 해당 view에서의 pose 정보를 가진 템플릿이 됨
템플릿 매칭 query 이미지와 reference 이미지의 템플릿을 매칭하여 쿼리 이미지에서의 객체의 상대적인 포즈를 추정

Pose prediction

3번째 phase인 템플릿 매칭에 대해서 살펴보면, 아래와 같은 단계로 구성됩니다.

1) 주어진 reference image $I_r$와 N개의 상대적 view $P_n$에 대해, 각 view에 해당하는 예측된 임베딩을 획득

Templates for 3D Object Pose Estimation Revisited:Generalization to New Objects and Robustness to Occlusions (link)

따라서 모든 view(342개)에서의 확률이 계산됩니다.

$p(\Delta R | I_r, R_q) = \mathcal{N}(e_q|e(e_r, \Delta R), \sum(e_r, \Delta R))$

$I_r$ : reference 이미지
$e_q$, $e_r$ : 쿼리/reference 이미지의 임베딩
$R$ : 참조이미지에서 쿼리이미지로의 회전행렬
$e(e_r, \Delta R)$ : 참조이미지의 임베딩에서 회전 $\Delta R$을 적용했을 때의 평균 임베딩
$\sum (e_r, \Delta R)$ : covariance, 회전 $\Delta R$에서의 불확실성

여기서 $e(e_r, \Delta R)$는 회전 $\Delta R$에서 객체가 보일 수 있는 모든 가능한 모습을 평균적으로 나타내는 임베딩으로, 객체의 다양한 3D 형태를 고려하여 임베딩이 계산됩니다.

$e(e_r, \Delta R) = \int_M e(\Delta R, \mathcal{M})p(\mathcal{M}|e_r)d\mathcal{M}$

$\mathcal{M}$는 객체의 3D 모델 그래서 평균임베딩이라는 것은 객체가 가질 수 있는 다양한 모습을 통합한 일반화된 표현이며, 저장된 임베딩은 객체의 구체적인 시각적 디테일보다는, 객체의 포즈와 형태를 구별하는 데 필요한 중요한 특징을 담고 있다고 할 수 있습니다.

2) Nearest neighbor search를 사용하여 쿼리 이미지의 임베딩과 가장 가까운 임베딩을 가진 reference point를 찾아서 query 이미지와 ref 이미지의 상대적 포즈 결정

Nearest 상위 N개의 템플릿(3 또는 5개)를 사용하여 포즈 평가 → 각 템플릿에서 얻은 포즈 결과들을 추가적으로 분석하여 오차가 가장 작은 포즈를 선택하는 방식으로 동작

Loss function

loss는 l2 norm으로 계산됩니다.

$\sum_{(e_1, e_2, \Delta R)} |F(e_1, \Delta R)- e_2|^2$

F는 참조이미지의 임베딩($e_1$)을 입력으로 받아 회전행렬을 적용한 후 결과를 예측하는 네트워크
$e_2$는 truth embedding

Experiments

비교대상

PIZZA: regression 기반 접근 방식으로, 상대적인 포즈를 직접 예측
SSVE 및 ViewNet: 이 두 기법은 semi-supervised learning 및 self-supervised learning을 사용하여 view point 추정을 이미지 reconstruction 문제로 처리, 학습된 객체 카테고리만 사용할 수 있음
3DiM: 주로 view synthesis에 초점을 맞춘 기법으로, 3D 객체 포즈 추정을 위한 템플릿을 생성하고 가장 가까운 이웃 검색을 사용해 포즈를 추정

ShapeNet

NOPE은 새로운 객체에서도 더나은 generalize 성능을 보여주었으며, 특히 회전 대칭성을 가진 객체에서도 탁월한 성능을 발휘했습니다.

기존의 방법들은 새로운 객체나 학습되지 않은 카테고리에서 성능이 저하되는 반면, NOPE은 학습되지 않은 객체 카테고리에서도 강력한 성능을 유지할 수 있음을 보입니다.

T-LESS

GT CAD 모델을 사용하는 모델 중 [32]의 성능에는 미치지 못했지만 [47]은 능가한 모습을 볼 수 있습니다.

Robustness to occlusions

NOPE은 큰 가림이 있는 경우에도 여전히 robust한 성능을 보입니다.

Failure cases

모든 방법이 시계(clock), 식기세척기(dishwasher), 기타(guitar), 머그잔(mug) 카테고리에서는 정확한 결과를 내지 못했으며, 이는 높은 median의 오류로 확인되었다고 합니다.
기타를 제외한 이 카테고리들은 거의 대칭적이며, 작은 디테일만이 포즈의 모호성을 제거하기 때문에 pose estimation에 어려움을 겪었고, NOPE은 90도 또는 180도 대칭성을 가진 객체에서 상위 3개 또는 5개의 가장 가까운 이웃을 사용함으로써 중앙값 오류를 크게 개선했지만, 머그잔과 같이 원형 대칭을 가진 객체에서는 개선이 어려웠습니다.
또한 기타는 특정 시점에서 매우 얇게 보일 수 있기 때문에, 포즈 추정의 어려움이 있었습니다.

Summary

NOPE의 목표:
- NOPE은 단일 이미지만으로 새로운 객체의 상대적인 3D pose(rotation)를 예측하며, 3D 모델이나 추가적인 재학습 없이도 새로운 이미지에서 객체의 포즈를 estimation 가능
- 이 방법은 특히 새로운 객체에 대해 학습이 필요 없다는 점에서 기존 방법과 차별화
주요 기법:
- NOPE은 객체의 새로운 view(시점)를 예측하고 이를 template matching 방식으로 사용하여 새로운 이미지의 포즈를 예측
- 이러한 템플릿 매칭 방식은 occlusion이나 symmetry 문제에 대해서도 robust
방법론 차별점:
- 기존의 Novel View Synthesis(새로운 시점 생성) 방법들과 달리, NOPE은 색상 정보를 예측하는 것이 아닌, discriminative embeddings을 예측하여 더 빠르고 효율적으로 포즈를 추정
- 이를 통해 불필요한 세부 사항을 “발명(invent)”하지 않고도, 실제 객체의 외형에 가까운 임베딩을 생성가능
  
  ⏩ 새로운 view 생성은 input 이미지에서 보이지 않는 부분을 만들어내야 하는데, 실제 이미지와 일치하지 않을 수 있기 때문에 이런 부분이 pose estimation에 부정적인 영향을 미칠 수 있음

대칭성 문제 처리:
- NOPE은 대칭적인 물체에서 발생할 수 있는 포즈의 모호성을 예측할 수 있으며, 이를 해결하기 위해 확률 분포를 사용한 템플릿 매칭 방식을 도입
- 이를 통해 여러 포즈 가능성을 분석하고, 그 중 최적의 포즈를 선택

NOPE은 학습 시에 템플릿(임베딩과 gt포즈)를 저장해서 이용하는 것이 아니라, 추론(inference) 시에 템플릿을 예측해서 생성하는 접근이 다른 템플릿 기반 모델들과 다른 방법이었습니다. 때문에 unseen 객체에 대해서도 estimation할 수 있고, 특정 카테고리나 인스턴스의 3D 모델 없이도 estimation할 수 있다는 장점을 가지고 있습니다.

Roboflow 데이터셋 유형변경 - Object Detection에서 Instance Segmentation

Thu, 05 Sep 2024 01:04:00 GMT

바운딩 박스로 되어있는 object detection 데이터셋을 이용해서 segmentation 데이터셋으로 변경하고 싶을 때,

Segmentation Annotation

좌측의 annotate로 들어가서 이미지를 연다.

우측의 툴바에서 polygon tool 또는 smart polygon tool을 사용하여 segmentation 해준다.

필자는 주로 smart polygon tool을 사용해서 자동으로 segmentation을 따주었고, 인식이 잘 안된것만 polygon tool을 이용해 다시 수정해주었다.

smart polygon을 이용하더라도 이렇게 잘 되는 모습을 볼 수 있다.

로보플로우에서 대량으로 적용하는 방법은 아직 구현되어있지 않다. 개별적으로 하나씩 다 세그멘테이션 하고 나서,

Change dataset format

데이터셋 화면으로 돌아가 좌측의 generate 탭으로 들어간다.

필요한 전처리와 Augmentation를 적용해준 뒤 create 버튼을 누른다.

우측 상단의 download 버튼을 누르고 포맷을 coco json으로 설정하면 segmentation 정보가 저장된다.

zip 파일로 저장한 뒤에, 압축을 풀어준다.

다시 좌측 보라색 탭의 프로젝트로 들어가서,

New Project를 만들어준다.

이때, instance segmentation으로 만들어주어야 한다. 그렇게 하면 아래처럼 이미지들이 있는 object detection(원래) 폴더, 새로 만든 instance segmentation 폴더 두 개가 보일 것이다.

새로 만든 instance segmentation 폴더로 들어가서,

아까 저장한 폴더를 업로드 해준다.

그러면 이미지들이 등록되어 화면에 나타나는데, 우측 상단의 upload 버튼을 눌러 완료까지 해주어야 된다.

그러면 instance segmentation 데이터셋이 완성된다.

다시 원하는 모델의 포맷으로 다운받아 사용하면 된다.

[paper] PatchCore: Towards Total Recall in Industrial Anomaly Detection

Wed, 04 Sep 2024 06:52:50 GMT

** Towards Total Recall in Industrial Anomaly Detection (CVPR, 2022)** arxiv.org

Preliminaries

Anomaly Detection의 Cold Start

제한된 label 데이터 : anomaly detection은 보통 normal sample로 모델을 학습시키는 상황에서 이루어지는데, 이때 이상 데이터에 대한 정보가 거의 없거나 전혀 없기 때문에 anomaly를 잘 탐지할 수 있을지 확신하기 어려움
불충분한 데이터 : 처음에 사용할 수 있는 데이터가 제한적일 때, 충분한 양의 정상 데이터조차도 확보하기 어려운 경우
일반화 문제 : 특정 상황에서나 환경에서만 수집된 정상 데이터는 다른 상황에 잘 인반화되지 않을 수 있음

Anomaly Detection의 주 Approach

1) Recontruction-Based

주로 정상데이터의 분포를 학습하고 inference 시에 input과 비교하는 out-of-distribution 문제로 접근된다.

Autoencoder(자동 인코더): input 데이터를 압축한 후 재구성하여 입력 데이터와 재구성된 데이터 간의 차이를 통해 이상을 탐지, 정상 데이터는 잘 재구성되지만, 이상 데이터는 제대로 재구성되지 않음
Generative Adversarial Networks(GANs): 정상 데이터 분포를 학습하는 생성 모델을 사용하여 비정상 데이터를 탐지, GAN을 사용하면 정상 데이터와의 차이를 모델이 학습하게 할 수 있음
k-NN, Mahalanobis 거리 기반 방법: feature space에서 normal 데이터의 분포를 기반으로, 새로운 데이터가 이 분포에서 얼마나 벗어나는지를 계산하여 이상 여부를 판단

2) Memory bank-Based

Memory bank: normal 데이터를 기반으로 한 feature을 저장해놓고 테스트할 때 새로운 데이터와 비교하여 이상을 탐지
메모리 뱅크는 대규모 데이터에서 처리 및 저장 비용이 많이 들 수 있으며, pretrained 모델의 feature들이 natural 이미지에 편향될 수 있음

Domain Shift

모델이 학습한 데이터와 실제 산업 환경에서 사용하는 데이터 간의 차이
ImageNet에서 학습된 모델의 특징은 natural 이미지에 최적화되어 있어, 산업적 데이터에서 발생하는 결함을 탐지하는 데 적합하지 않을 수 있음
이를 해결하기 위해 학습된 feature을 재사용하더라도, 해당 데이터에 맞는 특화된 방식을 사용해야 함

Introduction

Industrial Anomaly Detection에서 "PatchCore"라는 새로운 접근 방식을 제안한 논문이다.

특히 결함이 없는 정상적인 데이터만을 사용하여 모델을 학습시키는 "cold start" 문제를 해결하려고 했다.
테스트 시 사용할 수 있는 정상 정보를 최대한 활용하고, ImageNet 클래스에 대한 편향을 줄이며, 높은 추론 속도를 유지하는 방법을 제안하였다.
그 방법의 간략한 내용은 다음과 같다.
- mid-level의 patch feature를 활용하여 최소한의 bias로 높은 high-resolution을 다룸
- local 이웃의 feature aggregation을 통해 충분한 공간적 context 유지
- memory bank에서 중복성을 줄이고 메모리 및 inference time을 줄이기 위해 greedy coreset subsampling 도입

결과적으로 MVTec AD에서 거의 완벽한 이미지 레벨 탐지 AUROC(최대 99.6%)를 달성하며, 이전 방법의 오류를 절반 이상 줄였다고 한다. 이와 동시에 빠른 추론 시간을 유지하고, 소수의 샘플로도 기존 방법과 비슷한 성능을 보였다고 한다.

related works에서는 PatchCore 이전의 SPADE, PaDiM을 언급하였는데, SPADE와 PaDiM은 industrial anomaly detection에서 자주 사용되는 대표적인 기법들이다. 두 방법은 ImageNe pretrained 모델을 사용해 abnormal 데이터를 탐지하며, 각각의 강점과 제한점을 가지고 있다.

SPADE (Sub-image Anomaly Detection with Deep Pyramid Correspondences)

이미지 전체에서 여러 계층의 피처를 추출한 후, 이를 메모리 뱅크에 저장하고, 새로운 이미지의 패치와 비교하여 이상 여부를 판단

장점	• 다중 스케일에서 이상 탐지 가능 (세밀한 결함부터 전체 구조까지) • 정상 데이터의 메모리 뱅크를 활용하여 새로운 이미지와 비교
단점	• 이상 여부를 판단할 때 각각의 패치는 개별적으로 처리되어 패치 간의 지역적 맥락(neighboring context)를 고려하지 않음

PaDiM (Patch Distribution Modeling for Anomaly Detection and Localization)

이미지를 패치 단위로 나누고, 각 패치의 특징 분포를 모델링
Mahalanobis 거리를 사용해 정상 패치와의 차이를 측정하여 이상 탐지

장점	• 패치 기반 탐지로 세밀한 결함까지 탐지 가능 • 다양한 크기의 이미지에서도 유연하게 작동
단점	• Mahalanobis 거리 계산으로 인해 계산 비용이 큼 • 동일한 위치에 있는 패치들만 비교하기 때문에 이미지의 정렬에 의존적이며 유연성이 부족 - 즉 동일한 결함이 이미지의 다른 위치에 발생했을 때 탐지하기 어려울 수 있음

정리하자면 Method에서 소개할 내용은 다음과 같다.

SPADE와 같이 다중 계층의 특징을 활용하는 대신, PatchCore는 중간 수준의 계층에서만 패치 특징을 추출함으로써 메모리와 계산 비용을 절감하면서도 성능을 유지
PatchCore는 모든 패치 간 비교를 통해 이미지 정렬에 덜 의존적이고 더 유연한 탐지가 가능
그리디 서브샘플링(coreset subsampling) 기법을 도입해 메모리 뱅크 크기를 줄여, 두 방법이 직면한 메모리 및 추론 시간 문제도 효율적으로 해결

결과적으로, PatchCore는 SPADE의 비용 문제와 PaDiM의 위치 의존성 문제를 해결하며, 패치 간의 지역적 맥락을 고려한 효율적인 anomaly detection 모델이다.

Method

1. Locally Aware Patch Features

Mid-level Feature 사용: PatchCore는 pretrained 모델에서 mid-level의 patch feature를 추출하여 이상 탐지를 수행한다. 중간 수준의 피처를 사용하면 너무 추상적이거나(low-level) ImageNet의 클래스에 너무 편향되지(high-level) 않으면서도 충분히 높은 해상도로 동작할 수 있다.

Patch Aggregation: 이미지를 작은 패치로 나누고, 각 패치의 특징을 주변 패치와 함께 aggregation하여 지역적 맥락을 고려한다. aggregation 방법은 adaptive average pooling을 사용하여 패치 특징을 집계한다.
memory bank에서 모든 패치 비교: 정상 데이터에서 추출한 패치 특징들을 메모리 뱅크에 저장하는데, 테스트 패치는 메모리 뱅크의 모든 패치와 비교되어, 동일한 위치에 있지 않더라도 비슷한 정상 패치들과 비교할 수 있다.

2. Coreset-reduced patch-feature memory bank

정상 데이터에서 추출한 모든 패치 특징을 메모리 뱅크에 저장하면, 메모리 크기가 너무 커지고, 테스트 시 계산 비용이 크게 증가하기 때문에, PatchCore는 이러한 문제를 해결하기 위해, 코어셋 서브샘플링(coreset subsampling) 기법을 사용
- coreset은 주어진 데이터의 특징을 대표하는 작은 부분집합을 선택하는 기법, 즉 원래 데이터에서 중요한 정보를 유지하면서도, 전체 데이터의 구조를 가장 잘 표현하는 서브셋을 찾는 과정

Coreset Selection 방법 - Subsampling

minimax facility location 문제에서 사용하는 그리디 알고리즘을 적용하여 subsampling 수행
과정:
1. 원래 메모리 뱅크 M에서 데이터를 하나씩 선택해, 각 패치가 얼마나 "대표적인지" 측정
2. 이를 통해 각 패치가 얼마나 다른 패치들을 잘 대변할 수 있는지 계산하여 가장 중요한 패치를 선택
3. 이 과정을 반복해 전체 데이터에서 중요한 패치들을 추출하여 서브셋 MC를 이룸
차원 축소: 추가로 패치 특징의 차원을 Johnson-Lindenstrauss 변환을 통해 축소

3. Anomaly Detection with PatchCore

PatchCore는 메모리 뱅크에서 정상 패치 특징들을 저장하고, 새로운 테스트 이미지가 들어오면 해당 이미지의 패치 특징을 메모리 뱅크와 비교하여 이상 여부를 판별하는 방식으로 동작
이 과정에서, PatchCore는 테스트 이미지의 가장 이상한 패치와 메모리 뱅크에 저장된 정상 패치들 간의 거리를 계산하여 anomaly score를 부여하는데, 이 이상 점수는 image-level anomaly detection과 pixel-level segmentation에 모두 사용

과정
- 패치 간 거리 계산: 메모리 뱅크 중 가장 가까운 패치(가장 유사한 정상 패치)를 찾음
- 최대 거리(anomaly score) 계산: 테스트 이미지의 모든 패치 중에서 가장 이상한 (가장 거리가 먼) 패치를 기준으로 이미지의 최대거리를 저장하여 anomaly score로 사용
- anomaly score 조정: 근접 패치들의 거리를 추가적으로 참조하여, 정상 패치들 사이에서 드문 패치일수록 anomaly score를 높게 부여
  
  여기서 $N_b(m^*)$는 메모리 뱅크에서 가장 가까운 정상 패치 주변의 패치들이며, 이들의 거리를 사용해 점수를 재조정
이미지 전체의 anomaly score를 계산하는 과정에서 각 패치의 공간적 위치도 함께 고려됨
결과적으로 각 패치의 anomaly score는 픽셀 단위로 이상이 어디서 발생했는지를 나타내는 anomaly segmentation map을 생성

전체적인 아키텍처는 다음과 같다.

Experiments

PatchCore가 MVTec AD에서 99.6%의 AUROC를 기록하며 이전 방법들보다 좋은 성능을 보여주었고,

inference time에서도 눈에띄는 감소효과를 보였다.

이미지 레벨의 anomaly detection 뿐만 아니라, segmentation 성능도 좋은 결과를 보였다.

[paper] Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt

Tue, 27 Aug 2024 07:45:45 GMT

catastrophic forgetting없이 하나의 모델에서 multi-object를 지속적으로 학습하고, task 간 transfer가 자유로운 anomaly detection 모델 *여기서 말하는 task는 다른 object category, anomaly detection 특성 상 하나의 분류 전체를 독립적으로 학습하고 이상탐지를 하기 때문에

[paper link] Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt (Jiaqi Liu, Kai Wu, Qiang Nie, Ying Chen, Bin-Bin Gao, Yong Liu, Jinbao Wang, Chengjie Wang, Feng Zheng, 2024)

Introduction

Unsupervised Anomaly Detection (UAD) : 사전 지식이나 레이블없이 이상치를 탐지
- industrial manufacturing처럼 잘 레이블된 결함 데이터를 얻기 힘들 경우 유용한 접근방식
- 다양한 클래스에 이상탐지 모델을 사용하기 위한 최근 연구
  - 다양한 클래스에 대한 훈련 → 테스트 시에 class identiy에 의존
  - 개별적인 모델로 분리 → computational 부담
  - UniAD : 다양한 클래스들을 다루기 위한 하나의 통합 모델
    - 그러나 실제 적용할 때, 학습이 연쇄적으로 일어나기 때문에 새로운 데이터 학습시 이전에 학습한 정보를 까먹을 수 있음(Catastrophic forgetting) → 그래서 real-world에는 적용하기 어렵다.
Continual Learning (CL) : Catastrophic forgetting를 다루는 방법으로, 지속적으로 데이터를 학습하면서도 이전에 학습한 정보를 잘 유지하는 방법
- 최근 연구는 테스트 단계에서 task identity가 필요한지 여부에 따라 분류할 수 있음
- Task-aware 접근 방법은 task identity를 명확하게 guide해주어 task 간 간섭을 방지
  - 그러나 실제 추론할 때 task identity를 얻기 어려울 수 있음 → 따라서 task에 구애받지 않는 방법이 필요하다.

정리하면 아래와 같은 상황

1) 실제 산업환경에서는 높은 생산 성공률과 정보보호문제로 anomaly 데이터를 얻기 힘들고 2) 여러 태스크에 적용가능한 모델이 필요 3) supervised tasks에서 task-agnostic Continual Learning이 효과적임에도 불구하고 UAD에서 continual learning의 효과가 입증되지 않음

그래서 저자들은

Continual Learning을 활용한 Unsupervised Anomaly Detection을 하겠다!

고 제시

그런데 기존 연구가 없었냐, 하면

Gaussian distribution estimator (DNE) (Li et al. 2022) 외에는 없었음
- DNE는 augmentation을 사용하여 pseudo-supervision을 제공, anomaly segmentation에는 적용할 수 없음
- Continual AD 방법보다는 Continual binary classification 방법에 더 가까움
- 실제 산업 제조 환경에서는 이상 영역을 정확하게 분할하는 것이 중요하기 때문에 Unsupervised Continual Anomaly Detection과 Anomaly Segmentation을 동시에 수행할 수 있는 방법이 필요함

그래서 제안한 내용은 새로운 프레임워크인 UCAD

하나의 모델로 다양한 클래스의 anomaly를 지속적으로 배울 수 있고, 그런데 unsupervised 방식임
구성요소
- Continual Prompting Module (CPM)
  - “key-prompt-knowledge” 메모리 공간 학습; 이미지가 주어지면, key는 자동적으로 상응하는 task prompt를 찾고, prompt를 바탕으로 feature를 추가로 추출하여 해당 클래스의 정상 정보와 비교하여 이상을 탐지
  - 한계 : 고정된 백본 ViT가 다양한 task에서 충분히 압축된 feature representation을 제공하지 못한다는 한계가 있음
- Structure-based Contrastive Learning Module (SCL)
  - CPM의 한계를 극복하기 위해, 즉 dominant feature representation을 추출하고 도메인 간의 차이를 줄이기 위해 도입
  - SAM의 general한 segmentation 능력을 활용하여 영역 안의 feature들을 함게 묶고, 다른 영역의 feature와는 멀리 떨어지게 만듦, 이 과정에서 프롬프트가 더 나은 feature 추출을 위해 대조적으로 학습됨 (Contrastive Learning)

Contribution

UCAD는 unsupervised anomaly detection과 segmentation에서 최초의 task-agnostic continual learning 프레임워크임
Key-prompt-knowledge 메모리 공간을 통해 자동화된 작업 지시(task instruction), knowledge transfer, unsupervised anomaly detection및 segmentation을 수행함
SAM의 일반적인 능력을 활용하여, 다양한 클래스에서 대조 학습된 프롬프트를 사용해 비지도 특징 추출 성능을 향상시킴
철저한 실험과 새로운 벤치마크를 도입하여, 이전의 최신 AD 방법들에 비해 15.6% 높은 detection 성능과 26.6% 높은 segmentation 성능을 보였음

이건 그냥 흐름 파악용으로 정리

Unsupervised Image Anomaly Detection

MVTec AD dataset(2019) 공개와 함께, 지도에서 비지도 이미지 이상탐지로 패러다임 변화

Unsupervised anomaly detection 패러다임에서는, 테스트 데이터는 정상데이터와 이상 데이터로 구성, 반면 학습 데이터는 정상데이터로만 구성됨

Unsupervised Industrial Anomaly Detection 연구의 분류

Feature-embedding-based methods
- Teacher-student model
- One-class classification methods
- Mapping-based methods
- Memory-based methods
  - Reconstruction-based methods
- Autoencoder based methods
- GANs based
- ViT based
- Diffusion based

기존 UAD 방법의 한계

single object category에서 anomaly detection
Continual Learning scenario에서 anomaly detection 수행 능력 부족
심지어 multi-class unified anomaly detection 모델도 continual learning을 고려하지 않음

Continual Image Anomaly Detection

Natural image object detection task와 달리, 제조산업에서는 *데이터 스트림이 일반적이다.

💌 Datastream in Industrial manufacturing 제조 산업 환경에서 데이터를 한 번에 모아서 처리하는 것이 아니라, 데이터가 시간이 지나면서 점차적으로 계속 들어오는 경우가 많음

이러한 현상을 인식하고 다루기 위한 시도가 몇 있음

IDDM (2023) : 레이블이 달린 데이터가 적은 상황에서 점차적으로 anomaly를 detection하는 방법
LeMO (2023) : 레이블이 없는 정상 데이터가 지속적으로 증가하는 상황에서 정상데이터를 추가학습 할 수 있는 anomaly detection 방법

그러나 위 두 연구는 다른 추가 클래스의 추가학습을 고려하지 않음

DNE (Li et al. 2022)가 가장 저자들의 연구와 비슷한데, DNE는 continual learning 시나리오에서 이미지레벨로 수행하는 anomaly detection을 제안

근데 저자들의 연구와 뭐가 다르냐, 하면

DNE는 오직 클래스 레벨의 정보만 저장 가능하고, 이상 위치를 localization할 수 없음, 즉 anomaly segmentation에는 부적합하지만, 저자들의 연구는 ‘anomaly detection을 detection(이미지 분류)를 넘어 pixel-level의(segmentation) continual learning이 가능하다. ‘는 것

Methods

문제 정의 - Unsupervised Continual AD Problem

오로지 정상 데이터; 현실 생산 과정에서는 레이블된 이상 샘플을 얻기 힘들기 때문에
테스트 셋은 실제처럼 normal과 abnormal로 구성
task n개에 각각 train set, test

Continual Prompting Module

UAD에 CL을 적용하는 것은 두가지 어려움이 있음

1) 들어오는 이미지의 task identities를 어떻게 자동적으로 결정할건지

2) unsupervised manner로 관련 태스크의 모델 예측을 어떻게 가이드 할건지

⇒ CPM(Continual Promptin Module)은 (1) 동적으로 적용하고, (2) 모델 예측을 지시할 수 있음

Architecture

key-prompt-knowledge$(K_e, V, K_n)$ 아키텍처를 위한 memory space $M$
task identification 단계와 task adaptation 단계로 구성
- Task Identification
  - image $x \in \R^{H\times W\times X}$를 frozen pretrained ViT 통과, 추출된 feature를 key로 사용 → task identity가 됨
    - 이때 task identity는 textual details과 high-level information을 동시에 가지고 있어야 하기 때문에, ViT에서 마지막 임베딩 레이어를 제외한 특정 i번째 레이어의 임베딩 feature를 사용 (논문에서는 i=5)
    - 각 태스크 t에는 $N_t$개의 학습 이미지가 있다고 가정하며, 추출된 모든 임베딩은 크기가 $R^{N_t \times N_p \times C}$가 됨 → 많은 메모리 필요
    - 테스트 동안 효율적인 태스크 매칭을 위해, 단일 feature space representing을 사용 → $R^{N_p \times C}$, 바로 윗줄과 비교했을 때 공간적 크기가 매우 작음
  - FPS (Furthest Point Sampling) 기법 사용
    - FPS는 관련성 있는 대표 feature를 선택하는 방법, 태스크 t에 대해 $K^t_c$ 세트를 설정, 특정 태스크의 모든 임베딩을 대표함
    - $K^t_e = FPS(K^t)$ : 태스크 t에 대한 임베딩 벡터 중 대표 feature

- **Task Adaptation**
    - 각 레이어의 input feature에 태스크 정보를 전달하기 위한 프롬프트 $p^i$가 더해짐 $k^i = f^i(k^{i-1}+p^i)$, $k^i$는 i번째 레이어의 output feature가 됨
    - learnable prompts $p \in V$
    - Knowledge $K_n$ : task transfer된 이미지 feature $k^i$는 Knowledge $K_n$을 생성하는 데 사용, 생성된 knowledge는 학습 중에 저장되고, 이후 normal과 abnormal을 비교하는 데 사용
    - Core-set Sampling : 이미지 feature가 학습 중에 너무 많이 축적될 경우, Coreset Sampling을 사용하여 저장되는 정보의 양을 줄임 $K_n = CoreSetSampling(k^i)$
    - M : 학습 중에 생성된 정상 이미지들의 특징, $M_c$ : Coreset으로 선택된 정상이미지들의 특징

CPM은 이전 task의 지식을 현재 태스크에 성공적으로 transfer 가능, 즉 태스크 간 knowledge transfer 가능

문제점 : 백본이 natural image로 학습되었기 때문에, industrial image의 특정 구조와 특징을 충분히 반영하지 못할 수 있음 (industrial image는 주로 텍스처와 엣지 구조를 가지고 있음, 이미지들이 유사함)

→ 이를 해결하기 위해 structure-based contrastive learning을 통해 프롬프트가 다양한 태스크 간 feature를 더 잘 추출하고 학습할 수 있도록 함

Structured-based Contrastive Learning

SAM (Segment Anything Model)을 통한 Segmentation
- 학습 중 각 이미지에서 SAM을 사용하여 세그먼트화된 이미지 $I_s$ 생성
- 동시에 프롬프트에 따라 각 영역에 대해 특징맵 $F_s$ 획득
- 세그먼트화된 이미지 $I_s$는 크기 $H \times W$로 다운샘플링되어 $F_s$와 같은 크기로 조정되고, 해당 위치에서 레이블맵 $L_s$가 생성됨
그리고 Contrastive Learning을 적용하여 동일한 영역의 feature는 가까이, 다른 영역의 feature는 더 멀어지게 학습
Loss Function $L_{pos_con}$ : 동일한 영역이 가까워지도록 하는 positive contrastive loss $L_{neg_con}$ : 다른 영역이 특징들이 멀어지도록 하는 negative contrastive loss

Test-Time Task-Agnostic Inference

테스트 시에 추론

Task Selection and Adaption
- 자동적으로 task identity를 결정하기 위해, 테스트 이미지는 가장 유사한 태스크에 선택됨
  
  $m^{test}$는 ViT의 i번째 레이어에서 추출된 패치 수준의 feature map을 나타냄

Anomaly Detection and Segmentation
- anomaly score를 계산하기 위해서, image feature $m^{test}$와 $K^t_n$에 저장된 정상(nominal) feature를 비교
- re-weighting 방식을 사용하여, 패치 수준에서 anomaly detection process 구현
  - 이때 $K^t_n$에 저장된 NN(Nearest Neighbors)를 사용하여 anomaly score 계산
  - 구체적으로, 두 맵의 l2 norm을 사용하여 계산
  - 얻은 NN으로부터 다시 re-weighting
- 각 패치에 대해 계산된 anomaly score 중에서 가장 높은 값이 해당 이미지의 anomaly score로 사용됨 → 즉 이미지 내에서 가장 이상하다고 판단된 부분이 전체 이미지의 anomaly score 결정
- 각 패치별로 계산된 점수를 모아서 대략적인 segmentation map $S_{cmap}$ 생성; 이미지의 어느 부분이 이상한지를 나타냄

Experiments and Discussion

Experiments setup

Dataset
- MVTec AD (2019)
- VisA (2022)
Methods
- CFA (2022)
- CSFlow (2022)
- CutPaste (2021)
- DNE (2022) - unsupervised continual AD SOTA method
- DREAM (2021)
- Fast-Flow (2021)
- FAVAE (2020)
- PaDiM (2021)
- PatchCore (2022) - 메모리, 통합 기반 대표적인 AD method
- RD4AD (2022)
- SPADE (2020)
- STPM (2021)
- SimpleNet (2023)
- UniAD (2022) - 메모리, 통합 기반 대표적인 AD method
Metrics
- AUROC/AUC : anomaly classification
- AUPR/AP : 픽셀 수준의 anomaly segmentation
- FM : Forgetting Measure; 이전에 학습한 내용을 잊어버리지 않는 능력

Training Details and Module Parameter Settings

Backbone : vit-base-patch16-224
Trainig settings : batch 8, Adam, 25 epochs
Key-Prompt-Knowledge : (15, 196, 1024), (15, 7, 768), (15, 196, 1024)

Continual anomaly detection benchmark

AUROC, FM on MVTecAD
AUPR, FM on MVTecAD
AUROC, FM on VisA
AUPR, FM on VisA

대부분의 anomaly detection 방법이 continual learning 시나리오에서 성능이 매우 감소
복잡한 구조를 가진 VisA 데이터셋에서, DNE의 탐지 능력은 클래스 토큰에 의존하는 방식 때문에 크게 감소한 반면, 저자들이 제안한 방법은 영향을 받지 않았음 (Table 1, 3, DNE AUPR average 0.870→0.610)
PatchCore와 UniAD와 비교했을 때 장점
- 더 정밀한 anomaly localization
- False positive 최소화

Ablation study

Module Effectivity
- SCL을 사용하지 않으면, 모델은 고정된 ViT 백본에만 의존하여 feature 추출, 성능에서 약 4 포인트의 감소
Size of Knowledge Base in CPM
- 기본 knowledge base size는 196
- SCL을 사용하지 않는 경우 Knowledge Base size를 늘리면 성능 향상
- 반면 SCL을 사용한 경우 늘려도 성능향상이 거의 없었음 → SCL이 특징 분포를 더 컴팩트하게 만들어 같은 크기의 knowledge base에 더 많은 정보를 압축할 수 있기 때문
ViT Feature Layers
- 중간 레이어가 contextual 정보와 semantic 정보를 모두 표현할 수 있기 때문에 좋은 성능을 보임
- 데이터셋마다 요구되는 contextual 정보의 정도가 다를 수 있음

Conclusions

저자들은 Unsupervised Anomaly Setection에 Continual Learning을 적용하는 문제를 연구하여, Industrial Manufacturing과 같은 실제 응용 분야에서 발생하는 문제를 해결하고자 함
Task-Agnostic CL을 최초로 UAD에서 segmentation도 같이 가능

OpenAI API로 여러 데이터에 대한 답변 뽑을 때 주의* - RateLimitError, InvalidRequestError

Fri, 23 Aug 2024 08:31:10 GMT

에러나서 다시 돌리면 토큰 아까우니까 실행 전 미리 주의하세요..

json데이터나 csv에서 각 row에 대한 답변을 받으려고 할 때, 다음과 같은 에러가 나타났다.. 토큰 아끼려고 데이터 하나 넣어서 함수 만든거 동작하는지 확인한 다음 전체 데이터에 대해 돌렸는데 에러 발생

1. RateLimitError

RateLimitError: Rate limit reached for gpt-4 in organization org-xxxxxxxxxx on requests per min (RPM): Limit 3, Used 3, Requested 1. Please try again in 20s. Visit https://platform.openai.com/account/rate-limits to learn more. You can increase your rate limit by adding a payment method to your account at https://platform.openai.com/account/billing.

여러 데이터에 대한 답변을 생성할 때 요청이 일정 한도를 초과하면 발생한다고 한다... 호출할 때 time sleep을 두면 되는데, 나는 try except문으로 rate limit이 났을 때 time sleep을 할 수 있도록 수정했다.

# api 호출시 rate limit에 걸릴 경우 재시도하는 함수 정의
def extract_issues_with_retry(review_text, retries=3):
    for attempt in range(retries):
        try:
            return extract_issues_from_review(review_text) # 원하는 함수 실행
        except openai.error.RateLimitError:
            print(f"Rate limit")
            time.sleep(20) # 20초간 timesleep
    return "Rate limit exceeded"

limit에 도달하면 time sleep을 20초간 하고, 다시 호출에 실패할 경우에 최대 3번까지 다시 시도한다.

그러면 이렇게 리밋에 도달했을 때마다 20초씩 기다리는 모습을 볼 수 있다.

2. InvalidRequestError

InvalidRequestError: This model's maximum context length is 8192 tokens. However, your messages resulted in 11012 tokens. Please reduce the length of the messages.

gpt 모델의 최대 텍스트 길이를 초과하면 나타나는 에러이다. 필자는 리뷰글에 대한 텍스트를 한번에 돌리려다보니 거의 마지막에 이 에러를 마주했다.

아래와 같이 너무 긴 글일 경우 쪼개서 사용하는 방식으로 진행하면 해결된다.

def split_text(text, max_tokens=3000):
    words = text.split()
    chunks = []
    current_chunk = []

    for word in words:
        current_chunk.append(word)
        if len(' '.join(current_chunk)) > max_tokens:
            chunks.append(' '.join(current_chunk[:-1]))
            current_chunk = [word]

    chunks.append(' '.join(current_chunk))
    return chunks

def extract_issues_with_limit(review_text):
    chunks = split_text(review_text)
    all_issues = []

    for chunk in chunks:
        issues = extract_issues_from_review(chunk) # 원하는 함수 실행
        all_issues.append(issues)

    return '\n'.join(all_issues)

함수만들고 나서 끊긴 부분부터 다시 넣어서 그래도 토큰 낭비는 많이 없었다!

3D Object Generation 기술 동향, 모델 비교- Zero123, MVDream, SyncDreamer

Tue, 20 Aug 2024 08:53:05 GMT

연구원에서 세미나 열리는거 메일받고 듣고싶어서 실장님께 말씀드리고 다른 연구실 세미나 참석하기..

오늘 KAIST의 박병준 연구원님이 오셔서 "3D 콘텐츠 생성 기술 동향"에 대한 세미나를 열어주셨습니다. 최근 CVPR 2024에서 발표하신 논문도 함께 소개해 주셔서 매우 유익한 시간이었습니다. 최근에 multi-view synthetic data를 생성하는 모델에 관심이 있었는데, 마침 관련 주제로 세미나가 열려 운이 좋았습니다.

세미나 내용을 바탕으로 세미나에서 다룬 주제를 더 깊이 이해하기 위해 추가로 조사한 내용을 정리했습니다. 아래는 세미나에서 특히 인상 깊었던 내용과 관련 연구의 개요입니다.

최근 3D 객체 생성 기술은 크게 두 가지 축으로 발전하고 있다. 첫번째로 NeuS와 같은 기술은 표면복원에 집중하여 고해상도의 3표면을 생성하는데, 이는 기존의 NeRF 기반 방법론과 차별화된다. 두번째로 DreamFusion과 같은 새로운 접근법은 NeRF와 SDS를 결합하여 더 높은 품질의 3D를 객체를 생성하고자 한다. 특히 이 두 가지 접근법의 조합이 어떻게 최신 모델들에서 활용되는지 살펴보고자 한다.

모델을 살펴보기 전에 SDS와 NeuS를 먼저 얘기하자면, NeuS(Neural Implicit Surface)와 SDS(Score Distillation Sampling)는 모두 3D 객체를 생성하거나 표현하는 데 사용되는 기법이지만, 그 접근 방식과 역할이 다르다.

SDS(Score Distillation Sampling)란?

SDS는 주로 이미지 또는 3D 데이터를 기반으로 객체의 샘플을 생성하고, 그 output과 노이즈를 비교하여 SDS Loss를 계산하고 이를 통해 학습시키는 방식이다. 보통 생성 과정에서 정교한 샘플링을 통해 고품질의 결과물을 얻도록 설계되어 일반적으로 계산 비용이 높아 시간이 오래 걸릴 수 있다.

NeuS(Neural Implicit Surface)란?

NeuS는 3D 공간에서의 표면을 Implicit하게 정의하는 함수를 학습한다. 이 함수는 주어진 위치가 객체의 내부, 표면, 또는 외부에 있는지 구분할 수 있으며, 이를 통해 고해상도의 3D 표면을 복원한다.

NeuS는 NeRF(Neural Radiance Fields)와 유사하지만, NeRF가 주로 3D 객체의 밀도를 학습하여 볼륨 렌더링을 수행하는 반면, NeuS는 3D 공간에서 암시적(Implicit) 함수를 학습하여 객체의 표면을 고해상도로 재구성한다고 한다.

NeuS는 복잡한 샘플링 없이도 NeuS의 효율적인 표면 표현 능력을 이용해 빠르게 3D 객체를 생성할 수 있다는 것에 의미가 있다.

DreamFusion

DreamFusion은 (1) 샘플링한 camera pose, light position을 사용해서 Nerf로 이미지를 렌더링하고, (2) Nerf로 생성된 이미지, timestep t, text embedding을 이용해 diffusion model의 noise $\epsilon$으로 샘플링하고 SDS Loss를 계산한다.

*SDS(score distillation sampling) Loss : SDS Loss는 위의 DreamFusion의 피규어와 같이보면, gaussian noise가 추가된 이미지를 U-Net을 통해 복원하고, 그 생성된 이미지와 추가한 gaussian noise의 차이를 이용해서 loss값을 업데이트한다. 여기서 $\theta$가 Nerf 파라미터이므로 x를 $\theta$로 미분하여 Nerf의 파라미터를 업데이트하는 것이다.

Objarverse dataset 등장 이후의 모델

3D object dataset으로 주로 ShapeNet이 쓰이고 있었는데, 이후 더 큰 데이터셋인 Objarverse이 등장하였다. (OpenWorld에 대한 데이터셋) 주석이 달린 3D 객체 데이터셋으로, 80만 개 이상의 3D 모델을 포함하고 있으며, 이 모델들은 자연어 설명, 태그, 애니메이션과 함께 제공된다.

이를 기반으로 Zero-1-to-3, MVDream, SyncDreamer 등의 다양한 모델이 개발되었다.

1. Zero-1-to-3

(arxiv 기준 2023.03.)

Zero-1-to-3 모델은 텍스트 입력을 통해 단일 뷰에서 시작하여 SDS로 한 번에 한 뷰씩 생성한다. 한 관점씩 점진적으로 추가해 나가는 방식으로 3D 객체를 완성
장점: Sequential한 방식으로, 각 관점에서의 세부 묘사가 비교적 정교하며, 복잡한 객체에 대한 세밀한 조정이 가능하다.
단점: 관점을 하나씩 생성하기 때문에 전체 3D 객체를 생성하는 데 시간이 많이 걸리며, 객체의 일관성을 유지하는 데 어려움이 있을 수 있다.

2. MVDream

(arxiv 기준 2023.08.)

MVDream은 orthogonal한 네 가지 관점에서 동시에 3D 객체를 생성하는 방식으로, SDS 알고리즘을 활용하여 생성한다.
객체의 전체적인 일관성을 유지하면서도 빠르게 3D 모델을 완성할 수 있는 것이 특징
장점: 동시에 여러 관점을 생성하기 때문에 객체의 일관성을 유지하면서도 생성 속도가 빠름 (한 번에 네 가지 관점을 생성하므로, Zero-1-to-3에 비해 시간 효율적)
단점: 모든 뷰가 동시에 생성되기 때문에 복잡한 객체의 세밀한 부분에 대한 조정이 어렵고, 생성 과정에서의 제어가 비교적 제한적일 수 있다. 또한, 생성하는 데 약 2시간이 소요된다는 점에서 여전히 효율성에 한계가 있다.

3. SyncDreamer

(arxiv 기준 2023.07.)

SyncDreamer는 SDS를 사용하지 않고 NeuS (Neural Scene Representation and Rendering)를 기반으로 하여 10분 내에 3D 객체 생성
장점: SyncDreamer는 기존 모델들에 비해 훨씬 빠르게 3D 객체를 생성할 수 있으며, NeuS 기반의 학습을 통해 비교적 안정적인 결과물을 제공
단점: Objaverse 데이터셋에서만 학습되었기 때문에, 이 도메인을 벗어난(out-of-domain) 객체에 대해서는 생성 성능이 저하될 수 있음

Recap

모델	주요 기법	시간 소요	장점	단점
Zero-1-2-3	SDS를 사용한 단일 뷰 생성	시간이 많이 소요됨	세밀한 각도별 3D 이미지 생성 가능	긴 생성 시간, 높은 계산 비용
MVDream	SDS를 사용한 동시 4뷰 생성	약 2시간 소요	뷰 간 일관성 높은 고품질 3D 생성 가능	여전히 높은 시간 소요, 계산 비용이 큼
SyncDreamer	NeuS 사용, SDS 비사용	약 10분 소요	빠른 생성 속도, 실시간 응용 가능	도메인 밖에서는 성능 부족, 범용성 제한

ViTPose++: Vision Transformer for Generic Body Pose Estimation

Sun, 09 Jun 2024 10:48:34 GMT

Vision Transformer는 컴퓨터 비전 작업에서 큰 잠재력을 보여주었으며, human body pose estimation에 적용되어 우수한 성능을 얻었습니다.

기존의 ViTPose에서는 vision transformer를 pose estimation task에 적용하면서, 베이스라인을 제시하고 확장성, 단순성 등의 이점을 보여주었습니다.(이전 ViTPose 글 참고) ViTPose++에서는 ViTPose에 MoE 방식을 사용하여 다양한 pose estimation task에서 사용할 수 있도록 지식을 분해하는 방법을 도입했습니다.

간단하게 요약하면 다음과 같습니다.

ViTPose	ViTPose++
- 비전 트랜스포머를 사용하여 신체 자세 추정을 수행하는 간단한 베이스라인 모델	- MoE(Mixture of Experts) 방식을 도입하여 지식 분해(knowledge decomposition)를 수행
- 확장성, 단순성 등의 이점을 보여주며, MS COCO 등에서 우수한 성능을 달성	- FFN 계층을 공통 전문가(task-agnostic expert)와 작업 특화 전문가(task-specific experts)로 분할하여 각각 공통 지식과 작업 특화 지식을 인코딩
	- 작업 간 충돌을 최소화하고 다양한 포즈 추정 작업에서 우수한 성능을 달성
	- 추가적인 파라미터나 계산 비용 없이 다양한 신체 키포인트 검출 작업을 효과적으로 수행할 수 있음

본 글에서는 ViTPose 부분은 생략하고, ViTPose++에서 제시한 지식분해 방법에 대해 살펴보겠습니다.

다양한 pose estimation task를 위한 MoE방식의 지식 분해(knowledge decomposition):

일반적인 신체 키포인트 검출을 위해서는 다양한 신체 자세 추정 작업을 다룰 수 있어야 합니다. 여기서 중요한 도전 과제는 서로 다른 자세 추정 작업에서 신체 키포인트의 차이를 처리하는 것입니다. 예를 들어, 인간과 동물의 외형이 다른 동일한 키포인트(예: 코), 그리고 MS COCO와 MPII에는 없는 COCO-W의 키포인트 카테고리의 차이를 처리해야 합니다. 또한, 다른 종의 데이터 분포도 다릅니다. 예를 들어, 인간의 머리는 항상 어깨 위에 있지만, 소의 머리는 항상 어깨의 좌우에 위치합니다.

단순한 해결책으로는 ViTPose 모델을 멀티태스크 학습으로 훈련시키는 것입니다. 즉, 공통 백본을 사용하고 각 자세 추정 작업에 대한 별도의 디코더를 사용하는 것입니다. 그러나 이러한 방법은 작업 간 충돌이 발생하여 학습 성능에 영향을 줄 수 있습니다.

ViTPose++에서는 지식 분해 관점에서 이 문제를 해결하고자 하는데, 구체적으로, MoE(Mixture of Experts) 아이디어를 채택하여 FFN 계층을 task-agnostic(작업에 민감하지 않은) 전문가와 task-specific(작업 특화) 전문가로 분할하여 각각 공통 지식과 작업 특화 지식을 인코딩합니다. 이는 MHSA 계층은 자세 추정 작업에 민감하지 않기 때문에 가능하다고 합니다. 각 신체 자세 추정 작업에 대해 작업 특화 디코더를 사용한다는 점에서 앞서 언급한 단순한 멀티태스크 학습 방법과 유합니다.

논문에서 예로 주어진 하나의 트랜스포머 블록을 살펴보겠습니다.

MASA의 ouput feature $$F_{attn}$$가 주어졌을 때, FFN의 첫번째 linear layer에서 처리되고, 그것은 MoE에 의해 공유됩니다.

$$F^{FFN} = ReLU(Linear(F^{attn}))$$

그런다음, $$F^{FFN}\in\R^{N \times \gamma C}$$은 별도의 linear layer들에 전달됩니다. 여기서 N은 토큰 수를, $$\gamma$$는 FFN의 확장 비율을 나타내며, 기본값은 4입니다. 두 종류의 전문가가 $$F^{FFN}$$를 $$F^{shared}와 F^{specific}$$으로 투영하며, 채널 차원은 각각 (1 − α)C와 αC입니다.

여기서 $$\alpha$$는 shared expert(공유 전문가)와 task-specific expert(태스크 특화 전문가)를 균형 있게 사용하기 위해 설정된 분할 비율로, 기본값은 0.25입니다. 공통 전문가가 전체 채널의 75%를, 작업 특화 전문가가 25%를 차지하도록 합니다. 공통 전문가의 파라미터는 모든 데이터를 사용하여 학습되며, 작업 특화 전문가의 파라미터는 해당 작업의 데이터만 사용하여 학습됩니다. 그런 다음, $$F^{shared}와 F^{specific}$$은 채널 차원에서 결합되어 트랜스포머 블록의 출력을 형성합니다. 특정 자세 추정 작업의 학습 세트에서 입력 이미지를 받으면, 위에서 설명한 트랜스포머 백본에서 인코딩된 특징을 얻은 후, 해당 디코더에 전달되어 히트맵을 regression합니다.

추론 단계에서는 각 자세 추정 작업에 대해 공유 및 작업 특화 선형 계층이 병합되어 병렬 계산을 수행합니다. 이 방식으로 ViTPose++는 ViTPose 모델과 비교하여 추가적인 파라미터나 계산 비용 없이 일반적인 신체 자세 추정을 위한 foundation model로 기능할 수 있습니다.

Ablation Studies of ViTPose++ and Analysis

실험결과를 살펴보면, MS COCO val 세트에서 다양한 데이터셋(MS COCO, AIC, MPII 등)을 추가하면서 성능이 지속적으로 향상되는데, 동물 데이터셋(AP-10K, APT-36K)을 포함하면 성능이 약간 하락하는 것을 볼 수 있습니다.

독립적인 FFN (I-FFN): 각 작업에 대해 독립적인 FFN을 사용하여 작업 간 충돌을 완화시킬때는 성능은 ViTPose와 비슷하거나 더 나쁩니다.

독립 및 공유 FFN (IS-FFN): 공통 지식을 인코딩하기 위해 공유 FFN을 추가로 도입하여 작업별 FFN과 공유 FFN의 출력을 합쳐 다음 레이어로 전달하는 방식에서 I-FFN보다 성능이 좋아집니다.
부분적으로 공유된 FFN (PS-FFN): 공통 지식과 작업 특화 지식을 인코딩하기 위해 FFN의 마지막 선형 계층을 공유 부분과 독립 부분으로 분할하는 것인데, 성능과 모델 복잡성 간의 균형을 잘 맞출때(알파 0.25에서) 77.0 AP를 달성합니다.

I-FFN에서는 공통 지식을 모델링하지 않아 성능이 낮고, PS-FFN에서 공통 및 task-specific 지식을 잘 인코딩하여 77.0 AP를 달성하는 것을 볼 수 있습니다.

ViTPose++는 human pose estimation 뿐 아니라 다양한 pose estimation task를 공통적으로 학습하면서도, Mixture of Experts(MoE) 방식을 통해 태스크 간의 충돌을 최소화할 수 있는 방안을 제시했습니다. 이를 통해 다양한 pose estimation task에서 일반적인 foundation model로서 효율적으로 동작할 수 있음을 보였습니다.

감사합니다.

Reference ViTPose++ Paper

[paper] Inpaint Anything

Fri, 07 Jun 2024 08:04:31 GMT

Inpaint Anything 논문은 23년 4월에 발표되었습니다. 이 논문은 Segment Anything Model(SAM)을 기반으로 한 이미지 인페인팅 시스템을 소개합니다.

이 프레임워크는 다음과 같은 주요 기능을 제공합니다.

Remove Anything: 사용자가 이미지를 클릭하여 특정 객체를 제거할 수 있으며, SAM이 해당 객체를 분할하고 인페인팅 모델이 생성된 구멍을 배경 정보로 채워줍니다.

Fill Anything: 객체를 제거한 후, 사용자가 텍스트 프롬프트를 제공하면 인페인팅 모델이 텍스트 프롬프트에 기반하여 구멍을 새로운 콘텐츠로 채워줍니다.

Replace Anything: 사용자가 지정한 객체를 유지하면서 배경을 새로운 장면으로 대체할 수 있습니다. 이 기능은 SAM과 인페인팅 모델을 결합하여 시각적으로 일관된 배경을 생성합니다.

Motivation and Observation

Why do we need Inpaint Anything?

먼저 논문에서 제시한 배경입니다.

최신 이미지 인페인팅 기법(LaMa, Repaint, MAT, ZITS 등)은 큰 영역을 성공적으로 채우고 복잡한 반복 구조를 잘 처리하지만, 각 마스크에 대한 세밀한 주석이 필요합니다.
Segment Anything Model (SAM)은 포인트나 박스 같은 입력 프롬프트로부터 고품질의 객체 마스크를 생성할 수 있습니다.
기존 인페인팅 방법은 제거된 영역을 문맥으로만 채울 수 있지만, AIGC(AI generated content) 모델은 새로운 콘텐츠를 생성할 수 있는 기회를 제공합니다.

AIGC(AI generated content) 모델: 인공지능 기술을 사용하여 디지털 콘텐츠를 생성하는 모델 ex) chatgpt, stable diffusion, LaMa
SAM, SOTA inpainting, AIGC 모델의 장점을 결합하여 객체 제거, 새로운 콘텐츠 채우기, 배경 교체와 같은 일반적인 인페인팅 문제를 해결하는 강력하고 사용하기 쉬운 파이프라인을 제공합니다.

What Inpaint Anything can do?

SAM + SOTA 인페인팅 모델로 모든 것을 제거(Remove Anything): 사용자는 클릭만으로 인터페이스에서 특정 객체를 쉽게 제거할 수 있고, 명확한 객체 영역을 지정할 수 있으며, 이는 인페인팅 모델의 입력으로 사용됩니다.
SAM + AIGC 모델로 모든 것을 채우거나 교체(Fill Anything & Replace Anything): 객체 제거 후, 사용자는 텍스트 프롬프트를 제공하여 "새로운 콘텐츠"로 원하는 영역을 채울 수 있습니다. 예를 들어, "dog" 또는 "a cute dog, sitting on the bench"와 같은 프롬프트를 사용해 새로운 객체를 생성합니다. 또 사용자는 클릭 선택된 객체를 유지하면서 나머지 배경을 새로 생성된 장면으로 교체할 수도 있습니다.

정리하자면 segment anything으로 segment 주석을 알아서 하게 하고, 그 뒤에 inpainting 모델을 사용해서 객체를 지우거나 배경을 생성할 수 있는 프레임워크를 제시한 것의 논문의 주 내용입니다.

Methodology

모델 구성

Segment Anything Model (SAM): SAM은 최근에 출시된 대규모 비주얼 트랜스포머(ViT) 기반 모델로, 대형 visual corpus(SA-1B)에서 훈련되었습니다. 다양한 시나리오에서 뛰어난 segmentation 능력을 보여줍니다.

SOTA Inpainters: 이미지 인페인팅은 손상된 이미지의 특정 부분을 시각적으로 그럴듯한 구조와 텍스처로 대체하는 태스크입니다. 최신 딥러닝 기법들은 LaMa, Repaint, MAT, ZITS 등 다양한 방법이 있습니다. 특히 LaMa는 빠른 푸리에 합성(FFCs), perceptual loss, 공격적인 훈련 마스크 생성 전략을 결합하여 좋은 성능을 보입니다.

AIGC Models: ChatGPT 및 기타 생성형 AI(GAI) 기술은 인공지능을 사용하여 디지털 콘텐츠(이미지, 음악, 자연어 등)를 생성합니다. Inpaint Anything(IA)에서는 Stable Diffusion과 같은 강력한 AIGC 모델을 사용하여 텍스트 프롬프트를 기반으로 원하는 콘텐츠를 생성합니다.

위 모델들로 구성된 segment anything의 세가지 주요 기능을 위에서 얘기했었는데, 아래는 그 예시입니다.

Remove Anything 사용자가 클릭한 객체를 제거하고, SAM이 생성한 마스크를 사용하여 해당 영역을 배경 정보로 채웁니다.
Fill Anything 객체 제거 후 텍스트 프롬프트를 입력하면, AIGC 모델(예: Stable Diffusion)이 해당 프롬프트에 따라 구멍을 새로운 콘텐츠로 채웁니다.
Replace Anything 선택한 객체를 유지하고, 나머지 배경을 새로 생성된 장면으로 교체합니다.

"Inpaint Anything" 논문은 Segmentation Anything, 최신 인페인팅 모델, AIGC 모델의 강점을 결합하여 객체 제거, 객체 변경, 배경 교체 등의 태스크를 효과적으로 해결할 수 있는 방법을 제시했습니다. 또, 고해상도와 다양한 비율의 이미지를 처리할 수 있는 유연성을 가지고 있어 적용 가능성이 높을 것 같습니다.

읽어주셔서 감사합니다.

Reference [paper] Inpaint Anything: Segment Anything Meets Image Inpainting Inpaint Anything Github

GAN Mode collapse, Wasserstein Loss, Weight Clipping, Gradient Penalty

Fri, 26 Apr 2024 01:50:24 GMT

Mode collapse

generator가 discriminator가 못맞추는 클래스를 파악해서 그 클래스만 계속 생성해서 discriminator가 전부 오분류하도록 하는것

즉 generator가 local minima에 갇힌 것이다.

Problem with BCE loss

GAN에서 binary cross entropy를 사용할 경우, 학습 초기에는 discriminator의 성능이 좋지 않기 때문에 상관이 없지만 generator보다 비교적 학습이 쉽기 때문에 학습 속도가 빠를 수 있다. 즉 generator가 이미지를 생성해내는 것보다 discriminator가 real/fake이미지 분류를 잘하게 된다. 이때 discriminator가 분류를 잘하게 되면 0에 가까운 gradient를 넘겨주기 때문에 generator의 성능향상이 어려워지는 상황에서 결국 학습이 종료된다. Generator는 discriminator가 잘못 분류하는 특정한 이미지 모드에만 집중하여 이 모드에 해당하는 이미지를 생성하려고 시도한다. 이렇게 되면 generator가 다양한 이미지를 생성하는 대신 특정한 이미지 패턴에만 집중하게 되고, 결과적으로 mode collapse가 발생할 수 있다.

이를 해결하기 위해 Earth Mover's Distance를 사용한다.

Earth Mover's Distance

Earth mover's distance는 두 분포를 동일하게 만들기 위해서 얼만큼 옮겨야하는지를 계산하는 것

두 분포 사이의 거리를 측정하는 cost function으로 일반적으로 GAN을 훈련할 때 BCE 관련 cost function보다 성능이 뛰어나다.

예를 들어 분포가 흙더미라고 생각하면, 그 흙더미를 움직여 실제 분포의 모양과 위치로 만드는 것은 얼마나 어려울까? ⇒ 이것이 Earth Mover’s Distance

BCE loss에서는 0과 1사이의 값을 가져 1에 가까운 값이 점점 0에 가까워지면서 학습을 멈추게 되는데, Earth Movers’ Distance에서는 이러한 상한선이 없기 때문에 계속 cost를 증가시킬 수 있음

Wasserstein Loss

Earth Mover’s distance를 근사화한 loss

함수는 discriminator의 prediction의 예상치 차이를 계산한다. 여기서 discriminator가 평가하는 역할을 하기 때문에 critic이라고 한다.

discriminator는 이 두 가지를 보고 진짜에 대한 생각과 가짜에 대한 생각 사이의 거리를 최대화하려고 하는 한편, generator는 가짜 이미지가 진짜와 최대한 가깝다고 discriminator가 생각하기를 원하기 때문에 이 차이를 최소화하려고 한다. 거리 기반이기 때문에 0과 1의 한계가 없다.

1-Lipschitz Continuous

다만 신경망에서 너무 큰 숫자는 피해야 하기 때문에 Lipshitz 제약이라는 제약조건을 걸어 critic을 제한한다.

critic에서 이 condition이 W-loss에 중요한 이유는 W-Loss 함수가 연속적이게 될 뿐 아니라 훈련 중에 너무 많이 성장하지 않고 어느 정도 안정성을 유지하도록 보장하기 때문이다.

위 condition을 만족하기 위한 기법으로는 weight clipping과 gradient penalty가 있다.

Weight Clipping

gradient의 norm을 강제적으로 1보다 크지않게 하는 것

넘어가는 값들을 아예 clipping해버리기 때문에 다양한 가중치값을 받아들이지 못해 최적을 찾지 못할 수 있고, critic을 지나치게 제한할 수도 있다는 단점이 있다.

Gradient Penalty

regularization term을 붙임으로서 1-L 연속성을 좀더 부드럽게 강제하는 방식

weight clipping처럼 값을 자르는 것이 아니라 많이 넘어갈수록 제약을 걸어주는 방식이다.

regularization term은 진짜 이미지와 생성된 가짜 이미지를 이용해 interpolation한 중간이미지를 통해 줄수 있다.

즉 x hat은 진짜와 가짜에 대한 가중치를 부여한 이미지이기 때문에 1-L continuous를 엄격하게 강제하는 것이 아니라 권장하는 것이다.

⚙ interpolated image를 사용해 수식 구현

보간된 이미지 생성 실제 이미지(real)와 가짜 이미지(fake)를 일정한 epsilon을 주고 섞어서 보간된 이미지를 생성

$\hat{x} = ϵ × real + (1−ϵ) × fake$
Critic 모델에 보간된 이미지 입력
Critic의 그래디언트 계산 $\nabla _{\hat{x}} D(\hat{x})$
Gradient Penalty 계산 Gradient Penalty는 critic의 그래디언트 norm이 1에서 벗어나는 정도를 측정해 페널티 부여 $penalty=λEx^∼Px^[(∥∇x^D(x^)∥2−1)2]$

Coursera의 Build Basic Generative Adversarial Networks (GANs) 강의를 바탕으로 작성하였습니다.

[paper] MetaFormer Is Actually What You Need for Vision

Tue, 26 Mar 2024 09:01:07 GMT

본 글에서는 CVPR에서 22년도에 발표된 MetaFormer is Actually What You Need for Vision, Yu et al.에 대해 간단하게 정리하겠습니다.

Generalized Transformer Achitecture

논문에서는 일반화된 트랜스포머 아키텍처를 제안합니다. 여기서 기존 트랜스포머 구조에서 Self-Attention이 왔던 부분을 Token Mixer라고 하고, Self-Attention을 제외한 나머지부분을 MetaFormer라고 했을 때, attention이 아니더라도Token Mixer 자리에 어떤 것이 오든지 MetaFormer 구조만 갖추고 있으면 CV task들에서 잘 작동한다는 것입니다.

Motivation

이러한 구조를 발견하게 된 배경을 보면, ViT 모델들이 여러가지 구조로 다양화되고 있는데,저자들은 Token Mixer자리에 Self Attention이 아니더라도 MLP, 심지어는 옛날 연산 방식인 Fourier transform이 오더라도 성능이 잘 나온다는 흐름을 보게 되었습니다. 그래서 저자들은 파라미터 자체도 없는 Average Pooling을 넣어보면 어떨까? 하고 구조를 완성해봤는데 오히려 SOTA를 달성하는 결과를 얻었다고 말합니다.

이렇게 제안된 PoolFormer는 MetaFormer의 구조의 Token Mixer 자리에 average pooling을 넣어 완성했다고 불 수 있습니다.

PoolFormer Architecture

*L은 전체 블록의 개수, L/6은 전체의 1/6이 분포한다는 뜻임

구조를 전체적으로 보면 patch embedding이 총 네 번 들어가고, 각 patch embedding 사이에 PoolFormer들을 여러개를 집어넣어서 특징을 추출하는 단계로 구성됩니다.

또한 이미지의 스테이지 자체는 기존에 사용되었던 image classification 모델들의 feature map 축소하는 비율과 유사하게 4배, 8배, 16배, 32배 축소가 되는걸 볼 수 있습니다.

MetaFormer

MetaFormer의 구조는 아래와 같이 구성되어 있으며,

식으로는 다음과 같습니다.

$$ X = InputEmb(I) \newline Y = TokenMixer(Norm(X))+X \newline Z = \sigma(Norm(Y)W_1)W_2+Y $$

average pooling

pooling자리에서 average pooling을 하고 normalization layer에서 넘어온 Input을 한번 빼는 점이 약간 다릅니다.

Ablation study

pooling 자체를 Identity mapping, 그냥 직접 전달하더라도 베이스라인에서 3% 밖에 안떨어지는 모습을 보이며 → metaformer 구조 자체가 훌륭하다는 것을 시사합니다.

감사합니다.

Reference

[paper] Inception v4 (2016)

Wed, 13 Mar 2024 14:38:42 GMT

Inception 시리즈의 발전

Inception 아키텍처는 초기에 GoogLeNet으로 알려져 있었으며, 이후 Inception v2, Inception v3 등 다양한 버전이 발표되었습니다. Inception v4는 2016년에 소개되었으며, 그 이후로도 다양한 개선이 이루어진 것으로 알려져 있습니다.

기존 단점

Inception v3에서 발생했던 일부 단점 중 하나는 그 복잡한 구조였습니다. Inception v4에서는 파라미터 공유와 모듈 간의 효율적인 연결을 최적화하여 학습 속도를 향상시켰습니다. 또한, 배치 정규화와 드롭아웃 등의 효과적인 정규화 기법을 도입하여 과적합 문제에 대처했습니다.

Inception v4의 특징

Residual Connection의 도입 Inception v4에서는 Residual Connection이 처음으로 도입되었습니다. Residual Connection은 각 레이어의 입력에 해당 레이어의 출력을 더하는 구조로, 그레이디언트 소실 문제를 해결해 심층 신경망의 훈련을 안정화시키는 데 큰 역할을 합니다.
네트워크의 깊이와 너비 Inception v4는 이전 버전에 비해 더 깊고 넓은 네트워크를 가지고 있습니다.(총 22개 레이어로 구성) 더 많은 레이어와 노드는 더 풍부한 특징 추출을 가능하게 하며, 이는 복잡한 데이터셋에서 높은 정확도를 달성하는 데 기여합니다.
Inception 모듈의 다양성 => Scale-up 효과 Inception v4는 서로 다른 크기의 필터를 사용하여 특징을 추출하는 여러 가지 크기의 Inception 모듈을 사용합니다. 이는 네트워크가 다양한 크기의 특징을 동시에 학습하고 결합하여 보다 풍부한 representation을 얻을 수 있도록 합니다.
효율적인 Inception module Inception v4에서는 기존의 Inception 모듈을 최적화하여 연산 효율성을 높였습니다. 적은 파라미터로 높은 효율을 달성하며, 이는 학습 및 추론 시간을 단축시키는 데 기여합니다.

구조

Inception 후속 버전에서 유의미한 성능 개선이 있었음에도 불구하고 Inception 모델은 복잡한 구조 때문에 잘 사용되지 않았습니다. 때문에 v4모델에서는 구조를 획일화하였습니다. 다음은 각 모듈에 대해 살펴보겠습니다.

Stem

Stem 모듈은 Inception v4의 초기 부분에서 사용되는 모듈로, 입력 이미지의 초기 특징을 추출하는 역할을 합니다. 이 모듈은 이미지에 대한 기본적인 특징을 학습하고 네트워크에 전달하기 위해 사용됩니다. Stem 모듈은 일반적으로 Convolutional 레이어와 Pooling 레이어의 조합으로 구성되어 있으며, 입력 이미지의 고수준 특징을 추상화하기 위해 필터와 스트라이드를 조정합니다.

Inception-A

주로 1x1, 3x3, 5x5 필터와 pooling 연산이 병렬로 적용되며, 이를 통해 다양한 크기의 receptive field를 가진 특징을 얻을 수 있습니다.

inception-B

Inception-B 모듈은 Inception-A 모듈과 유사하지만, 필터의 구성이 다르게 조정되어 있습니다. 주로 1x1, 7x7 필터와 다양한 크기의 pooling 연산이 사용되며, 이로 인해 더욱 다양하고 복잡한 특징을 추출할 수 있습니다.

inception-C

Inception-C 모듈은 높은 수준의 추상화된 특징을 얻기 위해 Inception-A와 Inception-B 모듈에서 나온 특징을 결합하는 역할을 합니다. 이 모듈은 이전 모듈에서 추출된 특징을 조합하여 더욱 풍부한 표현을 만들어내는 데 기여합니다.

reduction-A

Reduction-A 모듈은 네트워크의 공간 해상도를 줄이고 특징의 차원을 감소시키는 역할을 합니다. 이 모듈은 보다 큰 receptive field를 가진 특징을 추출하며, 네트워크의 파라미터를 줄이고 계산 효율성을 높이기 위해 사용됩니다.

reduction-B

Reduction-B 모듈은 Reduction-A와 마찬가지로 공간 해상도를 줄이고 특징의 차원을 감소시키는 역할을 합니다. Reduction-A 모듈에서 처리한 이미지의 크기를 줄이는 이 모듈은 3x3 크기의 컨볼루션 레이어와 Max pooling 레이어로 구성되어 있으며, Reduction-A 모듈보다 더 많은 레이어를 가지고 있습니다.

이러한 다양한 모듈의 조합을 최적화하여 고안된 네트워크라고 할 수 있습니다.

Reference [[paper] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning ] (https://arxiv.org/abs/1602.07261) https://hyunsooworld.tistory.com/entry/Inception-v1v2v3v4%EB%8A%94-%EB%AC%B4%EC%97%87%EC%9D%B4-%EB%8B%A4%EB%A5%B8%EA%B0%80-CNN%EC%9D%98-%EC%97%AD%EC%82%AC

PEFT(Parameter-Efficient Fine-Tuning) 라이브러리 : 대규모 Pre-trained Language Model 효과적으로 활용하기

Fri, 08 Mar 2024 07:35:48 GMT

소개

최근에는 대규모 트랜스포머 모델을 사용한 Pre-trained Language Model (PLM)이 다양한 자연어 처리 분야에서 높은 성능을 보이고 있습니다. 트랜스포머 모델은 GPT, T5, BERT와 같은 대규모 언어 모델뿐만 아니라 VIT, Stable Diffusion, LayoutLM 등 컴퓨터 비전 및 음성 분야에도 적용되고 있습니다. 그러나 모델이 커짐에 따라 Fine-tuning 비용이 증가하고, 모든 파라미터를 튜닝하는 것이 어려워지는 문제가 발생했습니다.

이러한 문제를 해결하기 위해 등장한 라이브러리가 PEFT(Parameter-Efficient Fine-Tuning)입니다. PEFT는 대부분의 모델 파라미터를 고정하고 필요한 부분만 튜닝함으로써 저장 공간 및 계산 비용을 크게 줄입니다. 또한, catastrophic forgetting*과 같은 문제를 극복하면서도 적은 양의 데이터나 도메인 이탈 데이터에 대한 뛰어난 일반화 성능을 보여줍니다.

*catastrophic forgetting: 인공 신경망이 새로운 정보를 학습할 때 이전에 학습한 정보를 갑자기 급격하게 잊어버리는 경향

PEFT는 다양한 방법을 활용하여 대규모 언어 모델의 Fine-tuning 비용을 혁신적으로 줄일 수 있는 기능을 제공합니다.

PEFT의 기법들

허깅페이스에서 제공하는 PEFT 라이브러리는 모델 파라미터 중 일부만 미세 조정하거나, 재매개변수화 방법(예: Low-rank adaptation)을 사용하여 계산 및 저장 비용을 크게 절감하는 다양한 방법론을 제공합니다.

초기에 PEFT을 위해 제안되었던 방법은 어댑터(adapters)를 사용하는 것입니다.

여기서 adapater란, 기존에 이미 학습이 완료된 모델(pre-trained model)의 사이사이에 학습 가능한 작은 feed-forward networks를 삽입하는 구조를 말합니다. 이때, pre-trained model의 weights를 고정시키고 어댑터를 중간 중간 추가함으로써 적은 수의 파라미터로 모델을 튜닝하는 기법입니다.

뿐만 아니라, PEFT는 다양한 방법론을 제공하고 있으며, LoRA, prompt tuning, prefix tuning 등이 이에 속합니다. 이러한 다양한 방법론을 활용하여 효율적으로 모델을 fine-tuning할 수 있습니다.

LoRA 참고설명

** PEFT 사용법 예시:**

pythonCopy code
from transformers import AutoModelForCausalLM
from peft import get_peft_config, get_peft_model, LoraConfig, TaskType

model_name_or_path = "bigscience/mt0-large"
tokenizer_name_or_path = "bigscience/mt0-large"

peft_config = LoraConfig(
    task_type="CAUSAL_LM", inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1
)

model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()
# output: trainable params: 2359296 || all params: 1231940608 || trainable%: 0.19151053100118282

이렇게 PEFT를 적용한 모델은 기존 모델의 일부 파라미터만 미세 조정하고 있으며, 저장 및 계산 비용을 현저하게 감소시키는 것을 볼 수 있습니다. 또한, 모델 저장 시에는 base_model 파라미터를 제외한 Adapter 부분만 저장되어 저장 공간을 효율적으로 활용합니다.

마무리

PEFT를 사용하여 모델을 조정하면 전체 파인튜닝에서 생성되는 큰 체크포인트 파일 대신 작은 체크포인트 파일을 얻을 수 있어 저장 공간 관리에 도움이 됩니다.
예를 들어, Hugging Face의 bigscience/mt0-xl 모델은 40GB의 저장 공간을 차지하고 각 다운스트림 데이터 세트에 대해 40GB의 체크포인트 파일이 생성되지만 PEFT를 사용하면 다운스트림 데이터 세트에 대해 몇 메가바이트의 적은 용량을 가진 체크포인트 파일을 사용할 수 있습니다.
즉 PEFT로 학습된 적은 양의 가중치는 사전 학습된 LLM 모델 레이어의 상단에 위치하여 모델 전체를 대체할 필요 없이 조금의 가중치만 추가하여 여러 작업을 수행할 수 있습니다.

참고 링크: PEFT 라이브러리 공식 GitHub https://sooftware.io/peft/ https://4n3mone.tistory.com/7

Linux server에서 Stable diffusion web-ui 설치하기

Fri, 01 Mar 2024 06:32:21 GMT

깃헙 설치 매뉴얼처럼 sudo 접근이 불가한 server에서 stable diffusion 설치하기

github link에서 리눅스 설치 방법을 참고합니다.

저는 sudo 접근이 불가해서 git clone하여 시작했습니다.

$ git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

그런 다음 생성된 폴더로 이동

그리고 다음 커맨드를 입력하여 webui.sh를 생성해줍니다.

$ wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh

쓰기 권한을 부여해주고

$ chmod +x webui.sh

$ ./webui.sh

실행해줍니다

좀 기다리면 끝

[paper] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Tue, 30 Jan 2024 06:18:05 GMT

"BLIP"

오늘 소개하는 BLIP(paper)는, 2022년 발표된 논문으로 vision-language understanding tasks와 generation-based tasks 모두 유연하게 사용할 수 있도록 아키텍처를 설계하였고, 합성된 캡션을 생성하고 기존 text중에서는 noise가 있는 caption을 제거하는 방식을 통해 웹에서 수집한 데이터의 noise를 효과적으로 활용할 수 있도록 했다고 한다.

작성시점 기준 후속연구인 BLIP2가 nocaps dataset에서 SOTA를 달성하고 있다.

Introduction

기존 Vision-Language Pre-training (VLP)의 한계

Vision-Language Pre-training (VLP) 기술이 시각과 언어를 결합한 tasks에서 좋은 성과를 보이고 있으나 아래와 같은 한계가 존재한다.

모델 관점에서의 한계
- 대부분의 방법이 encoder 기반 모델이나 encoder-decoder 모델 중 하나를 채택하고 있음 👉 그러나 encoder 기반 모델은 text generation task(ex. image caption generation)에는 적합하지 않고, encoder-decoder 모델은 text 생성에만 집중하다보니 image-text 상호 modality간의 understanding이 필요한 task의 성능이 그리 좋지 않았음
데이터 관점에서의 한계
- 대부분의 최신 방법은 주로 웹에서 수집하여 noise가 있는 image-text 데이터셋의 확장을 통해 성능을 향상시키고자 함 👉 데이터셋을 확장하여 성능향상을 이룰 순 있지만 논문에서는 web text의 noise가 vision-language 학습에는 부적절하다고 한다.

BLIP에서는 이러한 한계를 극복하기 위한 아키텍처를 제안하였다.

BLIP 프레임워크의 두 가지 Contribution

모델 관점 Multimodal mixture of Encoder-Decoder (MED) : 효과적인 multimodal pre-training과 유연한 transfer learning을 위한 새로운 모델 구조로, 아래 세가지 기능으로 동작할 수 있어 위와 같은 이름이 붙여졌다. - unimodal encoder - image-text encoder - image-text decoder

위에서 살펴봤던 한계처럼 encoder, decoder에 적합한 task가 나뉘면서 서로다른 modality 간의 상호작용을 고려하기 어려웠던 문제점을 다양한 작동 모드에서 동작할 수 있는 MED 블록으로 학습시키면서 vision과 language에 대한 이해를 꾀한다.

데이터 관점 Captioning and Filtering (CapFilt) : noise가 있는 image-text pairs에서 학습하기 위한 새로운 데이터 bootstrapping 방법
- pre-trained된 MED를 captioner 및 노이즈 제거 필터 두 모듈로 세밀 조정
- 이미지에서 합성된 캡션을 생성하는 captioner와, 원본 web text 및 합성된 text에서 noise가 많은 caption을 제거하는 filter가 함께 작동하여 다양한 downstream tasks에서 상당한 성능 향상을 달성
example) 아래 그림처럼 케이크 사진에 잘못된 caption을 filter를 통해 제거!

Method

Model Architecture

image encoder로는 Vision transformer를 사용하였고, 위에서 설명한 MED가 unimodal encoder, image-text encoder, image-text decoder로 작동한다.

때문에 모델은 image-text contrastive learning, image-text matching, imageconditioned language modeling의 세 가지 vision-language 목적으로 동시에 pretrained 된다. 이를 위한 loss는 아래 내용으로 이어진다.

Pre-training Objectives

pre-training 동안 두 개의 understanding-based objective와 한 개의 generation-based objective, 이렇게 세 개의 목적을 달성하기 위해 아래의 loss function을 가진다.

1. Image-Text Contrastive Loss (ITC) : vision transformer와 text transformer 사이에서 negative pairs와 대조적으로 positive image-text pairs끼리 유사한 표현을 갖도록 하는 loss

2. Image-Text Matching Loss (ITM) : image-based text encoder에서 작용하는 loss vision과 language 간의 미세한 alignment를 캡처하는 representation을 학습하도록 하는 objective function이다.

3. Language Modeling Loss (LM) : image-based text decoder에서 작용하는 loss decoder에서 텍스트 설명을 생성할 때 텍스트의 가능성을 최대화하도록 모델을 training한다, cross entropy loss가 쓰인다.

multi-task learning을 활용하여 효율적인 pre-training을 수행하기 위해 text encoder와 text decoder는 SA(Self-Attention) 레이어를 제외한 모든 파라미터를 공유한다.

👉 SA 레이어를 제외한 이유는 인코딩 및 디코딩 작업 간의 차이가 SA 레이어에 가장 잘 나타나기 때문 (각각의 작업에서 공통된 특징을 학습하면서도, 인코딩 및 디코딩 작업 간의 차이를 반영하기 위함)

CapFilt

최근에는 인간이 수동으로 캡션을 생성하는 고품질 데이터셋을 이용하기보다 웹에서 수집되는 대규모 데이터셋을 사용하는 추세이다. 그러나 웹에서 수집된 대체 텍스트는 vision-language alignment를 학습하기에는 부적절한(이미지의 시각적 내용을 정확하게 설명하지않는) noise가 많이 포함되어 있다.

논문에서는 이러한 text corpus의 품질을 향상시키기 위해 CapFilt(Captioning and Filtering)라는 새로운 방법을 도입한다. 아래와 같이 두가지 기능으로 구성된다.

captioner : image-based text decoder로서 이미지에 대한 캡션 생성
filter : image-based text encoder로서 ITC 및 ITM objectives를 사용하여 생성된 텍스트로부터 텍스트가 이미지와 일치하는지 확인하고 노이즈가 있는 이미지-텍스트 쌍을 제거

👉 마지막으로 이렇게 필터링된 이미지-텍스트 쌍을 사람이 주석을 매긴 쌍과 결합하여 새로운 데이터셋을 형성하게 된다.

Experiments

CapFilt의 효과

아래 표를 보면 captioner(C)와 filter(F) 둘다 사용했을 때 효과가 상호 보완되어 원본 웹 텍스트를 사용하는 것보다 성능이 향상되는 것을 볼 수 있다.

parameter sharing 전략

Self attention layer를 제외하고 파라미터를 공유했을 때 가장 높은 성능을 보임을 알 수 있다. SA 레이어를 공유하면 인코딩 작업과 디코딩 작업 간의 충돌로 인해 모델 성능이 저하된다.

Image-Text Retrieval

14M pretrained 이미지에서 BLIP은 COCO의 평균 R@1에서 이전 SOTA모델 ALBEF보다 +2.7% 더 높은 성능을 달성했다.

Image Captioning

129M 이미지의 BLIP은 200M 이미지의 LEMON과 같은 성능을 발휘하는데, LEMON에는 계산량이 많은 pretrained object detector와 더 높은 resolution(800×1333) 입력 이미지가 필요하므로 BLIP보다 추론 시간이 상당히 느리다.

Visual Question Answering (VQA)

주어진 이미지와 질문에 대한 답변을 예측해야 하는 task에서도 14M 이미지셋에서BLIP이 테스트 세트에서 ALBEF보다 +1.64% 더 나은 성능을 보인다. 129M 이미지셋으로 pretrained된 BLIP은 13배 더 많은 사전 훈련 데이터(1.8B)와 더 큰 비전 백본을 사용하는 SimVLM보다도 더 나은 성능을 달성하는 것을 볼 수 있다.

Zero-shot Transfer to Video-Language Tasks

BLIP 모델은 텍스트-비디오 검색과 비디오 질문 답변의 video-language task에 대해서도 일반화 성능을 보여줬다.

Stable diffusion webui 설치 및 실행방법, 에러

Mon, 22 Jan 2024 05:18:50 GMT

step 1.

github link : https://github.com/AUTOMATIC1111/stable-diffusion-webui/

위 레포지토리를 clone하고

step 2.

webui-user.bat 파일을 더블클릭하여 실행하면 된다.

이때 python을 찾을 수 없다는 에러가 나올 경우

편집을 누르고

set PYTHON=

이렇게 비어있다면 여기에 python의 경로를 입력 후 저장해주면 된다.

*참고 : python 경로 못찾겠을 때 터미널에서

python
>>> import sys
>>> sys.executable

하면 경로 나옴

복사하여 붙여주고 저장하면 된다.

@ gpu 사용 불가 에러

RuntimeError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check

파이썬 경로만 입력해줬을 때 작동하면 다행이지만 gpu사용이 불가능할 경우 다음과 같은 에러를 마주하게 된다.

이럴때는 다시 파일을 편집버튼을 눌러 열고

set COMMANDLINE_ARGS=

이렇게 비어있다면

set COMMANDLINE_ARGS=--skip-torch-cuda-test --precision full --no-half

위와 같이 수정하여 준다.

그러면 잘 접속된다.

[paper] SlowFast Networks for Video Recognition

Fri, 12 Jan 2024 06:01:51 GMT

SlowFast Networks for Video Recognition 논문 리뷰

이 모델은 facebook에서 2018년에 발표했으며, 발표 당시 video recognition task에서 SOTA를 달성하며 논문으로 나온 모델입니다. 먼저 이름부터 특이한데요, Slow와 fast가 동시에 존재합니다. 이는 모델에서 제안한 특이한 아키텍처로부터 붙여진 이름입니다.

Introduction

이미지 및 비디오 인식의 맥락에서 공간 및 시간 차원

공간 영역과 시간 차원의 차이:
이미지에서는 x와 y라는 공간 차원을 대칭적으로 취급하는 것이 일반적입니다. 그러나 비디오에서는 이미지와 달리 시간(t)이라는 차원이 추가됩니다. 이러한 차원이 추가되면서 비디오에서는 공간과 시간의 대칭성이 더 이상 성립하지 않습니다.
움직임의 속성: 일상에서는 물체나 인물의 움직임이 크게 빨라지는 경우보다는 느린 움직임이 더 자주 나타날 수 있습니다.

말이 어려운데, 예를 들어 손을 흔드는 동작은 "손"의 정체성은 흔들기 동작 동안에도 변경되지 않고, 사람은 걷는 동작에서 뛰기로 전환하더라도 항상 "사람" 범주에 속한다는 것입니다. 따라서 범주적 의미론(색상, 질감, 조명 등)의 인식은 비교적 천천히 새롭게 갱신될 수 있습니다. 그러나 수행 중인 동작은 주체의 정체성보다 훨씬 빠르게 진화할 수 있습니다. 예를 들어 박수치기, 손 흔들기, 흔들림, 걷기, 뛰기 등이 해당됩니다. 이러한 빠르게 변하는 동작을 효과적으로 모델링하기 위해 빠른 갱신 속도(높은 시간적 해상도)의 프레임을 사용하는 것이 바람직할 수 있습니다.

2-path Networks

이에 따라 SlowFast 모델은 두 가지 경로를 제시합니다.

첫 번째 경로는 이미지 또는 몇 개의 희소한 프레임에서 얻을 수 있는 의미 정보를 캡처하도록 설계되어 낮은 프레임 속도와 느린 갱신 속도를 가집니다. 반면, 두 번째 경로는 빠르게 변하는 동작을 캡처하도록 하며 높은 갱신 속도와 높은 시간적 해상도에서 작동합니다. 이 경로는 매우 가볍게 설계되었고 전체 계산의 약 20% 정도를 차지합니다.

첫 번째 경로를 "느린(Slow) 패스웨이"라 하고, 두 번째 경로를 "빠른(Fast) 패스웨이"라고 부르며, 이는 각각 다른 시간 속도에 기반합니다.

정리하자면 다음과 같습니다.

느린(Slow) 패스웨이:

이미지나 희소한 프레임에서 얻을 수 있는 의미 정보를 캡처
낮은 프레임 속도와 느린 갱신 속도에서 작동
공간 영역과 의미론에 집중
약 80%의 계산 차지
- 빠른(Fast) 패스웨이:
빠르게 변하는 동작을 캡처
높은 프레임 속도와 높은 시간적 해상도에서 작동
가벼운 구조, 약 20% 정도의 계산 차지

이렇게 정리해놓고 단순히 생각하면 slow path가 80%의 계산을 차지하고 fast path가 20%의 계산을 차지하는 것이 의아한데요, Fast path는 모션 정보만 얻어내면 되기 때문에, 디테일한 정보가 필요 없어서 채널 수가 적어도 됩니다. Slow path에 비해서 “베타＂만큼 채널을 줄일 수 있게끔 됩니다. 이 비율의 기준도 궁금한데요, 사실 이 모델이 실제 사람의 시신경에서 모티브를 얻은 것이기 때문입니다. 실제 동물의 시각 세포들은 물체의 공간적 도메인을 분석하는 파트와 시간적 도메인을 분석하는 파트가 따로 나뉘어있다고 합니다. 시각 세포 중 20%는 물체의 움직임과 위치를 보고, 남은 대부분의 80% 세포는 색깔과 디테일을 본다고 합니다. 생물학적으로 비율이 정해져 있어서 slowfast에도 이 비율을 그대로 적용이 된 것입니다.

(출처) https://blog.naver.com/112fkdldjs/223033497222

Lateral connections

두 경로는 측면 연결을 통해 통합됩니다. fast pathway는 가벼움으로 인해 모든 중간 레이어에서 높은 프레임 속도에서 작동하고 시간적 충실도*를 유지할 필요가 없습니다. 반면에 낮은 프레임 속도 덕분에 slow pathway는 공간 영역과 의미론에 더 집중할 수 있습니다. 이 방법은 비디오를 다르게 갱신 속도로 처리함으로써 두 경로가 각각의 역할을 수행하도록 하는 것입니다.

(*시간적 충실도 : 빠르게 변화하는 시간적인 특징을 잘 포착하면서도 그 변화를 정확하게 나타낼 수 있는 능력을 갖추고 있다는 것을 의미)

다시한번 사진을 보시면 fast path에서 slow path로 유니 디렉션을 통해 연결을 해주는 것을 볼 수 있습니다. 논문에서는 단방향으로 해도 양방향과 유사한 결과를 얻었다고 언급합니다.

이러한 연결 과정에서 특징의 크기를 일치시키는 것이 필요한데요, Slow 경로의 특징 형태를 {T, S2, C}로 표기하면, Fast 경로의 특징 형태는 {αT, S2, βC}입니다. 다음과 같은 변환을 통해 Lateral connections에서 실험을 진행합니다:

Time-to-channel:

{αT, S2, βC}를 {T, S2, αβC}로 reshape하고 transpose합니다. 이는 모든 α 프레임을 하나의 프레임의 채널로 묶는 것을 의미합니다.

Time-strided sampling:

간단히 말해 α 중에서 하나씩 샘플링하여 {αT, S2, βC}를 {T, S2, βC}로 만듭니다.

Time-strided convolution:

5×1×2 커널을 사용하는 3D convolution을 수행하고 2βC의 출력 채널과 α의 stride를 갖습니다. 측면 연결의 출력은 Slow path에 더하거나 concat하여 통합됩니다.

Results

SlowFast 모델이 가장 높은 성능을 자랑하는 스펙은 Non Local Blocks까지 사용한 모델이라, 소개를 하고 넘어가겠습니다.

Non Local block

Non Local block은 CNN 구조나 Transformer와 같은 모델에서 특정 레이어 또는 블록에 통합할 수 있는 유용한 블록입니다. spatial domain 즉 공간적 도메인 혹은 temperal 도메인 어느 쪽 으로라도 현재 출발하는 지점의 픽셀의 정보가 어떤 frame의 어느 지점과 연관성이 있는지 계산하는 일종의 self attention 네트워크입니다. 이 블록은 시간적으로 긴 범위에서도 정보를 캡처할 수 있어 Action Recognition과 같은 작업에서 성능 향상에 기여합니다.

다시 돌아와서, 실험에서 SlowFast 네트워크는 Kinetics-400, Kinetics-600, Charades 및 AVA 데이터셋에서 평가되었습니다. Kinetics action classification에 대한 실험에서 SlowFast의 기여도가 입증되었으며, 당시 SlowFast 네트워크는 이전 모델에 비해 상당한 성능 향상을 보여주는 새로운 최고 기록을 세웠습니다.

연구원님 블로그를 보다가 알게된 모델인데 이런 공간적인 문맥을 따로 학습하는 네트워크가 있으면 비슷한 이미지가 연속되는 비디오에서도 객체의 직접적인 형태의 변형이 없어도 객체의 이동, 위치를 고려한 상황 학습을 시킬 수 있을까 생각이 들어서 정리했다. 나중에 좀더 조사해보고 태스크에 적용해보려고 하는데, 내가 하고 싶은 태스크는 단순 분류나 인식 태스크가 아니라 조금 더 조사해 봐야 할듯하다.

Reference https://blog.naver.com/112fkdldjs/223033497222 https://arxiv.org/pdf/1812.03982.pdf https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf

정이는 성장중

[paper] ControlNet, Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet

Denosing process in ControlNet

Zero-initialized Layers

Sudden Convergence Phenomenon

Docker container 환경 구축하기, 서버 간 파일 전송

requirements.txt 생성

프로젝트 코드 압축

server to server 파일 및 코드 이동

a. Base image

b. Dockerfile 작성

c. Docker 이미지 빌드

d. Docker 컨테이너 생성

e. Docker 컨테이너 Attach

[paper] Stable diffusion

Introduction

Arcitecture

1. Autoencoder

2. Latent Diffusion Model(LDM)

3. Conditioning Mechanism

Experiments

YAML과 Hydra를 이용한 config 관리

모델 config에서 YAML과 Hydra를 사용하는 이유

1. YAML: 설정 파일 형식

Hydra: 설정 관리 프레임워크

3. YAML과 Hydra의 사용 예제

4. 마무리

[paper] NOPE: Novel Object Pose Estimation from a Single Image

Framework

Pose prediction

Loss function

Experiments

Summary

Roboflow 데이터셋 유형변경 - Object Detection에서 Instance Segmentation

Segmentation Annotation

Change dataset format

[paper] PatchCore: Towards Total Recall in Industrial Anomaly Detection

Preliminaries

Introduction

Related Works

Method

1. Locally Aware Patch Features

2. Coreset-reduced patch-feature memory bank

3. Anomaly Detection with PatchCore

Experiments

[paper] Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt

Introduction

Related Work - Industrial image Anomaly Detection

Unsupervised Image Anomaly Detection

Continual Image Anomaly Detection

Methods

문제 정의 - Unsupervised Continual AD Problem

Continual Prompting Module

Structured-based Contrastive Learning

Test-Time Task-Agnostic Inference

Experiments and Discussion

Experiments setup

Training Details and Module Parameter Settings

Continual anomaly detection benchmark

Ablation study

Conclusions

OpenAI API로 여러 데이터에 대한 답변 뽑을 때 주의* - RateLimitError, InvalidRequestError

에러나서 다시 돌리면 토큰 아까우니까 실행 전 미리 주의하세요..

1. RateLimitError

2. InvalidRequestError

3D Object Generation 기술 동향, 모델 비교- Zero123, MVDream, SyncDreamer

DreamFusion

Objarverse dataset 등장 이후의 모델

1. Zero-1-to-3

2. MVDream

3. SyncDreamer

ViTPose++: Vision Transformer for Generic Body Pose Estimation

다양한 pose estimation task를 위한 MoE방식의 지식 분해(knowledge decomposition):

Ablation Studies of ViTPose++ and Analysis

[paper] Inpaint Anything

Motivation and Observation

Why do we need Inpaint Anything?

What Inpaint Anything can do?

Methodology