pluto_0905.log

UTM

Wed, 18 Mar 2026 23:24:15 GMT

UTM(Unified Threat Management: 통합위협관리)

과거에는 방화벽, 안티바이러스, 스팸 차단기등 각각 별도의 장비를 구입해야했지만, UTM은 이 모든 보안 기능을 하나의 HW+SW에 통합한 솔루션

핵심기능

방화벽 + IPS(Intrusion Prevention System: 침입방지)+ IDS(Intrusion Detection System: 침입탐지)+ VPN(Virtual Private Network: 암호화된 가상 터널)

프록시와 캐싱

Sun, 14 Sep 2025 23:16:23 GMT

프록시

프록시(proxy)는 중간에서 대신 연결을 처리해주는 서버나 SW 쉽게 말해, 사용자가 직접 목적지 서버에 연결하지 않고, 프록시 서버를 거쳐서 인터넷이나 네트워크 자원에 접근하는 방식.

EX

내가 웹사이트 A에 접속하고 싶을 때 → 내 컴퓨터가 바로 A로 가지 않고, 프록시 서버에 먼저 요청을 보냅니다. 프록시 서버가 대신 A에 접속해서 데이터를 받아오고, → 그 결과를 나한테 전달해 줍니다.

📌 프록시의 주요 기능

보안/익명성 제공: 실제 IP 주소를 숨기고, 프록시 서버의 IP로 접속하게 만듦.
캐싱(Caching): 자주 요청되는 데이터를 미리 저장해 두었다가 더 빠르게 제공.

자주 쓰는 데이터를 미리 저장해두었다가, 필요할 때 더 빨리 꺼내쓰는 방식
ex) 인터넷 브라우저도 내가 자주 들어가는 사이트의 이미지나 파일을 캐시에 저장해 두고 , 다음 접속 때 새로 다운로드하지 않고 캐시에서 꺼내서 보여줌

*캐시의 장점 *

속도 향상 - 원래 저장된 위치(서버,DB,디스크)보다 가까운 곳에서 바로 가져오기에 훨씬 빠름
부하 감소 - 서버나 네트워크에 매번 요청하지 않으니 트래픽 절감
비용 절감 - 자주 쓰이는 데이터에 대해 반복 연산이나 다운로드 줄어듦

접근 제어: 회사나 학교에서 특정 사이트 차단할 때 사용.
트래픽 관리: 네트워크 부하 분산이나 속도 향상.

[삼성기출] 2023 하반기 오전 1번 문제 - 왕실의 기사대결

Wed, 17 Apr 2024 05:14:41 GMT

*기본 시뮬레이션- 격자 이동 *

왕실의 기사대결

idea 1.

*dict(key-value) 이용해서 units={1번 기사:[r,c,h,w,k], 2번 기사 :[r,c,h,w,k] ...} 관리 *

idea 2.

* 격자 바깥 쪽으로도 이동 불가, arr = [[2](L+2)] + [[2]+ list(map(int,input().split())) +[2] for _ in range(L)] + [[2](L+2)] ==> 이런 식으로 애초에 입력 시에 벽으로 감싸버리기 *

idea 3.

** q= [] # 밀 기사 후보 설정 + q.pop(0) 이용하여 바로 제거, pset = set()으로 이동 기사 번호 적용(어차피 겹치는 거 없으니 set으로 관리) **

idea 4.

안 겹치는거 <-> 겹치는 거다 라는 생각.

if ni<=ti+th-1 and nj<=tj+tw-1 and ni+ch-1>= ti and nj+cw -1>=tj: ==> 겹치는 것들 구현(첫 번째 명령과 행,열 겹치면 기사 이동 필요하니: q,pset에 append, add로 while q: 반복)

di=[-1,0,1,0] #상,우,하,좌
dj=[0,1,0,-1]


L,N,Q = map(int,input().split()) # 4 3 3
arr = [[2]*(L+2)] + [[2]+ list(map(int,input().split())) +[2] for _ in range(L)] + [[2]*(L+2)]
units ={}
init_k =[0]*(N+1)

for i in range(1,N+1):
    r,c,h,w,k = map(int,input().split())
    units[i]=[r,c,h,w,k] # r:좌측 상단 x좌표 , c: 좌측 하단 y좌표  , h: 높이, w: 너비 , k: 목숨
    init_k[i]=k

def push_units(start,dr):
    q= [] # 밀 기사 후보 , 일단 명령 한 개당 하나 것지, 그리고 무조건 pop() 해줘야겠지
    pset = set() # 이동 기사 번호
    damage = [0] * (N + 1)
    q.append(start)
    pset.add(start) # set은 중복허용 안함. dict도 중괄호 사용하나 key-value 형태

    while q: # q에 원소가 없을 때까지
        cur = q.pop(0) # q.pop(0): q에서 젤 첫번째 원소 제거, q.pop() 가장 마지막 원소제거: 근데 여기선 어차피 한 개 씩만 들어가서 딱히 상관없음.

        ci,cj,ch,cw,ck = units[cur] # 이걸 여기서 재정의한다는 생각을 하기가 쉽지 않음.
        ni, nj = ci + di[dr], cj + dj[dr] # 미리 정의해놓은 거에 대한 움직임(dr) 받아와서 움직임 정의

        for i in range(ni, ni+ch): # 이제 탐색하면서 ==2:벽, ==1:함정 찾아야함. 이제 이해가 됐네 왜 ni+cw가 이나라 ni+ch 인지 ㅠ
            for j in range(nj,nj+cw):
                if arr[i][j]==2: # 벽이라면
                    return
                if arr[i][j]==1: # 함정이라면
                    damage[cur]+=1
        # 겹치는 것들 q, pset에 추가해줘야지
        for idx in units:
            if idx in pset: continue # 이미 밀릴 후보라면 continue

            ti,tj,th,tw,tk = units[idx]
            # 겹치는 녀석들 정의
            if ni<=ti+th-1 and nj<=tj+tw-1 and ni+ch-1>= ti and nj+cw -1>=tj:
                pset.add(idx)
                q.append(idx)

    damage[start]=0 # 명령 받은 기사는 뎀지 안 입음

    # 이제 초기체력 보다 데미지가 큰 녀석들은 삭제 처리 + 이동처리 해줘야지 # 지금은 데미지를 먼저 입고 이동처리 하는 느낌임. (데미지 입은 녀석들은 이동처리를 해야하니깐) 원래는 이동처리하고 데미지 입음
    for idx in pset:

        si,sj,sh,sw,sk = units[idx]

        if sk<= damage[idx]:
            units.pop(idx)
        else:
            ni,nj = si + di[dr], sj+dj[dr]
            units[idx]=[ni,nj,sh,sw,sk-damage[idx]]

for _ in range(Q):
    idx, dr = map(int,input().split())
    #if idx in units: --> 이거 차이로 런타임 에러 발생 ! 
    push_units(idx,dr)

ans = 0

for idx in units:
    ans += (init_k[idx]- units[idx][4])
print(ans)

[Data-Centric AI] Data-Centric AI란?

Tue, 02 Apr 2024 04:39:11 GMT

01 Data-Centric AI란?

1.1 데이터의 중요성

*AI 시스템을 이루는 두 가지 요소 *

양쪽 모두 개선 필요(데이터 품질이 좋을 땐: 모델 개선효과가 더 중요 <-> 데이터 품질 안좋을 땐: 데이터 개선이 더 중요)

Why?

*데이터는 곧 모델을 학습하는 데에 필요한 재료 *

But

동일한 데이터에 대해 서로 다른 어노테이션/라벨을 다는 경우가 발생 ⇒ 노이즈 발생 예시1) 철판 결함 예측 (39 classes) - Class 23 : Foreign particle defect

AI 프로젝트에서 데이터가 차지하는 비중

1.2 Data-Centric AI의 정의

Model-Centric AI

과거 그리고 지금도 여전히 가장 주로 사용되는 AI 접근 방식으로, 개발 및 운용의 관점에서 모델을 중심으로 접근하는 방식

Data-Centric AI

2020년대에 들어서 주목받기 시작한 AI 접근 방식으로, 개발 및 운용의 관점에서 데이터를 중심으로 접근하는 방식

Model-Centric AI vs. Data-Centric AI

코드를 개선하면 Model-Centric AI, 데이터를 개선하면 Data-Centric AI라고 이해할 수 있음

Model-Centric AI
- 최대한 많은 데이터를 확보한 뒤, 이러한 데이터의 노이즈에 대응할 수 있는 모델을 개발
- 데이터를 고정시킨 상태로 알고리즘/모델을 반복적으로 개선해나감
Data-Centric AI
- 데이터의 통일성(consistency)를 위해 다양한 도구를 이용하여 체계적으로 데이터의 품질을 향상
- 코드를 고정시킨 상태로 데이터를 반복적으로 개선해나감

AI 서비스 개발 과정

실제 서비스 개발 과정에서는 Data-Centric AI, Model-Centric AI 중 무엇이 더 중요할까

AI 서비스 개발 과정 - 서비스 출시 전

AI 서비스 개발 과정 - 서비스 출시 후

1.3 MLOps

MLOps (Machine Learning Operations) = ML + DevOps

머신러닝 모델을 안정적이고 효율적으로 배포하고 유지 관리하는 것을 목표로 하는 패러다임 + 데이터셋 구축을 위한 인프라를 만들어 데이터를 체계적이고 효율적으로 관리할 수 있는 시스템이기도 함

02 Data-Centric AI가 산업에 미친 영향

2.1 Pretraining & Fine-Tuning

트랜스포머 기반 언어 모델

트랜스포머의 인코더/디코더 구조를 이용한 언어 모델이 기존의 LSTM 계열을 압도하는 성능을 보이면서, 웬만한 언어 모델은 모두 트랜스포머 계열로 대체되고 NLP 분야의 연구가 활발히 이루어짐

거대 언어 모델 (Large Language Model, LLM)

여러 연구를 통해 트랜스포머 계열은 모델 파라미터가 많을수록 더 일반화된 좋은 성능을 가짐을 실증적으로 보임
- 그러나 이를 위해서 많은 데이터와 연산 자원이 필요하며, 일부 초거대 IT기업만이 이를 가능케 함

돌파구 찾기 ... 파인튜닝 (Fine-Tuning)

일반적인 기업, 개인, 연구자들은 이렇게 사전학습된 LLM을 자신의 태스크에 맞게 리폼하는 파인튜닝을 통해 언어 모델을 이용함

파인튜닝용 데이터의 확보

(사전학습 대비) *소량의 고품질 데이터만 확보하면 *원하는 목적에 맞게 LLM을 파인튜닝할 수 있음

파인튜닝의 현주소 ... LoRA (Low-Rank Adaptation)

기존의 파인튜닝 기법
- 사전 학습 모델의 파라미터를 일부/전부 재학습하거나 추가적인 레이어를 붙인 뒤 이를 학습
LoRA (Low-Rank Adaptation)
- 사전 학습 모델을 완전히 고정(freeze)한 채로 낮은 랭크의 쿼리-값 어텐션 행렬을 추가하여 해당 어텐션 행렬만 학습
- 모델의 크기 및 필요한 데이터 양을 줄일 수 있음

2.2 Prompt Engineering

Prompt Engineering 관련 용어

프롬프트(Prompt) : 인공지능이 수행해야 할 작업을 설명하는 자연어 텍스트
- 모델과 최종 사용자 모두가 이해하기 쉽도록 간결하고 명확해야 함
- 지나치게 복잡한 언어를 사용하거나 불필요한 정보를 제공하면 부정확한 결과가 나올 수 있음
프롬프트 엔지니어링(Prompt Engineering) : 생성 모델이 이해할 수 있는 형태로 프롬프트(텍스트)를 구조화하는 과정
- text-to-text 및 text-to-image 모델에 주로 사용됨
In-Context Learning : 모델이 이전에 배운 정보나 컨텍스트를 활용하여 미래의 작업을 수행하거나 이해하는 것
- 예) 이전 대화에서 나온 정보나 질문에 대한 답변을 기억하여 활용하는 것

GPT-3를 통해 알게 된 사실 1) 입력값에 지시문을 포함시키면 그에 맞는 결과를 준다

해결하고자 하는 태스크를 텍스트 형태로 입력값에 넣어주면 태스크의 정답에 해당하는 결과를 리턴함

ex) 1+1= 2인데 16854+ 4864=?

GPT-3를 통해 알게 된 사실 2) 지시가 구체적일수록 의도에 가까운 결과를 준다

모델에게 입력값을 구체적으로 지시할수록 더 정확한/의도에 맞는 결과물을 얻을 수 있음 ⇒ 프롬프트 엔지니어링

03 Data-Centric AI 관련 연구

3.1 Data-Centric AI 연구 사례

이상 탐지 및 제거 (Anomaly Detection & Removal)

일반적이지 않은(abnormal), 혹은 분포로부터 멀리 떨어진(outlier) 데이터 샘플을 탐지하여 제거하는 방법

에러 탐지 및 수정 (Error Detection & Correction)

데이터 증강 (Data Augmentation)

기존 데이터를 변형하거나 확장하여 데이터 양을 늘리고, 이를 통해 모델의 성능을 향상시키는 방법 (rotate, crop, flip)

피쳐 엔지니어링 (Feature Engineering)

데이터가 가지고 있는 기존의 피쳐(feature)를 통해 유의미한 새로운 값을 만들어내는 방법

컨센서스 라벨링 (Consensus Labeling)

다수의 어노테이터 혹은 라벨러로부터 얻은 라벨들 중 합의된 라벨을 생성하는 작업 및 방법론

액티브 러닝 (Active Learning)

모델 학습 과정 중에 가장 질적으로 중요한 데이터 샘플을 점진적으로 선택, 또는 라벨을 요청하여 학습하는 방법

커리큘럼 러닝 (Curriculum Learning)

모델이 쉬운 데이터부터 차근차근 학습할 수 있도록 데이터의 학습 순서를 조정하는 방식

[LM to LLM] 의미기반 언어 지식 표현 체계 이론

Wed, 27 Mar 2024 08:14:26 GMT

의미 기반의 언어 지식 표현 체계

분포 가설

“단어가 나타나는 주변 맥락이 유사하면, 그 단어들의 뜻도 서로 비슷하다”는 것을 의미
즉, 비슷한 의미를 가진 단어는 주변 단어 분포도 비슷함을 의미
“단어의 의미는 그 단어가 사용되는 맥락에 의해 결정된다”라는 아이디어를 기반으로 단어의 의미를 이해하는 방법론
ex) Tesgüino와 wine이 등장하는 주변 문맥이 비슷하므로, 두 단어는 유사함

One-Hot Vector

단어의 해당하는 인덱스에 1을, 나머지에 0을 할당하여 이루어진 범주형 벡터 (Discrete vector)
단어의 수가 많을 때 벡터의 차원이 매우 커져 계산 효율이 낮으며, 단어 벡터가 다른 단어간의 유사도를 반영하지 않음
즉, 분포 가설에 기반한 단어의 의미론적 정보를 반영하지 못하는 초기의 방법

단어 임베딩 (Word Embeddings)

단어를 고정된 길이의 밀집 벡터(Dense Vector)로 표현하는 기법
단어 벡터가 단어의 의미적, 문법적 특성을 포착할 수 있는 수치적 특성을 가지고 있어, 비슷한 의미를 가진 단어들이 벡터 공간에서 서로 가까이 위치함
"king"과 "queen"의 벡터는 서로 가깝고, "king" - "man" + "woman" 과 같은 벡터 연산이 "queen"에 가까운 결과를 낼 수 있음

입력된 문장을 임베딩으로 변환하기 위해, 각 단어를 Vocabulary에서 조회하여 해당하는 밀집 벡터(Dense Vector)를 사용
Vocabulary: 단어들의 집합으로, 각 단어는 고유한 인덱스에 매핑되며, 이 인덱스를 사용하여 임베딩 매트릭스에서 해당 단어의 밀집 벡터를 조회하는 룩업 테이블

Word2Vec

문맥 예측 (Prediction-based) 기반의 단어 벡터 학습 및 표현 방법공존 행렬 (Co-occurrence Matrix) 기반의 단어 벡터 학습 및 표현 방법
Word2Vec은 매개변수가 단어 벡터인 모델로, 특정 목표에 대해 반복적으로 최적화
분포 가설을 바탕으로, 벡터가 문맥에 대해 알면 단어 의미도 알게 됨을 기반으로 함
Word2Vec는 학습 방법에 따라 CBoW와 Skip-Gram로 구분

CBow (Continuous Bag of Words)

주변 단어들의 맥락을 통해 중심 단어를 예측하는 방식의 Word2Vec 신경망
주변 단어들의 문맥 벡터를 합치거나 평균내어 중심 단어를 예측하는 확률을 최대화하는 방향으로 학습

Skip-gram

중심 단어로부터 주변 단어들을 예측하는 방식의 Word2Vec 신경망
중심 단어의 분산 표현을 사용하여 그 주변에 등장할 가능성이 있는 단어들의 확률을 최대화 하는 방향으로 학습단어 벡터 학습

Word2Vec의 문제점

• Out of Vocabulary(OOV) 문제: 학습 중 만나지 않은 새로운 단어나 합성어에 대해 임베딩을 생성할 수 없음 • 형태학적 유연성 부족: 동일한 어근을 공유하는 단어들 간의 매개변수 공유가 없어, 단어의 내부 구조를 활용하지 못함

Glove

공존 행렬 (Co-occurrence Matrix) 기반의 단어 벡터 학습 및 표현 방법
벡터 간의 dot-product가 단어 쌍의 공존 확률의 로그 값과 같아지도록 학습하여, 단어 간 유사성과 차이를 벡터 공간에 인코딩함
Word2Vec과 달리 지역적인 문맥 정보만을 사용하는 것이 아니라, 코퍼스 전체의 통계 정보를 바탕으로 단어 벡터를 학습함

FastText

FastText의 개선 방법

Subword 단어 분해: 중심 단어의 임베딩은 n-그램 벡터의 합으로 계산되며, 문맥 단어의 벡터는 n-그램을 추가하지 않고 사용함 (Word2Vec의 Skip-gram 개선)
Negative Sampling: 실제 문맥 단어 주변에 negative sample을 무작위로 선택하여 임베딩을 최적화

문맥 예측 (Prediction-based) 기반으로 서브워드 정보를 포함하는 단어 벡터 학습 및 표현 방법
단어를 n-그램 서브워드로 분해하여 내부 구조를 반영, 벡터를 통해 단어의 형태학적 특성을 학습함
Word2Vec을 확장하여 희귀 단어나 오타에 대한 내성을 강화하고, 보다 풍부한 단어 표현을 제공

FastText 과정

1) FastText의 Subword 단어 분해

기존 단어 기반의 임베딩을 3-6 grams 으로 분해하여, OOV 및 형태학적 유연성 확보

Hashing 기법을 활용하여, 분해된 n-gram의 메모리 사항을 제한

2) FastText의 Negative Sampling

중심 단어에 대한 임베딩은 문자 n-gram과 전체 단어 자체에 대한 벡터의 합을 취하여 계산

문맥에 등장하는 단어들은 n-gram으로 분리하지 않고, 단어 벡터를 가져옴

유니그램 빈도의 제곱근에 대한 확률 비율로 Negative Sample을 무작위 수집 (문맥단어 1개당 5개의 Negative Sample 수집)

중심 단어와 문맥 단어 사이의 내적 후 시그모이드를 취하여 0과 1사이의 점수를 얻고, SGD를 통해 실제 문맥 단어를 중심 단어에 더 가깝게, Negative samples을 더 멀게 최적화

Word2Vec VS FastText

Doc2Vec

문맥 예측 (Prediction-based) 기반으로 문서 전체의 벡터를 의미공간에 학습 및 표현하는 방법. 즉, 단어 벡터 혹은 서브워드 벡터가 아닌 문서 벡터 단위의 모델
단어뿐만 아니라 문장, 문단, 전체 문서를 고유한 벡터로 변환하며, 문서의 순서와 구조를 포함한 정보를 학습함
Word2Vec의 확장으로, 문서의 의미를 벡터화하여 문서 간 유사성 측정 및 문서 분류 작업에 활용함

CoVe

시퀀스 모델링 (Sequence Modeling) 기반의 단어 벡터 학습 및 표현 방법
사전 훈련된 기계 번역 모델에서 단어의 문맥적 임베딩을 추출하여, 단어가 사용된 문맥을 더 잘 반영함
단어의 고정된 임베딩 대신, 문맥에 따라 변화하는 동적인 단어 벡터를 제공하여 보다 정교한 자연어 이해를 가능하게 함
단어가 각기 다른 문맥에서 등장할 때 그에 따라 달라지는 의미를 포착하여, 문맥에 민감한 단어 벡터를 생성

CoVe의 학습과정

• a) 기계번역 모델 학습: Bi-directional LSTM 구조에 Machine Translation 학습 • b) 다른 NLP Task에 적용: 기계 번역 모델의 인코더 context vector와 GloVe 모델을 활용하여 문맥적 정보를 함축한 벡터를 추출하고, 다른 NLP task에 적용

[LM to LLM] 카운트 기반 언어모델

Wed, 27 Mar 2024 04:32:51 GMT

카운트 기반의 단어 표현

단어의 표현 방법

국소 표현 vs 분산 표현

국소 표현(Local Representation): 해당 단어 그 자체만 보고, 특정 값을 맵핑하여 단어를 표현하는 방법 예) 고양이: 1, 귀여운: 2, 동물: 3
분산 표현(Dense Representation): 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법 예) ‘고양이’ 단어 주변에 ‘귀여운’과 ‘동물’이 자주 등장 => 고양이는 귀엽다, 동물이다로 인식

Bag of Words(BoW)

단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
어휘의 빈도(개수)를 기반으로 통계적 언어 모델을 적용해서 나타낸 것 => 국소 표현에 해당

Bag of Words의 구성 방법

1 문서 내 단어별로 고유의 정수 인덱스를 할당하여 단어 집합(Vocabulary) 생성
2 단어별 인덱스에 단어의 출현 빈도를 저장한 BoW 벡터 생성

Bag of Words의 특징

임베딩 벡터의 차원 = 단어의 개수 = 모델의 크기
- 등장하는 단어가 많아질수록 증가
- N-gram의 n이 커질수록 증가
- 단어의 분절이 정확하게 되었을 때 유용
단어의 여러 의미를 반영하지 못함 => 동음이의어, 다의어에 대한 의미 표현 불가

02 TF-IDF

TF-IDF 개요

Term Frequency (TF): 단어의 등장빈도
Inverse Document Frequency (IDF): 단어가 제공하는 정보의 양
ex) He is the president of UK. → He, is, the, of: 자주 등장하지만 제공하는 정보량이 적음 → president, UK: 좀 더 많은 정보를 제공

단어마다 제공하는 정보량이 서로 다르다는 것을 통계적으로 계산함

Inverted Index

특정 용어가 어느 문서들에서 발생하는지 빠르게 찾을 수 있도록 구성된 데이터 구조, 용어와 해당 용어가 포함된 문서의 위치를 매핑

불용어 (stopword) • 모든 문서에 자주 사용되어 색인어로 문서를 구분해주는 가치가 없는 어휘 • 예) “in”, “the”, “and”
Map 형식의 자료구조에 inverted index를 저장 • Key: term / word • Value: 문서빈도 수, term 빈도수, 위치

TF & IDF

Comparison Function (연관성)

질의(query)와 문서(document) 사이의 관련성의 정도를 계산 • Query와 inverted index의 term을 비교하여 문서를 검색하고 순위화 • 실시간으로 계산
*Term 빈도수 (Term frequency) 가정: 사용자가 입력한 query와 매칭하는 term의 빈도수가 높을수록 query와 해당 document 연관성이 높음 * • 예) query: fish => “fish”를 포함한 문서 및 term 빈도수 • If Doc1의 “fish” 빈도수: 1, Doc2의 “fish” 빈도수: 2 => 연관성(“fish”, Doc2) > 연관성(“fish”, Doc1)

문서 빈도수 (Document Frequency)

가정: 사용자가 입력한 query가 특정 document에만 나타나는 경우, query와 해당 document 사이의 연관성이 높음 • Query가 나타나는 document 의 수가 적을수록 관련성이 높음
예) query: egg, red • “egg”를 포함한 문서 빈도수: 1 => doc 4 • “red”를 포함한 문서 빈도수: 2 => Doc1, Doc2 => 연관성(“egg”, Doc4) > 연관성(“red”, Doc1) = 연관성(“red”, Doc2)

문서-단어 행렬(Document-Term Matrix)

• 문서에서 등장하는 각 단어들의 빈도나 특성을 반영한 행렬

Term Frequency (TF)

특정 문서 d에서 단어 t가 등장한 횟수
기존의 DTM과 완전히 똑같은 개념이기 때문에 DTM 자체가 이미 TF 값

Inverse Document Frequency (IDF)

• Document Frequency (DF): DF는 특정 단어 t가 등장한 문서의 수 => Inverse Document Frequency (IDF): DF의 역수 == 단어가 제공하는 정보의 양 • 단어가 모든 문서에서 너무 많이 등장 => 정보의 양이 적음. 흔한 단어

Combine TF & IDF

*‘a’, ‘the’, ‘of’ 등 관사 및 전치사 ⇒ TF는 높으나, IDF가 0에 근사 * => 거의 모든 document에 등장하면 N ≈ DF(t) ⇒ log(N/DF) ≈ 0 => 낮은 TF-IDF score
자주 등장하지 않는 고유 명사 (ex. 사람 이름, 지명 등) => 높은 TF-IDF score

BM25

• TF-IDF 를 기반으로, 문서의 길이까지도 고려하여 점수를 매김 • TF 값에 한계를 지정해두어 일정한 범위를 유지하도록 함 • 평균적인 문서의 길이보다 더 작은 문서에서 단어가 매칭된 경우 그 문서에 대해 가중치를 부여 • 현재까지도 검색엔진, 추천 시스템 등에서 빈번하게 사용되는 유사도 알고리즘

왜 BM25가 더 좋을까?

TF의 영향이 감소 TF에서는 단어 빈도가 높아질수록 검색 점수도 지속적으로 높아지는 반면, BM25에서는 특정 값으로 수렴
IDF의 영향이 커짐 BM25에서는 DF가 높아지면 검색 점수가 0으로 급격히 수렴. 불용어가 검색 점수에 영향을 덜 미침
문서 길이의 영향이 줄어듬 BM25에서는 문서의 평균 길이를 계산에 사용해 정규화. 문서의 길이가 검색 점수에 영향을 덜 미침

[LM to LLM] 언어모델이란 무엇인가?

Fri, 22 Mar 2024 10:17:43 GMT

언어모델이란?

자연언어란?

인간의 언어
정보전달의 수단이자 인간 고유의 능력으로 인공언어에 대응되는 개념

언어모델의 정의

언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델
단어 시퀀스에 확률을 할당(assign) => 언어모델은 가장 자연스러운 단어 시퀀스를 찾거나 문맥 정보를 이해하는 모델

언어모델의 종류 및 특징

전통적인 언어모델

통계기반 언어모델

통계적 언어 모델은 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 => 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는 것
주어진 단어를 바탕으로 다음 단어로 올 확률이 가장 높은 단어를 예측하는 일련의 과정을 의미 => 언어 현상에 조건부 확률 적용

딥러닝 기반 언어모델

퍼셉트론을 기반으로한 인공 신경망 설계를 통해 단어의 의미적 유사성을 학습할 수 있도록 설계 => ‘문맥’을 반영. 기존의 희소성 문제를 완화
학습 코퍼스에 없어도, 문맥을 참고하여 보다 정확한 예측
피드 포워드 신경망 -> 순환 신경망 -> Transformer

영향력

Transformer의 등장 이후로 NLP연구의 메인 트렌드

Encoder만 사용하는 BERT family
Decoder만 사용하는 GPT family
Encoder-Decoder(Seq2Seq)구조를 가지는 BART family, Transformer-XL family 등

Encoder vs Decoder

Encoder: 각 stage에 어텐션 레이어가 초기 문장의 모든 단어에 접근 가능 => Encoder 모델은 전체 문장의 이해를 요구하는 task에 가장 적합

Decoder: 각 stage에서 문장 내에서 주어진 단어의 앞쪽만 접근가능 => Decoder 모델은 텍스트 생성과 관련 task에 가장 적합

Encoder의 대표 모델

BERT (Bidirectional Encoder Representations from Transformers)

Contextual Embedding
Masked Language Modeling(MLM): 마스킹된 토큰을 예측
Next Sentence Prediction(NSP): 문장이 다른 문장과 이어질 확률을 예측

*RoBERTa *(Robustly optimized BERT approach)

더 긴 시퀀스, 많은 훈련 데이터로 더 큰 배치에서 오래 학습
NSP 없이 Dynamic Masking 적용 => 성능이 크게 향상

Decoder의 대표 모델

*GPT *(Generative Pre-trained Transformer)

Auto-Regressive
주어진 Input을 기반으로 다음에 올 토큰을 예측
*=> 시퀀스의 한쪽만 참고
*
추가적인 fine tuning 없이도 자체적으로 충분히 좋은 성능
*=> Few-shot / Zero-shot의 등장
*

Sequence-to-Sequence의 대표 모델

BART (Bidirectional Auto-Regressive Transformer)

Encoder와 Decoder를 모두 사용한 사전학습 모델
Encoder에서 input을 입력 받아 표현형 벡터로 변환
*=> Decoder에서 해당 벡터를 기반으로 다음 토큰을 생성
*
5가지 Denoising technique을 사용해 self-supervised learning으로 사전 학습

T5 (Text-to-Text Transfer Transformer)

Text-to-text problem: input으로 text를 받아서, output으로 새로운 text를 생성하는 문제
다양한 text processing problem ⇒ Text-to-text 문제로 변형

[NLP] RNN 및 LSTM, GRU 적용 자연어 처리

Mon, 04 Mar 2024 07:03:17 GMT

Sequence-to-sequence 이해하기

입력된 시퀀스(문장)을 다른 시퀀스로 변환하는 모델로, 인코더 RNN과 디코더 RNN로 구성

인코더 (Encoder)

: 입력 시퀀스를 받아들여 고정된 길이의 벡터로 변환함. 이 벡터는 입력 시퀀스의 정보를 압축적으로 담고 있음. 이 벡터를 문맥 벡터(context vector)라고 부름

디코더(Decoder)

: 문맥 벡터를 받아들여 출력 시퀀스를 생성 디코더는 문맥 벡터와 이전에 생성한 출력을 기반으로 다음 출력을 생성함

RNN 이해하기

*손실 함수 (Loss function) *

*시간 순서 역전파 (Backpropagation through time) *

One-to-one: ex) 고양이, 강아지 분류

One-to-many:한 개의 입력으로 시퀀스 여러개 출력

many-to-one: ex) 감정분석

many-to-many: ex) 기계번역, 형태소 분석

RNN의 장단점

장점

모든 길이의 시퀀스를 입력으로 처리 가능
시간에 따라 가중치를 공유하여, 입력 시퀀스가 길어져도 모델 크기가 증가하지 않음 • 과거 정보를 고려하여 다음 시간의 출력을 계산함

단점

매번 시간에 따라 출력을 계산하므로, 병렬 처리가 불가능하여 계산 속도가 느림
입력 혹은 출력 시퀀스가 길어지면 오래전 정보를 반영하기 어려움 (Long-term dependency)
현재 상태에 대한 미래 입력을 고려할 수 없음

LSTM & GRU 이해하기

*Gradient vanishing / exploding *

기존 RNN의 역전파 과정에서 그래디언트가 너무 작아져서(gradient vanishing) 가중치 업데이트가 잘 안 되거나, 그래디언트가 너무 커져서(gradient exploding) 가중치 값이 엄청나게 커지는 문제가 발생

이로 인해 모델이 불안정해지고, 시퀀스 데이터의 장기 의존성을 제대로 학습하지 못하게 됨

LSTM

RNN에서 발생하는 Long-term dependency problem 완화 방법으로 LSTM은** cell state와 gate라는 메커니즘을 도입**

필요한 정보만을 선택적으로 업데이트하거나 삭제하는 방법을 도입 (정보를 잘 기억하고 활용)

sigmoid 활성화 함수

출력 값의 범위를 [0, 1]로 제한하여, 게이트에서 어떤 정보를 통과시킬지 결정하는 데 사용됨

현재 시간 단계에서의 cell state 후보

현재 입력과 이전 hidden state에 기반하여 계산됨

현재 시간 단계에서의 cell state

forget gate가 결정한 대로 이전 cell state의 일부를 잊고, input gate가 결정한 대로 새로운 정보를 추가하여 업데이트됨

forget gate, input gate, output gate

이전 cell state의 어느 부분을 잊을지, 새로운 정보를 얼마나 추가할지, 어느 부분을 hidden state로 출력할지 결정

Forget gate

• forget gate layer로, 이전 cell state의 어느 정보를 버릴지 결정 Wf와 bf 는 학습 가능한 가중치와 편향

• 시그모이드 함수 sigmoid는 출력을 0과 1 사이로 제한하여 어떤 요소를 완전히 잊어버릴지(0) 또는 완전히 기억할지(1) 결정

Input gate

input gate layer로, 어떤 새로운 정보를 cell state에 저장할지 결정
새로운 후보 cell state를 생성. 이후에 후보 cell state 정보 중 일부가 cell state에 저장

Cell state

cell state 업데이트로, 먼저 forget gate를 통해 결정된 정보를 잊어버린 다음, input gate에서 결정된 정보를 추가

Output gate

• output gate로, 다음 hidden state가 무엇을 출력해야 하는지 결정

• output gate 값과 현재 시간단계의 cell state 값을 통해 현재 hidden state를 계산

GRU

update gate로, 현재 hidden state를 얼마나 업데이트할지 결정
reset gate로, 이전 hidden state를 얼마나 '잊어버릴지' 결정
새로운 후보 hidden state를 계산
후보 hidden state를 통해, 현재 hidden state를 업데이트

RNN vs LSTM / GRU

[NLP] 딥러닝 기반 자연언어처리 개괄

Sat, 02 Mar 2024 08:59:35 GMT

ML VS DL

규칙 기반과 딥러닝 기반 기계학습

규칙 기반 모델 • 적은 양의 데이터로 일반화 가능 • 결론 도출의 논리적 추론 가능 • 학습에 필요한 데이터가 비교적 적게 필요 • 이를 제작한 전문가의 실력을 넘어서기 매우 어려움 • 해당 전문가의 오류를 동일하게 반복 • 규칙 구축에 많은 시간과 비용 소요 • Toy task에 주로 적용되었음

딥러닝 기반 모델 • 학습에 사용할 데이터의 질이 좋고 양이 많으면 인간의 실력을 넘어설 수 있음 • 인간이 생각하지 못한 새로운 방법을 사용할 수 있음 • 기본적으로, 많은 데이터가 필요함 • 논리적 추론이 아닌 귀납적 근사에 의한 결론 생성 • 결과에 대한 해석의 어려움 • 규칙 구축에 많은 시간과 비용 소요

딥러닝과 NLP

딥러닝 학습 방법

신경망 레이어의 출력 값은 레이어를 구성하는 가중치(파라미터)들의 값에 의해 결정
m개의 입력을 받아 n개의 값을 출력하는 완전연결층은 m×n개의 입력 가중치 값과 n개의 편향 가중치(bias) 값이 있음
딥러닝 모델들에는 입력 데이터와 출력 데이터를 처리하기 위해 보통 수천개 이상의 파라미터가 사용되고, 레이어의 수도 수십에서 수백에 이름
이 외에도 모델의 여러 특성들을 결정하는데 가중치 값들이 사용됨 딥러닝 모델은 수천만에서 수억, 수십억 개 이상의 가중치들로 이루어져 있음

원하는 출력을 만들어내기 위해서는 모든 파라미터의 값을 정밀하게 조정해야 함
딥러닝은 파라미터에 따라 매우 다양한 입력-출력을 학습 가능함
- 예를 들어, 이미지를 입력받아 카테고리를 출력하는 이미지 분류 또는 카테고리를 입력받아 이미지를 출력하는 이미지 합성 등이 가능함
딥러닝에서의 학습은 수많은 파라미터들의 최적 값을 찾아가는 과정을 의미함

정방향 계산(forward pass)은 입력으로부터 예측을 만들어내는 과정을 의미함
- 이 과정에서는 입력 데이터가 모델을 통과하며 각 계층의 가중치와 연산을 통해 출력(예측)이 생성됨
역방향 계산(backward pass)은 예측과 정답 사이의 차이를 줄이는 방향으로 파라미터를 수정하는 과정을 의미함
- 손실 함수를 통해 계산된 오차가 네트워크를 역방향으로 통과하며, 각 계층의 가중치는 오차를 최소화하는 방향으로 업데이트됨

• 손실 함수(loss function)는 모델의 예측과 정답 사이의 차이를 수치화시켜주는 함수 • 이를 통해 모델의 성능을 측정하고, 이를 기반으로 모델을 개선할 수 있음 • 손실 함수의 값을 각각의 파라미터들에 대해 편미분하면 그래디언트(gradient)를 계산할 수 있음 • 그래디언트는 손실 함수의 기울기를 나타내며, 이를 통해 파라미터를 어떻게 수정해야 손실을 줄일 수 있는지 알 수 있음 • 그래디언트에 따라 파라미터들을 수정하면, 현재 입력에 대한 모델의 예측이 정답에 가까워짐 • 이는 그래디언트가 손실을 줄이는 방향을 가리키기 때문임 • 이러한 과정을 모든 데이터에 대해 반복적으로 적용 • 이를 통해 모델의 모든 파라미터를 최적화하고, 전체적인 성능을 향상시킬 수 있음

• 딥러닝 모델에서 손실 함수에 대한 입력층의 그래디언트는 편미분의 특성상 한 번에 계산할 수 없음 • 각 계층의 출력이 다음 계층의 입력으로 사용되기 때문임 • 손실 함수에 대한 출력층의 그래디언트를 계산하고, 이로부터 다시 이전층의 그래디언트를 계산하는 방식으로 연쇄 법칙 (chain rule)을 이용 • 출력에서 입력으로 계산이 역방향으로 진행되기 때문에 역전파(back-propagation)라고 함 • 모델의 파라미터를 손실을 줄이는 방향으로 업데이트하는 데 사용됨 • 딥러닝 모델의 학습에는 미분값이 큰 영향을 미치며, 손실 함수로부터 편미분값을 계산할 수 있는 가중치들만 역전파 알고리즘을 이용하여 값을 학습할 수 있음

[NLP] 텍스트 전처리

Fri, 01 Mar 2024 13:43:17 GMT

Text Preprocessing

*컴퓨터가 텍스트를 이해할 수 있도록 하는 Data Preprocessing 방법 *

• HTML 태그, 특수문자, 이모티콘 • 정규표현식 • 불용어 (Stopword) • 어간추출(Stemming) • 표제어추출(Lemmatizing)

Preprocessing Pipeline

Tokenization

• 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업 • 토큰이 되는 기준은 다를 수 있음(어절, 단어, 형태소, 음절, 자소 등) • Character-based Tokenization / Word-based Tokenization / Subword-based Tokenization

*문장 토큰화(Sentence Tokenizing) *• 문장 분리

*단어 토큰화(Word Tokenizing) *• 구두점 분리, 단어 분리 “Hello, World!” -> “Hello”, “,”, “World”, “!”

Why Tokenize?

단어 의미를 밀집 벡터로 표현하기 위해 단어들을 사전화

토큰화 시 고려사항

구두점이나 특수 문자를 단순 제외 ex. 21/02/06 -> 날짜 , $100,000 -> 돈을 나타낼 때
줄임말과 단어 내 띄어쓰기 ex. we're -> we are 의 줄임말 rock n roll -> 하나의 단어지만 띄어쓰기가 존재
문장 토큰화: 단순 마침표를 기준으로 자를 수 없음 ex. 서버에 들어가서 로그 파일 저장하고 메일로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

한국어 토큰화의 어려움

영어는 New York과 같은 합성어나 he's 와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동

영어와는 달리 한국어에는 조사라는 것이 존재 ex. '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 붙음. ⇒ 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식
한국어는 띄어쓰기가 영어보다 잘 지켜지지 않음 ex. 띄어쓰기를안해도사람들은 이해/

형태소 단위의 토큰화가 필요

텍스트 정제 (Cleaning)

코퍼스 내에서 토큰화 작업에 방해가 되거나 의미가 없는 부분의 텍스트, 노이즈를 제거하는 작업

토큰화 전에 정제를 하기도 하지만, 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 수행
노이즈는 특수 문자 같은 아무 의미도 갖지 않는 글자들을 의미하기도 하지만, 분석하고자 하는 목적에 맞지 않는 불필요한 단어들을 말함
대부분 정규표현식이나, 파이썬 내장함수를 통해 조작
주로 불용어, 특수문자 제거 / 대.소문자 통합 / 중복 문구 제거 / 다중 공백 통일 등으로 구성

불용어 (Stop Words)

분석에 큰 의미가 없는 단어로 코퍼스 내에 빈번하게 등장하나, 실질적으로 의미를 갖고 있지 않은 용어 • 전처리 시 불용어로 취급할 대상을 정의하는 작업이 필요
NLTK에서는 여러 불용어를 사전에 정의

정규화 (Normalization)

Stemming (어간 추출)

어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 것
대표적으로 포터 스태머 알고리즘이 존재함

Lemmatization (표제어 추출)

품사 정보가 보존된 형태의 기본형으로 변환
표제어 추출에 가장 섬세한 방법은 => 형태학적 파싱
형태소란?: 의미를 가진 가장 작은 단위
어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
접사(affix) : 단어에 추가적인 의미를 주는 부분

편집거리 (Edit distance)

Levenshtein distance

한 string s1 을 s2 로 변환하는 최소 횟수를 두 string 간의 거리. 거리가 낮을수록 유사한 문자열로 판단함
s1 = ‘꿈을꾸는아이’ 에서 s2 = ‘아이오아이’ 로 바뀌기 위해서는 (꿈을꾸 -> 아이오) 로 바뀌고, 네번째 글자 ‘는’ 이 제거
string 을 변화하기 위한 edit 방법을 세 가지로 분류

정규표현식(Regex)

특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
복잡한 문자열의 검색과 치환을 위해 사용되며, Python 뿐만 아니라 문자열을 처리하는 모든 곳에서 사용됨
원하는 규칙에 해당하는 문자만 남기거나 제거, 규칙에 맞는 문자열 반환 등 - 단 시간내에 텍스트가 갖는 모든 패턴의 형태를 처리
파이썬에서는 re 라이브러리를 이용해 사용이 가능함

[Generation] AutoEncoder

Mon, 26 Feb 2024 06:49:04 GMT

AutoEncoder

입력 데이터의 패턴을 학습하여 데이터를 재건하는 모델
- 비선형 차원 축소 기법으로 활용 가능

오토인코더는 입력 데이터의 효율적인 표현을 학습하는 비지도 학습 모델
일반적으로 인코더(encoder)와 디코더(decoder) 두 부분으로 구성
인코더는 입력 데이터를 저차원의 잠재 공간(latent space)으로 압축하여 표현
디코더는 잠재 공간의 표현을 다시 원본 데이터로 복원합니다.
학습 과정에서는 입력 데이터와 디코더의 출력 간의 재구성 오차를 최소화하도록 모델을 학습시킵니다.
주로 데이터 압축, 잠재 공간의 특징 추출, 차원 축소 등의 용도로 사용

구조

인코더(Encoder): 데이터를 저차원 잠재 표현으로 요약

디코더(Decoder): 저차원 잠재 표현으로부터 데이터를 재구성(Reconstruction)

학습

손실 함수: 잠재 표현으로부터 복구한 데이터와 입력 데이터의 평균제곱오차(MSE)

Denoising AutoEncoder

입력 데이터에 랜덤 노이즈를 주입하거나 Dropout 레이어를 적용
노이즈가 없는 원래 데이터로 재구성

디노이징 오토인코더는 노이즈가 있는 입력 데이터에서 원본 데이터를 복원
일반적으로 입력 데이터에 노이즈를 추가한 후, 오리지널(clean) 데이터를 복원하도록 모델을 학습
학습 과정에서는 노이즈가 추가된 입력 데이터와 오리지널 데이터 간의 차이를 최소화하도록 모델을 학습
이렇게 함으로써, 모델은 입력 데이터의 노이즈를 제거하고 오리지널 데이터를 복원하는 능력을 학습
주로 데이터의 노이즈 제거, 잡음이 있는 데이터의 표현 학습 등에 사용

오토 인코더의 활용

특징 추출기로의 활용

학습한 오토 인코더의 인코더 부분을 특징 추출기로 활용
잠재 벡터로부터 분류, 클러스터링 문제 해결

이상치 탐지 (Anomaly Detection)

이상치는 재구성 했을 때 평균제곱오차가 크게 나올 것!
특정 임계값을 넘으면 이상치로 판단

[Generation] 생성모델과 MLE

Mon, 26 Feb 2024 06:08:11 GMT

가능도와 로그가능도

모델 파라미터 𝜃에 의존하는 분포 p(x; 𝜃) 를 따르는 n개의 데이터 x1, x2, ..., xₙ 관찰
데이터로부터 모델 파라미터 𝜃를 어떻게 추정할 수 있을까? → **가능도를 최대화하는 파라미터를 찾자!
*

MLE

가능도를 최대화하는 파라미터 𝜃를 찾는 방법
일반적으로 가능도 함수의 미분을 통해 계산
동전 던지기 예제:
- 관측치: 앞면 7번, 뒷면 3번
- 파라미터 𝜃: 동전을 던질 때 앞면이 나올 확률
- 확률질량함수: p(앞면; 𝜃) = 𝜃, p(뒷면; 𝜃) = 1-𝜃
- 가능도 최대화 = 어떤 𝜃에 대해 앞면 7번, 뒷면 3번이 나올 확률이 가장 클까?

생성 모델의 학습

데이터의 분포 Pdata 를 어떻게 모델링할까? = 모델 P𝜃 를 어떻게 학습할까?
- 데이터의 분포 Pdata와 모델 P𝜃 를 가깝게 하자!

생성 모델의 학습 - 쿨백-라이블러 발산 최소화
- 두 분포 Pdata 와 P𝜃 사이의 거리 → 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL-Divergence)

생성 모델과 최대 가능도 추정법

생성 모델의 학습은 최대 가능도를 최적화하며 진행할 수 있음
쿨백-라이블러 발산 (KL Divergence)은 최대 가능도 최적화에 활용 가능한 기준이 됨
그러나 데이터의 정확한 분포를 알 수 없어 이 같은 작업은 바로 적용하기 어려움

[Generation] 판별모델과 생성모델

Mon, 26 Feb 2024 05:58:39 GMT

판별 모델

판별 모델이란?

데이터 X가 주어졌을 때, 특성 Y가 나타날 조건부 확률 p(Y|X)를 직접적으로 반환하는 모델
판별 모델: 주어진 데이터를 통해 데이터 사이의 경계를 예측

판별 모델의 활용

어떤 데이터를 서로 다른 클래스로 분류해주는 문제에 활용될 수 있음
정상 데이터에 대한 경계를 최대한 좁혀 이를 벗어나는 이상치를 감지하는 문제에도 활용 가능

생성모델

생성 모델이란?

데이터 X와 특성 Y의 결합(joint) 분포 p(X, Y) or Y가 주어질 때 X의 조건부(conditional) 분포 p(X|Y)를 추정하는 모델
주어진 Y가 없는 경우, 데이터의 주변(marginal) 분포 p(X)를 추정하는 모델
생성 모델: 주어진 데이터를 통해 데이터 분포를 학습
가우시안 혼합 모델 (Gaussian Mixture Model, GMM)
- p(X) = 여러 개의 정규 분포

판별 VS 생성

판별

이미지 X가 주어졌을 때, 특성 Y가 나타날 조건부 확률

생성

데이터 분포 자체 학습 or 특정 label Y가 주어졌을 때 어떤 분포가 되는지 학습

[CV] 2-Stages Detector

Sat, 24 Feb 2024 06:58:32 GMT

2-Stage Detector

2-Stage Detector란?

Object Detection = Localization + Classification → 두 가지의 task를 분리하여 2 stage로 따로 수행

Stage 1: 이미지 내에서 object가 있다고 판단되는 위치 찾기 (Region proposal)
Stage 2: 각 위치에 있는 object의 종류 판단 (Classification)

2-Stage Detector의 발전 흐름

R-CNN

2-stage detector의 최초 모델
Region proposals + CNN

Sliding Window

고정된 크기의 window를 이미지 내에서 sliding하면서 객체의 위치를 찾아내는 방법

계산 비용이 높고 속도가 매우 느림
고정된 크기의 window

Selective Search

초기에 매우 작은 픽셀 단위의 region을 잡고, 유사성이 높은 region들을 점차적으로 병합해나가는 방법
- 색상, 질감, 경계 등을 기준으로 유사성이 높은 region을 병합
Sliding window의 두 가지 단점 해결(계산 resource, 고정된 크기의 window)

R-CNN Pipeline

Input image에서 selective search를 통해 약 2000개의 RoI(Region of Interest) 생성
각 RoI 영역을 모두 동일한 크기로 warping

이후에 통과할 CNN의 마지막 fc layer의 input size가 고정되어 있기 때문

조정된 RoI를 각각 CNN에 넣어서 feature 추출 (2000x4096)

Region마다 4096-d의 feature vector로 추출
Pretrained AlexNet 사용

4-1. 추출된 feature vector를 SVM에 넣어서 각 RoI(region of interest)의 object에 대한 classification (2000x(C+1))

C+1: class 개수(C) + background(1)

4-2. 추출된 feature vector를 regression을 통해 각 RoI의 bounding box 위치 조정 ● Selective search의 부정확한 bounding box 위치 조정

Fast R-CNN

R-CNN의 단점

약 2000개의 RoI 각각에 대해 CNN 연산 → 연산량이 많고 속도가 매우 느림
모든 RoI를 동일한 사이즈로 맞추기 위해 이미지를 crop/resize하는 과정 필요 → 성능 저하
Stage2의 모델(CNN, SVM, bbox reg) 모두 따로 학습

Fast R-CNN

단일 CNN을 통해 연산량 감소
RoI projection 모듈을 통해 CNN 연산을 줄이고 속도를 개선한 모델
RoI pooling 모듈을 통해 이미지 사이즈 강제 조정하는 과정 제거

RoI Projection의 등장 배경

R-CNN에서는 2000개의 RoI를 뽑고, 이후 CNN에 통과 (2000번의 CNN 연산)
→ CNN을 한번만 통과하여, feature vector를 얻을 수 있을까?
Feature map을 한번만 추출하고, 그 위에서 RoI 위치에 맞는 feature vector를 추출하자!
CNN 연산 2000번 → 1번

RoI Projection이란?

CNN 연산 이후, feature map의 사이즈가 변할 수 있음
사이즈가 변한 feature map에 RoI를 투영하는 과정

RoI Pooling

RoI Pooling의 등장 배경

CNN을 먼저 통과하기 때문에 RoI를 crop/resize하는 과정 없음
Fc layer의 input으로 들어가기 전에 feature vector 크기를 조정해야 함

RoI Pooling

어떤 크기의 feature map이 들어와도 동일한 사이즈로 pooling하고자 하는 방법

RoI를 지정된 size(WxH)에 맞추기 위해 그리드 설정 (66→22 / 46→22)
설정된 각 그리드에서 max 값을 가져와서 최종적으로 같은 size로 통일

Fast R-CNN Pipeline

1-1. Input image에서 selective search를 통해 약 2000개의 roi 생성 1-2. 단일 CNN 연산으로 전체 feature map 생성 2. RoI projection, RoI pooling으로 각 RoI에 맞는 고정된 사이즈의 feature vector 생성 3. 추출된 feature vector에 대해 linear, softmax 연산 수행

이후, 각 RoI의 object에 대한 classification과 Bounding box regression 수행

Faster R-CNN

R-CNN, Fast R-CNN의 단점

픽셀 단위부터 영역을 병합하는 selective search는 GPU와 CPU 연산이 모두 필요하며 매우 느림
GPU에서만 연산하는 network와 분리되어 end-to-end 학습이 불가능

Faster R-CNN

Selective search를 제거하고 Region Proposal Network(RPN) 모듈을 사용하여 연산을 더 가속화한 모델
전체 프레임워크가 한번에 연산되는 end-to-end 모델

Region Proposal Network (RPN) 이란?

GPU에서만 연산하여 RoI를 찾는 network를 만들자!
미리 지정된 크기의 anchor box를 이용하여 roi search

Region Proposal Network (RPN) 동작 과정

CNN을 통해 얻은 feature map을 input으로 받아서 intermediate layer 생성

33256 또는 33512 convolution 사용

Intermediate layer의 feature map을 입력받아 classification

1118 convolution: 2(object 여부) x 9(anchor의 개수)

Intermediate layer의 feature map을 입력받아 bounding box regression

1136 convolution: 4(bbox의 좌표) * 9(anchor 개수)

Non-maximum Suppression (NMS)

RPN으로 생성된 RoI 중에서 유사한 bounding box들을 제거하기 위해 사용

Faster R-CNN Pipeline

CNN을 통해 전체 feature map 추출
생성된 feature map을 RPN, NMS 연산 후 RoI 생성
RoI projection, RoI pooling을 통해 모든 RoI를 동일한 사이즈로 변환
Softmax + bounding box regression 동시에 수행 (multi-task 학습)

[CV] Transformer 이해

Thu, 22 Feb 2024 10:33:30 GMT

Why Transformer?

최근 computer vision domain에서도 transformer backbone이 주류

Natural Language Processing (NLP)에서 생기는 문제점을 해결하기 위해 고안
Long-term dependency
- 기존 모델들은 sequence data를 처리할 때 데이터를 순차적으로 처리함
- 데이터 길이가 길어지면 정보 손실이 발생함
Attention: Next token을 예측할 때, sequence 내의 다른 위치에 있는 정보들과의 상관 관계가 중요함
- a) The animal didn’t cross the street because it was too tired.
- b) The animal didn’t cross the street because it was too wide.

CNN 한계점

Computer vision 분야에서도 NLP와 같은 문제에 발생
- Long-range dependency: 멀리 떨어진 두 물체에 대한 context를 학습하기 힘듦
- Attention: 이미지 내의 여러 object들에 대한 상관 관계를 알 수가 없음
Transformer가 기존 NLP의 문제점을 어떻게 해결했는지 분석
이후, 동일한 메커니즘을 computer vision에도 적용 (ViT)

Transformer 구조

Sentence to Embedding

“Write a story” → 컴퓨터가 이해할 수 있는 무언가
컴퓨터는 무엇을 이해할 수 있을까?
- “Write a story” → 0,0,1,0,1,0,1,0,...,1 → Embedding
Sentence를 embedding으로 변환할 필요가 있음
좀 더 효율적인 방법은 없을까?
- “I read a book” → [“I”, “read”, ...] → [“I”, “read”, ...]
- “I’m reading a book” → [“I’m”, “reading”, ...] → [“I”, “_am”, “read”, “_ing”, ...]

Tokenization

문장을 토큰 단위로 분할
- Token은 단어, 구두점 등 ‘의미 있는 단위'를 나타냄
- 문장의 시작이나 끝을 나타내는 token도 추가
- 각 token에 사전에 정의된 단어번호 할당

Word Embedding

Token을 embedding으로 변환

Sentence: “Write a story”
Token: [“Write”, “a”, “story”]
Embedding w/ hidden_size 4: [[0.5, 0.1, 0.2, 0.9], [0.7, 0.12, 0.35, 0.9], [0.1, 0.12, 0.56, 0.99]]
Shape
- () → (num_tokens) → (num_tokens, hidden_size) or (num_words, hidden_size) or (seq_len, hidden_size)

Positional Encoding

Word embedding은 단어의 위치까지 반영하지는 않음
그러나 다른 위치에 있는 같은 단어는 다른 의미를 가질 수 있음
- 위치 정보(positional encoding)를 word embedding에 더하여 위치 정보를 추가
최근에는 위치 정보 역시 학습 가능한 파라미터로 두는 경우가 많음
즉, nn.Embedding을 정의하고, 모델 업데이트 과정에서 이를 학습

import torch
import torch.nn as nn

seq_len =10
embedding_dim = 768

embeddings = nn.Embedding(seq_len, embedding_dim)
print(embeddings(torch.LongTensor([0,1,2,3])))
print(embeddings(torch.LongTensor([0,1,2,3,])).shape)

여기까지 Recap

Self Attention

Input embedding이 query, key, value로 mapping
- Query: Attention을 확인하고 싶은 단어
- Key: Input embedding의 모든 단어
- Value: Input embedding 갖고 있는 정보
Attention score
- Query와 key를 통해 attention score를 계산
- Value를 곱함으로써 각각의 key가 가진 정보를 통합
- 각 query를 대표하는 attention value를 얻음
- Hidden size에 따라 query, key 내적값이 커질 수 있음
- 이는 softmax 연산할 때 vanishing gradient 문제를 야기할 수 있음
- 안정적인 학습을 위해 hidden_size 크기에 패널티 추가
Multi-head attention
- 다양하고 복잡한 context를 학습 가능

여기까지 Recap

Feed forward

Add & Norm: Attention이 반영된 embedding + 반영되기 전 embedding
이후, sequence context가 반영된 embedding을 fully connected layer에 통과
Multi-head attention과 feed forward를 합하여 encoder라고 정의함
Encoder를 여러개 쌓아 깊은 네트워크를 만들 수 있음

[CV] EfficientNet

Thu, 22 Feb 2024 08:38:00 GMT

Introduction

ResNet 이후 backbone 연구의 중요 한 축으로 wide & deep
그 결과. CNN backbone의 이미지 이해 성능은 증가 했지만, parameter 크기가 커지고 속도가 느려짐
성능은 좋지만, 속도가 빠르고 크기가 작은 모델에 대한 요구 증가

일반적으로 효율성, 정확도 사이에 trade off
지금까지 모델 크기를 scale up하는 과정에 비효율이 있었던 것은 아닐까?
→ 효율적으로 scale up하는 방법을 찾아보자!
→ EfficientNet의 등장

EfficinetNet

크게 세 가지 방향의 scale up이 있음
width scaling, depth scaling, resolution scaling

Width Scaling

Channel 사이즈를 키우는 방향
Channel의 사이즈를 크게 하면 이미지의 미세한 특징을 잘 잡아내는 경향이 있음
Wide하고 shallow한 네트워크는 이미지의 high-level feature를 이해하는 데 한계가 있음

Depth Scaling

ResNet과 같이 네트워크를 깊게 쌓으면 high-level feature를 이해하는 데 도움이 됨
하지만, 네트워크가 깊어질수록 gradient vanishing의 위험이 있음

Resolution Scaling

이미지가 고화질인 경우 이미지의 미세한 특징들을 잘 잡아낼 수 있음
이미지 사이즈가 커짐에 따라 연산량 증가
- 증가되는 연산량에 비해 accuracy가 많이 향상되지는 않음

Compund Scaling

Observation 1

Scaling up 할수록 성능은 향상되지만, 향상되는 폭이 점차 감소함

Observation 2

Better accuracy, efficiency를 달성할 수 있는 최적의 scale factor 값이 존재

Compound Scaling Method

Depth, width, resolution의 균형 파악하는 것이 중요
- 수동으로 찾는 것에는 한계가 있음
- 따라서 compound scaling method 제안

Depth, width, resolution의 균형 파악하는 것이 중요
- 수동으로 찾는 것에는 한계가 있음
- 따라서 compound scaling method 제안
𝜙를 1로 고정 후 ɑ,β,𝛄를 grid search
- ɑ=1.2, β=1.1, 𝛄=1.15
- 이때 네트워크를 EfficientNet-B0
𝜙=1 을 기준으로 ɑ,β,𝛄를 고정 후 𝜙를 증가시켜 EfficientNetB1 ~ B7로 확장

Results

[CV] Image Classification

Sun, 04 Feb 2024 12:27:02 GMT

Image Classification이란?

Image Classification: 컴퓨터 비전 분야에서 대중적인 task

Architecture: Backbone (CNN) + Classification head (FC Layer)

backbone에서는 이미지에 대한 특징 추출

fc에서 이미지가 속할 가능성이 있는 클래스에 대한 예측 수행
활성화함수 이용하여 각 클래스에 속할 확률 출력 (이미지 분류에선 softmax 많이 사용)

가중치 업데이트는 당연히 backpropagation 이용 : activation function -> fully connected layer -> backbone

Forward Propagation: 입력이미지가 각 층의 뉴런을 통과하면서 가중치와 편향에 의해 변환
Loss Calculation: 출력에서 예측결과와 실제 label 차이를 계산하기 위해 loss function 사용
Backpropagation: loss 최소화를 위한 과정 네트워크의 가중치 조정(손실함수에 대한 gradient 계산) 이를 통해 각 가중치의 기여도를 역으로 추정
Weight Update : learning rate 조절하여 가중치 업데이트
반복

Image Classification Dataset

Logits & Softmax

Logits: 각 클래스에 대한 예측을 수치(실수값)로 나타내는 중간 단계 fully connected layer에서 이뤄진 class score == logit
Softmax 함수는 실수 전체의 범위를 가지는 logits을 지수 함수를 사용하여 클래스 간의 상대적 확률 (0 ~ 1 사이의 값) 계산

Dataset: (image, class) pair로 구성

Training Process

Preprocessing

Model

Loss

Loss function: 실제 class와 예측한 class의 차이를 줄이기 위해 사용
Cross-entropy loss를 이용해 loss function을 정의

Test Process

test도 train과 동일한 과정 거침. prediction만 다름 loss 측정도 X, prediction에 대한 evaluation metric: accuracy, precision, f1 score만 측정

Metric

모델이 잘 학습되었는지 판별하기 위해, 정량적인 평가로 Accuracy와 Precision Metric을 이용한다.

[DL] 다양한 최적화 함수

Thu, 01 Feb 2024 10:38:21 GMT

모멘텀(Momentum), RMSProp, 그리고 Adam은 딥러닝에서 널리 사용되는 최적화 알고리즘. 각 알고리즘은 기존의 확률적 경사 하강법(Stochastic Gradient Descent, SGD)을 개선하여 보다 효율적으로 최적의 매개변수를 찾음.

모멘텀 (Momentum):

기본 개념: 모멘텀은 이전 그라디언트가 현재 업데이트에 영향을 미치도록 하는 방법으로, 물리학에서의 모멘텀 개념에서 영감을 받았습니다. 작동 원리: 이전 스텝의 그라디언트를 일정 비율만큼 현재 그라디언트에 더함으로써, 매개변수의 업데이트가 이전의 운동량을 반영하게 합니다. 장점: 지역 최소값(local minima)이나 안장점(saddle points)에 갇힐 가능성을 줄여주며, 이를 통해 최적화 과정이 보다 빠르고 안정적으로 이루어집니다.

RMSProp:

기본 개념: RMSProp은 가중치 업데이트 시 이전 그라디언트의 크기를 고려하여 학습률을 조정하는 방법입니다. 작동 원리: 이전 그라디언트의 제곱 평균을 계산하여, 각 매개변수에 대한 학습률을 조정합니다. 이로 인해 각 매개변수가 다른 속도로 업데이트됩니다. 장점: 모델이 최적점으로 수렴하는 속도를 개선하며, 비등방성 함수(anisotropic functions)에서 특히 효과적입니다.

Adam (Adaptive Moment Estimation):

기본 개념: Adam은 모멘텀과 RMSProp의 아이디어를 결합한 알고리즘입니다. 작동 원리: 첫 번째 모멘트(평균)과 두 번째 모멘트(분산)의 추정치를 각각 계산하여, 이를 매개변수 업데이트에 사용합니다. 장점: 다양한 종류의 문제와 데이터에 대해 일반적으로 잘 작동하며, 특히 불균형한 데이터셋이나 불규칙한 데이터 분포에서 좋은 성능을 보입니다.

이러한 알고리즘들은 각각의 특성과 장점을 가지고 있으며, 특정 문제에 대해 가장 적합한 알고리즘을 선택하는 것이 중요. 모멘텀은 일반적인 최적화 상황에서, RMSProp은 복잡한 비등방성 최적화 문제에서, Adam은 다양한 종류의 문제에 광범위하게 적용 가능한 효과적인 최적화 방법으로 널리 인정받고 있음.

AI Researcher 현직자 특강

Thu, 01 Feb 2024 09:08:14 GMT

업스테이지 악명의 7단계

Recruiting Process for Engineer/Developer Step 1 서류전형 | 자기소개서,이력서,포트폴리오

Step 2 알고리즘 코딩 테스트

Step 3 딥러닝 코딩 테스트 (for AIRE)

Step 4 기술 인터뷰 1차

Step 5 기술 인터뷰 2차

Step 6 컬쳐 인터뷰 | Growth Ops.팀과의 인터뷰

Step 7 최종 인터뷰 | 경영진과의 인터뷰**

꾸준한 “연습”을 통해 준비해야 하는 부분(스텝2,3)
나의 경험과 지식을 “정리"해야 하는 부분(스텝 4,5)

요구사항

주요 역량 역량 상세 기초 지식 이해 -프로그래밍 언어, 알고리즘, 프레임워크, CS 지식 문제 정의 역량 -“AI 문제를 정의하고 해결하는 능력” (이게 제일 중요!! 50명중 48명은 이게 중요하다고 함) 협업과 의사소통 -개발자와의 의사소통(e.g. GitHub) - issue reporting 받아서 conventional 정리

< summary & mindset>

“개발자로 취업할거야!” 라고 하기에는 조금 더 산업군, 회사, 직군, 직무 범위라는 거시적 관점을 가져야 한다. - saas,platform, b2b,b2c인지 대기업인지 스탓텁인지
개발자가 개발하는 것은 결국 그 회사의 제품/서비스와 관련되어 있기 때문에, 제품 개발의 관점이 필요하다 .
그래서 특정 산업군 혹은 회사에 관한 자료 조사를 충분히 하고, 그 회사에서 필요로 하는 개발자의 상세 업무를 구체적으로 파악해야 한다.
일단의 목표는 ‘취업’이기 때문에, 회사 및 팀에서 원하는 역량을 구체적으로 정의내리고 이를 5개월 간 경험할 수 있도록 노력해야 한다.
모든 강의를 100% 소화할 수도, 할 필요도 없다. 다만, 를 명확하게 인지해야 한다. 이는 1.~4. 질문을 통한 “나의 맥락”에 이여야 한다.

좋은’ 질문의 특징

ex) 인공지능해야하면 수학공부 해야된다던데 어디까지 해야되나요? - 답변 애매 근데, 일단 좀 공부를 하고 나면 좀 더 narrow 한 질문을 하게 되고 이전 질문은 의미가 없어짐.( 이 차이를 아는 것도 중요) - 내가 얼마나 성장했는지 등등

모델링을 잘하는 것도 좋지만 data centric으로 data 자체가 좋아야함 당연히.

대회 때 베이스라인 코드를 주는데 베이스라인 코드를 내가 직접 만들어보겠다.(이 과정에서 내가 힘을 주는 분야가 어디냐를 판단해야함.: 모든 강의를 100% 소화할 순 없다,)

아카데믹적 역량 + 실무적인 역량

AI/ML 핵심 원리 및 기초 지식 학습 경진대회를 통한 프로젝트 실습: (딥러닝, 도메인 이론, 프레임워크) ==> Practical Skill 연습하기

➔ 실제 데이터와 베이스코드를 통해 학습한 내용 적용하기 ➔ 점진적인 모델 성능 향상을 경험하며 풍성한 실험 전개하기 ➔ ML Pipeline의 주요한 영역을 농도 있게 경험하기

< Strategy & Mindset(1) ‘실험’을 할 때는, 이유를 파악하려고 하세요 >

모델이 학습할 데이터의 퀄리티(전처리)와 모델 성능 상관분석, 여러 모델이 내는 결과를 비교분석, 데이터 - 모델 페어 동시 분석 등해야할일이참많습니다. “중요한 것은 ‘문제를 해결하는 마음’입니다. 순위(등수)를 올리는 데 너무 몰두하지 마세요. 이론 강의에서 배운 여러 가지 기법들을 어떻게 실험해볼 수 있겠다는 가정으로 프로젝트에 참여하되, 모든 것은 실험으로 증명해야 한다는 것을 잊지마세요. 중요한 것은, ‘문제 정의’이기 때문에 다음의 고민들을 멈추지 마세요. “내가 지금 풀어야 할 문제가 무엇인가?” “이 문제의 Input과 Output은 무엇인가?” “이 솔루션은 어디서 어떻게 사용되어지는가?” Notion, Tensorboard, Weight and Bias(WandB) 등의 도구를 활용하고 Notion, GitHub에 기록을 남기며 실험을 관리하시면 좋습니다.

어떠한 실험등을 했고 각각의 효과들이 들어났다가 이력서에 녹아있어야함. -> 이것을 아는 것이 왜?라는 의미 도출

이렇게 결론을 내고 이유를 함께 설명할 수 있어야함.

성능 올리는데 급급한게 아니라 다양한 시도,실험하는게 중요!!

전쟁과 같은 ai 서비스 개발에서 서비스 개발 관점에서의 뷰를 갖는 것이 중요하다.

[CV] CV Backbone Overview

Thu, 01 Feb 2024 08:33:35 GMT

How using CV?

Tesla Autopilot

Medical AI

NeRF (Neural Radiance Field)

Neural Radiance Fields는 3차원 장면을 디지털로 재구성하는 데 사용되는 딥러닝 기반 기술

Why CNN?

Multi Layer Perceptron

MLP는 input layer → hidden layers → output layer로 구성
Input layer의 neuron 개수는 tabular data의 feature 수와 동일
- 각 feature가 neuron에 대응되기 때문!
MLP는 tabular data 를 학습하는 데 최적화 되어있음

MLP in CV

이미지를 MLP의 input layer에 입력하려면 이미지를 flatten 해야함
이미지를 flatten하면 어떤 단점이 있을까?

이미지의 Locality 특성

Spatial locality: 같은 물체라도 이미지마다 크기가 다름
Positional invariance: 같은 물체라도 다른 위치에 있을 수 있음

Convolution Filter

Convolution filter를 사용하면 이미지를 flatten하지 않고 연산 가능
Object의 구조와 주변 정보를 함께 연산할 수 있음
같은 필터를 이미지 전체에 적용하여, 다른 위치에 똑같은 물체가 있는 경우 같은 연산을 수행

CNN의 한계점

Convolution filter로 locality를 쉽게 파악 가능했지만 다음과 같은 한계점이 있음
- 이미지 안에서 멀리 떨어진 객체끼리 관련성을 파악하기가 어려움
- 이미지의 각 파트가 이미지 이해에서 얼마나 중요한지, 얼마나 서로 관련이 있는지 평가할 수 없음

Transformer

CNN 한계 극복을 위해 고안

NLP에서 제안된 Transformer를 computer vision에 적용하여 해결
이를 기반으로 data-centric AI 시대의 도래

Natural Language Processing (NLP) task를 위해 고안
- Long-range dependency : 문장 안에서 멀리 떨어진 단어끼리도 서로 관계지을 수 있음
- Self-attention mechanism : 각 단어들이 얼마나 서로 관련있는지 평가

ViT & Swin

Transformer 구조를 computer vision에 적용하여 해결한 ViT (Vision Transformer) 등장
더 나아가 CNN 특성을 ViT에 다시 적용한 Swin Transformer