nary_kim.log

취업완성 - Recsys 경진대회 정리

Wed, 06 Nov 2024 14:03:43 GMT

1. Competiton Info

Overview

'Commerce Behavior Purchase Prediction' 대회는 사용자의 쇼핑 패턴을 분석하여 향후 1주일 동안 구매할 상품을 추천하는 것을 목표로 한다. 추천 시스템은 개인의 쇼핑 습관과 과거 구매 이력을 분석해 맞춤형 상품을 제안함으로써, 사용자의 경험을 개선하고 기업의 매출을 증가시킨다. 이커머스 추천 시스템 구축 과정은 데이터 전처리부터 모델 선택, PyTorch와 라이브러리 활용, Feature Engineering 및 예측 수행을 포함한다. 대회에서는 평가 지표에 최적화된 파이프라인을 개발하는 것이 중요하다. 또한, 현업에서는 어려울 수 있는 복잡한 구조나 다중 모델 앙상블도 높은 점수를 위해 고려할 수 있다.

Timeline

2024년 10월 02일 : 대회시작
2024년 10월 08일 : 개별적으로 강의수강, EDA 진행
2024년 10월 10일 ~ 10월 23일 : 여러 모델 선정 및 파인 튜닝
2024년 10월 24일, 25일 : 결과 앙상블
2024년 10월 25일 : 대회 종료

2. Data descrption

Dataset overview

학습데이터 : train.parquet
- 19년 11월 1일부터 20년 2월 29일까지 4개월간의 데이터
- 8,350,311개의 행으로 이루어져 있다.
- user_id : 유저 id
- item_id : 아이템 id
- user_session : 사용자의 세션 ID. 사용자가 오랜 일시 중지 후 온라인 스토어로 돌아올 때마다 변경된다.
- event_time : 이벤트가 일어난 시각(UTC기준)
- category_code : 아이템의 카테고리 분류입니다.
- brand : 아이템의 brand
- price : 아이템의 가격
- event_type : 이벤트의 종류
평가데이터
- 20년 3월 1일부터 20년 3월 7일까지 일주일 간의 데이터.
- 해당 기간 동안 유저가 구입한(event_type = 'purchase') 아이템 이력에 대한 데이터로 user_id와 item_id로 구성된다.
- 평가데이터는 무작위 (50:50 random split)로 public, private dataset으로 나뉨.
- public dataset
- 대회 기간중 리더보드 점수 계산에 활용되는 정답 데이터.
private dataset
- 대회 종료후 최종 점수 계산에 활용되는 정답 데이터.
- 평가 데이터에는 학습데이터에 포함된 유저와 아이템으로만 이뤄져 있다.

Data Processing

중복 데이터 18개 존재하여 제거.

3. Modeling

사용 모델

XGBoostRanker
CatboostRanker
ALS
GRU4Rec
SASRec

Boost 모델을 위한 Feature engineering

핵심적인 생각
- 한 유저가 한 아이템을 어떻게 생각하는지 수치화 해보자.
- event_type을 아이템별로 묶을 수 있도록 각각 값에 가중치를 부여한 후 합하여, 이 값을 타겟으로 삼아 공략.
event_weight :
- view, cart, purchase를 전체의 갯수 대비 비율의 역수로 하여 각각의 weight를 다르게 부여함.
- 한 유저가 view만 많이 했다면, 가중치를 적게 받고 한번이라고 구매를 했다면 높은 가중치를 받게된다.
- 구매를 하지 않고 view나 cart만 있는 사용자들은 event_weight가 높은 3개의 아이템만을 두고 나머지는 삭제.
- 결과적으로 좋은 점 중 하나는 데이터의 수가 줄어든다는 것임. (약 800만개 -> 약 160만개)
date_weight :
- event_type을 수치화하면서 시간과 아이템과의 관계를 정립할 필요가 생김.
- event_time으로 정렬 후, 2월에 상호작용이 일어난 것에 대해 weight를 주는 열인 date_weight를 설정함.
- date_weight를 설정할 때, view, cart는 5점을, purchase는 50달러 이상이면 2점, 50달러 미만이면 5점을 부여. - 재구매에 대한 가능성.
위가 item에 관한 정보라면 아래는 user에 관한 정보.
monetary : 각각의 user_id가 구매한 총 금액.
frequency : 각각의 user_id가 상호작용한 횟수 (type과 item에 상관없이 셈.)
cluseter : monetary, frequency를 이용하여 k-mean clustering 하여 0,1,2 이렇게 3그룹으로 나누고, 이상치들은 묶어서 3을 부여함.
brand

특이사항?

XGBoostRanker와 CatboostRanker
- event_weight값을 타겟으로 할 경우 한 아이디당 10개미만의 아이템들과 상호작용하는 경우가 많이 있어서, 이럴 경우 결과값이 아이디당 딱 10개로 떨어지지 않음.
- 10개를 채우기 위해서는 앙상블이 불가피함. - 초반에는 베이스코드에서 제공해준 als를 이용, 대회가 진행되면서 리더보드의 점수가 좋은 output으로 대체.
- 연산시간이 16시간정도로 오래걸려, 하이퍼파라미터 튜닝시에는 valid data를 2월 27, 28, 29일의 구매자 아이디로만 구성하여 빠르게 테스트.
recbole을 이용하여 GRU4Rec과 SASRec을 손쉽게 다룰수 있었음.
GRU4Rec
- 세션 기반 추천 시스템에 자주 사용되는 모델임. GRU(게이트 순환 유닛)를 사용해 순차적인 사용자 행동을 학습하고, 세션 내의 사용자 아이템 상호작용을 기반으로 다음에 추천할 아이템을 예측함. 즉, 세션 안에서 시간 순서대로 발생하는 행동들을 고려해 다음에 사용자가 클릭할 아이템을 예측하는 방식임.
- 그래서 위의 피쳐들을 사용하지 않고, user_id, item_id, event_time, event_session을 이용하여 연산함.
SASRec은 베이스코드와 다르게 Feature engineering에서 소개한 feature들을 사용하여 연산해봄.

결과 (실험한 시간순으로 정리)

als (base code) : 0.0846 (0.0853)
XGBRanker + als : 0.1211 (0.1210)
XGBRanker(params tune) + als : 0.1221 (0.1214)
CatRanker(params tune) + als : 0.1208 (0.1200)
als(params tune) : 0.1059 (0.1058)
CatRanker(params tune) + als(params tune) : 0.1219 (0.1205)
XGBRanker(params tune) + als(params tune) : 0.1232 (0.1219)
GRU4Rec + populer top10 : 0.0980 (0.0980)
GRU4Rec + als(params tune) : 0.0929 (0.0929)
SASRec + populer top10 : 0.0870 (0.0876)
LMF(params v1) :0.0944 (0.0925)
LMF(params v2) :0.1141 (0.1132)
LMF(params v3) : 0.1214 (0.1213)
CatRanker + LMF : 0.1313 (0.1304)
XGBRanker + LMF : 0.1325 (0.1318) BEST!
XGBRanker_als + CatRanker_als + LMF using ranking : 0.1324 (0.1317)

4. Result

Leader Board

1등 : 0.1325 (0.1318)

시도한 점

처음부터 우리조의 목표가 최대한 많은 모델을 돌려보자였기 때문에 많이 돌려보려고 노력하였고, 모두 각자의 모델을 잘 돌려서 좋은 결과가 나왔던것 같다.

아쉬운 점

Boost 계열이 시간이 오래걸려서 개인적으로는 CF, MF 모델들에 대한 여러 실험을 못해봤는 데, 해보고 싶다.
마지막에 피드백을 받을 때, date_weight 피쳐에 대해, 합리적인 이유없이 나의 임의로 가중치값을 정했다는 것을 지적해주셨다. 내가 왜 그랬을까 하고 돌아보니, 임의로 넣은 가중치값을 이용하여 얻은 결과가 생각보다 너무 좋아서였다고 생각한다. 만약에 같이 대회에 참여한 다른조에서 좋은 결과들을 내놓았다면 아마 이것을 수정해보지 않았을까.
다른 조들도 좀더 열심히 해줬다면, 많은 인사이트를 얻어갈 수 있었을 텐데 그 점이 많이 아쉽다.

Data centric AI

Fri, 04 Oct 2024 01:11:42 GMT

근래 3개월동안 계속 대회를 진행하였는 데, 그때마다 드는 생각은

" 데이터를 이렇게 전처리하면 훨씬 좋은 결과가 있었을 것이다."

좋은 결과를 내는 데에는 물론 모델의 선택도 매우 중요한 요소이지만, 그보다 선행되어야 하는 것이 주제, 목적에 맞는 좋은 데이터로 기존의 데이터를 정제하는 것 이라고 생각한다. Data-Centric AI는 이것에 대한 좀더 심화된 이야기를 해주고, 산업에서는 어떻게 적용되는지 김남혁 강사님을 통하여 좀더 자세하게 들을 수 있는 기회가 되었다.

확실히 좋은 모델들의 접근이 좋아진 지금, 결국 경쟁력을 가지려면 데이터의 적절한 가공이 아닐까 생각된다. 아래는 Data-Centric AI에 대한 대략적 설명이다.

Data-Centric AI

데이터를 중심으로 AI 시스템을 개발하고 개선하는 접근 방식이다. 기존의 AI 개발은 모델 아키텍처나 알고리즘의 개선에 중점을 두었지만, 데이터 중심 AI는 고품질 데이터를 확보하고 이를 관리하는 데 초점을 맞춘다.

주요 개념과 특징은 다음과 같다:

1. 데이터 품질 향상

AI 모델 성능을 높이기 위해서는 데이터의 질을 개선하는 것이 핵심이다. 불필요하거나 오류가 있는 데이터를 제거하고, 주석 오류를 수정하며, 데이터의 다양성과 균형을 맞추는 것이 중요하다.
예를 들어, 데이터가 불균형할 경우(특정 클래스의 데이터가 지나치게 많거나 적은 경우), 데이터를 증강하거나 추가로 수집해 성능을 높일 수 있다.

2. 라벨링 개선

데이터 중심 AI에서는 라벨링의 정확성과 일관성이 매우 중요하다. 라벨링 오류를 줄이고, 일관성 있게 데이터를 주석화하는 것이 모델 성능 향상에 직접적으로 기여한다.

일상 대화 요약대회

Wed, 25 Sep 2024 03:35:39 GMT

1. 대회설명

Overview

소개 Dialogue Summarization 경진대회는 일상 대화를 효과적으로 요약할 수 있는 모델을 구축하는 대회이다. 대화 중 요약의 필요성과 이를 통해 주관적 오류를 최소화하는 것이 목표이다. 우리는 이번 대회를 통해 대화 요약 모델 개발을 완성할 것이다.
모든 데이터는 .csv 형식으로 제공되고 있으며, 각각의 데이터 건수는 다음과 같습니다.

train : 12457 dev : 499 test : 250 hidden-test : 249

Timeline

2024.08.29 ~ 2024.09.02 - 대회 시작, 데이터 EDA와 Baseline 분석
2024.09.03 ~ 2024.09.06 - 모델 설정, 학습 및 파인튜닝
2024.09.09 ~ 2024.09.11 - inference 튜닝

Model descrition

Kobart (digit82/kobart_summarization)
T5-Large (lcw99/t5-large-korean-text-summary)
Llama3 (beomi/Llama-3-Open-Ko-8B)

2. 목표와 결과

Kobart 완전정복하기

KoBART는 한국어에 특화된 BART 모델이다. BART는 Facebook AI에서 개발한 sequence-to-sequence 모델로, 주로 텍스트 생성, 요약, 번역 등에 사용된다. KoBART는 이 BART 모델을 바탕으로 하여, 한국어 데이터를 사용해 사전 학습된 모델이다.
BART의 구조는 인코더와 디코더로 이루어져 있는데, 인코더는 입력된 텍스트를 분석하고, 디코더는 그 텍스트를 바탕으로 새로운 텍스트를 생성한다. KoBART는 이러한 구조를 기반으로 하여, 한국어 텍스트의 요약, 생성 등에서 우수한 성능을 보인다.
이를 바탕으로 digit82/kobart_summarization은 KoBART를 활용해 한국어 텍스트 요약 작업을 수행하는 프로젝트이다.

장점:

한국어 특화: KoBART는 한국어 데이터를 바탕으로 학습되었기 때문에, 한국어 문장을 다루는 다양한 작업에서 높은 성능을 보인다. 특히 한국어의 어순이나 문법적 특성을 잘 이해하여 자연스러운 요약과 생성이 가능하다.
범용성: KoBART는 BART의 인코더-디코더 구조를 따르기 때문에, 요약뿐만 아니라 번역, 텍스트 생성 등 다양한 자연어 처리 작업에 적용할 수 있다.
사전 학습된 모델 활용: 이미 대규모 데이터로 학습된 모델이기 때문에, 추가 학습(fine-tuning)을 통해 특정 도메인에 쉽게 적용할 수 있다. 예를 들어 뉴스 요약이나 문서 생성 같은 작업에 특화된 모델로 빠르게 변환 가능하다.
Pretrained 모델 지원: KoBART는 이미 공개된 사전 학습된 모델이기 때문에, 별도의 대규모 학습 없이도 바로 사용할 수 있어 효율적이다.

단점:

대규모 학습 데이터 필요: KoBART를 특정 작업에 맞춰 미세 조정(fine-tuning)할 때, 여전히 대규모의 학습 데이터가 필요하다. 데이터가 부족하면 모델의 성능이 떨어질 수 있다.
한국어 외의 언어 한정성: KoBART는 한국어에 특화되어 있기 때문에, 다른 언어를 다룰 때는 성능이 크게 떨어질 수 있다. 다국어 작업에는 적합하지 않다.
메모리와 연산 자원 소모: BART 모델의 특성상 인코더와 디코더가 모두 사용되기 때문에, 훈련 및 추론 과정에서 많은 메모리와 연산 자원이 필요하다. 특히 긴 문장이나 대규모 데이터를 처리할 때 이 문제가 더 두드러질 수 있다.
모델 크기: KoBART는 대규모의 파라미터를 가지고 있기 때문에, 실제로 모델을 배포하거나 실시간 작업에 사용하려면 최적화 작업이 필요할 수 있다.

kobart로 시도한 것들

번역어투임을 감안하여 영어로 번역후 bart 요약 후 다시 번역. -> 번역에서의 오류 + 요약에서의 오류가 가중되어 좋은 결과를 얻지 못함.
rouge 점수를 이용하여 모델을 업데이트 시키기 위해 강화학습 알고리즘을 이용하여 모델학습
kfold
kfold + 강화학습

위의 모든 것들이 baseline을 넘지 못하였다.

private 기준으로 가장 좋은 점수를 받았던 모델은 baseline에서 max_length를 1024/512로 바꾼것이다.
그리고 오히려 gogamza/kobart-summarization의 점수가 private에서 좋게 나왔다!!!

아쉬웠던 점

개인적으로는 계속 kobart만을 파인튜닝하려고 노력했는데, 결과적으로는 잘되지 않았다. 데이터증강을 시도하다가 하지 않았는데 그게 아쉽다.

3. 새로운 시도

이번엔 엑셀 점수저장을 좀더 잘했다!

마지막에 가서는 내가 막 올려서 점수저장을 잘 못한건 있지만, 다른 조원들이 훌륭히 완벽히 해주었다. 나도 좀더 확실히 올릴 필요가 있다.

4. 프로젝트 후기

다른 조원들이 LLAMA나 T5등을 파인튜닝하면서 많은 것을 배우신 것 같았다. 대회는 끝나지만, 남은 온라인 수업과 함께 요즘 유행하는 모델들을 공부하고 직접 다루고 싶다. 그렇지만 kobart 만큼은 정말 많이 알고가서 뿌듯하다.

5. 다음 대회에서 할 일

마지막 대회에는 다시 열정 탑재가 필요!

솔직히 이번대회를 열심히 한다고는 했지만, 아이들의 여름방학이 시작되어 대회가 계속되면서 많이 지쳤었다. 그래서 마지막 튜닝을 하는거에서 좀 더 시간을 할애하지 못한 부분도 있었다. 게다가 현재는 코로나일지도 모른다는 진단까지 받은 상태 ㅎㅎㅎ 대회 시작전에 충분히 앓고 충분히 마음을 다 잡은 후 다시 새로운 마음으로 마지막을 열심히 공부하고 끝내고 싶다.
화이팅!!

Computer Vision 도메인 학습

Wed, 21 Aug 2024 08:51:56 GMT

오늘까지 업스테이지에서 제공하는 Computer Vision 도메인 학습을 공부하였다. 중간에 대회도 함께 하면서 배운걸 바로 써먹을 수 있어서 좋았던 경험이였다.

수업들었던 것 중에서 swin Tranformer를 대회에서 잘 썼었는 데, 여기에는 이것에 대해 정리해보고자 한다.

SWIN은 컴퓨터 비전 태스크를 위한 딥 러닝 아키텍처입니다. CNN의 지역성과 Transformer의 전역 정보 처리 능력을 결합하여 효율적이고 강력한 성능을 제공합니다.

이미지 분할 및 임베딩

입력 이미지 (H×W×3)를 작은 패치로 분할
각 패치를 선형 임베딩으로 고차원 벡터로 변환

계층적 특징 추출

모델은 4개의 stage로 구성되며, 각 stage에서 이미지 해상도와 채널 수가 변화합니다:

Stage	해상도	채널 수
1	H/4 × W/4	48C
2	H/8 × W/8	2C
3	H/16 × W/16	4C
4	H/32 × W/32	8C

Swin Transformer Block

각 stage의 핵심 구성 요소:

Window Multi-head Self Attention (W-MSA)
Shifted Window Multi-head Self Attention (SW-MSA)
Multi-Layer Perceptron (MLP)
Layer Normalization (LN)

윈도우 기반 self-attention

전체 이미지 대신 작은 윈도우 내에서 self-attention 수행
계산 복잡도: $O(n^2)$에서 $O(n)$으로 감소
- n: 전체 토큰 수
- M: 윈도우 크기

Shifted Window 메커니즘

연속된 층에서 윈도우 위치를 교대로 이동
윈도우 간 정보 교환 가능

패치 병합 (Patch Merging)

각 stage 사이에 적용
공간 해상도를 줄이고 채널 수를 증가
인접한 2×2 패치의 특징을 연결하고 선형 변환 적용

수학적 표현

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V $$

여기서:

$Q$, $K$, $V$는 각각 Query, Key, Value 행렬
$d$는 임베딩 차원

모델 복잡도

파라미터 수와 계산량이 이미지 크기에 선형적으로 비례
기존 Vision Transformer의 제곱 복잡도보다 효율적

SWIN 모델은 효율성과 성능을 모두 고려한 설계로, 다양한 컴퓨터 비전 태스크에서 우수한 결과를 보여줍니다.

문서분류대회 회고

Tue, 13 Aug 2024 18:39:01 GMT

1. 대회설명

Overview

소개 이번 대회는 computer vision domain에서 가장 중요한 태스크인 이미지 분류 대회이다. 보험보상과 관련된 이미지들이 주어지고 이것을 17개의 클래스로 분류하는 모델을 만든다.
input : 1570개의 이미지
output : 3140개 이미지의 클래스

Timeline

2024년 7월 29일 : 대회시작 각자 데이터 EDA
2024년 7월 30일 ~ 8월 2일 : 온라인 강의, 데이터 Augmentation을 이용한 모델링, Baseline code 학습
2024년 8월 5일 : Swin Tranform, Convnext v2 적용
2024년 8월 6일 : OCR, Augrapy 코드 공유 적용
2024년 8월 7일 : 데이터 오프라인 증강, Test data의 Denoising 적용
2024년 8월 8일 : 각자의 모델 Hyper parameter tuning, LM3 적용
2024년 8월 9일 ~ 11일 : 각자의 모델 학습시키면서 리더보드 올리기

Model descrition

EfficientNet_b4
SWIN(Shifted Window)
ConvNeXt
OCR

2. 목표와 결과

학습데이터를 테스트데이터와 비슷하게 만들자

학습데이터들은 깔끔하고 정돈된 형태로 스캔된 형식들이였는 데, 테스트데이터들은 회전, 플립, 노이즈, 믹스 등등 많은 형태로 변형되어있었다.
결과
- Augmentation으로 데이터증강하여 3개의 모델 실험 (flip, noise, rotation)
- 과적합의 문제, 0.91이상으로는 잘 오르지 않음
- 두개의 모델들을 앙상블한 결과도 0.92정도

Swin t의 하이퍼파라미터를 튜닝하였다.

swin t 모델은 생각모다 수렴도 잘 되지 않고 어느 순간 리더보드에 올린 결과값들도 0.91후반으로 오르지 않앟다.
- wandb의 sweep을 사용하여 하이퍼파라미터를 모니터링하였고, 그중 ㅣloss 값이 작고 f1값이 크면서도 epoch을 길게 가져가는 하이퍼파라미터를 선택하였다.
결과
- 0.92후반대까지 오를 수 있었다. [wandb 실험결과] (https://api.wandb.ai/links/narykkim/p2l1gyy0)
  test 데이터의 Denoising
test이미지들 중에 문서이미지들의 회전을 바르게 돌려놓기위해 노력했다.
결과
- 0.0011정도의 값이 올랐다.
- 점수가 좀처럼 오르지 않았을 때 값이 오른 것이여서 이것을 좀더 적극적으로 이용해야 겠다고 생각했다.

test Denosing에 맞는 학습데이터 다시 구축

test이미지들이 Denoising 되면서 그에 맞는 학습데이터를 만들면 좋겠다고 생각했다. 그래서 일부러 원래의 학습데이터에 노이즈와 회전을 주어서 오프라인으로 25,000개정도를 저장하고, 이 이미지들을 다시 Denoising하는 과정을 거쳐 test 이미지와 비슷하게 만들도록 노력했다.
결과
- 이것때문인건지 많은 데이터를 학습한 덕분인지는 알수 없으나, ocr을 적용하기 전 가장 높은 점수인 0.9386을 얻을 수 있었다. (swin + conv)

OCR을 사용하여 데이터를 Postprocessing하였다.

test데이터와 가장 비슷하게 만든 학습데이터 중 헷갈리는 몇몇 클래스의 문서에서 Paddleocr을 사용하여 단어들을 추출하였다.
단어들을 정제하여 각 클래스 별 단어사전을 만들었다.
test데이터에서도 단어를 추출한 후, 단어사전을 이용하여 클래스를 재분류하였다.
결과
- 40여개의 이미지가 클래스를 변환했고, f1값은 0.013정도 오르게 되었다.

3. 새로운 시도

파일을 나눠서 저장

전에는 하나의 ipynb파일에 여러모델들을 만들고 저장하였는데, 이번부터는 모델마다, 실험내용마다 모두 다른 파일에 만들어서 실수를 줄이도록 노력했다.
결과 : 확실히 실수가 줄었고, 관리가 오히려 쉬웠다. 그러나 파일명의 체계성이 없어서 이 부분은 개선이 필요하다.
wandb의 sweep 사용
sweep으로 하이퍼파라미터를 모니터링해보았다. sweep은 어느정도 정보가 모이면 하이퍼파라미터의 중요도를 알아서 보여준다. 그래서 어떻게 하이퍼파라미터를 조정해야하는지에 대한 감을 알려주었고, 이로 인해 모델에 대한 이해도도 같이 높일 수 있었다.
nohup으로 py 파일 돌리기
nohup을 사용하여 백그라운드로 py파일을 돌려보았다. 이것은 log파일을 만들어서 모니터링도 쉽게 해주었고, 컴퓨터를 켜고 끄는 것에 대한 자유도 주어 굉장히 편하게 할 수 있었다. 다만 메모리 관리를 좀더 열심히 해주어야 한다. 아니면 cuda에러가 나서 잘 하던 것들이 날라갈 수 있다.
팀장과 발표를 하였다!
발표는 떨렸지만 재밌었다. 팀장으로써는 아직 개선해야할 점들이 보인다.

4. 프로젝트 후기

데이터증강할 때 10만개정도로 더더 많이 해볼꺼 하는 아쉬움이 남는다.
팀별로 운영되어지는 대회의 경우, 가장 필요한 것이 팀안에서의 체계성인것 같다. 정보를 공유하고 모델링을 하는 과정에서 서로서로 겹쳐지는 부분을 최소화하기 위해 이와 같은 것이 필요한 데, 우리는 아침에 모여 열띤 토론을 하고 토론 내용도 매일 슬랙에 올려놓았지만, 서로 무엇을 하는 지에 대한 정말 구체적인 정보가 없기 때문에 서로에 대한 피드백을 정확히 할수 었었던 것 같다.
나의 파일관리에 대한 체계성도 아직 부족함을 느꼈다. 이름짓기 너무 어렵다.
여러모델을 많이 다뤄보았다. 확실히 수업만 듣는 것보다 이렇게 수업듣고 바로 대회를 하니, 많은 부분들이 체화되는 것을 느꼈다.
postprocessing을 할 때, '어 모델링 대회인데 이런걸 해도 되나' 하는 생각을 했는 데, 결국 이것으로 인해 점수를 잘 받았게 되었고 현업에서도 이런 식의 일이 진행된다는 것을 듣고 생각을 바꾸게 되었다.

5. 다음 대회에서 할 일

팀 단위 체계성

현재 진행하고 있는 모델링이나 데이터전처리에 대한 구체적인 정보를 기재하는 구글 엑셀시트를 만들어 서로 공유하며 진행해보려한다.
개인의 체계성
파일 분리까지는 잘했으나, 파일명에서 아직 부족함을 느꼈다. 파일명의 체계를 구성하고 개인 엑셀파일도 만들어서 기재하는 방향으로 진행하려한다.
모델 선정 기준잡기
지금까지는 막연히 좋을 것이라고 생각한 여러모델을 모두 돌려보는 방향으로 진행하였는데, 다음에는 모델에 대한 서치를 충분히 한 후, 그 중 학습데이터에 맞는 모델을 선정하는 것에 대해 공부하고 적용해보고 싶다.

이번에도 4위라는 아주 만족스러운 결과를 낼수 있었다. (5위안에만 들자는 것이 나의 목표다.) 너무 재미있었다.

ML regression 대회 회고

Wed, 24 Jul 2024 03:59:46 GMT

1. 대회정보

Overview House Price Prediction 경진대회는 주어진 데이터를 활용하여 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 대회이다.
Dataset

train : 200701 ~ 202306 까지의 아파트 정보 데이터 - 1118822개 test : 202307 ~ 202309 까지의 아파트 정보 데이터 - 9272개
Timeline 2024년 7월 09일 (화) ~ 7월 15일 (월) - 온라인 수업 2024년 7월 15일 (월) - 회의 후, 회의 결과를 바탕으로 데이터 전처리 2024년 7월 16일 (화) - 각자 EDA 및 Feature Engineering 2024년 7월 17일 (수) - 최종 데이터셋 설정 및 Modeling 2024년 7월 18일 (목) - Feature Selection 및 Modeling Hyper-parameter tuning 2024년 7월 19일 (금) - 최고 성능 모델 추가 처리 및 최종 제출 기한

2. 나의 목표와 결과

결측치를 줄여보자.

대회에서 제공된 학습 데이터의 가장 큰 문제는 너무도 많은 결측치였다.

결과 :
- 결측치를 크롤링으로 채우기에는 전문적인 정보들이 많아서 데이터셋들을 제공하는 사이트들을 집중 검색했고, 적절한 외부데이터를 찾았다.
- 80만개의 결측치를 25만개정도까지 줄일수 있었다.
  좌표에 대한 결측치는 0으로 만들자.
  다른 수치형 변수들은 선형보간한다고 해도, 위도경도는 그렇게 하면 나중에 지하철과의 거리계산에서 큰 오류를 만들것이라고 생각하여 좌표 결측치를 0으로 만들도록 하였다.
결과 :
- 위의 자료를 통해서 이미 결측치는 25만개 정도로 줄어있었다.
- 여러 작업을 걸쳐 약 100개의 자료를 수동으로 수집하였다.
- 사람이 판단해야 하는 부분이기 때문에 자동화로 넘기기엔 어려움이 많다고 생각한다.
- 다만 100개가 아니고 1000개였다면 부분 자동화는 시도했을 것이다.
  의미있는 변수를 찾자.
결과 :
- 이자율 : 이자율에 따라 사람들의 매매에 대한 생각이 변할 것이라는 생각에 한국은행데이터셋 사이트에서 대한 데이터를 찾았다.
  - catboost로 계산한 변수 중요도에서 30개의 변수 중 9위로 꽤 높은 기여도를 보여주었다.
    - LGBM으로 계산한 변수 중요도에서는 18위정도로 중간정도의 기여도를 보여주었다.
- subway_count : 1km 반경 안에 지하철의 갯수가 몇개인지 세어보는 변수를 만들었다.
  - 변수 중요도가 30위가 넘으면서, 가격과는 상관없는 변수임을 확인했다.

여러가지 모델을 실험해보자

결과 :
- 다른 팀원들은 도전하지 않았던 catboost에 대해 도전하였고, 나의 결과와 LGBM을 실험한 데이터를 앙상블하여 좋은 결과를 얻을 수 있었다.
- optuna는 한번에 적은 trial을 해보면서 하이퍼파라미터의 값의 범위를 줄여나가는 것이 효율적임을 알았다.
- kfold, TimeSeriesSplit, Stratified KFold등 여러가지 시도를 하였고, kfold가 그 중 효과적이였으나, 전체적으로 rmse를 줄이는 데는 성공하지 못했다. 그 이유를 생각해보건데, 훈련데이터가 테스트데이터의 양에 비해 어마어마하게 크고 가격의 분포 또한 엄청 다양하여, 과적합을 염려할 상황은 아니였음으로 판단된다.

3. 나의 새로운 시도

wandb

새로운 것에 대한 도전이 쉽지 않았는데, 팀장님의 소스코드와 wandb결과물을 보면서 나름의 공부를 하였고, 지금은 한층 더 여유롭게 wandb를 내 코드에 녹여서 작업할 수 있게 되었다.
하이퍼파라미터의 최적화를 추적할 때 효과적인 툴이다.
서버 사용하기
서버 사용이 괜히 무서워서 사용하지 않고 있었는 데, 팀장님께서 하나도 어렵지 않다는 말에 도전하였고, 정말 빠르고 쾌적함을 느낄수 있었다. 좀더 빨리 사용했다면 좋았을 것이라는 아쉬움이 남는다.

4. 프로젝트 회고

아쉬운 점

역시 시간이다.
처음에 평수를 나누어서 모델을 만드려는 시도를 했었다. 20평 단위로 나눠서 계산했었는데, 생각보다 에러가 너무 커 실험을 중단하였다.
대회마감 전날에서야 데이터를 너무 잘게 나누면 나눈 데이터들의 경계의 에러가 커지기 때문에 규모의 데이터를 적당하게 나눠야함을 알았다.
이 대회를 앞으로 하실 분에게 힌트를 드리자면, 메타 모델을 사용한다.
데이터를 위와 같이 적절히 나눈후 각기 모델로 학습을 시켜서 나온 결과들을 그냥 모아서는 에러가 크고, 그 데이터들을 모아서 rigde 같은 선형모델에 한번 더 돌려주면 에러가 많이 감소함을 알 수 있다.
나만의 마무리
마지막날에 알아서 제대로 코딩하지 못했던 모델링을 대회후 주말에 열심히 만들어서 결과를 내었다.
여태것 catboost의 val rmse가 5900에서 6000초반 대였는데, 다시 만들어서 실험 한 결과 5060대가 나왔다!!!
이걸 꼭 리더보드에 한번 제출해보고 싶은데 그렇게는 안해주시려나.

5. 다음 대회에서 할 일

체계적인 데이터 관리

모델링을 할때, 계속 같은 ipynb파일에서 하곤 했는 데, 그렇게 되니 너무 주먹구구식으로 관리가 되고 wandbd의 이름이나 그룹이 잘못 설정되는 경우들도 허다하게 되었다.
다음 대회에서는 한 모델링에 대해서 하나의 파일로 작업을 하고 철저히 확인하고 작업하도록 하여 혼선을 최대한 막으려고 한다.
파일이름에 대한 체계성도 만드려고 한다. 아웃풋에 대한 이름체계가 확실해야 실험을 돌릴때 유실되는 파일을 막을 수 있다. 그리고 시간대를 넣어주면 wandb와 비교하여 찾기 쉬워진다.
방금 생각난 것인데, wandb가 알아서 생성해주는 이름을 파일명으로 쓰는 방법도 찾아봐야겠다. 그럼 매칭이 쉬워서 관리가 좋을 것이다.

요즘도 아쉬워서 서버 접속해서 맨날 이것저것 돌려보면서 생각해보고 있다. 간단한 것 같으면서도 어려웠던 대회였고 그래서 그런지 자꾸 미련이 남는다. 결론은 재미있었다!!

ML - Upstage 심화

Mon, 22 Jul 2024 23:50:57 GMT

ML을 또 배워?라고 생각했었다.

나의 오만. 앞에꺼 대충 들었어도 이거 잘 들으면 전문가적인 포스를 내뿜을 수 있다.

예시코드들이 여태까지 예시로 보았던 보스턴, 타이타닉의 문제 예측이 중심이 아니고 현업에 쓰이는 ML 패키지들의 샘플코드들이 많이 담겨져있어, 나중에 프로젝트에 쓰기 좋겠다고 생각했다.

코드들을 잘 보관하여 잘 써먹어야지.

ML을 하면 우리가 많이 쓰게 될 LightGBM, XGBoost, CatBoost의 장단점과 차이를 정리해본다.

LightGBM

장점:

대용량 데이터에서 빠름.
메모리 효율적.
카테고리형 변수 자동 처리 가능.
단점:
작은 데이터셋에서는 오히려 느릴 수 있음.
과적합 우려 있음.
XGBoost

장점:
성능 좋고 튜닝 많이 됨.
다양한 파라미터 제공으로 유연한 모델링 가능.
병렬 처리 지원.
단점:
큰 데이터셋에서 느릴 수 있음.
파라미터 튜닝 복잡함.
CatBoost

장점:
카테고리형 데이터 처리에 강점 있음.
기본값으로도 좋은 성능 발휘.
자동으로 데이터 셔플링 해서 과적합 방지.
단점:
학습 속도가 LightGBM보다 느림.
파라미터 문서화 부족.
차이점
LightGBM: 리프 중심 트리 분할 방식 사용. 대용량 데이터에서 빠르고 메모리 효율적임.
XGBoost: 전통적 부스팅 알고리즘 사용. 다양한 파라미터와 병렬 처리 지원.
CatBoost: 카테고리형 데이터에 강점 있음. 과적합 방지 기능 내장.
세 모델 모두 각자 장단점 있어서 데이터 특성 및 목적에 맞게 선택해야 함.

딥러닝과 Pytoch 기초 온라인강의

Wed, 03 Jul 2024 08:29:57 GMT

딥러닝의 역사부터 원리까지 조근조근 설명해 주어서 좋은 강의였다. 온라인 강의의 이점을 살려, 역전파와 손실함수에 대한 수학적 설명도 여러번 돌려보면서 이해할 수 있었다.

1. Deep Learning

딥러닝 발전 5단계 I : 1단계 ~ 3단계 딥러닝 발전 5단계 II : 4단계 ~ 5단계 딥러닝 기술 종류들 I : 학습 방식에 의한 구분 딥러닝 기술 종류들 II : 데이터 형식, 태스크 종류에 의한 구분 딥러닝 개요 모델 학습법 I : 다층 퍼셉트론 모델 학습법 II : 경사 하강법 모델 학습법 III : 역전파 (기초) 모델 학습법 III : 역전파 (심화) 모델 학습법 IV : 손실 함수 모델 학습법 실습 성능 고도화 방법 I : 과적합, 편향과 분산, 지역/전역 최소값, 네트워크 안정화 성능 고도화 방법 II : 가중치 초기화, 규제화, 학습률 성능 고도화 방법 III : 다양한 최적화 알고리즘 성능 고도화 방법 IV : 데이터 증강 및 그 외 방법들 성능 고도화 방법 실습 CNN RNN

2. Pytorch

파이토치 소개 환경 설정 텐서 조작의 개념 텐서 조작(1) 텐서 조작(2) 딥러닝을 위한 파이토치가 어떻게 동작하는가? DNN 구현(1) DNN 구현(2) DNN 구현(3) CNN 구현 RNN 구현 전이학습이란? timm과 Hugging Face을 통한 전이 학습 모니터링을 위한 TensorBoard와 Wandb 디버깅 파이토치 라이트닝 소개 파이토치 코드를 파이토치 라이트닝 코드로 변환하기 하이드라 소개 파이토치 라이트닝과 하이드라

나중에 혼자 공부할 때 찾아볼 수 있게, 목차를 올려둔다.

💡Apple silicon 사용을 위한 설정

공부를 하다가 gpu 사용을 위해 device를 cuda로 설정하는 부분이 있는데, 나는 맥북을 쓰기 때문에 쓸수가 없었다. 그래서 Apple Silicon을 사용할 수 있는 방법을 찾아보았고, 여기에 남겨두려고 한다.

우선 새로운 가상환경을 설정하도록 한다.

>>>conda create -n pytorch_m1 python=3.10
>>>conda activate pytorch_m1
>>>pip install torch torchvision torchaudio --pre

그리고 xcode, Jupyter 및 ipywidgets은 최신버전으로 업데이트한다.

그런 후

device = torch.device("mps" if torch.backends.mps.is_available() else "cpu")

이렇게 device를 설정하면 된다. 그러나 커다란 문제가 하나 있는데, mps를 쓰는 것보다 cpu를 쓰는게 더 빠르다!! 찾아보니 batch 갯수가 많거나, 실습에서 돌렸던 문제보다 더 복잡한 구조를 가져야 mps를 쓸때, 시간의 차이가 난다고 한다. 참고로 실습에서 batch는 32였고, 4개의 레이어를 사용하였으며, 48000개의 데이터를 train했다.

아래에는 cpu보다 gpu가 빨랐던 샘플코드이다.

import time
import torch
import torch.nn as nn
import torch.optim as optim

# 모델 정의
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(2048, 1024),
            nn.ReLU(),
            nn.Linear(1024, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Linear(128, 10),
            nn.LogSoftmax(dim=1)
        )

    def forward(self, x):
        return self.fc(x)

# 더미 데이터 생성 (배치 크기 증가)
inputs = torch.randn(1024, 2048)
labels = torch.randint(0, 10, (1024,))

# 훈련 함수 정의
def train(device, model, inputs, labels, num_epochs=10):
    model.to(device)
    model.train()

    start_time = time.time()

    for epoch in range(num_epochs):
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

    end_time = time.time()
    return end_time - start_time

# 손실 함수 및 옵티마이저 정의
criterion = nn.NLLLoss()
optimizer = optim.Adam(SimpleNN().parameters(), lr=0.001)

# CPU에서 훈련
cpu_device = torch.device("cpu")
cpu_model = SimpleNN()
cpu_inputs = inputs.to(cpu_device)
cpu_labels = labels.to(cpu_device)
cpu_time = train(cpu_device, cpu_model, cpu_inputs, cpu_labels)
print(f"CPU Training Time: {cpu_time:.2f} seconds")

# MPS에서 훈련
if torch.backends.mps.is_available():
    mps_device = torch.device("mps")
    mps_model = SimpleNN()
    mps_inputs = inputs.to(mps_device)
    mps_labels = labels.to(mps_device)
    mps_time = train(mps_device, mps_model, mps_inputs, mps_labels)
    print(f"MPS Training Time: {mps_time:.2f} seconds")
else:
    print("MPS device is not available.")

ML Basic - Regression

Wed, 05 Jun 2024 07:15:49 GMT

회귀, 분류, 클러스터링 개인적으로는 ML수업은 실시간 강의보다 온라인 강의가 나에게 더 맞았음.

근데 어려움. 개념이 와닿지가 않아서 이번 블로그는 챗gpt에 각 개념을 물어보면서 개념 세우기를 해보려함.

💡 회귀

회귀분석이란?

회귀분석은 어떤 숫자를 예측하는 방법이에요. 예를 들어, 집의 크기와 위치를 알고 있을 때 그 집의 가격을 예측하는 것과 같아요.

어떻게 작동하나요?

회귀분석은 데이터의 패턴을 찾아서, 새로운 데이터가 주어졌을 때 그 숫자를 예측할 수 있도록 도와줘요. 예를 들어, 과거의 집 가격 데이터를 사용해서 새로운 집의 가격을 예측할 수 있는 모델을 만드는 거예요.

회귀분석의 종류

단순 회귀(Simple Regression):

단순 선형 회귀(Simple Linear Regression): 독립 변수 하나(예: 집 크기)로 종속 변수 하나(예: 집 가격)를 예측하는 방법이에요.
이 경우, 데이터 점들을 가장 잘 설명할 수 있는 직선(선을 그려서)을 찾는 거예요. 이 선을 통해 새로운 집 크기 데이터를 넣으면 그 집의 가격을 예측할 수 있어요.

다중 회귀(Multiple Regression):

여러 개의 독립 변수(예: 집 크기, 방의 개수, 위치 등)로 하나의 종속 변수(예: 집 가격)를 예측하는 방법이에요.
여러 특성을 동시에 고려해서 더 정확한 예측을 할 수 있어요.

예시로 설명

단순 회귀 예시:

여러분이 과일 가게를 운영한다고 생각해보세요.
지난 몇 주 동안 과일 판매량(독립 변수)과 매출액(종속 변수)을 기록했어요.
이제 다음 주에 과일을 얼마나 팔면 매출이 얼마나 될지 예측하고 싶어요.
단순 선형 회귀를 사용하면, 과일 판매량과 매출액 사이의 관계를 찾아서, 다음 주 판매량을 입력하면 예상 매출을 예측할 수 있어요.

다중 회귀 예시:

이번엔 집 가격을 예측해보아요.
집의 크기, 방의 개수, 위치 등의 정보를 가지고 있어요.
이 정보를 이용해서 집 가격을 예측하고 싶어요.
다중 회귀를 사용하면, 집 크기, 방 개수, 위치 등을 모두 고려해서 집 가격을 예측할 수 있어요.
요약
회귀분석은 숫자를 예측하는 데 사용되는 방법이에요.
단순 회귀는 하나의 변수를 사용하고, 다중 회귀는 여러 변수를 사용해요.
이 방법을 통해 데이터를 분석하고, 새로운 데이터를 예측할 수 있어요.

Feature Selection이란?

Feature Selection은 머신러닝에서 데이터의 여러 특성(컬럼) 중에서 중요한 것들만 고르는 작업입니다. 예를 들어, 친구의 키, 나이, 학년, 좋아하는 과목을 알고 있을 때, 친구의 성적을 예측하려고 한다면, 꼭 필요한 정보(특성)만 고르는 것이 Feature Selection입니다.

왜 Feature Selection이 중요한가요?

성능 향상: 중요한 정보만 사용하면 더 정확한 예측이 가능해요.
과적합 방지: 불필요한 정보를 제거하면 모델이 데이터를 너무 잘 외워서 새로운 데이터에 대해 잘못 예측하는 것을 막을 수 있어요.
시간 절약: 적은 특성으로 모델을 학습시키면 더 빨리 학습할 수 있어요.
이해하기 쉬움: 중요한 특성만 남기면 왜 그런 예측이 나왔는지 이해하기 더 쉬워요.

어떻게 Feature Selection을 하나요?

필터 방법:

각각의 특성을 개별적으로 평가해서 중요한 것들을 고릅니다.
예를 들어, 과일의 색깔과 무게가 과일의 맛을 예측하는 데 얼마나 중요한지 각각 평가해요.

from sklearn.feature_selection import SelectKBest, f_classif

예시 데이터

X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] # 특성 데이터 y = [1, 2, 3] # 목표 변수

가장 중요한 2개의 특성 선택

selector = SelectKBest(score_func=f_classif, k=2) X_new = selector.fit_transform(X, y) print(X_new)


2. 래퍼 방법:

- 특성들의 조합을 만들어서 가장 좋은 조합을 찾습니다.
- 예를 들어, 무게와 크기를 함께 고려하면 더 정확하게 예측할 수 있을지 확인해요.

>```python
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=2)  # 2개의 중요한 특성 선택
X_new = rfe.fit_transform(X, y)
print(X_new)

임베디드 방법:

모델을 학습하면서 동시에 중요한 특성을 고릅니다.
예를 들어, 랜덤 포레스트 모델이 자동으로 중요한 특성을 찾아내는 방식이에요.

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_
print(importances)  # 특성 중요도 출력

간단한 예시

친구들의 성적을 예측하는 예를 들어 볼게요:
데이터: 친구들의 키, 나이, 학년, 좋아하는 과목 등.
목표: 성적 예측.
필터 방법 각각의 특성을 성적과 비교해서 중요한 것만 고릅니다. 예를 들어, 키가 성적과 관련이 적다면 제거하고, 나이와 학년이 중요하다면 이 둘을 선택합니다.

래퍼 방법 특성들의 여러 조합을 만들어서 가장 좋은 조합을 찾습니다. 예를 들어, 키와 나이를 함께 고려하면 더 정확하게 예측할 수 있는지 확인합니다.
임베디드 방법 모델이 학습하면서 자동으로 중요한 특성을 고릅니다. 랜덤 포레스트 같은 모델은 자체적으로 어떤 특성이 중요한지 판단합니다.

Penalty Term

패널티 항은 머신러닝 모델을 학습할 때 모델이 너무 복잡해지는 것을 막기 위해 추가하는 항목입니다. 이는 모델이 데이터에 과적합(overfitting)되는 것을 방지하는 데 도움이 됩니다.

왜 패널티 항이 중요한가요?

과적합 방지: 모델이 학습 데이터에 너무 잘 맞아 새로운 데이터에 대해서는 잘못된 예측을 하지 않도록 도와줍니다.
모델 단순화: 너무 많은 특성이나 복잡한 모델을 사용하는 것을 방지하여, 모델을 더 단순하게 만듭니다.
패널티 항의 종류
L1 패널티 (라쏘 회귀, Lasso Regression):

각 특성의 가중치(계수)의 절대값을 합한 값을 패널티로 추가합니다.
결과적으로 중요하지 않은 특성의 가중치를 0으로 만들어, 특성 선택의 역할도 합니다.

L2 패널티 (릿지 회귀, Ridge Regression):

각 특성의 가중치(계수)의 제곱을 합한 값을 패널티로 추가합니다.
모든 특성의 가중치를 조금씩 감소시키지만, 0으로 만들지는 않습니다.

예시로 이해하기

기본 회귀 모델

회귀 모델은 데이터를 통해 어떤 결과를 예측하는 모델입니다. 예를 들어, 집의 크기와 가격 데이터를 사용해서 새로운 집의 가격을 예측할 수 있습니다.

패널티 항이 없는 경우

모델이 집의 크기뿐만 아니라 너무 많은 세부 정보를 고려하면, 데이터에 과적합될 수 있습니다. 즉, 모델이 학습 데이터에 너무 잘 맞아서 새로운 데이터에 대한 예측이 부정확해질 수 있습니다.

L1 패널티 (라쏘 회귀)

라쏘 회귀는 모델의 복잡성을 줄이기 위해 가중치의 절대값 합을 추가로 고려합니다. 이는 중요하지 않은 특성의 가중치를 0으로 만들어, 모델이 더 단순해지고, 중요한 특성만 남게 합니다.

from sklearn.linear_model import Lasso
# 라쏘 회귀 모델
model = Lasso(alpha=0.1)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

L2 패널티 (릿지 회귀)

릿지 회귀는 모델의 복잡성을 줄이기 위해 가중치의 제곱 합을 추가로 고려합니다. 이는 모든 가중치를 조금씩 감소시키지만, 0으로 만들지는 않아서 모든 특성을 고려하게 합니다.

from sklearn.linear_model import Ridge
# 릿지 회귀 모델
model = Ridge(alpha=0.1)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

요약

패널티 항: 모델이 너무 복잡해지지 않도록 추가하는 항목입니다.
L1 패널티 (라쏘 회귀): 가중치의 절대값 합을 추가하여 중요하지 않은 특성의 가중치를 0으로 만듭니다.
L2 패널티 (릿지 회귀): 가중치의 제곱 합을 추가하여 모든 가중치를 조금씩 감소시킵니다.
목적: 모델의 과적합을 방지하고, 더 좋은 예측을 하기 위해 사용됩니다.

코딩 테스트 - 노정호 강사님

Tue, 21 May 2024 01:24:31 GMT

코딩 테스트를 공부해야 하는 이유
- 대기업은 취업할때 대부분 코딩테스트를 실시.
- 내 포트폴리오가 아무리 좋아도 코테를 통과하지 못하면 포폴을 보여줄 수도 없음.
요즘 트렌트는 문제길이가 길어지면서 문해력파트가 중요해짐.
문제풀이 절차 (1) 문제 이해하기 문제 분석 (2) 접근 방법 - 자료구조 알고리즘 이론 학습 (3) 코드설계 시간 복잡도 (4) 코드 구현 언어숙련도(필수 코드 외우기) 구현연습
코테 효율적인 공부방법
- 시간복잡도
- 자주나오는 필수 자료구조/알고리즘
- 면접과 코테 내용은 다르다.
- 이론을 제대로 이해하고 문제 접근
- 구현이 중요하다. 주력 언어를 정하고 체화
- 스터디 꼭꼭.

1일차

시간 복잡도
메모리 구조
자료구조
- List, queue, stack, dictionary, graph, tree, heapq
알고리즘
- 완전탐색(+백트레킹), 재귀, 반복문,
- DFS, BFS, DP,
- Dijkstra(heapq), sort()

💡 오늘의 하이라이트는 재귀함수

def solution(nums, target):
    n = len(nums)
    def recur(ans, start):
        if len(ans) == 2:
            if nums[ans[0]] + nums[ans[1]] == target:
                return ans
            return False

        for i in range(start, n):
            ans.append(i)
            if recur(ans, i+1):
                return ans
            ans.pop()

    return recur([], 0)


print(solution(nums = [4,9,7,5,1], target = 14))

Stack - LIFO (프링글스) < 괄호문제는 stack으로 >

def solution(s):
  stack=[]
  for p in s:
      if p=='(':
          stack.append(p)
      else:
          if not stack:
              return False
          else:
              stack.pop()
  return not stack

2일차

💡 BFS, DFS

    - 그래프의 길찾기 문제.
    - DFS는 재귀를 이용한 알고리즘.
    - BFS는 최단거리를 알수 있다.

BFS - queue를 사용한다.

Queue - FIFO

deque.append()

deque.popleft()

from collections import deque
def bfs(graph, start_v):
q = deque()
# 시작점 예약
q.append(start_v)
# 방문 표시
visited = {start_v: True}
while q:
cur_v = q.popleft()
print(cur_v," ", end='')
for next_v in graph[cur_v]:
    if next_v not in visited:
        q.append(next_v)
        visited[next_v] = True

graph = { 0: [1, 3, 6], 1: [0, 3], 2: [3], 3: [0, 1, 2, 7], 4: [5], 5: [4, 6, 7], 6: [0, 5], 7: [3, 5], } bfs(graph, start_v=0)

---
- DFS : 재귀 사용
```python
def gogo(graph, start_v):
    visited = {}
    visited[start_v]=True
    def dfs(cur_v):
        print(cur_v," ", end='')
        for next_v in graph[cur_v]:
            if next_v not in visited:
                visited[next_v] = True
                dfs(next_v)
    dfs(start_v)

graph = {
    0: [1, 3, 6],
    1: [0, 3],
    2: [3],
    3: [0, 1, 2, 7],
    4: [5],
    5: [4, 6, 7],
    6: [0, 5],
    7: [3, 5],
}
gogo(graph, start_v=0)

3일차

💡 암시적 그래프, Dijkstra

    - 암시적 그래프는 행렬에 지도를 표시하는 방식
    - 4방향 또는 8방향을 탐색하면서 문제를 해결
    - 그 안에서 길을 찾는 것은 BFS, DFS를 사용.
    - Dijkstra는 그래프에 가중치를 더한 것.
    - heapq를 사용.

암시적 그래프 < DFS예시> : BFS도 마찬가지의 구조를 갖는다.

from collections import deque
class Solution:
  def numIslands(self, grid):
      row_len, col_len = len(grid), len(grid[0])
      visited = [[False] * col_len for _ in range(row_len)]
      def dfs(r,c):
          visited[r][c]=True
          for i in range(4):
              next_r = r + dr[i]
              next_c = c + dc[i]
              if 0 <= next_r < row_len and 0 <= next_c < col_len:
                  if grid[next_r][next_c]=="1":
                      if not visited[next_r][next_c]:
                          dfs(next_r,next_c)
              cnt = 0        
              for i in range(row_len):
          for j in range(col_len):
              if grid[i][j] == "1"
                  if not visited[i][j]:
                      dfs(i,j)
                      cnt += 1
      return cnt

grid = [ ["1", "1", "0", "0", "0"], ["1", "1", "0", "0", "0"], ["0", "0", "1", "1", "0"], ["0", "0", "0", "1", "1"], ]

dr = [0, 1, 0, -1] dc = [1, 0, -1, 0] s=Solution() s.numIslands(grid)

---
- Dijkstra : 이해해면서 외우자
```python
def dijkstra(graph, start_v, dest, n):
    distances = [INF] * (n + 1)
    distances[start_v] = 0
    pq = [(0, start_v)]

    while pq:
        cur_dist, cur_v = heapq.heappop(pq)
        if distances[cur_v] < cur_dist:
            continue
        for next_v, cost in graph[cur_v]:
            next_dist = distances[cur_v] + cost
            if next_dist < distances[next_v]:
                distances[next_v] = next_dist
                heapq.heappush(pq, (next_dist, next_v))
    return distances[dest]

graph = { … }
dijkstra(graph, 1, 8, len(graph))

Dijkstar 실전문제

from collections import defaultdict
import heapq
import sys

class Solution: def networkDelayTime(self, times, n, k): # 입력값 변환 # 가중치 단방향 그래프를 인접리스트로 구현하기 graph = defaultdict(list) for u, v, time in times: graph[u].append((time, v))

    # 1부터 n까지 총 n개의 노드의 cost를 적어 놓는다.
    costs = [sys.maxsize for _ in range(n + 1)]
    pq = [(0, k)]
    costs[k] = 0
    while pq:
        travel_time, cur_v = heapq.heappop(pq)
        for time, next_v in graph[cur_v]:
            next_cost = travel_time + time
            if next_cost < costs[next_v]:
                costs[next_v] = next_cost
                heapq.heappush(pq, (next_cost, next_v))

    # index 0번째에는 sys.maxsize값이 무조건 들어 있으므로 이를 제외한 나머지 값들만 다시 떼어준다.
    new_costs = costs[1:]

    # costs에 sys.maxsize와 같은 크기의 값이 저장되어 있다면 도달하지 못했다는 뜻이므로 -1를 반환한다.
    for cost in new_costs:
        if cost == sys.maxsize:
            return -1

    # 모든 노드를 방문하기 위한 최소 시간을 구해야 한다.
    # 각 노드까지 도달할 수 있는 최소 시간은 이미 costs에 저장해두었다.
    # 따라서 모든 노드를 방문하기 위해서는 가장 높은 시간을 반환해야 한다.
    return max(new_costs)

### 수업시간 문제들
- [1번문제: two sum](https://leetcode.com/problems/two-sum/)    
- [3번문제: combinations](https://leetcode.com/problems/combinations/)    
- [4번문제: 괄호 유효성 문제](https://school.programmers.co.kr/learn/courses/30/lessons/12909)   
- [7번문제: keys and rooms](https://leetcode.com/problems/keys-and-rooms/description/)

- [10번문제: number of islands](https://leetcode.com/problems/number-of-islands/)   
- [11번 문제: shortest path](https://leetcode.com/problems/shortest-path-in-binary-matrix/description/)   
- [13번 문제: network delay time](https://leetcode.com/problems/network-delay-time/description/)


### 추천문제들
1. [네트워크](https://school.programmers.co.kr/learn/courses/30/lessons/43162?language=python3)
2. [거리두기 확인](https://school.programmers.co.kr/learn/courses/30/lessons/81302)
3. [스타트 택시](https://www.acmicpc.net/problem/19238)

Python EDA를 위한 기초

Wed, 01 May 2024 07:56:47 GMT

python EDA를 하기 위해서는 numpy와 pandas 그리고 seaborn 세 라이브러리가 가장 많이 사용되므로 이것에 대한 사용법들을 배웠다.

전에 배웠던 내용들이여서 정리하면서 듣지 않고 좀 교양처럼 들었더니, 블로그 쓰기가 힘들어졌다.. 내가 몰랐던 것 위주로 다시 정리해본다.

Numpy as np

np.array는 python의 array와는 다르다. 덧셈이 벡터의 덧셈처럼 된다. np는 matlab과 비슷하다는 얘기를 들은 적이 있는 데, 그런 것도 같다.
python의 리스트처럼 합쳐지는 걸 하고 싶다면, np.vstack 이나 np.hstack과 같은 것을 쓰면 된다.
근데 곱셈은 각각 곱해진다. (벡터의 곱과는 다르다.)
dot product는 @를 사용.(v1 @ v2)
선형대수관련한 계산에는 라이브러리가 따로 존재한다.(np.linalg)
shape을 다시 조립할 수 있는 reshape이 있어서 좋다.
np.argmin, np.argmax는 해당하는 값의 인덱스를 반환한다.
우리가 직접 구현하는 것보다 Universal Function을 사용하는 것이 훨씨니 빠른 성능을 낸다. (괜히 깝치지 말고 우선 검색하자.)

Pandas as pd

DataFrame이 pandas의 꽃이지 않을까.
나 근데 이건 전부터 열심히 해서 진짜 좀 잘 한다.
pd.pivot_table을 사용했는데, groupby도 연습해두자.

seaborn as sns

모든 라이브러리가 그렇지만 seaborn도 잘 바뀌는 라이브러리라서 체크가 필요하다.
안되면 설명서 찾아서 읽어본다.
요소 중에 multiple='stack'은 값이 쌓이는 모습을 다른 색들을 사용하여 잘 보여준다.
아래는 그래프의 이름이며 이름만 봐도 직관적으로 무엇을 나타내는지 드러난다.
Histplot
Displot
Barplot
Countplot
Boxplot
Violinplot
Lineplot
Pointplot
Scatterplot
Pairplot
Heatmap

이제 EDA 프로젝트에 들어가는데 나는 주식관련으로 선택했다. 다행히 팀을 잘 만나서 데이터만 잘 모은다면 좋은 인사이트를 얻을수 있을 것이라고 생각한다. 화이팅!

확률통계

Fri, 26 Apr 2024 08:46:11 GMT

나는 수학과 출신이라서 한번 공부한 것들이라 확률통계에 대한 자세한 내용보다는 무엇을 공부해야 좋은지에 대해 정리해보도록 하겠다.

*** ICTMA 학회 수학적 모델링 학회(최적화인듯) - 찾아보자.

교재
- 모두의 인공지능 기초수학
- 현대 기초통계학 : 이해와 적용
- 머신러닝을 위한 통계학 : 박성호저
- 머신러닝 수학 바이블
- 제대로 시작하는 기초 통계학
데이터를 가지고 할 일들.
- 데이터 특성 요약 정리 : 기술통계
- 모집단의 특성 추론 : 추리통계
- 불확실한 미래의 사건 예측 : 회귀와 분류
데이터분석, 패턴 인식, 의사결정

다른 것들도 중요하지만, 아래의 항목들이

중요한 것들.

가설과 가설검정의 의미를 설명할 수 있다.
- 귀무가설 $H_0$ <-> 대립가설(연구가설) $H_1$
가설검정의 오류에 대해 설명할 수 있다.
유의수준과 유의확률에 대해 설명할 수 있다.
검정방법에 대해 설명할 수 있다.

그리고 가장 잘 쓸것 같은 것은

t-분포!

t검정에 대하여 설명할 수 있다.
단일표본 t검정, 독립표본 t검정에 대하여 설명할 수 있다.
파이썬을 사용하여 단일표본 t검정,독립표본 t검정을 실행할 수 있다.

그리고 ANOVA ( 일원분산분석, 이원분산분석 ), 상관관계, 선형회귀, Gradient Descent, 시그모이드 함수.

이것들을 좀 잘 찾아보자!

git - 이제 진짜 실전

Mon, 22 Apr 2024 15:19:56 GMT

💡 git branch 관련 명령어

head - 가장 최근에 작업한 곳 최신의 브랜치
git branch {name} 현재 공간상태 복제
git switch
git merge
git branch -D {name} 삭제
브렌치의 이름은 쓰임이 명확하게 드러나도록
쓰임을 다한 브렌치는 제때 지워줌
일반적으로 브렌치는 푸쉬는 안하고 나중에 잘 쓰고 메인이랑 머지하고 지움.
merge conflict - 사용자가 확인 후 잘 고치면 됨.
- 만약 알아서 잘 merge가 되서 merge conflict가 발생하지 않았지만 내가 원하는 대로 코드가 바뀌지 않았을 때는 코드를 바꾸고 나서 main에서 다시 add, commit을 해줘야 log가 남아서 무엇을 했는지 남기고 파악 할 수 있다.
git lg 하면 브렌치가 들어간 시각화가 가능해짐.

💡 git flow

master 버전 사용자가 쓸 버전 - 팀장 관리자 급
develop 다음 버전 개발
hotfix 긴급 수정
모바일앱 버전의 개념이 뚜렷
웹상은 좀 더 유연한 형태
검증은 github!

💡 github flow

편하고 단순한 구조 - 우리가 많이 작업할 구조.
issue 발행: 다 같이 개발 할 때 필요
깃헙 플로우에서는 메인에서 머지하지 않고 바로 푸쉬
git push -u origin {branch_name} (-u : upstream 옵션 : local과 remote간의 링크. 첫 푸쉬에서만 해주면 됨.)
pull request에서 title을 쓰는 것이 중요함.

💡 트러블 슛

이름바꾸기
- git mv name name 하면 알아서 commit까지 진행.
add 에서 내리기
- git reset HEAD
- git restore --staged README.md
최근 commit 수정
- git commit --amend
지금부터 앞에 3개의 commit 전으로 돌아간다.
- git revert --no-commit HEAD~3..

💡 Project를 협업을 진행해보자!

git - 코드 관리를 위한 git 사용법

Mon, 22 Apr 2024 15:10:44 GMT

우선 shell 과 vi의 사용법을 익히자.

shell에서의 주요 명령어.
- shell: 운영체제의 커널과 사용자를 이어주는 소프트웨어
- pwd: print working direct 나의 현재 위치 출력
- ls : list -a, -l, -al
- mkdir : 새로운 디렉토리 생성
- touch : 새로운 파일 생성
- mv : 저장 위치 옮기기(move). 이걸로 이름을 바꾸기도 한다.
- cp : 파일 복사. 이걸로도 이름을 바꾼다.
vim 고수의 냄새. 카페에서 간지를 지킬 수 있다.🤣
- ~ : 텍스트의 마지막을 표시하는 것
- ":"(콜론)을 찍어 여러 명령어를 입력한다.
- i : insert. 이것만 알아도 다 할수 있다.

이제 진짜 Git

Blob : 파일 하나의 내용에 대한 정보
다음의 그림이 굉장히 중요한 그림이다.
local과 remote는 실시간 상호작용하지 않는다. -> 중간 작업이 꼭 필요.(push, pull)

breaking change : 해당 커밋 이후로 지원이 중단되는 경우등의 아주 중요한 변경사항.

💡 Commit Message Convention

commit의 제목은 commit을 설명하는 문장형이 아닌 구나 절의 형태로 작성
importanceofcapitalize Importance of Capitalize
prefix 꼭 달기

feat: 기능 개발 관련
fix: 오류 개선 혹은 버그 패치
docs: 문서화 작업
test: test 관련
conf: 환경설정 관련
build: 빌드 작업 관련
ci: Continuous Integration 관련
chore: 패키지 매니저, 스크립트 등
style: 코드 포매팅 관련

💡 .gitignore

gitignore.io (https://www.toptal.com/developers/gitignore/)
git이 무시하길 바라는 부분을 .gitignore에 넣어주면 알아서 무시해준다.
위의 주소로 들어가면 알아서 .gitignore에 들어갈 내용을 만들어준다.

💡 git은 습관이 가장 중요!

• TIL(Today I Learned..) repository에 오늘 배운 것을 정리 • 매일 git으로 업로드를 해야하기 때문에 강제 커맨드 학습 가능 • github blog • hexo 로 정적 블로그를 만들어 정리하는 습관을 만들고 Markdown과 친해지기 • Side Project • 짧은 단위의 프로젝트를 자주 수행하여 생성-완성까지의 과정을 자주 반복

💡 Daily project for me

아래의 예시를 참고하여 git을 자꾸 쓰도록 노력한다. mkdir TIL mkdir TIL/git mkdir TIL/python touch git/240419-git-first.md touch python/240420-lambda-expressions.ipynb

💡 github pages

프로젝트 설명을 위한 웹사이트 호스팅 서비스 • username.github.io repo 생성 혹은 프로젝트 별 pages 생성 • https://www.upstage.ai/blog (ghost) • https://woowabros.github.io • https://spoqa.github.io/
동적 페이지 구성이 불가 -> 정적페이지 구성. 강사님은 hexo 추천.

💡 Static Site Generator

정적 페이지를 생성해주는 도구 • github pages는 파일 저장소이기 때문에 완성된 페이지만 제공 가능 • 모든 페이지가 독립적으로 존재해야함 -> 컨텐츠 관리의 어려움 발생 • jekyll( https://jekyllrb-ko.github.io/ ): Ruby 기반 정적 사이트 생성기 • 설치와 사용이 쉬움(많은 튜토리얼) • 사용자가 많았음 • Hugo( https://gohugo.io/ ): Go 기반 정적 사이트 생성기 • 빠른 속도로 사이트 빌드 가능 • 사용자 증가 중 • Hexo( https://hexo.io/ko/index.html ): node.js 기반 정적 사이트 생성기 • 쉬운 사용성과 사용자 개인화
ghblog
poetry 찾아보기(패키지 관리자)

https://hexo.io/docs/

새 포스트 작성은 다음과 같은 명령어로 하는 데,

$ hexo new [layout]  </code></pre></li>
<li><p>title로 url을 만들기 때문에 웹상의 노출을 원한다면 영어로 하는 것이 유리. title은 포스트 작성을 위한 편집화면에서 한글로 바꿀 수 있다. 위와 같은 명령어로는 title을 사용한 url을 만들어 주기 위함인 듯.</p>
</li>
</ul>

</article>
<article>
<h1>마인드셋 후기-박기수님, 김남혁님</h1>
<p>Mon, 22 Apr 2024 14:54:52 GMT</p>
<blockquote>
<h2 id="박기수님-마인드-셋">박기수님 마인드 셋</h2>
</blockquote>
<p>경진대회시 과정을 블로그에 정리하는 것이 나중에 도움이 됨. 그렇지 않으면 남는 기억들이 휘발될 수 있음.</p>
<p>그룹스터디 활용에서는 기본 규칙을 잘 정해서 지키도록 하고, 사이드 프로젝트 진행을 하는 것이 좋음. 인원수 너무 많지 않게.</p>
<h4 id="💡-프로젝트-진행">💡 프로젝트 진행</h4>
<ol>
<li>파이썬 프로젝트
팀플.</li>
<li>EDA 프로젝트
팀플-대쉬보드
너무 어려운 주제 하지말자.
데이터가 없는 것은 피하자.</li>
<li>ML Learing 프로젝트
submission하는 것부터 연습해보자.
팀 분위기가 중요하다.</li>
</ol>
<h4 id="💡-경진대회">💡 경진대회</h4>
<p>멘토링도 같이 진행(실시간 & 서면)
순위의 순서로 발표순서 고정. (잔인해!)</p>
<ol>
<li><p>ML 경진대회
데이터 전처리와 파생변수 생성이 핵심!</p>
</li>
<li><p>CV 경진대회
문서타입 분류 경진대회
OCR에 집착하지 않는 것이 큰 핵심.
우선 구현하고 시간이 남으면 OCR을 적용</p>
</li>
<li><p>NLP 경진대회
갑자기 높아지는 레벨
음성대화를 요약 텍스트화.
편협적인 사고를 버리자.
분석보델보다는 데이터 전처리가 관건.</p>
</li>
<li><p>AI 경진대회
한대회에만 집중하여야 함.</p>
</li>
</ol>
<blockquote>
<h2 id="김남혁-특강">김남혁 특강</h2>
</blockquote>
<p>모두가 동일한 커리큘럼을 배우기때문에 차별성을 갖기 어려운 것이 부트캠프의 단점.</p>
<p>ai 대회에 관해서는 4가지 분야중에 모든것을 다 잘할 필요는 없다. 선택과 집중이 더 중요.</p>
<h4 id="💡-공부-방법">💡 공부 방법.</h4>
<ul>
<li><p>키워드를 중심으로 전체적인 흐름을 이해하는 것이 중요.
그러나 키워드를 중심으로 기본기를 쌓는 것도 중요.</p>
</li>
<li><p>코테에 대한 꾸준한 준비가 필요하다.
참고 : 프로그래머스</p>
</li>
</ul>
<h4 id="💡-cs-면접-단골질문">💡 cs 면접 단골질문.</h4>
<ul>
<li>자료구조, 알고리즘, 운영체제, 네트워크, 데이터베이스</li>
<li>정보처리기사로 공부해도 괜찮다.</li>
<li>빅데이터분석기사 크게 추천하진 않지만 그중에는 나쁘지 않다.</li>
<li>백엔드.</li>
</ul>
<h4 id="💡-논문스터디">💡 논문스터디</h4>
<p>부트캠프의 한계를 극복하기 위해 나만의 차별화를 위한 사이드 프로젝트</p>
<ol>
<li>캐글, 데이콘등의 competition<ul>
<li>GitHub Repo를 만들어서 깔끔하게 관리.</li>
<li>자주성을 보여줄 수 있게 하자.</li>
</ul>
</li>
<li>Demo page<ul>
<li>특정 문제를 정의하고, 이를 위해 ai를 활용한 데모 페이지를 구현하는 것.</li>
<li>시각적 이펙트가 큼.</li>
<li>현업과 밀접한 연관이 있기 때문에, 포트폴리오를 더욱 풍성하게 만들어 줌.</li>
</ul>
</li>
</ol>

</article>
<article>
<h1>Python Basic
- 파이썬 수업이면서 인생수업</h1>
<p>Thu, 04 Apr 2024 03:08:01 GMT</p>
<h2 id="하루만에-자료형-반복문-크롤링-다-배웠네">하루만에 자료형, 반복문, 크롤링 다 배웠네?</h2>
<p>8시간 수업하면서 저것들을 다 배웠다. 학부때 생각하면 반복문까지 한달은 배웠던 것 같은 데, 강사님께서 엑기스들만 뽑아서 꼭 알아야 할 부분 위주로 설명해 주셨다. 같이 강의 들으시는 분들이 모두 아나콘다나 미니콘다를 깔고 계신거 보면 이렇게 빨리 수업하는 것이 무리는 아닐 것이라 생각한다.</p>
<h2 id="python과-vsc-셋팅하는-데에-많은-시간을-소비했다">Python과 VSC 셋팅하는 데에 많은 시간을 소비했다!</h2>
<p>나의 올드맥북(late 2009)을 저번 부트캠프에서 사용하면서 여러가지 힘든 점들이 있었다. macos버전이 너무 낮다보니까 아무래도 요즘 마구마구 나오는 여러 프로그램이나 패치들을 까는 게 까다로웠다는 거! 항상 macos 버전에 맞는 패치를 찾아 다니는 하이에나가 되어야했다. 나도 생각 없이 다운로드에서 맨 위에 있는 파일 다운받아서 쓰고 싶었다! 그래서 큰맘 먹고 맥북에어를 이틀전에 구매하였다. </p>
<p> 전에는 수업에서 파이썬과 VSC를 설치 및 세팅 방법을 다루어서 이번에도 그럴줄 알았는 데 여기는 각자 알아서 설치하는 시스템. M2 모델이라서 구글링하며 설치했는 데 하나를 놓쳐서 삽질을 좀 했다.</p>
<blockquote>
</blockquote>
<ul>
<li>Homebrew를 깔고 나서 경로지정을 따로 해줘야한다. 첨에 지정 안해주고 바로 miniforge 깔았는 데 세상 계속 에러나서 너무 힘들었다. 지정해주자마자 바로 되는 거 있지. 하하하<pre><code>echo 'eval $(/opt/homebrew/bin/brew shellenv)' >> /Users/본인 홈 이름/.zprofile
eval $(/opt/homebrew/bin/brew shellenv)</code></pre></li>
<li>M2 는 Miniforge를 깔아야한다. 홈페이지 가서 다운받자. sh 파일은 다음과 같이 설치하면 된다. homebrew에서 깔았더니 제대로 안깔아졌다. homebrew 설치시 경로지정을 제대로 안해줘서 그런것 같기도 하다.<pre><code>bash Miniforge3-MacOSX-arm64.sh</code></pre></li>
<li>iTerm2도 깔았는 데 필수는 아니다. 아직까지 더 좋다는 느낌은 없다.</li>
<li>VSC는 새컴터라 그런가 어려움 없이 설치가 가능했다. conda 가상환경 만들어서 세팅해주었다. 전에는 interpreter를 검색해야 했는데 이제는 바로 파이썬 패치를 깔고 나니 화면에 필요한 셋팅들이 나와서 알아서 셋팅하고 주피터 노트북도 안깔았는 데 '이거 필요해!' 하면서 깔더라. 더 편해졌다. 전 맥북은 interperter를 인식을 못하고 난리를 쳤었는 데 이제는 그런거 하나 없다.ㅎ</li>
</ul>
<h2 id="강사님의-인생수업">강사님의 인생수업.</h2>
<p>나도 프로그래밍을 좀 할수 있고 크롤링도 할수 있고 했는 데, 그걸 돈버는 용으로 사용할 생각은 전혀 하지 못했다. 인상 깊은 점을 정리하고 가끔 한번씩 보면서 해보는 시간을 가지면 좋을 것 같다.</p>
<blockquote>
</blockquote>
<ul>
<li>불편함 혹은 호기심이 생기면 바로 해결하려 실행에 옮기시나보다. 진짜 여러가지 분야에서 활동하시는 데 그것들의 공통점은 정보를 모아 정리하여 돈이 되는 포인트를 찾는 것이였다.</li>
<li>나는 보통 '그냥 내가 해줄께' 하고 지나쳤던 부분들을 모두 연봉으로 바꾸셨다고 한다! 자신의 가치를 높이실 줄 아는 모습이 대단히 인상깊었다.</li>
<li>도전을 두려워하지 않으시는 것 같았다. 크게 투자를 따낸 스타트업에 그냥 지원을 하신다는 게 흥미로웠다. 자존감이 높으니까 가능한 일이 아닌가 싶다. </li>
</ul>
<p>강사님은 회사생활 하시면서 이런저런 일들에 대한 인사이트를 얻곤 하지만, 나는 집에서 아이를 돌봐야 하는 입장에서 여러 사람들을 만나기는 쉽지 않다. 그래서 책을 여러분야로 읽어보면 좋을 것 같다. 문천식 아저씨가 무슨 책이든 많이 읽으라고 했다. 책을 읽으면서 세상이 변했다고 하시던데 나의 세상도 좀 능동적으로 변했으면 한다. </p>
<p> 나 같은 선택 장애자한테는 추천 도서목록이 있으면 좋을 것 같아 구글링 해보았다.</p>
<blockquote>
</blockquote>
<ul>
<li>마흔, 40대 도서 책 추천 고민될 때 읽어볼 10권! (Book N Life 님의 블로그)
<a href="https://blog.naver.com/sktkfpt10/221409813104">https://blog.naver.com/sktkfpt10/221409813104</a></li>
</ul>
<p>우선 이거 10권 읽는 게 목표. 리뷰도 쓸수 있을까...
혹시 이 글을 보시는 분들중에 추천하고 싶으신 책들 (총균쇠 빼고)은 추천 부탁!</p>

</article>
<article>
<h1>Upstage AI LAB 시작한닷</h1>
<p>Tue, 02 Apr 2024 06:58:42 GMT</p>
<blockquote>
<p>다시 부트캠프를 시작하다.</p>
</blockquote>
<p>2024년도 벌써 3개월이나 지났다.</p>
<p>1월에 인스타 하다가 패스트캠퍼스에서 하는 국비지원교육들을 보게 되었는데 거기에 AI lab이 있더라. 
작년에 했던 제로베이스 프로젝트가 중도하차하게 되어 많이 아쉬웠었던 참이였는 데 잘 되었다 하고 신청하였다.</p>
<blockquote>
<p>내가 잘할 수 있을까?</p>
</blockquote>
<p>사실 나는 주부다. 두 아이가 있고 집은 시골이라 애들 맨날 학교든 학원이든 라이딩을 해줘야하는 데 주변에 도와줄 친인척 하나도 없는 상황이라서 10시부터 19시까지 하는 빡쎈 수업을 내가 해낼 수 있을까 걱정이 앞서긴한다. 어떻게 되겠지. 우선은 신청한다.</p>
<p>나에게는 좀 전환점이 필요했다. 이대로 아이들만 키우고 애들 학교가면 숏츠보면서 집안일을 하는 전형적인 주부가 되는 게 두렵다. 그래서 내 겨드랑이에 팔넣어서 캐리해 줄 무언가가 필요했다.</p>
<p>문제는 신청이 신청이 너무너무 빡쎘다. 나같은 소심이들에게 정말 크나큰 용기를 필요로 하는 비대면 녹화면접까지 있었다!! 진심 너무너무 안하고 싶어서 증말 끝까지 미루고 미루다가 마지막날에 몰아서 했다. </p>
<p>과연 잘한 일이였을까는 한 3개월 후에 다시 말해보도록 하겠다.</p>
<blockquote>
<p>너어어무 친절하다!!!</p>
</blockquote>
<p>어제 OT를 진행하였는 데 내가 느낀 점은 정말 다들 친절하시다는 거다. 다른 부트캠프는 시작할 때 열심히 안하면 드랍시킬꺼야!! 하면서 겁도 많이 주고 했는데 여기는 </p>
<p>" 다 도와줄꺼야. 너만 잘하면 됨!" </p>
<p>요런 느낌! 그리고 슬랙같은 것도 전 부트캠프에서 처음 써봤는 데 어렵고 생소했었다. 여기는 슬랙 쓰는 부분까지도 다 시간을 가지고 설명해주고 블로그 쓰는 것도 마찬가지로 해주다보니 정말 딱 친절하다는 생각이 많이 들었다.</p>
<p> 하튼 지금까지는 괜찮다. PM님 좀 무서워보였는 데 잘 웃으시고 친절하시다. 아 그리고 LM님이 진짜 순둥순둥하시다. </p>
<p>오늘은 입과시험을 치뤘는데 생각보다 너무 어려운거!
작년 8월인가까지 파이썬을 하고 그 이후에는 전혀 저어어어언혀 하지 않았더니 증말 하나도 모르겠드라. 짜내고 짜내고 해서 겨우겨우 시험봤다. 다 못했는 데 그냥 냈다. 다음주에 배우면서 좀 더 채워넣어야 할 것 같다.</p>
<blockquote>
<p>진짜 나만 잘하면 된다.
열심히 해보자 아자아자!</p>
</blockquote>

</article>
<article>
<h1><8주_1일> 💡SQL subsquery</h1>
<p>Tue, 27 Jun 2023 03:55:46 GMT</p>
<h2 id="💡sql-subsquery">💡SQL subsquery</h2>
<h3 id="scalar-subquary">scalar subquary</h3>
<p>select절에서 사용.
결과는 하나의 column이어야함.</p>
<blockquote>
<h4 id="예제">예제</h4>
<p>oil_price테이블에서 셀프주유소의 평균가격과 SK에너지의 가장 비싼 가격을 조회하시오.</p>
</blockquote>
<pre><code class="language-sql">mysql> select max(가격) SK주유소최대값, 
    ->(select avg(가격) from oil_price where 셀프='Y') 셀프주유소평균값 
    ->from oil_price where 상표 like '%SK%';</code></pre>
<h3 id="inline-view">inline view</h3>
<p>from 절에 사용하는 subquary
mainquary 에서는 inline view에서 조회한 column만 사용가능.</p>
<blockquote>
<h4 id="예제-1">예제</h4>
<p>경찰서 별로 가장 많이 발생한 범죄 건수와 범죄 유형을  조회.</p>
</blockquote>
<pre><code class="language-sql">>mysql>select c.police_station, c.crime_type, c.case_number 
    ->from crime_status c, 
    ->(select police_station, crime_type, max(case_number) count 
    ->from crime_status where status_typ'발생' group by police_station) m  
    ->where c.police_station = m.police_station and c.case_number = m.count;</code></pre>
<h3 id="nested-subquery">nested subquery</h3>
<p>where 절에서 사용하는 서브쿼리.</p>
<ul>
<li>single row : 하나의 행을 검색하는 서브쿼리</li>
<li>multiple row : 하나 이상의 행을 검색하는 서브쿼리</li>
<li>mutiple column : 하나 이상의 열을 검색하는 서브쿼리</li>
</ul>
<h4 id="single-row-subquery">single row subquery</h4>
<p>서브쿼리가 비교연산자와 사용되는 경우, 서브쿼리의 검색 결과는 한 개 행의 결과값을 가져야 한다.</p>
<blockquote>
<h4 id="예제-2">예제</h4>
<p>snl에 출연한 셀럽중에 id가 1인 사람.</p>
</blockquote>
<pre><code class="language-sql">mysql> select name from celeb where name = (select host from snl_show where id = 1);</code></pre>
<h4 id="multiple-row----in">multiple row  - IN</h4>
<ul>
<li>서브쿼리 출력결과와 하나라도 일치하면 참이 된다.</li>
</ul>
<blockquote>
<h4 id="예제-3">예제</h4>
<p>snl에 출연한 영화배우를 조회</p>
<pre><code class="language-sql">mysql> select host
    -> from snl_show
    -> where  host in (select name from celeb where job_title like '%영화배우%');</code></pre>
</blockquote>
<pre><code>
#### multiple row  - EXISTS

> #### 예제
범죄 검거 혹은 발생 건수가 2000건보다 큰 경찰서 조회
```sql
mysql> select name from police_station p where exists (select police_station from crime_status c where p.name = c.reference and case_number > 2000);</code></pre><h4 id="multiple-row----any">multiple row  - ANY</h4>
<p>커브쿼리 결과 중에 하나라도 만족하면 됨</p>
<blockquote>
<h4 id="예제-4">예제</h4>
<p>snl 에 출연한 적이 있는 연예인 이름 조회</p>
</blockquote>
<pre><code class="language-sql">mysql> select name from celeb where name = any (select host from snl_show);</code></pre>
<h4 id="multiple-row----all">multiple row  - ALL</h4>
<p>서브쿼리 결과를 모두 만족하면 (비교연산자 사용)</p>
<blockquote>
<h4 id="예시">예시</h4>
</blockquote>
<pre><code class="language-sql">mysql> select name from celeb 
    -> where name = all ( select host from snl_show where id = 1);</code></pre>
<h4 id="multi-column-subquery">multi column subquery</h4>
<p>서브쿼리 내에 메인쿼리 컬럼이 같이 사용되는 겅우</p>
<blockquote>
<h4 id="예제-5">예제</h4>
<p>강동원과 성별, 소속사가 같은 연예인의 이름, 성별, 소속사를 조회.</p>
</blockquote>
<pre><code class="language-sql">mysql> select name, sex, agency from celeb 
    -> where (sex, agency) in (select sex, agency from celeb where name='강동원');</code></pre>

</article>
<article>
<h1><7주차_5일>SQL(5) Concat,  Alias,  Distinct, Limit</h1>
<p>Tue, 20 Jun 2023 02:21:44 GMT</p>
<ul>
<li>참고사항 : 데이터를 찾을 때, 양쪽 데이터에 중복되는 분류명이 없다면 그냥 분류명만을 써주면 되고 혹시 양쪽 데이터에 같은 분류명이 있다면 그땐 그 테이블명이나 그 테이블의 alias를 같이 명시해주어야 한다.<h3 id="concat">CONCAT</h3>
여러 문자열을 하나로 합치거나 연결<pre><code class="language-sql">select concat('이름:', name) from celeb;</code></pre>
</li>
</ul>
<h3 id="alias">ALIAS</h3>
<p>칼럼이나 테이블에 이름 별칭 생성</p>
<pre><code class="language-sql">select name as '이름' from celeb;
+-----------+
| 이름      |
+-----------+
| 아이유    |
| 이미주    |
| 송강      |
| 강동원    |
| 유재석    |
| 차승원    |
| 이수현    |
+-----------+

select name as '이름',agency as '소속사' from celeb;
+-----------+--------------------------+
| 이름      | 소속사                   |
+-----------+--------------------------+
| 아이유    | EDAM엔터테이먼트         |
| 이미주    | 울림엔터테이먼트         |
| 송강      | 나무엑터스               |
| 강동원    | YG엔터테이먼트           |
| 유재석    | 안테나                   |
| 차승원    | YG엔터테이먼트           |
| 이수현    | YG엔터테이먼트           |
+-----------+--------------------------+</code></pre>
<h3 id="concat-과-alias">CONCAT 과 ALIAS</h3>
<ul>
<li>두 명령어를 동시에 사용하면 좀더 쉽게 데이터 찾기가 가능하다.
```sql<h1 id="1">1.</h1>
select concat(name,':',job_title) as profile from celeb;</li>
<li>----------------------------------+
| profile                          |</li>
<li>----------------------------------+
| 아이유:가수, 탤런트              |
| 이미주:가수                      |
| 송강:탤런트                      |
| 강동원:영화배우,탤런트           |
| 유재석:MC, 개그맨                |
| 차승원:영화배우, 모델            |
| 이수현:가수                      |</li>
<li>----------------------------------+
7 rows in set (0.00 sec)</li>
</ul>
<h1 id="2">2.</h1>
<p>select concat(season,'-',episode,'(',broadcast_date,')') 
as '방송정보', 
concat(name,'(',job_title,')') 
as '출연자정보' 
from celeb, snl_show 
where name=host;
+------------------+-----------------------------------+
| 방송정보         | 출연자정보                        |
+------------------+-----------------------------------+
| 8-7(2020-09-05)  | 강동원(영화배우,탤런트)           |
| 8-8(2020-09-12)  | 유재석(MC, 개그맨)                |
| 8-9(2020-09-19)  | 차승원(영화배우, 모델)            |
| 8-10(2020-09-26) | 이수현(가수)                      |
+------------------+-----------------------------------+</p>
<pre><code>
### DISTINCT
검색한 결과의 중복을 제거

```sql
select distinct agency from celeb;
+--------------------------+
| agency                   |
+--------------------------+
| EDAM엔터테이먼트         |
| 울림엔터테이먼트          |
| 나무엑터스               |
| YG엔터테이먼트           |
| 안테나                  |
+--------------------------+
5 rows in set (0.00 sec)
</code></pre><h3 id="limit">LIMIT</h3>
<p>검색결과를 정렬된 순으로 주어진 숫자만큼만 조회</p>
<pre><code class="language-sql">select * from celeb order by age limit 4;
+----+-----------+------------+------+------+-------------------+--------------------------+
| ID | NAME      | BIRTHDAY   | AGE  | SEX  | JOB_TITLE         | AGENCY                   |
+----+-----------+------------+------+------+-------------------+--------------------------+
|  7 | 이수현    | 1999-05-04 |   23 | F    | 가수              | YG엔터테이먼트           |
|  2 | 이미주    | 1994-09-23 |   28 | F    | 가수              | 울림엔터테이먼트         |
|  3 | 송강      | 1994-04-23 |   28 | M    | 탤런트            | 나무엑터스               |
|  1 | 아이유    | 1993-05-16 |   29 | F    | 가수, 탤런트      | EDAM엔터테이먼트         |
+----+-----------+------------+------+------+-------------------+--------------------------+
4 rows in set (0.00 sec)
</code></pre>

</article>
<article>
<h1><7주차_4일>SQL(4) UNION, JOIN</h1>
<p>Tue, 20 Jun 2023 02:16:32 GMT</p>
<h3 id="union">UNION </h3>
<ul>
<li>UNION : 중복된 값을 제거하여 알려준다.</li>
<li>UNION ALL : 중복된 값도 포함하여 모두 보여준다.</li>
</ul>
<pre><code>select * from test1
union
select * from test2</code></pre><h3 id="join">JOIN</h3>
<p>INNER JOIN
두 개의 테이블에서 공통되 ㄴ요소들을 통해 결합하는 조인방식(교집합)</p>
<pre><code class="language-sql">select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb inner join snl_show 
on celeb.name = snl_show.host;
+----+-----------+----+-----------+
| id | name      | id | host      |
+----+-----------+----+-----------+
|  4 | 강동원    |  1 | 강동원    |
|  5 | 유재석    |  2 | 유재석    |
|  6 | 차승원    |  3 | 차승원    |
|  7 | 이수현    |  4 | 이수현    |
+----+-----------+----+-----------+</code></pre>
<p>LEFT JOIN
두 개의 테이블에서 공통영역을 포함해 왼쪽 테이블의 다른 데이터를 포함하는 조인 방식</p>
<ul>
<li>문제 : snl_show 에 호스트로 출연한 celeb을 기준으로 celeb테이블과 snl_show테이블을 left join 해주세요.</li>
</ul>
<pre><code class="language-sql">select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb left join snl_show 
on celeb.name = snl_show.host;
+----+-----------+------+-----------+
| id | name      | id   | host      |
+----+-----------+------+-----------+
|  4 | 강동원    |    1 | 강동원    |
|  5 | 유재석    |    2 | 유재석    |
|  6 | 차승원    |    3 | 차승원    |
|  7 | 이수현    |    4 | 이수현    |
|  1 | 아이유    | NULL | NULL      |
|  2 | 이미주    | NULL | NULL      |
|  3 | 송강      | NULL | NULL      |
+----+-----------+------+-----------+</code></pre>
<p>RIFHT JOIN
두 개의 테이블에서 공통영역을 포함해 오른쪽 테이블의 다른 데이터를 포함하는 조인 방식</p>
<ul>
<li>문제 : snl_show 에 호스트로 출연한 celeb을 기준으로 celeb테이블과 snl_show테이블을 right join 해주세요.</li>
</ul>
<pre><code class="language-sql">select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb right join snl_show 
on celeb.name = snl_show.host;
+------+-----------+----+-----------+
| id   | name      | id | host      |
+------+-----------+----+-----------+
|    4 | 강동원    |  1 | 강동원    |
|    5 | 유재석    |  2 | 유재석    |
|    6 | 차승원    |  3 | 차승원    |
|    7 | 이수현    |  4 | 이수현    |
| NULL | NULL      |  5 | 이병헌    |
| NULL | NULL      |  6 | 하지원    |
| NULL | NULL      |  7 | 제시      |
| NULL | NULL      |  8 | 조정석    |
| NULL | NULL      |  9 | 조여정    |
| NULL | NULL      | 10 | 옥주현    |
+------+-----------+----+-----------+</code></pre>
<p>FULL OUTER JOIN
두 개의 테이브에서 공통영역을 포함하여 양쪽 테이블의 다른 영역을 모두 포함하는 조인방식(합집합)</p>
<p>MySQL 에서는 FULL JOIN을 지원하고 있지 않기 때문에 LEFT JOIN과 RIGHT JOIN을 UNION하는 식으로 구현해야한다. </p>
<ul>
<li>문제 : snl_show 에 호스트로 출연한 celeb을 기준으로 celeb테이블과 snl_show테이블을 full outer join 해주세요.</li>
</ul>
<pre><code class="language-sql">select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb left join snl_show 
on celeb.name = snl_show.host 
union 
select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb right join snl_show 
on celeb.name = snl_show.host;
+------+-----------+------+-----------+
| id   | name      | id   | host      |
+------+-----------+------+-----------+
|    4 | 강동원    |    1 | 강동원    |
|    5 | 유재석    |    2 | 유재석    |
|    6 | 차승원    |    3 | 차승원    |
|    7 | 이수현    |    4 | 이수현    |
|    1 | 아이유    | NULL | NULL      |
|    2 | 이미주    | NULL | NULL      |
|    3 | 송강      | NULL | NULL      |
| NULL | NULL      |    5 | 이병헌    |
| NULL | NULL      |    6 | 하지원    |
| NULL | NULL      |    7 | 제시      |
| NULL | NULL      |    8 | 조정석    |
| NULL | NULL      |    9 | 조여정    |
| NULL | NULL      |   10 | 옥주현    |
+------+-----------+------+-----------+</code></pre>
<p>SELF JOIN</p>
<ul>
<li>컬럼명 앞에 테이블명을 명시</li>
<li>컬럼명만 명시해도 되나, 동일한 이름의 컬럼이 존재하면 그것에는 테리블명을 명시해야한다.</li>
</ul>
<ul>
<li>문제 : snl_show 에 호스트로 출연한 celeb을 기준으로 소속사가 안테나인 사람을 찾으세요.</li>
</ul>
<pre><code class="language-sql">select celeb.id, celeb.name, snl_show.id, snl_show.host 
from celeb, snl_show 
where celeb.name=snl_show.host and celeb.agency='안테나';
+----+-----------+----+-----------+
| id | name      | id | host      |
+----+-----------+----+-----------+
|  5 | 유재석    |  2 | 유재석    |
+----+-----------+----+-----------+</code></pre>
<p>self join에서 가장 중요한 것은 "찾으려는 데이터의 조건이 무엇이냐" 를 파악하는 것이다. 예제나 실습 모두 뭘 찾으라는 건지 잘못이해해서 헤맸다. 문해력이 중요한 시대이다. 책좀 읽어라!</p>

</article>
</main></body></html>

nary_kim.log

취업완성 - Recsys 경진대회 정리

1. Competiton Info

Overview

Timeline

2. Data descrption

Dataset overview

Data Processing

3. Modeling

사용 모델

Boost 모델을 위한 Feature engineering

특이사항?

결과 (실험한 시간순으로 정리)

4. Result

Leader Board

시도한 점

아쉬운 점

Data centric AI

Data-Centric AI

1. 데이터 품질 향상

2. 라벨링 개선

일상 대화 요약대회

1. 대회설명

Overview

Timeline

Model descrition

2. 목표와 결과

Kobart 완전정복하기

장점:

단점:

kobart로 시도한 것들

위의 모든 것들이 baseline을 넘지 못하였다.

아쉬웠던 점

3. 새로운 시도

이번엔 엑셀 점수저장을 좀더 잘했다!

4. 프로젝트 후기

5. 다음 대회에서 할 일

마지막 대회에는 다시 열정 탑재가 필요!

화이팅!!

Computer Vision 도메인 학습

이미지 분할 및 임베딩

계층적 특징 추출

Swin Transformer Block

윈도우 기반 self-attention

Shifted Window 메커니즘

패치 병합 (Patch Merging)

수학적 표현

모델 복잡도

문서분류대회 회고

1. 대회설명

Overview

Timeline

Model descrition

2. 목표와 결과

학습데이터를 테스트데이터와 비슷하게 만들자

Swin t의 하이퍼파라미터를 튜닝하였다.

test 데이터의 Denoising

결과

test Denosing에 맞는 학습데이터 다시 구축

결과

OCR을 사용하여 데이터를 Postprocessing하였다.

3. 새로운 시도

파일을 나눠서 저장

wandb의 sweep 사용

nohup으로 py 파일 돌리기

팀장과 발표를 하였다!

4. 프로젝트 후기

5. 다음 대회에서 할 일

팀 단위 체계성

개인의 체계성

모델 선정 기준잡기

ML regression 대회 회고

1. 대회정보

2. 나의 목표와 결과

결측치를 줄여보자.

좌표에 대한 결측치는 0으로 만들자.

의미있는 변수를 찾자.

여러가지 모델을 실험해보자

3. 나의 새로운 시도

wandb