sj_1537.log

04. 멋쟁이사자처럼X쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기_2차 과제 후기

Sun, 05 Jun 2022 15:36:11 GMT

2차 과제 후기 📝

현충일이 있는 황금연휴 주, 6월 5일 일요일 밤 11시 59분까지 제출 성공!!

이번 과제는 4~5주차 강의 내용을 바탕으로 수행할 수 있으며 수행 조건은 아래와 같았다.

이 중 내가 달성에 실패한 항목은 2가지로 만점은 실패 😂

Train-valid split에 randomness 적용.

-> dataset에서 data와 target이 따로 각각 shuffle이 되면서 라벨 매칭이 엉망으로 됨. 'data-target' 묶음으로 shuffle 하는 방법을 찾지 못한 것이 원인. random.shuffle(dataset) 도 아니었고 torch.randperm(dataset)도 아니었다. 아직 데이터 핸들링이 익숙치 않은 탓이다 😓

FMNIST dataset에 대해 acc 90.5% 달성

-> 89.85%로 마의 구간 90% 조차 넘치 못함.

모델은 기본으로 제시된 base모델 외 3가지, optimizer는 기본으로 제공된 sgd, adam 이외 2가지, lr은 2가지를 사용하였다.

생각보다 학습에 걸리는 시간이 오래 걸려서 세션을 여러개 걸어두고 코랩을 돌리기도 하였다.

그럼에도 최적의 조합을 찾는데는 실패 😭 효율적인 튜닝 방법에 대해서 다시 학습해야겠다.

희열의 순간 🔥

그래도 이번 과제를 하면서 뿌듯했던 순간은 MNIST dataset에서 98.5% 이상 달성한 순간..!

학습을 위한 for문 하나에만 몇 시간 소요 됐었다. 이게 이렇게 오래 걸릴 일인가 ...라며 하염없이 모니터를 쳐다보고 있었다.

수많은 0.981~0.984 사이의 결과값들 끝에 나온 값이었기에 0.985가 넘는 숫자가 너무나도 반가웠다.

그런데 .. 사실 위와 같은 값을 돌렸을 때 처음엔 98.4%가 나오기도 했다. 어찌저찌해서 나오긴했으나 결과론적으론 운이 좋아서 98.5% 를 넘긴 것이라 생각한다.

초심자의 행운이 아닐까. 이번 연휴에는 4~5주차 강의를 좀 더 반복학습해야겠다.

03. 멋쟁이사자처럼X쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기_강의 수강 Tip

Wed, 01 Jun 2022 14:17:19 GMT

노션을 활용한 스크립트 공유

강의 내용이 쉽지 않다보니 반복 학습을 하게 되면서 생긴 노하우(?) 이다.

영상을 틀어 볼 수 없는 상황일 때, 내가 찾고자 하는 내용이 몇 분 몇 초에 나왔는지 모를 때, 한눈에 빠르게 강의 내용을 다시 공부하고 싶을 때 유용하다.

우리 PG 그룹은 위 이미지와 같이 강의 Chapter에 맞게 노션 페이지를 구성하여 공유하고 있다.

스크립트 작성 방식은 모두가 다양할텐데, 나의 경우 위와 같이 작성하였다. 15분 짜리 강의 스크립트를 작성하는데 1시간은 족히 소요된다는 점에서 혼자 모든 강의를 커버하기엔 큰 부담이다. 때문에 PG원들과 함께 아카이브 형식으로 운영하면 Workload가 혼자 할 때보다 절반 그 이상으로 줄어든다는 장점이 있다.

스크립트 작성은 단순히 받아쓰기 그 이상이다.

이야기하다보면 문장이 길어지고 주술 관계 호응이 어색해지기 마련이다. 때문에 강의 스크립트를 100% 동일하게 받아적을 경우 텍스트로는 이해가 어려워지는 상황들이 자주 발생한다. 이런 부분은 작성자가 직접 문장을 끊어주고 단어를 변경하는 등 후작업이 들어가게 된다. 또한 계산식, 이미지, 코드 등의 내용이 나올 경우 일반 문장을 받아 치는 것에 비해 손이 더 많이 간다.

한 문장 듣고, 일시정지 버튼 누르고, 받아적고, 재생버튼 누르고, 한 문장 듣고, 일시정지 버튼 누르고, 받아적고, 놓친 부분은 뒤로 돌려서 다시 듣고, 다시 수정해서 적고 ...

손이 많이 가고 시간 투입양도 꽤나 많아서 막말로는 노가다(...)라고 할 수 있다. 그래도 공부의 기록을 남긴다는 차원에서는 의미있는 일이 아닐까 싶다. 조금씩 밀리기 시작하였는데 오늘 TIL을 계기로 다시 열심히 해보자 😂

02. 멋쟁이사자처럼X쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기_1차 과제 후기

Tue, 24 May 2022 14:38:49 GMT

1차 과제 📝

3주차가 되자 그동안 배운 내용을 응용한 예측 모델을 만드는 과제가 등장하였다.

과제를 수행하는 조건은 아래와 같았다

위의 기준에 따라 MSE 기준으로 점수를 부여하는데 8.2x를 기점으로 점수가 갈리는 것을 보아하니 용을 써야 8.2 초반대로 들어올 것이라는 것을 직감할 수 있었다.

처음엔 강의를 토대로 예시 코드들과 HW1&HW2을 응용해 데이터셋에 약간의 전처리와 파라미터 조절만 하면 금방하겠네~ 라고 생각했다.

하지만 웬걸, 강의를 나름 열심히 필기해가며 들었지만... SO WHAT..? 적용을 못하겠는 것이다. 게다가 예시 코드들을 그냥 복붙/짜깁기하면 될 것 같았지만 손에 익지 않은 초보 분석가로써는 막상 과제 파일을 열어보니 손이 나가지 않았다.

그저 막막하고 어디서부터 풀어나가야할지 잘 모르겠었다. 그래서 2강과 3강 tree 알고리즘과 unsupervised learning을 계속 반복해서 학습했다. 그런데 뭔가 강의와 실습 과제 적용과는 다른 세상 이야기 같았다.

그래서 이번에는 실습 파일을 계~~속 돌려보았다. 실습 강의와 HW1, HW2 답안을 계속 보고 비교하고 바꿔보고 돌려보고 며칠을 이 작업만 반복했다. 눈과 손에 익을 때까지.

이런 골방 같은 카페에 스스로를 가두고 코드를 돌려댔다.

그러자 어느 순간 방향성이 조금은 보였다.

나는 이렇게 풀었다.

1.필요한 컬럼만 남긴 후 데이터 Normalization 2-1.test1/train1 set을 과제 조건에 맞추어 나누기. (1그룹) 2-2. 2-1에서 사용하지 않았던 컬럼(category feature)을 추가하여 ordinal encoding. ordinal encoding된 컬럼을 제외하고는 normalization. test2/train2을 과제 조건에 맞추어 나누기.(2그룹) 3. sklearn의 GridSearchCV를 이용하여 주어진 모든 조합의 hyperparameter들에 대해서 train, validation을 진행해서 최적의 hyperparameter 찾기. (1그룹, 2그룹 모두에 대해서) 4-1. 디폴트값으로 GradientBoostingRegressor 진행 4-2. GridSearchCV에서 도출한 파라미터로 변경 후 GradientBoostingRegressor 진행 5-1. 디폴트값으로 RandomForestRegressor 사용 5-2. GridSearchCV에서 도출한 파라미터로 변경 후 RandomForestRegressor 진행 6-1. HistGradientBoostingClassifier (input feature로 category feature도 사용 가능)진행 6-2. GridSearchCV에서 도출한 파라미터로 변경 후 HistGradientBoostingClassifier 진행

나의 경우 데이터셋을 1그룹, 2그룹으로 나누었기 때문에 해당 그룹별로 4~6번을 진행해야했다. 나눈 이유는 category feature 컬럼이 input feature로 사용될 때와 안될 때의 성능 차이가 궁금했기 때문이다.

그 결과?

분명 8.2x 와 근접한 점수가 나와야 정상 범주 내에서 풀고 있구나라고 생각할텐데, 나의 점수는 ...0.5070? 게다가 더 낮게 나온 케이스도 있었다.

출제자의 의도를 잘 파악하는 대한민국 수능 세대라면 뭔가 잘못되었다는 것을 바로 직감할 수 있다. 0.8보다 한참 낮은 0.5를 내가 잘해서 냈을리가 없다. 어딘가 잘못되었다는 뜻인데 ... 결국 과제 제출 시간까지 원인을 파악하지 못했다. 몇 점을 받을 수 있을지 궁금하다.

원인 분석은 나의 셀프 과제가 될 예정이다. 대체 나는 왜 0.5 대의 점수가 나왔는가에 대한 의문을 해소해보는 것이 목표이다. 피어리뷰를 통해 팀원들과 원인 분석에 성공하면 더욱 좋을 것 같다

노트북하기 좋은 동네 카페들을 하나씩 알아가는 것은 보너스이다.

비록 결과는 좋았다고 할 수 없었으나, 과정을 즐기자!는 나의 마인드셋을 다시 떠올려본다. 주말 내내 연남동/연희동 카페 탐방을 할 수 있었다는 점은 좋았다.

☀️ 행복한 분석가가 되어보자! ☀️

01. 멋쟁이사자처럼X쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기_4주차까지의 기록!

Tue, 17 May 2022 13:24:16 GMT

쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기 🦁

데이터를 다루는 직장인으로서 한 층 더 발전할 수 있는 방법이 무얼까 고민하다가 멋쟁이사자처럼 X 쏘카 실전 데이터로 배우는 AI 엔지니어 육성 부트캠프 2기에 참여하게 되었다.

이 글을 쓰는 시점은 4주차를 진행하고 있는 시점으로, 아래 일정을 보면 알 수 있듯 아직 갈 길이 많이 남아있다.

직장인은 퇴근하고 카페로 향합니다 💪

집 근처 카페에서 주차별 강의 학습! 생각보다 진도 따라가기도 쉽지 않다. 내용도 꽤나 어려워서 여러번 복습이 필요할 것 같다. 교안은 아이패드에 넣어서 필기하고 복습 시에 노션에 강의 스크립트를 받아 적으며 학습하고 있다. 시간이 꽤나 많이 소요되는 작업이라 버거운 날도 있고 진도가 밀리는 날도 있다. 예상은 했지만 직장인의 삶은 시간에 쫓기는 인생인 것 같아 아주 조금 서글펐다 😢 그래도 열심히해서 완주해봐야지 !!!

PG활동 🏃‍♀️

이번 부트캠프 활동 중 특징적인 것은 "PG(Peer Group)"이다. PG는 PG리더와 PG원으로 구성되며, 약 6~8명이 함께 활동을 한다. 쉽게 말해 '러닝메이트'들과 함께 학습을 진행하는 것이다.

나의 경우 PGL에 지원하여 리더의 역할을 맡게 되었다. AI에 대해서 너무나도 초보이지만, 지식이나 기술적인 능력을 요하는 것이 아니었기에 가능했다.나의 이번 PG활동의 목표는 팀원 모두가 완주할 수 있도록 돕는 것이다. 이는 곧 나의 완주로도 귀결될 것이기에 열심히 공부해보고자 하는 나의 의지가 담겨있는 것이기도 하다.

당시 PG원 모집글은 아래와 같았고 운 좋게도 마음 맞는 7분과 함께 PG활동을 하고 있다.

😇 [갓프 : 갓생살기 프로젝트] PG원 모집합니다  현생이 바쁜 우리, 이것만 잘해도 갓생이잖아요?😇 😇 PGL 소개 안녕하세요 PGL 이수진입니다.  학습에 대한 열정과 의지는 넘치지만 현실적인 여건 상 학생 분들 만큼의 시간을 낼 수 없는 분들이 꽤 계실 것이라고 생각합니다. 저는 경영학을 전공했고, 현재는 광화문에서 근무 중인 직장인으로 아래와 같은 커리어를 밟고 있습니다.  - 전 : IT회사 글로벌마케팅시스템 운영/개발 1.5년  - 현 : 카드사 타겟마케팅 2.5년~   현직장에서는 SQL을 자유자재로 다루며 데이터 분석을 통한 마케팅 전략 기획/실행을 담당합니다.  지금은 마케팅 시스템 구축 TFT 현업 PL로 SI 개발 프로젝트 수행 중 입니다.   빅데이터 분석 기사, ADsP, SQLD, 자격증을 가지고 있습니다. 초보자지만 해당 분야에 관심도는 증명할 수 있을거라 생각합니다.  😇PG 목표  “낙오 없이 PG원 모두가 👉완주👈하기”입니다.   바쁘지만 갓생은 살고 싶은 우리는 아래 3가지 핵심에 포커싱할 것입니다. 1.진도 2.과제 3.부스팅 (추가학습)   - 멋사에서 제공되는 학습 컨텐츠를 100% 내 것으로 만들기 위함입니다.   - 기초 학습(파이썬/수학 등), 파생 영역(ex.n주차에서 언급되었으나 이해도가 낮거나 더 자세히 공부가 필요한 부분 등)   - PG원들과 함께 논의하여 유동적으로 선정/진행 😇PG 활동   PG 공통 활동  - 피어리뷰(코드리뷰)   - 수강현황 공유(진도/과제)   - 블로그/노션/Velog 내 TIL(Today I Learned) 기록 우리 PG 활동   - 부스팅 (위에서 언급)   - 완주를 위한 상호 크로스체크와 독려! 으쌰으쌰! 💪  (PGL만의 역할이 아닙니다!)   - 그 외는 함께 만들어 나가요!   ❇︎주 1회 이상의 비대면/대면 모임이 진행됩니다. 😇 PG원 모십니다 ❗️나만 완주가 아닌 “같이” 완주를 목표로 하실 분  ❗️유쾌하고 재밌게 함께 공부하실 분 ❗️적극적으로 정보 공유하고 참여해주실 분 ❗️성실히 진도/과제 수행하실 분   - 희망 모집인원 5명(변동가능)   - 비대면 모임 진행 고려 서울/경기권 선호 =>소개/각오/지역을 댓글로 달아주시면 감사하겠습니다. (6명 이상 신청해주실 경우 선정에 참고하겠습니다) =>5월 1일 일요일 자정까지 신청받겠습니다. =>5월 2일 월요일 저녁에 선정 결과 알려드리겠습니다. ⭐️유의사항  - 핵심에 집중했을 뿐 절대 느슨한 PG가 아닙니다!!  학습 클래스만큼은 씹어먹어주겠다는 각오를 해주시면 감사하겠습니다.  - 직장인으로 제한하지 않습니다. 누구든 지원가능합니다.  - 실력무관. 함께 공부해나가요!

멋사의 소통 채널 Discord

멋사의 모든 소통은 Discord에서 이루어진다. 우리 PG그룹 채널에서 PG원들과 첫 인사를 나눈 순간👇

첫 오프라인 모임 !! (5/15 일요일 10시 ~ 12시 강남역)

처음 PG활동은 오프라인으로 킥오프하였다. 무려 일요일!!! 오전 일찍!!부터 강남역 스터디룸에 모였다. 소중한 주말 오전이었음에도 시간 내 참석해주신 팀원분들께 감사의 말씀을 드린다.🙏

사전에 만들어간 PPT를 활용해 간단한 자기소개와 서로 알아가는 시간을 가졌고, 앞으로 함께할 활동에 대한 논의를 진행했다.

협의를 통해 앞으로는 "컴팩트"하게 짧고 굵게!! 온라인으로 모임을 진행할 예정이다. 필요 시 오프라인으로 전환할 계획도 있지만, 어쨌든 먼저 팀원분들을 직접 만나뵙고 이야기 할 수 있는 자리가 있어서 넘 다행이고 반가웠다.

이후 함께 간단한 점심^_^ 강남역 에머이에서 쌀국수!

이날 날씨가 넘 좋아서 스터디 끝난 후 카페에서 자리를 잡고 공부를 해보았다 햇살 좋은 날 커피와 함께 공부 ☀️

매일 이런 날씨에서 공부하고 싶다 😀 곧 더워질텐데 그 때까지 또 화이팅 해야지