jhdai_ly.log

2026 동계 모각코 - 6회차 (결과)

Tue, 10 Feb 2026 03:45:30 GMT

부제 : 2026 동계 모각코를 마무리하며

ADsP 자격증 취득

모각코 활동 지원비로 교재를 구매할 수 있다고 하여, 자격증 취득을 위한 이론서를 구매했고, 공부를 어느정도 마무리 하고 있다. 학습을 위한 지원금이 제공되어 좋았다고 생각한다. 시험은 지난주 토요일, 2/7일날 응시했다. 채점은 2월 말까지 마무리 된다고 하여, 조금 기다려 봐야겠다.

그래프 기계학습 (스탠포드 강의 활용) 한달 정도 되는 시간 동안 그래프 기계학습 전반을 훑어보는 프로젝트가 알차게 마무리된 것 같아 기쁘다.

세상이 너무 좋아져서 물어보고 싶은 것들을 바로바로 해결할 수 있어 좋았다. 앞으로는 학부연구생으로서 연구 아이디어를 실현시킬 수 있도록 공부해야할 것 같다. 우선 라인그래프 기반 그래프 신경망에 관심이 있어, 해당 논문을 읽어봤다.

2026 동계 모각코 - 6회차 (계획)

Tue, 10 Feb 2026 03:08:11 GMT

모각코의 마지막 회차 계획은 우선 아래 활동들에 대한 매듭을 짓겠다. 또 6주동안의 모각코 활동을 되돌아 보며 그동안 내가 공부했던 것들에 대해 정리해볼 것이다.

ADsP 자격증 취득 (2/7 시험을 응시했다)
CS224 Machine Learning with Graph 강의 수강을 마무리 한다.

[도서리뷰] 2026 이기적 SQLD 이론 + 기출문제 구매 후기

Wed, 04 Feb 2026 11:56:42 GMT

최근 영진닷컴 이기적 교재로 ADsP를 공부하며, SQLD 자격증도 취득해볼까 생각을 했고 마찬가지로 영진닷컴 교재로 선택했다. 여러 이유가 있겠지만, ADsP 교재를 구매했던 기준과 같이 적절한 분량과 충분한 연습문제를 풀 수 있다는 점이 마음에 들었다.

학습하기에 너무 좋은 구성으로 되어있어 SQLD 자격증 취득을 고려하고 있는 분들께 적극 권해주고 싶은 마음으로 후기를 남긴다.

특히 SQLD 교재를 살펴보면서 가장 인상 깊었던 점은 비전공자도 충분히 이해할 수 있도록 단계적으로 설명되어 있다는 점이었다. SQL이라는 과목 자체가 처음 접하면 낯설고, 문법 하나하나가 암기처럼 느껴질 수 있는데, 이기적 SQLD 교재는 단순히 문법 나열에 그치지 않고 “왜 이런 쿼리가 필요한지”, “실무에서는 어떤 식으로 활용되는지”를 함께 설명해 주어 학습 부담이 훨씬 덜했다. 만약 어렵게 느껴진다면 저자 직강 동영상 강의도 무료로 제공된다고 하니 참고해보면 도움이 될 듯 하다.

또 책을 살펴보면서 알게 된 점은 이기적 스터디 카페에서 도서 구매 인증을 하면 SQL 구문을 연습할 수 있는 실습 문제와 데이터를 제공해준다고 해서 참고하여 공부해보면 좋을 듯 싶다.

ADsP를 공부할 때도 느꼈지만, 영진닷컴 이기적 시리즈의 가장 큰 장점은 과하지 않은 분량과 명확한 학습 포인트라고 생각한다. 자격증 서적이 분량이 다 천차만별인건 좀 이상한 일이지만, 너무 두껍고 방대한 교재는 처음엔 든든해 보여도, 진도가 나가지 않아 중도 포기하게 되는 경우가 많다. 반면 이기적 SQLD 교재는 시험에 꼭 필요한 내용 위주로 정리되어 있어 반복적으로 학습하기 좋은 구성이다.

교재 구성 또한 학습 흐름에 최적화되어 있다. 이론 파트를 먼저 꼼꼼히 읽고 나면, 바로 해당 내용과 연계된 연습문제와 기출 유형 문제를 풀 수 있도록 구성되어 있어 자연스럽게 복습이 된다.

또 하나 마음에 들었던 부분은 실제 시험을 염두에 둔 문제 구성이다. SQLD 시험은 단순 암기보다는 개념 이해와 응용이 중요한 시험인데, 교재에 수록된 문제들이 최신 출제 경향을 잘 반영하고 있어 실전 감각을 키우는 데 도움이 된다. 특히 후반부에 있는 모의고사는 시간 제한을 두고 풀어보면 실제 시험장에서의 긴장감도 미리 경험할 수 있어 매우 유용했다.

개인적으로는 SQL이 데이터 분석, 개발, 기획 등 다양한 분야에서 활용도가 높다는 점에서 SQLD 자격증의 메리트도 크게 느끼고 있다. 단순히 자격증 취득을 넘어서, 실무에서 바로 활용할 수 있는 기본기를 다질 수 있다는 점이 이 교재를 선택하게 만든 또 하나의 이유다. 쿼리를 직접 작성해보며 데이터를 다루는 연습을 하다 보니, 데이터에 대한 이해도도 자연스럽게 높아지는 느낌을 받았다.

ADsP에 이어 SQLD까지 이기적 교재로 학습을 이어가면서 느낀 점은, ‘공부하는 사람의 입장을 정말 많이 고민한 교재’라는 것이다. 자격증 공부가 부담스럽고 막막하게 느껴지는 분들, 특히 혼자서 계획을 세워 공부해야 하는 독학러라면 이기적 SQLD 교재는 충분히 만족스러운 선택이 될 것 같다.

SQLD 자격증 취득을 고민 중이거나, 어떤 교재로 시작해야 할지 망설이고 있다면, 나처럼 적절한 분량과 풍부한 연습문제, 그리고 신뢰할 수 있는 구성을 갖춘 이기적 SQLD 교재로 시작해보는 것을 추천하며 후기를 마치고 싶다.

2026 동계 모각코 - 5회차 (결과)

Tue, 03 Feb 2026 06:04:57 GMT

GNN의 표현력을 수학적으로 증명해보며 WL-Test, GIN 신경망의 필요성에 대해 알아봤다.

2026 동계 모각코 - 5회차 (계획)

Tue, 03 Feb 2026 02:53:42 GMT

Stanford CS224W 강의 수강 GNN의 표현력에 대해서 공부해볼 계획이다.

How Expressive are Graph Neural Networks 논문을 위주로 학습해보면 좋을 듯 하다.

세부 학습 소주제는 다음과 같이 계획하였다.

Local Neighborhood Structures
Rooted subtree
Injective Function
GIN
MLP
Universal Approximation Theorem
Multi-set Fuction

Adsp 데이터 모델링 파트 학습 3과목에 해당하는 부분이다.

[서평] 관성끊기 (빌 오한론)

Sat, 31 Jan 2026 08:48:28 GMT

#서평단 #관성끊기 #행동변화

빌 오한론, 『관성 끊기 - 반복된 문제를 부수는 최소한의 행동 설계법』

우리는 살아가면서 수많은 문제를 마주친다. 물론 그리 중요하지 않거나 쉽게 해결되는 문제도 있지만, 일부 문제는 지속적으로 삶에 등장하여 우리를 괴롭게 만들기도 한다.

그런 문제는 보통, 우리의 행동 흐름이 이미 굳어져 있기 때문에 더욱 접근하기 어려운 것 같다. 예를 들면 내가 더 나은 선택 A와 더 나쁜 선택 B 중, 꾸준히 B를 선택해왔다면 이미 습관이 되어버린 그 선택을 바꾸는 것은 무척 어려울 것이다.

나는 '관성 끊기'라는 책 제목을 보고, 늘 하던 방식대로 살아가는 삶에 작은 변화를 만들어낼 수 있는 이야기가 담겨 있을 것 같아 이 책을 집어 들었다.

대다수의 사람들과 같이, 우리는 문제가 반복될수록 “왜 이런 일이 생겼지?”라는 질문에 더 자주 던지는 것 같다. 문제의 원인을 해결하기 위해 더욱 정교하게 해석하려고 노력하는 것이다. 하지만 그렇게 쉽게 문제가 해결되지는 않음을 우리는 매번 느끼고 있다. 즉, '문제가 반복'되고 있는 것이다.

이 책은 총 3부에 걸쳐 반복된 문제를 극복하는 방법을 제시한다. 1부 '문제 대응 방식 바꾸기'에서는 패턴 깨기, 효과 있는 것 시도하기, 2부 '문제를 바라보는 관점 바꾸기'에서는 과거와 감정에서 벗어나기, 주의 전환하기, 문제 해결을 위해 미래 이용하기, 문제적 신념을 해결 지향적 생각으로 바꾸기, 3부 '해결 지향적 접근법 구체적으로 이용하기'에서는 해결 지향적 관계를 포함한 4가지의 방법이 그것이다.

우선 나에게 인상깊었던 부분 중 하나는 '문제를 과도하게 분석하는 습관'이 문제 해결에 악영향을 미칠 수 있다는 인사이트였다. 덧붙여 이러한 분석하는 습관을 '해결 지향적 접근'으로 전환하라는 메시지를 던진다.

소크라테스는 성찰하지 않는 삶은 살 가치가 없다고 말했다. 그러나 지나친 자기 성찰적 삶은 당신을 죽은 사람처럼 만든다. 《관성 끊기 中》

해결 지향적 접근법은 다르다. 이것은 사람들이 다양한 문제를 가지고 있다는 점을 참작한다. (중략) 해결 지향적 접근법은 문제의 원인보다 그 사람이 지금 하고 있는 행동 중에서 변화의 도움이 될 만한 요소를 찾는 데 집중한다. 《관성 끊기 中》

책에서 반복적으로 강조하는 해결 지향적인 행동에 대해, 저자는 몇가지 해결 열쇠를 제공한다. 그 중 두번째는 해결 패턴을 찾아서 활용하는 것이다. 문제를 없애려 애쓰기보다, 문제가 잠시나마 약해졌던 순간에 주목하라는 제안이다. 언제는 분명 같은 문제였는데 덜 힘들었고, 더 버틸 만했고, 어쩌면 생각보다 잘 넘어갔던 때가 있다. 저자는 바로 그때를 그냥 지나치지 말라고 말한다.

우리는 보통 문제가 가장 심각해졌을 때만 그것을 분석한다. 왜 이렇게까지 되었는지, 무엇이 잘못되었는지를 집요하게 되짚는다. 하지만 해결 지향적 관점은 질문의 방향을 바꾼다. “왜 망가졌는가”가 아니라 “언제는 괜찮았는가”를 묻는다. 그리고 그 차이를 만들어낸 행동, 선택, 태도를 찾아내어 다시 써먹는다. 해결은 완전히 새로운 해답에서 나오기보다, 이미 한 번 효과를 냈던 행동의 반복에서 비롯된다는 것이다.

이 접근이 흥미로운 이유는, 문제 해결의 실마리가 이미 내 안에 있다고 전제하기 때문인 것 같다. 해결되지 않았다는 사실이 곧 무능함은 아닐 것이고, 오히려 문제 속에서도 균열을 만들었던 작은 성공들이 있었을것이다. 저자는 그 패턴을 의식적으로 끌어올리는 것을 해결로 가는 현실적인 방법으로 제시한다.

나는 이 부분을 읽고 문제가 지속되고 있다고 느끼긴 하지만, '항상'인 것은 아니라는 생각을 해보게 됐다.

독서를 마무리하며 해결지향적으로 살겠다는 결심을 해본다. 책에서 구체적으로 조언되는 문제에 다르게 대응하는, 해결 지향적인 삶은 꽤 즐거운 일이 될 것 같다.

2026 동계 모각코 - 4회차 (결과)

Fri, 30 Jan 2026 04:21:13 GMT

아래 주제들에 대한 학습을 진행하였습니다

GNN Augumentation and Training
Prediction with GNNs
Virtual nodes/edges
constant vs one-hot 방식 비교 (Augmentation)
Prediction Heads (Node/Edge/Graph-Level)
Hierarchical Global Pooling

ADSP 3과목 데이터 분석 파트 학습

2026 동계 모각코 - 4회차 (계획)

Fri, 30 Jan 2026 04:12:03 GMT

Stanford CS224W 강의 수강

GNN을 위한 증강 기법, 학습 기법 등에 대해서 공부해볼 계획이다.

세부 학습 소주제는 다음과 같이 계획하였다.

GNN Augumentation and Training
Prediction with GNNs
Virtual nodes/edges
constant vs one-hot 방식 비교 (Augmentation)
Prediction Heads (Node/Edge/Graph-Level)
Hierarchical Global Pooling

Adsp 데이터 모델링 파트 학습

3과목에 해당하는 부분이다.

EDA 방법론
피어슨, 스피어만 상관 분석
다차원 척도법 (MDS)
주성분 분석 (PCA)
스크리 플롯
바이플롯
시계열 분석
시계열 모형 (AR, MA, ARIMA, SARIMA) 등

2026 동계 모각코 - 3회차 (결과)

Tue, 13 Jan 2026 06:06:31 GMT

아래 주제들에 대한 학습을 진행하였습니다.

ADSP 2과목 데이터 분석 기획 파트 학습 시험에 출제되는 아래 주제들에 대한 문제를 풀고 개념을 정리했습니다.

데이터 분석 기획의 이해
분석 기획
분석 방법론
분석 마스터 플랜
마스터 플랜 수립
분석 거버넌스 체계 수립

2026 동계 모각코 - 3회차 (계획)

Tue, 13 Jan 2026 02:55:10 GMT

*1. Stanford CS224W 강의 수강 * Graph Neural Networks 및 그래프 기반 표현 학습에 대한 심화 학습을 진행할 계획이다. 학습을 진행할 세부 topic은 아래와 같다.

Graph Neural Networks 기본 개념 및 수식적 이해
Geometric Deep Learning과 Erlangen Programme 관점에서의 ML 해석
Graph Convolutional Networks (GCN) 구조 및 동작 원리
Semi-Supervised Node Classification 문제 설정
Message Passing Framework 기반 모델 이해
실제 그래프 데이터(소셜, 네트워크, Ads) 적용 사례 분석

*2. ADSP 2과목 데이터 분석 기획 파트 학습 *

2026 동계 모각코 - 2회차 (결과)

Tue, 06 Jan 2026 07:06:48 GMT

26/1/6 13:00 ~ 16:00

위 주제들에 대한 학습을 진행하였습니다.

Random Walk 전략과 더불어, node2vec 까지 확장하여 인코더로서의 gnn 이전의 접근법에 대해 살펴보았습니다.

데이터 분석론 학습

2026 동계 모각코 - 2회차 (계획)

Tue, 06 Jan 2026 04:01:50 GMT

Stanford CS224W 강의 수강

GNN 모델링에 대한 학습을 진행할 계획이다.

학습을 진행할 세부 topic은 아래와 같다.

random walk approaches for node embeddings
embedding entire graphs
Negative Sampling
Node2Vec
Deep Graph Encoders

Adsp 데이터 모델링 부분 학습 부분 학습

빅데이터 분석 방법론

2026 동계 모각코 - 1회차 (결과)

Tue, 30 Dec 2025 05:59:07 GMT

25/12/30 12:00~15:00

그래프 기계학습 강의 (Stanford CS224)의 Introduction 부분, Node Embedding 부분에 대한 학습을 진행하였습니다.

데이터 분석과 관련하여, ADsP 교재를 통해 데이터 사이언스의 미래와 데이터 사이언티스트의 역할에 대한 학습을 진행하였습니다.

2026 동계 모각코 - 1회차 (계획)

Tue, 30 Dec 2025 03:05:22 GMT

1. Stanford CS224W 강의 수강

1. Introduction
1. Node Embeddings

2. 데이터 분석 활용

2026 동계 모각코 - 전체 목표

Mon, 29 Dec 2025 06:10:32 GMT

2025~2026 동계 모각코 목표는 다음과 같다.

1. 그래프 기계학습 학습

Stanford CS224 강의를 수강하고, 그래프 신경망 및 관련 개념을 학습할 예정이다.

2. PyG로 신경망 구현 실습

Pytorch, 특히 Pytorch Geometric을 활용한 그래프 기반 신경망 구축 실습을 진행할 계획이다.

3. 데이터 분석 활용

데이터분석준전문가 기출문제 활용

[머신러닝(ML)]다중선형회귀(Multiple Linear Regression)-원 핫 인코딩, 다중 공선성, 회귀 모델 평가지수(MAE, MSE, RMSE, R square), 사이킷런(Sklearn) 실습

Thu, 20 Oct 2022 13:38:54 GMT

💡오늘 배울 내용

다중 선형 회귀 모델을 만들고 평가해봅시다. 범주형 데이터를 전처리 하고, 다중 공선성을 해소하기 위한 사이킷런(sklearn) 라이브러리의 클래스를 살펴봅시다.

🔎다중 선형 회귀

이전에 공부했던 단순 선형 회귀는 모델의 결과값 예측을 위한 독립 변수가 1개인 경우입니다. 예를 들면 공부 시간을 통해 시험 점수를 예측하는 모델을 만들려면 공부 시간(X;독립 변수)과 시험 점수(y;결과 값) 간의 관계를 유추해야합니다.

다중 선형 회귀는 하나의 모델 안에 독립 변수가 여러개일 수 있습니다. 여러 독립변수를 함께 고려한 종속 변수를 예측하기 때문에 단순 선형회귀보다는 더 좋은 성능을 기대할 수 있습니다. 예를 들면 시험 점수를 예측하는 모델을 만들고자 할때, 결석 횟수와 공부 장소, IQ와 수업 집중도 등을 함께 고려하는 경우 종속 변수에 영향을 미치는 독립변수가 여러개 일 것입니다.

🔔다중 공선성

통계적으로 회귀 분석을 진행할때, 다중 공선성 문제를 고려할 필요가 있습니다. 다중 공선성 문제란 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 말합니다. 상단의 우측 사진 처럼 x1와 x2간의 양의 상관관계가 존재하는 경우 다중 공선성이 있다고 할 수 있습니다.

독립 변수가 많이 투입되면, 결정 계수는 높아지는 경향성이 있지만 회귀 계수는 신뢰하지 못하게 될 수 있습니다. 공차 한계(Tolerance)와 VIF(Variance Inflation Factor)를 통해 검정 할 수 있으며 다중공선성이 높은 독립변수가 있다면 그 변수를 삭제하는 것을 고려해야 합니다.

구체적으로 이야기해보면, 선형 모델을 만든다는 것은 독립 변수와 결과값 간의 관계를 설명하는 선형 모델의 가중치(=회귀 계수)를 찾는 것입니다. 여기서의 회귀 계수가 의미하는 것은 독립 변수 x의 한 단위가 바뀔때 결과 값 y가 변하는 정도를 말하는데, 회귀 계수끼리 상관성이 높다면 결과값 y가 변화하는 것이 x1 혹은 x2의 독립적인 영향 만을 의미하는지 확신할 수 없게 됩니다.

🔔범주형 데이터 전처리(One-hot Encoding)

분석을 위해 사용하는 모델은 수치형 데이터만 다룰 수 있습니다. 즉, 문자열로 된 데이터를 전처리하는 과정이 필요한데요. 주요 기법인 라벨 인코딩(Label Encoding)과 원 핫 인코딩(One-hot Encoding)중 원 핫 인코딩 기법을 알아보겠습니다.

원 핫 인코딩은 범주형 데이터의 각 카테코리를 0과 1로 된 벡터로 나타내는 방법입니다. 카테고리의 수 만큼 벡터가 생성되어 숫자의 크고 작은 특성(중요도)를 없앨 수 있습니다. 이 부분은 라벨 인코딩(Label Encoding)과 차이가 나는 부분입니다.

우리는 사이킷런의 하위 패키지 sklearn.processing의 OneHotEncoder을 통해 해당 실습을 진행할 것입니다.

🔎모델 평가지수

회귀 계수가 다 구해진 완성된 선형 모델을 평가하기 위해 몇가지 지표가 사용됩니다. 모델 성능 평가란 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이를 구하는 것입니다. 현실적으로 예측값과 실제 값이 정확히 같을 수는 없기 때문에 오차를 구하고, 어느정도까지 오차를 허용할지 결정하는 과정을 거쳐야합니다.

모델평가를 통해 과적합을 방지하고 최적의 모델을 찾고자 노력합니다. 과적합이란 훈련 데이터에 만 과하게 훈련된 경우로, Validation 데이터를 사용하여 평가했을때 성능이 확연하게 떨어진다면 과적합된 상태로 볼 수 있습니다. Output Label이 존재하는 지도학습에서만 사용할 수 있으며 모델링의 목적에 따라 서로 다른 평가지표가 이용됩니다.

🔔MAE

MAE(Mean Absolute Error : 평균 절대 오차) : 실제 값과 예측값의 차이를 절댓값으로 변환해 평균낸 것.

🔔MSE

MSE(Mean Squared Error : 평균 제곱 오차) : 실제값과 예측값의 차이를 제곱해 평균낸 것.

🔔RMSE

RMSE(Root Mean Squared Error : 평균 제곱근 오차) : MSE가 제곱을 통해 구해지는 과정에서 값이 커지므로 이를 제곱근으로 보정한 것.

🔔R Square

R square : 결정계수 (데이터의 분산을 기반으로 한 평가 지표) : 1에 가까울수록 좋은 모델

🔎실습(Sklearn)

사이킷런 라이브러리를 통해 공부 시간, 결석 횟수, 공부 장소를 독립 변수로 하고 시험 점수를 결과값으로 하는 모델을 훈련하고 평가해봅시다.

🔔실습 자료

공부 시간, 결석 횟수, 공부 장소와 점수가 담겨있는 CSV 파일을 판다스 라이브러리로 불러 사용합니다. 공부 장소(place)는 범주형 자료이므로 One-hot Encoding을 통해 전처리를 진행합니다.

🔔모델 훈련 및 평가

import pandas as pd
dataset = pd.read_csv('MultipleLinearRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
>> X

실습 자료에서 확인했던 것 처럼, 판다스 read_csv를 통해 자료를 가져옵니다. X에는 독립변수들의 데이터를, y는 결과값을 넣어 줍니다.

# 다음은 사이킷런 라이브러리의 하위 패키지로 따로 임포트 해주어야 한다.
# from 패키지이름 import 명령어1, 명령어2, 명령어3

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# 다중 공선성 고려 - drop='first'
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
X = ct.fit_transform(X)
X

# 1 0 : Home
# 0 1 : Library
# 0 0 : Cafe

사이킷런의 하위 패키지에 들어있는 ColumnTransformer과 OneHotEncoder를 사용하여 범주형 자료를 전처리(원-핫 인코딩) 해줍니다. OneHotEncoder의 drop 옵션을 사용해 다중 공선성을 고려해줍니다. Dummy Column이 n개면, n-1개만 사용함으로써 다중 공선성 문제를 해결하는 과정입니다.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

훈련 세트와 테스트 세트를 분리해주는 과정입니다. 사이킷런 sklearn.model_selection 패키지의 train_test_split을 이용합니다.

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)
>> LinearRegression()

사이킷런 LinearRegression 클래스, LinearRegression(), fit() 메서드를 통해 다중 선형 회귀 모델을 훈련합니다.

y_pred = reg.predict(X_test)
y_pred
>> array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204])

y_test
>> array([ 90,   8, 100,  38], dtype=int64)

만들어진 선형 모델(reg)에 테스트 세트를 넣어 예측 결과를 출력해봅니다. y_test(결과값)과 비교해보면 어느정도 비슷한 것을 확인할 수 있습니다.

reg.coef_ #독립 변수에 대한 회귀 계수(기울기) 정보
>> array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

reg.intercept_
>> 5.365006706544733

coef_와 intercept_를 통해 모델의 기울기와 절편을 확인할 수 있습니다.

reg.score(X_train, y_train)
>> 0.9623352565265528

reg.score(X_test, y_test)
>> 0.9859956178877445

모델의 정확도를 확인하는 모델 평가입니다. 훈련 세트를 통해 확인한 정확도와 테스트 세트를 통해 확인한 정확도를 둘 다 확인할 수 있습니다.

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred) #실제값, 예측값 # MAE
>> 3.225328518828811

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred) #실제값, 예측값 # MSE
>> 19.90022698151514

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False) #실제값, 예측값 # RMSE
>> 4.460967045553591

from sklearn.metrics import r2_score
r2_score(y_test, y_pred) # R2
>> 0.9859956178877445

회귀 모델을 평가하는 지표입니다. MAE, MSE, RMSE, R2등 다양한 지표들을 사이킷런 라이브러리에서 제공하는 sklearn.metrics 패키지를 통해 확인해 볼 수 있습니다.

[머신러닝(ML)]단순선형회귀(Simple Linear Regression)-최소 제곱법(OLS), 확률적 경사하강법(SGD), RSS, 사이킷런(Sklearn) 실습

Tue, 18 Oct 2022 16:29:45 GMT

💡오늘 배울 내용

_한가지 독립 변수와 그에 대응되는 종속 변수와의 관계_를 밝히는 단순 선형 회귀 알고리즘을 학습합니다. 사이킷런(Sklearn) 라이브러리를 사용하여 실습을 진행하고, 최소 제곱법을 손실 함수로 차용하여 해결하는 방법 하나와 확률적 경사하강법(SGD)을 적용시켜 모델을 학습하는 방법 두가지를 살펴봅시다. 또한 경사하강법의 개념에 대해서도 공부해봅시다. 단순 선형회귀 사이킷런 최소제곱법(OLS) 잔차 제곱의 합(RSS) 경사하강법 확률적 경사하강법(SGD)

🔎단순 선형회귀

지난시간에 공부했던 회귀의 개념을 이어 설명하자면, 선형 회귀에는 몇가지 종류가 더 있습니다.

일반 선형회귀 : 예측값과 실제값의 차이(RSS)를 최소화, 규제 적용 없음
릿지(Ridge) 회귀 : 선형회귀에 L2* 규제를 추가 (상대적으로 큰 회귀 계수 값의 예측 영향도 감소를 위해 회귀 계수값을 더 작게 만듦)
라쏘(Lasso) 회귀 : 선형회귀에 L1* 규제를 추가 (예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 예측 시 피처가 선택되지 않게 함)
엘라스틱넷(ElasticNet) : L2, L1 규제를 함께 결합, 多Feature 데이터 세트 일때 적용 (L1 규제로 피처를 줄이고 L2규제로 계수 값의 크기를 조정)

단순 선형회귀는 여기서 일반 선형회귀에 속하는 모델입니다. 독립변수(X)와 종속변수(y)가 하나씩 존재합니다. 예를 들면, 공부시간(X)과 점수(y)의 관계 등을 모델링 할때 사용할 수 있습니다.

🔎최소제곱법(OLS) 모델

X와 y의 관계를 나타낸 좌표평면에 데이터가 흩뿌려져 있다고 해봅시다. 데이터들을 가장 잘 나타내는 직선 하나를 찾아내는 문제를 선형 회귀라고 할때, 데이터의 실제 값과 모델의 예측 값은 분명 차이가 있을 것입니다. 이러한 차이를 통해 모델의 오차를 구할 수 있고, 이 오차를 줄이는 방식으로 모델을 훈련할 수 있습니다.

🔔최소제곱법

RSS(Residual Sum of Squares)는 실제 값과 예측 값 사이의 제곱의 합을 의미합니다. 잔차 제곱의 합이 클수록 모델의 예측 값이 부정확하다는 의미이므로, 이 값(RSS)을 가장 적게 갖는 모델을 만드는 것이 중요합니다.

최소제곱법(OLS;Ordinary Least Squares)란 이런 잔차 제곱의 합을 최소로 하는 직선을 찾는 방법입니다. 최소제곱법은 노이즈가 적은 자료를 훈련시킬때 유리하지만, 반대로 말하면 노이즈(극단적인 값들)에 매우 취약하다는 특징이 있습니다.

🔔실습코드-Sklearn

사이킷런 라이브러리를 통해 최소제곱법으로 선형 회귀를 모델을 만들어봅시다. 공부 시간과 점수와의 관계를 나타낸 CSV 자료를 불러와 실습을 진행하고, 훈련 세트(80%)와 테스트 세트(20%)를 분리하는 과정을 거칩니다.

import matplotlib.pyplot as plt #데이터 시각화
import pandas as pd #CSV 데이터 불러와 활용

dataset = pd.read_csv('LinearRegressionData.csv')
dataset.head()

CSV 파일의 데이터가 판다스 라이브러리를 통해 분석 환경으로 잘 불러졌음을 확인할 수 있습니다.

X = dataset.iloc[:, :-1].values #독립변수 
y = dataset.iloc[:, -1].values #종속변수

독립변수(X)에는 데이터에서 공부 시간(hour)에 해당하는 부분을 넣어주고, 종속변수(y)에는 데이터에서 점수(score)에 해당하는 부분을 넣어줍니다.

from sklearn.model_selection import train_test_split #데이터 세트 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

모델에서 학습을 위한 데이터(훈련 데이터)와 모델이 잘 학습되었는지 확인하기 위한 데이터(테스트 데이터)를 구분합니다. 사이킷런 라이브러리의 train_test_split() 메서드를 이용합니다.

X_train, len(X_train)

테스트 데이터의 크기를 0.2로 정했으므로 16개의 훈련 데이터가 2차원 배열에 잘 저장되어있는 것을 확인할 수 있습니다.

X_test, len(X_test)

테스트 데이터의 크기를 0.2로 정했음으로 전체 데이터 20개 중, 4개의 데이터가 2차원 배열로 잘 저장되어 있습니다.

from sklearn.linear_model import LinearRegression #선형 회귀 모델 생성(OLS)
reg = LinearRegression()

사이킷런 라이브러리에서 LinearRegression()을 import해서 사용하면, OLS 방법을 통해 자동으로 모델을 만들어줍니다.

reg.fit(X_train, y_train) #훈련 세트로 학습
>> LinearRegression()

훈련 세트를 사용하여 모델의 학습을 진행합니다. 종속 변수와 독립 변수를 fit() 메서드 안에 잘 담습니다. 다음의 과정을 통해 모델의 생성과 훈련이 끝났습니다.

reg.predict(X_train)

reg.predict(X)를 통해 X에 대한 예측값을 확인할 수 있습니다. X는 2차원 배열 형태로 입력되어야 합니다.

reg.coef_
>> array([10.49161294])

reg.intercept_
>> 0.6115562905169796

reg.coef_는 만들어진 선형 모델의 기울기를 의미합니다. reg.intercept_는 선형 모델의 y절편을 의미합니다.

plt.scatter(X_train, y_train, color='blue') #산점도 확인
plt.plot(X_train, reg.predict(X_train), color='green') #선그래프
plt.title('Score by hours(train data)') #제목
plt.xlabel('hours') #X축 이름
plt.ylabel('score') #y축 이름
plt.show()

맷플롯립 라이브러리를 통해 만들어진 모델(Linear Model)과 훈련 데이터를 확인해봅시다. 훈련 데이터를 기반으로 상단 그림과 같은 선이 만들어진 것입니다.

plot 메서드를 통해 선 그리기

# plot() 함수에 두 개의 리스트를 입력하면 순서대로 x, y 값들로 인식
import matplotlib.pyplot as plt
plt.plot([1, 2, 3, 4], [2, 3, 5, 10]) # (1, 2), (2, 3), ...
plt.show()

마지막으로, 테스트 세트를 활용한 검증과 모델 평가를 해봅시다.

#테스트 세트는 학습할때 사용하지 않았음
plt.scatter(X_test, y_test, color='blue') #산점도

plt.plot(X_train, reg.predict(X_train), color='green') #선그래프
plt.title('Score by hours(train data)') #제목
plt.xlabel('hours') #X축 이름
plt.ylabel('score') #y축 이름
plt.show()

상단 그래프에서 녹색 선은 훈련 세트로 만든 선형 모델입니다. 훈련에 사용되지 않은 테스트 세트가 네개의 점으로 표시되어있습니다.

reg.score(X_test, y_test) #테스트 세트를 통한 모델 평가
>> 0.9727616474310156

reg.score(X_train, y_train) #훈련 세트를 통한 모델 평가
>> 0.9356663661221668

score() 메서드로 모델을 평가할 수 있습니다. 원래 훈련 세트를 통한 모델 평가 정확도가 더 높은 경향을 보이지만(해당 세트로 훈련시켰기 때문) 오늘 데이터가 워낙 작은 크기로 학습이 진행되어 상단 코드 결과와 같은 양상을 띄게 되었습니다.

🔎확률적 경사하강법(SGD) 모델

모델의 예측값과 정답값의 차이를 통해 선을 구할 수 있었습니다. 하지만 실제 선형회귀를 RSS 방법으로만 구하기란 어려운 일입니다. 모델의 독립 변수(파라미터)가 많을 수도 있고, 그렇게 되면 손실 함수를 RSS 처럼 간단하게 나타낼 수 없을 수도 있습니다. 또한 RSS 방법은 노이즈의 영향을 많이 받아 부정확할 수도 있습니다. 이런 상황에서 경사하강법을 도입할 수가 있겠습니다.

🔔경사하강법

독립 변수로 구성된 손실 함수에서 최솟값을 찾기 위해 사용하는 방법으로, 함수의 기울기(경사)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것입니다. 왼쪽의 그림이 선형 모델의 매개변수를 통해(기울기:m, y절편:b) 만든 손실 함수이고, 이 손실 함수에서 가장 낮은 지점을 찾을 수 있다면, 그 지점의 매개 변수들은 손실 함수의 값을 가장 낮추는 변수들일 것입니다. 즉, 그 지점에서의 m과 b값이 가장 정확한 선형 회귀 모델을 만드는데 사용될 수 있는 것입니다.

손실 함수를 2차 함수로 가정하고, 경사하강법을 설명해보겠습니다. 선형 모델의 파라미터가 하나만 있을 것이라고 가정하는 것입니다. 우리의 목표는 손실 함수의 값을 가장 적게 갖는 가중치(wi)의 값을 찾아내는 것입니다.

우선 w1에 대한 시작점을 선택합니다. 우리가 가정한 손실 함수는 매끈한 모양의 2차 함수라서 시작점이 그다지 중요하지 않습니다. 어디를 시작점으로 선택해도, 극소값으로 도착하기 때문입니다. 하지만 실제 손실 함수는 여러개의 파라미터가 변수로써 구성되고, 매우 복잡하므로, 시작점을 잘 정하는 것이 매우 중요할 수 있습니다. global minimum이 아니라 local minimum에 빠져버릴 수도 있기 때문입니다.

선택한 시작점에서 손실 곡선의 기울기(Gradient)를 계산합니다. 여기서 기울기를 계산하는 방식으로 편미분이 활용됩니다. 손실 곡선이 다양한 파라미터를 변수로 하여 구성되는 경우, cost function을 우리가 관심 있는 단일 가중치에 대해 편미분 하여 방향을 찾아낼 것이기 때문입니다. 편미분계수(기울기)가 다음 가중치 후보로의 방향을 결정하고, Learning Rate(학습률;step size)가 이동할 보폭을 결정합니다. 위의 방식을 반복하면 최소값에 점점 가까워집니다.

▣학습률(Learning Rate; StepSize)

학습률이 너무 작을 경우 : 알고리즘이 수렴하기 위해 반복해야 하는 값이 많으므로 학습시간이 오래걸림. 지역 최소값(local minimum)에 수렴할 수 있음.
학습률이 너무 클 경우 : 학습 시간은 적게 걸림. 스텝이 너무 커서 전역 최소값(global minimum)을 가로질러 반대편으로 건너뛰어 최소값에서 멀어질 수 있음.

🔔확률적 경사하강법

경사하강법은 한 지점에서 계속적으로 계산을 진행하여 극값을 찾아내는 방식입니다. 조금 더 풀어서 말하자면, 모든 데이터를 한번에 이용하여 cost function을 모델링 하고, 이 함수로 계속해서 경사하강법을 진행하는 것입니다. 하지만 이러한 방식은 학습 데이터가 큰 경우 부담이 있을 수 있습니다. 전체 데이터를 모두 사용해서 기울기를 계산해야 하기 때문입니다. 즉, Gradient Descent의 등고선이 일정한 보폭과 방향을 갖는 것은, 한가지 함수를 올려놓고 같은 학습률로 진행하기 때문입니다.

확률적 경사하강법은 매 step에서 딱 한개의 샘플을 무작위로 선택하고, 그 하나의 샘플에 대한 기울기를 계산합니다. 즉, 한가지 샘플로 cost function을 모델링하고, 이 샘플에 대한 경사하강법을 통해 한번의 움직임을 정합니다.

매 step마다 무작위로 선택하므로, 계속해서 새로운 cost function이 모델링되고, 매번 이동하는 보폭이 다릅니다. 즉, cost funciton이 local minimum에 이를 때까지 부드럽게 감소하지 않고 위아래로 요동치며 평균적으로 감소합니다.

에포크(epoch)는 확률적 경사 하강법에서 훈련세트를 한 번 모두 사용하는 과정을 말합니다. 에포크를 크게 하면 한번 훈련 세트를 사용하여 가중치를 찾아낸 후에도 가중치를 계속해서 탐색합니다.

에포크가 진행될 수록 훈련 세트의 정확도는 꾸준히 증가하게 됩니다. 하지만 에포크 횟수가 지나치게 많으면 훈련된 모델은 훈련 세트에 너무 잘 맞아 테스트 세트에는 오히려 점수가 나쁜 과대적합 모델일 가능성이 높습니다. 또한 에포크 횟수가 적으면 훈련된 모델은 훈련 세트와 테스트 세트에 잘 맞지 않은 과소적합된 모델일 가능성이 높습니다. 각각 에포크 과대적합과 에포크 과소 적합이라고 합니다.

🔔실습 코드-Sklearn

사이킷런 SGDRegressor() 메서드는 손실 함수로 MSE를 사용하여 경사하강법을 진행합니다.

from sklearn.linear_model import SGDRegressor
sr = SGDRegressor(max_iter=1000, eta0=1e-4, random_state=0, verbose=1)
sr.fit(X_train, y_train)

SGDRegressor() 메서드를 통해 확률적 경사 하강법으로 선형 회귀 모델을 훈련시킬 수 있습니다. max_iter 옵션은 에포크를, eta0 옵션은 학습률을 결정합니다.

plt.scatter(X_train, y_train, color='blue') #산점도
plt.plot(X_train, sr.predict(X_train), color='green') #선그래프
plt.title('Score by hours(train data, SGD)') #제목
plt.xlabel('hours') #X축 이름
plt.ylabel('score') #y축 이름
plt.show()

sr.coef_, sr.intercept_
>> (array([10.19197471]), array([1.77603038]))

sr.score(X_test, y_test) #테스트 세트를 통한 모델 평가
>> 0.9748430825252619

sr.score(X_train, y_train) #훈련세트를 통한 모델 평가
>> 0.9347804758954794

[머신러닝(ML)]머신러닝 개요-머신러닝 정의, 종류(지도, 비지도), ML Techniques, 회귀, 분류, 군집화, 연관 규칙

Tue, 18 Oct 2022 04:04:47 GMT

🔎머신러닝의 정의

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. (Mitchell, 1997)

Mitchell의 정의에 의하면 머신러닝은, _작업 T를 수행하기 위한 경험 E로부터 획득한 데이터를 기반으로 모델을 자동으로 구성하여 성능 P를 향상시킬 수 있는 컴퓨터 프로그램_이다.

핵심적으로 데이터를 재료로 하여 자동적으로 일정한 규칙을 생성하고, 이 규칙을 기반으로 일정한 문제를 해결하는 것에 초점을 둔 기술이다.

Feature Extraction (사람 전문가가 결정)
학습 데이터 수집 ▶ Feature Vecor화
알고리즘 학습 = 모델 형성
Inference / Prediction (모델 적용)

🔎머신러닝의 종류

머신러닝으로 해결 가능한 문제들은 다음과 같은 특징을 갖는다. 명시적 문제 해결 지식의 부재하거나, 프로그래밍이 어려운 문제, 지속적으로 변화하는 문제들이다. 또한 아래와 같은 3가지의 알고리즘으로 분류된다.

지도학습(Supervised Learning)

비지도 학습(Unsupervised Learning)

강화학습(Reinforcement learning)

🔎지도학습

모델을 학습하는 과정에서 데이터와 정답(label)을 함께 제공한다. 입력값에 대응되는 정답 데이터가 항상 존재한다. 크게 학습(Training) 단계와 적용(Inference/Prediction) 단계로 나뉠 수 있다. 학습 단계에서는 주어진 데이터(Input Data)에서 특징(Feature)을 추출하고, 추출된 Feature Vector과 Label을 통해 자동으로 모델을 구성한다. 적용 단계에서 이 모델(Predictive Model)을 기반으로 예측가능한 정답(Label)을 얻는다. 지도학습의 종류로는 분류(Classification), 회귀(Regression)이 있다.

🔔분류(Classification)

주어진 데이터를 정해진 카테고리에 따라 분류해야 하는 문제를 말한다. 예측해야 하는 출력이 미리 정해져 있는 값(finite set of values)일때 사용한다. 둘 중 하나로 분류하는 이진분류와 여러값 중 하나로 분류하는 다중 분류로 나뉜다.

다음과 같은 실생활의 문제에 적용 가능하다.

스팸 메일 분류

기사 분야 분류
이미지 분류
인종 분류
질병 종류 분류

🔔회귀(Regression)

예측해야 하는 출력이 number(continuous value)인 문제들을 말한다. 데이터들의 특징(Feature)을 토대로 입력에 대한 출력값을 예측한다.

다음과 같은 실생활의 문제에 적용 가능하다.

주가 예측

기대 수명 예측
예상 가격 예측

🔔지도학습 알고리즘

다음은 지도학습(분류와 회귀)에서 사용되는 알고리즘들이다.

Naive Bayesian
- K-nearest neighbors
- Linear Regression
- Logistic Regression
- Multinomial Logistic Regression
- Suport Vector Machine
- Decision Tree
- Random Forest
- MLP (⊂Neural Network)

🔎비지도학습

비지도 학습이란 정답 라벨이 없는 데이터를 기반으로 학습시키는 것이다. 해결해야 하는 문제의 종류도 정답(Label)이 존재하지 않는다. 비슷한 특징을 갖는 것 끼리 묶어 새로운 데이터에 대한 결과를 예측한다. 데이터의 패턴이나 형태를 찾는 것에 집중한다. 지도 학습의 전처리 방법으로 사용하기도 한다.

🔔군집화(Clustering)

주어진 데이터 집합을 유사한 데이터들끼리 묶어 내는 작업을 군집화(Clustering)라 하고 이렇게 나누어진 유사한 데이터의 그룹을 군집(Cluster)이라 한다.

원래 데이터가 어떻게 군집화되어 있었는지를 보여주는 정답(groundtruth)이 있다고 하더라도, 성능 기준을 만드는 것은 분류 문제보다 더 까다롭다. 애초에 정답 레이블이 존재하지 않기 때문이다. 다음은 실제 군집화의 성능을 파악하기 위해 사용되는 기준들이다.

조정 랜드지수(Adjusted Rand Index)
조정 상호정보량 (Adjusted Mutual Information)
실루엣계수 (Silhouette Coefficient)

🔔연관규칙(Association)

연관규칙(association rule) 학습은 대형 데이터베이스에서 변수 간의 흥미로운 관계를 발견하기 위한 규칙-기반 기계 학습 방법이다. 이것은 흥미로운 측도를 사용하여 데이터베이스에서 발견된 강력한 규칙을 식별하기 위한 것이다.

Agrawal 등(1993)은 강력한 규칙의 개념을 바탕으로 슈퍼마켓 POS(point-of-sale) 시스템에서 기록한 대규모 거래 데이터에서 제품 간의 규칙성을 발견하는 연관 규칙을 소개하였다. 예를 들어,슈퍼마켓의 판매 데이터에서 발견된 “{양파, 감자} ⇒ {버거}” 규칙은 고객이 양파와 감자를 함께 구매하면 햄버거 고기도 사기 쉽다는 것을 알 수 있다.

🔔비지도학습 알고리즘

다음은 비지도학습(군집화와 연관규칙)에서 사용되는 알고리즘들이다.

K-means
Spectral Clustering
Hierarchical Cluster Analysis
Affinity Propagation Clustering
DBSCAN Clustering
Expectation Maximization
Dimensionality Reduction
Principal Component Analysis
Kernel PCA
Visualization
Locally-Linear Embedding
t-distributed Stochastic Neighbor Embedding
Apriori
Eclat
FP-Growth

[판다스(Pandas)]그룹화-groupby(), get_group(), 그룹화 후 연산

Tue, 11 Oct 2022 13:32:41 GMT

💡오늘 배울 내용

동일한 값을 가진 것들끼리 뭉쳐서 계산을 쉽게 할 수 있습니다. 그룹화 문법을 공부해봅시다.

🔎데이터 불러오기

import pandas as pd
import numpy as np
data = {
    '이름' : ['유재석', '박명수', '정준하', '노홍철', '정형돈', '하하'],
    '지역' : ['서울', '부산', '부산', '서울', '서울', '서울'],
    '전공' : ['문과', '이과', '이과', '이과', '문과', '문과'], 
    '나이' : [19, 23, 20, 25, 18, 21],
    '국어점수' : [86, 90, 80, 65, 50, 60],
    '수학점수' : [86, 100, 66, 70, 40, 80],
    '코딩' : ['Python', 'Java', np.nan, 'Javascript', 'PYTHON', np.nan]
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번'])
df.index.name = '번호'

🔎groupby()

같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기 위해 사용하는 것이 groupby()입니다. 기본적인 groupby() 문법을 알아봅시다.

🔔mean()

'지역' 별로 값들의 평균을 구하고 싶을때 groupby().mean()을 이용합니다. 그룹 지정을 하면, 자동으로 그룹 라벨이 index가 됩니다. 인덱스를 없애라면 groupby()의 옵션으로 as_index=False를 설정할 수 있습니다.

df.groupby('지역').mean()

df.groupby('전공')['국어점수'].mean()
>> 전공
   문과    65.333333
   이과    78.333333
   Name: 국어점수, dtype: float64

상단의 코드는 '전공'을 기준으로 묶은 뒤, '국어점수'의 평균을 확인하는 코드입니다. '국어점수' 외에도 여러개를 확인하고 싶다면, [['국어점수', '수학점수', '나이']] 처럼 팬시 인덱싱을 이용하면 됩니다.

그룹 지정은 여러개를 할 수도 있습니다.

df.groupby(['지역', '전공']).mean()

상단의 코드는 '지역'과 '전공' 두가지를 그룹으로 지정하여 평균을 확인합니다.

🔔mean().sort_values()

그룹 지정 후, 정렬하여 출력 할 수 있습니다. 자료들의 평균을 지정한 기준에 맞게 순서대로 출력합니다.

df.groupby('지역').mean().sort_values('국어점수')

df.groupby('지역').mean().sort_values('국어점수', ascending=False)

상단의 코드를 보면, '지역'으로 묶은 후, '국어점수'를 기준으로 순서를 정해 출력되고 있는 것을 확인 할 수 있습니다.

🔔sum()

df.groupby(['지역']).sum()

'지역'을 기준으로 묶은 후, 값들을 다 합한 결과를 출력합니다.

df.groupby(['지역', '전공']).sum()

값들을 다 합한 결과를 출력하되, '지역'과 '전공' 두가지를 기준으로 합니다.

🔔count()

df.groupby()[].count()

df.groupby('지역')['코딩'].count()
>> 지역
   부산    1
   서울    3
   Name: 코딩, dtype: int64

'지역'을 기준으로 묶은 뒤, '코딩' 컬럼에 저장된 데이터의 수를 셉니다.

df.groupby('지역')[['이름', '코딩']].count()

'지역'을 기준으로 묶은 뒤, '이름'과 '코딩' 컬럼에 저장된 데이터 수를 세서 각각 보여줍니다. 부산 지역의 두 명의 학생 중 프로그래밍 언어를 아는 학생은 한명이 있고, 서울 지역의 세명의 학생 중 프로그래밍 언어를 아는 학생은 세명이 있음을 알 수 있습니다.

🔔value_counts()

df.groupby()[].value_counts()

df.groupby('지역')['전공'].value_counts()
>> 지역  전공
   부산  이과    2
   서울  문과    3
       이과    1
   Name: 전공, dtype: int64

value_counts()는 값별로 데이터의 수를 출력해주는 함수입니다. 상단의 코드는 '지역'을 기준으로 묶고, '전공' 컬럼에 들어있는 데이터 수를 출력합니다.

df.groupby('지역')['전공'].value_counts().loc['서울']
>> 전공
   문과    3
   이과    1
   Name: 전공, dtype: int64

loc() 문법을 이용하여 그중 '서울'에 해당하는 데이터만 불러올 수 있습니다.

df.groupby('지역')['전공'].value_counts(normalize=True).loc['서울']
>> 전공
   문과    0.75
   이과    0.25
   Name: 전공, dtype: float64

value_counts의 옵션으로 normalize=True를 선택하면 비율을 확인할 수 있습니다.

🔎groupby() 특성

groupby() 오브젝트 특성입니다. groupby()에 붙여 사용합니다.

🔔get_group()

그룹 안에 데이터를 확인하고 싶을때 groupby().get_group()을 이용합니다.

df.groupby('지역').get_group('서울')

'지역'을 기준으로 했을때 '서울'에 해당하는 자료들을 불러옵니다.

🔔size()

각 그룹의 사이즈를 확인할때 groupby().size()를 이용합니다.

df.groupby('지역').size()
>> 지역
   부산    2
   서울    4
   dtype: int64

df.groupby('지역').size()['서울']
>> 4

전체 자료에서 '지역'을 기준으로 묶었을때 각각 몇개로 묶이는지(size)를 시리즈로 반환해서 보여줍니다. 반환된 배열에서 특정 그룹의 사이즈만을 얻을 수도 있습니다.

[판다스(Pandas)]데이터 수정-컬럼 추가/삭제/수정, Row(행) 추가/삭제/수정, 컬럼 순서 변경, 컬럼 이름변경

Tue, 11 Oct 2022 13:31:35 GMT

💡오늘 배울 내용

데이터프레임의 컬럼과 row(행)을 수정, 삭제, 추가하는 방법을 알아봅시다.

🔎컬럼(Column)

컬럼은 같은 타입의 자료형으로 되어있는 데이터프레임의 세로줄 영역입니다.

🔔데이터 불러오기

import pandas as pd
import numpy as np
data = {
    '이름' : ['유재석', '박명수', '정준하', '노홍철', '정형돈', '하하'],
    '지역' : ['서울', '부산', '부산', '서울', '서울', '서울'],
    '나이' : [19, 23, 20, 25, 18, 21],
    '국어점수' : [86, 90, 80, 65, 50, 60],
    '수학점수' : [86, 100, 66, 70, 40, 80],
    '코딩' : ['Python', 'Java', np.nan, 'Javascript', 'PYTHON', np.nan]
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번'])
df.index.name = '번호'

🔔컬럼 수정

replace() 메서드

컬럼 수정 후 재(再)바인딩

df['지역'].replace({"서울":"경기", "부산":"대구"}, inplace=True)

'지역' 컬럼에 '서울'과 '부산'이 '경기'와 '대구'로 바꼈다면, replace() 메서드를 통해 컬럼 내용을 수정해줄 수 있습니다.

df['코딩'] = df['코딩'].str.lower()
df

대소문자가 섞여있는 '코딩'컬럼을 모두 소문자로 바꾸고 싶다면, 문자열 함수 str.lower()을 적용할 수 있습니다. df['코딩']에 str.lower() 함수를 적용하면 컬럼이 수정된 시리즈가 불러지는데, 이를 다시 df['코딩']에 바인딩해줌으로써 데이터프레임을 수정할 수 있습니다.

모두 대문자로 바꾸려면, str.upper()함수도 있습니다.

🔔컬럼 추가

df['점수총합'] = df['국어점수'] + df['수학점수']
df

다음과 같이 새로운 컬럼을 추가할 수 있습니다.

df['결과'] = '불합격' #결과 컬럼 생성 후, '불합격'으로 초기화하기
df.loc[df['점수총합']>160, '결과'] = '합격' #총합 160 넘으면 '합격'
df

상단의 코드는 '결과'라는 새로운 컬럼을 만들고, df.loc() 메서드를 사용하여 두 점수의 합 160을 기준으로 합격과 불합격을 나누고 있습니다.

🔔컬럼 삭제

df.drop(columns=['점수총합'], inplace=True)
df

drop() 메서드를 통해 기존의 컬럼을 삭제할 수 있습니다.

🔎Row(행)

행은 데이터프레임의 가로줄 부분으로 다양한 컬럼들로 구성되는 담고있는 하나의 개체에 해당합니다. 데이터를 다시 불러와 실습해봅시다.

🔔데이터 불러오기

import pandas as pd
import numpy as np
data = {
    '이름' : ['유재석', '박명수', '정준하', '노홍철', '정형돈', '하하'],
    '지역' : ['서울', '부산', '부산', '서울', '서울', '서울'],
    '나이' : [19, 23, 20, 25, 18, 21],
    '국어점수' : [86, 90, 80, 65, 50, 60],
    '수학점수' : [86, 100, 66, 70, 40, 80],
    '코딩' : ['Python', 'Java', np.nan, 'Javascript', 'PYTHON', np.nan]
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번'])
df.index.name = '번호'

🔔Row 추가

df.loc['7번'] = ['길', '부산', 22, 90, 90, 'Kotlin']
df

df.loc메서드로 새롭게 만들 row를 지정하고, 각각 자료형에 맞는 값들을 리스트형태로 바인딩해주면 됩니다.

🔔셀 수정

df.loc['4번', '국어점수'] = 100
df

데이터프레임 내 데이터 중, 수정하고 싶은 셀이 있을때 자유롭게 값을 바꿀 수 있습니다. 역시 df.loc메서드로 행과 열을 선택해주고, 새로운 값을 바인딩해주면 됩니다.

df.loc['4번', ['지역', '코딩']] = ['대구', 'C']
df

팬시 인덱싱으로 한 행에서 두가지 값을 한번에 바꿀 수도 있습니다.

🔎컬럼 순서 변경

컬럼들을 리스트로 저장하고, 슬라이싱과 더하기 문법으로 컬럼의 순서를 변경할 수 있습니다. 바로 위 코드를 이어서 실습해봅시다.

cols = list(df.columns)
df = df[[cols[-1]] + cols[0:-1]]
df