dalbong.log

IT 인프라 이해

Sun, 11 Jun 2023 05:25:55 GMT

이미지출처 본 포스팅은 KT 에이블스쿨 교육내용을 제 나름대로 정리하여 작성하였습니다.

IT 인프라란?

아니그전에 인프라가 뭐지? -> 기반시설 한마디로 IT 기반시설이라고 보면 된다.

네트워크, 서버, 데이터베이스, 정보보안. 시스템 소프트웨어 및 기반시설 등 IT 서비스의 기반이 되는 시스템 및 구조

IT 인프라의 주요 구성요소

IT 인프라의 주요한 구성요소로는 3가지가 있다.

하드웨어 - 눈에 보이는 물리적인 장비 소프트웨어 - 눈에 보이지 않는 프로그램 네트워크 - 컴퓨터 같은 여러 장비들이 그물망처럼 연결된 '형태' or '장비'

IT 인프라의 유형

IT 인프라의 유형에는 크게 2가지로 구분할 수 있다.

온 프레미스(On-Premise) 클라우드

교안에는 이렇게 나와있는데 명확히 구분되는건 아닌 것 같다. 왜 그런지는 클라우드에 대해 설명할때 말하겠다.

온 프레미스(On-Premise)

- 기업이 인프라를 자체 보유 및 운영하는 시스템. - 클라우드 컴퓨팅 발전 이전 사용되던 일반적이고 전통적인 IT인프라 유형.

클라우드

- 인프라를 구성하는 컴퓨터 리소스가 인터넷에 연결되어 있는 형태. - 마치 구름처럼 어디에나 존재하며, 접근이 가능하다는 것을 은유한 표현이다. - 4가지로 나뉜다.

퍼블릭 클라우드(public cloud) CSP(Cloud, Cloud Service Provider)에게 인프라에 필요한 자원들을 대여
프라이빗 클라우드(private cloud) 기업이 직접 클라우드 환경을 구성하여 사용하는 것. 컴퓨팅 리소스를 다른 서드파티 기업이 아니라 자체적으로 구성한다면 사실상 온 프레미스랑 차이가 없다.
하이브리드 클라우드(hybrid cloud) 온 프레미스와 클라우드를 혼용하여 사용하는 방식,프라이빗과 퍼블릭을 같이 쓰는 경우도 포함한다.
멀티 클라우드(multi cloud) 2개 이상의 다른 CSP를 사용하는 방식, 하나에 종속되지 않기 위해 사용한다.

IT 인프라 구성도

IT 인프라 구성을 한눈에 알아 볼 수 있게 하기 위해 시스템 배치 연결관계를 아이콘 + 선으로 구조화 한 것 = 다이어그램

제안전략

Tue, 30 May 2023 03:58:18 GMT

개요

~~gpt야 고맙다~~

현대 비즈니스 환경은 끊임없이 변화하고, 경쟁이 치열해지는 동시에 기업들은 지속적으로 혁신과 성장을 추구해야 합니다. 이러한 도전에 직면한 기업들은 종종 외부 전문가의 도움을 받아 경영과 전략에 대한 통찰력과 방향성을 얻으려 합니다. 그리고 그 해결책 중 하나로 많은 기업들이 기업 컨설팅 서비스를 이용하고 있습니다.
기업 컨설팅은 기업의 경영 전반에 걸친 다양한 문제와 과제에 대해 조언과 전략을 제시해 주는 서비스입니다. 그러나 단순히 문제 해결을 위한 조언을 제공하는 것 이상으로, 기업 컨설팅은 성공적인 비즈니스 운영을 위한 효과적인 제안 전략을 개발하고 실행하는 데 큰 역할을 합니다. 이 글에서는 기업 컨설팅을 위한 효과적인 제안 전략에 대해 알아보고, 기업들이 성공을 거두기 위한 첫걸음을 제공하고자 합니다.
이제 우리는 기업 컨설팅을 위한 효과적인 제안 전략을 개발하는 데 필요한 핵심 원칙과 실제적인 접근 방법에 대해 알아볼 것입니다. 성공을 위한 첫걸음은 올바른 전략을 수립하는 것이며, 이를 위해서는 다양한 요소들을 고려하고 명확한 방향을 제시해야 합니다. 또한 기업 내부와 외부의 다양한 이해 관계자들과의 소통과 협력이 필수적입니다.

제안 컨설팅을 위한 사업화 프로세스는 다음과 같다.

사업의 이해 -> 문제정의 -> 환경분석 -> 표본고객분석 -> 전략수립 -> 가치제안

다음 프로세스를 순서로 제안전략을 정리하고자 한다.

사업의 이해

고객중심 비즈니스와 관리중심 비즈니스

기업의 경영 철학(주요관심사)에 따라 두가지의 접근방식으로 나뉜다.

고객중심
기업중심

-> 고객가치를 중심으로 균형있게 고려하여 경영전략을 수립 자세한건 포스팅 참고

문제정의

문제?

기대(to-be)와 현상(as-is) 간의 차이 주요원인이랑 결합되어 발생한다. 주요원인화 문제를 혼동하면 편협한 문제정의가 될 수 있다.

to-be

바람직한 상태(기대)를 의미한다.

바람직한 to-be 설정
- 상상력 발휘
- 솔루션 제안 지양(마치 솔루션이 해결책인듯이)
- 이상적인 모습 보여주기
to-be 설정을 위한 방법론
- forecasting 사고법
- backcasting 사고법 -> 더 적합함
Backcasting 방법론의 과정에 대해 간단히 요약하자면

output추정 -> output실현을위한 조건과 가정 정의 -> 조건과 가정을 구현하기 위한 방법 정의

문제의 종류

비즈니스 상황에서 문제의 종류는 3가지가 있다.
- 발생형
- 탐색형
- 설정형

표로 나타내면 이렇다.

추가내용

문제 유형	특징	난이도
발생형	실무자 위주
탐색형	기업 컨설팅 시 가장 많이보는 유형	높음(기업에 대해 속속들이 알아야함)
설정형	최근 대기업을 중심으로 부각, 새로운 to-be 설정	탐색형보단 낮음(현실성 고려, 제안리스크 큼)

일반적으로 탐색형 문제와 설정형 문제의 결합을 추천한다.

환경분석

표본고객분석

전략수립

가치제안

To-be 설정을 위한 방법론

Tue, 23 May 2023 15:03:49 GMT

Forecasting 과 Backcasting

Forecasting 사고법과 Backcasting 사고법은 미래를 예측하고 그에 따른 행동 계획을 세우는 방법론으로, 기업 전략 수립과 비즈니스 개발에서 사용됩니다. 이 두 가지 방법론은 미래에 대한 접근 방식과 목표 설정 방법에서 차이가 있습니다.

Forecasting 사고법: Forecasting 사고법은 현재의 데이터, 트렌드, 통계 등을 기반으로 미래를 예측하고 예측된 결과에 따라 전략을 수립하는 방법입니다. 이 방법론은 주로 경제, 시장, 기술 등의 예측에 사용되며, 다양한 예측 모델과 분석 기법을 활용합니다. Forecasting 사고법은 주로 다음과 같은 단계로 진행됩니다:

데이터 수집 및 분석: 과거 데이터와 현재의 상황을 수집하고 분석하여 트렌드와 패턴을 파악합니다.
모델 개발: 수집한 데이터를 기반으로 예측 모델을 개발하고, 다양한 시나리오를 고려하여 미래 예측을 수행합니다.
결과 해석 및 전략 수립: 예측된 결과를 해석하고, 이를 기반으로 비즈니스 전략을 수립하거나 의사 결정을 내립니다.

Backcasting 사고법: Backcasting 사고법은 원하는 미래의 상태나 목표를 설정하고, 그에 따라 현재의 조건과 동작을 평가하여 원하는 상태에 도달하기 위한 전략과 행동 계획을 개발하는 방법원입니다. 이 방법론은 현재의 제약 사항이나 문제점을 고려하여 미래에 대한 비전과 목표를 설정합니다. Backcasting 사고법은 주로 다음과 같은 단계로 진행됩니다:

비전 및 목표 설정: 원하는 미래의 비전과 목표를 설정하고, 이를 구체화하여 명확한 목표를 세웁니다.
현재 상태 평가: 현재의 조건과 동작을 분석하고, 현재 상태에서 목표 달성에 필요한 변화를 파악합니다.
전략 및 행동 계획 개발: 현재 상태에서 목표 달성을 위한 전략과 구체적인 행동 계획을 개발하고 실행합니다.

Forecasting 사고법은 주로 미래를 예측하여 그에 맞게 대응하는 방식으로, 현재 데이터와 트렌드를 기반으로 전략을 수립합니다. 반면에 Backcasting 사고법은 원하는 미래를 설정하고 현재의 조건과 동작을 평가하여 그에 맞는 전략을 수립하는 방식으로, 목표 중심적인 접근을 취합니다. -> To-be 설정을 위한 방법론으론 backcasting 사고가 적합하다.

Backcasting사고를 위한 방법론

역 가치사슬 분석과 SIC (Success Image Canvas)는 두 가지 서로 다른 방법론으로서, 미래의 목표를 달성하기 위해 역으로 생각하고 계획하는 것을 중점으로 합니다.

역 가치사슬 분석: 역 가치사슬 분석은 일반적으로 전략 개발과 기업 성과 향상을 위해 사용되는 방법론입니다. 이 방법론은 기업의 가치사슬을 분석하고 현재의 경쟁력을 이해한 뒤, 미래의 목표를 설정하기 위해 거꾸로 생각합니다.

일반적인 가치사슬 분석은 기업의 주요 활동을 기능적으로 분류하고, 이를 통해 가치를 창출하는 과정을 이해합니다. 역 가치사슬 분석은 이 과정을 거꾸로 따라가며 목표를 달성하기 위해 필요한 활동을 도출합니다. 즉, "목표를 달성하기 위해 우리가 어떤 활동을 수행해야 하는가?"라는 질문에 대한 답을 찾기 위해 역으로 생각합니다.
이 방법론은 목표를 설정한 다음, 그 목표를 달성하기 위해 필요한 활동과 리소스를 식별하고 우선순위를 정하는 데 도움이 됩니다. 또한, 현재의 경쟁력과 동향을 고려하여 적절한 전략을 개발하는 데 도움이 됩니다.

SIC (Success Image Canvas) 접근법: SIC (Success Image Canvas) 접근법은 팀이나 조직이 특정한 목표를 달성하기 위해 필요한 상상력을 도출하는 데 사용되는 방법론입니다. 이 방법론은 비전과 목표 설정을 위해 역으로 사고하는 데 초점을 맞추고 있습니다.

SIC는 목표를 달성한 이상적인 상황, 즉 "성공적인 이미지"를 상상합니다. 팀은 이 이미지를 구체화하고 시각화하기 위해 다양한 방법을 사용합니다. 이 과정에서 팀은 목표를 달성하는 데 필요한 요소들을 고려하고 그에 따른 액션 플랜을 수립합니다.
SIC는 상상력을 통해 현재의 제약사항을 넘어서며 새로운 아이디어를 도출하는 데 도움이 됩니다. 이 방법론은 팀의 창의적인 사고를 촉진하고 목표를 달성하기 위한 효과적인 전략을 개발하는 데 도움이 됩니다.

요약하자면, 역 가치사슬 분석과 SIC 접근법은 모두 미래의 목표를 달성하기 위해 거꾸로 사고하고 계획하는 방법론입니다. 역 가치사슬 분석은 기업의 가치사슬을 분석하고 목표를 달성하기 위한 활동을 도출하는 데 사용되며, SIC는 비전과 목표를 상상하여 필요한 요소와 액션 플랜을 도출하는 데 사용됩니다.

비즈니스의 종류

Tue, 23 May 2023 14:28:20 GMT

고객중심 사업과 관리중심 사업은 기업의 경영 철학과 전략에 대한 두 가지 다른 접근 방식을 나타냅니다. 이 두 가지 접근 방식은 기업이 자원과 노력을 어디에 집중하느냐에 따라 차이가 있으며, 각각의 장단점과 특징을 가지고 있습니다.

고객중심 사업(Customer-centric Business): 고객중심 사업은 기업의 가장 중요한 관심사가 고객과 고객의 만족에 있다는 원칙에 기반을 두고 있습니다. 이러한 사업은 고객의 니즈와 요구를 이해하고 그에 맞는 제품 또는 서비스를 개발하고 제공함으로써 고객의 만족과 충성도를 높이려고 노력합니다. 이는 기업이 고객과의 긴밀한 관계를 구축하고 고객의 관점에서 가치를 창출하는 것을 의미합니다.

고객중심 사업은 다음과 같은 특징을 가지고 있습니다:

고객을 중심으로 한 마케팅 및 판매 전략의 수립
고객 니즈와 요구를 파악하고 그에 맞춰 제품/서비스 개발
고객 경험과 만족도를 개선하기 위한 지속적인 노력
고객과의 긴밀한 관계 구축과 유지

관리중심 사업(Management-centric Business): 관리중심 사업은 기업의 주요 관심사가 조직의 내부 운영과 효율성에 있다는 원칙에 기반을 두고 있습니다. 이러한 사업은 경영자나 조직의 의사결정자가 자원과 프로세스를 효율적으로 관리하고, 생산성과 이익을 극대화하는 데 초점을 맞춥니다. 이는 기업 내부의 운영 체계와 프로세스 개선, 비용 관리, 효율적인 리소스 배분 등을 중시하는 것을 의미합니다.

관리중심 사업은 다음과 같은 특징을 가지고 있습니다:

조직의 내부 프로세스 및 운영 체계에 대한 지속적인 개선과 효율성 강화
비용 절감 및 자

원 관리를 중요시하는 경영 전략 수립

생산성 향상과 이익 극대화를 위한 조직적인 노력
조직 간 협업과 의사소통 강화

고객중심 사업과 관리중심 사업은 서로 대립되는 것이 아니라 상호보완적인 요소를 가지고 있습니다. 고객중심 사업은 고객의 만족과 충성도를 통해 기업의 성장과 이익을 도모하고, 관리중심 사업은 조직의 효율성과 생산성을 향상시켜 지속적인 경쟁력을 확보합니다. 따라서 기업은 이 두 가지 요소를 균형 있게 고려하여 종합적인 경영 전략을 수립하고 실행해야 합니다.

딥러닝

Mon, 20 Mar 2023 15:42:14 GMT

이미지출처 syntax 약속 본 포스팅은 KT 에이블스쿨 교육내용을 제 나름대로 정리하여 작성하였습니다.

머신러닝 vs 딥러닝

머신러닝이건 딥러닝이건 간에, 데이터를 이용해 예측을 하려 한다는 공통된 목적을 가지고 있다.

데이터를 통해 예측을 하기 위해서는 어떠한 요소가 예측하고 싶은 값에 얼마나 영향을 끼치는지 알아야 한다. 다양한 말로 부르지만 이 요소를 우리는 Feature 라고 한다.

데이터의 Feature 가 예측값에 끼치는 영향을 컴퓨터를 이용해 계산하는 행위가 머신러닝과 딥러닝이다.

머신러닝과 딥러닝은 Feature를 추출하는 행위에서 차이가 발생한다.

머신러닝은 예측을 용이하기 하기 위해 사람이 직접 Feature를 추출하는 행위를 한다. 이를 Feature engineering 이라고 한다.

딥러닝은 Feature를 추출하는 행위도 컴퓨터가 알아서 한다.

'와그럼 알아서 다 해주는 딥러닝이 머신러닝의 상위호환 아님? 개꿀 ㅋㅋ' 이라는 생각이 들 수도 있다. 하지만 아직은 컴퓨터의 Feature 추출이 인간의 통찰을 넘진 못했기에, 사람이 다룰 수 있을 정도의 숫자를 가진 Feature 들은 머신러닝으로 하는 것이 높은 정확도를 보이고 있다. 딥러닝은 자연어 처리, 객체인식 등 사람의 힘으로 Feature 의 특징을 다루기 힘든 분야에서 강점을 발휘하고 있다.

Keras란?

파이썬으로 작성되는 고급 신경망 API, 딥러닝에 이용됨. 본 포스팅은 Keras 를 이용하여 다룰 것이다.

딥러닝 과정

딥러닝 학습 절차

데이터 수집 및 전처리
모델 아키텍쳐 설계(dense, convolutional, 뉴런 수)
모델 컴파일 : 손실함수계산을 위한 평가메트릭, 옵티마이저 종류 설정
모델 학습
- 가중치 초기값 할당
- 예측
- 오차계산
- 가중치 조절(오차를 줄이는 방향으로, optimizer, 얼마만큼? learning_rate)
- 반복(epoch)
- 학습곡선
모델 평가
예측 밎 검증
머신러닝 프로세스와 딥러닝 프로세스 비교

	머신러닝	딥러닝
데이터 전처리	결측치 처리 가변수화 스케일링 (선택)	결측치 처리 가변수화 스케일링 (필수)
모델링	모델 선언 학습 예측 및 검증	모델구조 선언 및 컴파일 학습과 학습곡선 plot 예측 및 검증

모델선언부분에서 딥러닝은 신경망 구조 설계와 컴파일을 한다는 점과, 학습시 학습곡선을 이용해 모델의 학습을 관찰할 수 있다는 차이가 있다.

1. 환경준비

머신러닝에 필요한 각종 모듈을 import 해준다. 어떤 모듈인지는 주석참고

# 판다스와 넘파이 + 각종시각화
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 사이킷런, 데이터 전처리와 평가에 사용
from sklearn.model_selection import train_test_split
from sklearn.metrics import *
from sklearn.preprocessing import MinMaxScaler

# 케라스
from keras.models import Sequential
from keras.layers import Dense
from keras.backend import clear_session
from keras.optimizers import Adam

2. 데이터준비

머신러닝과 데이터 전처리과정이 같다. 딥러닝에서는 스케일링이 필수라는 것 정도? 링크참고

3. 모델설계

딥러닝 모델의 구조를 키워드만 나타내면 다음과 같다.

입력층 (Input Layer)
- 데이터 입력
- 특성 차원 정의
은닉층 (Hidden Layers)
- 완전 연결층 (Dense Layer)
  - 뉴런 수 설정
  - 활성화 함수 설정 (ReLU, Sigmoid 등)
- 합성곱층 (Convolutional Layer)
  - 필터 수, 커널 크기 설정
  - 패딩, 스트라이드 설정
  - 활성화 함수 설정 (ReLU, Sigmoid 등)
- 순환층 (Recurrent Layer)
  - 뉴런 수 설정
  - 게이트 구조 설정 (LSTM, GRU 등)
- 드롭아웃층 (Dropout Layer)
  - 드롭아웃 비율 설정
출력층 (Output Layer)
- 출력 뉴런 수 설정 (예측 클래스 수 또는 회귀 출력 수)
- 활성화 함수 설정 (Softmax, Sigmoid, Linear 등)

입력층과 은닉층과 출력층층만 기억하면 된다. 은닉층에서는 아마도 Dense Layer 만 다룰 예정이다. 도식화된 그림으로 나타내면 다음과 같다.

단일 레이어일 경우

다중 레이어일 경우

3. 1. feature 개수 추출

shape 속성을 이용한다. row 갯수와 column 갯수를 튜플로 반환시켜주므로, 1번 인덱스(2번째 값)을 적으면 column, 즉 feature 갯수를 추출할 수 있다.

nfeatures = x_train.shape[1]

3. 2. 메모리정리 및 모델 선언

clear_session() 을 이용하여 메모리를 정리할 수 있다. 필수는 아니긴한데 안하면 summary할때마다 dense 번호가 계속 늘어남 ㄷㄷ;

시퀀셜타입으로 선언, 다른 타입은 나중에 다른 포스팅으로 정리할까 함

# 회귀, input output 만 있는 경우
model = Seaquential( Dense(1, input_shape=(nfeatures,)) )

# 회귀, hidden layer 있는 경우
model = Seaquential([Dense(1, input_shape=(nfeatures,), activation = 'relu'),
                     Dense(n, activation = 'relu'),
                     Dense(1)])

# 이진분류, input output 만 있는 경우
model = Sequential([ Dense(1, input_shape = (nfeatures,), activation = 'sigmoid') ])

# 이진분류, hidden layer 있는 경우
model = Sequential( [Dense(n, input_shape=(nfeatures,), activation='relu'),
                     Dense(n, activation='relu'),
                     Dense(n, activation='relu'),
                     Dense(1, activation='sigmoid')] )

 # 다중분류, input ouput 만 있는 경우
 model = Sequential([Dense( classnum_y, input_shape = (nfeatures,), activation = 'softmax'),])

 # 다중분류, hidden layer 있는 경우
 model = Sequential([Dense( n, input_shape = (nfeatures,), activation = 'relu'),
                    Dense( n, activation = 'relu' ),
                    Dense( classnum_y, activation = 'softmax')
])

Dense Layer 를 구성하기 위해 사용되는 Dense() 에는 3가지의 매개변수가 들어갈 수 있다. hidden layer가 있는 경우 위의 경우처럼 list 로 나타낸다.

n : 출력으로 나오는 노드의 갯수, output layer의 갯수는 모델마다 다르다. input_shape : input으로 들어가는 node(feature)의 수, 위의 예시는 1차원의 데이터이기 때문에 (n, ) 형식임을 유의하자. activation : 활성함수 지정, 회귀인지 분류인지에 따라, input인지 output인지에 따라 활성함수가 다르며, 위 코드를 참고하자.

3. 3. 1. 활성함수

3. 3. 선언한 모델의 요약

model.summary() 로 모델의 요약을 볼 수 있다. 레이어와 다음 레이어의 아웃풋의 모양 그리고 파라미터 갯수로 구성되어 있다. 파라미터 갯수는 (input 레이어의 노드 수+1) * output 레이어의 노드 수 이다. +1을 하는 이유는 bias(편향) 때문이다! 밑의 Summary 를 예시로 들어보자 12개의 node(feature)를 가진 데이터를 input layer으로 넣었고, output 노드의 갯수는 8개 이므로 13x8 = 104 개이다. 그다음, 아웃풋노드의 개수인 8개가 input 으로 들어가고 4개가 output 으로 나오므로 9x4 = 36 개 이다.

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense (Dense)               (None, 8)                 104       

 dense_1 (Dense)             (None, 4)                 36        

 dense_2 (Dense)             (None, 1)                 5         

=================================================================
Total params: 145
Trainable params: 145
Non-trainable params: 0
_________________________________________________________________

4. 컴파일

optimizer 에는 다양한 것들이 있지만 Adam 을 쓰는게 국룰이라나 뭐라나... 깊게 들어가지 않으려 한다.

#1
model.compile(optimizer='adam', loss='')

#2
model.compile(optimizer=Adam(learning_rate=0.1), loss='')

두 가지 방식으로 표현할 수 있는데, #1 은 learning_rate가 0.001로 고정되어있는 상태이다. loss : 오차함수를 설정하는 매개변수 회귀모델은 보통 'mse'로 하고 이진분류모델은 'binary_crossentropy' 를 사용한다. learning_rate : 학습률을 설정할 수 있는 매개변수, lr로도 쓸 수 있지만 풀네임이 권장된다.

4. 1. 학습률(learning_rate)

모델 가중치의 업데이트 속도. 너무 크면 값에 수렴하기가 힘들고, 너무 작으면 수렴하기도 전에 학습이 끝나기도 한다.(많은 학습횟수를 요함) 맨날 같은 말해서 입이 아프지만... 적절한 값을 찾는 게 중요하다.

5. 학습

history = model.fit(x_train, y_train,epochs=20,validation_split=0.2).history

epochs : 전체 데이터에 대한 학습 횟수를 의미한다. 원가 엄밀하게 말하면 좀 다른가 본데, 나중가면 좀 더 자세히 다루지 싶다. validation_split : tain에서 검증용 데이터를 분리할 수 있는 비율이다. 미리 검증용으로 분리한 데이터 말고 따로 검증을 할 수 있는 샘이다. history : 가중치가 업데이터 될 때 마다(epoch)가 늘어날 때 마다 오차를 기록한다.

다음과 같은 함수를 작성하여 학습곡선을 plot 할 수 있다.

def dl_history_plot(history):
    plt.figure(figsize=(10,6))
    plt.plot(history['loss'], label='train_err', marker = '.')
    plt.plot(history['val_loss'], label='val_err', marker = '.')

    plt.ylabel('Loss')
    plt.xlabel('Epoch')
    plt.legend()
    plt.grid()
    plt.show()

 dl_history_plot(history)

5. 1. 학습 곡선(learning curve)

바람직한 학습 곡선의 특징(지피티야 고맙다~)

수렴: 훈련 및 검증 손실은 시간이 지남에 따라 감소하여 결국 안정적인 값에 도달하거나 수렴해야 합니다. 이는 모델이 데이터에서 학습하고 손실 함수를 최소화하고 있음을 나타냅니다.
과적합 없음: 훈련 손실과 검증 손실 사이의 간격이 상대적으로 작아야 합니다. 훈련 손실이 검증 손실보다 훨씬 작은 경우 모델이 훈련 데이터에 과적합되어 있음을 나타냅니다. 즉, 훈련 세트의 노이즈 또는 특정 패턴을 학습했지만 보이지 않는 데이터에 잘 일반화되지 않는다는 의미입니다.
과소적합 없음: 교육 및 검증 손실이 모두 합리적으로 낮아야 합니다. 손실이 높으면 모델이 데이터를 잘 맞추지 못하고 데이터의 기본 패턴을 캡처할 수 없어 성능이 저하됨을 나타냅니다.
꾸준한 개선: 이상적으로 학습 곡선은 시간이 지남에 따라, 특히 초기 에포크 동안 꾸준한 성능 향상(손실 감소)을 보여야 합니다. 이는 모델이 데이터에서 효과적으로 학습하고 있음을 나타냅니다.
Plateau: 특정 수의 에포크 후에 유효성 검사 손실이 정체되어 더 이상 크게 개선되지 않을 수 있습니다. 이는 모델이 데이터에서 가능한 한 많은 것을 배웠다는 표시일 수 있으며 추가 교육으로 인해 상당한 개선이 이루어지지 않을 수 있습니다.

6. 예측및검증

회귀모델

pred2 = model2.predict(x_val)
print(f'RMSE : {mean_squared_error(y_val, pred2, squared=False)}')
print(f'MAE  : {mean_absolute_error(y_val, pred2)}')
print(f'MAPE : {mean_absolute_percentage_error(y_val, pred2)}')

머신러닝포스트 참고

이진분류 모델 예측 및 검증

pred = model.predict(x_val)
pred = np.where(pred>= 0.5, 1, 0)
print(confusion_matrix(y_val, pred))
print('-'*50)
print(classification_report(y_val, pred))

7/7 [==============================] - 0s 2ms/step
[[155  14]
 [ 10  21]]
--------------------------------------------------
              precision    recall  f1-score   support

           0       0.94      0.92      0.93       169
           1       0.60      0.68      0.64        31

    accuracy                           0.88       200
   macro avg       0.77      0.80      0.78       200
weighted avg       0.89      0.88      0.88       200

0과 1로 분류를 위해 np.where를 통해 0.5 이상인 값은 1 미만이면 0 으로 나누는 과정을 거쳐야 한다.

머신러닝 - 모델

Sun, 19 Mar 2023 11:12:36 GMT

이미지출처 syntax 약속 본 포스팅은 KT 에이블스쿨 교육내용을 제 나름대로 정리하여 작성하였습니다

사이킷런에서는 다양한 회귀, 분류 알고리즘을 제공하고 있다. 하나하나 차근차근 알아보도록 하자.

선형 회귀(Linear Regression)

데이터의 회귀성 데이터들의 일련의 데이터 포인트들이 선형 패턴 또는 관계를 따르는 현상을 의미한다.
최적의 회귀모델이란? 전체 데이터의 오차합이 최소가 되는 모델
다중회귀와 단순회귀 독립변수 x 의 갯수로 나눌 수 있다. x가 하나면 단순, 여러개면 다중회귀 이다.
선형회귀식 선형회귀는 최선(최소 오차)의 가중치와 편향을 찾는 과정이라고도 할 수 있다. $$ \hat{y} = w_0 + w_1 x_1 + w_2 x_2 , ... , w_n x_n$$ $$ w_0 = 가중치$$ $$ w_1,, w_2,, w_n = 편향$$

model.coef_ 로 변수(feature) 별 편향을 알 수 있으며, model.intercept_ 로 가중치를 알 수 있다.

K 최근접 이웃(K - Nearest Neighbor)

'K' 개의 근처값으로 값을 추측하는 지도학습 알고리즘이다. 회귀와 분류 둘 다 사용된다. 판단기준은 회귀에서는 k 개의 값의 평균이며, 분류에서는 가장 많이 포함된 유형(class)이다.

K 값 적절한 값을 찾는게 중요한 머신러닝에서, K값도 물론 적절하게 찾아줘야한다. K 값을 1로 설정하면 너무 편향된 값을 얻으며, K = 6 처럼 값이 짝수이면 과반수를 구할 수 없는 문제점들이 있다.
거리 근처, 즉 가장 가까운 거리에 있는 값들은 어떻게 판단할까?
- 유클리드(Euclidean) 방법 두 점 간의 유클리드 거리를 구하는 방법이라고는 하는데... 쉽게 말하자면 피타고라스 법칙을 이용해서 거리를 구하는 법이라고 이해하면 편하다.(두 점사이의 완전 직선 거리)
- 맨하탄(Manhattan) 방법 맨하탄( = 잘 계획된 격자형식의 도시)에서 길을 찾는 방법을 연상하면 된다. 직각 좌표의 좌표값 차이로 거리를 구한다.
스케일링 KNN 방식은 모든 데이터가 같은 값의 범위를 구할 때 가장 좋은 성능을 보여주기 때문에 스케일링이 필수적이다. 링크의 정규화를 참고하자.

결정 트리(Decision Tree)

특정 변수에 대한 의사결정 규칙을 나뭇가지가 뻗는 형태로 분류한 알고리즘이다. 분류와 회귀 모두 사용된다. 직관적, 쉬운 설명과 이해, 스케일링이 불필요하다는 장점이 있으며 의미있는 질문을 하지 못하면 학습성능이 좋지 못하다는 것과 과적합으로 인한 모델 성능 감소 가능성이 높다는 단점이 있다. 결과적으로 분할이 많이 될 수록 과적합 위험이 높아지는 방식이므로, 하이퍼파라미터들을 이용해 분할을 제한한다.(like 가지치기) 백문이 불여일견이라고 시각화된 트리를 보면서 이야기해 보자.

코드

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'retina'
# Load the iris dataset
iris = load_iris()
X = iris.data
y = iris.target

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize the Decision Tree Classifier
clf = DecisionTreeClassifier(random_state=42)

# Fit the classifier to the training data
clf.fit(X_train, y_train)

# Visualize the decision tree
plt.figure(figsize=(12, 8))
plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()

결과 시각화 사진에서 네모 하나를 '노드' 라고 부르는데, 노드에는 각각의 정보가 담겨 있다.

분할 조건 또는 규칙: 데이터를 분할하는 데 사용되는 기능의 경계값.
지니 불순도: 각 노드에 대한 불순도 또는 오분류 정도.
샘플 수: 노드에 도달한 총 샘플 수로 노드의 대표성을 추정하는 데 사용.
값 배열: 노드의 각 클래스에 대한 샘플 분포.
예측 클래스: 노드에서 샘플의 비율이 가장 높은 클래스.

지니 불순도?

Decision Tree에서 불순도(얼마나 섞여있는지)를 측정하기 위한 지표이다. 불순도를 통해서 값이 얼마나 분류가 잘 되었는지를 추론할 수 있다. 값은 0 ~ 0.5 까지 이며, 0에 가까울 수록 분류된 데이터의 순도가 높다고 할 수 있으며, 이는 곧 분류가 잘 되었음을 의미한다. 지니 불순도의 값이 낮을걸로 Decision Tree의 노드를 결정한다. $$ Gini = 1 - \sum (p_i)^2 $$ $$ = 1-(양성class비율^2 + 음성class비율^2) $$ 지니 불순도 높을수록 -> 분류잘안됨(안좋음) 만 기억하자

엔트로피와 정보이득

엔트로피 지니계수와 같이 데이터의 불순도를 확인할 수 있는 지표이다. 값은 0 ~ 1 까지 이며, 값의 의미는 지니 불순도와 같다 $$ Entropy = -\sum_{i=1}^{n} p_i \log_2 p_i $$ $$ = -(음성class비율)\times\log_2 (음성clas비율) - (양성class비율)\times\log_2 (양성clas비율) $$ $$ p_i : 집합 안에서 , i 의 , 확률 $$
정보이득 엔트로피를 이용해 구할 수 있다. 어떤 속성이 얼마나 많은 정보를 제공하는지를 알 수 있다. 부모 노드와 자식 노드의 엔트로피 '차이'의 가중평균으로 계산한다. $$ InformationGain = Entropy(parent) - \sum_{i=1}^{k} \frac{|D_i|}{|D|} Entropy(D_i) $$

정보이득은 으로 노드를 나누게 되면 엔트로피를 더 많이 감소시킬 수 있는 방식으로 값을 나누기 때문에, 뚜렷한 값이나 범주를 가진 변수에 편향될 수 있다는 점이 있다. 그러므로 변수가 많을 때에는 지니계수를 쓰는게 좋다.

하이퍼파라미터	설명	사용 예시
`max_depth`	트리의 최대 깊이. 트리 성장을 제한하여 과적합을 방지합니다.	`max_depth=10`
`min_samples_split`	내부 노드를 분할하는 데 필요한 최소 샘플 수. 작은 노드로 인한 과적합을 방지합니다.	`min_samples_split=20`
`min_samples_leaf`	리프 노드에 있어야 하는 최소 샘플 수. 리프의 크기를 조절합니다.	`min_samples_leaf=5`
`max_features`	최적의 분할을 찾을 때 고려할 기능 수의 최대값. 무작위성을 증가시켜 과적합을 방지할 수 있습니다.	`max_features="sqrt"`
`max_leaf_nodes`	최대 리프 노드 수. 과적합을 방지하기 위해 리프 노드 수를 제한합니다.	`max_leaf_nodes=50`
`min_impurity_decrease`	노드 분할에 필요한 최소 불순도 감소. 이 값보다 작은 불순도 감소는 분할을 하지 않습니다.	`min_impurity_decrease=0.01`
`min_impurity_split`	분할을 중단할 불순도의 임계값. 이 값을 초과하는 불순도를 가진 노드는 분할을 중단합니다. (deprecated)	`min_impurity_split=0.1` (사용되지 않음)
`criterion`	분할을 결정하는 기준. "gini"(지니 불순도) 또는 "entropy"(엔트로피) 중 하나를 선택할 수 있습니다.	`criterion="gini"`
`splitter`	각 노드에서 분할을 선택하는 전략. "best"는 최적의 분할을 선택하고, "random"은 무작위 분할을 선택합니다.	`splitter="best"`

작성하기 귀찮아서 gpt한테 맡김 ㅋㅋ

로지스틱 회귀(Logistic Regression)

종속변수의 결과값이 이분법으로 나누어 지는 경우(이진결과)에 사용된다.(예 아니오, 참 거짓, 0 1) 선형 회귀선을 찾는것이 아니고 로지스틱(시그모이드) 함수에 반환되는 값을 확률로 간주하여 값 0.5를 기준으로 이진 분류를 수행한다.

회귀라는 이름은 갖지만 선을 찾는건 아니고, 정해져 있는 선에 값을 찍어서 확률값을 통해 0, 1 을 분류한다는 소리인 것 같다. 쉽게 풀어쓴답시고 썼는데 위에문장이랑 별 차이 없는것같다.

Support Vector Machine

분류를 위한 기준선(결정경계선)을 찾는 알고리즘. 의외로 분류와 회귀 둘 다 사용할 수 있다. 각각 SVC(Support Vector Classification), SVR(Support Vector Regression) 으로 불린다. 마진을 '최대'로 하는 결정 경계를 찾는것이 SVM의 목표이다. 성능을 높이기 위해서 정규화(scaling)가 필수이다.

서포트 벡터(Support Vector) 결정 경계선과 가장 가까운 데이터 포인트
마진(margin) 결정경계선과 서포트 벡터 사이의 거리
Cost(정규화 매개변수) 분류 오류를 결정하는 값, 마진을 최대화 할 수 있다. 값을 높일수록 더 넓은 마진을 허용하지만 오분류가능성이 있다. 누누히말하지만 적절한 Cost 값을 찾는게 중요하다. 높으면 과대적합, 낮으면 과소적합 위험이 있다.
초평면(Hyperplane) SVM의 결정 경계를 의미한다. 데이터가 나타나는 공간보다 차원이 하나 적다. 그래서 2차원에서는 경계선(1차원), 3차원에서는 경계면(2차원) 이 된다.
커널 함수(Kernel function) 대부분의 데이터는 선형으로 분류하기 힘드므로 커널 함수를 이용하여 비선형으로 데이터를 분류한다. 데이터간에 다른차원으로 분리해서 분류를 한다나 뭐라나... RBF(Radial Basis Function)이 가장 많이 쓰인다.
감마(gamma) 비선형 SVM에서 쓰이는 값으로, 모델이 생성하는 경계가 복잡해지는 정도를 나타낸다. Cost와 비슷한 역할을 한다고 생각하면 될 것 같다.

기본 알고리즘 데이터 전처리 정리

알고리즘	스케일링	범주형 변수 처리
선형 회귀	필요 없음	가변수화
KNN	필요	가변수화
의사결정나무	필요 없음	필요 없음
로지스틱 회귀	필요 없음	가변수화
SVM	필요	가변수화
***
# 앙상블 알고리즘
여러가지 기본 모델 알고리즘들을 결합하여 하나의 최종 예측 모델을 생성하는 방법.
일반적으로 단일 모델보다 다 나은 성능과 과적합이 줄어든다.
***
## 보팅(Voting)
여러개의 알고리즘이 투표를 통해 최종 예측 결과를 결정하는 방식, 소프트보팅과 하드보팅이 있다.
분류로 예시를들어 차이를 설명하자면 다음과 같다.
* 하드 보팅
다수의 알고리즘이 예측한 클래스 값이 최종 결과값

소프트 보팅 모든 알고리즘이 예측한 클래스 값의 확률의 평균을 귀한뒤 가장 높은 값을 가진 클래스를 최종 결과로 선정

예시 코드 분류인지 회귀인지에 따라 Voting 뒤에 오는 글자를 다르게 하면 된다.

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

# Load the iris dataset
data = load_iris()
X, y = data.data, data.target

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define the base models
lr = LogisticRegression()
dt = DecisionTreeClassifier()
knn = KNeighborsClassifier()

# Create the Voting Classifier using the base models
voting_classifier = VotingClassifier(estimators=[('lr', lr), ('dt', dt), ('knn', knn)], voting='hard')

# Train the Voting Classifier on the training data
voting_classifier.fit(X_train, y_train)

# Make predictions on the test data
y_pred = voting_classifier.predict(X_test)

# Calculate the accuracy of the Voting Classifier
accuracy = accuracy_score(y_test, y_pred)
print(f"Voting Classifier Accuracy: {accuracy:.2f}")

배깅(Bagging)

'Bootstrap Aggregating' 약자, 데이터로부터 부트스트랩(샘플링의 한 종류) 한 데이터로 모델을 학습시킨 후, 학습된 모델의 결과를 집계하여 최종 결과를 얻는 방법. 분산을 줄이고 과적합을 방지하는데 도움이 된다. 다수의 모델을 예측 후 결합을 하는 방식에서 샘플링과 비슷한 측면이 있지만, 같은 모델로 학습을 한다는 점(랜덤 포레스트)과, 샘플링된 데이터를 사용한다는 차이가 있다.

랜덤 포레스트(Random Forest)

배깅을 이용한 앙상블의 가장 대표적인 알고리즘, Decision Tree 알고리즘을 여러 번 사용하여 결합한다는 의미에서 Forest라는 의미가 붙었다. 두가지를 무작위로 선택한다. 한가지는 배깅 알고리즘이라는 점에서 추측할 수 있듯이, 데이터를 부트스트래핑한다는 것이고, 나머지 하나는 Decision Tree의 분할 기준이 되는 Feature를 랜덤으로 선택하는 것이다.

주요 하이퍼파라미터는 Decision Tree 와 비슷하다.

하이퍼파라미터	설명
`n_estimators`	숲에 있는 나무의 수. 나무의 수를 늘리면 일반적으로 모델 성능이 향상되지만 계산 시간이 늘어난다.
`max_features`	각 노드에서 분할을 위해 고려되는 특성의 최대 개수. 이 값을 줄이면 다양성이 증가하여 과적합을 줄일 수 있다.
`max_depth`	나무의 최대 깊이. 이 값을 제한하면 모델의 복잡성이 감소하여 과적합을 방지할 수 있다.
`min_samples_split`	노드를 분할하기 위한 최소 샘플 수. 이 값을 높이면 모델의 복잡성이 감소하여 과적합을 방지할 수 있다.
`min_samples_leaf`	리프 노드에 필요한 최소 샘플 수. 이 값을 높이면 모델의 복잡성이 감소하여 과적합을 방지할 수 있다.

부스팅(Boosting)

같은 유형의 알고리즘 기반 분류기 여러 개에 대해 순차적으로 학습을 수행하는 알고리즘. Decision Tree를 병렬적으로 훈련하는 Random Forest와 달리, 순차적으로 훈련한다는 차이가 있다. 즉, 이전 분류기 학습 결과에 영향을 받는다. 배깅에 비해 성능이 좋지만 속도가 느리고 과적합 가능성이 있다. 이러한 부스팅 알고리즘을 최적화하고 효율화하여 개선한 XGBoost 알고리즘이 자주 사용된다. 다음은 XGBoost 알고리즘의 하이퍼파라미터이다.

하이퍼파라미터	설명	일반적인 값과 기본값
`learning_rate`	학습률입니다. 각 부스팅 단계에서 새로운 weak learner의 가중치를 조정하는 데 사용됩니다. 일반적으로 낮은 값이 설정됩니다.	일반적인 값: 0.01 ~ 0.3, 기본값: 0.3
`max_depth`	각 weak learner(결정 트리)의 최대 깊이입니다. 이 값을 줄이면 과적합을 방지할 수 있습니다.	일반적인 값: 3 ~ 10, 기본값: 6
`min_child_weight`	자식 노드에 필요한 최소 가중치 합입니다. 이 값을 높이면 과적합을 방지할 수 있습니다.	일반적인 값: 1 ~ 20, 기본값: 1
`gamma`	트리 분할을 허용하는 데 필요한 최소 손실 감소입니다. 이 값을 높이면 과적합을 방지할 수 있습니다.	일반적인 값: 0 ~ 20, 기본값: 0
`subsample`	각 weak learner를 학습하는 데 사용되는 샘플의 비율입니다. 이 값을 낮추면 과적합을 방지할 수 있습니다.	일반적인 값: 0.5 ~ 1, 기본값: 1
`colsample_bytree`	각 weak learner를 학습하는 데 사용되는 특성의 비율입니다. 이 값을 낮추면 과적합을 방지할 수 있습니다.	일반적인 값: 0.5 ~ 1, 기본값: 1
`lambda`	L2 정규화 항의 가중치입니다. 이 값을 높이면 과적합을 방지할 수 있습니다.	일반적인 값: 0 ~ 10, 기본값: 1
`alpha`	L1 정규화 항의 가중치입니다. 이 값을 높이면 과적합을 방지할 수 있습니다.	일반적인 값: 0 ~ 10, 기본값: 0
`n_estimators`	부스팅 단계(weak learner)의 수입니다. 더 많은 단계가 진행될수록 모델이 복잡해지지만 과적합이 발생할 수 있습니다.	일반적인 값: 100 ~ 1000, 기본값 100

catboost?

최근에 나온 그라디언트 부스팅 알고리즘이다. 범주형 특성에 효율적으로 처리하도록 설계되었으며 GPU 가속을 이용할 수 있어서 다른 그라디언트 부스팅 알고리즘보다 더 빠르다고 한다. 알고리즘의 기술적인 특징에 관련해서 아주 잘 요약한 블로그 글이 있어서 따로 포스팅은 생략...

스테킹(Stacking)

여러 모델의 예측 값을 최종 모델의 학습 데이터로 사용하여 예측하는 방법. 기본모델과 최종모델로 나누어서 학습을 진행한다. 여러개의 기본모델로 학습을 진행한 뒤 마지막으로 최종모델을 이용하여 최종 예측을 수행하는 알고리즘이다. 도식화

      Base Model 1   Base Model 2   ...   Base Model N
          |              |                      |
          v              v                      v
        ┌─────┐        ┌─────┐                ┌─────┐
Training┤  M1 ├────────┤  M2 ├────────────────┤  MN ├─────┐
 Data   └─────┘        └─────┘                └─────┘     |
           |              |                      |        |
           v              v                      v        v
        ┌─────┐        ┌─────┐                ┌─────┐   ┌─────┐
 Test   ┤  M1 ├────────┤  M2 ├────────────────┤  MN ├───┤MetaM├─── Final Prediction
 Data   └─────┘        └─────┘                └─────┘   └─────┘
           |              |                      |
           v              v                      v
      Predictions 1  Predictions 2          Predictions N

예시 코드

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import StackingClassifier

# Load Iris dataset
data = load_iris()
X, y = data.data, data.target

# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define base models
base_models = [
    ('logistic_regression', LogisticRegression()),
    ('knn', KNeighborsClassifier(n_neighbors=3)),
    ('random_forest', RandomForestClassifier(n_estimators=100, random_state=42))
]

# Define the meta-model
meta_model = LogisticRegression()

# Create the stacking classifier
stacking_classifier = StackingClassifier(estimators=base_models, final_estimator=meta_model)

# Fit the stacking classifier to the training data
stacking_classifier.fit(X_train, y_train)

# Evaluate the stacking classifier on the test data
score = stacking_classifier.score(X_test, y_test)
print(f"Stacking Classifier Test Accuracy: {score:.2f}")

머신러닝 - 개괄

Wed, 15 Mar 2023 16:08:53 GMT

이미지출처 syntax 약속 본 포스팅은 KT 에이블스쿨 교육내용을 제 나름대로 정리하여 작성하였습니다

머신러닝?

ML(머신러닝)은 사용하는 데이터를 기반으로 학습 또는 성능 향상을 지원하는 시스템을 구축하는 데 초점을 맞추는 인공 지능(AI)의 하위 집합입니다. 출처 대충 이런관계이다.

머신러닝 학습 종류

머신러닝은 학습 방법에 따라

지도학습(Supervised Learning) 학습 대상이 되는 데이터에 정답을 주어 규칙성을 배우게 하는 방법
비지도학습(Unsupervised Learning) 정답이 없는 데이터 만으로 배우게 하는 방법
강화학습(Reinforcement Learning) 선택한 결과에 보상을 받아 행동을 개선하며 배우게 하는 학습방법

으로 나뉜다.

또한 학습 과제에 따라

분류(Classification)
회귀(Regression)
군집화(Clulstering)

로 나뉜다. 자세한건 그림을 참고하자.

일단은 '사이킷런(sklearn)을 사용하여 분류와 회귀에 대해서만 다룰 예정이다.

1. 미리 알아 둘 용어

분류와 회귀
모델, 모델링
행, 열
독립변수, 종속변수
오차와 평균
데이터 분리
과대적합 & 과소적합

1. 0. 분류와 회귀

주어진 문제가 분류인지 회귀를 구분하는 것은 매우 중요하다. 사용하는 알고리즘과 평가 방법이 달라지기 때문다.

매우 간단하게 요약하자면

분류 : 그룹 예측
회귀 : 값 예측

판단기준은 값의 연속성 여부 이다.

1. 1. 모델, 모델링

모델 : 데이터로 부터 pattern 을 찾아 수식으로 정리해 놓은 것
모델링 : (오차가 적은) 모델을 만드는 것 혹은

머신이 적절한 학습을 통해 최선의 모델을 만들 수 있도록 노력하는 행위
모델링의 목적 : sample을 가지고 전체를 추정하기 위함
- sample = 표본, 부분집합, 일부, 과거의 데이터
- 전체 = 모집단, 전체집합, 현재 혹은 미래의 데이터

1. 2. 행, 열

다른 명칭들을 숙지해야 한다.

행(Row)
- 개체(Instance)
- 관측치(Observed Value)
- 기록(Record)
- 사례(Example)
- 경우(Case)
- 열(Column)
  - 특성(Feature)
  - 속성(Attribute)
  - 변수(Variable)
  - 필드(Field)

1. 3. 독립변수, 종속변수

y = ax + b 에서

x : 독립변수 y : 종속변수

이다.

x 의 값의 변화에 따라 y의 값이 변화하므로 y는 x에 종속되어있다고 할 수 있다.

1. 4. 오차와 평균

평균(mean) - 통계학에서 사용되는 가장 단순한 모델
오차(error) - 관측치와 모델의 차이(이탈도, Deviance 라고도 부른다.)

1. 5. 데이터 분리

머신러닝을 하기 위해서는 데이터셋의 분리가 필요하다.

학습용(training)
검증용(validation)
평가용(testing) -> 미래의 data, 찐 막 최종 평가

좀 검증용과 평가용 데이터가 햇갈릴 수도 있는데, 모의고사와 수능의 차이라고 생각하면 이해가 조금 편할 것 같다.

target(y)
feature(x)

실전에서는 평가용 데이터는 현실 상황에선 별도로 제공되는 경우가 많다. 하지만 학습에서는 가지고 있는 데이터에서 따로 떼서 사용한다.

각각 6:2:2 비율 혹은 검정을 제외한 7:3 비율로 나누는 것이 일반적이나, 아주 많은 양의 데이터(백만개단위)를 다루는 빅데이터의 경우에는 98:1:1 로하는 경우도 있다고 한다. 출처 일반적인 지도학습 머신러닝 교육에서 분리되는 데이터 모양

1. 6. 과대적합과 과소적합

머신러닝을 관통하는 키워드에는 '과유불급' 이라고 생각한다. 모델 학습이 너무 과하면 과대적합이, 너무 적으면 과소적합이 일어나는 등... 항상 적절한 point를 찾는게 중요하다고 할 수 있다.

과대적합(Overfitting) 학습 데이터에 대해서 점수가 높지만, 실제 데이터를 가지고 하는 예측(평가 데이터)에는 점수가 매우 낮은 경우
과소적합(Underfitting) 학습 데이터가 평가데이터보다 점수가 낮은 경우, 혹은 둘 다 매우 낮은 경우, 모델이 너무 단순하여 적절하게 훈련이 안 된 경우

2. 모델링 과정

불러오기
데이터 이해 및 준비
모델 성능 예측 및 선정
모델 튜닝 및 학습
예측 및 평가

2. 1. 라이브러리 불러오기

머신러닝에 필요한 기본 라이브러리와 데이터들을 불러온다.

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format = 'retina'

데이터프레임에 관련된 라이브러리인 numpy, pandas 시각화를 담당하는 라이브러리인 seaborn, matplotlib 그리고 각종 다양한 라이브러리도 많지만 생략한다.

2. 2. 데이터 이해 및 준비

2. 2. 1. 데이터 이해

불러온 데이터를 탐색하여 충분히 이해할 수 있도록 한다. 데이터 탐색과정은 링크로 대체한다. 추가적으로 seaborn의 corr() 메소드를 이용하여 변수 관 상관관계를 분석할 수 있다. 이 단계에서 제일 중요한 과정은 Target(y) 값을 찾는 것이다.

2. 2. 2. 데이터 준비

머신러닝에 사용할 수 있도록 데이터들을 전처리해주는 과정이다.

불필요한 변수 제거 머신러닝에 사용할 필요가 없는 항목들, 주민번호나 사번 등 개인을 식별할 용도로 쓰이는 변수들은 drop 메소드를 이용하여 삭제해준다.

data.drop('colname', axis=1, inplace=True)

필요한 변수 추가 데이터 이해과정중 추가가 필요하겠다고 생각한 변수들을 추가해준다.
타겟 설정과 데이터 분리 타겟을 설정한 뒤 기존 데이터프레임에서 분리해 y에 할당하고, y를 제외한 데이터들도 x에 할당해준다.
```
target = 'colname'
y = data[target]
x = data.drop(target, axis=1)
```
결측치 처리 자세한 내용은 링크를 참고하자. 추가로 Knn imputer같은 다양한 결측치 처리 방법도 있는데, 후에 수정하여 추가하겠다.
가변수화 분류를 위한 머신러닝 알고리즘에는 '가변수화'라는게 필요하다. 일반적으로 자료형이 object인 변수들(예를들어 성별, 만족도 조사 결과 등) 들이 대상이 된다. 코드에 대한 자세한 이해도 역시 링크를 참고하자 ㅋㅋㅋ
```
dumn_cols = ['col1', 'col2', 'col3', 'col4']
x = pd.get_dummies(x, columns=dumn_cols, drop_first=True)
```
데이터 분리 학습용 데이터와 평가용(예측용) 데이터를 분리해야 한다. sklearn 의 train_test_split 모듈을 이용해서 분리한다. 학습에서는 같은 결과값을 봐야하므로 random_state 를 같은 값으로 지정한다. 위쪽의 데이터 분리의 그림을 토대로 분리한 것이며, 7:3 비율로 분리한 것이다.
```
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)
```
정규화(scaling) 모델의 성능을 높이기 위해(특히 KNN) 스케일링이 필요한 경우가 있다. 대표적으로 2가지가 있다.
- Normalization(min-max scaling) $$ X_{norm} = \frac{x - x_{min}}{x_{max}-x_{min}} $$
- Standardization $$ X_{Z}=\frac{x-mean}{std} $$

위 공식을 직접 사용하거나, sklearn 이 기본적으로 제공하는 함수를 사용해도 된다.

from sklearn.preprocessing import MinMaxScaler, StandardScaler
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train_s = scaler.transform(x_train)
x_test_s = scaler.transform(x_test)

2. 3. 모델 성능 예측 및 선정

모델의 종류 주어진 데이터셋에 어떤 모델을 사용할지 결정하는 것이다. 모델 성능 예측은 해당 모델로 학습한 후 테스트를 진행했을 때 예상되는 성능을 추정하는 과정이다. 이는 검증 과정과 유사하다.(같은건가?) 예측 및 평가가 '수능'이라면 본 과정은 '모의고사' 인 셈이다. 일반적인 모델 성능평가 지표를 사용하거나, K-분할 교차 검증(K-Fold Cross Validation)을 사용한다.

2. 3. 1. 모델 종류

따로 포스팅 예정

2. 3. 2. 선정을 위한 모델 성능 예측

K-분할 교차 검증(K-Fold Cross Validation) 모든 데이터를 K 개로 분할하여 1번 평가 K-1 번 학습 후, 분할에 대한 모든 성능 추정치를 평균 혹신 표준편차로 나타낸 수치를 최종 정확도로써 사용한다. 출처 - scikit-learn 라이브러리의 공식 문서 다크모드에서는 잘 안보인다...(이런젠장) 다음과 같은 장점들이 있다.

정확도상승
평가데이터 편향 방지
일반화된 모델
데이터 부족으로 인한 과소적합 방지

sklearn 에서는 cross_val_score 모듈을 임포트 하여 간단하게 사용할 수 있다.

# 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# 검증용 모델 선언하기 
model = DecisionTreeClassifier(max_depth=5,  random_state=1)

# 검증하기
cv_score = (model, x_train, y_train, cv=10)
cross_val_score

# 확인
print(cv_score)
print('평균:', cv_score.mean())
print('표준편차:', cv_score.std())

2. 4. 모델 튜닝 및 학습

2. 4. 1 하이퍼파라미터 튜닝

모델의 하이퍼파라미터(hyperparameter)를 조절하여 모델을 튜닝할 수 있다.

하이퍼파라미터(hyperparameter)란? 훈련 과정에서 학습되지 않지만 훈련이 시작되기 전에 설정되는 매개변수 간단하게 말하면, 모델링 시에 사용자가 조절할 수 있는 옵션이라고 보면 되겠다. 하이퍼파라미터는 모델의 성능에 큰 영향을 미치므로 적절한 값의 설정은 매우 중요하다. 물론 다음의 이유로 최적의 파라미터를 얻었을 지라도 운영환경에서 성능이 보장되지 않을 수도 있다.

과적합
미래의 데이터가 과거와는 다른 경향값을 가짐 과거의 데이터를 가지고 미래를 평가하는 머신러닝 모델의 특성상 미래의 모델이 과거의 경향성을 따라가지 않는다면 맞지 않을 수 있다.
확률론적 관점 어디까지나 최적의 파라미터는 최고의 성능을 가질 수 있는 '확률'이 제일 높은 값이기 때문에 한~두번의 평가에서는 다른 파라미터가 우세한 경우도 있다.

하이퍼파라미터를 튜닝하는데는 두가지 방법이 있다.

Grid Search -> 전수조사
Random Search -> 일부만 조사

'딱 봐도 그리드서치는 잘뽑는데 오래걸리고, 랜덤은 반대겠지? ㅎㅎ~' 라 생각한 당신 정답이다 ㅋㅋ

# 기본 모델 선언
model_xgb = XGBClassifier(random_state=1)
# 파라미터 지정, 여러개 지정도 가능하다.
param = {'max_depth': range(1, 21)}

model = GridSearchCV(model_xgb,
                     param,
                     cv=5,
                     scoring='accuracy')

Random Search는 위의 코드 괄호 안에 n_iter 라는 변수를 추가하면 된다. 임의로 선택할 파라미터의 조합 수를 나타낸다. cv는 검증용으로 사용하는 K-Fold Cross Validation 의 K 값이다. 위의 코드는 max_depth 를 1~20 까지, 그리고 각각 5번의 검증을 거치므로 총 100번의 시행횟수를 가지게 될 것이다.

# 학습하기
model.fit(x_train, y_train)

print(model.best_params_)
print(model.best_score_)

튜닝을 거치고 바로 모델을 fitting 하게되면 알아서 최적의 값을으로 학습을 하게된다. beat_params_ 와 bset_score_ 를 통해 최적의 파라미터와 test 데이터를 넣었을 시 예측되는 점수를 표시해준다.

plt.figure(figsize=(6, 5))
plt.barh(list(x), model.best_estimator_.feature_importances_)
plt.show()

best_estimator_ 최고 추정치의 feature_importances_ 변수 중요도도 Plot 할 수 있다.

2. 4. 2 Feature selection

Decision Tree, Random Forest를 기반으로 하는 모델들에 사용되며 Feature 가 많은 데이터에 유용하다. 모델 fitting(학습) 후 모델명.feature_importances_ 를 작성하면 중요도를 반환해준다. 보통은 feature 이름과 결합하여 DataFrame을 만들어 사용하며. 이를 통해 중요한 feature를 쉽게 확인할 수 있다.

다음은 for 문을 이용하여 모델링에 필요한 최적의 feature 갯수를 구하는 코드의 예시이다. 미리 GridSearch를 통해 최적의 파라미터를 구한 상태에서 시작한다.

acc = pd.DataFrame(columns=['accuracy_score'])

for i in range(130):

    importance_n = importance_sort['feature_name'][:i+1]

    x_train_n = x_train[importance_n]
    x_val_n = x_val[importance_n]

    xgb_n_model = XGBClassifier(learning_rate=0.3, max_depth=3, random_state=2023)
    xgb_n_model.fit(x_train_n, y_map_train)
    xgb_n_pred = xgb_n_model.predict(x_val_n)

    acc.loc[i] = accuracy_score(y_map_val,xgb_n_pred)
    print(acc.loc[i])

acc

2. 5. 예측 및 평가

문제가 분류인지 회귀인지에 따라 평가방식이 다르다. 값에는 3가지가 있다.

실제값 목표로 하는 값, 성능평가는 이 값과의 비교로 한다.
예측값 머신러닝 알고리즘으로 '새롭게' 예측한 값
평균값 '기존에' 예측한 값

2. 5. 0. 평가 관련 모듈 불러오기

평가 관련 모듈 불러오기

from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, mean_absolute_percentage_error

# 보통은 이렇게 씀
from sklearn.metrics import *

2. 5. 1. 회귀모델의 평가

오차 회귀 모델의 평가는 예측값과 실제값의 차이인 오차(Error)를 확인한다. 상식적으로 예측값과 실제값의 차이가 작을 수록 좋은 모델이므로, 오차는 낮을수록 좋다. 실제값과 예측값의 오차는 샘플마다 다르므로, 이를 한번에 말하는 수치들이 필요하다. $$ y_i :i번째 샘플의 실제 값 $$ $$ \hat{y_i} : i번째 샘플의 예측값 $$ MSE(Mean Squared Error) - 평균 제곱 오차 $$ MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2 $$ RMSE(Root Mean Squared Error) - 평균 제곱근 오차 $$ RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2} $$ MAE(Mean Absolute Error) - 평균 절대 오차 $$ MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y_i}| $$ MAPE(Mean Absolute Percentage Error) - 평균 절대 백분율 오차 $$ MAPE = \frac{100percent}{n}\sum_{i=1}^{n}\left|\frac{y_i - \hat{y_i}}{y_i}\right| $$ 일반적으로 MAE를 많이 사용한다.
오차 제곱합 SST(Sum Squared Total) : 전체 오차 $$ SST = \sum_{i=1}^{n}(y_i - \bar{y})^2 $$ SSR(Sum Squared Regression) : 전체 오차 중 회귀식이 잡은 오차 $$ SSR = \sum_{i=1}^{n}(\hat{y_i} - \bar{y})^2 $$ SSE(Sum Squared Error) : 전체 오차 중 회귀식이 못잡은 오차 $$ SSE = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 $$ 정의대로라면 당연히 밑의 공식도 성립한다. $$ SST = SSE + SSR $$
결정계수(R²) MSE를 표준화 한 수치, 전체 오차 중 회귀식이 잡아낸 오차의 '비율'을 의미한다. 오차의 비, 설명력이라고도 부른다. 비율이므로 0~1 사이에 값이 표기되며, 높을수록 모델이 데이터를 잘 학습함을 의미한다. $$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$

사이킷런에서는 다양한 메소드를 이용해서 평가값을 구할 수 있다. RMSE는 MSE에서 squared 옵션을 이용하여 구할 수 있다

print(f'RMSE  : {mean_squared_error(y_val, pred, squared=False)}')
print(f'MAE   : {mean_squared_error(y_val, pred)}')

2. 5. 2. 분류모델의 평가

분류모델은 정확히 맞춘 비율을 평가한다.

confusion matrix(혼동행렬, 오분류표) 실제값과 예측된 값의 관계를 나타낸 표이다. 예측값과 실제값이 일치한 경우 True 이며, 예측여부에 따라 N과 P로 나뉜다.

Actual/Predicted	Negative	Positive
Negative	True Negative (TN)	False Positive (FP)
Positive	False Negative (FN)	True Positive (TP)

평가 지표

정확도(Accuracy)모든 예측 중 정확히 예측(True) 한 비율 가장 직관적으로 모델 성능을 확인할 수 있는 평가 지표 $$ Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$
정밀도(Precision) : 1이라 예측한 것 중 1인 비율 $$ Precision = \frac{TP}{TP + FP} = \frac{TP}{Predicted, Positive}$$
재현율(Recall, 민감도) : 실제 1인 것을 1이라 예측한 비율 $$ Recall = \frac{TP}{TP + FN} = \frac{TP}{Actual, Positive}$$$$
특이도(Specify) : 실제 0인 것을 0이라 예측한 비율 $$ Specify = \frac{TN}{TN + FP}$$
정밀도와 재현율의 조화평균 $$ F_1 = 2 \cdot \frac{precision \cdot recall}{precision + recall}$$

정밀도와 재현율

매우 햇갈리므로 정확하게 아는것이 중요하다.
- 정밀도 : 예측 관점, 'P'를 통해 연상하면 편하다.
- 재현율 : 실제 관점, 실제가 positive 인 것이 분모이다.
비슷해 보이는데 왜 쓸까?
- 실제 1인 것을 맞출 확률이 중요한 분야에서 사용한다.(감염병 판별, 산업분야 등)

혼동행렬과 분류결과 예시 Classification Report 의 recall 값과 f1-score 값을 주로 본다.

print('accuracy_score: ',accuracy_score(y_test,xgb_top_pred))
print('\n confusion_matrix: \n',confusion_matrix(y_test,xgb_top_pred))
print('\n classification_report: \n',classification_report(y_test,xgb_top_pred))

Confusion Matrix:
[[10  0  0]
 [ 0  9  1]
 [ 0  1  9]]
Classification Report:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       0.90      0.90      0.90        10
   virginica       0.90      0.90      0.90        10

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30

3. 토이데이터

4. 학습곡선

5. 규제

6. 분산팽창지수

참고 : 관련 함수 불러오기

# 분리하기
from sklearn.model_selection import train_test_split

# 회귀문제
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import r2_score

# 분류문제
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTree Classifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

# 성능튜닝
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV

glob

Tue, 21 Feb 2023 11:17:22 GMT

이미지출처

본 포스팅은 KT 에이블스쿨 교육내용을 바탕으로 제 나름대로 정리하여 작성하였습니다.

파이썬을 이용하면서 다수의 파일들을 다뤄야 할 때 유용한 모듈이다. 사용자가 제시한 조건에 맞는 파일들을 list 형식으로 반환해준다.

import

from glob import glob

* 과 ? 를 이용하여 조건을 제시할 수 있다.

* 임의 길이의 모든 문자열
? 한자리의 문자열

예시

glob와 for 문을 이용하여 판다스의 데이터프레임을 한번에 불러올 수 있다.

import pandas as pd
from glob import glob
file_names = glob("생활이동_자치구_202212/*.csv") #1
total = pd.DataFrame() #3.1

for file_name in file_names:
    temp = pd.read_csv(file_name, encoding='cp949') #2
    total = pd.concat([total, temp]) # 3.2

#1 생활이동_자치구_202212 디렉토리에 있는 .csv 확장자를 가진 모든 파일들을 읽어온 뒤, file_names 라는 변수에 list 로 저장시켜준다.
#2 file_name 의 요소로 for 문을 작성하여 read_csv 메소드를 이용해 csv 파일을 읽은 뒤, temp 변수에 저장한 뒤,
#3 미리 저장한 빈 데이터 프레임인 total 변수에 concat() 함수를 이용하여 세로로 합쳐주는 행위를 for 으로 반복했다.

파이썬 개념정리 - 매개변수와 전달인자, syntax 약속

Mon, 20 Feb 2023 11:19:49 GMT

이미지출처

함수

매개변수와 전달인자에 대해 알아보기 이전에 함수의 구조에대하여 먼저 알아야한다. 함수의 구조는 보통 이렇게 생겼다.

funcname(parametername1, parametername2...)

funcname 는 함수의 이름이고, parametername 들은 함수의 매개변수(parameter)이다. 함수는 매개변수를 갖지 않거나 1개 이상 가지기도 한다. 또한 매개변수는 각각의 이름을 가진다. (변수니까 당연한 건가?)

매개변수와 전달인자

위를 참고하면 매개변수는 함수의 입력값과 같은 역할을 한다는 것을 알았을 것이다. 그럼 전달인자는 무엇일까?

전달인자(arguments)는 매개변수에 data를 넣은 것을 의미한다.

arguments : 함수로 전달되어 호출(call)되는 데이터 parameter : 그 데이터의 이름

이라고 설명을 할 수 있겠다.

이해를 돕기 위해 간단한 함수를 만든 뒤 예시를 들어 설명하겠다. 한국어 이름을 입력받아서 한글자씩 출력해주는 함수이다.

def name_spliter(name) :
    print(name[0])
    print(name[1])
    print(name[2])

엄준식을 함수의 입력값으로 작성하면,

name_spliter('엄준식')

엄
준
식

이런 결과가 뜰 것이다. name 이 함수의 parameter 가 되는 것이고, 엄준식 이 함수의 arguments 가 되는 것이다.

위치인자와 키워드인자

함수의 arguments 는 두 가지 방법으로 작성할 수 있는데, 하나는 위치인자이고 다른 하나는 키워드인자이다.

위치인자(positional arguments) 전달인자(arguments)를 매개변수(parameter)의 위치와 일치시키는 것. 위치값이 기준이므로 입력순서가 바뀌면 함수가 원하는데로 작동하지 않을 수 있다. 함수의 매개변수의 수가 적거나, 전부 작성해야 하는 경우에 사용한다.
키워드인자(keyword arguments) 매개변수(parameter)에 등호를 이용하여 전달인자(arguments)를 할당하는 것. 작성하기 번거로운 단점이 있으나, 입력 순서에 영향을 받지 않는다. 함수의 매개변수의 수가 많거나 일부만 작성해도 되는 경우에 사용한다.

syntax 약속

블로그에 작성된 여러 함수와 메소드의 syntax들을 보면 어떤 매개변수는 위치인자를 사용하고, 어느것은 키워드 인자를 사용하기도 한다. 이거진짜 상당히 햇갈림 이에 따른 혼란을 줄이기 위해 파라미터 설명 옆에 위치인자로 이용되는 매개변수는 L, 키워드인자로 사용되는 매개변수는 K 로 작성할 예정이다.

pandas 개념정리

Mon, 20 Feb 2023 01:19:31 GMT

이미지출처 syntax 약속 본 포스팅은 KT 에이블스쿨 교육내용을 바탕으로 제 나름대로 정리하여 작성하였습니다

Pandas란?

데이터프레임을 처리하기 위해 이용하는 python의 라이브러리 중 하나이다. 이 포스팅에서도 기능들에 대해 설명하겠지만, 당연히 부족하므로 자세한건 링크를 참고하자.

데이터프레임?

행과 열의 인덱스가 존재하고 인덱스에 맞게 데이터들이 존재하는 데이터구조이다. 한마디로 그냥 엑셀같은거라고 보면 이해가 빠를 것이다. 직접 만들수도 있지만 보통 excel, csv, DB 등에서 읽어온다.

series?

인덱스와 값으로 나타내어지는 열이 '하나'인 자료형은 따로 series 자료형이라고 부른다.

1. 데이터프레임 생성

1. 1. 라이브러리 불러오기

데이터프레임을 이용하기 위해서는 pandas 라이브러리를 import 해주어야 한다. 일반적으로 as 를 이용해여 'pd'라는 별칭을 주어 사용한다.

import pandas as pd

앞으로 밑에 나오는 코드들은 전부 pandas를 import 했다는 가정 하에 작성한 것이다.

1. 2. 데이터프레임 '직접' 만들기

데이터프레임을 구성하는 3가지 요소로 구성되어 있다.

열
행
데이터

pd.DataFrame() 함수에 위 세가지 요소를 넣어서 데이터프레임을 만들 수 있다. 열과 행 이름은 생략할 수 있으며, 생략시 순서에 기번한 정수로 인덱싱된다.

syntax
df = pd.dataFrame(data, index, columns)

df 데이터프레임 이름
index 열 이름 L K
columns 행 이름 L K

리스트로 만들기

1차원 리스트 1개의 열을 가진 데이터프레임이 생성된다.
2차원 리스트 안쪽에 중첩되어있는 리스트가 행으로 생성된다. 예시

# 2차원 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]

# 데이터프레임 만들기
df = pd.DataFrame(stock)

# 확인
df

	0	1	2	3
0	94500	92100	92200	92300
1	96500	93200	95900	94300
2	93400	91900	93400	92100
3	94200	92100	94100	92400
4	94500	92500	94300	92600
### 딕셔너리로 만들기
`key` 와 `value` 로 구성되어있으므로, `key` 가 `rownames`이 되고, `value` 가 `data`가 된다.
***
## 1. 3. CSV 파일 읽어오기
### CSV 파일이란?
Comma Seperated Values
단어 뜻 그대로 쉼표로 값을 구분한 데이터를 의미한다. 사실 쉼표가 아니더라도 특정한 구분자를 가지고 데이터들을 구분해놨으면 모두 CSV라고 부르는 것 같다.
파일 여러개 읽기
### 읽어오기
```python
syntax
df = pd.read_csv(path)
```
주요 `parameter`
* `path` `L` 데이터 경로
데이터를 읽어올 경로이다. 로컬 위치가 될 수도 있고, 링크가 될 수도 있다.
* `sep` `K` 구분자를 지정. (기본값:콤마)

header K 헤더가 될 행 번호. (기본값:0) 일반적인 데이터프레임에서는 맨 위의 행이 헤더이므로 건들 일을 많이 없을 것이다.
index_col K 행 인덱스가 될 열을 지정. (기본값:False) 가끔 맨 앞의 열이 숫자로 이루어져 있으면 자동으로 인덱스가 되는 경우가 있으므로 False 를 직접 써줘야 하는 경우가 있다.
names K열 이름 지정 문자열로 이루어진 list 를 이용하여 열 이름을 지정해 줄 수 있다.
endoing K 인코딩 방식 한글이 포함된 파일을 읽을때에는 오류가 발생하므로 encoding='CP949' 를 입력해주자.

2. 데이터프레임 탐색

데이터터프레임의 데이터를 알아과는 과정.

2. 1. 데이터 확인하기

데이터를 확인할 수 있는 다양한 메소드드와 속성들이 있다. 하나하나 확인해보자.

데이터 확인

jupyter lab 이나 jupyter notebook 혹은 그를 기반으로 하는 google colab 같은 경우에는 변수명을 입력한 뒤 셀을 실행시키면 볼 수 있다. 하지만 이 경우에는 가장 밑에 있는 하나의 변수만 볼 수 있으므로, print() 함수를 이용하여 출력하거나, display() 함수를 이용하여 데이터프레임 모양으로 출력할 수 있다.

상위, 하위 데이터

head(n) tail(n) 메소드 n에는 정수가 들어가며 확인할 데이터의 갯수를 지정할 수 있다. 기본값은 5이다.
데이터 크기
shape 속성 (행갯수, 열갯수)의 tuple 형태로 데이터를 반환해준다. 행갯수 열갯수를 따로따로 알고싶다면 [0], [1] 등 인덱싱을 해주면 된다.
```
# 행만 확인하고 싶을 때
df.shape[0]
```

열만 확인하고 싶을 때

df.shape[1]

### 행, 열 정보
* `index` 속성
인덱스의 갯수를 알려준다.

* `values` 속성
행과 열을 제외한 값들을 전부 표시해준다. 데이터를 행별로 묶은 2차원 `list`로 반환해준다.

* `colunms` 속성
열의 값들과 데이터 타입을 표시해준다.
### 자료형 확인
`dtypes` 속성
열의 자료형을 알려준다. 문자열 데이터는 `str` 대신 object 라고 표현해줌을 유의하자

* `info()` 메소드
열별 자료형, 데이터 갯수(결측지가 아닌), 열의 자료형별 갯수, 메모리 사용량 등을 알려준다.
사실상 `.dtypes` 에서 알려주는 것을 포함하여 더 많은 정보를 알려준다.
### 기술 통계
`describe()` 메소드
데이터의 기술 통계(Descriptive Statics)를 나타내준다.
* count : 갯수
* mean : 평균
* std : 표준편차
* 25%, 50%, 75% : 사분위값
* max : 최댓값

`describe().T` 를 하면 행과 열을 뒤집어서 보여준다.
***
***
# 3. 데이터프레임 조회
## 3. 1. 데이터 정렬
`sort_values()` 메소드를 이용하여 특정 열을 기준으로 정렬할 수 있다. 's' 에 유의하도록 하자..
```python
syntax
df.sort_values(by, ascending, inplace)

df 데이터프레임 이름
by L K 기준 기준으로 삼을 열 이름
ascending K 차순 설정(기본값 :True) True 입력시 오름차순으로 정렬해준다. 내림차순은 False
inplace K 반영여부

list 를 이용해 복합적으로 정렬할 수도 있다. 앞쪽 index기준으로 정렬을 한 뒤, 같은 값이 나오면 그 다음의 index 기준으로 정렬해준다.

3. 2. 데이터 집계

고유값과 최빈값 확인

unique() 메소드
```
df[rowname].unique()
```
특정 열의 고유값들을 배열로 반환해준다.
nunique() 메소드
```
df[rowname].nunique()
```
특정 열의 고유값의 개수를 int로 반환해준다.
value_counts() 메소드
```
df[rowname].value_counts(dropna)
```
특정 열의 고유값과, 갯수를 series 형태로 반환해준다. dropna 옵션을 False 로 지정하면 결측치(NaN값)도 카운트해주며, 기본값은 True 이다.

아래의 방법으로 고유값이 2개 이상인 자료들만 확인할 수도 있다.

df[rowname].value_counts(dropna).loc[lambda x :x>1]

mode() 메소드
```
df[rowname].mode()
```
지정한 열에서의 주어진 값들 중 가장 자주 관측되는 값을 최빈값이라 한다. 관측횟수가 같은 경우도 있으므로 유일한 값이 아닐 수 있다.

기본 통계
```
df.x(axis)
```
df 데이터명 특정 열(들), 행(들)이 될 수도 있고, 데이터프레임 전체가 될 수도 있다.
axis 축, 입력값으로 0과 1이 있다. 0이 행, 1이 열인데 조금 혼동될 수 있는 부분이 있다. 모든 행을 더해야 하므로 axis=0 을 입력하면 세로로 집계되며, 모든 열을 더해야 하므로 axis=1 을 입력하면 가로로 집계됨을 유의하자
x 통계 메소드들 합 sum(), 최댓값 max(), 최솟값 min(), 평균값 mean(), 중앙값 median(), 갯수 count(), 고유값 value_counts() 등이 있다.

3. 3. 행, 열 조회

행과 열을 조회할 때에는 기본적으로 df.loc[row, column] 형태로 조회한다. iloc를 이용해서 열을 조회할 수도 있다. loc 안에 조건문이 들어간다 생각하면 편하다. 한번에 잘 정리된 사진으로 대체한다. 얇은 코드가 원래 형태이며, 조건에 따라 생략이 가능하기에 일반적으로는 굵게 표시된 코드 형태로 조회한다.

3. 4. 문자열이 포함된 데이터 조회

object 로 된 데이터들을 대상으로 .str.contains() 메소드를 이용하여 특정 문자열이 포함된 데이터들을 조회할 수 있다.

syntax
df[df['colname'].str.contains('str')]

'str' 부분에 조회하고싶은 문자열을 작성하면 된다.

4. 데이터프레임 집계

groupby()

groupby() 메소드를 이용해 데이터를 집계할 수 있다. 범주값인 데이터를 이용하여 데이터프레임을 범주화해서 나타내는데 용이하며, 통계 메소드들(3. 2. 2. 참고)를 이용하여 범주별 통계값을 표시하는데 사용된다.

syntax
df.groupby(by, as_index)['colname'].x

by L K 집계기준 열 list 를 이용해 여러 열을 집계기준으로 세울 수 있다.
as_index K 집계 기준 인덱스(기본값 : False) 집계기준을 인덱스로 사용할지 여부를 설정할 수 있다. True 로 설정시 집계 기준열의 값들이 인덱스로 설정된다. False 면 정수 인덱스로 설정된다.
col 집계할 열 '집계 기준'에 따라 집계할 열. list 로 여러 열을 집계할 수 있다. 집계할 열을 하나만 작성시 series 자료형으로 반환되므로 [] 를 하나 더 작성하여 데이터프레임으로 반환하도록 하자.(권장) 또한, 생략도 할 수 있으며 생략 시 모든 열에 대하여 집계한다.
x 통계 메소드들 범주별로 집계한 데이터들을 통계처리 할 수 있다. (3. 2. 2. 참고)

agg() 메소드를 이용하여 여러 열을 다양한 각각의 통계 메소드로 집계할 수 있다.

# example
pass1 = passes.groupby('team1', as_index = False).agg({'passes team1':'sum','passes completed team1':'sum'})

pivot_table()

pivot_table() 메소드를 이용해도 집계가 가능하다. group() 메소드와 다른 점은 집계기준을 열과 행으로 설정할 수 있다는 점에 있다.

syntax
df.pivot_table(index, columns, values, aggfunc)

index K 집계기준(행) 집계기준이 되는 행을 만들 수 있다.
columns K 집계기준(열) 집계기준이 되는 열을 만들 수 있다.
values K 집계값 집계 대상이 되는 값이다.
aggfunc K 통계값 집계 대상을 어떤 통계 방법으로 집계할지 정하는 매개변수이다. 3. 2. 의 통계 메소드들을 참고하여 str 로 전달인자를 입력하면 된다. ex) aggfunc = 'sum'

5. 데이터프레임 시각화

pands에서 기본적으로 제공하는 시각화를 사용하거나 matplotlib을 사용한다.

plot() 메소드
```
df.plot(kind)
```
kind 그릴 그래프의 종류를 지정할 수 있다. 'line', 'bar', 'hist' 등등이 있다.
matplotlib
```
import matplotlib.pyplot as plt
```

고해상도 시각화

%config InlineBackend.figure_format='retina'

자세한 것은 matplotlib 공식 사이트의 [Quick start guide](https://matplotlib.org/stable/tutorials/introductory/quick_start.html)와 [Plot types](https://matplotlib.org/stable/plot_types/index.html)를 참고하자.
***
***
# 6. 데이터프레임 변경
## 6. 1. 열 이름 변경
`rename()` 메소드와 `columns` 속성을 이용하여 열의 이름을 변경할 수 있다.

`columns` 속성
```python
syntax
df.columns = ['colname1', 'colname2', ... ]

모든 열을 바꾸는 기능이므로 데이터프레임의 모든 열을 작성해야 하며, 변경을 원하지 않는 열은 기존의 이름을 작성하면 된다.

rename() 메소드

syntax
df.rename(columns = {'colname1' : 'colname2', ...}, inplace)

colname1 기존 열 이름
colname2 바꿀 열 이름
메소드 이므로 반영을 위해 변수에 할당해주거나 inplace = True 해주자.

6. 2. 열 추가

기존 데이터에서 계산된 결괏값을 저장해야 할 경우에 사용된다.

오른쪽에 추가하기

syntax
df['colname'] = df['col1'] (operator) df['col2']

colname 추가할 열의 이름
operator 계산을 위한 연산자 +, -, /, 같은거...

원하는 위치에 추가하기 - insert() 메소드

syntax
df.insert(indexnum, 'colname', df['col1'] (operator) df['col2'])

indexnum 추가할 열의 위치(int 값), 해당하는 인덱스의 앞에 열이 추가된다.

6. 3. 행, 열 삭제

drop() 메소드를 사용하여 삭제할 수 있다.

syntax
df.drop(delete, axis, inplace)

delete L 삭제할 행 또는 열 열 이름이 들어갈 수도 있고, 행 또는 열의 인덱스 번호가 들어갈 수도 있다. 또한 list 를 이용하여 한번에 여러 개를 삭제할 수 있다.
axis K삭제할 축, 기본값 = 0 행을 삭제할지 열을 삭제할지 정해야 한다. 0은 행을 삭제하고, 1은 열을 삭제한다.
inplace K 메소드이므로 True 를 이용해 반영해주어야 한다.

6. 4. 인덱스 재설정

set_index() 메소드를 이용하여 기존 열을 인덱스로 설정 할 수 있다.

syntax
df.set_index('col', inplace)

col 인덱스로 설정할 열이름
inplace K 메소드이므로 반영하기위해서는 True 해주어야 한다.
열 이름이 인덱스의 이름으로 적용된다. 딱히 사용할 일이 없으므로 df.index.name = None 로 삭제해준다.

reset_index() 메소드를 이용하여 행번호에 기반한 정수값으로 인덱스를 초기화 할 수 있다.

syntax
df.reset_index(drop)

drop K 이전 인덱스 버림 여부 인덱스를 초기화 하기 전에 기존에 있던 인덱스를 버릴지 말지 선택하는 옵션이다. 기본값은 False 이며, 인덱스를 일반 열로 가져온다. True 시 버린다.

기존의 인덱스를 일반 열로 가져왔을 때(drop=False) 가져온 열의 이름은 index 가 되니 rename() 메소드를 이용해 바꿔주자.

6. 4. 1. multi index 삭제

droplevel() 메소드를 이용하여 지울 수 있다. int 값으로 인덱스의 인덱스에 접근(말이좀 이상하다) 하거나. 삭제하고싶은 이름을 지정하여 삭제할 수 있다. 보통 0번째(맨위) 꺼를 삭제하는데 쓰는 것 같다. 데이터의 columns 속성에 droplevel() 메서드를 적용한 columns 을 할당해줌으로써 적용한다. 다음은 예시코드이다.

# Creating a sample MultiIndex DataFrame with multi-indexed columns
data = {('A', 'Sub1'): [1, 2, 3, 4], ('A', 'Sub2'): [5, 6, 7, 8], ('B', 'Sub1'): [9, 10, 11, 12], ('B', 'Sub2'): [13, 14, 15, 16]}
index = pd.Index(['Row1', 'Row2', 'Row3', 'Row4'], name='Index')
columns = pd.MultiIndex.from_tuples([('A', 'Sub1'), ('A', 'Sub2'), ('B', 'Sub1'), ('B', 'Sub2')], names=['Category', 'Subcategory'])
df = pd.DataFrame(data, index=index, columns=columns)

print("Original DataFrame:")
print(df)
print("\n")

# Dropping the 'Subcategory' level from the columns
df_dropped = df.copy()
df_dropped.columns = df_dropped.columns.droplevel('Subcategory')

print("DataFrame after dropping 'Subcategory' level:")
print(df_dropped)

실행값

Original DataFrame:
Category       A         B     
Subcategory Sub1 Sub2 Sub1 Sub2
Index                          
Row1           1    5    9   13
Row2           2    6   10   14
Row3           3    7   11   15
Row4           4    8   12   16


DataFrame after dropping 'Subcategory' level:
Category  A  A   B   B
Index                 
Row1      1  5   9  13
Row2      2  6  10  14
Row3      3  7  11  15
Row4      4  8  12  16

6. 5. 범주값 변경(매핑)

map() 메소드와 replace() 메소드를 이용하면 범주형 값을 다른 값으로 바꿀 수 있다. 문법은 똑같기에 한번에 작성하겠다.

syntax
df.x({value1:value2})

x : map or replace
value1 교체 대상
value2 교체 값

그럼 두 메소드 사이엔 무슨 차이가 있을까?

map() 매핑되지 못한 값들을 NaN 값으로 변경
replace() 매핑되지 못한 값들을 그대로 냅둠, 전제 데이터 프레임 대상으로 매핑이 가능

6. 6. 범주값 만들기(데이터 이산화)

연속값을 범주값으로 표현하는 과정을 이산화(Discretizatin) 이라고 한다. 데이터의 심도있는 분석과 단순화를 할 수 있어 머신러닝 성능 향상에 도움이 된다. pd.cut() 함수와 pd.qcut() 함수를 이용하여 할 수 있다.

pd.cut() 함수 데이터의 크기를 기준으로 구간을 나누고 싶을 때 사용한다.

syntax
pd.cut(df[column], bins. labels)

# example
bin1 = [-np.inf, 2.0, 2.9, 3.5625, np.inf]
tip['group1'] = pd.cut(df['score'], bins=bin1, labels=list('abcd'))

bins K 나눌 구간 int 혹은 int 로 이루어진 list 가 들어간다. int 를 넣은 경우 범위를 자동으로 나누어 준다. (최댓값-최솟값/n) 으로 추정 리스트 사용 예제는 위의 example 을 참고하자.
labels K 범위의 이름 list 로 나타낸다.

pd.qcut() 함수 갯수를 기준으로 구간을 나눌 때 사용한다. 구간의 갯수를 지정하면 자동으로 동일한 갯수를 갖는 구간을 만들어준다.

syntax
pd.qcut(df[column], bins, labels)

bins K 나눌 구간의 '갯수' int 값만 들어갈 수 있다.

bins 가 4인 경우 4분위수를 기준으로 구간을 나눈 것과 같은 결과가 나온다. 즉, cut() 함수에서도 4분위수를 기준으로 구간을 입력하면 같은 결과를 확인할 수 있다.

6. 7. 자료형 변경

날짜 자료형

CSV 파일에서 날짜 자료형을 가진 데이터는 object 로 읽어오게 된다. 전처리를 용이하게 하기 위해 pd.to_datetime() 함수를 이용해 날짜 자료형으로 변경해 줄 필요가 있다.

syntax
pd.to_datetime(df['colname'])

괄호 안에 자료형을 바꾸고 싶은 데이터프레임의 열을 지정하면 된다. 날짜 자료형인 열에서 추가로 .dt.year .dt.month .dt.day .dt.time .dt.date .dt.dayofweek 등을 이용해 년과 월을 추출할 수 있다.

다른 자료형

날짜를 제외한 다른 자료형들은 astype() 메소드를 이용하여 다른 자료형으로 변경할 수 있다.

syntax
df['colname'].astype(type)
혹은
df.astype({'colname'};'type')

열이름 없이 데이터프레임만 되는지는 해보진 않았다. 아마 보통은 특정 열의 자료형만 바꾸지 않을까 싶다. type L 에 원하는 자료형을 넣으면 된다.(str 로 안넣어도 됨) 단, 두번째 syntax는 str 로 넣어야 한다.

또한 to_numeric() 함수를 이용하여, int 나 float 지정 없이 변경할 수도 있다!

6. 8. 중복값 제거하기

시계열 데이터에 날짜 부분에 값이 중복되어 들어가 있는 경우가 더럿 있다. 3. 2. 에서 설명한 value_counts() 메소드 를 통해 중복값을 집계할 수 있으며, 집계된 데이터들을 drop_duplicates() 메소드를 통해 제거할 수 있다.

syntax
df.drop_duplicates(inplace, keep, subset)

inplace K 반영여부 메소드이므로 반영하기 위해서는 True 를 해줘야한다.
keep K 남길 데이터 (기본값 : keep=first) 중복된 데이터 중 남길 데이터를 선택할 수 있는 옵션이다. 'first' 첫 번째 데이터를 남김 'last' 마지막 데이터를 남김 False 다 지움
subset 삭제기준이 될 열 해당 열의 데이터가 같으면 데이터가 제거된다. 열 이름을 str 로 쓰거나, 열의 index 를 작성하면 된다. 작성하지 않으면 해당 행(row)의 데이터가 모두 같아야 제거된다.

6. 9. 데이터 슬라이싱

데이터가 object 자료형인 경우 .str.slice() 메소드를 이용하여 슬라이싱이 가능하다.

syntax
df['colname'].str.slice(start, stop)

start K 슬라이싱을 시작할 인덱스, int값이다.
stop K 슬라이싱을 끝낼 인덱스, int 값이다.

range() 함수와 유사하게 끝나는 값 -1 까지 카운트되는것에 유의하자

7. 결측치 처리하기

정확한 데이터 분석을 위해 결측치 제거는 필수이다.

7. 1. 결측치 확인

info() 메소드로 확인 인덱스의 갯수와 null 이 아닌 자료형의 갯수를 알려주므로 두 값에 차이로 결측치 존재 여부와 갯수를 구할 수 있다.

isnull(), notnull() 메소드 이용

isnull() 메소드 결측치가 있는 데이터를 True 로 나타내며, 없는 곳은 False 로 나타낸다. isna() 메소드도 같은 기능을 한다.
notnull() 메소드 결측치가 없는 데이터를 True 로 나타내며, 없는 곳은 False 로 나타낸다. notna() 메소드도 같은 기능을 한다.

sum() 메소드와 같이 사용하여 결측치의 갯수를 구할 수 있다.

# example
air.isna().sum()

Ozone      37
Solar.R     7
Wind        0
Temp        0
Month       0
Day         0
dtype: int64

7. 2. 결측치 제거

dropna() 메소드로 결측치가 있는 행이나 열을 제거할 수 있다.

syntax
df.dropna(subset, axis, inplace)

# example, Ozone 열이 결측치인 행 제거
air_test.dropna(subset=['Ozone'],axis=0, inplace=True)

subset K 범위 열 이름을 지정할 수 있다. 지정한 열의 결측치만 제거 할 수 있다. 생략 시 모든 데이터프레임에 대하여 결측치를 제거한다.
axis K 행 또는 열 0 일시 행이며, 1일시 열이다.
inplace K 반영여부 메소드이므로 데이터프레임에 변경된 결과를 적용시키려면 True 로 입력해야 한다.

7. 3. 결측치 채우기

결측치를 무조건적으로 없애기보단 관련이 있는 값으로 채워넣는게 데이터 분석에 더 유용할 수 있다. fillna() 메소드를 사용해 결측치를 다른 값으로 채울 수 있다.

syntax
df['colname'].fillna(something, inplace)

colname 결측치를 채울 열
something 조건? 결측치를 어떻게 채울지 결정할 수 있는 매개변수이다. 모든 결측치를 특정한 값으로 채워넣으려면 int 값이나 변수를 넣으면 되고, 특정한 값으로 채워넣는 몇가지 방법이 있다, method=ffill 바로 앞의 인덱스의 값으로 채우기 method=bfill 바로 뒤의 인덱스의 값으로 채우기
또한 fillna() 메소드 대신 interpoltae() 메소드를 이용하여 선형보간법으로 결측치를 채워 넣을 수 있다.
```
# example
air_test['Ozone'].interpolate(method = 'linear', inplace = True)
```

7. 4. 가변수(Dummy Variable) 만들기

가변수란? 범주형 데이터를 독립된 열로 변환한 것 머신러닝을 위한 데이터 모델링에 필요한 과정이다. 가변수를 만드는 과정을 'One-Hot-Encoding' 이라고 부른다. get_dummies() 함수를 사용해서 가변수를 만들 수 있다.

syntax
pd.get_dummies(df, columns, drop_first)

df 가변수를 만들 데이터프레임
columns 가변수를 만들 열 list 를 이용하여 한번에 처리할 수 있다. 지정하지 않으면 object 값을 가지는 모든 열이 대상이 된다. 기존 열은 자동으로 제거되며, 열 이름은 prefix로 지정된다.
drop_first 첫 열 버리기 True 입력 시 첫번째 열을 버릴 수 있다. 다중공선성 문제를 없애기 위해 True 로 해놓자.

이해를 좀 더 돕기위해 설명을 첨부하자면, 만약 남성 여성으로 나누어진 데이터에 가변수를 만든다고 가정해 보자. 값이 남자면 1인 열과 여자인 1인 열로 나누어 질 것이다. 남성과 여성은 범주값(남자가 아닐시 여자, 여자가 아닐시 남자) 이므로 사실상 열 하나가 없어도 성별여부를 충분히 파악할 수 있을 것이다. 그러므로 회귀분석에도 방해되고, 쓸모도 없으므로 첫 행을 하나 삭제해준다.

8. 데이터프레임 합치기

전처리를 위해 집계하고 조회한 데이터들을 합쳐야 하기도 한다.

8. 1. Concat(합치기)

concat() 함수를 이용해서 데이터를 물리적으로 합칠 수 있다.

syntax
pd.concat([df1, df2], join, axis)

df L 합칠 데이터프레임
join K 합칠 옵션 ( 기본값 : join = 'outer' ) 합칠 데이터프레임의 인덱스 혹은 열이 같으면 좋겠지만 다른 경우가 있을 것이다. 인덱스 혹은 열이 다른 경우 빈 값이 생기는 열 혹은 행을 결측치로 채우는 옵션이 'outer', 아예 제거하는 옵션이 'inner' 이다.
axis K 합칠 방향 (기본값 : 0) 0이면 세로, 1 이면 가로로 합친다.

8. 2. join(병합)

merge() 함수를 이용하여 두 데이터프레임을 지정한 키 값 기준으로 병합할 수 있다. 가로로만 붙일 수 있다.

syntax
pd.merge(df1, df2, on, how)

df L 합칠 데이터프레임 concat 와 달리 list 로 묶여있지 않음을 유의하자. 또한 how 값에 따라 합치는 순서에 따라 결과가 달라질 수 있으니 유의하자.
on K 합칠 기준이 될 키값(열) 같은 이름의 열이 있으면 지정하지 않아도 자동으로 조인된다. 명시적으로 지정하는 것이 권고된다.
how K 병합 기준 (기본값 : how='inner') left 왼쪽 데이터(df1)을 기준으로 병합한다. 왼쪽에 있는 열은 결측치로 채우고 없는 열은 삭제한다. right 오른쪽 데이터(df2)을 기준으로 병합한다. 오른쪽에 있는 열은 결측치로 채우고 없는 열은 삭제한다. outer 빈 값이 생기는 모든 데이터를 결측치로 채운다. 합집합과 유사하다 생각하자. inner 빈 값이 생기는 모든 데이터의 행과 열을 삭제한다. 교집합과 유사하다 생각하자.

numpy 개념정리

Sat, 18 Feb 2023 16:22:19 GMT

이미지출처 syntax 약속 본 포스팅은 KT 에이블스쿨 교육내용을 바탕으로 제 나름대로 정리하여 작성하였습니다

넘파이란?

배열을 이용하게 해줄 수 있는 파이썬 라이브러리 파이썬에서 가장 유명한 라이브러리 중 하나 list랑 비슷하다

왜씀?

넘파의 각종 내장 메소드들을 이용하여 요소들을 한번에 처리할 수 있다. 예를들어 list같은경우는 list * 숫자 를 하면 숫자만큼 리스트가 복사되었지만, 배열에서는 요소에 값을 하나하나 곱해줄 수 있다. 리스트는 저거 하려면 for문으로 만들어줘야 한다... ㅋㅋ 하지만 장점만 있는건 아니다. 여러가지 자료형으로 존재할 수 있는 list 와 달리 한가지 자료형으로만 존재할 수 있다.

1. 용어 정의

axis : 배열의 축
rank : 축의 갯수, 혹은 차원이라고 부른다.(선형대수학)
shape : 배열의 크기(=축의 길이)

축 번호 매기기

1차원 배열 : 축이 하나뿐(행)이므로 당연히 행이 axis 0 이다.
2차원 배열 : 행, 열 순으로 axis 0, axis 1 이다.
3차원 배열 : 높이, 행, 열 순으로 axis0, axis1, axis2 이다. 혼동하지 말자

2. 라이브러리 불러오기

import numpy as np

import를 이용해 불러올 수 있고, 보통 as 를 이용해 np 라는 별칭으로 사용한다.

3. 배열 만들기

3.1. 배열 생성

np.array(리스트)

3.2 배열 정보 확인

배열의 정보를 확인할 수 있는 다양한 속성(메소드와 함수와는 또 다름)들이 있다.

차원 확인

리스트.ndim

배열의 차원(=축의 갯수)를 int 로 반환한다.

형태(크기) 확인

리스트.shape

배열의 크기를 tuple로 반환한다.

1차원: (x,)
2차원: (x, y)
3차원: (x, y, z) *왼쪽부터 axis0, axis1, axis2 이다.
자료형 확인
```
리스트.dtype
```
배열의 자료형을 반환한다. 배열은 한가지 자료형만 가질 수 있는것을 기억하자

reshape(형태변환)

배열.reshape(원하는 형태)

배열을 다양한 형태(shape)로 변환해준다. 배열에 포함된 요소가 사라지지 않는 형태, 즉 요소의 숫자가 같은 형태로만 변활할 수 있다. -> (원래 배열의 행 수) * (원래 배열의 열 수) = (바꾸려는 함수의 행수) * (바꾸려는 함수의 열 수)

-1 을 이용하여 원하는 행 수와 열 수만 지정하여Reshape할 수 있다.

4. 배열 조회

인덱싱

당연히 첫 번째 값은 0 부터 시작한다. 1차원 배열의 인덱싱은 리스트랑 일치하기에 생략

syntax
arrayname[row, column]

arrayname 배열명 row 인덱싱 하고 싶은 행, int값이다. column 인덱싱 하고 싶은 열, int 값이다. row, column 부분에 리스트를 넣어서 여러 값을 조회 가능하다. ':' 를 이용하여 전체를 조회 할 수 있다.

슬라이싱

범위를 지정하여 위치의 요소를 조회 할 수 있다. 인덱싱이랑 매우 유사하다. 마지막 범위 값은 대상에 포함되지 않는다는 점을 유의하자! ':' 를 이용해도 마지막 인덱스 값은 포함되지 않는다. 즉, 배열[1:M, 2:N]이라면 1 ~ M-1행, 2 ~ N-1열이 조회 대상이 된다.

syntax
arrayname[rowarea, columnarea]

arrayname 배열명 rowarea 슬라이싱 하고 싶은 행의 범위, 행N:행M 형태로 나타낸다. 물론 행1, 행2 의 값은 int 이다. columnarea 도 열의 범위인 점을 제외하고는 같기에 생략.

한눈에 보는 인덱싱과 슬라이싱

조건 조회(불리안 방식)

조건에 맞는 요소를 선택하는 선택하는 방식이다. 조회 결과는 '1차원 배열' 이 된다.

syntax
arrayname[conditions]

conditions 조회를 원하는 조건을 의미한다. & 와 | 를 이용하여 여러가지 조건을 조회할 수 있다. 각각 and 와 or 역할을 수행한다.

예시

# 2차원 배열 만들기
score= np.array([[78, 91, 84, 89, 93, 65],
                 [82, 87, 96, 79, 91, 73]])

# 짝수만 조회
print(score[score % 2 == 0])

[78 84 82 96]

5. 배열 연산

다양한 함수 혹은 연산자를 이용하여 배열 성분간의 다양한 연산을 할 수 있다. 행렬에 대한 연산도 가능하나 선형대수에 대한 도메인 지식이 필요하므로 생략하겠다.

덧샘 : + 혹은 np.add()
뺄샘 : - 혹은 np.substract()
곱샘 : * 혹은 np.multiply()
나눗샘 : / 혹은 np.divie()
제곱 : ** 혹은 np.power()
제곱근 : np.sqrt() 끝!

안녕 벨로그!

Wed, 15 Feb 2023 02:00:30 GMT

안녕 벨로그!

print(Hello! velog!)

dalbong.log

IT 인프라 이해

IT 인프라란?

IT 인프라의 주요 구성요소

IT 인프라의 유형

온 프레미스(On-Premise)

클라우드

IT 인프라 구성도

제안전략

개요

사업의 이해

고객중심 비즈니스와 관리중심 비즈니스

문제정의

문제?

to-be

문제의 종류

환경분석

표본고객분석

전략수립

가치제안

To-be 설정을 위한 방법론

Forecasting 과 Backcasting

Backcasting사고를 위한 방법론

비즈니스의 종류

딥러닝

머신러닝 vs 딥러닝

Keras란?

딥러닝 과정

딥러닝 학습 절차

머신러닝 프로세스와 딥러닝 프로세스 비교

1. 환경준비

2. 데이터준비

3. 모델설계

3. 1. feature 개수 추출

3. 2. 메모리정리 및 모델 선언

3. 3. 1. 활성함수

3. 3. 선언한 모델의 요약

4. 컴파일

4. 1. 학습률(learning_rate)

5. 학습

5. 1. 학습 곡선(learning curve)

6. 예측및검증

머신러닝 - 모델

선형 회귀(Linear Regression)

K 최근접 이웃(K - Nearest Neighbor)

결정 트리(Decision Tree)

지니 불순도?

엔트로피와 정보이득

로지스틱 회귀(Logistic Regression)

Support Vector Machine

기본 알고리즘 데이터 전처리 정리

배깅(Bagging)

랜덤 포레스트(Random Forest)

부스팅(Boosting)

catboost?

스테킹(Stacking)

머신러닝 - 개괄

머신러닝?

머신러닝 학습 종류

1. 미리 알아 둘 용어

1. 0. 분류와 회귀

1. 1. 모델, 모델링

1. 2. 행, 열

1. 3. 독립변수, 종속변수

1. 4. 오차와 평균

1. 5. 데이터 분리

1. 6. 과대적합과 과소적합

2. 모델링 과정

2. 1. 라이브러리 불러오기

2. 2. 데이터 이해 및 준비

2. 2. 1. 데이터 이해

2. 2. 2. 데이터 준비

2. 3. 모델 성능 예측 및 선정

2. 3. 1. 모델 종류

2. 3. 2. 선정을 위한 모델 성능 예측

2. 4. 모델 튜닝 및 학습

2. 4. 1 하이퍼파라미터 튜닝

2. 4. 2 Feature selection

2. 5. 예측 및 평가

2. 5. 0. 평가 관련 모듈 불러오기