DecoPark.log

3차원 그래프 그리기

Wed, 09 Jun 2021 12:40:29 GMT

❗️ N212 참고

1. plotly 이용하기

# plotly를 사용해서 상대적으로 간단히 그래프를 그릴 수도 있습니다.

import numpy as np
import plotly.express as px
import plotly.graph_objs as go
import itertools

def surface_3d(df, f1, f2, target, length=20, **kwargs):
    """
    2특성 1타겟 선형모델평면을 시각화 합니다.

    df : 데이터프레임
    f1 : 특성 1 열 이름
    f2 : 특성 2 열 이름
    target : 타겟 열 이름
    length : 각 특성의 관측치 갯수

    """

    # scatter plot(https://plotly.com/python-api-reference/generated/plotly.express.scatter_3d)
    plot = px.scatter_3d(df, x=f1, y=f2, z=target, opacity=0.5, **kwargs)

    # 다중선형회귀방정식 학습
    model = LinearRegression()
    model.fit(df[[f1, f2]], df[target])    

    # 좌표축 설정
    x_axis = np.linspace(df[f1].min(), df[f1].max(), length)
    y_axis = np.linspace(df[f2].min(), df[f2].max(), length)
    coords = list(itertools.product(x_axis, y_axis))

    # 예측
    pred = model.predict(coords)
    z_axis = pred.reshape(length, length).T

    # plot 예측평면
    plot.add_trace(go.Surface(x=x_axis, y=y_axis, z=z_axis, colorscale='Viridis'))

    return plot

이후

surface_3d(
    train,
    f1='GrLivArea', 
    f2='OverallQual', 
    target='SalePrice',  
    title='House Prices'
)

2. plt 이용하기

import matplotlib.pyplot as plt

style.use('seaborn-talk')
fig = plt.figure()

# for 3d plot
ax = fig.gca(projection='3d')

ax.scatter(train['GrLivArea'], train['OverallQual'], train['SalePrice'])
ax.set_xlabel('GrLivArea', labelpad=12)
ax.set_ylabel('OverallQual', labelpad=10)
ax.set_zlabel('SalePrice', labelpad=20)

plt.suptitle('Housing Prices', fontsize=15)
plt.show()

용어_머신러닝

Wed, 09 Jun 2021 12:15:08 GMT

머신러닝 부분에서 배운 용어 정리

1. bias

오차의 편향이라고도 한다.
편향이 높다 = train data에서 타겟값과 오차가 크다
```
  = Underfitting(과소적합 상태)이다.
```
2. variance
분산이 높다 = Overfitting 상태이다 = 테스트데이터에서 오차가 많아진다. = 트레이닝데이터에서 오차가 0에 가깝다

3. overfitting

훈련데이터에만 특수한 성질을 과하게 학습해 일반화를 못 한 것.
테스트데이터에서 오차가 커지는 현상

4. Underfitting

훈련데이터에 과적합도 못하고 일반화 성질도 학습하지 못 한 상태
훈련/테스트 데이터로부터 오차가 크게 발생한다.

5. OLS line

'회귀선' 을 의미한다.

6. 정규화 vs 표준화

머신러닝

Wed, 09 Jun 2021 11:45:31 GMT

기법

Linear Regression
Mulitiple Linear Regression

이슈

train set과 test set을 나누는 이유
머신러닝에서 좋은 모델이란?

Multiplie Linear Regression

Wed, 09 Jun 2021 11:37:33 GMT

1. 회귀식

Y = b0 + b1x1 + b2x2

2. 특징

기준모델, 단순선형 회귀 모델에 비해 error 값이 작다. (but) feature가 많다고 무조건 좋은 것이 아니다!! ex) overfitting...
통계적 유의성은 F-통계량으로 확인한다. (유의수준보다 작으면 회귀식이 유의하다)
feature importance를 구해서 어떤 feature를 사용할지 정할 수 있다.

3. 코드

###Sklearn의 LinearRegration 사용하기
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
model = LinearRegression()
model_Z = LinearRegression()

### 두개의 feature에 대해 train, test data 나누기
features = ['bathrooms','sqft_living']
X_train = train[features]
X_test = test[features]
Y_train = train['price']
 Y_test = test['price']

Scale 작업은 Must로 진행 해야한다. 표준화를 할지 정규화를 할지는 직접 해보고 결과가 더 좋은 것을 선택한다.

# 데이터 표준화 하기
# 교차 검증을 할 때는 Train Set에만 표준화를 해 줘야 한다.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(X_train)
Z_Xtrain = scaler.transform(X_train)
Z_Xtest= scaler.transform(X_test)

표준화된 데이터를 가지고 Model에 학습시키기.

# 표준화된 데이터를 사용해서 모델 학습
model_Z.fit(Z_Xtrain, Y_train)

#test셋에 대한 예측값 구하기
Y_pred2 = model_Z.predict(Z_Xtest)

#train set에 대한 예측값 구하기
Y_pred3 = model_Z.predict(Z_Xtrain) 

#mae 값 구하기
mae = mean_absolute_error(Y_test, Y_pred2)

print(f'테스트세트에 대한 MAE 값은 {mae} 입니다.')

4. 회귀모델을 평가하는 지표들

MSE
MAE
RMSE
R-Squared = Coefficent of determinent

5. 회귀분석의 성능판단

모델의 정확도를 판단하고 싶다. : (R^2 사용)
feature가 유효한지 알고 싶다. : (P-value 사용)
어떤 feature가 설명력이 큰가? : (기울기 사용)

DS_정리 목차

Wed, 09 Jun 2021 07:58:56 GMT

데이터프레임 조작

머신러닝

기법

Linear Regression
Mulitiple Linear Regression

이슈

train set과 test set을 나누는 이유
머신러닝에서 좋은 모델이란?
용어정리
머신러닝 용어
그래프 그리기
3차원 그래프
colab, github

DataFrame Manipulation

Wed, 09 Jun 2021 07:56:49 GMT

🔥 목차

데이터셋 불러오기
- [DataFrame 행렬 transepose하기 + sheet별로 불러 + Dataframe csv파일 저장.]

- [첫번째 row를 column name으로 설정하기]
- [처음부터 숫자 형태로 불러오기] - thousands, names.
- [여러개의 엑셀 데이터 한번에 불러와서 합치기] - Concat.
- [Pandas 데이터 불러오기] - skiprows, sep='\t',replace

[데이터 dimension 확인하기]
[데이터의 결측치 확인하고, 0으로 대체 or 해당 행,열 제거]
[기존 DF에서 새로운 Feature 만들기]
[pandas에서 DataFrame 만들기]
[DataFrame내의 특정 자료 변환하기] - iloc, loc
[DataFrame내의 특정 자료 변환하기] - apply 함수
[DataFrame내의 특정 자료 변환하기] - 문자를 숫자로
[DataFrame내의 특정 자료 변환하기] - replace, 딕셔너리, Null 값 넣기
[DataFrame 합치기 및 특정 열 삭제] - concat, drop
[Mean imputation으로 결측치 채우기]
[데이터 합치기] - merge()
[특정 열에 속한 문자 지우기] - lambda 이용
인덱스
- [인덱스 설정하기] - set_index()
- [인덱스 초기화하기] -reset_index()
tidy 형태 만들기 - melt()
column 명칭 변경하기 - rename()
[인덱스 숨기기] - style.hide_index()
[특정 column별로 평균내기] - groupby()
[각 열 조건에 맞는 index 찾아서 지우기]
[DF에서 랜덤하게 10개의 값 추출하기]

Data 공부하는 팁 모음

Wed, 26 May 2021 09:50:12 GMT

How to study

기초수학

calculus
선형대수학(MIT, Gilbert strang)
통계 ( Havard, Statistics 110)

머신러닝 & 딥러닝

모두를 위한 딥러닝(성킴)
Machine Learning(Andrew Ng)
CS231n(stanford, computer vision)
CS224n(stanford, NLP)

출처 : 코드스테이츠 '이성준'님 발표 세미나 중 기록날짜 : 21.05.26

DS_분석_Clustering

Wed, 26 May 2021 09:38:16 GMT

주제 : Clustering

1. 학습목표

Scree Plot의 의미를 이해할 수 있다.
Supervised / Unsupervised Learning의 차이를 설명할 수 있다.
K-means clustering을 설명 할 수 있다.

2. DF manipulation

특정 칼럼 제거하기 : df.drop('컬럼명',axis= ...)
특정 칼럼 만들어서 값 채워주기 : df['column'] = a

3. 용어정리

Scree Plots
Machine Learning
Clustering
similarity
K-means Clustering
The Eyeball Method , Metrics
Elbow methods

4. 이건 알고 가자

완벽한 알고리즘은 없다
clustering은 어떤 의미를 갖나요?

5. 내용

(1) Scree Plots

🌟 what?

주성분의 개수를 정하는 방법이다 = PCA를 몇 차원으로 해야할까?

🌟 How?
Scree Plots을 그렸을 때, 기울기가 급격하게 변하는 구간을 선택한다.
Eigenvalue의 누적값이 설명되는 분산의 70~80% 정도면 무난한다고 생각한다.

(2) Machine Learning

🌟 what?

기계학습
supervised learning , unsupervised learning , reignforceement learning이 포함된다

🌟 Supervised Learning?

개념 : input data(트레이닝 데이터)에 답이 있을 때 사용할 수 있다.
개념 : 대표적으로 Classification(분류), Prediction(회귀)가 있다.
Classification(분류)
- 주어진 데이터의 카테고리 혹은 클래스를 예측 하는데 사용된다.
- ex) x는 동그라미일까? 네모일까? 알아 맞춰봐!!!
Prediction(회귀)
- continuous한 데이터를 바탕으로 결과를 예측하기 위해 사용한다.
- continuous한 데이터??

🌟 Unsupervised Learning?

개념 : 데이터의 연관된 feature를 바탕으로 유사한 그룹을 생성합니다.
차원축소 = Dimensionality Reduction이 사용된다
연관 규칙 학습 = Association Rule Learning이 사용된다.
- 데이터셋의 feature들의 관계를 발견하는 방법이다.
- feature-output이 아닌 feature-feature이다 ??

🌟 Reinforcement Learning?

개념 : 기계가 좋은 행동에 대해서는 보상, 그렇지 않은 행동에는 처벌이라는 피드백을 통해서 행동에 대해 학습해 나가는 형태

(3) Clustering = 군집

🌟 What?

Unsupervised Learning의 한 종류이다.

🌟 목적?
클러스터링을 통해 주어진 데이터들이 얼마나, 어떻게 유사한지를 알수 있다.
때문에 주어진 데이터셋을 요약/정리하는데 있어 매우 효율적인 방법이다.
하지만, 정답을 보장하지 않기에 예측을 위한 모델링 보다는 EDA를 위한 방법으로써 많이 쓰인다.

🌟 종류?
Hierarchical = 계층

🌟 Hard vs Soft Clustering
Hard clustering : 데이터가 하나의 Cluster에만 할당된다.
Soft clustering : 데이터가 여러 cluster에 확률을 가지고 할당된다.
일반적으로 Hard Clustering을 Clustering이라고 말한다.

(4) Similiarity = 유사도

🌟 what?

벡터들끼리의 거리가 어떻게 되나? 가깝나? 먼가?

🌟 종류
Euclidean
Cosline
Jaccard
Edit Distance
Etc
각 목적에 따라서 다른 방식이 사용된다!!

(5) K-means 클러스터링

🌟 과정

1) k개의 랜덤한 데이터를 cluster의 중심점으로 설정한다.
2) 주어진 데이터와 중심점과의 거리를 계산한다.
3) 거리가 가장 짧은 것을 선택하면, 데이터가 어느 Cluster에 속하는지 알 수 있다.
4) Cluster가 새로 형성되면, 평균값을 이용해서 또 다시 중심점을 구한다.
5) 새로운 중심점을 이용해서 2) ~ 3) 을 반복한다
6) 더 이상 Cluster에 유의미한 변화가 없을 때 중단한다.

🌟 이 과정을 내가 다 만들어?
아니다! Scikit-learn에서 라이브러리 불러올 수 있다. from sklearn.cluster import KMeans kmeans = KMeans(n_cluster = x) kmeans.fit(x) labels = kmeans.labels

🌟 K-means에서 K는 어떻게 구하는거야?
The Eyeball Method : 사람이 주관적인 판단을 통해 지정한다.
Metrics : 객관적인 지표를 설정해서, 최적화된 K를 선택한다. ex) Elbow methods

(6) Elbow methods

🌟 what??

K-means Clustering에서 K를 구하는 방법 중에 하나.

🌟 How??
1) Kmeans를 K개로 진행해서
2) 각각의 경우에 데이터끼리의 거리의 합 구한다.
3) 거리의 합이 작은 것을 선택한다.

(7) 마치며

🌟 완벽한 알고리즘은 없다

k-means 말고도 상당히 많은 clustering 알고리즘들이 있으며

각자 풀고자 하는 문제에 대해서 최적화되어있습니다.

그러나, 최적화된 문제를 제외한 다른부분에는 장점을 보이지 못한다는 단점도 있습니다.

🌟 때문에...

다양한 방법론에 대해 연구를 하고 알고 있어야 한다.
데이터의 특성을 알아야, 다양한 방법들을 선택할 수 있다. 그러므로 도메인 지식을 키워야 한다!!

DS_가설검정

Wed, 19 May 2021 01:20:20 GMT

주제 : 가설검정

1. 학습 목표

Estimation / Sampling의 목적과 방법에 대해서 이해한다.
가설검정에 대해서 이해한다.
T-test의 목적과 사용예시를 설명할 수 있다.

2. 과제 질문

[Pandas 데이터 불러오기] - skiprows, sep='\t',replace
[Pandas DF 조작] - 각 열 조건에 맞는 index 찾아서 지우기
[Pandas DF 조작] - DF에서 랜덤하게 10개의 값 추출하기
[Pandas DF 조작] - reset_index()

3. 과제 풀이

(1) skiprows, sep='\t', replace

df = pd.read_csv(myurl,sep = '\t',thousands=',', skiprows = 1)
df=df.replace({'-':0})

🌟 sep='\t'를 통해 공백을 구분자로 사용할 수 있다. 🌟 skiprows를 통해 원하는 행을 빼고 출력할 수 있다. 🌟 replace({'-':'0'}) 에서

{ } 가 쓰인 다는 것과,
- 이전에는 x.replace(',' , ' ')로 썼었다는 것 알아두기. (차이점이 있나??)

(2) 각 열 조건에 맞는 index 찾아서 지우기

seoul = df[df['자치구']=='서울시' | df['자치구'] == ' 공원녹지사업소'].index

df=df.drop(seoul)

🌟 새로운 변수에 각 열 조건에 맞는 '행'의 index 구하기 🌟 drop을 이용해서 df에서 seoul에 해당하는 열 삭제하기

(3) DF에서 랜덤하게 10개의 값 추출하기

import numpy as np
np.random.seed(123)

rnd_city = np.random.choice(df['자치구'], size = 10) # 특정 열에서 랜덤하게 10개의 값 추출하기
rnd_city

🌟 numpy 불러오기 🌟 seed값 설정하기 (seed값이 같으면 랜덤 결과가 같다) 🌟 np.random.choice 이용해서 DF에서 랜덤하게 값 추출하기

(4) 인덱스 초기화 - reset_index()

df = df.reset_index()

CodeStates_DS Sprint1

Wed, 12 May 2021 04:25:31 GMT

[코드스테이츠 1주차 회고]

STAR기법 = situation + Trouble + Action + Result

(사실)

1주차에는 EDA, FeatureEngineering,데이터조작, 미분에 대한 내용을 배웠다.

(문제점)

지금의 난 4일치 배운 Pandas 명령어나, 모든 내용이 머릿 속에서 뒤엉켜 있는 상태이다. 그리고, 명령어의 구체적인 사용법이나 언제 () 가 사용되고 [],{}가 사용되어야 하는지 헷갈린다.

(긍정)

처음 배울 때 보다, 과제 하는데 시간도 줄어들고 Codestates의 커리큘럼에 많이 익숙해졌다는 것은 긍정적이다.

(문제 해결책)

현재는, 배운 내용을 그날 블로그에 정리하는 것만으로 복습을 하고 있다. 시간을 조금 더 만들고 최적의 복습 방법을 고민해봐야 겠다는 생각이 든다.
일목요연하게 정리한 나만의 노트가 필요하다고 생각한다.

DS_ Data Manipulation

Mon, 10 May 2021 14:38:16 GMT

주제 : Data Manipulation

1. 학습 목표

pandas를 통해 데이터를 concat / merge 할 수 있다.
tidy 데이터 에 대한 개념을 이해한다
melt와 pivot / pivot_table 함수를 사용하여 wide와 tidy 형태의 데이터를 서로 변환 할 수 있다.

2. 과제 질문

여러개의 엑셀 데이터 한번에 불러와서 합치기 - Concat
데이터 합치기 - merge()
한글 폰트 깨짐 현상 해결하기 - 폰트설정, 마이너스 폰트 설정, 글씨 선명도
특정 열에 속한 문자 지우기 - lambda 이용
인덱스 설정하기 - set_index()
tidy 형태 만들기 - melt()
column 명칭 변경하기 - rename()
인덱스 숨기기 - style.hide_index()
구글 코랩에서 드라이브에 있는 파일 경로 보기
특정 column별로 평균내기 - groupby()

3. 과제 명령어 모음

(1) 여러개의 엑셀 데이터 한번에 불러와서 합치기 - Concat

def mydf(myurl):
  df = pd.read_csv(urlhead + myurl).transpose()
  new_header = df.iloc[0]
  df=df[1:] #df 1행부터 재설정
  df.columns = new_header
  return df[-1 :] # 제일 최근 분기의 데이터를 뽑아 오기 위한 과정

🌟 csv파일을 불러옴과 동시에 transpose() 수행 🌟 header를 설정하는 방법 2 (1은 앞에서 정리함)

df = pd.concat([mydf('000080.csv'),mydf('000890.csv'), mydf('005300.csv'), mydf('027740.csv'), mydf('035810.csv'), mydf('136480.csv')])
df = df.reset_index()  
df = df.drop(df.columns[0], axis=1)

🌟 함수와 Concat을 이용해서 한번에 데이터 합치기 🌟 인덱스 초기화 하기 🌟 컬럼이 0인 부분의 열 제거하기

(2) 데이터 합치기 - merge()

df2= left.merge(right, how='left')

🌟 pandas merge option

left

왼쪽 테이블은 그대로,    
합쳐지는 테이블은 공통부분은 옮겨지고
공통되지 않은 것은 null값 부여.

right

오른쪽 테이블은 그대로,    
합쳐지는 테이블은 공통부분은 옮겨지고
공통되지 않은 것은 null값 부여.

outer

좌, 우측 테이블의 모든 데이터를 읽어온다.
이때, 중복된 데이터는 삭제한다

inner

교집합

cross:

creates the cartesian product from both frames, preserves the order of the left keys.

두개의 테이블의 행 * 행 만큼의 행으로 이루어진 테이블이 만들어진다

pandas 공식홈페이지

(3) 한글 폰트 깨짐 현상 해결하기 - 폰트설정, 마이너스 폰트 설정, 글씨 선명도

import matplotlib as plt
plt.rc('font', family= 'NanumGothic') ## 나눔고딕 폰트로 설정
plt.rc('axes', unicode_minus=False) ## 마이너스 폰트 설정
%config InlineBackend.figure_format = 'retina' # 글씨 선명하게 출력하는 설정

🌟 설정했음에도 폰트가 깨진다면??

(4) 특정 열에 속한 문자 지우기 - lambda 이용

df['매출액']=df['매출액'].apply(lambda x : x.replace(',',''))

🌟 lambda 함수는 일시적으로만 썼다가 지워지는 함수.

(5) 인덱스 설정하기 - set_index()

df.set_index('종목명', inplace=True)

🌟 특정 열로 인덱스를 설정할 수 있다

(6) tidy 형태 만들기 - melt()

df_tidy = df.melt(id_vars=['종목명'], value_vars=['매출액','자산총계','EPS(원)'])

🌟 종목명에 따른 value_vars의 Observation값 구함. 🌟 tidy 형태는 Seaborn과 같은 시각화 라이브러리에서 유용하게 쓰인다.

🔥 참고 pivot_table: Tidy -> Wide

# 파라미터에 대한 설명
# index: unique identifier
# columns: "wide" 데이터에서 column별로 다르게 하고자 하는 값.
# values: 결과값이 들어가는 곳 (wide 데이터프레임의 내용에 들어갈 값)
wide = tidy1.pivot_table(index = 'row', columns = 'column', values = 'value')
wide

🌟 pivot_table을 통해 wide 구조로 바꿀 수도 있다

(7) column 명칭 변경하기 - rename()

df_tidy = df_tidy.rename(
    columns = {
        'variable':'Feature',
    }
)

🌟 이름 바꾸는 방법 헷갈리네..?? 🌟 df.columns([' ~~']) 도 있었던 것 같은데?

(8) 인덱스 숨기기 - style.hide_index()

df2.style.hide_index()

🌟 colab에서는 안 됐었는데..?

(9) 구글 코랩에서 드라이브에 있는 파일 경로 보기

🌟 왼쪽에서 아이콘 클릭으로 마운트를 먼저 해주자! 🌟 content -> drive -> mydrive에서 원하는 파일 찾기 🌟 파일 우클릭 후 경로 복사

(10) 특정 column별로 평균내기 - groupby()

df5.groupby('테마').mean()

🌟 테마를 기준으로 다른 모든 숫자형 값들에 대해 컬럼별로 평균을 구한다

Before
After

DS_Feature Engineering

Fri, 07 May 2021 13:36:29 GMT

주제 : Feature Engineering

1. Feeture Engineering?

what? DF의 Feature들을 조합해서 새로운 Feature를 만드는 것 ex) BMI 지수 = 몸무게/~~
why? 더 좋은 퍼포먼스를 얻기 위해, 새롭고 의미있는 데이터를 제공하려고 하기 때문이다.

2. 과제 질문

read_csv에서의 설정 - thousands, names
기존 DF에서 새로운 Feature 만들기
pandas에서 DataFrame 만들기
DataFrame내의 특정 자료 변환하기 - iloc, loc
DataFrame내의 특정 자료 변환하기 - apply 함수
DataFrame내의 특정 자료 변환하기 - 문자를 숫자로
DataFrame내의 특정 자료 변환하기 - replace, 딕셔너리, Null 값 넣기
DataFrame 합치기 및 특정 열 삭제 - concat, drop
Mean imputation으로 결측치 채우기

3. 과제 명령어 모음

(1) read_csv에서의 설정 - thousands, names

url=www.~~~
headers = ['a','b'~~]

df= pd.read_csv(url, names=headers , thousands= ',')

🌟 csv파일을 불러올 때 다양한 조건이 있다 🌟 names 조건을 통해 column을 설정할 수 있다. 🌟 thousands= ',' 설정을 통해 ,(콤마)를 없애고 문자열로 불러 오는 것을 사전에 방지할 수 있다.

(2) 기존 DF에서 새로운 Feature 만들기

student_card = pd.DataFrame({'ID':[20190103, 20190222, 20190531], 'name':['Kim', 'Lee', 'Jeong'] 
,'class':['H', 'W', 'S']}, index = ['a', 'b', 'c'])

🌟 '영업이익률2라는 새로운 Column을 만들 수 있다.

(3) pandas에서 DataFrame 만들기

df2 = pd.DataFrame({"구분":['18년','19년'], "종가":[101500,93800], "발행주식수":[137292497,137292497    ],"시가총액":[13935188445500,12878036218600], "시장점유율":[62.0,63.5]})
df2

🌟 DataFrame을 직접 만들 때 사용한다.

(4) DataFrame내의 특정 자료 변환하기 - iloc, loc

df.dtypes

df.iloc[0,1] = 12578

🌟 df.dtypes를 통해 각 컬럼들의 형태를 알 수 있다. 🌟 인덱스번호로 각 데이터에 접근할 수 있는 iloc[]를 사용해서 값을 변경 할 수 있다.

iloc과 loc의 사용 방법, 차이

iloc과 loc을 사용한 값 변경

(5) DataFrame내의 특정 자료 변환하기 - apply 함수를 이용하여 콤마 없애기

def toint(string):
  return int(string.replace(',','')) 

  ## df['colname'].str.replace(',', '').astype(float) ##

for i in df.columns:
  if df[i].astype== str:
    df[i] = df[i].apply(toint)

df

🌟 replace함수를 이용해서 문자열의 ,를 없앨 수 있다 🌟 for문과 apply 함수를 이용해서 DF내의 각 컬럼들에 대해 ,를 없애준다.

🔥 for문에서 df4.columns를 사용할 수 있는 Tip! 🔥 apply함수는 다른 함수를 불러 옴 Tip!

df_tidy['value']=df_tidy['value'].apply(lambda x : x.replace(',',''))

🌟 또 다른 방법으로 콤마를 제거하는 문법이다. ??????? (여기서 lambda x : x.~) 의 의미는????????

(6) DataFrame내의 특정 자료 변환하기 - 문자를 숫자로

df4=df4.apply(pd.to_numeric)
df4.dtypes

df4=df4['a'].apply(pd.to_numeric)

🌟 pd.to_numeric 함수를 통해 숫자형으로 변경 가능하다. 🌟 특정열만 선택해서 변경도 가능하다.

(7) DataFrame내의 특정 자료 변환하기 - replace, 딕셔너리, Null 값

import numpy as np
df7.replace({'당기순이익':1183},{'당기순이익': np.NaN})

🌟 numpy 라이브러리를 이용해서 null값을 불러온다 🌟 replace() 함수를 이용해서 값을 변환 🌟 딕셔너리 {'컬럼' : 데이터} 이용해서 변환할 데이터 선정

(8) DataFrame 합치기 및 특정 열 삭제 - concat, drop

df7= pd.concat([df4,df5],axis=1) 
df7

🌟 axis = 1 이 컬럼 기준이라는 의미이다. 🌟 axis=0은 행 기준

(9) Mean imputation으로 결측치 채우기

df7.fillna(df.mean())

df.where(pd.notnull(df),df.mean(),axis='columns')

🌟 1일째는 결측값을 0으로 바꿔주는 것을 했었는데 평균값 등으로도 바꿔 줄 수 있다는 것을 알았다.

DataFrame의 특정 칼럼 값 교체하기

결측값 대체 이론 = imputation

결측값 대체 방법

DS_EDA

Thu, 06 May 2021 12:58:38 GMT

주제 : EDA

과제 주요 문제 정리

데이터셋 불러오기 + DataFrame 행렬 transepose하기 + sheet별로 불러 + Dataframe csv파일 저장
첫번째 row를 column name으로 설정하기
데이터 dimension 확인하기
데이터의 결측치 확인하고, 0으로 대체 or 해당 행,열 제거
graphic EDA : 특정 column값을 barplot으로 나타내기 + trouble shooting
graphic EDA : qq plot 그리기 = 데이터의 분포 확인하기
graphic EDA : box plot 그리기
Non graphic EDA : summary statistics, cross-tabulation

과제에 사용된 명령어들 모음

1. 데이터셋 불러오기

ktng_data_url= 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.xlsx'
df1 = pd.read_excel(ktng_data_url, sheet_name=0)
df1 = df1.T
df1.head()
df1.to_csv("df1.csv", mode='w')

특정 변수에 데이터의 주소값을 선언
excel 파일로 읽기 + 뒤에 sheet_name을 통해 시트별로 불러 올 수 있다.
행과열을 Transepose 시켜주기
Dataframe의 요약정보 보여주기
Dataframe csv 파일로 변환 (python export csv) 이후 똑같이 읽어주면 된다.

2. 첫번째 row를 행의 이름으로 설정하기

https://stackoverflow.com/questions/31328861/python-pandas-replacing-header-with-top-row

과제에서는 column의 모든 이름을 수작업으로 바꿔 주었다.

위의 stackoverflow에서 편한 방법 확인 가능하다.

####  3. 데이터 dimension 확인하기

>```
print(df1.size) 
print(df1.shape) 
print(df1.ndim)

-  행 * 열 계산한 모든 갯수
-  행, 열 각각의 갯수를 파악할 수 있다
-  dataframe의 차원 알려준다 1차원 or 2차원

4. 데이터의 결측치 확인하고, 0으로 대체 or 해당 행,열 제거

df1.isnull()
df1=df1.fillna(0)
pp.dropna()
df.isnull().sum() # 컬럼별 결측값 총합계

결측이면 True , 결측이 아니면 False (참고) df1.isnull().sum() ==> 칼럼별 결측값 갯수
결측치 값 0으로 대체
결측치가 존재하는 행 제거하기 ```

5. graphic EDA : 특정 column값을 barplot으로 나타내기
bar로 나타내기

df2['FCF'].plot.bar()
그래프 그릴 때 오류나면 봐줘야 하는 설정들.

import matplotlib.pyplot as plt import warnings import matplotlib as mpl import seaborn as sns import numpy as np import warnings warnings.filterwarnings("ignore") %matplotlib inline %config InlineBackend.figure_format='retina' mpl.rc("font", family='Malgun Gothic') mpl.rc('axes', unicode_minus=False)

6. graphic EDA : qq plot 그리기 = 데이터의 분포 확인하기

import scipy.stats as stats import pylab stats.probplot(pp.bill_length_mm, dist="norm", plot=pylab) pylab.show()

특정 Column을 기준으로 나머지 Column에 대해 Plot그린다

7. graphic EDA : box plot 그리기

pp.boxplot(column=['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g',])

8 summary statistics, cross-tabulation

summary statistics

pp[pp.columns[i]].mean() pp[pp.columns[i]].std() pp[pp.columns[i]].quantile(q=0.5) (0 <= q <= 1 에서 Q의 값에 따라 백분위수가 바뀐다. 25, 50, 75, 100 따라서 현재는 3Q)

cross-tabulation

pd.crosstab(index=[pp.species], columns= pp.sex)

예를들어 펭귄의 종족에 따른 성별 수를 알아보기 위해 사용할 수 있다.




## [github에서 해당 명령어 사용방법 확인하기](https://github.com/jangsik-park/ds-section1-sprint1/blob/master/n111-eda/n111a_eda.ipynb)

공공데이터인턴(4)

Wed, 02 Dec 2020 08:34:40 GMT

(20.12.02) 회의 내용 및 배운점

중소기업은행 데이터 시각화 내용 발표

공공데이터 포털에 중소기업은행이 개방한 데이터 중 몇개를 선별하여 시각화를 진행하였다. 이번에는 발표 자료에 많은 공을 들인만큼 자신이 있었다고 생각했으나, 실제 발표때는 왜 이렇게 쳐지는 목소리만 나오는지... 이건 진짜 고치고 싶다. 조금 더 당차고!! 자신감 있게!!!

오늘 발표 내용을 토대로 피드백을 받았는데, 워드클라우드 부분과 각 시각화 과정 후에 시사점을 도출한 것에 대해 칭찬을 받아서 기분이 너무 좋았다!!! 작지만 뭐라도 인정받았다는 이 느낌... 너무 좋았다.

그리고 이건 매번 느끼는거지만 직원분들이 말을 진짜 잘하신다... 또 타인의 얘기를 주의깊게 듣고, 거기서 핵심을 잘 파악하시는 것 같다. 나같은 경우에 다른 팀원들이 얘기하는 것을 집중해서 듣기는 하지만, 중간에 저게 무슨 말이지? 했던 경우가 잦았던 것 같은데, 아무래도 IBK인이 되려면 조금 더 노력이 필요할 것 같다. 면접에서 이러한 모습이 비춰지지 않을까?

발표중에 나는 두가지 질문을 하였다.

왜 중동과 남미에 기업은행의 지점이 많이 없는가?

중국과 인도네시아에는 왜 지점이 많은가?

그에 대해 과장님께서 상세하게 답변을 해 주셨다.

중동 같은 경우는 규제가 너무 심하기 때문이다. 실제로 농협은 몇년전 수조원의 벌금을 물기도 했다는... 남미 같은 경우는 사실 금융서비스가 많이 필요한 곳이 아니다. 개발 도상국이고 발전가능성이 높은 것은 맞지만 아직 투자대비 수익성이 낮다!

옛날부터 미래의 경제는 중국과 인도를 중심으로 돌아 갈 것이라는 전문가들의 예측이 많다. 그만큼 투자할 가치가 높기 때문에 현재 많은 지점이 투입되어 있는 것이다.

면접을 가게 된다면, 이쪽으로 질문이 들어오도록 유도하거나 내가 먼저 선수쳐서 답변한다면 좋지 않을까? 라는 생각을 한다.
팀원들의 발표내용에 대한 피드백 중에서도 양질의 Tip 들이 많았다

시각화를 할 때는 눈에 확 들어오게 하라! ex) 범주가 많다면, 상위 몇개만 남기던지 하는 방식으로!

별도의 웹사이트를 하나 더 구축하는 것은 비용측면에서 많은 부담이 된다. 따라서 한국은행처럼 공공데이터를 개방하는 형식은 무리일 것 같다.

대신에 현재 OPEN API Platform을 구축하고 있는데 그곳에서 많은 데이터들의 수입과, 개방이 이루어 질 것이다.

- '**Big value(?)**와 왜 협업을 하지 않는가?' 에 대한 질문에 대해서 > _IBK기업은행은 **탱커펀드(?)** 와의 협업을 통해 주택담보 대출시 자동심사가 이루어지도록 하였다. 대신에 다세대 주택 같은 경우에는 **은행 내부에 훌륭한 심사 자원들이 많아**서 굳이 타행처럼 협업을 하지 않아도 된다._ > 라고 답을 해 주셨는데, 중소기업은행을 향해 한걸음 더 나아간 것 같아 뿌듯했다.
- 다세대주택은 감정평가원에서의 평가가 불가능하다. 따라서 자체적으로 평가하는 방법을 사용한다.
- 은행에서 주택담보대출을 해 주는 Process > _1시간이 넘게 걸리는 주택 감정평가 -> 심사 결과 수령 -> 대출 실시_ > **이건 사실 조금 더 구체적으로 정보를 찾아서 채워 넣을 필요가 있을 것 같다.**
- 국내 점포 위치 시각화를 보면, 공장 밀집 지역에 지점이 많이 위치해 있다. **이것이 IBK 중소기업은행의 가장 큰 특징 중 하나!**
_미래 오프라인 점포가 줄면서 대부분 은행의 지점 분포도가 이와 같은 특징을 갖게 될 것이다._
짧은 시간이라고 생각했는데, 내용을 정리 해 보니까 정말 많은 것을 들었다... 일타강사의 쪽집게 과외가 이런 것인가...?

하루 다짐

이제 이곳에서의 생활이 3주정도의 시간 밖에 남지 않았다.
조금 더 적극적으로 물어보고 배울걸 하는 아쉬움이 남는다.

사실 오늘 생각했던 질문을 하지 못 했기에 더 아쉬운 것 같다

남은 시간만큼이라도 더 밝고, 긍정적인 에너지를 뿜으며 업무에 임해서, 더 많은 것을 얻어가야겠다!!!

I-one Bank

Fri, 27 Nov 2020 07:52:05 GMT

A. 기능

서비스명 : '원할때 환전'

메뉴 - 외환 - 외화환전 - ONE할 때 환전
환율 수수료 우대 90 % (공통 환율 스트레드 = 1.75%)
최대 10,000달러 = 약 천만원 보관 가능
소금액 환테크 가능하다.

마크다운 공부

Thu, 26 Nov 2020 06:07:47 GMT

github Markdown 자료

참고자료는 맨 밑에!! (use ===)

- **Notion을 이용하면 Markdown 언어로 작성된 문서**가 Atom, Visual Studio Code, Notepad++ 복붙 하면 그대로 기입된다.
그 다음에 웹 에디터에 붙여넣기 하면 **거의 완벽한 형태**로 복사된다. 따라서 애용하면 좋다.

this is an h1

this is an h2

this is a h1

this is a h2

this is a h3

this is a h4

this is a h5

this is a h6

this is a first blockqute

this is a second blosckqute this is a third blockqute

this is a h3

list

code

첫번째
두번째
세번째

빨강
- 녹색
  - 파랑
빨강
- 녹색
  - 파랑
파랑
- 빨강
  - 초록
    - 노랑
      - 녹색 this is a normal paragraph: this is a code block first tkdan hhgjd tncnfdlqdmsgodprkk many pr end tkdnan 2tkdjq chddhkf tkdansaldl ehltlwy qhsqnwkdsla tkdansla qkrdlsrb tkdan

This is a normal paragraph:

This is a code block.

end code block.

this is a normal paragraph:

this is a code block.
dffdfasfsdfasdf

this is a modern if and i like it so i dont want to drink water. so that can

코드를 입력하세요


 public class boootstrapvootpaPPlication {
     public static void main(String[] args) {
        System.out,jprintln("Hello, Honeymoon")

코드입력

public class bootstrapboootapplication {
    public static void main(String[] args) {

google

http://example.com/

single asterisks

~~cancel line~~

~~취소는 이렇게~~ *볼드체는 이렇게 쓰는겁니다 *

이거는 무슨용도일까 기울여 쓰기

볼드체 기울임 취소 기울임 기울임

@mentions, #refs, links, formatting, and ~~tags~~ supported
list syntax required (any unordered or ordered list supported)
this is a complete item
this is an incomplete item
a
b
c

표 생성

column1	column2	column3
내용1	내용1	내용1

가운데 정렬 |:---:| 왼족정렬 |:---| 오른쪽 정렬|---:|

!!! 참고자료 !!!

진로 관련 정리

Fri, 20 Nov 2020 08:37:08 GMT

하고 싶은 것

금융권 디지털 부서에 취업하여 IT서비스 기획

Why? 왜 금융권이냐고? 돈 많이 준다. 돈에 대해서 배울 수 있을 것 같다. Real? 약간의 인턴 경험이었지만, 돈은 내 기준에서 많이 주는거 확실하다고 생각한다.

IT서비스 기획 + 데이터엔지니어

AR, VR을 이용한 디지털 트윈 구축

배워야 하는 것

JAVA 데이터 엔지니어를 하기 위해서는 우선 백앤드 개발부터 시작해야 한다. 동시에 ios앱을 만들어 보면 좋다고 생각한다.

우아한형제들 인프런
- AR, VR 아래와 같은 방법을 통해 배울 수 있다.
  
  카이스트 대학원 MAXST

Plan B

공기업 물론 가기 힘든 것 맞지만, 당장 하고 싶은걸 미룰만큼 메리트가 있다고 생각하지는 않는다. 1~2년 공부해보고 아니다 싶으면 공기업 전산직 OR 기술보증기금 같은 곳을 가고 싶다. 우선은 당장 배워야 하는 것에 최대한 집중 할 것이다.

기술보증기금 (공기업)
인천국제공항공사(공기업)

Plac C

유학을 가고 싶다. 석사 과정을 영국에서 밟으면 적응시간 6개월 + 석사과정 1년 총 1.5년이 소요될 것으로 예상된다. 대략 8천만원 정도가 필요할 것 같다.

IT 교육 사이트 정리

Mon, 16 Nov 2020 08:16:22 GMT

코스타에듀

부트캠프

42서울

kakao 코딩테스트 후기

Sat, 14 Nov 2020 03:58:28 GMT

카카오 추천팀 2020 겨울 인턴쉽을 위하여 코딩테스트를 응시하였다.

한문제 풀었다.

1차 문제

아이디어 노트

Wed, 11 Nov 2020 08:14:07 GMT

금융

1. 각 금융사에서 개설한 자동이체, 이자금 상환 등의 계좌 조회 후 옮길 수 있게 하기.

각 금융사 별로 다른 이자율, 혜택을 제공하여 보여주고, 소비자가 선택할 수 있게 한다.

금융권 서비스 핵심

디지털 금융시대에 다양한 비즈니스 뱅킹 모델들이 등장한다. 이때 디지털카테고리 킬러 모델을 만드는 것이 각 금융사의 핵심 사업이다.

Q. 디지털 카테고리 킬러모델? A. 특정 금융서비스 분야에서 시장 지배력을 높여야 한다. ex) IBK기업은행은 중소기업 대출에 특화된 서비스를 발전시켜~~

패션

1. 옷에 장치를 달아서, 현관문을 나갈때 마다 입은 횟수 계산한다.

이를 통해 중고시장에서 더 큰 신뢰를 쌓을 수 있다.
2. 옷에 부착된 상품정보를 디지털화하여 저장한다.
세탁이나 관리 방법을 추천 받을 수 있다.
지금 오늘의 코디에서는 제품을 사진으로 찍은 다음에 디지털화하여 저장한다. 이를 활용하여 코디를 하는데, 사용자 입장에서 큰 메리트를 못 느낄 것 같다. 따라서 상품정보를 디지털화한다면 어떤 브랜드의 어떤 제품인지 알 수 있으므로 조금 더 코디를 추천하는 것이 수월하지 않을까 생각한다.

DecoPark.log

3차원 그래프 그리기

❗️ N212 참고

1. plotly 이용하기

2. plt 이용하기

용어_머신러닝

머신러닝 부분에서 배운 용어 정리

1. bias

2. variance

3. overfitting

4. Underfitting

5. OLS line

6. 정규화 vs 표준화

머신러닝

기법

이슈

Multiplie Linear Regression

1. 회귀식

2. 특징

3. 코드

4. 회귀모델을 평가하는 지표들

5. 회귀분석의 성능판단

DS_정리 목차

데이터프레임 조작

머신러닝

기법

이슈

용어정리

그래프 그리기

colab, github

DataFrame Manipulation

🔥 목차

Data 공부하는 팁 모음

How to study

기초수학

머신러닝 & 딥러닝

DS_분석_Clustering

주제 : Clustering

1. 학습목표

2. DF manipulation

3. 용어정리

4. 이건 알고 가자

5. 내용

(1) Scree Plots

(2) Machine Learning

(3) Clustering = 군집

(4) Similiarity = 유사도

(5) K-means 클러스터링

(6) Elbow methods

(7) 마치며

🌟 완벽한 알고리즘은 없다

🌟 때문에...

DS_가설검정

주제 : 가설검정

1. 학습 목표

2. 과제 질문

3. 과제 풀이

(1) skiprows, sep='\t', replace

(2) 각 열 조건에 맞는 index 찾아서 지우기

(3) DF에서 랜덤하게 10개의 값 추출하기

(4) 인덱스 초기화 - reset_index()

CodeStates_DS Sprint1

DS_ Data Manipulation

주제 : Data Manipulation

1. 학습 목표

2. 과제 질문

3. 과제 명령어 모음

(1) 여러개의 엑셀 데이터 한번에 불러와서 합치기 - Concat

(2) 데이터 합치기 - merge()

(3) 한글 폰트 깨짐 현상 해결하기 - 폰트설정, 마이너스 폰트 설정, 글씨 선명도

(4) 특정 열에 속한 문자 지우기 - lambda 이용

(5) 인덱스 설정하기 - set_index()

(6) tidy 형태 만들기 - melt()

🔥 참고 pivot_table: Tidy -> Wide

(7) column 명칭 변경하기 - rename()

(8) 인덱스 숨기기 - style.hide_index()

(9) 구글 코랩에서 드라이브에 있는 파일 경로 보기

(10) 특정 column별로 평균내기 - groupby()

DS_Feature Engineering

주제 : Feature Engineering

이제 이곳에서의 생활이 3주정도의 시간 밖에 남지 않았다.
조금 더 적극적으로 물어보고 배울걸 하는 아쉬움이 남는다.