jongyoon_insight.log

[Big query] 사용 함수

Sat, 09 Mar 2024 03:36:37 GMT

EXTRACT

DATE DATETIME TIMESTAMP

SELECT * EXCEPT(column_name) FROM olist.olist_order

SELECT * REPLACE(column_name * 10000 AS column_name) FROM olist.olist_order

CAST(value AS data_type) SAFE_CAST(value AS data_type)

에러 있을 경우 에러를 발생시키지 않고 null 로 반환함

SAFE_ADD(x,y) = x + y SAFE_SUBTRACT(x,y) = x - y SAFE_MULTIPLY(x,y) = x * y SAFE_DIVIDE(x,y) = x / y 0으로 나눌 때 NaN 방지

SELECT
 SAFE_DIVIDE(5, 0);
 IFNULL(SAFE_DIVIDE(5, 0) , 0)
> null
> 0

순위 행 매기는 방법


## order_id가 order_items 별로 price가 나눠져 있기 때문에 이를 합치기 위해 sum(order_items.price) 자료 준비

WITH tb as(
  SELECT
    item.order_id,
    sum(item.price) as ord_amt,
  from `olist.olist_order_items` as item
  group by item.order_id
)

## 도시, 주 별로 주문, 고객수, 매출을 agg 진행

, base as(
  SELECT
    cus.customer_city,
    cus.customer_state,
    count(distinct ord.order_id) as cnt_order,
    count(cus.customer_unique_id) as cnt_cus,
    sum(tb.ord_amt) as sum_sales

  FROM `olist.olist_orders` as ord
  INNER JOIN `tb`
    ON ord.order_id = tb.order_id
  LEFT JOIN `olist.olist_customers` as cus
    ON ord.customer_id = cus.customer_id
  WHERE 1=1
    AND EXTRACT(YEAR from order_approved_at) = 2017
    AND ord.order_status = 'delivered'
    AND customer_state= 'SP'
  GROUP BY 1,2
  ORDER by cnt_cus desc
)

## 위의 자료를 포함하여 랭킹까지 추가해줌

select *,
  row_number() over (partition by customer_state order by cnt_cus desc) as cust_rownum

from base
order by cust_rownum

월평균 구매금액 part 05. SQL chapter2 40)

/* 우리 고객들은 월 평균 얼마를 사용하고 있는가
월 주문건
월 주문금액
*/

WITH tb AS(

SELECT 
  order_id, 
  sum(price) as sales
FROM `olist.olist_order_items` as item
GROUP BY order_id
)
, base AS(

SELECT 
  DATE_TRUNC(DATE(ord.order_approved_at),MONTH) as part_month,
  count(distinct ord.order_id) as cnt_ord,
  count(distinct cus.customer_unique_id) as cnt_cus,
  round(sum(tb.sales),0) as sales,
  round(safe_divide(round(sum(tb.sales),0), count(distinct cus.customer_unique_id)), 1) as avg_sales
FROM `olist.olist_orders` as ord
INNER JOIN `tb`
  ON ord.order_id = tb.order_id
LEFT JOIN `olist.olist_customers` as cus
  ON ord.customer_id = cus.customer_id
GROUP BY 1
ORDER BY 1
)

select * from base
WHERE 1=1
  and part_month is not null

조건에 따라 값을 나누는 CASE

/* 고객들의 등급 변화가 어떻게 일어나고 있는가?
월 주문금액
고객
*/

WITH tb AS(

SELECT 
  order_id, 
  sum(price) as sales
FROM `olist.olist_order_items` as item
GROUP BY order_id
)
, base AS(

SELECT 
  DATE_TRUNC(DATE(ord.order_approved_at),MONTH) as ord_month,
  cus.customer_unique_id,
  sum(tb.sales) as sales,
  CASE WHEN sum(tb.sales) >= 300 THEN 'A'
    WHEN sum(tb.sales) >= 150 THEN 'B'
    ELSE 'C' END as level
FROM `olist.olist_orders` as ord
INNER JOIN `tb`
  ON ord.order_id = tb.order_id
LEFT JOIN `olist.olist_customers` as cus
  ON ord.customer_id = cus.customer_id
WHERE ord.order_status in ('delivered', 'shipped')
GROUP BY 1,2
ORDER BY level,3 desc
)

select * from base
WHERE 1=1
  and ord_month is not null

과제 2번

/* 상품 카테고리별 매출 데이터
2017년 월별 대카테고리별(영문명) 매출

1. 집계 조건 : 날짜 기준 : 승인일시(order_approved_at), null 제외, delivered 한정
2. 정렬 : 날짜(연도/월) 오름차순, 매출 내림차순
3. join 조건 : 주문 테이블과 주문 상품 정보 테이블에 모두 있는 주문건만 사용
              from 절로 주문상품 정보 테이블 사용(order_items)
              카테고리 정보가 없어도 매출이 집계되도록 함.
*/
SELECT 
  trans.catg_1 as cat,
  DATE_TRUNC(DATE(ord.order_approved_at), MONTH) as month,
  round(sum(item.price),2) as sum_price
FROM `olist.olist_order_items` as item -- 3-2
INNER JOIN `olist.olist_orders` as ord -- 3-1
  ON item.order_id = ord.order_id  -- USING(oder_id) 이렇게 써도됨
LEFT JOIN `olist.olist_products` as pro
  ON item.product_id = pro.product_id
LEFT JOIN `olist.product_category_name_translation` as trans
  ON pro.product_category_name = trans.product_category_name
WHERE 1=1
  AND EXTRACT(YEAR from DATE(ord.order_approved_at)) = 2017
  AND ord.order_approved_at is not null
  AND ord.order_status = 'delivered'
  -- AND pro.product_id = '5eb564652db742ff8f28759cd8d2652a'
GROUP BY 1,2
ORDER BY 2, sum_price desc

[Python] 실무 필수 문법

Thu, 29 Feb 2024 15:02:29 GMT

transform / map / apply 차이점

transform(): 그룹 기반 함수 적용, 새로운 열 생성 map(): 벡터화된 함수 적용, 원본 열 변경 apply(): 축 기반 함수 적용, 다양한 결과 형식 가능 6. 선택 가이드:

그룹별 집계 또는 변환: transform() 벡터화된 함수 적용: map() 행 또는 열 기반 함수 적용: apply()

data handling

df.shape() df.isnull().sum()

len(df['col'].unique())

df.replace(-200,np.NaN) ## 특정값 치환 df.fillna(method='ffill') ## frontfill np.where(df['col'] <= 5, 1, 0) ## 특정 조건 값 변경하기

df[df['col'].astype(str).str.contains('text')]

pd.pivot_table(df_job, index='index', columns='col', values='value')

df.replace([np.inf, -np.inf], np.nan) ## 무한대 null 처리

##lag 데이터 생성 +n : 순방향 , -n 역방향 df['col'].shift(1)

##문자열 데이터 앞 공백제거 df['col'].str.lstrip()

##날짜 데이터 형식 변경 import datetime df["Date"].dt.strftime("%Y-%m")

##list 중복 없애기 all_list = list(df['start']) + list(df['end']) unique_list = set(all_list)

data Visualization

연속형 변수 분포 확인

sns.displot(df['col']) # displot 활용 분포 그리기 print("col :", df['col'].mean()) #분포의 기술 통계도 같이 출력

Plot size 조절

plt.gcf().set_size_inches(20,5)

산점도 그리기

import seaborn as sns sns.scatterplot(x=df['x'], y=df['y'], hue=df['hue'], data=df)

line plot 그리기

import matplotlib.pyplot as plt plt.plot(df['x'], df['y'], label='label')

다중 distplot 출력

for i in range(1,13): plt.subplot(3,4,i) plt.grid(False) sns.displot(df.iloc[:,i]) plt.tight_layout() plt.show()

pairplot 상관관계 분석

df_pair = df[['col1' ~ ]] ## 변수 추리기 sns.pairplot(df_pair)

Heat map 상관관계분석

sns.heatmap(df_pair.corr(), vmin=-1, vmax=+1, annot = Ture, cmap='coolwarm')

수직 수평선 추가 길이 조절

plt.vlines(2, ymin=-2, ymax=2, color='r', linewidth=2) plt.hlines

catplot 카테고리 분류 분석

sns.catplot(x='x', hue='y', kind='count', palette='pastel', data=df)

그래프 특정 값에 색상 입히기

df['vol_color'] =np.where(df['Volume_issue']==1, 'red', 'gray') colors= list(df['vol_color'])

plt.bar(df['Date'], df['Volume'], label='volume', color=colors)

이상분석할 때 자주 쓰임

data analysis & modeling

이진 분류 RandomForestClassifier

모델 학습 및 예측

빈껍데기 만들기 rfc = RandomForestClassifier(random_state=123456)
모델 학습시키기 rfc.fit(x_train, y_train)
예측, 학습에 사용된 Data와 test data 모두 예측하고 평가(★★과적합 여부 판별) y_pred_train = rfc(위에서 학습시킨).predict(x_train) y_pred_test = rfc.predict(x_test)
이진 분류 모델 성능 확인 from sklearn.metrics import classification_report classification_report(y_train, y_pred_train)) classification_report(y_test, y_pred_test))

하이퍼파라미터 튜닝

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

params = { 'n_estimators' : [400, 500], 'max_depth' : [6, 8, 10, 12] }

RandomForestClassifier 객체 생성 후 GridSearchCV 수행

rf_clf = RandomForestClassifier(random_state = 123456, n_jobs = -1) grid_cv = GridSearchCV(rf_clf, param_grid = params, cv = 3, n_jobs = -1, scoring='recall') grid_cv.fit(x_train, y_train)

print('최적 하이퍼 파라미터: ', grid_cv.best_params_) print('최고 예측 정확도: {:.4f}'.format(grid_cv.best_score_))


6. 중요변수 파악(Feature Importance)

import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline plt.style.use(['dark_background'])

rfc → 생성한 Model에 name 기재

ftr_importances_values = rfc.feature_importances_ ftr_importances = pd.Series(ftr_importances_values, index = x_train.columns) ftr_top20 = ftr_importances.sort_values(ascending=False)[:20]

plt.figure(figsize=(8,6)) plt.title('Feature Importances') sns.barplot(x=ftr_top20, y=ftr_top20.index) plt.show()


7. 모델 save & read

import pickle

모델 저장

saved_model = pickle.dumps(model)

모델 Read

model_from_pickle = pickle.loads(saved_model)


8. 상관계수 값 출력

import scipy.stats as stats stats.pearsonr(x=df['x'], y=df['y'])



## Regressor(회귀) 모델 학습 및 평가
앞에는 비슷하다.

모델링을 학습하기 위한 Fearue(X)와 Y데이터를 구분하는 단계

from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn import metrics

X=df.drop(['y'], axis=1) Y=df['y']

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3)

print(x_train.shape) print(y_train.shape)

print(x_test.shape) print(y_test.shape)

RandomForestRegressor 모델 학습

rfr = RandomForestRegressor() rfr.fit(x_train, y_train)

예측

예측은 학습에 사용된 Data와 Test Data 모두 예측하고 평가함(※ 과적합 여부 판별)

import numpy as np from sklearn.metrics import mean_absolute_error, r2_score y_pred_train = rfr.predict(x_train) y_pred_test = rfr.predict(x_test)

mse_train = mean_absolute_error(y_train, y_pred_train) print('mse_train(mse): ', mse_train) rmse_train = (np.sqrt(mse_train)) print('rmse_train(rmse): ', rmse_train) r2_train = r2_score(y_train, y_pred_train) print('rmse_train(r2): ', r2_train) print('') mse_test = mean_absolute_error(y_test, y_pred_test) print('mse_test(mse): ', mse_test) rmse_test = (np.sqrt(mse_test)) print('rmse_test(rmse): ', rmse_test) r2_test = r2_score(y_test, y_pred_test) print('rmse_test(r2): ', r2_test)

```

이후는,, 나중에 복습하자

[Python] Visualization

Sun, 25 Feb 2024 06:25:46 GMT

자주쓰는 matplotlib / seaborn

import matplotlib.pyplot as plt
import seaborn as sns


# print the graphs in the notebook
%matplotlib inline

# set seaborn style to white
sns.set_style("white")

boxplot(행, 열, 색상, 데이터)

sns.boxplot(x = "day", y = "total_bill", hue = "time", data = df);

df에서 & 연산자 사용법

df[(df['day']=='Thur') & (df['time'] == 'Dinner')]
#괄호 꼭 써라

histogram / FacetGrid

ttbill = sns.histplot(df.total_bill);

# set lables and titles
ttbill.set(xlabel = 'Value', ylabel = 'Frequency', title = "Total Bill");
# 여기선 x,y 아니고 xlabel ylabel임. histogram 지정하고 set 지정(단순이름 valuesssss로 바꿔봄)

# better seaborn style
sns.set(style = "ticks")
plt.grid(True)
# creates FacetGrid
g = sns.FacetGrid(df, col = "time") #두개로 나눌 기준 col
g.map(plt.hist, "tip");  # tip 에 대해서 map

import numpy as np
# sort the values from the top to the least value and slice the first 5 items
df2 = df.Fare.sort_values(ascending = False)
# df3 = df.Fare

# create bins interval using numpy
binsVal = np.arange(0,600,10)
binsVal

# create the plot
plt.hist(df3, bins = binsVal)

# Set the title and labels
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.title('Fare Payed Histrogram')

# show the plot
plt.show()

scatter

g = sns.FacetGrid(df, col = "sex", hue = "smoker")
g.map(plt.scatter, "total_bill", "tip", alpha =.7) # alpha는 투명도

g.add_legend(); # 범례

pie chart

# sum the instances of males and females
males = (df['Sex'] == 'male').sum()
females = (df['Sex'] == 'female').sum()

# put them into a list called proportions
proportions = [males, females]

# Create a pie chart
plt.pie(
    # using proportions
    proportions,

    # with the labels being officer names
    labels = ['Males', 'Females'],

    # with no shadows
    shadow = False,

    # with colors
    colors = ['blue','yellow'],

    # with one slide exploded out
    explode = (0.15 , 0),           #벌어진 크기

    # with the start angle at 90%
    startangle = 90,                #시작 각도

    # with the percent listed as a fraction
    autopct = '%1.2f%%'
    )

# View the plot drop above
plt.axis('equal')

# Set labels
plt.title("Sex Proportion")

# View the plot
plt.tight_layout()
plt.show()

'%1.2f%%'는 문자열 포매팅을 의미합니다. % : 문자열 포매팅을 시작하겠다는 표시입니다. 1.2f : 소수점 아래 두 자리까지 표시하겠다는 의미입니다. %% : 실제 '%' 문자를 출력합니다. '%'를 출력하기 위해서는 '%%'와 같이 두 번 입력해야 합니다

lmplot

# creates the plot using
lm = sns.lmplot(x = 'Age', y = 'Fare', data = df, hue = 'Sex', fit_reg=False)

# set title
lm.set(title = 'Fare x Age')

# get the axes object and tweak it
axes = lm.axes
axes[0,0].set_ylim(-5,)           # y축 길이
axes[0,0].set_xlim(-5,85)         # x축 길이

[Python] pivot, concat, merge

Fri, 23 Feb 2024 08:11:47 GMT

전처리

df.drop('Indicator',axis=1,inplace=True)
#indicator , 열, 원본에 대입 삭제

df['First Tooltip'] = df['First Tooltip'].map(lambda x: float(x.split("[")[0]))
#x.split을 [ 기준으로 나눠 첫번째 것만 실수로 선택하는 매핑

pivot / pivot_table 차이점

pivot과 pivot_table은 두 함수 모두 데이터프레임을 재구성하여 새로운 데이터프레임을 생성하는데 사용되지만, 그들 사이에는 몇 가지 중요한 차이점이 있습니다.

기능 차이: pivot 함수는 단순히 데이터프레임을 재구성하는 기능만 제공합니다. 반면, pivot_table 함수는 추가로 그룹별로 데이터를 집계(agg)하는 기능도 제공합니다. pivot_table 함수에 aggfunc 매개변수를 통해 평균, 합계 등의 집계 함수를 지정할 수 있습니다.
다중 인덱스 처리: pivot_table은 pivot에 비해 다중 인덱스(multi-index)를 더 잘 처리합니다. pivot은 하나의 인덱스를 기준으로 피벗하는 반면, pivot_table은 여러 개의 인덱스를 동시에 처리할 수 있습니다.
중복 데이터 처리: pivot 함수는 중복 데이터에 대해 에러를 발생시킵니다. 즉, 같은 인덱스와 열에 해당하는 값이 두 개 이상 존재하면 pivot 함수를 사용할 수 없습니다. 반면, pivot_table 함수는 중복 데이터를 집계 함수(aggfunc)를 사용하여 하나의 값으로 변환하여 처리합니다. 따라서, 단순히 데이터프레임의 모양을 바꾸는 경우에는 pivot을, 그룹별로 데이터를 집계하거나 중복 데이터를 처리해야 하는 경우에는 pivot_table을 사용하면 됩니다.

pivot

Ans = target.pivot(index='Location',columns='Period',values='First Tooltip')

pivot_table

Ans = df.pivot_table(index='Dim1',columns='Period',values='First Tooltip',aggfunc='mean') kr.pivot_table(index='Year', columns='Medal', aggfunc='size').fillna(0)

concat vs merge

concat 은 데이터를 좌우, 위아래로 합칠 때 merge 는 join 개념

chat gpt said

merge와 concat은 모두 pandas에서 두 개 이상의 데이터프레임을 결합하는데 사용되는 함수입니다.

merge 함수는 SQL의 JOIN과 유사하며, 특정 공통 열이나 인덱스를 기준으로 두 데이터프레임을 결합합니다. merge 함수는 기본적으로 내부 결합(inner join)을 수행하지만, how 인자를 통해 외부 결합(outer join), 왼쪽 결합(left join), 오른쪽 결합(right join) 등도 수행할 수 있습니다.

concat 함수는 주로 데이터프레임을 수직으로(위/아래) 결합하는 데 사용됩니다. 하지만 axis 인자를 통해 수평으로(왼쪽/오른쪽) 결합하는 것도 가능합니다. concat 함수는 join 인자를 통해 결합 방식을 지정할 수 있으며, 기본적으로 외부 결합(outer join)을 수행합니다.

join 함수 join 함수는 merge 함수를 기반으로 하며, 두 데이터프레임의 인덱스를 기준으로 결합합니다. 특히, join 함수는 기본적으로 왼쪽 결합(left join)을 수행하며, how 인자를 통해 다른 종류의 결합도 수행할 수 있습니다.

join 함수와 merge 함수 중 어느 것이 더 많이 사용되는지는 상황에 따라 다릅니다. 만약 두 데이터프레임을 공통 열을 기준으로 결합하려면 merge 함수를, 인덱스를 기준으로 결합하려면 join 함수를 사용하면 됩니다. 이때, join 함수는 merge 함수에 비해 문법이 더 간결하여 인덱스를 기준으로 결합하는 경우에는 join 함수를 더 선호하는 경향이 있습니다.

concat

pd.concat([df5,df6], axis=0)
#axis 행기준

pd.concat([df3,df4].join='inner')
#join을 쓸 수 있으나 merge에서 더 자주 쓰임

merge

pd.merge(df5,df6, on='Algeria', how='inner').fillna()
pd.merge(df5,df6, on='Algeria', how='outer').fillna()

[통계] 회귀분석 (2)

Fri, 23 Feb 2024 06:05:44 GMT

회귀분석의 표준화계수

표준화계수란?

종속변수에 대한 독립변수들의 단위(scaling)을 통일시긴 계수 모든 독립변수를 같은 단위로 상정하고 비교 가능

특징

원점(0,0)을 지나가 절편이 "0"임 해석이 어렵다

장점

여러 독립변수의 상대적 중요도를 비교 가능

주의사항

표준화 계수의 크기는 별도의 테스트를 해서 크다/작다를 말할 수 있음

2. 더미변수

더미변수란 ?

값이 오직 0 과 1로만 이루어진 변수 수리적 의미 없음, 기본적으로 이산형/범주형 변수인데 이를 연속형 변수처럼 사용

왜 더미변수를 사용할까?

범주형 변수의 경우 그 범주의 개수가 3개 이상일 경우 코딩을 1, 2, 3 이런식으로 하면 연속형 변수가 되어 회귀분석에서 사용 못함

더미변수 만들기 예제

변수의 범주 : 4개의 범주 필요한 변수의 개수 : 범주의 개수 - 1 = 3

더미변수 해석

빠진 범주가 비교의 기준(reference group)이 됨

credit 과 bank 의 차이는 무의미하다.
electroci check 가 bank transfer 보다 988만큼 덜 지불 하더라
mailed check 가 bank transfer 보다 2024만큼 덜 지불 하더라

그런데, 만약 Electronic check과 mailed check을 비교하고 싶다면? 현재의 결과표로는 해석 불가. 비교하고 싶은 범주중 한개를 reference group로 하는 더미변수 3개를 다시 만들어야함

결론

더미변수는 값이 오직 0, 1 수리적의미 없음

해석할 때는 해당 범주와 기준 그룹 간에 유의한 차이가 있다/없다로 해석 기준 그룹이 아닌 범주와는 해석 불가

다중공선성

결론

유사한 독립변수들이 동시에 모델에 들어감으로써 발생하는 문제 완벽한 다중공선성이 있으면 최소제곱법 계산이 되지 않음 다중공선성이 높을 경우 회귀계수의 표준오차가 비정상적으로 커짐

유의해야할 변수가 유의하지 않아질 수 있음 일반적으로 VIF 10을 기준으로 하나 더미변수는 3으로 보아야함

해결책

높은 다중공선성에도 불구하고 유의하다면 그대로 좋음 유의해야할 변수가 유의하지 않다면 변수 중 뭔가를 빼야 함 다른 여러 방법이 있으나 일반적으로 완벽하지 않음 강제로 분산을 제거하는 방법이 더 큰 문제를 만들 수 있음

이분산성(Heteroskedasticity)

결론

회귀계수의 표준오차가 동일하지 않고 변화하는 경우 회귀계수의 표준오차가 독립변수의 함수로 나타남

확인 방법

산포도
잔차도
White test

해결 방법

robust standard error
WLS regression(이론적으로는 쉬우나 현실적으로 어려움)

[Python] time series

Thu, 22 Feb 2024 17:11:08 GMT

파이썬에서 이해하는 datetime으로 변경

df.Yr_Mo_Dy = pd.to_datetime(df.Yr_Mo_Dy) Ans = df.Yr_Mo_Dy

Q66. Yr_Mo_Dy에 존재하는 년도의 유일값을 모두 출력하라

Ans = df.Yr_Mo_Dy.dt.year.unique()

Q67. Yr_Mo_Dy에 년도가 2061년 이상의 경우에는 모두 잘못된 데이터이다. 해당경우의 값은 100을 빼서 새롭게 날짜를 Yr_Mo_Dy 컬럼에 정의하라

def fix_century(x):
    import datetime

    year = x.year - 100 if x.year >= 2061 else x.year
    return pd.to_datetime(datetime.date(year, x.month, x.day))
    # x.year만 변경되고 나머지 month day는 기존 값을 리턴해준다)

df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(fix_century)

datetime.date에 대하여

datetime.date(year, x.month, x.day)는 Python의 내장 모듈인 datetime을 사용해서 특정 날짜를 나타내는 객체를 생성하는 코드입니다. datetime.date() 함수는 입력된 년, 월, 일 정보를 바탕으로 날짜를 나타내는 date 객체를 반환하는데, 이 객체는 연, 월, 일 등 날짜 관련 정보를 속성으로 가집니다. 그런 다음 pd.to_datetime() 함수는 이 date 객체를 pandas의 Timestamp 객체로 변환합니다. Timestamp 객체는 시간 관련 다양한 연산을 수행할 수 있게 해주는 pandas의 자료형입니다. 이를 통해 시계열 데이터를 다루기가 더 용이해집니다.

그러니까, 파이썬에서 해당 '문자'를 '날짜'데이터라고 인식할 수 있도록 datetime.date를 쓰고 pandas에서 timestamp로 연산 사용할 수 있도록 to_datetime()을 쓴다는거지

df.Yr_Mo_Dy.dt.year.unique()

dt는 pandas의 Series 객체에서 날짜와 시간에 관련된 속성들을 접근하거나 함수를 사용할 수 있게 해주는 접근자(Accessor)입니다. 따라서 df.Yr_Mo_Dy.dt.year는 Yr_Mo_Dy 열에 있는 각각의 날짜 값에서 년도 부분을 추출해내는 코드입니다.

Q69. weekday컬럼을 만들고 요일별로 매핑하라 ( 월요일: 0 ~ 일요일 :6)

df['weekday'] = df.Yr_Mo_Dy.dt.weekday # 월~일 0~6으로 만들어줌

Ans = df['weekday'].head(3).to_frame()

Q70. weekday컬럼을 기준으로 주말이면 1 평일이면 0의 값을 가지는 WeekCheck 컬럼을 만들어라

df['weekcheck'] = df['weekday'].map(lambda x : 1 if x in [5,6] else 0)

Q71. 년도, 일자 상관없이 모든 컬럼의 각 달의 평균을 구하여라

ans = df.groupby(df.Yr_Mo_Dy.dt.month).mean(numeric_only=True)

Q72. 모든 결측치는 컬럼기준 직전의 값으로 대체하고 첫번째 행에 결측치가 있을경우 뒤에있는 값으로 대체하라

df = df.fillna(method='ffill').fillna(method='bfill')
df.isnull().sum()

두개 함수를 혼합해서도 사용가능. 맨 첫번째 행은 ffill이 불가하기 때문 bfill 함수를 붙여줌

Q73. 년도 - 월을 기준으로 모든 컬럼의 평균값을 구하여라

Ans = df.groupby(df.Yr_Mo_Dy.dt.to_period('M')).mean(numeric_only=True)

dt.month 를 쓰면 위처럼 년도가 고려되지 않는 월만 나오기 때문에 to_period('M')을 사용

Q75. RPT와 VAL의 컬럼을 일주일 간격으로 각각 이동평균한값을 구하여라

Ans= df[['RPT','VAL']].rolling(7).mean()

Q76. 년-월-일:시 컬럼을 pandas에서 인식할 수 있는 datetime 형태로 변경하라. 서울시의 제공데이터의 경우 0시가 24시로 표현된다

def change_date(x):
    import datetime
    hour = x.split(':')[1] # 예시 데이터 > 2021-05-15:15
    date = x.split(":")[0] # :앞쪽

    if hour =='24':  # 24시면 다음날이어야 하기 때문에 이걸 함
        hour ='00:00:00'

        FinalDate = pd.to_datetime(date +" "+hour) + datetime.timedelta(days=1)
                           #pandas의 date stamp + 하루 더하기 timedelta(days=1) 

    else:
        hour = hour +':00:00'
        FinalDate = pd.to_datetime(date +" "+hour)

    return FinalDate

df['(년-월-일:시)'] = df['(년-월-일:시)'].apply(change_date)

df['dayName']  =df['(년-월-일:시)'].dt.day_name()

weekday()는 숫자 day_name()은 영어

Q78. 요일별 각 PM10등급의 빈도수를 파악하라

Ans1 = df.groupby(['dayName','PM10등급'],as_index=False).size()
Ans2 = Ans1.pivot(index='dayName',columns='PM10등급',values='size').fillna(0)

피벗 참 중요하다 이렇게 생긴걸 이렇게 바꾼다.

중요! pivot(index = 행 , columns = 열, values = 값)

Q79. 시간이 연속적으로 존재하며 결측치가 없는지 확인하라

check = len(df['(년-월-일:시)'].diff().unique())
if check ==2:
    Ans =True
else:
    Ans = False

df['(년-월-일:시)'].diff().unique() #diff는 앞의 값과 뺀 결과 
array([         'NaT', -3600000000000], dtype='timedelta64[ns]') #첫값은 뺄수가 없어서 NaT, 이후는 한시간씩 차이가 나니까 값이 2개만 존재해야함.=시간이 연속적으로 존재

Q81. 날짜 컬럼을 index로 만들어라

inplace true는 변경한 값을 실제 값에 변경 적용해라

df.set_index('(년-월-일:시)',inplace=True)

[Python] apply, map

Thu, 22 Feb 2024 16:09:14 GMT

map(lambda x : dic[x])

선택된 income_category 값을 x로하여 매핑하라

df['newIncome'] = df.Income_Category.map(lambda x: dic[x])

나이대 구하기

df['AgeState'] = df.Customer_Age.map(lambda x: x//10 *10)
Ans = df['AgeState'].value_counts().sort_index()

values_counts 개수세기 sort_index 인덱스로 내림차순 정렬

if문 축약형

df['newEduLevel'] = df.Education_Level.map(lambda x : * if 'Graduate' in x else 0)*

np로도 가능하다. np.where(조건, true, false) df['newEduLevel'] = np.where( df.Education_Level.str.contains('Graduate'), 1, 0)

두 조건을 만족하는 행을 세어라

def check(x):
    if x.Marital_Status =='Married' and x.Card_Category =='Platinum':
        return 1
    else:
        return 0


df['newState'] = df.apply(check,axis=1)
Ans  = df['newState'].value_counts()

df.칼럼.apply를 보통 쓰는데, 2개의 칼럼에 대한 조건문을 넣어야하여 전체 df를 사용하게 표현함. df.apply(check, axis=1) axis는 행/열 기준 정해줌

def changeGender(x):
    if x =='M':
        return 'male'
    else:
        return 'female'
df['Gender'] = df.Gender.apply(changeGender)
Ans = df['Gender'].value_counts()

여기서는 Gender 칼럼 한개에 대한 식이다보니, df.Gender.apply(changeGender)

[Python] Grouping

Thu, 22 Feb 2024 15:46:07 GMT

df.groupby('host_name').size() df.host_name.value_counts().sort_index()

두가지 방법이 있다. groupby size 는 null 값도 세고 value counts 는 null 값 제외

host_name의 빈도수를 구하고 빈도수로 정렬하여 상위 5개를 출력하라

df.host_name.value_counts().to_frame().head()

Ans = df.groupby('host_name').size().\

         to_frame().rename(columns={0:'counts'}).\
         sort_values('counts',ascending=False)

Ans.head(5)

'neighbourhood_group','neighbourhood'로 그룹정렬하고 'neighbourhood_group'그룹에서 최대값들을 출력하라

Ans= df.groupby(['neighbourhood_group','neighbourhood'], as_index=False).size()
.groupby(['neighbourhood_group'], as_index=False).max()

'neighbourhood_group'그룹핑하여 price열의 최대최소평균분산 구하라

Ans = df.groupby('neighbourhood_group')['price'].agg(['mean','var','max','min'])

as_index=False 를 하면 시리즈 type 에서 DF type 으로 변경됨

fillna(-999) 빈값이 있으면 괄호값으로 채워넣는다.

unstack() 계층적 인덱싱을 파괴

Q55. 데이터중 neighbourhood_group 값에 따른 room_type 컬럼의 숫자를 구하고 neighbourhood_group 값을 기준으로 각 값의 비율을 구하여라

Ans = df[['neighbourhood_group','room_type']].groupby(['neighbourhood_group','room_type']).size().unstack()

Ans.loc[:,:] = (Ans.values /Ans.sum(axis=1).values.reshape(-1,1))

axis=1은 행을 다 더해라, axis=0은 열을 다 더해라 values는 array 형태로 변경 행렬 연산을 위해 1차원 형태의 행렬로 만듬 reshape(-1,1) 기억하자

loc[:,:] = 전체 df의 값에 뒤의 식을 적용할 때 사용

[Python] filtering & Sorting

Thu, 22 Feb 2024 14:54:24 GMT

칼럼 조건 넣기
df[df['quantity']==3]

칼럼 두개면 대괄호 하나 더씀
df[['quantity','item_price']]


인덱스 초기화해서 칼럼 조건으로 데이터 가져오기
df.loc[df['quantity'] == 3].head().reset_index(drop=TRUE)

::2는 짝수열
df.iloc[:,::2]

loc와 iloc은 둘 다 pandas 데이터프레임에서 행이나 열을 선택하는데 사용되는 함수입니다. 그러나 두 함수는 서로 다른 방식으로 데이터를 선택합니다. loc: 라벨 기반의 데이터 선택 방식을 사용합니다. 즉, 행과 열의 라벨(이름)을 기준으로 데이터를 선택합니다. df.loc['item_price'] iloc: 정수 기반의 데이터 선택 방식을 사용합니다. 즉, 행과 열의 정수 인덱스를 기준으로 데이터를 선택합니다 df.iloc[1]

item_price에서 문자 읽기
df.item_price.str[1:].astype('float')
df.item_name.str.contains('문자')

기본 오름차순 + 인덱스 초기화
df.sort_values('new_price',ascending=False).reset_index(drop=TRUE)

df.drop_duplicates('열네임')

df.loc[df.new_price >= df.new_price.mean()]

loc[행, 열]
df.loc[df.item_name=='lzze', 'item_name'] = 'Fizzy Lizzy'

NaN 값 세기
df.choice_description.isnull().sum()

df.loc['choice_description'.isnull(), 'choice_description'] = 'NoData'

df.choice_description.str.contains('Black') # 포함하는 글자
df.loc['choice_description'=='lizzy', 'choice_description'] # 행열
Ans = df[df.item_name.str.startswith('N')] # 시작하는 글자
Ans = df[df.item_name.str.len() >=15] # 글자수 세기


lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]
Ans = df.loc[df.new_price.isin(lst)]  # isin(list) 리스트에 있는걸 포함하는 것
display(Ans.head(3))
print(len(Ans))

[통계] 회귀분석 (1)

Tue, 20 Feb 2024 06:39:00 GMT

1. 회귀분석이란?

회귀(Regression)이란 말은 어딘가로 돌아간다는 의미
어디로 돌아가는걸까?

회귀분석의 목적

주어진 독립변수로 종속변수를 예측하기 위해
단순 회귀(Simple regression)
- 독립변수 1개 / 종속변수 1개
다중 회귀(Multiple regression)
- 독립변수 2개 이상 / 종속변수 1개

만약 수입이 1억이라면? 지출은 얼마일까? 이를 예측하기 위해 필요한 건 추세선 이 추세선을 구하는 방법이 회귀분석

회귀분석의 오차가 발생(error)

오차 = 측정값 - 예측값

그렇다면 가장 합리적인 추세선이란?

오차가 가장 작은 추세선? 그런데 오차에 + - 가 혼재.. 어떻게할까? 오차의 제곱이 최소화된 추세선 -> 오차의 제곱합이 최소화된 추세선

어디서 본거 같은데...........?

방법 중 하나 [최소제곱법]

앞의 a와 b를 추정하는 방법 궁극적으로는 평균을 지나는 추세선이 가장 합리적인 최소제곱법에 의해 구해짐

결론

주어진 데이터의 독립변수로 종속변수를 예측 이를 위해 직선형태의 추세선을 구함 이 추세선의 식은 y = a + bx (a 는 절편, b는 기울기) 사용되는 방법은 최소제곱법(오차의 제곱의 합을 최소로 만듬) 최소제곱법으로 구해진 직선이 우리가 원하는 회귀분석식

이 직선은 평균을 지난다(평균으로의 회귀)
이 방법을 영어로 Ordinary Least Square(OLS)라고 함

2. 회귀분석의 결과표 해석

intercept = 상수 SE(비표준화계수/ Standard error 표준오차) Estimate(비표준화계수/ B, 회귀계수)

연구가설

거실의 크기가 클수록 매매가격이 비쌀 것이다.

결과해석

거실크기가 1 feet^2 증가할 때, 매매가격은 281$ 증가

3. 회귀분석과 표준오차

통계적인 사고 방식 Remind!

이 사건이 우연히 발생하지 않았을까?
x가 1증가할 때, y가 2.4증가하는게 우연이 아니었을까?

최소제곱법은 오차의 제곱합이 최소가 되는 회귀방정식을 구해줄 뿐 이 회귀식의 회귀계수가 우연인지 아닌지 알려주지 않는다. 그렇다면 우리는 회귀계수 2.4가 우연인지 아닌지 어떻게 판단해야할까 비교 대상이 필요하다

표준오차(SE)

우리는 뭘 하든지 대부분 모집단이 아닌 표본으로 통계분석 함. 우리가 가진 표본이 얼마나 모집단에 가까운지 아닌지 판단해야 함. 모집단의 평균을 평균의 참값이라고 할 때,

표본집단의 평균이 얼마나 모집단의 평균과 가까운지 먼지를 계산
이론적으로 같은 모집단에서 적합한 방법으로 표본을 구해도 표본집단의 평균은 매번 다를 수 밖에 없음
표준오차 = 표본 평균들의 표준편차

결론적으로 표준오차가 작으면 참값에 더 가깝다는 것이고, 표준오차가 크면 참값에서 더 멀다는 것임

결론

회귀계수는 최소제곱법으로 구해진다. 그러나! 그렇게 계산된 회귀계수가 우연인지 아닌지는 모른다. 그래서 이 회귀계수가 우연일 확률을 알기 위해 표준오차를 사용한다.

표준오차가 작으면 회귀계수가 우연일 확률이 낮다

표준오차가 작다 = 데이터가 회귀직선 가까이에 퍼져있다. 표준오차가 크면 회귀계수가 우연일 확률이 크다
표준오차가 크다 = 데이터가 회귀직선에서 멀리 퍼져있다

그렇다면 이 확률을 어떻게 계산할까? -> t-test

4. 회귀분석과 t-test

유의미한 회귀계수 2.4가 됨
우연히 나온 회귀계수 2.4가 됨

회귀분석의 특징

데이터가 곡선 형태로 되어 있다면 기울기는 0 원 형태로 되어 있다면 기울기는 0 직선의 형태로 되어 있지 않다면 분석할 수 없음

회귀분석 전에 산포도를 찍어 보아야 함.
- 직선 형태의 데이터분포가 나타나지 않으면 다른 방법 찾아야함
- 회귀분석은 y = a + bx니까!
회귀계수(기울기)는 결국 t-test의 평균값 차이와 동일한 개념
- 따라서 회귀계수는 t-test로 그 유의성을 테스트 함.

회귀계수 t-test의 통계적 가설

결론

회귀분석은 독립변수와 종속변수의 직선관계만 분석가능 이를 위해 분석 전에 산포도 확인
직선관계가 아닌 경우 잘못된 회귀계수를 얻게 됨.
회귀분석 기울기의 테스트는 t-test와 동일한 개념 회귀계수를 표준오차로 나누면 회귀계수 이때 자유도는 1 독립변수가 증가할 수록 자유도가 증가
- 무한대의 독립변수를 사용 못함
- 독립변수 1개의 추가는 곧 비용임(자유도 늘어나니까!)

R² 를 어떻게 해석해야할까

보통 회귀분석에서는 종속변수와 독립변수의 인과관계를 논리적/이론적으로 전제하고 독립변수로 종속변수를 설명하려 한다.
그런데 회귀분석 뿐만 아니라 우리가 하는 통계는 결국 분산을 얼마나 잘 설명하는가 가 목적이다. 즉, 회귀분석이란 종속변수의 분산을 독립변수로 얼마나 설명할 수 있는가의 과정

R² = 모델의 분산 설명력

모델(독립변수)가 얼마나 데이터를 잘 설명했는지를 의미

R²가 높으면 무조건 좋은 것인가?

절대 그렇지 않음 나름 의미는 있으나 높은 R2가 모든 것을 완벽하게 하지는 못함

잔차도가 랜덤하게 분포함을 확인해야함
의미 없는 독립변수의 추가 조차도 R²를 약간이라도 증가시킴
그러나 독립변수의 추가는 자유도를 1 증가시켜 비용이 발생
높은 R² 는 과적합 문제로부터 자유롭지 않음

잔차도(residual plot)

종속변수의 분산을 모델(독립변수)로 설명하는데 여기서 모델이 큰 문제가 없다면, 모델로 설명하고 남은 오차는 random한 오차임

랜덤하지 않은 분포는 R²가 아무리 높더라도 모델 설명이 안됨. 뭔가 다른 이유가 있기 때문이라고 판단할 수 있음

R² 대신 사용할 수 있는 것은?

R²의 단점은 독립변수가 무한대로 증가하면 (변수가 무관하더라도) R²가 증가함 따라서 독립변수의 증가 = 자유도 1 손실 이에 대한 보정이 필요

보정 ?
- 추가된 독립변수가 자유도 1을 잃고도 충분히 분산을 설명했는지 여부
- 자유도가 감안된 R²가 필요
- 이것이 adj. R²(수정 R²)
- 둘의 크기가 심하게 다르다면 의미 없는 독립변수를 너무 많이 넣었다는 의미

과적합(overfitting , overestimation)

여전히 주의할 것은 우리는 거의 표본만을 대상으로 분석한다는 사실
만약 모델이 이번에 수집한 표본에서만 높은 R²을 보인다면?
- 이것은 단한번 우연히 이 표본에만 적합할 뿐
- 다른 표본에서는 절대 높은 R²을 확인할 수 없다는 것을 의미
- 이 표본에서만 우수함
- 따라서 이 모델은 큰의미 없음

과적합 판단 및 해결책

Cross-validation 을 적용 표본을 랜덤하게 둘로 나누어 한 표본에서 모델을 구축하고 난 뒤 다른 표본에서 모델의 적합성을 다시 테스트함

결론

R²는 애증의 대상..

R²는 모델이 데이터를 얼마나 잘 설명했는지 의미
R²가 높다는 건 모델의 설명력이 높으므로 나름 좋은 의미
그러나, 높은 R²가 모델의 정당성을 모두 해결해주지 않음

R²의 단점

R²를 높이는 것이 단일 목적인 경우 무한히 많은 독립변수를 추가
그러나 독립변수의 추가는 결국 비용이고 손해임(장ㅍ도 1손실)
그러므로 adj. R²를 사용 하는 것이 좋음

R²보다 중요한 것

모델에 사용된 독립변수의 논리성/이론적 근거

강의 자료 https://www.youtube.com/watch?v=dcMvKmkNn8w

[통계] 카이제곱 검정

Tue, 20 Feb 2024 05:05:19 GMT

1. 카이제곱?

t-test anova 같은 경우 연속형 종속변수, 명목척도(범주형) 독립변수 만약 둘다 명목 척도라면? t-test,m ANOVA 못씀 이때 사용하는 것이 교차분석

언제 카이제곱 검정을 할까?

변수가 명목척도 일 때, 자료의 값은 개수여야함.

카이제곱 검정의 목적

앞의 t-test나 ANOVA의 경우 둘/셋 이상의 집단의 같은지 다른지

카이제곱 검정의 목적은 변수가 한개인 경우 : 변수 내 그룹 간의 비율이 같은지 다른지 그룹이 단 2개인 경우에는 Binomial test 그룹이 여러개인 경우 카이제곱 검정

변수가 두개 인 경우 : 변수 사이의 연관성이 있는지 없는지 휴대폰 사용과 뇌암 인종과 특정 질병

카이제곱 값

예시 관찰빈도 : 총 고객데이터 기대 빈도 : 총 1,000명의 고객데이터가 있다면 남성/여성 고객 빈도는 500 / 500

2. 일원 카이제곱 One-way chi-square

변수가 1개라는 의미. 변수가 한개이기 때문에 칼럼 한개로 넣어야함. 당연히 명목척도

카이스퀘어 값이 278 확실이 큼. =확실히 유의하다 = 확실히 누군가는 다름

결론적으로

일월 카이제곱 검정의 유의성이 의미하는 것은 무엇인가 다르다 정도임 여기서 다르다는 것 또한 사전에 정해진 기대빈도와 다르다라는 의미 만약 기존의 연구/이론에 의해서 각 범주의 빈도가 다르게 나온다면 기대 빈도 자체를 바꿔서 테스트해야함.

그래서 카이제곱 검정을 적합도 검정이라고 부르기도 함.(Goodness of fit)

3. 이원 카이제곱 Two-way chi-square

변수가 2개라는 의미. 변수가 두개이기 때문에 칼럼도 두개로 나옴. 당연히 명목척도 가장 단순한 형태는 2X2 분석 이때 사용하는 것이 분할 표. = 데이터의 빈도만 단순화 표 작성

예제)

카이제곱 결과는 인과관계를 나타내지 않음. 연관성이 있다!

통계적 연관성을 찾을 수 있으나, 범주 간의 확률의 차이가 얼마나 큰지 알 수 없음 이러한 문제를 해결하기 위해 CI(confidence interval) 을 사용.

4. 카이제곱 심화

한계점

랜덤 샘플링
독립성
- 각 범주가 서로 배타적이어야 함
- 한 대상이 하나 이상의 범주에 들어갈 수 없음
각 셀의 기대빈도가 5 이상이어야 함.(셀 전체의 20%가 5보다 작으면 피셔)
- 경우에 따라 범주를 합쳐야함
- 범주를 합칠 수 없다면, 피셔의 정확검정 or likelihood ratio test(G-test)를 해야함
df가 1이라면?
- 일원 카이제곱 검정의 경우 범주가 2개 이거나, 이원 카이제곱 검정에서 2x2 인 경우, 비연속성의 조건부 확률을 연속성의 카이제곱분포에 적용함으로써 문제 발생
- 연속성 보정을 하는 Yate's correction 또는 x2 continuity correction을 사용해야함
- 만약 이원 카이제곱 검정의 2x2인 경우 x2 test 결과와 Yate's correction이 다를 경우 피셔의 정확검정을 사용해야함
상대 위험도 only 2x2 case
- 상대 위험도(relative risk) = 두 확률의 차이인 P1-P2 가 아니라 P1/P2
- 만약 상대 위험도가 1이라면 두사건이 발생활 확률은 동일
- 1보다 크다면 위험이 증가
- 1보다 작으면 위험이 감소
교차비/오즈비(odds ratio)
- 오즈란? Odds = p/1-p
- 확률이 1/2 인 경우 Odds는 1(같음)
- 확률이 3/4 인 경우 Odds는 3(3배 높다)
- 오즈비란? 두 오즈의 비율 결론 : 핸드폰 비사용자에 비해 3배 높다.
- 행렬을 바꿔도 오즈비는 거의 비슷하다.
- 그러나 단순 오즈나 상대 위험도는 변한다.
두 명목척도인 변수가 연관성이 있을 경우
- 얼마나 상관관계가 높은지 궁금할 때 상관계수를 구하는 방법
- Phi and Cremer's B
- 분할계수
- 만약 변수가 순위척도인 경우 연관성이 있다면
- 역시 얼마나 상관관계까 높은지 알고 싶다면 kendalls tau-b Gamma

5. 카이제곱 검정 실습

한국에서는 인구 통계변수와 내가 가진 변수를 논리없이 묶어서 실습하는 경향이 있음

R로 실행해보려했으나 오류로 나중에 해보기로함

[Git] branch / tag / readme

Sat, 17 Feb 2024 09:34:04 GMT

Git branch ?

특정 버전에서 새로운 Branch를 만들어서 작업하다가 병합할 수 있다.

git branch
git branch -r  #
git branch --all
git branch 
git push origin 
git branch --delete  ## local 만 지워짐
git push origin --delete  ## remote 에서도 삭제
git checkout

git branch 생성 후 이동 한번에 하기

git checkout -b  git

git branch 삭제 후 remote 에서도 삭제

git branch --delete dev2
여기서 아무것도 안한 빈파일이라 문제가 생김. 강제로 지우기 실행
git brnach -D dev2
그리고 remote에서도 지워주기
git push origin --delete  dev2

merge

현재 버전에 다른 버전을 병합하는 자겁 Branch를 병합하거나 Push Pull 할때도 일어난다.

git merge dev

conflict

merge 하다가 발생하는 문제들 git 이 auto merge 해준다

========= 를 기준으로 충돌 부분을 보여줌

해결 과정

1. 파일수정

2. git add

3. git commit

강제 commit > git commit -i

바로 push 하지말고 항상 pull 먼저하는 습관이 좋다!

tag 달기

git tag v0.2 
git push origin git git

tag 삭제

git tag --delete 
git push origin --delete v0.1

Readme?

포트폴리오 관리! 내가 어떤 프로젝트를 했는지

순서 * , + , -

[Git] PUSH / PULL

Fri, 16 Feb 2024 14:13:19 GMT

중요한건 origin 을 넣어서 등록 git remote add origin

git remote rename <기존 이름> <변경 이름> git remote set-url <기존 url> <변경 url> git remote set-url origin <변경 url> git remote remove origin

git remote -v 등록한 것들 보임

git remote show

pull

Remote Repository의 작업 내용을 Local Repo 에 동기화 하기 사실은 Fetch / Merge 과정

git pull origin main

push

Local repo > Remote repo 로 보냄

git push origin main

[Git] 3. 파일등록/수정/삭제

Fri, 16 Feb 2024 13:25:27 GMT

파일 만들기

touch test.txt

add -> staged 상태 만들기

git add

commit -> commit 보내기

git commit -m
m 메시지 필수
-a 모든거 무시
처음에는 무조건 add 한번이라도  해야 -a도 먹힘

git * add 는 조심하자! 쓰레기도 다올라감

파일 내용 바꿔쓰기

저장은 컨트롤 + D

cat > test.txt
내용 바꾸기
Hello, git!

cat >> test.txt
내용추가하기

파일 옮기기 mv

git mv test2 test1
git mv test2 src/

log 보기

git log
git log -2
git log --skip 2
git log -p -1 #diff=변경 내용 포함
git log --oneline #간단하게 보기
git log --author=
git log -S <검색어>
git log --grep <검색어> # 메시지 검색 코드

[Git] 2. 기본 사용

Fri, 16 Feb 2024 10:48:38 GMT

Git 저장소 생성

git init

폴더 안으로 들어가서 해야함(.git 이 생김)

Git 저장소 remote에서 복제

git clone

반복 로그인을 줄이기 위해 토큰을 넣어줘야함 local과 remote는 수시로 데이터를 주고 받음

git clone http://token ~@github.com/jjyinsight/test_project2.git

Git 저장소 삭제

rm -rf .git

Git 내부 파일 보기

cd .git
ls -all

에디터 없이 편집하기

vi .config

나가는 건 :q
수정없이 강제 나가가 :q!

현재 위치 알아보기 pwd

매우 중요 git status

Working directory 와 Staging Area 상태를 표시 보통 파일의 상태를 확인할 때 사용

git add

Working Directory에서 생성된 파일을 Staging Area (index)에 추가 Modified 상태의 파일을 Staged 로 변경

매우 중요 git commit -m

-a 옵션으로 Staged 상태를 생략가능 (Modified 상태에서 바로 Committed 상태로 변경)

git ignore

git rm

git 에서 관리하는 파일 삭제 Staging Area 의 파일을 삭제하고 Commit Working Directory에서도 삭제됨

git mv

git에서 파일이름 변경시 사용

[Git] 1. VCS(version control system)

Tue, 13 Feb 2024 13:00:04 GMT

언제 쓰는가?

데이터가 날라가거나, 협업하거나, 이전 파일이 필요하거나,

but, 소스코드 보안이 중요한 경우 사용을 기피함.

Centralized Version Control Systems

협업이 가능해짐 commit 하는 순간 배포되어 다수에게 버그 유발 가능 인터넷 안되면 작업 불가 자신만의 version history 가질 수 없음

CVS(rollback 안됨, 1980년대) -> SVN (2000년대 만들어짐, 요즘도 씀)

Distributed Version Control Systems

Commit 을 하더라도 개인저장소 내에 적용됨 원하는 순간에 배포(Push) 가능 오프라인 가능 자신만의 version histry 가짐

Git(Global Information Tracker) - SVN보다 빠름, 가장 많이 쓰임

Git 설정 범위

System config Global config Local config

git config user.name(jjyinsight) git config user.email(jjy.insight@gmail.com)

CRLF (줄바꿈 문자)

window \r \n mac \n 공유시 충돌일어날 수 있어서 설정해야함

git config core.autocrlf=true

CRLF 를 LF로 바꿔줌

주요 기본 설정들

git config core.editor

git config init.defaultBranch

Github에서 master > main으로 바꿔서 충돌일어 날 수 있음

git config --l

git config --l --show-origin #어디 범위까지 적용되었는지 보여줌 git config ex. git config core.autocrlf

[Sample project 3] BANK_demand forcasting and target marketing

Tue, 13 Feb 2024 08:31:45 GMT

sample project 의의

데이터 분석가도 머신러닝 딥러닝의 기초는 알아야 한다. 요건정의서가 매우 중요하다. 요건 정의서가 정확하지 않을 경우 진행하다가 방향을 잘못잡고 엎어지는 일이 많다. 분석가의 중요한 역량 중 하나 이 프로젝트를 진행했을 때 얻을 수 있는 효용 가치를 확인하는 사전 작업 매출 수요 예측 프로세스는 전처리를 이렇게하고 EDA를 하고 모델링을 이렇게 하는구나 이해하는 과정

프로젝트 순서

Process 01

데이터 살펴보기

고객마다 과거 진행한 캠페인(마케팅)에 대한 이력과, 현재 캠페인에서 수행된 데이터가 존재 duration은 예측시 제외 (※ 통화 시간에 따라 Y(가입여부) 결정되므로 제외) 데이터 명세 ⬇

데이터 전처리

수집된 데이터의 기본 정보들을 확인

(1) Data shape(형태) 확인

df.shape()

(2) Data type 확인

df.info() (3) Null값 확인 (※ 빈 값의 Data)
df.isnull().sum() (4) Outlier 확인 (※ 정상적인 범주를 벗어난 Data)
```
pd.DataFrame(df.decribe()) 좋다
```
Duration 만 max값 및 표준편차가 이상적으로 컸다.

정기 예금 가입현황

df['y'].value_counts()

no 36548 yes 4640 4640 / (36548+4640) = 11%

범주형 변수 파악

# ▶ numerical, categorical data 나누기
numerical_list=[]
categorical_list=[]

for i in df.columns :
  if df[i].dtype == 'O' :
    categorical_list.append(i)
  else :
    numerical_list.append(i)

print("numerical_list :", numerical_list)
print("categorical_list :", categorical_list)

범주형과 수치형으로 column list를 생성

# ▶ numerical, categorical data 나누기
numerical_list=[]
categorical_list=[]

for i in df.columns :
  if df[i].dtype == 'O' :
    categorical_list.append(i)
  else :
    numerical_list.append(i)

print("numerical_list :", numerical_list)
print("categorical_list :", categorical_list)

numerical_list : ['age', 'duration', 'campaign', 'pdays', 'previous', 'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed'] categorical_list : ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'day_of_week', 'poutcome', 'y']

[직관 해석] catplot을 활용하여 Categorical 변수의 구성형태와 정기예금 가입 상황을 한눈에 살펴봄

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use(['dark_background'])

for i in categorical_list :
  if i != 'y':
    sns.catplot(x=i, hue="y", kind="count",palette="pastel", edgecolor=".6",data=df);
    plt.gcf().set_size_inches(25, 3)
    plt.xticks(fontsize=16)

실행값

Process 02 Rule base 기반 상품 가입 예측

현업에서 경험적 지식에서 얻을 수 있는 노하우 기반 "이런 사람들의 가입률이 높겠구나" 하는 노하우, 데이터로 검증 후 적용

import numpy as np
df['y'] = np.where(df['y']=='yes', 1, 0)
df_job = df.groupby('job')['y'].agg(['count', 'sum'])
df_job['ratio'] = round((df_job['sum'] / df_job['count'])*100, 2)
df_job.sort_values(by=['ratio'], ascending = False)

현재 가입자['Y']를 값으로 하는 조건(여기서는 직관에 의해 JOB으로 설정)의 영향도를 확인해봄

고객 Job(직업)에 따른 정기예금 가입률 비교

df_job=pd.DataFrame(df['y'].groupby(df['job']).value_counts())
df_job.columns=['cnt']
df_job=df_job.reset_index()
df_job.head(5)

pivot table을 활용하여 하나의 row로 변환

df_job = pd.pivot_table(df_job,        # 피벗할 데이터프레임
                     index = 'job',    # 행 위치에 들어갈 열
                     columns = 'y',    # 열 위치에 들어갈 열
                     values = 'cnt')   # 데이터로 사용할 열

df_job = df_job.reset_index()
df_job.head(5)

# 가입률(sign_ratio) 추가
df_job['sign_ratio'] =   round((df_job['yes'] / (df_job['yes'] + df_job['no'])) * 100,1)
df_job.sort_values(by=['sign_ratio'], ascending =False)

Student(학생)의 가입률이 가장 높고, 뒤이어 은퇴 고객의 가입률이 높음 (※ 평균가입률 11%)

내림차순 정렬해봄

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use(['dark_background'])
order = df_job.groupby('job')['sign_ratio'].sum().sort_values(ascending =False).index

avg_ratio = round((df_job['yes'].sum() / (df_job['yes'].sum() + df_job['no'].sum())) * 100,1)
print(avg_ratio)

g = sns.catplot(x="job", y="sign_ratio", kind='bar', palette="ch:.25", data=df_job, order=order);
g.ax.axhline(11.3, ls='--', color='r', label = 'average')

plt.rc('xtick', labelsize=10)
plt.gcf().set_size_inches(25, 5)
g.ax.legend()
plt.show()

Categorical(범주형) 변수에 대해서 가입률 비교를 모두 진행

▶ Feature별 가입률이 가장 높은 Row에 대해서만 출력


for i in categorical_list :
  # 1단계
  df_job=pd.DataFrame(df['y'].groupby(df[i]).value_counts())
  df_job.columns=['cnt']
  df_job=df_job.reset_index()

  # 2단계
  df_job = pd.pivot_table(df_job,        # 피벗할 데이터프레임
                      index = i,         # 행 위치에 들어갈 열
                      columns = 'y',     # 열 위치에 들어갈 열
                      values = 'cnt')    # 데이터로 사용할 열

  # 3단계
  df_job = df_job.reset_index()

  # 4단계
  df_job['sign_ratio'] =   round((df_job['yes'] / (df_job['yes'] + df_job['no'])) * 100,1)

  df_job=df_job.sort_values(by=['sign_ratio'], ascending=False)

  print(df_job.iloc[0:1,:])
  print('')

▶ 상위에서 평균 가입률(11%) 대비 높았던 조건을 OR조건으로 새로운 Rule(규칙)을 정의

df_rule = df[ (df['job'] == 'student') |
# (df['marital'] == 'unknown') |
# (df['education'] == 'illiterate') |
# (df['default'] == 'no') |
# (df['housing'] == 'yes') |
# (df['loan'] == 'no') |
(df['contact'] == 'cellular') |
(df['month'] == 'mar') |
# (df['day_of_week'] == 'thu') |
(df['poutcome'] == 'success') ]
a= df_rule['y'].value_counts()['no']
b= df_rule['y'].value_counts()['yes']
b/(a+b)

▶ Rule에 의한 타겟 고객군을 추출 했을 때 평균 14% 가입률을 보임 14.9448%

Process 03 ML활용 상품 가입 예측

모델링을 수행하기 위해 Feature와 예측값인 Y로 데이터를 나눔 학습과 예측을 위한 train/test set 분할 But, Train/Test set에는 문자(str) 형태 데이터를 input 할 수 없음 Model 에서 이해할 수 있는 1,0으로 변경 > encoding

import numpy as np
df['y']=np.where(df['y']=='yes', 1, 0)

모델링 데이터 전처리

▶ 모델링을 학습하기 위한 Feature(X)와 Y데이터를 구분하는 단계

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

X=df.drop(['duration','y'], axis=1)
Y=df['y']

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, stratify=Y)

print(x_train.shape)
print(y_train.shape)

print(x_test.shape)
print(y_test.shape)

결과값 (28831, 19) (28831,) (12357, 19) (12357,)

for i in categorical_list :
  print(i, df[i].nunique())

범주형 변수들의 문자 -> 숫자화

▶ Categorical(범주형) 변수는 One-hot-encoding or Label-encoding을 통해 숫자형 변수로 변경해야함

▶ One-hot-encoding은 차원이 많은 변수에는 불리, Label-encoding은 회귀관련 알고리즘에서는 사용 어려움.(※Tree 계열 알고리즘에서는 사용 가능)

from sklearn.preprocessing import LabelEncoder

for col in categorical_list:
    le = LabelEncoder()
    x_train[col] = le.fit_transform(x_train[col])
    x_test[col] = le.transform(x_test[col])

x_train[categorical_list].head()

테스트 데이터를 변환할 때는 학습 데이터에서 학습한 인코더를 그대로 사용해야 한다는 것입니다. 따라서 x_test에는 fit_transform 대신 transform을 사용하였습니다.

모델 학습 및 평가

▶ 학습

from sklearn.metrics import classification_report rfc = RandomForestClassifier(random_state=123456) rfc.fit(x_train, y_train)

▶ 예측

y_pred_train = rfc.predict(x_train) y_pred_test = rfc.predict(x_test)

print(classification_report(y_train, y_pred_train)) print(classification_report(y_test, y_pred_test))

재현율이 30% test에 적합하지 않은 것으로 판단된다. 학습데이터에 과적합되었다 -> 그래서 초매개변수 수정

Hyper parameter 튜닝

모델 성능을 올리기 위한 옵션 조절

▶ RandomForestClassifier 객체 생성 후 GridSearchCV 수행

from sklearn.model_selection import GridSearchCV

params = { 'n_estimators' : [400],
           'max_depth' : [6, 8, 10]
            }


rf_clf = RandomForestClassifier(random_state = 12345, n_jobs = -1)
grid_cv = GridSearchCV(rf_clf, param_grid = params, cv = 3, n_jobs = -1, scoring='precision')
grid_cv.fit(x_train, y_train)

print('최적 하이퍼 파라미터: ', grid_cv.best_params_)
print('최고 예측 정확도: {:.4f}'.format(grid_cv.best_score_))

최적 하이퍼 파라미터: {'max_depth': 6, 'n_estimators': 500} 최고 예측 정확도: 0.7025

▶ Best score 기준 재학습

rfc = RandomForestClassifier(n_estimators=400, max_depth=6, random_state = 123456)
rfc.fit(x_train, y_train)

y_pred_train = rfc.predict(x_train)
y_pred_test = rfc.predict(x_test)

print(classification_report(y_train, y_pred_train))
print(classification_report(y_test, y_pred_test))

f1 - score가 너무 떨어졌는데, test set과 유사한 수준으로 맞추는게 더 의미가 있다고함.

중요 변수 파악

Feature IMP 분석을 통한 중요변수 파악

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use(['dark_background'])

ftr_importances_values = rfc.feature_importances_
ftr_importances = pd.Series(ftr_importances_values, index = x_train.columns)
ftr_top20 = ftr_importances.sort_values(ascending=False)[:20]

plt.figure(figsize=(8,6))
plt.title('Feature Importances')
sns.barplot(x=ftr_top20, y=ftr_top20.index)
plt.show()

# ▶ 1위 변수 탐색
sns.distplot(df['age']);   ## nr.employer 대신 넣어봄
plt.gcf().set_size_inches(5 ,5)


# ▶ 구간화  <<< age로 진행함
import numpy as np
# df['nr.employed_gp'] = np.where (df['nr.employed'] <= 5000, '5000 이하',
#                            np.where(df['nr.employed'] <= 5200, '5000~5200', '5200 초과'))

df['age'] = np.where(df['age'] <= 19, '10대',
                     np.where(df['age'] <= 29, '20대',
                     np.where(df['age'] <= 39, '30대',
                     np.where(df['age'] <= 49, '40대',
                     np.where(df['age'] <= 59, '50대',
                     np.where(df['age'] <= 69, '60대',
                     np.where(df['age'] <= 79, '70대', '80대 이상')))))))

# # ▶ 평가
# df_gp = df.groupby('nr.employed_gp')['y'].agg(['count', 'sum'])
# df_gp['ratio'] = round((df_gp['sum'] / df_gp['count']) * 100, 1)
# df_gp

df_gp = df.groupby('age')['y'].agg(['count', 'sum'])
df_gp['ratio'] = round((df_gp['sum'] / df_gp['count']) * 100, 1)
df_gp

저장 및 불러오기

import pickle
# 모델 저장
saved_model = pickle.dumps(rfc)

# 모델 Read
clf_from_pickle = pickle.loads(saved_model)

결론

유의미한 결과를 얻기 어려운 분석이라고 판단된다. ~~nr.employer 는 판매직원 은행의 직원수라고 추정됨.~~ =기업, 조직, 또는 경제 전체의 직원 수를 분기별로 나타내는 수치 지표를 의미 고객 정보보다 외부 변수(nr.number, 유리보 3개월금리, 실업율, cpi 등) 에 영향을 많이 받는 것 같음. 이 분석 결과로는 고객 정보에 대한 내용은 없고 "nr.number가 높은 시기에 마케팅을 해야한다." 정도의 결과가 나오는 것 같다. 그래서 시작부터 외부 변수와 고객 변수를 나눠서 수행해야했지 않나 생각 현재는 모든 변수를 하나로 묶어서 진행한 것 같은데, 아래와 같이 두가지 분석 목표를 가지고 설계하는 것은 어떤지 궁금해졌다.

현 분석 목표 : 모든 변수를 포함하여 고객 가입률에 영향을 미치는 변수 찾기

변경 1. 분석 목표 : 가입할 가능성이 높은 고객의 성향 찾기 고객에 대한 변수만을 모아서 수행 poutcome, month, age, job과 같은 고객에게 매칭되는 정보로만 진행

변경 2. 분석 목표 : 외부 변수로 인한 가입률 높은 "시기" 추출 + 이 시기에 가입률 높은 "고객 변수" 추출

멘토님은 변경 1안은 큰 의미 없어 보이고, 현 목표와 변경 2안을 진행해서 더 좋은 분석을 뽑아 보라고 함

[통계] One-way ANOVA (3) F-value와 사후검정

Sat, 10 Feb 2024 09:04:09 GMT

유의하다는 것은 정확히 무엇인가?

적어도 한 그룹의 평균은 다르다(NOT ALL means are equal) 셋 중 한 그룹의 평균이 다르다는 것 뿐이다.

사후검정의 필요성

One-way ANOVA 결과만으로는 어떤 그룹이 어떻게 다른지 알 수 없음 그러므로, 유의하다는 결과가 나오면 자동으로 사후검정을 해야함

사후검정(Post Hoc Test)이란?

일종의 여러 다발의 t-test 그러나 1종 오류를 발생시키지 않음 각 그룹의 평균이 다른 그룹의 평균과 같은지 다른지 개별 비교 가능

사후검정의 종류

Fisher's LSD / Bonferroni / Scheffe / Turkey / Duncan

[R] One-way ANOVA 실습

Sat, 10 Feb 2024 08:41:26 GMT

전처리

독립변수가 열이 나뉘어져 있다면 전처리 작업을 해야함

예제1

ind = c( rep("A반", 30),rep("B반", 30),rep("C반", 30))
dep = c( dt[,2],dt[,3],dt[,4])
dt_f = data.frame(ind, dep)

### boxplot
boxplot(dep~ind, dt_F)

예제2 이미 독립변수 열이 합쳐져 있음

dt = as.data.frame(Telco)
dt$PaymentMethod <- ordered(dt$PaymentMethod) ## 범주화 하기
dt <- na.omit(dt) ## 결측치 제거

독립성 확인

예제 1

각 반이 독립되어 있으므로 독립

예제 2

각 결제 방식에 따라 나뉘어 있으므로 독립

정규성 확인

예제1

각 반이 30명 이상이 되기 때문에 정규성이 된다고 봄

예제2

table(dt$PaymentMethod)
Bank transfer (automatic)   Credit card (automatic)          Electronic check 
                     1542                      1521                      2365 
             Mailed check 
                     1604

각 표본이 1000개가 넘으므로 정규성이 있다고 봄

등분산 확인

levene test

레벤 테스트(Levene's Test)는 통계학에서 분산의 동질성을 검정하는 방법입니다. 동질성이란 두 개 이상의 모집단에서 추출된 표본들이 공통적으로 가지는 분산(변동성)이 같음을 의미합니다.

레벤 테스트는 특히 분산 분석(ANOVA)과 같은 통계적 분석을 수행하기 전에, 해당 분석의 전제 조건 중 하나인 분산의 동질성을 만족하는지 검정하기 위해 사용됩니다.

레벤 테스트의 귀무 가설은 "모든 표본 그룹들의 분산이 동일하다"이며, 대립 가설은 "적어도 하나의 그룹의 분산이 다른 그룹과 다르다"입니다.

테스트 결과 p-value가 특정 유의 수준(예: 0.05)보다 낮으면, 귀무 가설을 기각하고 분산이 동질하지 않음을 결론지을 수 있습니다.

예제 1

library(lawstat) ##levene.test

levene.test(dt_f$dep, dt_f$ind, location ='mean')

> p-value = 0.8149 -> 등분산성이 보장된다.

예제 2

levene.test(dt$TotalCharges, dt$PaymentMethod, location ='mean')

> data:  dt$TotalCharges
 Test Statistic = 295.05, p-value < 2.2e-16     
 등분산성이 보장되지 않는다

CHAT GPT said

Levene 검정에서 p-value가 매우 작은 값을 갖는다면, 그것은 귀무가설(모든 그룹의 분산이 동일하다)을 기각한다는 것을 의미합니다. 즉, 그룹 간의 분산이 동일하지 않다는 것을 나타냅니다. 이는 등분산성 가정이 충족되지 않았음을 나타냅니다. 그러나 이것이 반드시 ANOVA 분석을 할 수 없다는 것을 의미하지는 않습니다. 분산이 동일하지 않은 경우에도 ANOVA를 사용할 수 있지만, 이 경우에는 조금더 견고한 버전의 ANOVA를 사용해야 합니다. 이를 위해 Welch's ANOVA 또는 Brown-Forsythe test 등을 사용할 수 있습니다. 또는, 데이터를 변환하여 분산을 동일하게 만드는 방법도 있습니다. 로그 변환, 제곱근 변환 등이 이에 해당합니다. 따라서, Levene 검정에서 등분산성이 충족되지 않더라도 다른 방법을 통해 분석을 계속 진행할 수 있습니다.

분산분석

예제 1

aov 패키지 이용 aov(formula , data = , projuections = , qr ...)

result = aov(dep~ind,dt_F)
summary(result)  ## 위의 aov 분석에는 p-value 가 안나와서 하는 것
p-value = 4.62e-15

p-value 가 0.05 보다 작아서 귀무가설이 기각된다.(유의미하다=사후검정 필요)

예제 2

기본적인 aov 와 등분산성이 없을 때 사용하는 Welch's ANOVA - oneway.test()를 이용

result = aov(dt$TotalCharges~dt$PaymentMethod, dt)
summary(result)

                   Df    Sum Sq   Mean Sq F value Pr(>F)    
dt$PaymentMethod    3 4.431e+09 1.477e+09   327.5 <2e-16 ***
Residuals        7028 3.170e+10 4.510e+06  


result <- oneway.test(TotalCharges ~ PaymentMethod, data = dt)
print(result)

data:  TotalCharges and PaymentMethod
F = 437.07, num df = 3.0, denom df = 3637.2, p-value < 2.2e-16

결과는 둘다 p-value 가 0.05 보다 작아서 귀무가설이 기각된다.(유의미하다=사후검정 필요)

정규분포를 따르는 경우 사후검정의 분류

예제 1(tukey 투키 검정)

등분산 + 표본크기 동일 TukeyHSD(x) x=aov result

A반과 B반, A반과 C반의 유의미한 차이가 존재 -> 이것이 귀무가설이 기각된 이유 B반과 C반은 차이가 없다.

예제 2(games-howell 검정)

# 패키지 로드
library(PMCMRplus)
# Games-Howell 검정 실행
result <- gamesHowellTest(TotalCharges ~ PaymentMethod, data = dt)
print(result)

                        Bank transfer (automatic) Credit card (automatic) Electronic check
Credit card (automatic) 1                         -                       -               
Electronic check        < 2e-16                   < 2e-16                 -               
Mailed check            < 2e-16                   < 2e-16                 2.3e-08         

P value adjustment method: none
alternative hypothesis: two.sided

Estimated marginal means 를 보기 위해 패키지를 찾아봤다

# 패키지 로드
library(emmeans)
library(ggplot2)

# emmeans 계산

emmeans_results <- emmeans(result1, "PaymentMethod")

# emmeans 결과를 데이터프레임으로 변환
emmeans_df <- as.data.frame(emmeans_results)

# ggplot2를 사용하여 그래프 출력
ggplot(emmeans_df, aes(x=PaymentMethod, y=emmean)) +
  geom_point() +
  geom_errorbar(aes(ymin = lower.CL, ymax = upper.CL), width = 0.2) +
  theme_minimal() +
  labs(x = "Payment Method", y = "Estimated Marginal Mean", title = "EMM Plot")

결과

credit car - bank transfer는 차이가 없다. Electronic check - Bank transfer , -Credit card 는 차이가 있다. Mailed check - Bank transfer, - Credit card, - Electronic check 는 차이가 있다.

- 참고 링크 https://www.youtube.com/watch?v=2ZgdukOPnyU&list=PLalb9l0_6WArk6oZej3KzduU8TRQA9gcV&index=8 https://www.youtube.com/watch?v=fym5J02BtnA

[통계] One-way ANOVA (2) F-value

Sat, 10 Feb 2024 06:51:22 GMT

F-value ?

F값이란 두개의 분산의 비율이다. 그래서 우리는 이것을 분산 분석이라고 부른다.

두개의 분산으로 평균 값이 같은지 다른지를 어떻게 알 수 있을까?

[Between Variance] 첫번째 분산 : GM(전체 평균)으로부터 각 그룹까지의 분산

전체 평균으로부터 각 그룹의 평균값이 멀리 떨어져있다

따라서, 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다를 수 있다!

문제는 이 Between Variance가 얼마나 커야 통계적으로 큰걸까? > 우연히 클 가능성은 확률적으로 얼마나 될까?

[Within Variance] 두번째 분산 : 그룹내의 분산

t-test의 t-value 계산시의 분모(표준편차)와 같은 의미

무의미한 변화의 정도(randomly)