Jaeyoung.log

[Pandas] Series, DataFrame 이해하기 (2)

Fri, 07 Oct 2022 08:41:28 GMT

Series : 1차원 자료구조
- 1차원 리스트와 유사하지만 Series는 index에 이름을 부여할 수 있음
DataFrame : 2차원 자료구조
- 행(row)와 열(column) 으로 이루어 짐
Series

📍series와 list의 차이

(i) 연산
```
nums = [1, 5, 7, 9, 11]
s_nums = pd.Series(data=nums)
s_nums * 10
>>>> 
0  10
1  50
2  70
3  90
4  110
dtype: int64
```
nums * 10 를 하면, 안에 있는 요소들이 10번 반복됨

nums + 3 를 하면, 아래와 같은 오류 발생 TypeError: can only concatenate list (not "int") to list

(ii) 인덱스

bunsick_price = [3000, 1500, 4000, 2000, 3500]
bunsick_list = ["떡볶이", "어묵", "순대", "닭강정", "우동"]
bunsick = pd.Series(data=bunsick_price, index=bunsick_list)
bunsick
>>>>
떡볶이    3000
어묵     1500
순대     4000
닭강정    2000
우동     3500
dtype: int64

print(bunsick[0])
print(bunsick["닭강정"])
>>>>
3000
2000

인덱스 값에 이름을 부여할 수 있다. dictionary 와 유사하게 값과 이에 대응되는 인덱스 값으로 서로 연결되어 있음

(iii) index와 value

bunsick.index
>>>> Index(['떡볶이', '어묵', '순대', '닭강정', '우동'], dtype='object')
bunsick.values
>>>> array([3000, 1500, 4000, 2000, 3500])

각 데이터 타입은 pandas.core.indexes.base.Index, numpy.ndarray 이다.

DataFrame

📍데이터 선택 방법

loc : 라벨값 기반의 2차원 인덱싱
iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
at : 라벨값 기반의 2차원 인덱싱 (하나의 스칼라 값만 찾음)
### 📍데이터 추가
Column 추가 : df['column명'] = 추가할 데이터
Index 추가 : df.loc['index명'] = 추가할 데이터
### 📍데이터 삭제
drop() : 데이터 삭제 함수
대표적인 매개 변수
- axis = 0 or 1 (행:0, 열:1 을 기준으로 삭제)
- index : 특정 index 에 대해 데이터 삭제
- columns : 특정 column 에 대해 데이터 삭제
- inplace = True or False : 원본 데이터를 수정할 지, 말 지에 대해 선택
  ### 📍누락 데이터 처리 : Null, NaN을 처리할 때 사용하는 함수
dropna() : 누락된 데이터가 있는 축 제외 (매개변수 : axis, how, thresh, inplace 등)
fillna() : 누락된 데이터를 특정 값으로 대체 (ex: fillna(0))
isnull() : Null 값인지 확인 (True, False 로 반환)
notnull() : Null 값이 아닌지 확인 (True, False로 반환)
### 📍기술 통계 함수 > * ```sum``` : 합
mean : 평균
count : Null 값을 제외한 데이터의 수를 반환
argmin, argmax : 최소, 최대를 갖고 있는 데이터의 위치를 반환
quantile : 0부터 1 까지의 분위수를 계산
describe : 시리즈나 데이터프레임의 각 칼럼에 대한 요약 통계를 계산
var / std : 표준 분산 / 표준 정규 분산
cumsum / cumprod : 누적 합 / 누적 곱
pct_change : 퍼센트 변화율

Reference

[Pandas] Series, DataFrame 이해하기 (1)

Thu, 06 Oct 2022 12:19:54 GMT

Series : 1차원 자료구조
- 1차원 리스트와 유사하지만 Series는 index에 이름을 부여할 수 있음
DataFrame : 2차원 자료구조
- 행(row)와 열(column) 으로 이루어 짐

1. Series

series 만드는 방법

: dictionary, list, np.array 를 pd.Series로 타입 변환 가능

age = [10, 20, 30]
pd.Series(data=age)

>>>> 
0  10
1  20
2  30
dtype: int64

: index 이름 부여

price = [1200, 2000, 3000]
pd.Series(data=price, index=['떡볶이', '라면', '우동'])

>>>> 
떡볶이  1200
라면  2000
우동  3000
dtype: int64

=> dtype은 index의 데이터 타입이 아님!

2. DataFrame

데이터프레임 만드는 방법

pd.DataFrame(data, index=)

데이터프레임 속성값

index : index 반환
columns : 컬럼 명 반환
values : 각 값들을 반환
dtypes : 컬럼 데이터 타입을 반환
T : 데이터프레임 행, 열 치환

데이터프레임 정렬

sort_index() : 행으로 정렬(axis=0), 열로 정렬(axis=1)
sort_values() : 데이터 값을 기준으로 정렬
오름차순 : ascending=True, 내림차순 : ascending=False
- **MultiIndex** 정렬할 때, 값들이 비교하기에 적절하지 않은 상태라면? 예를 들어, 1, 3, "4" | A c D e 등의 형태를 정렬해야한다면? => **lambda를 이용해 같은 형태로 변환 후 정렬하기** ```python df = pd.DataFrame({"A": [5, 1, 3, 4]}, index=['b', 'A', 'E', 'd']) df.sort_index(key=lambda x: x.str.lower()) >>>> a A 1 b 5 d 4 E 3 ```

Reference

[Python] 백준(Baekjoon) 문제풀이 - 조건문(2)

Fri, 30 Sep 2022 15:01:20 GMT

📝 문제

문제는 Baekjoon에 등록되어 있음
문제는 조건문(if문)과 관련 됨

📍 14681번 문제 - 사분면 고르기

문제 흔한 수학 문제 중 하나는 주어진 점이 어느 사분면에 속하는지 알아내는 것이다. 사분면은 아래 그림처럼 1부터 4까지 번호를 갖는다. "Quadrant n"은 "제n사분면"이라는 뜻이다.

예를 들어, 좌표가 (12, 5)인 점 A는 x좌표와 y좌표가 모두 양수이므로 제1사분면에 속한다. 점 B는 x좌표가 음수이고 y좌표가 양수이므로 제2사분면에 속한다.
점의 좌표를 입력받아 그 점이 어느 사분면에 속하는지 알아내는 프로그램을 작성하시오. 단, x좌표와 y좌표는 모두 양수나 음수라고 가정한다.
- 입력 : 첫 줄에는 정수 x가 주어진다. (−1000 ≤ x ≤ 1000; x ≠ 0) 다음 줄에는 정수 y가 주어진다. (−1000 ≤ y ≤ 1000; y ≠ 0)
- *출력 * : 점 (x, y)의 사분면 번호(1, 2, 3, 4 중 하나)를 출력한다.

💡 문제 해결법 구조화

💡 문제 풀이

# 입력 값을 받고, int로 dtype 변경
x = int(input("x : "))
y = int(input("y : "))

# 정수 x, y 입력 제한
if (-10000 <= x <= 10000 and x != 0) and (-10000 <= y <= 10000 and y != 0):   

    # 사분면 출력 범위 
    if x > 0 and y > 0:
        print(1)
    elif x < 0 and y > 0:
        print(2)
    elif x < 0 and y < 0:
        print(3)
    else:
        print(4)

# 친절하게 입력값이 이상하다는 것을 알려주기 :)
else:
    print("범위에서 벗어난 값을 작성했습니다.")

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

범위에서 벗어난 값을 입력하면 알려 줌
2. 사분면 출력 확인
기대한 값이 잘 반환되는 것을 확인 함

문제 14681번. 사분면 고르기

📍 2884번 문제 - 알람 시계

문제 상근이는 매일 아침 알람을 듣고 일어난다. 알람을 듣고 바로 일어나면 다행이겠지만, 항상 조금만 더 자려는 마음 때문에 매일 학교를 지각하고 있다.
상근이는 모든 방법을 동원해보았지만, 조금만 더 자려는 마음은 그 어떤 것도 없앨 수가 없었다.
이런 상근이를 불쌍하게 보던, 창영이는 자신이 사용하는 방법을 추천해 주었다.
바로 "45분 일찍 알람 설정하기"이다.
이 방법은 단순하다. 원래 설정되어 있는 알람을 45분 앞서는 시간으로 바꾸는 것이다. 어차피 알람 소리를 들으면, 알람을 끄고 조금 더 잘 것이기 때문이다. 이 방법을 사용하면, 매일 아침 더 잤다는 기분을 느낄 수 있고, 학교도 지각하지 않게 된다.
현재 상근이가 설정한 알람 시각이 주어졌을 때, 창영이의 방법을 사용한다면, 이를 언제로 고쳐야 하는지 구하는 프로그램을 작성하시오.

입력
- 첫째 줄에 두 정수 H와 M이 주어진다. (0 ≤ H ≤ 23, 0 ≤ M ≤ 59) 그리고 이것은 현재 상근이가 설정한 놓은 알람 시간 H시 M분을 의미한다.
- 입력 시간은 24시간 표현을 사용한다. 24시간 표현에서 하루의 시작은 0:0(자정)이고, 끝은 23:59(다음날 자정 1분 전)이다. 시간을 나타낼 때, 불필요한 0은 사용하지 않는다.
출력 : 첫째 줄에 상근이가 창영이의 방법을 사용할 때, 설정해야 하는 알람 시간을 출력한다. (입력과 같은 형태로 출력하면 된다.)

💡 문제 해결법 구조화

💡 문제 풀이

# h, m 문자열 분리, dtype 변경
h, m = map(int, input().split())

# h, m 범위 제한
if (0 <= h <= 24) and (0 <= m <= 60):

    # m 45 미만, 45 이상으로 나눔
    if m < 45:
        # h = 0 또는 이상으로 나눔
        if h == 0:
            print(f"{h + 23} {m + 15}")
        else:
            print(f"{h - 1} {m + 15}")        
    else:
        print(f"{h} {m - 45}")

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

범위에서 벗어난 값을 입력하면 출력값 X
2. 알람 시계 설정값 출력
기대한 값이 잘 반환되는 것을 확인 함

문제 2884번. 알람 시계

🧨 어려웠던 내용

알람시계 문제를 풀 때, 45분 전 값을 반환하기 위해 어떻게 코드를 작성하면 좋을까 고민을 많이 했었다. 문제 풀이를 위해 풀이 구조를 그려보았을 때, 출력 시간 = 입력 시간 - 1 + 24 와 출력 분 = 입력 분 - 45 + 60 을 옮기는 데엔 고민을 조금 했었다.

그래도 아직까진 어려워서 못풀겠다 싶은 것은 없다!

🤔 느낀점

내 핸드폰 속 알람도 저런 기능이 있었으면 좋겠다. 일어나야 하는 시간을 설정하면 45분 전부터 5~10분 단위로 자동 세팅해주는 기능!!! 다음에 조금씩 만들어봐야겠다 :)

[Python] EDA - 수치형 데이터 (2)

Thu, 29 Sep 2022 13:22:48 GMT

🎯목표 설정

seaborn의 mpg 데이터셋을 이용하여 수치형 변수에 대해 시각화
히스토그램, displot, kdeplot, rugplot, boxplot, violinplot 그려보기
스케일링에 대해 이해하기

👩🏻‍💻이해 과정

목차

import pandas, numpy, seaborn, matplotlib.pyplot
load_dataset
seaborn 시각화

1. 데이터 로드

💡 Library

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

💡 Dataset : mpg(mile per galon)

# 앤스컴 데이터셋 불러오기
df = sns.load_dataset("mpg")

# 데이터셋 구조 파악
df.shape
>>> (398, 9)

mpg : 행 398, 열 9 로 구성된 데이터셋

2. 데이터 구조

데이터가 무엇으로 구성되어있는지 확인하기
데이터 type 확인하기

1) 데이터 형태 확인하기

💡 데이터셋 일부만 가져오기

# 상위 5개 데이터만 불러오기
df.head()

# 하위 5개 데이터만 불러오기
df.tail()

열 : mpg, cylinders, displacement, horsepower, weight, acceleration, model_year, origin, name

2) 데이터 정보 확인하기

💡 데이터셋 요약

# 데이터 기본 정보 요약
df.info()

데이터셋은 총 398개의 데이터를 가지고 있다.
origin, name은 type이 object 이다.
데이터 타입, 결측치의 유무, 메모리 사용량 등의 정보를 알 수 있다.

💡 데이터셋 결측치

# 데이터 결측치를 True, False로 확인
df.isnull()

🔥 결측치 시각화 해보기

plt.figure(figsize=(12, 8))
sns.heatmap(df.isnull(), cmap="Blues")

그래프에서 y축(왼) : 데이터 인덱스 번호 / x축 : 컬럼명 을 나타낸다.
mpg 데이터셋에서 결측치는 horsepower에서 총 6개 존재한다.

💡 데이터셋 기술통계

# 데이터 기술 통계값
df.describe()

💡 데이터셋 유일값

# 데이터 unique 개수
df.nunique()

cylinders, model_year, origin 의 유일값을 보면 전체 데이터 개수(398개)에 비해 매우 적다.
- 수치형 변수이지만 범주형 변수에 가깝다고 생각할 수 있다.

3. 데이터 시각화

1개 변수에 대한 그래프, 히스토그램, displot, kdeplot, rugplot, boxplot, violinplot 이전 복습시간에 그려보았다.
- 참고 : [Python] EDA - 수치형 데이터 (1)
2개 이상의 변수에 대한 그래프 Scatterplot, regplot, residplot, lmplot, jointplot, pairplot, lineplot, heatmap 를 그려 변수들 간의 상관 관계를 알아본다.

📍Scatterplot 시각화

Scatterplot : 두 개 변수 간의 관계를 나타내는 그래프 방법

# 전체 변수에 대한 관계
sns.scatterplot(data=df)

# 연비와 마력의 관계
sns.scatterplot(data=df, x="mpg", y="horsepower")

전체 변수에 대해 Scatterplot을 그려보니, 범위가 준구난방이라서 그래프가 어떤 의미를 담고있는지 알기 어려움
비교해볼 변수를 x, y로 지정하여 그리면 어떤 관계를 가지는지 알 수 있음
그래프 해석
- 연비와 마력은 반비례 관계를 가짐
- 특히, 연비가 10~20 사이에서 급격하게 마력이 떨어짐

📍회귀, 잔차 시각화

Regplot(회귀) : scatterplot에 회귀선이 추가 된 그래프
Residplot(잔차) : 회귀선을 y=0인 축으로 Regplot을 옮긴 그래프
회귀와 잔차 그래프를 그릴 때, x, y값에 컬럼을 기입해줘야 실행 됨

# 1) regplot 으로 회귀선 그리기
sns.regplot(data=df, x="mpg", y="horsepower")

# 2) 회귀선의 잔차를 시각화 하기
sns.residplot(data=df, x="mpg", y="horsepower")

💡회귀 분석을 하는 이유?

관찰이나 실험으로 얻은 샘플자료(적은 수의 자료)를 분석하고 설명하기 위해서는 그 자료를 잘 표현할 수 있는 '방정식'을 예측해야 한다.
자료를 가장 잘 설명하는 방정식이란, 원래 자료와의 오차(error)를 가장 적게 만든 식 입니다.
출처 : 회귀 분석을 하는 이유(feat.회귀선, 회귀 계수)

📍Lmplot 시각화

Lmplot : 범주값에 따라 색상을 다르게 할 수 있으며 subplot을 그릴 수 있다.

# 1) 회귀 시각화 그래프에 origin으로 색상 부여
sns.lmplot(data=df, x="mpg", y="horsepower", hue="origin")

# 2) 그래프 나눠서 보기 - subplot 생성
sns.lmplot(data=df, x="mpg", y="horsepower", hue="origin", col="origin")

x=mpg, y=horsepower에 대한 변수를 origin별로 색상을 부여하여 lmplot을 그려봄
그래프 해석
- 연비가 10~20 사이에서 급격하게 마력이 떨어지는데 usa 제품임
- japan, europe 에서 생산된 것은 비교적 연비와 마력 관계가 완만해 보임

📍Jointplot 시각화

jointplot : 두 개의 수치형 변수 간의 관계를 연구 할 수 있다.
차트의 중앙에서 상관 관계 그래프를 표시해주는데 스캐터 플롯(산점도), 헥스 빈 플롯, 2D 히스토그램 또는 2D 밀도(density) 플롯을 사용하는 것이 일반적이다.
중앙 그래프 선택
- kind = "scatter" | "reg" | "resid" | "kde" | "hex" 등 타입명 입력

(i) 전체 변수에 대한 상관관계

# 1) 전체 변수의 상관관계
sns.jointplot(data=df)

전체 데이터에 대한 jointplot 을 그리면 변수간의 상관관계를 한눈에 알아보기 힘듦
변수가 많고 범위가 넓은 경우 따로 그래프를 그리는 것이 이해하기 쉬움

(ii) mpg, horsepower에 대한 상관관계

# 2) 연비와 마력의 상관관계
sns.jointplot(data=df, x="mpg", y="horsepower")

# 3) 연비와 마력의 상관관계 - kde(밀도함수)로 보기
sns.jointplot(data=df, x="mpg", y="horsepower", kind="kde")

#) 연비와 마력의 상관관계 - hex(헥스빈)으로 밀집도 보기
sns.jointplot(data=df, x="mpg", y="horsepower", kind="hex")

jointplot 을 그리면 변수간의 상관관계를 한눈에 볼 수 있음
kind 를 설정하여 어디에 밀집되어있는지, 등 원하는 분석이 가능함

📍Pairplot 시각화

pairplot : 각 column 별 데이터에 대한 상관관계나 분류적 특성 확인 가능
대각선 방향으로는 하나의 열의 히스토그램을 나타냄
대각선 기준 위 아래는 축이 전환된 것일 뿐, 보여주는 결과는 같음
hue 를 추가하여 기존 pairplot에 hue에 지정한 것을 기준으로 나누어 그릴 수 있음

(i) hue="origin" 을 기준으로 한 pairplot

# origin에 대한 pairplot
sns.pairplot(data=df, hue="origin")

(ii) 일부 데이터로 그린 pairplot

# sample(100) 설정하여 시각화 소요 시간 단축
sns.pairplot(data=df.sample(100), hue="origin") # 전체에서 무작위로 100개 데이터 선택

pairplot 을 그릴 땐, 여러 그래프를 한 번에 처리하기 때문에 대량의 데이터를 사용하면 시간이 오래 걸림
- sample() 로, 데이터를 무작위로 선정하기
- 전체적인 상관관계를 빠르게 확인하고싶을 때 사용하면 좋은 기능

📍Lineplot 시각화

lineplot : 지정한 변수 간의 선형 관계를 알 수 있음
hue 별 구분이 가능함

(i) 전체 변수에 대한 선형 그래프

sns.lineplot(data=df)

(ii) model_year와 mpg에 대한 선형 그래프

sns.lineplot(data=df, x="model_year", y="mpg")

전체 변수에 대해 선형 그래프를 그리게 되면, 알아보기 쉽지않음 (x : 데이터 인덱스, y : 수치형 변수에 대한 값)
변수를 지정하여 그림을 그리면 한 눈에 알아보기 쉬움
그래프 해석
- 최근에 출시된 모델이 연비가 크다.
- 80년도에 연비가 약 32 이상인 데이터 때문에 급격히 상승한 구간이 발견 됨
- hue 를 추가하면 더 의미있는 분석이 될 것으로 생각 됨

(iii) origin 을 기준으로 구분 된 그래프

sns.lineplot(data=df, x="model_year", y="mpg", hue="origin")

그래프 해석
- 나라별로 출시년도가 82년도에 가까워지면서 연비 상승
- 72 ~ 74 년도 사이에 연비 개선이 이루어지지 않음이 발견 됨

📍Relplot 시각화

Relplot
- scatterplot과 lineplot를 그릴 수 있다.
- 범주형 변수 에 따라 서브플롯을 그릴 수 있다.
- ci : 신뢰구간을 의미함 (defalt : 포함되어 있음)

(i) scatterplot 서브플롯 그리기

# kind의 defalt : scatterplot
sns.relplot(data=df, x="model_year", y="mpg", hue="origin", col="origin")

(ii) lineplot 서브플롯 그리기

# 신뢰구간 포함
sns.relplot(data=df, x="model_year", y="mpg",
            hue="origin", col="origin", kind='line')

# 신뢰구간 포함 X
sns.relplot(data=df, x="model_year", y="mpg",
            hue="origin", col="origin", kind='line', ci=None)

💡 replot를 사용하는 이유?

Relplot 을 그리면 추정 회귀선과 신뢰구간을 함께 볼 수 있다.

신뢰 구간은 bootstrapping을 사용하여 계산되며, 대규모 데이터셋에 대해 시간이 많이 소요될 수 있으므로 ci=None을 이용해 비활성화시킬 수 있다.
ci="sd" 로 설정하면 신뢰구간을 표준 편차로 표시할 수 있다.
- ```replot()```의 장점
return 값이 FacetGrid (여러개의 AxesSubplot를 포함)
scatterplot(), lineplot()의 return 값은 AxesSubplot (1장의 그림에 모든 것을 담음)

📍Heatmap 시각화

heatmap : 열을 뜻하는 히트(heat)와 지도를 뜻하는 맵(map)을 결합시킨 단어
색상으로 표현할 수 있는 다양한 정보를 일정한 이미지 위에 열분포 형태로 출력
목적 : heatmap 을 통해 상관계수를 시각화 해보자!

💡 상관계수

확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법
두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다.
옵션을 따로 쓰지 않으면, 피어슨 상관 계수로 구함

💡 피어슨 상관계수

r 값은 X와 Y가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일하면 -1 을 가진다.
결정계수(coefficient of determination)는 r^2로 계산하며 이것은 X로부터 Y를 예측할 수 있는 정도를 의미한ㄷ.

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계


  - 서로 다른 상관계수 값을 갖는 산포도 다이어그램의 예
![](https://velog.velcdn.com/images/jaeyoung_jung/post/10a078d1-3b06-4a9f-8db1-55c0b185f3c6/image.png)

  -----
**(i) 상관계수 구하기**
```python
# 옵션을 따로 쓰지 않으면, 피어슨 상관계수로 구해짐
corr = df.corr()

# np.triu 함수를 이용해 matrix를 상삼각행렬로 만들기   
mask = np.triu(np.ones_like(corr))

(ii) heatmap 그리기

# heatmap으로 상관계수 시각화  
sns.heatmap(corr, cmap="coolwarm")

# 대각선을 기준으로 윗부분 제거 + 각 셀에 숫자 입력 
sns.heatmap(corr, cmap="coolwarm", annot=True, mask=mask)

seaborn을 이용해 히트맵을 그려보았다.
heatmap의 paramets
- mask : bool array or DataFrame, optional If passed, data will not be shown in cells where mask is True.
- annot=True : annotate each cell with numeric value
그래프 해석
- 히트맵 위에 표기된 상관계수 값을 보면, 빨간색으로 되어 있는(+1 값에 가까운) 부분은 양적 선형 관계에 가깝다는 것을 의미 함
- 예를 들어, displavement와 cylinders는 선형 관계가 강하다는 뜻임

🔥 확인해 보기

# 위 히트맵에서 알아낸 'cylinders'와 'displacement'의 선형관계를 그래프로 그려보기 
sns.lineplot(data=df, x="cylinders", y="displacement")

상관계수를 계산하여 heatmap을 그려보면 변수 간의 선형성을 파악할 수 있다.
위 그래프에서 cylinders가 5 부분에서 신뢰구간이 커짐
- 이유? 이상치때문에 신뢰구간이 급격히 커진 것으로 생각 됨

🤔느낀점

2개 이상의 변수에 대한 그래프를 그려보았다. 그릴 수 있는 그래프는 거의 다 그려본 것 같다. 이렇게 배운 것을 데이터셋이 주어졌을 때 무엇을 전달하기 위해 어떤 그래프를 그릴 것인지 선택하기 위해선 여러 실습이 중요하겠다고 생각했다.

Kaggle에 올라온 데이터를 이용해서 배운 것들을 적용시켜봐야겠다.

📄참고문헌

참고 1. 산점도 참고 2. 회귀 분석의 필요성 참고 3. 파이썬 seaborn : 시각화 유형 : 상관관계 - 조인트 플롯 참고 4. 상관 분석 참고 5. Seaborn - 관계 그래프 : pairplot 참고 6. Seaborn으로 시각화하기 - [relplot(), scatter(), lineplot()] 참고 7. 히트맵(heatmap) 참고 8. [Python] 히트맵 그리기 (Heatmap by python matplotlib, seaborn, pandas

[Python] 백준(Baekjoon) 문제풀이 - 조건문(1)

Thu, 29 Sep 2022 08:10:30 GMT

📝 문제

문제는 Baekjoon에 등록되어 있음
문제는 조건문(if문)과 관련 됨

📍 1330번 문제 - 두 수 비교하기

문제 : 두 정수 A와 B가 주어졌을 때, A와 B를 비교하는 프로그램을 작성하시오.

입력 : 첫째 줄에 A와 B가 주어진다. A와 B는 공백 한 칸으로 구분되어져 있다.
*출력 * : 첫째 줄에 다음 세 가지 중 하나를 출력한다.
- A가 B보다 큰 경우에는 '>'를 출력한다.
- A가 B보다 작은 경우에는 '<'를 출력한다.
- A와 B가 같은 경우에는 '=='를 출력한다.
제한 : -10,000 ≤ A, B ≤ 10,000

💡 문제 해결법 구조화

💡 문제 풀이

# 입력 값을 a, b로 나눠줌
a, b = map(int, input().split())

# 범위 제한, 비교연산자 출력 조건문 
if (-10000 <= a <= 10000) and (-10000 <= b <= 10000):   

    if a == b:
        print('==')
    elif a > b:
        print('>')
    else:
        print('<')        
else:
    pass # 결과 안 나오게 설정

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

범위 벗어나면 아무것도 출력되지 않게 pass 문 사용
2. 비교연산자 출력 확인
==
>
<

문제 1330번. 두 수 비교하기

📍 9498번 문제 - 시험 성적

문제 : 시험 점수를 입력받아 90 ~ 100점은 A, 80 ~ 89점은 B, 70 ~ 79점은 C, 60 ~ 69점은 D, 나머지 점수는 F를 출력하는 프로그램을 작성하시오.

입력 : 첫째 줄에 시험 점수가 주어진다. 시험 점수는 0보다 크거나 같고, 100보다 작거나 같은 정수이다.
*출력 * : 시험 성적을 출력한다.

💡 문제 해결법 구조화

💡 문제 풀이

score = int(input())

if 0 <= score <= 100:

    # 성적 출력
    if 90 <= score <= 100:
        print('A')
    elif 80 <= score <= 89:
        print('B')
    elif 70 <= score <= 79:
        print('C')
    elif 60 <= score <= 69:
        print('D')
    else:
        print('F')

else:
    pass

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

범위 벗어나면 아무것도 출력되지 않게 pass 문 사용
2. 시험 성적 출력 확인
if문 에 시험 점수가 높은 순부터 입력함

👩🏻‍💻 코드 적용

실생활에 적용해 보기

# 기사 시험 성적
score = int(input("시험 성적을 입력해 주세요 : "))

기사 시험 합격 불합격 공지

if 0 <= score <= 100:

# 성적 출력
if score >= 60:
    print(f'{score}점으로 합격하셨습니다.')
else:
    print(f'{score}점으로 불합격하셨습니다.')

else: print("옳지 않은 값을 입력하셨습니다.")



   [문제 9498번. 시험 성적](https://www.acmicpc.net/problem/9498)

------
## 📍 2753번 문제 - 윤년
>- **문제**
  -  연도가 주어졌을 때, 윤년이면 1, 아니면 0을 출력하는 프로그램을 작성하시오.
  - 윤년은 연도가 4의 배수이면서, 100의 배수가 아닐 때 또는 400의 배수일 때이다.
  - 예를 들어, 2012년은 4의 배수이면서 100의 배수가 아니라서 윤년이다. 1900년은 100의 배수이고 400의 배수는 아니기 때문에 윤년이 아니다. 하지만, 2000년은 400의 배수이기 때문에 윤년이다.


- **입력** 
: 첫째 줄에 연도가 주어진다. 연도는 1보다 크거나 같고, 4000보다 작거나 같은 자연수이다.


- **출력 **
: 첫째 줄에 윤년이면 1, 아니면 0을 출력한다.


### 💡 문제 해결법 구조화
![](https://velog.velcdn.com/images/jaeyoung_jung/post/38a3e84e-bfea-4042-99b5-9dbf71fe8077/image.png)



### 💡 문제 풀이
```python
year = int(input())

if 1 <= year <= 4000:

    if ((year % 4 == 0) and (year % 100 != 0)) or (year % 400 == 0):
        print('1')
    else:
        print('0')

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

범위 벗어나면 아무것도 출력되지 않음
2. 결과 출력
윤년인 경우
윤년이 아닌 경우

문제 2753번. 윤년

🧨 어려웠던 내용

윤년 문제를 풀 때, 어떻게 코드를 작성하면 간결하게, 보기 쉽게 적을 수 있을 까 고민을 많이 했다. 여러줄 풀어서 작성할 수 있지만 간결하게! 작성하고 싶어서 고민을 많이 했었다. 조건문을 깔끔하게! 사용할 수 있도록 연습을 많이 해봐야겠다 :)

🤔 느낀점

배울 것이 참... 많다.

📄 참고문헌

참고 1. 윤년 - 위키백과

[SQL] 해커랭크(HackerRank) 문제풀이 3

Thu, 29 Sep 2022 07:52:03 GMT

📝 문제

문제는 HackerRank에 등록되어 있음
모든 문제는 아래에 첨부한 STUDENTS, Employee 테이블 사용
데이터베이스로는 MySQL을 사용

테이블 명 : STUDENTS

Column	Type
ID	Integer
NAME	String
Marks	Integer
The Name column only contains uppercase (A-Z) and lowercase (a-z) letters.

테이블 명 : Employee

Column	Type
employee_id	Integer
name	String
months	Integer
salary	Integer
where employee_id is an employee's ID number, name is their name, months is the total number of months they've been working for the company, and salary is their monthly salary.

📍 1번 문제

Query the Name of any student in STUDENTS who scored higher than 75 Marks. Order your output by the last three characters of each name. If two or more students both have names ending in the same last three characters (i.e.: Bobby, Robby, etc.), secondary sort them by ascending ID.

1) 점수가 75점보다 높은 학생의 이름을 출력
2) 정렬은 이름의 마지막 3자로 정렬한 후, 중복값이 있으면 id로 정렬 -- ASC

SELECT name
FROM students
WHERE marks > 75
ORDER BY RIGHT(name, 3), id -- name의 오른쪽 3자로 정렬 후, 중복이면 id로 정렬

문제 1. Higher Than 75 Marks

📍 2번 문제

Write a query that prints a list of employee names (i.e.: the name attribute) from the Employee table in alphabetical order.

: Employee 테이블에 있는 name 값을 알파벳순으로 정렬

SELECT name
FROM employee
ORDER BY name -- ORDER BY (defalt값이 ASC)

문제 2. Employee Names

📍 3번 문제

Write a query that prints a list of employee names (i.e.: the name attribute) for employees in Employee having a salary greater than $2000 per month who have been employees for less than 10 months. Sort your result by ascending employee_id.

1) 근무기간이 10개월 미만, 월 급여가 $2000 를 넘는 직원 이름
2) 직원 ID 오름차순으로 결과 정렬

SELECT name
FROM employee
WHERE months < 10 AND salary > 2000 -- 두 조건을 만족시키기 위해 AND 사용
ORDER BY employee_id

문제 3. Employee Salaries

🤔 느낀점

맞춰야하는 조건이 많이 없어서 아직까진 어려운 점이 없었다! 기억해야될 부분이 있다면 문자열을 자르는 방법!?
MySQL의 문자열 자르기 방법 (LEFT, RIGHT, SUBSTRING) 을 기억해두면 이름에서 성을 가져와야하는 경우, 주민등록번호에서 앞 6자리만 가져오는 방법 등에 사용할 수 있을 것이다!

🔥 배운 것 적용해 보기

Customer 테이블은 고객의 이름과 주민등록번호로 구성되어있음
조건 1) 이때, ******-*******로 되어있는 데이터 중 앞 6자만 가져와보기 2) 반환할 데이터 : 이름, 생년월일

INPUT (Customer)

Name	BirthNum
홍길동	550202-1234567
김영희	770303-1234567
김철수	990404-1234567
고길동	110505-1234567

CODE

SELECT Name AS "이름", LEFT(BirthNum, 6) AS "생년월일"
FROM Customer

OUTPUT

이름	생년월일
홍길동	550202
김영희	770303
김철수	990404
고길동	110505

다음에는 더 복잡한 구조의 데이터를 수집하고, 조건에 맞게 추출, 분석해보는 연습을 해봐야겠다!

[Python] EDA - 수치형 데이터 (1)

Wed, 28 Sep 2022 14:39:34 GMT

🎯목표 설정

seaborn의 mpg 데이터셋을 이용하여 수치형 변수에 대해 시각화
히스토그램, displot, kdeplot, rugplot, boxplot, violinplot 그려보기
스케일링에 대해 이해하기

👩🏻‍💻이해 과정

목차

import pandas, numpy, seaborn, matplotlib.pyplot
load_dataset
seaborn 시각화

1. 데이터 로드

💡 Library

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

💡 Dataset : mpg(mile per galon)

# 앤스컴 데이터셋 불러오기
df = sns.load_dataset("mpg")

# 데이터셋 구조 파악
df.shape
>>> (398, 9)

mpg : 행 398, 열 9 로 구성된 데이터셋

2. 데이터 구조

데이터가 무엇으로 구성되어있는지 확인하기
데이터 type 확인하기

1) 데이터 형태 확인하기

💡 데이터셋 일부만 가져오기

# 상위 5개 데이터만 불러오기
df.head()

# 하위 5개 데이터만 불러오기
df.tail()

열 : mpg, cylinders, displacement, horsepower, weight, acceleration, model_year, origin, name

2) 데이터 정보 확인하기

💡 데이터셋 요약

# 데이터 기본 정보 요약
df.info()

데이터셋은 총 398개의 데이터를 가지고 있다.
origin, name은 type이 object 이다.
데이터 타입, 결측치의 유무, 메모리 사용량 등의 정보를 알 수 있다.

💡 데이터셋 결측치

# 데이터 결측치를 True, False로 확인
df.isnull()

🔥 결측치 시각화 해보기

CMAP (colormaps)

print(plt.colormaps()) : colormap 종류 확인

coolwarm : heatmap에서 한눈에 파악하기 좋은 컬러

Sequential, Diverging, Cyclinc 등 다양한 상황에서 색상 적용할 수 있음
```
plt.figure(figsize=(12, 8))
sns.heatmap(df.isnull(), cmap="Blues")
```
그래프에서 y축(왼) : 데이터 인덱스 번호 / x축 : 컬럼명 을 나타낸다.
mpg 데이터셋에서 결측치는 horsepower에서 총 6개 존재한다.

💡 데이터셋 기술통계

# 데이터 기술 통계값
df.describe()

💡 데이터셋 유일값

# 데이터 unique 개수
df.nunique()

cylinders, model_year, origin 의 유일값을 보면 전체 데이터 개수(398개)에 비해 매우 적다.
- 수치형 변수이지만 범주형 변수에 가깝다고 생각할 수 있다.

3. 데이터 시각화

👀 수치형 데이터(numberical data)란?

관측된 값이 수치로 측정되는 자료를 말한다.
양적 자료(quantitative data)라고도 불린다.
관측되는 값의 성질에 따라 연속형 자료(continuous data), 이산형 자료(discrete data)로 구분된다.

1) 수치형 데이터 찾기

📍히스토그램 그리기

# 막대 개수 50개로 설정
df.hist(figsize=(12, 10), bins=50)
plt.show()

# 막대 개수 100개로 설정
df.hist(figsize=(12, 10), bins=1000)
plt.show()

hist : 각 변수에 대한 따른 y축(count) 관계이다.
bins : 막대그래프의 개수이다.
그래프 해석
- cylinders 는 범주형 데이터로 볼 수 있다.
- mpg, displacement, horsepower, weight 는 왼쪽으로 치우쳐있다.
- acceleration 은 15를 기준으로 대칭성을 보인다.
- 수치형 데이터로 시각화 해 볼 column은 mpg, displacement, horsepower, weight 이다.

2) 수치형 데이터 시각화

1)에서 찾은 수치형 변수를 시각화 해보자.
- 변수의 count 값에 대해 시각화
- 변수의 밀도 값에 대해 시각화

📍Displot 시각화

y축 기본값 : 개수(count)

1) 비대칭도(왜도)

skew 출력 : df.skew()
skew 값 정렬 : df.skew().sort_values()
- default : ascending ASC
  2) 첨도
kurt 출력 : df.kurt()
kurt 값 정렬 : df.kurt().sort_values(ascending=False)
- ascending=False : DESC 정렬
  3) 피어슨의 비대칭 계수
칼 피어슨이 비대칭도 측정을 위해 제안한 간단한 계산법
왜도와 비슷하게 분포가 좌우로 얼마나 대칭적인지를 나타내는 통계값
비대칭도 정의
- (평균-최빈값) / 표준편차

(i) 한 개의 수치변수에 대한 시각화

# hist, kde 그래프를 한번에 그리기
sns.displot(data=df, x="mpg", kde=True)

(ii) 두 개의 수치변수에 대한 시각화

# hist, kde 그래프를 한번에 그리기 
# origin에 대해 subplot 생성
sns.displot(data=df, x="mpg", kde=True,
            hue="origin", col="origin", bins=30)

displot : 히스토그램, kdeplot을 한 번에 그릴 수 있는 그래프
hue : 설정한 값에 대해 색상 부여
col : 설정한 값에 대해 subplot 생성
그래프 해석
- 전체 데이터에 대한 연비는 약 10 ~ 45 범위에서 왼쪽으로 치우쳐져 있다. (positive skewness)
- usa : 연비는 10~25 사이로 치우쳐져 있다.
- europe에 대한 연비는 정규 분포에 가깝다는 것을 알 수 있다.

📍Kdeplot, Rugplot 시각화

KDE(Kernel Density Estimate)

관측치에 대한 확률밀도함수를 그림 (히스토그램의 밀도를 추정한 것)
y축 기본값 : 밀도(Density)
- ```RUG(선분)```
작은 선분(rug)으로 데이터들의 위치 및 분포를 보여줌

(i) 전체 데이터에 대한 밀도함수

sns.kdeplot(data=df) # 부드러운 곡선
sns.rugplot(data=df, x="mpg") # 아래의 작은 선분

데이터별로 값의 범위가 다르기 때문에 한눈에 의미 분석하기 어렵다.
subplot 기능을 사용할 수 없기 때문에, x="" 를 추가하여 데이터별 그래프 그려야 한다.

(ii) mpg에 대한 밀도함수

# kdeplot
sns.kdeplot(data=df, x="mpg")

# rugplot 
sns.rugplot(data=df, x="mpg")

# kde + rug plot
sns.kdeplot(data=df, x="mpg")
sns.rugplot(data=df, x="mpg")

kdeplot, rugplot으로 어디에 데이터가 몰려있는지 알 수 있다.
violinplot : kdeplot을 x축을 기준으로 데칼코마니 한 모양

📍Boxplot, Violinplot 시각화

boxplot : 사분위 수, 이상치를 나타내는 그래프
violingplot : kdeplot을 마주보고 그린 그래프
- 그래프에서 흰 점 (중간값)

(i) 전체 변수에 대한 밀도함수

# boxplot으로 전체 변수 시각화
sns.boxplot(data=df)

# violinplot으로 전체 변수 시각화
sns.violinplot(data=df)

전체 변수에 대해 시각화를 해보면 범위가 커서 그래프가 전달하고자하는 의미를 파악하기 힘들다.
범위를 스케일링하여 위 문제를 해결해보자.

💡 스케일링(Scaling)이란? 모든 특성의 범위(또는 분포)를 같게 만드는 것

** 👀 주로 사용되는 스케일링 개념 **

(1) Standardization (표준화)
- 특성들의 평균을 0, 분산을 1로 스케일링하는 것
- 즉, 특성들을 정규분포로 만드는 것

(2) Normalization (정규화)
  - 특성들을 특정 범위 (주로 [0, 1]) 로 스케일 하는 것
  - 가장 작은 값은 0, 가장 큰 값은 1로 변환되므로, 모든 특성들은 [0, 1] 범위를 갖게 됨

*(ii) 스케일링 후, 밀도함수 *

정규화 과정

# 수치형 데이터를 변수 df_num에 할당 
df_num = df.select_dtypes(include="number")

정규화 : (관측치 - 평균) / 표준편차

df_std = (df_num - df_num.mean())/df_num.std()

정규화 후, 전체 변수에 대한 기술통계값 확인 (소수점 2자리까지)

df_std.describe().round(2)

![](https://velog.velcdn.com/images/jaeyoung_jung/post/0c5fbcd8-4784-485c-b663-ce8183a6fd8f/image.png)


- **정규화된 변수에 대한 밀도함수**
```python
# boxplot으로 전체 변수 시각화 
sns.boxplot(data=df_std)

# Violinplot으로 전체 변수 시각화
sns.violinplot(data=df_std)

범위가 중구난방인 변수를 스케일링 하게 되면, 위와 같이 그래프가 한 눈에 파악하기 쉬워진다.
특히, violinplot 을 보면, 값의 분포를 더 잘 확인할 수 있다.

(iii) mpg 변수에 대한 밀도함수

# mpg 의 사분위 수 표현
sns.boxplot(data=df, x="mpg")

# mpg 의 밀도 
sns.violinplot(data=df, x="mpg")

그래프 해석
- boxplot을 보면, 1사분위(전체 데이터 중 하위 25%에 해당하는 값)이 약 17, 중간값은 24, 3 사분위(전체 데이터 중 상위 25%에 해당하는 값)은 29임을 알 수 있다.
- 두 그래프를 종합하여 보면 전체 데이터에 대한 연비는 17 ~ 29 사이에 집중되어있음을 알 수 있다.

🤔느낀점

우선, 주어진 데이터가 수치형인지 범주형인지 판단하는 방법을 배웠다. dtype이 object가 아닌 경우에도 범주형 데이터로 취급하는 경우가 있다. 이는 unique 값을 구해보거나 histogram을 그려보면 알 수 있다.

히스토그램을 그려보았을 때, 연속적이지 않고 뚝뚝 끊기는 경우엔 그 변수를 범주형 변수에 가깝다고 생각할 수 있다.
이번에 그려본 히스토그램, kdeplot, displot, 등의 그래프는 1개의 변수에 대한 count, 밀도, 사분위 등을 의미했다.
다음엔 2개 이상의 변수에 대한 상관 관계를 알아보기 위해 scatterplot, 회귀 등을 시각화해 보아야겠다.

boxplot과 violinplot은 전체 변수를 모아서 한 그래프로 볼 수 있다. 하지만 범위가 준구난방이라면 한 그래프에 담게 되었을 때, 어떤 의미를 담고있는지 파악하기 힘들다. 이럴 땐, 범위를 스케일링하여 그래프를 보기 쉽게, 이해하기 쉽게 만들 수 있도록! 여러 실습을 통해 감을 익혀야겠다.

📄참고문헌

참고 1. Matplotlib - Colormaps 참고 2. seaborn 공식문서 참고 3. [기초통계] 수치형 자료(numberical data) 참고 4. 비대칭도 참고 5. 첨도 참고 6. 스케일링 참고 7. 상자 수염 그림

[Python] 앤스컴 콰르텟 (2) - 시각화

Mon, 26 Sep 2022 18:51:26 GMT

🎯목표 설정

Seaborn에서 제공되는 "anscombe" 데이터셋을 시각화하여 앤스컴 콰르텟 이해하기

👩🏻‍💻이해 과정

목차

import pandas, numpy, seaborn
load_dataset
seaborn 시각화

📍데이터 로드

import pandas as pd
import numpy as np
import seaborn as sns

# 앤스컴 데이터셋 불러오기
df = sns.load_dataset("anscombe")

# 데이터셋 구조 파악
df.shape
>>> (44, 3)

📍Countplot 시각화

기본 값 : count (count를 지정하지 않아도 자동 출력)

x 축 설정 : 범주형 데이터

sns.countplot(data=df, x="dataset")

# 축 변경
sns.countplot(data=df, y="dataset")

이산값을 나타내는 그래프 (각 범주에 속하는 데이터의 개수를 막대그래프로 나타냄)
학년별 인원 파악하는 그래프 등에 쓸 수 있음

📍Barplot 시각화

기본 값 : 평균 (평균을 지정하지 않아도 자동 출력)

x 축 설정 : 범주형 데이터

검은 막대 : 신뢰구간

# 신뢰구간 자동 출력
sns.barplot(data=df, x="dataset", y="x") # y축 이름은 임의로 정함

# 신뢰구간(ci) 제거
sns.barplot(data=df, x="dataset", y="x", ci=None)

sns.barplot(data=df, x=“dataset”, y=“x”, ci=“sd”) 에서 sd : 표준편차
n_boot : 표본을 몇 개 할 것인지 (defalt : 1000)
큰 데이터를 시각화할 때, ci 넣으면 시간 오래 걸림 (표본 추출 과정 포함)
대표값만 나타내기 때문에 자세한 표현이 어려움 (boxplot 이용하면 분포 확인 가능)

*🔥 Groupby *

# groupby 로 barplot의 x, y 평균 값 구하기
df.groupby("dataset")[["x", "y"]].mean()

dataset	x	y
I	9.0	7.500909
II	9.0	7.500909
III	9.0	7.500000
IV	9.0	7.500909

📍Boxplot 시각화

기본 값 : 최솟값, 사분위값, 최댓값

x 축 설정 : 범주형 데이터

검은 박스♦︎ : 이상치

# 상자 수염 그림
sns.boxplot(data=df, x="dataset", y="y")

히스토그램과 비교 했을 때, Robust 함
중앙값은 잘 변하지 않음
값이 변해도 사분위수가 정해져있으면 변하지 않음
참고 1. Fig 8
참고 2. p17 부터

📍히스토그램 시각화

기본 값 : 데이터프레임의 (x, y)

# pandas에 내장되어있는 기능
df.hist()

# bins : 막대 개수 (bins=1이면 막대 1개로 그림)
df.hist(bins=1)

정해진 계급에 변량이 포함되어 있는 정도를 표로 나타낸 것
어떤 기준에 대한 수의 분포

📍Displot 시각화

기본 값 : count (cout를 지정하지 않아도 자동 출력)

히스토그램은 전체 데이터에 대한 그래프라면, Displot은 범주형 데이터별로 나누어 그래프를 그릴 수 있음

# hue : 범주형 데이터를 색별로 나눔 (Group by 기능)
# kde : 부드러운 곡선을 나타내줌
sns.displot(data=df, x="y", hue="dataset", kde=True)

# col : 범주형에 따라 서브플롯을 만들어 줌
sns.displot(data=df, x="y", hue="dataset", kde=True, col="dataset")

데이터셋에 대한 히스토그램 확인 가능
히스토그램 과 kdeplot 이 합쳐진 그래프 그릴 수 있음

📍Kdeplot 시각화

기본 값 : Density (밀도를 지정하지 않아도 자동 출력)

부드러운 곡선을 그려주는 도구
범주형 데이터에 따라 색 부여 가능(hue)
```
sns.kdeplot(data=df, x="y", hue="dataset")
```

커널 밀도 추정(kernal density estimation) 그래프
히스토그램이 절대량(count)을 표현한다면 kdeplot은 상대량(비율)을 시각화
히스토그램과 마찬가지로 한 개 혹은 두 개의 변수에 대한 분포 그릴 수 있음
밀도 추정 그래프

📍Violinplot 시각화

kdeplot을 데칼코마니 하듯 마주보고 그린 값

sns.violinplot(data=df, x="dataset", y="y")

# 축 변경
sns.violinplot(data=df, x="dataset", y="y", orient="h")

히스토그램의 밀도를 나타낸 것을 마주보고 그린 값
kdeplot으로 그린 그래프를 x축을 기준으로 마주보고 그린 그래프
어디에 많이 몰려있냐에 따라 그래프 모양이 달라짐

📍Scatterplot 시각화

x, y에 입력한 데이터로 그려지는 그래프

범주형 데이터에 따라 색 부여 가능(hue)

sns.scatterplot(data=df, x="x", y="y", hue="dataset")

수치변수간의 분포를 확인하고자 할 때 사용
범주형 그래프에도 사용함 (권장 X)

📍Regplot 시각화

x, y에 입력한 데이터로 그려지는 그래프

범주형 데이터에 따라 색 부여 불가능
반투명 영역 : 신뢰구간
```
sns.regplot(data=df, x="x", y="y")
```

scatterplot에선 hue 지원하지만, regplot에선 지원 X
데이터별 표현이 필요할 땐 lmplot 사용

📍Lmplot 시각화

x, y에 입력한 데이터로 그려지는 그래프

범주형 데이터에 따라 색 부여 가능(hue)
displot처럼 데이터별 분포 확인 가능

반투명 영역 : 신뢰구간

# col_wrap : 한 줄에 2개씩 정렬
sns.lmplot(data=df, x="x", y="y", hue="dataset", 
          col="dataset", col_wrap=2)

그래프 dataset = IV 를 보면, 이상치 하나때문에 신뢰구간 넓게 형성됨
참고 1. Estimating regression fits
참고 2. p49 상관계수 관련

🤔느낀점

앤스컴 콰르텟(Anscombe's quartet) 데이터로 여러 그래프를 그려보았다. 실제로 데이터를 시각화 해보니, 범주형 데이터에선 어떤 그래프가 필요한지 수치형 데이터에선 어떤 그래프가 필요한지 조금 이해할 수 있었다.

하지만, 내가 다뤄본 데이터가 아직 하나여서 데이터 활용도에 대한 감을 높이기 위해선 여러 사례를 봐야할 것같다고 느꼈다!

주어진 데이터를 효율적으로 사용하기 위해 ! 오늘보다 더 발전한 내일을 위해 ! 모르는 것은 해결될 때까지 찾아보고 내 것으로 만들 수 있도록 노력해야겠다 !! 🔥

만약, 내게 지금 당장 공정 데이터가 주어진다면? 어떤 그래프를 그리면 좋을 지 생각해보았다. 공정 데이터가 단순한다면 scatterplot 이나 lmplot 으로 입력변수에 따른 결과치의 관계를 알아보지 않을까??

이 부분에 대해선 공부를 하면서 더 고민해봐야겠다!

[Python] 앤스컴 콰르텟 (1) - pandas, numpy, seaborn

Mon, 26 Sep 2022 14:32:47 GMT

앤스컴 콰르텟(Anscombe's quarter)는 기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋이다.
각 데이터셋은 11개의 (x, y) 좌표로 이루어진다.
1973년, 통계학자인 프란시스 앤스컴이 데이터분석 전 1) 시각화의 중요성과 2) 특이치 및 주영향관측값의 영향을 보여주기 위해 만들었다.
목적 : "숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄

🎯목표 설정

Seaborn에서 제공되는 "anscombe" 데이터셋으로 앤스컴 콰르텟 이해하기

👩🏻‍💻이해 과정

목차

import pandas, numpy, seaborn

데이터 로드

데이터 형태 확인

데이터 기본 정보 확인

데이터 기술통계 구하기

데이터셋 나누기

데이터셋 별 기술통계, 상관계수, 빈도수 구하기

📍데이터 로드

1. 라이브러리 로드

import pandas as pd import numpy as np import seaborn as sns

```python
# 2. 데이터 로드
df = sns.load_dataset("anscombe")

# 3. 데이터 형태 파악
df.head()

-  데이터는 (44, 3)으로 행이 44개, 열이 3개로 구성되어 있다.
-  dataset의 범위는 I ~ IV 이며 각 11개의 데이터를 포함한다.

📍데이터 정보

4. 기본 정보 확인

print(df.info())

![](https://velog.velcdn.com/images/jaeyoung_jung/post/b6d8e0a8-f879-41ce-b552-63cd91f98cf0/image.png)


```markdown
-  총 44개의 데이터가 있으며, 결측치(NULL) 값은 없다.
-  dataset은 object type이고, x와 y는 float64 type이다.

📍데이터 기술통계

5. 기술 통계값

수치형 데이터의 기술 통계

print(df.describe())

```python
# 범주형 데이터의 기술 통계
print(df.describe(include="object"))

📍dataset 나누기

dataset의 unique값 찾기

df["dataset"].unique()

array(['I', 'II', 'III', 'IV'], dtype=object)

```python
# bool indexing 
df_1 = df[df["dataset"] == "I"]
df_2 = df[df["dataset"] == "II"]
df_3 = df[df["dataset"] == "III"]
df_4 = df[df["dataset"] == "IV"]

📍dataset별 기술통계 비교

데이터셋 별 기술 통계

print(df_1.describe()) print(df_2.describe()) print(df_3.describe()) print(df_4.describe())


그림5. 데이터셋 별 기술 통계값

```markdown
      1.  COUNT, MEAN, std(표준편차), 4분위값은 거의 동일
    2.  MIN, MAX 값은 다르지만 각 기술 통계값은 동일

📍dataset별 상관관계 비교

각 데이터셋에 대한 상관계수

df_1.corr() df_2.corr() df_3.corr() df_4.corr()


그림6. 데이터셋 별 상관계수

```markdown
      1. 상관계수를 알아볼 때, 옵션을 지정하지 않으면 피어슨 상관계수가 사용된다.
       -  -1 ~ +1 사이의 값을 가짐
       - +1에 가까우면 양의 상관을 가짐 (= x축 증가 시, y축 증가하는 경향 = 대각선에 가깝게 그려짐)

      2. 데이터셋의 상관계수 값을 보면 알 수 있는 점 
       - 각 데이터셋 별로 대각선으로 같은 값을 가짐 (자기 자신과의 상관 관계)
       - 4개의 데이터셋은 소수점 아래 세자리까지의 값이 모두 일치

📍데이터 빈도수

dataset의 빈도수 구하기

df["dataset"].value_counts()

```python
# dataset의 빈도수 normalize 비율 구하기
df["dataset"].value_counts(normalize=True)

📍그룹별 기술통계

Groupby를 통한 데이터셋 별 기술통계 구하기

df.groupby("dataset").describe()





-----
### 📍그룹별 상관계수
>```python
# Groupby를 통한 데이터셋 별 상관계수 구하기
df.groupby("dataset").corr()

🤔느낀점

여러 데이터 셋의 평균, 사분위값, 표준편차 등의 기술통계값이 동일한 값을 가져도 동일한 데이터가 아니라는 점을 기억해야겠다고 생각했다. Seaborn에서 가져온 데이터셋을 출력해보면 I ~ IV 의 (x, y) 는 동일하지 않다.

만약 각 데이터 셋의 (x, y) 리스트를 알지 못한 상태에서, 평균, 사분위값, 표준편차 등의 기술통계값이 동일함을 접한다면 유사한 그래프를 가진다고 생각했을 것이다.

앤스컴 콰르텟(Anscombe's quartet) 데이터 셋을 통해 데이터 분석 전 ! 1) 시각화의 중요성, 2) 특이치 및 주영향관측값의 영향을 잘 고려해야겠다고 느꼈다.

다음엔 위 데이터를 이용해 시각화를 해보아야겠다.

[SQL] 해커랭크(HackerRank) 문제풀이 2

Sun, 25 Sep 2022 15:24:42 GMT

📝 문제

문제는 HackerRank에 등록되어 있음
모든 문제는 아래에 첨부한 STATION 테이블 사용
데이터베이스로는 MySQL을 사용

테이블 명 : STATION

Field	Type
ID	NUMBER
CITY	VARCHAR2(21)
STATE	VARCHAR2(2)
LAT_N	NUMBER
LONG_W	NUMBER
where LAT_N is the northern latitude and LONG_W is the western longitude.

📍 1번 문제

Query a list of CITY and STATE from the STATION table.

: STATION 테이블의 CITY, STATE 열에 해당하는 데이터 출력

SELECT city, state
FROM station

문제 1. Weather Observation Station 1

📍 2번 문제

Query a list of CITY names from STATION for cities that have an even ID number. Print the results in any order, but exclude duplicates from the answer.

: ID 값이 짝수인 CITY name 데이터를 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE id LIKE '%0'
OR id LIKE '%2'
OR id LIKE '%4'
OR id LIKE '%6'
OR id LIKE '%8'

Short version

SELECT DISTINCT city
FROM station
WHERE id % 2 = 0 -- 짝수는 2로 나누면 나머지가 0임을 이용

문제 2. Weather Observation Station 3

📍 3번 문제

Find the difference between the total number of CITY entries in the table and the number of distinct CITY entries in the table. For example, if there are three records in the table with CITY values 'New York', 'New York', 'Bengalaru', there are 2 different city names: 'New York' and 'Bengalaru', The query returns 1, because total number of records - number of unique city names = 3 - 2 = 1

: CITY의 전체 데이터 개수와 중복 없이 유일한 값을 가지는 데이터 개수의 차이

SELECT COUNT(city) - COUNT(DISTINCT city)
FROM station

문제 3. Weather Observation Station 4

📍 4번 문제

Query the list of CITY names starting with vowels (i.e., a, e, i, o, or u) from STATION. Your result cannot contain duplicates.

: 모음으로 시작되는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE city LIKE 'a%'
   OR city LIKE 'e%'
   OR city LIKE 'i%'
   OR city LIKE 'o%'
   OR city LIKE 'u%'

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '^[aeiou]' -- ^는 []안 문자열로 시작될 경우를 뜻 함

문제 4. Weather Observation Station 6

📍 5번 문제

Query the list of CITY names ending with vowels (a, e, i, o, u) from STATION. Your result cannot contain duplicates.

: 모음으로 끝나는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE city LIKE '%a'
   OR city LIKE '%e'
   OR city LIKE '%i'
   OR city LIKE '%o'
   OR city LIKE '%u'

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '[aeiou]$' -- $는 []안 문자열로 끝날 경우를 뜻 함

문제 5. Weather Observation Station 7

📍 6번 문제

Query the list of CITY names from STATION which have vowels (i.e., a, e, i, o, and u) as both their first and last characters. Your result cannot contain duplicates.

: 첫 자와 끝 자가 모음인 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE (city LIKE 'a%'
    OR city LIKE 'e%'
    OR city LIKE 'i%'
    OR city LIKE 'o%'
    OR city LIKE 'u%')
    AND (city LIKE '%a'
    OR city LIKE '%e'
    OR city LIKE '%i'
    OR city LIKE '%o'
    OR city LIKE '%u')

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '^[aeiou]' AND city REGEXP '[aeiou]$'

문제 6. Weather Observation Station 8

📍 7번 문제

Query the list of CITY names from STATION that do not start with vowels. Your result cannot contain duplicates.

: 모음으로 시작되지 않는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE city NOT LIKE 'a%'
  AND city NOT LIKE 'e%'
  AND city NOT LIKE 'i%'
  AND city NOT LIKE 'o%'
  AND city NOT LIKE 'u%'

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '^[^aeiou]' -- []안의 ^는 일치하지 않음을 의미

문제 7. Weather Observation Station 9

📍 8번 문제

Query the list of CITY names from STATION that do not end with vowels. Your result cannot contain duplicates.

: 모음으로 끝나지 않는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE city NOT LIKE '%a'
  AND city NOT LIKE '%e'
  AND city NOT LIKE '%i'
  AND city NOT LIKE '%o'
  AND city NOT LIKE '%u'

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '[^aeiou]$'

문제 8. Weather Observation Station 10

📍 9번 문제

Query the list of CITY names from STATION that either do not start with vowels or do not end with vowels. Your result cannot contain duplicates.

: 모음으로 시작되지 않거나 모음으로 끝나지 않는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE (city NOT LIKE 'a%'
   AND city NOT LIKE 'e%'
   AND city NOT LIKE 'i%'
   AND city NOT LIKE 'o%'
   AND city NOT LIKE 'u%')
   OR (city NOT LIKE '%a'
   AND city NOT LIKE '%e'
   AND city NOT LIKE '%i'
   AND city NOT LIKE '%o'
   AND city NOT LIKE '%u')

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '^[^aeiou]' OR city REGEXP '[^aeiou]$'

문제 9. Weather Observation Station 11

📍 10번 문제

Query the list of CITY names from STATION that do not start with vowels and do not end with vowels. Your result cannot contain duplicates.

: 모음으로 시작되지 않고 모음으로 끝나지 않는 CITY 명을 중복 제거하여 출력

Long version

SELECT DISTINCT city
FROM station
WHERE city NOT LIKE 'a%'
  AND city NOT LIKE 'e%'
  AND city NOT LIKE 'i%'
  AND city NOT LIKE 'o%'
  AND city NOT LIKE 'u%'
  AND city NOT LIKE '%a'
  AND city NOT LIKE '%e'
  AND city NOT LIKE '%i'
  AND city NOT LIKE '%o'
  AND city NOT LIKE '%u'

Short version - 정규 표현식(REGEXP)

SELECT DISTINCT city
FROM station
WHERE city REGEXP '^[^aeiou]' AND city REGEXP '[^aeiou]$'

문제 10. Weather Observation Station 12

🧨 어려웠던 내용

7번 문제에서 AND를 OR로 바꾸었을 때 오류가 발생해서 어려움이 있었다. 출력된 결과물을 보니 A로 시작되는 이름이 있었다.

my version

SELECT DISTINCT city
FROM station
WHERE city NOT LIKE 'a%'
  AND city NOT LIKE 'e%'
  AND city NOT LIKE 'i%'
  AND city NOT LIKE 'o%'
  AND city NOT LIKE 'u%'

잘 생각해보니, OR은 연결된 조건들 중 하나만 속해도 된다. 예를 들어, 'Arlington'은 e로 시작되는 단어가 아니니, 출력될 수 있다. 문제를 읽고 코드를 작성했을 때, 논리 연산(AND, OR)의 쓰임새를 정확히 알고 있어야겠다!!!! 이번 문제들을 풀면서 논리 연산에 대해 완벽하게 이해했다!!

👩🏻‍💻 보충한 내용

논리 연산(AND, OR)에 대한 이해력을 높이기 위해 여러 블로그를 참고하여 헷갈렸던 부분을 완벽하게 보충하였다! NOT LIKE를 배우며, 이해를 높이는 과정에서 정규 표현식을 배웠다.

Metacharacter	설명
^	시작하는 문자열
$	끝나는 문자열
[]	임의의 그룹
[^]	[] 안에서의 ^는 일치하지 않음을 의미

정규 표현식을 사용하면 긴 코드를 간결하게 만들 수 있다. 그리고 추후에 전화번호 등의 데이터에서 어떤 패턴을 찾을 때 유용하게 사용할 수 있을 것 같다. 이번 기회에 어떤 상황에서 사용되는지에 대해 알아보며 이해력을 높여야겠다 !!

🤔 느낀점

코드를 작성하고 나서 그대로 끝내는 것이 아닌, 리뷰하는 습관을 가져야겠다고 생각했다. 코드가 잘 실행된다고 끝내면 완벽하게 이해가 안된 느낌! 이번에 7번 문제의 논리 연산과 NOT LIKE때문에 리뷰하고, 이해를 높이기 위해 여러 사이트를 참고했는데 그 시간이 있었기 때문에 완전하게 이해했다!!!!!!!

어떻게 보면 정말 어이없는 질문이지만,,, 나에겐 그 질문이 성장할 수 있는 계기랄까!!! :) 앞으로도 열심히 달려볼 것이다🔥

[SQL] 해커랭크(HackerRank) 문제풀이 1

Sun, 25 Sep 2022 12:42:07 GMT

📝 문제

문제는 HackerRank에 등록되어 있음
모든 문제는 아래에 첨부한 CITY 테이블 사용
데이터베이스로는 MySQL을 사용

테이블 명 : CITY

Field	Type
ID	NUMBER
NAME	VARCHAR2(17)
COUNTRYCODE	VARCHAR2(3)
DISTRICT	VARCHAR2(20)
POPULATION	NUMBER

📍 1번 문제

Query all columns (attributes) for every row in the CITY table.

: CITY 테이블의 모든 행에 대한 모든 열 출력

SELECT *
FROM city

문제 1. Select All

📍 2번 문제

Query all columns for a city in CITY with the ID 1661.

: ID가 1661인 데이터의 모든 열을 출력

SELECT *
FROM city
WHERE id = 1661

문제 2. Select By ID

📍 3번 문제

Query all attributes of every Japanese city in the CITY table. The COUNTRYCODE for Japan is JPN.

: countrycode가 JPN인 데이터의 모든 열을 출력

SELECT *
FROM city
WHERE countrycode = 'JPN'

문제 3. Japanese Cities’ Attributes

📍 4번 문제

Query the names of all the Japanese cities in the CITY table. The COUNTRYCODE for Japan is JPN.

: countrycode가 JPN인 데이터의 name 열 출력

SELECT name
FROM city
WHERE countrycode = 'JPN'

문제 4. Japanese Cities’ Names

📍 5번 문제

Query all columns for all American cities in the CITY table with populations larger than 100000. The CountryCode for America is USA.

🔥 문제 요약
1. popluation이 100000보다 큰 데이터
2. countrycode가 USA인 데이터 
3. 1, 2번을 만족한 데이터의 모든 열을 출력

SELECT *
FROM CITY 
WHERE population > 100000 AND countrycode = 'USA'

문제 5. Revising the select query1

📍 6번 문제

Query the NAME field for all American cities in the CITY table with populations larger than 120000. The CountryCode for America is USA.

🔥 문제 요약
1. population이 120000보다 큰 데이터 
2. countrycode가 USA인 데이터 
3. 1, 2번을 만족한 데이터의 NAME 열만 출력

SELECT name
FROM city
WHERE population > 120000 AND countrycode = 'USA'

문제 6. Revising the select query2

🧨 어려웠던 내용

아직 SQL의 기본중의 기본인 SELECT 문, WHERE 절 을 사용하여서 어려운 점이 없다.

👩🏻‍💻 보충한 내용

문제가 쉽지만 바로 코드에 옮기지 않고, 어떤 조건을 만족해야하는지 조건을 생각해보는 연습을 했다. 이후에 복잡한 구조를 실습할 때 이러한 습관이 도움이 될 것이다.

🤔 느낀점

SQL은 데이터 결과를 바로바로 한눈에 볼 수 있다는 점이 너무너무 재밌다! 3줄 정도로 필요한 데이터를 출력하는 과정이 참 좋다 :) 비록 아직은 3줄 코드이지만,, 조금씩 더 배우다보면 많이 복잡해질 것이다. 그때를 생각해서 코드 예쁘게 정리하는 case를 많이 봐두어야겠다고 생각했다!!🔥

[SQL] 간단한 데이터 추출하고 분석하기(2) - 집계 함수, GROUP BY, HAVING, ORDER BY

Sat, 24 Sep 2022 14:29:03 GMT

🎯 목표 설정

집계 함수 COUNT(), SUM(), AVG(), MIN(), MAX() 이해하기
데이터를 GROUP BY, HAVING, ORDER BY를 사용해 그룹별로 요약해보기

📝 오늘 공부한 내용

1. 집계 함수

집계 함수(Aggregate Function)란? 여러 행으로부터 하나의 결괏값을 반환하는 함수입니다. SELECT 구문에서만 사용되며, 이전에 다룬 기본 함수들이 행(row)끼리 연산을 수행했다면, 집계 함수는 열(column)끼리 수행됩니다.
집계 함수에는 COUNT(), SUM(), AVG(), MIN(), MAX() 가 있습니다.

📍집계 함수 종류

COUNT() : 특정 열(Column)의 행의 개수를 세는 함수
SUM() : 선택한 열(Column)의 합 계산
AVG() : 선택한 열(Column)의 평균 계산
MIN() : 선택한 열(Column)의 최솟값
MAX() : 선택한 열(Column)의 최댓값

📍코드로 실습하기

모든 실습은 관계형 데이터베이스의 기능을 제공하는 MySQL을 사용했습니다.
실습은 w3shcools 에서 수행했습니다.

실습 전, Products의 데이터 형태 알아보기

SELECT *
FROM products
LIMIT 5

실습1. OrderDetails의 데이터 개수 알아보기

-- COUNT 함수 이용하기
SELECT COUNT(*) AS '총 데이터 수'
FROM orderdetails

► 위 코드를 통해 OrderDetails 테이블 내 데이터(행)의 수가 518개라는 것을 알 수 있다.

실습2. 테이블 내 등록된 제품에 대한 총 가격 알아보기

-- SUM 함수 이용하기
SELECT SUM(price)
FROM products
-> 2222.71

실습3. 전 제품에 대한 평균 가격 알아보기

-- AVG 함수 이용하기
SELECT AVG(price)
FROM products
-> 28.866363636363637

실습4. Products 내에서 가장 저렴한 가격 알아보기

-- MIN 함수 이용하기
SELECT MIN(price)
FROM products
-> 2.5

실습5. Products 내에서 가장 비싼 가격 알아보기

-- MAX 함수 이용하기
SELECT MAX(price)
FROM products
-> 263.5

👩🏻‍💻 만약, 데이터에 NULL이 있다면?

NULL, NaN : Not a Number의 약자로, 문자도 아니고 숫자도 아닌 비어있는 값이다.

아래 그림의 테이블은 orderdetails이며, null값 계산 예시를 위해 임의로 데이터를 지웠습니다. ```sql
- 전체 데이터 개수 구하기 SELECT COUNT(*) FROM orderdetails
15

sql
- NULL 포함 열의 데이터 개수 구하기 SELECT COUNT(ProductID) FROM orderdetails

12

► 특정 열에 대해서 COUNT 등의 집계 함수를 수행하면 **해당 열이 NULL이 아닌 행에 대한 정보**를 반환합니다.

2. GROUP BY

GROUP BY를 사용하면 유형별로 개수를 알고 싶을 때 컬럼에 데이터를 그룹화 할 수 있습니다.
기본 구조는 GROUP BY A 로, A는 그룹화할 컬럼을 입력하면 됩니다.
A는 SELECT 문에 넣어야 어떤 컬럼으로 그룹화되었는지 알기 좋습니다.

📍코드로 실습하기

실습 전, OrderDetails의 데이터 형태 알아보기

SELECT *
FROM orderdetails
LIMIT 5

실습1. 제품별로 구매되고 있는 평균 수량 구하기

-- GROUP BY 절 사용하기
SELECT productid, AVG(quantity)
FROM orderdetails
GROUP BY productid

► 위 결과를 보면, 제품별로 주문되고 있는 평균 수량을 알 수 있습니다.
► 1번 제품은 평균적으로 19.875개씩 주문이 들어오고 있네요.
► GROUP BY를 사용하면, 컬럼을 그룹화하여 유형별 정보를 알 수 있습니다.

3. HAVING

HAVING을 사용하면 GROUP BY 연산 결과물을 필터링할 수 있습니다. (WHERE : GROUP BY 하기 전 필터링)
기본 구조는 HAVING A 로, A에는 필터링할 조건식을 입력하면 됩니다.

📍코드로 실습하기

실습1. 구매 평균 수량이 40 이상인 제품 찾기

-- HAVING 절 사용하기
SELECT productid, AVG(quantity) AS avg_quantity
FROM orderdetails
GROUP BY productid
HAVING avg_quantity >= 40

► 위 결과를 보면, 1회 주문 시 평균 40개 이상이 판매되고 있는 제품은 3, 8번을 포함해 총 7제품이 있네요. ► HAVING을 사용하면, 그룹화된 이후의 데이터를 추가적으로 필터링할 수 있습니다.

4. ORDER BY

ORDER BY를 사용하면 주어진 기준으로 데이터를 정렬할 수 있습니다.
기본 구조는 ORDER BY A 로, A는 정렬하고자 하는 컬럼 명을 입력하면 됩니다.

📍코드로 실습하기

실습1. 제품별 판매 수가 300을 넘는 데이터를 출력해주세요. 높은 판매수부터 출력해주세요.

-- ORDER BY 절 사용하기
SELECT productid, SUM(quantity) AS sum_quantity
FROM orderdetails
GROUP BY productid
HAVING sum_quantity > 300
ORDER BY sum_quantity DESC

-- LIMIT 절 추가하여 판매수 TOP 5 구하기
SELECT productid, SUM(quantity) AS sum_quantity
FROM orderdetails
GROUP BY productid
HAVING sum_quantity > 300
ORDER BY sum_quantity DESC
LIMIT 5

► 위 결과를 보면, 31번 제품이 총 458개로 가장 많이 판매되었네요.

이렇게, 집계 함수와 GROUP BY, HAVING, ORDER BY 절을 추가하여 보다 상세한 데이터를 추출하고 분석해보는 실습을 해보았습니다.

🧨 어려웠던 내용

처음 HAVING을 배웠을 때, WHERE 절 과 유사한 기능을 하기 때문에 어떤 기준으로 나누어 사용해야될지 고민이 되었습니다. 하지만, 그룹화 하기 전, 1차적으로 필터링을 할 때 WHERE, 그룹화를 한 후 2차적으로 필터링할 땐 HAVING을 사용한다고 정의를 하니 더이상 두 기능에 대해 헷갈리지 않습니다.

HAVING, WHERE 두 절을 모두 사용한 예를 통해 이해를 높였습니다.

📍코드로 정리하기

예시) 제품번호가 30보다 작은 제품을 대상으로 하시오. 제품 총 주문량이 10개 이하인 고객을 출력하되, 하위 10개만 출력하시오.

SELECT OrderId, SUM(Quantity) AS sum_quantity
FROM OrderDetails
WHERE ProductID > 30 -- 제품 번호를 제한하여 검색 대상 제한
GROUP BY OrderID -- 고객을 기준으로 알아 봄
HAVING sum_quantity <= 10 -- 제품 총 구매량이 10 이하인 데이터로 제한
ORDER BY sum_quantity -- DESC를 작성하지 않으면 default 값으로 ASC(오름차순) 적용 됨
LIMIT 10 -- 상위 10개 항목만 출력

다음 코드를 통해, 아래 조건들을 만족한 데이터를 출력해보았다.
만약 제품 번호(ProductID)가 30 아래의 제품을 화장품 목록이라고 생각해보자.

제품을 화장품으로 제한 (WHERE ProductID > 30)
사이트에서 제품을 구매한 고객별로 화장품 총 구매량을 출력 (SELECT OrderId, SUM(Quantity), GROUP BY OrderID)
고객별 화장품 총 구매량이 10 이하인 데이터 출력 (HAVING sum_quantity <= 10)
고객ID 순이 아닌 구매량을 오름차순으로 정렬 (ORDER BY sum_quantity)
상위 10개 항목만 출력 (LIMIT 10)

👩🏻‍💻 보충한 내용

배운 내용을 바탕으로, 무료로 사용할 수 있는 DataBase를 이용해 실습해보았다.

🤔 느낀점

몇 줄 안되는 코드로 바로바로 데이터를 출력해볼 수 있어서 재미있다!! 열심히 배워서 대량의 데이터를 추출하고, 분석할 수 있는 데이터 분석가가 될테다!!!!!!🔥

📄 참고문헌

1. 집계함수, GROUP BY, HAVING

[SQL] 간단한 데이터 추출하고 분석하기(1) - SELECT, FROM, WHERE, LIMIT

Sat, 24 Sep 2022 09:45:47 GMT

🎯 목표 설정

SELECT, FROM, WHERE, LIMIT 을 사용해 간단한 데이터를 추출하고 분석해보기

📝 오늘 공부한 내용

1. SQL

SQL(Structured Query Language) 이란?
: 관계형데이터베이스 시스템에서 자료를 관리 및 처리하기 위해 설계된 언어

SQL의 기본 조작 명령어

SELECT : 검색
INSERT : 등록
UPDATE : 수정
DELETE : 제거
우선, SELECT 명령어를 이용해 SQL에서 기존에 있는 데이터를 조회, 검색해 봅시다.

2. SELECT 문

SELECT의 기본 구조는 SELECT A FROM B로, A는 참조할 열의 정보, B는 참조할 테이블의 정보를 입력하면 됩니다.

📍코드로 실습하기

모든 실습은 관계형 데이터베이스의 기능을 제공하는 MySQL을 사용했습니다.
실습은 w3shcools 에서 수행했습니다.

실습1. Employees 테이블 모든 정보 불러오기

SELECT * 
FROM Employees

SELECT *에서 *은 Table에서 모든 열을 불러온다는 뜻입니다.
위 코드를 입력하면 Employees 테이블에 있는 10개의 데이터를 불러올 수 있습니다.

실습2. Employees 테이블에서 데이터 일부만 불러오기

SELECT * 
FROM Employees
LIMIT 5 -- 상위 5개의 데이터만 가져오는 방법

LIMIT n은 SELECT, FROM으로 불러온 데이터들 중 상위 n개를 불러온다는 뜻입니다.
LIMIT문을 추가하면 데이터의 형태가 어떤지 알아보기 편하겠죠🤔?

실습3. Employees 테이블에서 특정 열만 불러오기

-- Table에서 EmployeeID, Notes 열만 불러오기
SELECT employeeid, notes
FROM employees
LIMIT 5

위 코드를 보면 앞에서 실습한 코드와 차이가 있습니다. (힌트 : 대소문자)
SQL에서는 대소문자를 구분하지 않기 때문에 EmployeeID 열을 employeeid로 작성해도 됩니다.
🔥 AS로 출력하는 컬럼에 별칭주기 🔥* ```sql
- Table에서 EmployeeID를 'ID', Notes를 '개인 정보'로 데이터 불러오기 SELECT employeeid AS ID, notes AS '개인 정보' FROM employees LIMIT 5 ```
AS를 사용하면 위와 같이 컬럼에 별칭을 부여할 수 있습니다.
따옴표 없이 ID라고 작성해도 되지만, 띄어쓰기와 함께 별칭을 부여하고 싶다면, '개인 정보'와 같이 따옴표로 묶어주어야 됩니다.

3. WHERE 절

WHERE 조건을 사용하면 특정 행을 불러올 수 있습니다.
기본 구조는 WHERE A로, A에는 필터링할 조건식을 입력하면 됩니다.

📍코드로 실습하기

이번 실습은 DataBase를 Customers Table을 이용해보겠습니다.

실습 전, TABLE의 데이터 형태 확인하기

SELECT *
FROM customers
LIMIT 10

열(column)은 CustomerID, CustomerName, ContactName 등 총 7개 입니다.

실습1. 고객 이름이 A로 시작되는 데이터만 불러오기

-- 방법 1
SELECT *
FROM customers
WHERE customername < 'B'

WHERE 절을 이용하면 고객이름이 B로 시작되는 데이터의 이전 정보만 불러올 수 있습니다.

📍비교 연산자

연산자	의미
=	같다
!=, <>	같지 않다
>, <	크다, 작다
>=, <=	크거나 같다, 작거나 같다

💡 주의해야할 점

WHERE 절에서 필터링 조건 등을 쓸 땐, 데이터 원소의 대소문자를 구분해야 합니다.

예시

-- 대소문자 잘 지킨 경우
SELECT *
FROM customers
WHERE country = 'Mexico'

-- 대소문자 안 지킨 경우
SELECT *
FROM customers
WHERE country = 'mexico' -- 이렇게 쓰면, 데이터가 나오지 않음

🧨 어려웠던 내용

실습5. 특정 조건의 데이터만 불러오기에서 비교 연산자를 사용하는데 어려움이 있었다.
해당 실습에서 WHERE customername < 'B'를 입력했을 때 'B' 이전의 값들만 출력된다는 점은 이해가 되었다.
WHERE customername <= 'B'를 입력했을 때, 'B'로 시작되는 고객 데이터도 불러올 줄 알았는데 앞 코드와 동일한 결과가 나왔다.

💡이해의 과정

어려움을 해결하기 위해, 아래와 같이 직접 코드로 입력해보았다.

SELECT 'A' = 'A', 'A' != 'B', 'A' < 'B', 'A' > 'B';
-- 출력(1, 1, 1, 0)

SELECT 'A' >= 'B', 'A' <= 'B', 'A' < 'AA'
-- 출력(1, 0, 1)

*► 문자를 위와 같이 비교할 때, 알파벳 순서대로 뒤에오는 것이 더 크다는 걸 알 수 있다.
► 만약 고객 이름이 'B'라는 데이터가 있다면 WHERE customername <= 'B' 적용 시, 그 데이터도 불러올 것이다. *

처음엔, 왜 'B'로 시작되는 데이터는 가져오지 않는 걸까 고민했지만 생각보다 단순했다. WHERE customername <= 'B' 절을 사용하면, B까지만 조건이 허용된다는 것!!
그 다음 데이터인 Berglunds snabbköp부터는 B보다 크기 때문에 불러올 수 없다는 것!!

📍코드로 정리하기

SELECT *
FROM customers
WHERE customername < 'Bo'

```

지금 생각해보면 참 바보같은 질문이었지만... 나에게 던지는 그 바보같은 질문 덕분에 완전히 이해했다!!!!!!!

👩🏻‍💻 보충한 내용

여러 사이트를 참고하여 내용을 보충하려고 노력했습니다. 그리고 비교 연산자 종류를 표로 추가했습니다.

🤔 느낀점

SQL에서 데이터를 필요한 부분만 불러오는 과정을 배웠다. 아직 SELECT, FROM, LIMIT, WHERE 만 사용했지만 파이썬을 배우다 SQL을 배우니 너무 재밌다!!!!!

📄 참고문헌

1. SQL의 기본중의 기본 - SELECT 문 2. WHERE 쿼리 조건 3. [MySQL] 연산자(Operator)

[Python] 숫자, 문자열 이해하기

Thu, 22 Sep 2022 08:37:56 GMT

🎯 목표 설정

자료형에 대해 이해해 봅시다.

📝 오늘 공부한 내용

자료형은 데이터의 '종류'를 말하며 영어로는 Type이라고 합니다. 정수라면 integer 타입, 실수라면 float 타입, 이름과 같이 문자 형태라면 string 타입 등 데이터 종류에는 여러가지 타입이 있습니다.

1. 파이썬의 숫자

우선 여러가지 자료형 중, 숫자에 대해 알아봅시다. 파이썬에서 수는 정수(int)와 실수(float)로 구분되며 천단위 구분기호 없이 오로지 숫자로만 구성된 데이터입니다. 정수(integer)는 소수점 이하의 값을 갖지 않는 수이며 표현 방식은 부호 없는 정수(unsigned integer)와 부호 있는 정수(signed integer)로 나눌 수 있습니다. 실수(floate)는 소수점 이하의 값을 갖는 수이며 정수 표현 방식과 달리 부동 소수점(floating point) 방식을 사용합니다.

참고 : 부동 소수점 이해하기

📍코드로 실습하기

12345 # 정수
12.345 # 실수
0.12345 # 실수

print(type(12345)) # int
print(type(12.345)) # floate

👀 만약, 숫자 외 기호가 추가된다면?

아래는 colab에서 실행시킨 코드로, colab과 jupyter notebook에선 print 구문을 사용하지 않아도 다음과 같이 출력이 가능하다.
- 오류 메세지 중 TypeError는 자료형이 맞지 않거나 함수 호출 규약이 틀리면 발생합니다. 즉, 데이터 유형과 관련된 오류라는 뜻입니다.
- type() takes 1 or 3 arguments라는 오류 메세지는 type 함수에 1개 또는 3개의 arguments를 담아야한다는 뜻입니다. 아래 코드에선 1,000 즉 2개의 전달인자가 입력되었기 때문에 발생한 것으로 보입니다.
- 코드를 입력하는 과정엔 수많은 오류 메세지를 보게 될 것입니다. 발생한 오류를 보고 어떤 문제 때문에 발생한 것인지를 알아보는 것은 실력 향상에 큰 도움이 될 것입니다.

📍퀴즈로 복습하기

Q1) 다음 중 숫자인 것은? ① "310" ② 22-12-25 ③ 20,000 ④ I
Q1) 정답 및 해설 ① : ""(큰따옴표)로 묶여진 것으로 파이썬에서는 문자열로 인식합니다. ③ : 숫자와 기호가 함께 사용되면 문법 에러가 발생됩니다. ④ : 숫자 1이 아닌 문자 i 입니다. 정답② : 22-12-15는 연산기호인 (-)가 들어갔기 때문에 22-12-15=-5 이므로 int 입니다.

1.1) 숫자 연산

파이썬의 숫자는 덧셈, 뺄셈, 곱셈, 나눗셈의 사칙연산과 제곱, 나누기 연산 후 몫 또는 나머지를 구할 수 있습니다. 특히, 거듭 제곱(\)**은 정수형 상수의 표현 범위는 제한이 없으며, CPU 레지스터로 표현할 수 있는 크기보다 큰 정수를 다룰 때는 연산 속도가 느려집니다.

📍코드로 실습하기

# 덧셈(+)
>>> 1 + 4
5

# 뺄셈(-)
>>> 6 - 8
-2

# 곱셈(*)
>>> 4 * 8
32
>>> 4.0 * 8.0
32.0

# 나눗셈(/)
>>> 9 / 3
3.0
>>> 10 / 4 
2.5

👀 위 코드에서 무엇을 알 수 있나요?
1. 나눗셈의 결과는 항상 실수(float)형태입니다.
2. 나눗셈을 제외한 나머지 연산에서는 데이터가 정수형태로만 구성될 시, 정수로 실행되고 실수가 하나 이상 포함되면 결과는 실수로 발생합니다.

👀 파이썬의 숫자는 사칙연산 외 연산자도 사용할 수 있습니다. 아래 코드를 봅시다.

# 제곱(**) 
>>> 2 ** 3
8

# 나눗셈 후 몫 반환(//)
11 // 2
5

# 나눗셈 후 나머지 반환(%)
23 % 5
3

📍퀴즈로 복습하기

Q2) 다음 코드의 출력 값들은?

#1번
15.0 * 2

#2번
4 ** 3

#3번 
12 / 6

#4번
23 % 4

#5번
2 + 5 * 7

#6번
(3 + 2) // 2

Q2) 정답 및 해설 1번 : 30.0 (float와 int 두 유형의 데이터가 계산될 시, float로 출력됩니다.) 2번 : 64 (4*4*4) 3번 : 2.0 (나눗셈을 하게 되면 float로 출력됩니다.) 4번 : 3 (23/4는 몫이 5, 나머지가 3입니다.) 5번 : 37 (연산은 *,/가 +,-보다 먼저 이루어집니다.) 6번 : 2 (괄호 안에 있는 연산을 우선으로 5//2가 됩니다. 몫은 2, 나머지는 1입니다.)
👀 위 코드에서 무엇을 알 수 있나요?
1. 연산은 우선적으로 해야 될 요소가 없을 시, 왼쪽에서 오른쪽으로 수행합니다..
2. 괄호의 연산 순서는 소괄호 ▶ 중괄호 ▶ 대괄호 순 입니다.
3. 부호의 연산 순서는 (*와 /) ▶ (+와 -) 순 입니다.

2. 파이썬의 문자열

문자열(string)이란 문자, 단어 등으로 구성된 문자들의 집합을 의미한다. 예를 들어 다음과 같은 문자열이다.
"내 이름은 김삼순"
"The Zen of Python"
"12345"
위 문자열을 보면 모두 큰따옴표("")로 둘러싸여 있다. 파이썬에서 문자열은 여러 줄의 문장을 처리할 때 백슬래시 문자와 소문자 n을 조합한 \n 이스케이프 코드를 사용합니다.

2.1) 문자열 연산

파이썬에서는 문자열을 더하거나 곱할 수 있습니다. 다른 언어에서는 쉽게 찾아볼 수 없는 재미있는 기능입니다. 추상화가 잘 되어있는 파이썬 언어만의 장점인 문자열을 더하거나 곱하는 방법을 배워봅시다.
💡 문자열 연산 중 더하기 기능은 동일한 데이터 type에서만 허용됩니다.

2.1.1) 문자열 더해서 연결하기

📍코드로 실습하기

>>> print("점심" + "메뉴" + "추천")
'점심메뉴추천'

👀 만약, 문자열과 숫자를 더한다면?

오류 메세지 중 TypeError는 자료형이 맞지않거나 함수 호출 규약이 틀리면 발생한다는 것을 배웠습니다.
- Can only concatenate str (not "int") to str 라는 오류는 str만 str에 연결할 수 있다는 뜻입니다.
- 즉, str엔 str 형태만 연결시킬 수 있지만 type이 int인 3000을 연결시켜서 난 오류입니다.

👩🏻‍💻 코드를 옳게 수정하려면? - 3000 => "3000"으로 바꾸는 방법 - 3000 => str(3000)으로 바꾸는 방법 - f-string 이용
이때, str()를 이용하면 str이 아닌 type을 문자열로 반환합니다.
>>> print("짜장면 가격은" + str(3000))
'짜장면 가격은 : 3000'

> ```python
# f-string을 이용해 문자열과 숫자를 한번에 처리해 봅시다.
 print(f"짜장면 가격은 : {3000}")
'짜장면 가격은 : 3000'

2.1.2) 문자열 곱해서 반복하기

📍코드로 실습하기

>>> print("안녕하세요" * 2)
'안녕하세요안녕하세요'

위 소스 코드에서 *의 의미는 숫자 곱하기의 의미와는 다릅니다. 위 소스 코드에서의 문장은 "안녕하세요"를 2번 반복하라는 뜻입니다. 즉 *는 문자열의 반복을 뜻하는 의미로 사용됩니다.

📍코드 응용하기

lunch = input("추천해줄 점심 메뉴를 입력해주세요 : ")
dinner = input("추천해줄 저녁 메뉴를 입력해주세요 : ")

print("=" * 30)
print(f"점메추 : {lunch}")
print("=" * 30)
print(f"저메추 : {dinner}")

위 소스 코드에서 *를 이용해 두 문장을 구분하는 구분선을 만들어보았습니다.

2.2) 문자열 인덱싱, 슬라이싱

"Python"이라는 문자열 중에서 "Py"라는 글자만 구하고 싶다면 인덱싱과 슬라이싱을 이해하면 됩니다. 파이썬에서는 슬라이싱(slice) 기능을 제공하는데, 다음과 같이 가져오고 싶은 문자열의 범위를 지정하면 됩니다.

# index 익히기
>>> phone_num = "010-5060-****"
>>> print(phone_num[1])
'1'

# slice 익히기, 010만 출력해 보겠습니다.
>>> phone_num = "010-5060-****"
>>> print(phone_num[:3])
'010'

참고 : 인덱싱, 슬라이싱

2.3) 문자열 함수

문자열 내 가지고 있는 함수를 의미하며 내장함수라고 칭하기도 합니다. 형태 : (변수이름.)

소문자로 변환 : .lower()

대문자로 변환 : .upper()

양끝 공백 제거 : .strip()

문자열 길이 : len(변수이름)

사용가능한 함수 목록 보기 : dir(변수이름) [참고 : 문자열 함수 알아보기 ](https://wikidocs.net/13)

🧨 어려웠던 내용

해당 교육 과정에 참여하기 전, 파이썬에 대한 강의를 짧게 들은 적이 있습니다. 3시간 10분 강의였는데요, python 강의를 몰아보고싶은 분들은 참고하시면 좋을 것 같습니다.

참고 : 파이썬 강의 몰아보기

👩🏻‍💻 보충한 내용

교육 과정에서 배운 내을 base로 하되, 더 자세히 공부하려고 노력했습니다. 실습 내용을 직접 만들어 보는 등 학습 내용을 보충하였습니다 :)

🤔 느낀점

배워야 할 내용이 정말 많다고 느꼈습니다. 파이썬을 미리 학습한 경험이 있어서 강의를 쉽게 따라갔지만 이후에 Pandas, EDA 등의 내용을 배울 때를 대비해 미리 파이썬을 정복할 것입니다!

📄 참고문헌

1. 점프 투 파이썬 2. Python 언어 공부

Jaeyoung.log

[Pandas] Series, DataFrame 이해하기 (2)

Series

📍series와 list의 차이

(i) 연산

(ii) 인덱스

(iii) index와 value

DataFrame

📍데이터 선택 방법

Reference

[Pandas] Series, DataFrame 이해하기 (1)

1. Series

series 만드는 방법

2. DataFrame

데이터프레임 만드는 방법

데이터프레임 속성값

데이터프레임 정렬

Reference

[Python] 백준(Baekjoon) 문제풀이 - 조건문(2)

📝 문제

📍 14681번 문제 - 사분면 고르기

💡 문제 해결법 구조화

💡 문제 풀이

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

2. 사분면 출력 확인

📍 2884번 문제 - 알람 시계

💡 문제 해결법 구조화

💡 문제 풀이

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

2. 알람 시계 설정값 출력

🧨 어려웠던 내용

🤔 느낀점

[Python] EDA - 수치형 데이터 (2)

🎯목표 설정

👩🏻‍💻이해 과정

1. 데이터 로드

2. 데이터 구조

1) 데이터 형태 확인하기

2) 데이터 정보 확인하기

3. 데이터 시각화

📍Scatterplot 시각화

📍회귀, 잔차 시각화

💡회귀 분석을 하는 이유?

📍Lmplot 시각화

📍Jointplot 시각화

📍Pairplot 시각화

📍Lineplot 시각화

📍Relplot 시각화

💡 replot를 사용하는 이유?

📍Heatmap 시각화

💡 상관계수

💡 피어슨 상관계수

🤔느낀점

📄참고문헌

[Python] 백준(Baekjoon) 문제풀이 - 조건문(1)

📝 문제

📍 1330번 문제 - 두 수 비교하기

💡 문제 해결법 구조화

💡 문제 풀이

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

2. 비교연산자 출력 확인

📍 9498번 문제 - 시험 성적

💡 문제 해결법 구조화

💡 문제 풀이

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

2. 시험 성적 출력 확인

👩🏻‍💻 코드 적용

기사 시험 합격 불합격 공지

👩🏻‍💻 코드 실행

1. 범위 제한 되어있는지 확인

2. 결과 출력

🧨 어려웠던 내용

🤔 느낀점

📄 참고문헌

[SQL] 해커랭크(HackerRank) 문제풀이 3

📝 문제