j-jae0

[Pandas] 결측치 제거 및 채우기 (Handling Missing Data) - Cheat Sheet🔥

Thu, 27 Oct 2022 08:26:13 GMT

목표 설정

Pandas Cheat Sheet 에서 누락값(결측치 값) 다루는 방법 학습하기
학습 부분
- Handling Missing Data
  - 결측치 제거 : dropna
  - 결측치 채우기 : fillna

📍실습에 사용할 데이터

import pandas as pd
import numpy as np

df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                 columns=list("ABCD"))

df

	A	B	C	D
0	NaN	2.0	NaN	0.0
1	3.1	4.0	NaN	1.0
2	NaN	NaN	NaN	NaN
3	NaN	3.0	NaN	4.0

결측값 제거

df.dropna()

📍파라미터 정리

axis : 축 (기본값 : axis=0 행 / axis=1은 열)
- 누락값이 포함된 행 또는 열 삭제
how : 제거방법
- any : NA 값이 있으면 해당 행이나 열 삭제 (기본값)
- all : 모든 값이 NA 이면 해당 행이나 열 삭제
thresh : 정수 입력 (선택사항)
- thresh=3 이면, NA가 아닌 값이 3개 이상인 경우만 제거하지 않음
subset : 컬럼명 (선택사항)
- subset=[컬럼명1, 컬럼명2] 이면, 두 컬럼에 대해서만 누락값을 찾도록 지정할 수 있음
inplace : 수정여부 (기본값 False)
- inplace=True 하면, 데이터프레임을 수정

👩🏻‍💻실습으로 배우는 dropna

열에 포함된 값 전체가 결측치일 때만 제거
```
df.dropna(axis=1, how="all")
```
A B D

0 NaN 2.0 0.0

1 3.0 4.0 1.0

2 NaN NaN NaN

3 NaN 3.0 4.0
위 결과물을 저장하고자 할 때 inplace=True 넣어주면 된다.

	A	B	D
0	NaN	2.0	0.0
1	3.0	4.0	1.0
2	NaN	NaN	NaN
3	NaN	3.0	4.0

결측값 채우기

df.fillna()

채워줄 값만 넣게 되면, 모든 결측치 값에 채워지게 된다.
특정 값으로 채우려면 values

👩🏻‍💻실습으로 배우는 fillna

누락값 부분을 특정 값으로 채우기
```
df.fillna("결측값")
```
A B C D

0 결측값 2.0 결측값 0.0

1 3.1 4.0 결측값 1.0

2 결측값 결측값 결측값 결측값

3 결측값 3.0 결측값 4.0
딕셔너리 값으로 열을 기준으로 다른 값 채워주기
```
values = {"A": "A", "B": "B", "C": "C", "D": "D"}
```

	A	B	C	D
0	결측값	2.0	결측값	0.0
1	3.1	4.0	결측값	1.0
2	결측값	결측값	결측값	결측값
3	결측값	3.0	결측값	4.0

df.fillna(value=values)

||A|B|C|D|
|:---------|:---------|:---------|:---------|:---------|
|0    |A|2.0|C|0.0|
|1    |3.1|4.0|C|1.0|
|2    |A|B|C|D|
|3    |A|3.0|C|4.0|


## 적용을 하게 된다면?
- 결측값이 많은 데이터프레임에서 각 열별로, 다른 평균값을 넣어줄 일이 있다면 value 파라미터를 사용하면 좋을 것 같다!



-------
# 참고문헌
- [[PDF] Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [[판다스 공식 문서] pandas.DataFrame.dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html?highlight=dropna#pandas.DataFrame.dropna)
- [[판다스 공식 문서] pandas.DataFrame.fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html?highlight=fillna#pandas.DataFrame.fillna)

[Pandas] sorting, reindexing, renaming - Cheat Sheet🔥

Tue, 25 Oct 2022 19:22:04 GMT

목표 설정

Pandas Cheat Sheet 에서 데이터 재구조화 부분 학습하기
학습 부분
- Reshaping Data - Change layout, sorting, reindexing, renaming
  - sort_values
  - rename
  - sort_index
  - reset_index
  - drop

데이터 정렬

df.sort_values(by=컬럼명, ascending=False)

컬럼에 대한 값을 정렬 (행을 기준)
ascending=False 를 넣어주지 않으면, 기본값인 작은 값 -> 큰 값 (오름차순) 정렬
ascending=True 를 넣어주면, 큰 값 -> 작은 값 (내림차순) 정렬
해당 값을 이후에도 사용하려면, 변수에 할당해 주어야 한다.
만약 컬럼에 대한 값이 A, b, C, d 처럼 약간의 차이가 있다면?
- key 값을 사용하면 됨!
- 예 : df.sort_value(by="컬럼명", key=lambda x: x.str.lower())

인덱스 및 컬럼명 변경

df.rename(index={이전인덱스명: 바꿀인덱스명, ...}, columns={이전컬럼명: 바꿀컬럼명, ...})

index 이름 바꿀 땐, index 만 사용!
columns 이름 바꿀 땐, columns 만 사용!
변경 후 다시 변수에 할당해 주어야 저장된다.
- 예 : df = df.rename(columns={"연도정보": "연도"})
- 연도정보 라는 컬럼명을 연도로 바꿀 때, 다시 df에 저장해 주어야 함
  
  인덱스 정렬
  df.sort_index()
위 코드와 같이 사용하면, 오름차순 정렬 (인덱스값 기준)
ascending=False 추가 시, 내림차순 정렬
해당 값을 이후에도 사용하려면, 변수에 할당해 주어야 한다.
만약 인덱스 값이 A, b, C, d 처럼 약간의 차이가 있다면?
- key 값을 사용하면 됨!
- 예 : df.sort_index(key=lambda x: x.str.lower())
  
  인덱스 정렬 초기화
  df.reset_index()
위 코드와 같이 사용하면, 기존에 인덱스로 저장되어있던 값들이 index라는 이름을 가진 컬럼으로 생성되고, 인덱스값은 0 ~ 정수로 변한다.
기존 인덱스 값을 0 ~ 정수로 초기화 시키려면, drop=True 를 넣어주면 된다.
해당 값을 이후에도 사용하려면, 변수에 할당해 주어야 한다.

특정 인덱스 및 컬럼 제거
df.drop(index=[인덱스명1, 인덱스명2, ...], columns=[컬럼명1, 컬럼명2, ...])
지정한 특정 인덱스 및 컬럼을 제거할 수 있음
해당 값을 이후에도 사용하려면, 변수에 할당해 주어야 한다.

[Pandas] 데이터 재구조화(Reshaping) Pivot, Pivot_table - Cheat Sheet🔥

Sun, 23 Oct 2022 19:39:34 GMT

목표 설정

Pandas Cheat Sheet 에서 데이터 재구조화 학습하기
학습 부분
- Reshaping Data - Change layout, sorting, reindexing, renaming
  - Pivot
  - Pivot_table

Reshaping

재구조화(Reshaping data) 종류

pd.melt(df) : 열을 모아 행으로 녹이기
pd.concat([df1, df2]) : 여러 데이터프레임 하나로 병합
df.pivot(columns='var', values='val') : 행을 열로 올리기
pd.pivot_table(df, values='val', index=[], columns=[], aggfunc=func) : 연산이 가능한 피벗 테이블
- **pivot 과 pivot_table 차이**
pivot은 집계함수를 사용할 수 없는 반면, pivot_table 은 aggfunc 을 사용할 수 있음

실습에 사용할 데이터

Dataset : KOSIS 의료기관종별 환자 수 (2014 ~ 2017)

Dataset 미리보기 ( 아래 코드의 결과물 )

# 데이터 로드
df = pd.read_excel(file_name)
# 컬럼을 구성하고 있는 연월 정보를 행으로 녹이기
df_1 = df[df["의료기관종별(1)"]!="의료기관종별(1)"].copy()
df_1 = df_1.melt(id_vars="의료기관종별(1)", var_name="연도", value_name="환자수")
df_1.head()

	의료기관종별(1)	연도	환자수
0	전체	2014	9105050.0
1	상급종합병원	2014	1615801.0
2	종합병원	2014	2929371.0
3	병원	2014	2751873.0
4	요양병원	2014	267349.0

Pivot

index : 피봇테이블에서 index 로 설정할 컬럼명
columns : 피봇테이블에서 colum 으로 설정할 컬럼명
values : 데이터를 구성하는 값

Pivot_table

values : 데이터를 구성하는 값
index : 피봇테이블에서 index 로 설정할 컬럼명
columns : 피봇테이블에서 colum 으로 설정할 컬럼명
aggfunc : 연산 기능
fill_value : 결측치를 채우는 기능

실습으로 배우는 Pivot

목표 : 행으로 구성하고있는 의료기관종별 데이터를 열로 올리고, 연도를 인덱스로 넣기

df_2.pivot(index="연도", columns="의료기관종별(1)")["환자수"].head()
# 위 코드와 같은 기능을 하는 코드
df_2.pivot(index="연도", columns="연도기관종별(1)", values="환자수").head()

의료기관종별(1)	병원	보건소	보건의료원	보건지소	보건진료소	상급종합병원	요양병원	의원	전체	조산원	종합병원	치과병원	치과의원	한방병원	한의원
연도
2014	2751873.0	-	3257.0	-	-	1615801.0	267349.0	1301524.0	9105050.0	-	2929371.0	3499.0	2.0	202590.0	29784.0
2014.1	60630401.0	5934208.0	634956.0	3949565.0	4543564.0	34915453.0	3018508.0	537948803.0	892637667.0	-	62107328.0	3299112.0	62456280.0	3934930.0	109264559.0
2014.2	2841399.0	-	3318.0	-	-	1642113.0	358071.0	1327641.0	9410734.0	-	2995106.0	3534.0	2.0	209154.0	30396.0
2015	2866076.0	-	3126.0	-	-	1655144.0	278419.0	1235564.0	9289026.0	-	2968978.0	3504.0	6.0	245320.0	32889.0
2015.1	61411640.0	5577059.0	589570.0	3646317.0	4419824.0	35945441.0	2789817.0	531295541.0	889305558.0	-	62302768.0	3633522.0	65292770.0	4149692.0	108251597.0

결과 : pivot 을 사용하면 원하는 컬럼을 index, columns, values 값으로 지정할 수 있다.
위 테이블을 보면 연도가 마치 하나의 행으로 자리잡고 있는 것 처럼 보이지만, 출력된 값을 보면 아래와 같다.
아래 그림과 같이 pivot 테이블의 구조를 형성한다.

참고문헌

[Pandas] 데이터 재구조화(Melt, Concat) - cheat sheet🔥

Sat, 22 Oct 2022 21:18:42 GMT

목표 설정

Pandas Cheat Sheet 에서 데이터 재구조화 중 melt, concat 학습하기
학습 부분
- Reshaping Data - Change layout, sorting, reindexing, renaming
  - Melt
  - Concat

Reshaping

재구조화(Reshaping data) 종류

pd.melt(df) : 열을 모아 행으로 녹이기
pd.concat([df1, df2]) : 여러 데이터프레임 하나로 병합
df.pivot(columns='var', values='val') : 행을 열로 올리기
pd.pivot_table(df, values='val', index=[], columns=[], aggfunc=func) : 연산이 가능한 피벗 테이블

실습에 사용할 데이터

Dataset : KOSIS 의료기관종별 환자 수 (2014 ~ 2017)
Dataset 미리보기 ( df.head() 결과물 )

	의료기관종별(1)	2014	2014.1	2014.2	2015	2015.1	2015.2	2016	2016.1	2016.2	2017	2017.1	2017.2
0	의료기관종별(1)	입원환자 (건)	외래환자 (회)	퇴원환자 (건)	입원환자 (건)	외래환자 (회)	퇴원환자 (건)	입원환자 (건)	외래환자 (회)	퇴원환자 (건)	입원환자 (건)	외래환자 (회)	퇴원환자 (건)
1	전체	9105050.0	892637667.0	9410734.0	9289026.0	889305558.0	9616010.0	9668108.0	924554212.0	9992759.0	9490057.0	925584924.	9825940.0
2	상급종합병원	1615801.0	34915453.0	1642113.0	1655144.0	35945441.0	1683153.0	1783450.0	38193925.0	1810729.0	1833377.0	39140685.0	1861502.0
3	종합병원	2929371.0	62107328.0	2995106.0	2968978.0	62302768.0	3039013.0	3171355.0	66437801.0	3238960.0	3098763.0	67228052.0	3169089.0
4	병원	2751873.0	60630401.0	2841399.0	2866076.0	61411640.0	2959724.0	2920029.0	64220984.0	3009903.0	2771038.0	63776830.0	2852455.0

Melt

id_vars : 그대로 나둘 Column 명
value_vars : 녹일 Column 명
var_name : 열에 사용할 이름 (행으로 녹일 때, 열로 지정할 이름)
value_name : 열의 값에 사용할 이름 (행으로 녹일 때, 열의 값에 지정할 이름)

실습으로 배우는 Melt

목표 : Columns 을 구성하고있는 연월 데이터를 행으로 녹이기

df_melt = df.melt(id_vars='의료기관종별(1)', var_name="연도", value_name="환자수")
df_melt.head()

	의료기관종별(1)	연도	환자수
0	의료기관종별(1)	2014	입원환자 (건)
1	전체	2014	9105050.0
2	상급종합병원	2014	1615801.0
3	종합병원	2014	2929371.0
4	병원	2014	2751873.0
- 결과 : 행에 있으면 좋을 데이터가 열로 구성되어 있을 때, Melt 를 이용해 쉽게 DataFrame의 구조를 변경할 수 있다.

Concat

axis : 행을 기준으로 붙이기 (0 : 기본값), 열을 기준으로 붙이기 (axis=1)
ignore_index=True : 인덱스값 reset 하는 방법

실습으로 배우는 Concat

목표 : 나누어져있는 두 데이터프레임을 합치기

# 2014년, 2015년 데이터 일부 가져와서 변수에 할당하기
df1 = df_melt[df_melt["연도"] == '2014'][:2]
df2 = df_melt[df_melt["연도"] == '2015'][:2]

# 2014년, 2015년 병합 (병합기준 : default=행)
df_concat = pd.concat([df1, df2])
df_concat

	의료기관종별(1)	연도	환자수
0	의료기관종별(1)	2014	입원환자 (건)
1	전체	2014	9105050.0
48	의료기관종별(1)	2015	입원환자 (건)
49	전체	2015	9289026.0
```python
# 인덱스 값 reset 하여 가져오는 방법
df_concat = pd.concat([df1, df2], ignore_index=True)
df_concat
```
	의료기관종별(1)	연도	환자수
:---------	:---------	:---------	:---------
0	의료기관종별(1)	2014	입원환자 (건)
1	전체	2014	9105050.0
2	의료기관종별(1)	2015	입원환자 (건)
3	전체	2015	9289026.0
```python
# 열을 기준으로 데이터 병합
df_concat = pd.concat([df1, df2], axis=1)
df_concat
```
	의료기관종별(1)	연도	환자수
:---------	:---------	:---------	:---------
0	의료기관종별(1)	2014	입원환자 (건)
1	전체	2014	9105050.0
48	NaN	NaN	NaN
49	NaN	NaN	NaN
- 주의사항
`ignore_index` 는 `axis=1`와 함께 사용하면 컬럼명을 기준으로 reset 해준다.
```python
df_concat = pd.concat([df1, df2], axis=1, ignore_index=True)
df_concat
```
	0	1	2
:---------	:---------	:---------	:---------
0	의료기관종별(1)	2014	입원환자 (건)
1	전체	2014	9105050.0
48	NaN	NaN	NaN
49	NaN	NaN	NaN

참고문헌

[Pandas] 데이터 요약하기 - cheat sheet🔥

Fri, 21 Oct 2022 17:06:13 GMT

목표 설정

Pandas Cheat Sheet 에서 데이터 요약, 기술통계 학습하기
학습 부분
- Summarize Data

기술 통계

기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법

데이터프레임을 이루고 있는 정보 요약 df.info() : 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음

데이터프레임의 행, 열의 수 df.shape : (행의수, 열의수) 형식 확인 가능
데이터프레임의 행의 수 len(df)
특정 컬럼의 unique 값에 대한 빈도수 df[컬럼명].value_counts()
특정 컬럼의 unique 값 df[컬럼명].unique()
특정 컬럼의 unique 개수 df[컬럼명].nunique()
수치형 변수에 대한 기술통계 df.describe() : 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인
범주형 변수에 대한 기술통계 df.describe(include="object") 또는 df.describe(include="O") : 범주형 변수에 대한 count, unique, top, freq 값 확인
집계 함수
- df.sum(axis, skipna)
  - 행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)
  - skipna(기본값:True) : 결과 계산 시, NA/Null 제외
- df.count(axis)
  - 행을 기준으로 Null값 제외 셀의 개수(defaulf)
  - 열을 기준으로 Null값 제외 셀의 개수(axis=1)
- df.median() : 중앙값 반환
- df.quantile(q, axis) : 요청된 축에 대해 지정된 분위수의 값을 반환
  - q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1
  - 행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)
  - 예) df.quantile([.25, .75]) : 1사분위와 3사분위에 해당하는 값 반환
- df.min() : 최솟값
- df.max() : 최댓값
- df.mean() : 평균
- df.var() : 분산
- df.std() : 표준편차

참고문헌

[Pandas] 데이터 인덱싱 및 선택 - cheat sheet🔥

Thu, 20 Oct 2022 20:41:16 GMT

목표 설정

Pandas Cheat Sheet 에서 Sebset 부분 학습하기
학습 부분
- Subset Observations - rows
- Subset Variables - columns
- Subsets - rows and columns

Indexing

데이터프레임(DataFrame) 에서 특정한 데이터만 골라내는 것을 인덱싱(indexing) 이라고 한다.
실습에 사용할 Dataset : df = sns.load_dataset("mpg")

	mpg	cylinders	displacement	horsepower	weight	acceleration	model_year	origin
0	18.0	8	307.0	130.0	3504	12.0	70	usa
1	15.0	8	350.0	165.0	3693	11.5	70	usa
2	18.0	8	318.0	150.0	3436	11.0	70	usa
3	16.0	8	304.0	150.0	3433	12.0	70	usa
4	17.0	8	302.0	140.0	3449	10.5	70	usa

행(row)

📍특정 조건에 맞는 행 가져오기

기본 구조

df[df.컬럼명 + 조건]

적용해 보기

df[df.mpg > 16]

	mpg	cylinders	displacement	horsepower	weight	acceleration	model_year	origin
0	18.0	8	307.0	130.0	3504	12.0	70	usa
2	18.0	8	318.0	150.0	3436	11.0	70	usa
4	17.0	8	302.0	140.0	3449	10.5	70	usa

알아두기

조건식을 여러개 사용할 수 있음

# mpg 값이 15보다 크고 horsepower가 150보다 큰 경우의 데이터 가져오기
df[(df["mpg"]>15)&(df["horsepower"]>150)]

& : 교집합 (and), | : 합집합 (or)

📍중복 제거(drop_duplicates)

기본 구조

df.drop_duplicates(subset=[컬럼명], keep={'last' , 'first' 또는 False})

적용해 보기

df.drop_duplicates(subset=['mpg', 'cylinders'])

	mpg	cylinders	displacement	horsepower	weight	acceleration	model_year	origin
0	18.0	8	307.0	130.0	3504	12.0	70	usa
1	15.0	8	350.0	165.0	3693	11.5	70	usa
3	16.0	8	304.0	150.0	3433	12.0	70	usa
4	17.0	8	302.0	140.0	3449	10.5	70	usa

알아두기
- 중복제거한 것은, 변수에 할당해주지않으면 저장이 안됨
- subset 에 넣어준 컬럼을 기준으로 중복 제거
- keep을 작성하지 않으면 중복제거 시, default 값인 'first' 첫 번째 요소를 남기고 나머지 제거
  - 'first': 중복 시, 첫 번째 요소만 남기기
  - 'last' : 중복 시, 마지막 요소만 남기기
  - False : 중복 시, 남김없이 제거

📍특정 데이터 불러오기

상위 n개 데이터 불러오기

df.head(n) : n 작성안할 시, default 값인 5로 실행

하위 n개 데이터 불러오기

df.tail(n) : n 작성안할 시, default 값인 5로 실행

n개 데이터 랜덤으로 불러오기

df.sample(n) : n 작성안할 시, default 값인 1로 무작위로 데이터 반환

전체 데이터의 특정비율로 랜덤 데이터 불러오기

df.sample(frac=n) : 0<=n<=1 로 작성 (0 입력 시, 데이터 반환X, 1 입력 시, 전체 데이터 반환)

특정 컬럼의 값이 가장 큰 데이터 n개 불러오기

df.nlargest(n, columns, keep='first') : keep의 default가 'first'이고, 'first', 'last', 'all'을 사용할 수 있음

특정 컬럼의 값이 가장 작은 데이터 n개 불러오기

df.nsmallest(n, columns, keep='first') : keep의 default가 'first'이고, 'first', 'last', 'all'을 사용할 수 있음

열(column)

컬럼 선택하는 방법 : df[컬럼명] or df.컬럼명

📍특정 컬럼들만 뽑아오기

방법 1. df[[컬럼명1, 컬럼명2 ,...]]

방법 2. df.filter(regex='regex')

기본 구조 df.filter(items, like, regex, axis)

적용해 보기

# 컬럼명으로 가져오기
df.filter(items=['mpg', 'horsepower', 'origin'])

	mpg	horsepower	origin
0	18.0	130.0	usa
1	15.0	165.0	usa
3	16.0	150.0	usa
4	17.0	140.0	usa
```python
# 정규표현식으로 가져오기 => ^mp : mp로 시작하는!
# axis = 1 (열) axis = 0 (행)
df.filter(regex='^mp', axis=1)
```
	mpg
:---------	:---------
0	18.0
1	15.0
3	16.0
4	17.0
```python
# 특정 문자열을 포함하고 있는 컬럼 또는 행으로 가져오기 => del 이 들어간 컬럼
# axis = 1 (열) axis = 0 (행)
df.filter(like='del', axis=1)
````
	model_year
:---------	:---------
0	70
1	70
3	70
4	70

행과 열(row and column)

📍위치로 데이터 뽑아오기

기본 구조

df.iloc[] : 행, 열 또는 행-열 불러올 수 있음

적용해 보기

# 특정 행만 가져오기 (행을 0~2까지 가져오기)
df.iloc[:3]

	mpg	cylinders	displacement	horsepower	weight	acceleration	model_year	origin
0	18.0	8	307.0	130.0	3504	12.0	70	usa
1	15.0	8	350.0	165.0	3693	11.5	70	usa
2	18.0	8	318.0	150.0	3436	11.0	70	usa
```python
# 특정 열만 가져오기 (열을 1~4까지 가져오기)
df.iloc[:, 1:5]
```
	cylinders	displacement	horsepower	weight
:---------	:---------	:---------	:---------	:---------
0	8	307.0	130.0	3504
1	8	350.0	165.0	3693
2	8	318.0	150.0	3436
3	8	304.0	150.0	3433
4	8	302.0	140.0	3449
```python
# 특정 행, 열에 대한 데이터만 가져오기
df.iloc[:2, 1:5]
```
	cylinders	displacement	horsepower	weight
:---------	:---------	:---------	:---------	:---------
0	8	307.0	130.0	3504
1	8	350.0	165.0	3693

알아두기
- df.head() => df.iloc[:5] 기능
- df.tail() => df.iloc[-5:] 기능

📍label로 데이터 뽑아오기

레이블 : 단일 레이블(0 또는 'age'), list/array(['mpg', 'weight']), 슬라이스객체('mpg':'weight')

기본 구조

df.loc[] : 행, 열 또는 행-열 불러올 수 있음

적용해 보기

# 특정 행만 가져오기 (레이블이 2인 행부터 4인 행까지 가져오기)
df.loc[2:4]

	mpg	cylinders	displacement	horsepower	weight	acceleration	model_year	origin
2	18.0	8	318.0	150.0	3436	11.0	70	usa
3	16.0	8	304.0	150.0	3433	12.0	70	usa
4	17.0	8	302.0	140.0	3449	10.5	70	usa
```python
# 특정 열만 가져오기 (레이블이 0~2인 행, "mpg" 열)
df.loc[0:2, "mpg"]
```
```
0 18.0
1 15.0
2 18.0
Name: mpg, dtype: float64
```
```python
# 특정 행-열 가져오기 (dataframe)
df.loc[0:2, ["mpg","cylinders"]]
```
	mpg	cylinders
:---------	:---------	:---------
0	18.0	8
1	15.0	8
2	18.0	8

알아두기
- df.loc 는 조건식을 추가하여 특정 조건에 대한 데이터를 선택해올 수 있음
```
df.loc[df.mpg < 18, ["horsepower", "weight", "acceleration"]]
```
  horsepower weight acceleration
  
  1 165.0 3693 11.5
  
  3 150.0 3433 12.0
  
  4 140.0 3449 10.5

	horsepower	weight	acceleration
1	165.0	3693	11.5
3	150.0	3433	12.0
4	140.0	3449	10.5

참고문헌

[Pandas] DataFrame의 컬럼 선택, 추가, 삭제하기 - del, pop, drop, insert

Wed, 19 Oct 2022 17:36:49 GMT

DataFrame

행(row) 과 열(column) 로 이루어진 2차원 자료 구조
이미지 : 데이터프레임 구조

컬럼(Column) 선택

기본 구조

df["불러올 컬럼명"]

적용해 보기

df = pd.DataFrame({"주문수": [3, 1, 4, 2], "판매가": [500, 1000, 2000, 5500]})
df["주문수"]

0    3
1    1
2    4
3    2
Name: 주문수, dtype: int64

알아두기
- dataframe 에서 특정 컬럼을 가져오면, Name, dtype 정보도 출력됨
  - Name 은 컬럼명, dtype 은 데이터를 구성하고 있는 데이터의 타입
- 데이터 타입은 pandas.core.series.Series 으로 불러와짐

컬럼(Column) 추가

📍맨 마지막에 컬럼 추가

기본 구조

df["새로추가할 컬럼명"] = value 값 넣기

적용해 보기

df["픽업여부"] = "Y"
df["총매출"] = df["주문수"] * df["판매가"]
df

  주문수 판매가 픽업여부 총매출
0    3    500        Y    1500
1    1    1000    Y    1000
2    4    2000    Y    8000
3    2    5500    Y    11000

📍원하는 위치에 컬럼 추가(insert)

기본 구조

df.insert(위치, 컬럼명, 컬럼값)

적용해 보기

df.insert(1, "단골여부", ["N", "Y", "Y", "N"])
df

  주문수 단골여부 판매가    픽업여부    총매출
0    3    N       500      Y        1500
1    1    Y       1000      Y        1000
2    4    Y       2000      Y        8000
3    2    N       5500      Y        11000

알아두기
- insert 에서, 위치값은 int로 넣기
- insert 는 변수에 다시 할당하지 않아도 됨
- 컬럼 위치는 앞에서 부터 0으로 시작 함

컬럼(Column) 삭제

📍del

기본 구조

del df["컬럼명"]

적용해 보기

del df["주문수"]
df

 단골여부    판매가 픽업여부    총매출
0    N    500        Y    1500
1    Y    1000    Y    1000
2    Y    2000    Y    8000
3    N    5500    Y    11000

알아두기
- del 는 변수에 다시 할당하지 않아도 됨

📍pop

기본 구조

df.pop("컬럼명")

적용해 보기

df.pop("픽업여부")
df

 단골여부    판매가    총매출
0    N    500        1500
1    Y    1000    1000
2    Y    2000    8000
3    N    5500    11000

알아두기
- pop 는 del 과 동일하게 변수에 다시 할당하지 않아도 됨

📍drop

기본 구조

df = df.drop(labels="컬럼명", axis=0또는1)

적용해 보기

# 열을 기준으로 단골여부 컬럼 삭제
df = df.drop(labels="단골여부", axis=1)
df

    판매가    총매출
0    500        1500
1    1000    1000
2    2000    8000
3    5500    11000

# 행을 기준으로 0번 인덱스 행 삭제
df = df.drop(labels=0, axis=0)
df

    판매가    총매출
1    1000    1000
2    2000    8000
3    5500    11000

알아두기
- drop 는 del, pop 과 다르게 변수에 다시 할당해주어야 저장이 됨
- axis = 0 : 행을 기준, axis = 1 : 열을 기준

참고문헌

판다스 공식 문서 : Intro to data structures

[Python] 파이썬 프로파일링(Profiling) - time, timeit

Tue, 18 Oct 2022 17:16:39 GMT

프로파일링(Profiling) 이란?

어떤 것이 더 나은지 특정 코드의 성능을 조사함
속도가 어느정도 차이나는지 비교해볼 수 있음

%time

한 번 실행으로 실행되는데 소요된 time 측정

%time 코드

%timeit

여러 번 실행하여 소요된 평균 time 측정 (100000 loops)

%timeit 코드

적용

# 1번 방법 
%timeit list(map(int, '1 2 3 4 5 6'.split()))

# 2번 방법 
%timeit list(int(x) for x in '123456')

1번 결과 : 612 ns ± 12.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
2번 결과 : 1.63 µs ± 29.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

결론 : 1번 방법이 실행되는데 더 적은 시간이 소요된다. (효율적임)

[Pandas] 판다스의 구조 - Series, DataFrame 생성하기

Tue, 18 Oct 2022 16:46:18 GMT

Pandas 란?

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.

엑셀과 같이 행, 열로 된 구조를 다루는 데이터 분석 도구
DataFrame 과 Series 이해 필요

How to load Pandas

import pandas as pd

Series

1차원 자료구조
1차원 리스트와 유사하지만 Series는 index에 이름을 부여할 수 있음

DataFrame

2차원 자료구조
행 (row) 과 열(column) 으로 이루어 짐

시리즈 (Series)

Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). The axis labels are collectively referred to as the index

list 와 다른 점 : 시리즈는 index를 사용할 수 있음

How to create a Series

s = pd.Series(data, index=index, name="name")

data ```
python dictionary
an ndarray
a scalar Value ```
index ```
인덱스를 지정하지 않으면, 0을 시작으로 정수로 자동으로 생성 됨
반면에, data에 딕셔너리를 넣으면 key 값이 index로 들어감 => 따로 지정해주지 않아도 됨 ```

Name

name = "" 로 시리즈에 이름을 부여할 수 있음
=> DataFrame 에선, column 하나를 셀렉하여 이름을 부여할 수 있음

데이터프레임 (DataFrame)

DataFrame is a 2-dimensional labeled data structure with columns of potentially different types.

How to create a DataFrame

d = pd.DataFrame(data, index=index, columns=columns, dtype=dtype)

data ```
Dict of 1D ndarrays, lists, dicts, or Sereis
2D numpy.ndarray
Structured or record ndarray
A Series
Another DataFrame ```
index ```
인덱스 지정하지 않으면, 0을 시작으로 정수로 자동으로 생성 됨
인덱스를 지정하려면, index = [] 로 설정하면 됨 ```
columns ```
data에 딕셔너리 형태를 넣으면, key 값이 컬럼명이 됨
columns = [] 에 넣어줘도 됨 ```
dtype ```
데이터 타입을 지정할 수 있음
dtype = float (정수를 넣어도 실수형태로 데이터 만들어 짐)

참고문헌

판다스 공식 문서 : Intro to data structures

[Python] 파이썬 제어문과 함수 이해하기 - for, while, def, 연산자

Tue, 18 Oct 2022 15:48:20 GMT

목표 설정

멋쟁이사자 AI 스쿨 2일차(220920) 학습 내용 정리하기
파이썬 프로그램의 구조를 만드는 제어문(조건문, 반복문)과 함수 이해하기

조건문

if문은 조건을 판단하여 해당 조건에 맞는 상황을 수행하는데 쓰는 것으로, 기본 구조는 if와 else로 구성됨

들여쓰기 : 4개의 공백 or Tab
if 조건문 뒤에 콜론(:) 사용하기
elif : 여러번 사용할 수 있다. / 조건문을 넣어야 한다.

else : 한번만 사용할 수 있다. / 조건문을 넣지 않는다.

number = int(input("숫자를 입력하세요 : "))
if number % 2 == 0:
  print("입력하신 숫자는 짝수입니다.")
else:
  print("입력하신 숫자는 홀수입니다.")

조건 2개 이상일 때

해결 방법 : if-elif-else 사용 (elif는 1개 이상 사용 가능) / and, or, not 연산자 사용
```
# 컴퓨터와 하는 가위바위보 게임
from random import choice
```

auto = choice(['가위', '바위', '보']) user = input("가위, 바위, 보 : ")

if user in ['가위', '바위', '보']: if user == auto: print(f"user : {user}, computer : {auto} 으로 비겼습니다.") elif (user == '가위' and auto == '보') or (user == '바위' and auto == '가위') or (user == '보' and auto == '바위'): print(f"user : {user}, computer : {auto} 으로 이겼습니다.") else: print(f"user : {user}, computer : {auto} 으로 졌습니다.") else: print("옳지않은 값을 입력하셨습니다.")


## pass 문
- 조건문에서 아무일도 일어나지 않게 설정할 때 사용
```python
# 파티 참석 명단에 이미 등록되어있으면 아무것도 출력되지 않음
party = ["Jane", "Michael", "Rose", "Justin", "Jimmy"]
name = input("파티에 참석하신다면 이름을 입력하세요 : ")

if name in party:
    pass
else:
    print(f"{name}, 파티 참석 명단에 등록되었습니다.")

반복문

반복문은 반복해서 문장을 수행해야 할 경우 사용한다.

for문 : 반복할 횟수를 알 때 사용
while문 : 반복할 횟수를 모를 때 사용 ( 조건문이 참인 동안 순회 )
range(start, end, step), range(len()) 나 index와 요소를 함께 사용해야 되는 경우 enumerate() 사용하기

for 문

all_kr = "가나다라마바사아자차카타파하"
kr_list = []

for kr in all_kr:
    kr_list.append(kr)

kr_list # ['가', '나', '다', '라', '마', '바', '사', '아', '자', '차', '카', '타', '파', '하']

while 문

num = int(input("숫자를 입력해 주세요 : "))

while num != 0:
    print(num)
    num -= 1

함수

똑같은 내용을 반복해서 작성할 때, 하나의 함수로 정의해두면 편리하게 사용할 수 있음 예를 들어, 덧셈, 뺄셈, 곱셈, 나눗셈 등의 연산 기능이 가능한 함수를 만들어 두면 함수 한줄로 계산 가능

함수에는 매개변수와 전달인자(인수)가 있다.
- keywords 인자 : ** 두 개 (딕셔너리 형태로 전달)
- arguments 인자 : * 한 개 (리스트나 튜플 형태로 전달)

** 함수에서 인자 등 정보 찾을 때
? : Docstring
?? : Source
예) range? add? 함수??

# 계산기 기능을 하는 함수
def calculate(num1, num2, sign):
    if sign == '+':
        return num1 + num2
    elif sign == '-':
        return num1 - num2
    elif sign == '*':
        return num1 * num2
    elif sign == '/':
        return num1 / num2
    else:
        return "지원하지 않는 기능입니다."
calculate(3, 10, '*')

출력값 : 30

위 코드에서 num1, num2, sign 은 함수에서 매개변수이며 함수를 요청할 때 입력한 3, 10, '*'은 변수에 대한 인수이다.

연산자

연산자	설명
x or y	x와 y 둘 중에 하나만 참이어도 참
x and y	x와 y 모두 참이어야 참
not x	x가 거짓이면 참

in과 not in	설명
x in (리스트/튜플/문자열)	자료형 안에 x가 있으면 참
x not in (리스트/튜플/문자열)	자료형 안에 x가 없으면 참
-----
# 참고문헌
점프 투 파이썬 : 03장 프로그램의 구조를 쌓는다! 제어문

[Python] 파이썬 자료형 이해하기 - number, string, list, tuple, dictionary, set, bool

Tue, 18 Oct 2022 14:48:13 GMT

목표 설정

멋쟁이사자 AI 스쿨 1일차(220919) 학습 내용 정리하기
파이썬의 기초인 자료형 (Bool, 숫자, 문자열, 리스트, 딕셔너리, 튜플, 집합) 이해하기

자료형이란 ?

자료형은 데이터의 '종류'를 말하며 영어로는 Type이라고 한다. 정수라면 integer 타입, 실수라면 float 타입, 이름과 같이 문자 형태라면 string 타입 등 데이터 종류에는 여러가지 타입이 있다.

숫자형 (Number)

파이썬에서 수는 정수 (int) 와 실수 (float) 로 구분되며 천 단위 구분기호 없이 오로지 숫자로만 구성된 데이터 이다.

정수 (interger) : 소수점 이하의 값을 갖지 않는 수 ( 표현 방식 : 부호 없는 정수 / 부호 있는 정수 )
실수 (floating-point) : 소수점이 포함된 수 ( 표현 방식: 부호 없는 실수 / 부호 있는 실수 )

📍 숫자 연산

파이썬의 숫자는 덧셈, 뺄셈, 곱셈, 나눗셈의 사칙연산과 제곱, 나누기 연산 후 몫 또는 나머지를 구할 수 있음 특히, 거듭 제곱(**)은 정수형 상수의 표현 범위는 제한이 없으며, CPU 레지스터로 표현할 수 있는 크기보다 큰 정수를 다룰 때는 연산 속도가 느려짐

- 사칙연산 : 덧셈(+), 뺄셈(-), 곱셈(*), 나눗셈(/)
- 그 외 연산자 : 제곱(**), 나눗셈 후 몫(//), 나눗셈 후 나머지(%)

나눗셈을 할 때, 정수 / 정수 를 해도 결과는 항상 실수 (float) 로 반환 됨 덧셈, 뺄셈, 곱셈, 제곱에서 실수를 하나 이상 사용하면 실수형으로 반환 됨

문자열 자료형 (String)

문자열 (string) 이란 문자, 단어 등으로 구성된 문자들의 집합을 의미한다. 예를 들어 다음과 같은 문자열이다.

"내 이름은 김삼순"
"The Zen of Python"
'12345'

위 문자열을 보면 모두 따옴표 ("" 또는 '') 로 둘러싸여 있다.
파이썬에서 문자열은 여러 줄의 문장을 처리할 때 백슬래시 문자와 소문자 n을 조합한 \n 이스케이프 코드를 사용한다.

📍 문자열 연산

파이썬에서는 문자열을 더하거나 곱할 수 있다. (파이썬만의 장점!!!) 문자열 더해서 연결하기(Concatenation) : 문자열 끼리 덧셈 기호(+)를 사용하여 문자열을 연결할 수 있음 문자열 곱해서 반복하기 : 문자열과 숫자를 곱셈 기호()를 사용하여 문자열을 반복할 수 있음 *문자열 길이 구하기** : len() 함수를 사용해서 문자열의 총 길이를 구할 수 있음

📍 문자열 인덱싱과 슬라이싱

파이썬에서 문자열을 인덱싱, 슬라이싱으로 원하는 부분을 잘라내어 가져올 수 있음 인덱싱(Indexing) : 문자열의 인덱스 번호를 사용하여 문자열 안의 특정한 값을 뽑아냄 슬라이싱(Slicing) : 문자열의 인덱스 번호를 사용하여 문자열 안의 특정한 부분을 뽑아냄

📍 문자열 포매팅(Formatting)

문자열 포메팅이란 문자열 안에 어떤 값을 삽입하는 방법이다.

format 함수

# 1개의 값 넣기
>>> "오늘 강수확률은 {}% 입니다.".format(0)
'오늘 강수확률은 0% 입니다.'

# 2개 이상의 값 넣기
# .format(21, 11)로 넣어도 됨
>>> "오늘 서울의 최고온도는 {highest}°C 이고, 최저온도는 {lowest}°C입니다.".format(highest=21, lowest=11)
'오늘 서울의 최고온도는 21°C 이고, 최저온도는 11°C입니다.'

f-string

>>> f"오늘 서울지역의 최고온도는 {21}도, 최저온도는 {11}도 입니다."
'오늘 서울지역의 최고온도는 21도, 최저온도는 11도 입니다.'

📍 문자열 함수

문자 개수 세기 : .count()
문자 위치 알려주기 : .find() / .index()
문자열 삽입 : .join()
소문자로 변환 : .lower()
대문자로 변환 : .upper()
양쪽 공백 제거 : .strip()
왼쪽 공백 제거 : .lstrip()
오른쪽 공백 제거 : .rstrip()
문자열 바꾸기 : .replace(바뀌게 될 문자열, 바꿀 문자열)
문자열 나누기 : .split()
사용가능한 함수 목록 보기 : dir(변수이름)

리스트 자료형 (List)

리스트 는 대괄호로 묶여진 자료형을 말하며 아래 예시와 같은 형태임 대괄호는 리스트, 인덱싱, 슬라이싱에 사용됨

menu = ["짜장면", "짬뽕", "볶음밥", "탕수육", "깐풍기", "유산슬"]
menu_price = [4000, 5000, 5500, 18000, 20000, 30000]
menu_sourses = ["짜장면", ["춘장", "면", "채소", "고기"], "볶음밥", ["쌀", "새우", "채소", "소스"]]

📍 리스트 인덱싱과 슬라이싱

# 인덱싱
menu[0]  →  '짜장면'
menu_price[-1]  →  30000

# 슬라이싱
menu[:5]  →  ['짜장면', '짬뽕', '볶음밥', '탕수육', '깐풍기']
menu[::2]  →  ['짜장면', '볶음밥', '깐풍기']
menu_price[::-1]  →  [30000, 20000, 18000, 5500, 5000, 4000]

# 리스트 요소 불러오기
menu_sourses[1][0] →  '춘장'
menu_sourses[3][1] →  '새우'

📍 리스트 수정과 삭제

# 리스트 값 수정하기
>>> menu[0] = "짜장"
>>> menu
["짜장", "짬뽕", "볶음밥", "탕수육", "깐풍기", "유산슬"]

# 리스트 값 삭제하기 (del 함수)
>>> del menu[3:]
>>> menu
['짜장', '짬뽕', '볶음밥']

# 리스트 값 삭제하기 (remove 함수)
>>> menu.remove("짬뽕")
>>> menu
['짜장', '볶음밥']

📍 리스트 함수

문자열과 마찬가지로 리스트 변수 이름 뒤에 . 를 붙여 여러 가지 함수를 사용할 수 있다.

리스트에 요소 추가 (append) : 리스트 맨 뒤에 값 추가 됨
리스트 정렬 (sort)
리스트 뒤집기 (reverse)
위치 반환 (index) : 리스트 내의 요소 값을 넣으면 그 요소의 인덱스 값을 반환
리스트에 요소 삽입 (insert(a, b)) → a : 위치, b : 삽입할 요소
리스트 요소 제거 (remove) : 리스트에서 첫 번째로 나오는 요소 삭제
리스트 요소 끄집어내기 (pop) : 리스트의 맨 마지막 요소를 돌려주고, 그 요소 삭제
리스트에 포함된 요소 개수 세기 (count) : 리스트 안에 포함된 개수 반환
리스트 확장 (extend) : 리스트에 리스트를 더함 → 리스트 += [] 와 동일한 기능

튜플 자료형 (Tuple)

튜플(tuple) 은 몇 가지 점을 제외하곤 리스트와 거의 비슷하며 차이점은 아래와 같다.

리스트는 []로 둘러싸여있지만 튜플은 ()으로 둘러싼다.
리스트는 그 값의 생성, 삭제, 수정이 가능하지만, 튜플은 그 값을 바꿀 수 없다.
튜플은 콤마(,)가 있다면 괄호를 생략해도 tuple로 저장이 된다.
튜플의 요솟값은 한번 정하면, 내부의 값을 바꿀 수 없다.

characters = ('고길동', '둘리', '박희동')
new_characters = ('도우너', '또치', '마이콜')

# 인덱싱하기
characters[0]  →  '홍길동'

# 슬라이싱하기
characters[1:]  →  ('둘리', '박희동')

# 튜플 더하기
characters + new_characters  →  ('고길동', '둘리', '박희동', '도우너', '또치', '마이콜')

# 튜플 곱하기
new_characters * 2  →  ('도우너', '또치', '마이콜', '도우너', '또치', '마이콜')

# 튜플 길이 구하기
len(characters)  →  3

딕셔너리 자료형 (Dictionary)

딕셔너리 란? 값에게 이름을 붙여서 매칭시켜주는 것이다.

앞에서 배운 리스트, 튜플의 각 요소들은 어떤 값인지 알 수 없다.
하지만, 딕셔너리의 key : value 를 이용하면 값이 어떤 의미를 가지는지 알 수 있다.
형식 : {키 : 값} 으로, 아래와 같이 사용할 수 있다.
딕셔너리에서 key는 고유한 값으로, 중복된 값을 포함하면 안된다. (중복시, 맨 뒤에 적힌 key:value 값만 살아남음)

📍 Key 리스트 만들기 (keys)

>>> menu.keys()
dict_keys(['짜장면', '짬뽕', '유산슬'])
>>> list(menu.keys())
['짜장면', '짬뽕', '유산슬']

📍 Value 리스트 만들기 (values)

>>> menu.values()
dict_values([4000, 5000, 15000])
>>> list(menu.values())
[4000, 5000, 15000]

📍 Key, Value 쌍 얻기 (items)

>>> menu.items()
dict_items([('짜장면', 4000), ('짬뽕', 5000), ('탕수육', 15000)])
>>> list(menu.items())
[('짜장면', 4000), ('짬뽕', 5000), ('탕수육', 15000)]

📍 Key: Value 쌍 다 지우기 (clear)

>>> menu.clear()
>>> menu
{}

📍 Key로 Value 얻기 (get)

>>> dict_num = {"고길동" : 1, "둘리" : 2, "희동" : 3, "도우너" : 4}
>>> dict_num.get("고길동")
1

📍 Key 유무 확인 (in)

>>> "또치" in dict_num
False
>>> "도우너" in dict_num
True

집합 자료형 (set)

집합 자료형은 순서가 없고, 중복을 허용하지 않는다는 특징이 있다.

리스트와 튜플은 순서가 있기 때문에 입력해준 값 대로 정렬되는데, 집합은 뒤죽박죽으로 정렬된다.
리스트와 튜플은 중복된 값을 포함할 수 있지만, 집합은 중복된 값은 스스로 필터링한다.

알아둘 것 : 순서가 없는 자료형이기 때문에 인덱싱을 사용하려면, 리스트나 튜플 형태로 변환 후 사용해야 함

>>> order_list = ["짜장면", "탕수육", "짬뽕", "짜장면", "볶음밥"]
>>> order_set = set(order_list)
>>> order_set
{'볶음밥', '짜장면', '짬뽕', '탕수육'}

교집합, 합집합, 차집합

교집합 (&) : 두 집합의 교집합 값 반환
합집합 (|) : 두 집합의 전체 값 반환 (중복된 값은 하나씩 반환)
차집합 (-) : 두 집합의 차집합 값 반환

집합 함수

문자열과 마찬가지로 집합 변수 이름 뒤에 . 를 붙여 여러 가지 함수를 사용할 수 있음

값 1개 추가 (add) : 한개의 값 추가 (순서 무작위로 들어감)
값 여러 개 추가 (update) : 리스트 또는 튜플 형태로 여러 개의 요소 추가 (순서 무작위로 들어감)
특정 값 제거 (remove) : set 자료형에 들어가있는 특정 값 제거

불 자료형 (Bool)

불(bool) 자료형이란 참(True) 과 거짓(False) 를 나타내는 자료형으로, True와 False 값만 가질 수 있다.

True : 참 ( True == 1 )
False : 거짓 ( False == 0 )
조건문, 반복문에 사용할 때 주의하기

참고문헌

점프 투 파이썬 : 02장 파이썬 프로그래밍의 기초, 자료형 Python 문서 : 3. 파이썬의 간략한 소개 [Python] 파이썬 슬라이싱(slicing) 기본과 예제 Objects and classes in Python : Docs >> type(name, bases, dic)

[TECHIT] 구글 번역기 만들기 - Googletrans

Tue, 18 Oct 2022 13:51:19 GMT

목표설정

Google에서 제공하는 Open API, googletrans 사용하여 번역 기능을 하는 함수 만들기

Googletrans

Googletrans is a free and unlimited python library that implemented Google Translate API.

구글에서 제공하는 오픈소스 (무료 API)

하루에 사용할 수 있는 횟수가 제한되어 있음

라이브러리 설치 방법
pip install googletrans

# 라이브러리 로드
from googletrans import Translator
# 보통 메서드를 translate 변수에 담아서 사용
translate = Translator()

메서드를 변수에 담아서 사용하는 이유는 편의성 때문이다.

아래 두 코드를 보면 변수에 할당하여 사용하는 이유를 알 수 있다.

sentence = "안녕하세요."
lang = 'en'
# 언어 감지 - 방법 1 (변수 할당 X)
Translator().detect(sentence)
# 언어 번역 - 방법 2 (변수 할당 O)
translator.translate(sentence, dest=lang)

👩🏻‍💻구글 번역기

코드 입력

from googletrans import Translator

def google_translate():
    translator = Translator()

    sentence = input("번역하고자 하는 문장을 입력해주세요 : ")
    lang = input("번역할 언어를 입력해주세요 : ")

    # 언어 번역 (sentence 를 lang 언어로 번역)
    result = translator.translate(sentence, dest=lang)
    # 언어 감지 (sentence 의 lang 언어를 감지)
    detected = translator.detect(sentence)

    # 문장의 언어와 lang에 입력한 언어가 같다면 오류 문구 출력
    if detected.lang == lang:
        print("변경하실 언어를 잘 못 입력하셨습니다.")
    else:
        print("============출 력 결 과============")
        print(detected.lang, ":", sentence)
        print(result.dest, ":", result.text)

google_translate()

코드 출력

번역하고자 하는 문장을 입력해주세요 : 안녕하세요.
번역할 언어를 입력해주세요 : fr
============출 력 결 과============
ko : 안녕하세요.
fr : bonjour.

참고문헌

GoogleTrans 라이브러리 공식문서

[TECHIT] 실시간 날씨 정보 받기 - API, Requests, Json

Tue, 18 Oct 2022 13:14:56 GMT

목표설정

API 이해하기
Requests, json 라이브러리를 이용해 실시간 날씨 정보 받아오기

Server

웹 페이지를 Response의 Body에 담아서 보내주는 서버 (Web Server)
요청을 처리하고 처리한 결과를 Response의 Body에 담아서 보내주는 서버 (API Server ~ Json 형식으로 Resoponse의 Body에 담아서 보냄)
컴퓨터가 Web Server, API Server 역할을 모두 할 수 있으나, 실무에서는 확실한 역할분담, 트래픽 분산 등을 위해 서버를 따로 둔다.

API

API (Application Programming Interface) 는 두 소프트웨어 구성 요소가 서로 통신할 수 있게 하는 매커니즘 요청을 보내는 애플리케이션을 클라이언트, 응답을 보내는 애플리케이션을 서버라고 함
예를 들어, 기상청의 날씨 데이터베이스는 서버이고 모바일앱은 클라이언트 이다.

Requests

Python 용 HTTP 라이브러리, requests 를 사용하면 HTTP 요청을 쉽게 보낼 수 있다.

웹사이트를 읽어오기 위해 사용 함
HTTP 요청 method : 대표적으로 GET / POST

HTTP 요청 메서드

method	URL
GET	Query String
POST	Form Data

Method 확인하는 방법

HTTP 요청할 사이트에서 오른쪽 마우스 클릭 > 검사(Inspection) > Network > Request Headers > method 확인

📍 GET 방식

네이버 사전에서 확인해 보면, Request Method : GET 이다.
Status Code : 200 확인하기

📍 POST 방식

교보문고 베스트셀러를 보면, Request Method : POST 이다.
요청할 때, HTTP 메시지의 Body에 Form data 를 입력해야 한다.
Form data 는 아래와 같이 Payload > Query String Parameters 에서 볼 수 있다.

Json

응용 프로그램 프로그래밍 인터페이스 json은 javascript object notation의 줄임말로, 데이터를 주고 받을 때 사용하는 포맷이다.

json.loads(str) → json type으로 변경하여 데이터 통 안에 넣어준다.
아래 사진과 같이 dictionary 형태로 데이터를 받아온다.

👩🏻‍💻실시간 날씨 정보

코드 입력

import requests
import json

city = "Seoul"
apikey = ############################
lang = "kr"

# 요청하기 위한 서버 주소, units=metric (섭씨온도로 변경)
api = f"https://api.openweathermap.org/data/2.5/weather?q={city}&appid={apikey}&lang={lang}&units=metric" # 요청하기 위한 서버 주소

# 받아온 데이터는 문자열 형태
result = requests.get(api)
type(result.text) 

# Json 형태로 받아오기
data = json.loads(result.text)
type(data)

print(data["name"],"의 날씨입니다.")
print("날씨는 ", data["weather"][0]["description"],"입니다.")
print("현재 온도는 ", data["main"]["temp"],"입니다.")
print("하지만 체감 온도는 ", data["main"]["feels_like"],"입니다.")
print("최저 기온은 ",data["main"]["temp_min"],"입니다.") 
print("최고 기온은 ",data["main"]["temp_max"],"입니다.") 
print("습도는 ",data["main"]["humidity"],"입니다.")
print("기압은 ",data["main"]["pressure"],"입니다.")
print("풍향은 ",data["wind"]["deg"],"입니다.")
print("풍속은 ",data["wind"]["speed"],"입니다.")

코드 출력

Seoul 의 날씨입니다.
날씨는  맑음 입니다.
현재 온도는  7.08 입니다.
하지만 체감 온도는  5.74 °C 입니다.
최저 기온은  5.66 °C 입니다.
최고 기온은  9.69 °C 입니다.
습도는  61 % 입니다.
기압은  1023 hPa 입니다.
풍향은  320 N 입니다.
풍속은  2.06 m/s입니다.

참고문헌

aws 공식 문서 : API란 무엇입니까? Requests 공식 문서 OpenWeather : 날씨 API 요청 사이트

[TECHIT] 실시간 IT 뉴스 정보 가져오기 - 함수, 파일, datetime, BeautifulSoup, Requests

Tue, 18 Oct 2022 05:48:52 GMT

목표 설정

프로그램의 입출력과 관련된 함수 이해하기
프로그램의 결괏값을 파일에 write, read, add 해 보기
datetime, BeautifulSoup, requests 라이브러리 이용하여 실시간 IT 뉴스를 확인하기

함수

똑같은 내용을 반복해서 작성할 때, 하나의 함수로 정의해두면 편리하게 사용할 수 있음
함수에는 매개변수와 전달인자(인수)가 있다.

keywords 인자 : ** 두 개 (딕셔너리 형태로 전달)
arguments 인자 : * 한 개 (리스트나 튜플 형태로 전달) ```markdown
- 함수에서 인자 등 정보 찾을 때 ? : Docstring ?? : Source 예) range? add? 함수??

파일

프로그램이 만든 결과물은 파일을 생성하여 넣고, 넣은 내용을 읽고, 새로운 내용을 추가할 수 있다.

# 첫 번째 방법
f = open("파일명 이름", "파일 열기 모드")
f.close() # 생략해도 되지만, 열려있는 파일 객체를 닫아주는 역할을 함

# 두 번째 방법 -- with문을 사용하면 close가 자동으로 불러와짐
with open("파일명 이름", "파일 열기 모드") as 파일명_별명:
    파일을 열어 실행시킬 문장 작성

파일열기모드	설명
r	읽기모드 - 파일을 읽기만 할 때 사용
w	쓰기모드 - 파일에 내용을 쓸 때 사용
a	추가모드 - 파일의 마지막에 새로운 내용을 추가시킬 때 사용

👩🏻‍💻실시간 IT 뉴스 확인하기

코드 입력

from datetime import datetime
from bs4 import BeautifulSoup
import requests

# 네이버 it 일반 뉴스를 가져오는 함수
def scraping_it_news():
    url = "https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=230&sid1=105"
    response = requests.get(url, headers={"user-agent": "Mozilla/5.0"})
    soup = BeautifulSoup(response.text, 'html.parser')

    # html 을 텍스트로 가져오고, 파일에 넣어주기
    file = open("it_news.html","w")
    file.write(response.text)   
    file.close()

    # 뉴스 헤드라인만 가져오기
    results = soup.select("dl > dt > a > img")
    headlines = []
    for result in results:
        headlines.append(result["alt"])

    # 오늘의 날짜 정보 가져오기
    print(datetime.today().strftime("%Y년 %m월 %d일의 네이버 IT 일반 뉴스 정보입니다.\n"))

    # 순서에 맞게 뉴스 출력하기
    rank = 1
    for headline in headlines:
        print(f"{rank}: {headline}\n")
        rank += 1

# 함수 호출하기
scraping_it_news()

코드 출력

2022년 10월 18일의 네이버 IT 일반 뉴스 정보입니다.

1: 카카오 "다음 메일 오늘 복구 완료 예상"

2: 원익그룹, 배터리 장비 통합법인 '원익피앤이' 11월 출범

3: 원자력硏 연구소기업 ‘서울프로폴리스’…연매출 500억 도전장

4: 인스웨이브 "PC·모바일·키오스크 연결 `유니버설 앱 플랫폼` 완성하겠다"

5: 인공지능 석학 한 자리에 모인다…삼성 AI 포럼 개최

6: "40억 주인공은 누구?"…스타트업 50여곳 경쟁 벌인다

7: SK텔레콤, ZEM 업그레이드…'습관 리포트' 추가

8: 쿠카게임즈, ‘삼국지 전략판’ 게임 예능 ‘G식의 밤’ 시즌 3서 선

9: 카카오-SK C&C, '전력차단' 시점 놓고 대립…1만대 여전히 장애

10: '먹통 사태' 그날, 네이버 라인·티맵은 웃었다…카카오톡 '침울'

11: 라이엇 게임즈, 호주 워게이밍 시드니 스튜디오 인수

12: '카카오 사태' 나흘째, 완전 복구 언제쯤?…"주요 서비스 14개 중 11개 복구"

13: 알서포트, 라이브 스트리밍 서비스 '모비즌 스튜디오' 출시

14: 네이버 "판교 화재 관련 장애 모두 정상 복구"…일부 블로그 문제만 남아

15: '러쉬코리아' 20주년 쇼케이스…5800명 감탄시킨 IT와 자연주의 철학

16: LG전자, 하프코 2022서 멀티브이 아이 등 공조솔루션 선보여

17: 카카오 데이터센터 규제 한 목소리 낸 언론, 과거엔 달랐다

18: CJ ENM, 일본서 876만명에게 2030부산세계박람회 알렸다

19: [그래픽] 카카오 먹통 사태 중 대체 앱 사용시간 증가율

20: 'CES2023' 규모 두 배 확장 '역대 최대'

점프 투 파이썬 : 04장 프로그램의 입력과 출력은 어떻게 해야 할까?

[TECHIT] 메뉴 자판기 만들기 - 조건문, 반복문, 연산자, random, time

Tue, 18 Oct 2022 02:19:01 GMT

목표 설정

파이썬 프로그램의 구조를 만드는 제어문 (조건문, 반복문) 이해하기
random, time 라이브러리 이용하여 메뉴 자판기 실습하기

조건문

if문은 조건을 판단하여 해당 조건에 맞는 상황을 수행하는데 쓰는 것으로, 기본 구조는 if와 else로 구성 됨

들여쓰기 : 4개의 공백 or Tab
if 조건문 뒤에 콜론(:) 사용하기
elif 여러 번 사용할 수 있으며 조건문을 넣어야 한다.
else 한번 만 사용할 수 있으며 조건문을 넣지 않는다.

조건문의 기본 구조*

if (조건식):
   조건식에 해당 시, 실행시킬 문장
elif (조건식):
   조건식에 해당 시, 실행시킬 문장
else:
   위 조건식들에 해당되지 않는 경우, 실행시킬 문장

반복문

반복문은 반복해서 문장을 수행해야 할 경우에 사용 함

for문 : 반복할 횟수를 알 때 사용
while문 : 반복할 횟수를 모를 때 사용 ( 조건문이 참인 동안 순회 )
range(start, end, step), range(len()) : 반복 횟수 제한 가능
enumerate() : index와 요소를 함께 사용해야 되는 경우

반복문의 기본 구조*

# for 구문
for (조건식):
   반복시킬 문장
# while 구문
while (조건식):
   반복시킬 문장

알아두면 좋은 연산자

연산자	설명
x or y	x와 y 둘 중에 하나만 참이어도 참
x and y	x와 y 모두 참이어야 참
not x	x가 거짓이면 참

in과 not in	설명
x in (리스트/튜플/문자열)	자료형 안에 x가 있으면 참
x not in (리스트/튜플/문자열)	자료형 안에 x가 없으면 참

📍 연산자를 사용한 조건문

코드 입력

# 컴퓨터와 하는 가위바위보 게임
from random import choice

auto = choice(['가위', '바위', '보'])
user = input("가위, 바위, 보 : ")

# 입력한 값이 '가위, 바위, 보'가 맞다면 게임 실행, 아니면 else 문 출력
if user in ['가위', '바위', '보']:
    if user == auto:
        print(f"user : {user}, computer : {auto} 으로 비겼습니다.")
    elif (user == '가위' and auto == '보') or (user == '바위' and auto == '가위') or (user == '보' and auto == '바위'):
        print(f"user : {user}, computer : {auto} 으로 이겼습니다.")
    else:
        print(f"user : {user}, computer : {auto} 으로 졌습니다.")
else:
    print("옳지않은 값을 입력하셨습니다.")

코드 출력

가위, 바위, 보 : 가위
user : 가위, computer : 가위 으로 비겼습니다.

📍 연산자를 사용한 반복문

코드 입력

# 익명 질문 게시판 
question_list = []

# 질문 받기
while True:
    question = input("질문을 입력해주세요 : ")
    if question == "q":
        break
    else:
        question_list.append({"질문" : question, "답변" : ""})

# 질문에 대한 답변 받기
for i in question_list:
    print(i["질문"])
    answer = input("답변을 입력해주세요 : ")
    i["답변"] = answer

print("="*80)
print(question_list)

코드 출력

질문을 입력해주세요 : 가장 좋아하는 음식
질문을 입력해주세요 : 가장 좋아하는 음료
질문을 입력해주세요 : q
가장 좋아하는 음식
답변을 입력해주세요 : 설렁탕
가장 좋아하는 음료
답변을 입력해주세요 : 아아
================================================================================
[{'질문': '가장 좋아하는 음식', '답변': '설렁탕'}, {'질문': '가장 좋아하는 음료', '답변': '아아'}]

👩🏻‍💻저녁 메뉴 자판기

코드 입력

import random, time

# 저녁 메뉴 리스트
dinner = ["된장찌개", "김치찌개", "짬뽕", "마라탕"]

# 저녁 메뉴 추가
while True:
    print(dinner)
    item = input("음식을 추가해주세요 : ")
    # 반복문 종료 시점
    if(item == "stop"):
        break
    else:
        dinner.append(item)
print(dinner)
print("="*70)

# 중복된 메뉴 제거
set_dinner = set(dinner)

# 저녁 메뉴 삭제
while True:
    print(f"저녁 메뉴 리스트 : {set_dinner}")
    item = input("음식을 삭제해주세요 : ")
    if (item == "stop"):
        break
    else:
        set_dinner = set_dinner - set([item])

print(set_dinner, "중에서 선택합니다.")
print("="*70)

print("5")
time.sleep(1)
print("4")
time.sleep(1)
print("3")
time.sleep(1)
print("2")
time.sleep(1)
print("1")
time.sleep(1)
print(f"오늘 저녁 메뉴는 '{random.choice(list(set_dinner))}' 입니다.")

코드 출력

['된장찌개', '김치찌개', '짬뽕', '마라탕']
음식을 추가해주세요 : 차돌박이짬뽕
['된장찌개', '김치찌개', '짬뽕', '마라탕', '차돌박이짬뽕']
음식을 추가해주세요 : 짬뽕
['된장찌개', '김치찌개', '짬뽕', '마라탕', '차돌박이짬뽕', '짬뽕']
음식을 추가해주세요 : stop
['된장찌개', '김치찌개', '짬뽕', '마라탕', '차돌박이짬뽕', '짬뽕']
======================================================================
저녁 메뉴 리스트 : {'김치찌개', '마라탕', '차돌박이짬뽕', '짬뽕', '된장찌개'}
음식을 삭제해주세요 : 짬뽕
저녁 메뉴 리스트 : {'김치찌개', '마라탕', '차돌박이짬뽕', '된장찌개'}
음식을 삭제해주세요 : stop
{'김치찌개', '마라탕', '차돌박이짬뽕', '된장찌개'} 중에서 선택합니다.
======================================================================
5
4
3
2
1
오늘 저녁 메뉴는 '김치찌개' 입니다.

j-jae0

[Pandas] 결측치 제거 및 채우기 (Handling Missing Data) - Cheat Sheet🔥

목표 설정

📍실습에 사용할 데이터

결측값 제거

👩🏻‍💻실습으로 배우는 dropna

결측값 채우기

👩🏻‍💻실습으로 배우는 fillna

[Pandas] sorting, reindexing, renaming - Cheat Sheet🔥

목표 설정

데이터 정렬

인덱스 및 컬럼명 변경

인덱스 정렬

인덱스 정렬 초기화

특정 인덱스 및 컬럼 제거

[Pandas] 데이터 재구조화(Reshaping) Pivot, Pivot_table - Cheat Sheet🔥

목표 설정

Reshaping

실습에 사용할 데이터

Pivot

Pivot_table

실습으로 배우는 Pivot

참고문헌

[Pandas] 데이터 재구조화(Melt, Concat) - cheat sheet🔥

목표 설정

Reshaping

실습에 사용할 데이터

Melt

실습으로 배우는 Melt

Concat

실습으로 배우는 Concat

참고문헌

[Pandas] 데이터 요약하기 - cheat sheet🔥

목표 설정

기술 통계

참고문헌

[Pandas] 데이터 인덱싱 및 선택 - cheat sheet🔥

목표 설정

Indexing

행(row)

📍특정 조건에 맞는 행 가져오기

📍중복 제거(drop_duplicates)

📍특정 데이터 불러오기

상위 n개 데이터 불러오기

하위 n개 데이터 불러오기

n개 데이터 랜덤으로 불러오기

전체 데이터의 특정비율로 랜덤 데이터 불러오기

특정 컬럼의 값이 가장 큰 데이터 n개 불러오기

특정 컬럼의 값이 가장 작은 데이터 n개 불러오기

열(column)

📍특정 컬럼들만 뽑아오기

방법 1. df[[컬럼명1, 컬럼명2 ,...]]

방법 2. df.filter(regex='regex')

행과 열(row and column)

📍위치로 데이터 뽑아오기

📍label로 데이터 뽑아오기

참고문헌

[Pandas] DataFrame의 컬럼 선택, 추가, 삭제하기 - del, pop, drop, insert

DataFrame

컬럼(Column) 선택

컬럼(Column) 추가

📍맨 마지막에 컬럼 추가

📍원하는 위치에 컬럼 추가(insert)

컬럼(Column) 삭제

📍del

📍pop

📍drop

참고문헌

[Python] 파이썬 프로파일링(Profiling) - time, timeit

프로파일링(Profiling) 이란?

%time

%timeit

적용

[Pandas] 판다스의 구조 - Series, DataFrame 생성하기

Pandas 란?

시리즈 (Series)

데이터프레임 (DataFrame)

참고문헌

[Python] 파이썬 제어문과 함수 이해하기 - for, while, def, 연산자

목표 설정