mmtil.log

2022-09-20

Thu, 22 Sep 2022 08:59:42 GMT

📌 scikit-learn 라이브러리를 활용한 지도 학습

✏️ 분류는 종속변수(y, 정답, target)가 이진과 다중으로 나누어지는데 이는 연속적인 값이 아닌 범주형(type, class...)으로 오지선다 같은거. 회귀는 연속적인 값. ✏️ 이진분류는 예/아니오 식으로 나올 수 있도록 하는 것. 셋 이상의 클래스는 다중분류 예/아니오 식의 정답이 아니라 특정 정답이 나올 수 있는 것.

✏️ 독립변수는 x, Feature, Data라고 많이 함. 회귀는 부동소수점수(실수)를 예측하는 것.

✏️ 일반화 성능이 최대가 되는 모델이 최적. 모델이 복잡할수록(학습을 많이 시키면) 과대적합상태가 되어 새로운 데이터를 만났을 때 일반화되지 못한다.

✏️ k-최근접 이웃 알고리즘 - 가장 가까운 훈련 데이터 포인트를 최근접 이웃으로 찾아 예측에 사용.

✅ 예제

✔️ iris(붓꽃) 품종 분류 ▶️ 독립변수(x, feature, data) : 꽃잎, 꽃받침의 길이(cm) 4가지(length, width) ▶️ 종속변수(y, class, target) : 꽃의 품종(setosa, virginica, versicolor)

(+ 꽃잎, 꽃받침 길이에 따른 아이리스 품종 분류이기 때문에 꽃잎, 꽃받침 길이가 독립변수가 되고 품종이 종속변수가 되는 것)

✏️ 데이터 준비하기

# 데이터 준비하기
from sklearn.datasets import load_iris
iris_dataset = load_iris()

데이터 확인하면 numpy 배열형식으로 값이 입력되어있는 것을 알 수 있다.

shape을 이용해서 확인하면 행렬 형식(데이터프레임으로 생각하면 row가 150개인거고 column이 4개인것.)

✏️ 산점도 그래프 그리기

import matplotlib.pyplot as plt
import pandas as pd

# 데이터프레임을 사용하여 데이터 분석 -> 독립변수(feature)와 종속변수(label)의 연관성을 확인
iris_df = pd.DataFrame(iris_dataset['data'], columns=iris_dataset.feature_names)

# 각 독립변수(feature)들의 산점도 행렬 4x4

pd.plotting.scatter_matrix(iris_df, c=iris_dataset['target'], figsize=(15,15),
                           marker='o', hist_kwds={'bins':20}, s=60, alpha=.8)
plt.show()

pandas 데이터프레임 형식으로 불러와서 산점도 차트를 그려보면

각 변수들 간의 분포형태를 확인할 수 있다. x축이 petal length이고 y축이 petal width인 산점도가 가장 아이리스 품종이 눈에 띄게 분류되어있다.

import numpy as np

plt.imshow([np.unique(iris_dataset['target'])])
_ = plt.xticks(ticks=np.unique(iris_dataset['target']), labels=iris_dataset['target_names'])  # underscore -> _(값을 출력하고 싶지 않을 때 사용, 변수에 담으면 출력이 안되니까)

종속변수(target)의 변수값이 어떻게 입력되어있는지 확인. setosa가 0, versicolor가 1, virginica는 2.

iris_df2 = iris_df[['petal length (cm)', 'petal width (cm)']]

위에서 가장 적합했던 산점도의 변수만 뽑아서 데이터프레임 새로 형성.

pd.plotting.scatter_matrix(iris_df2, c=iris_dataset['target'], figsize=(15,15),
                           marker='o', hist_kwds={'bins':20}, s=60, alpha=.8)
plt.show()

산점도를 그리면 2X2 형태로 그려짐

✏️ 훈련데이터와 테스트데이터 분리

# 훈련데이터 : 테스트 데이터 -> 7:3 or 75:25 or 80:20 or 90:10 비율. 

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'],  # 대문자 -> 2개 이상일 때, 소문자 -> 1개
                                                    test_size=0.25, random_state=777)  # random_state 고정된 시드부여

# 훈련데이터 확인하기 150 => 75% -> 112개

X_train.shape

# 테스트데이터 확인하기 150 => 25% -> 38개

X_test.shape

✏️ 머신러닝 모델 설정 -> k-최근접 이웃 알고리즘

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1) # 이웃의 개수 1개로 지정

# 학습하기
knn.fit(X_train, y_train)

# 예측하기
y_pred = knn.predict(X_test)

✏️ 모델 평가하기

# 정확도 확인하기
# 1) mean() 함수 사용해서 정확도 확인
np.mean(y_pred == y_test)

🔼 결과

# 2) score() 함수를 사용해서 정확도 확인 -> 테스트 셋으로 예측한 후 정확도 출력
knn.score(X_test, y_test)

🔼 결과

# 3) 평가 지표 계산
from sklearn import metrics

knn_report = metrics.classification_report(y_test, y_pred)
print(knn_report)

🔼 결과

✔️ forge ▶️ 인위적으로 만들어진 이진분류 데이터셋

# 설치
pip install mglearn

# 이진 분류 데이터셋 확인하기
import mglearn
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

# 데이터셋 다운로드
X , y = mglearn.datasets.make_forge()

# 데이터 확인하기
print('X.shape : ', X.shape)
print('y.shape : ', y.shape)

# 산점도 그리기
plt.figure(dpi=100)
plt.rc('font', family='NanumBarunGothic')

mglearn.discrete_scatter(X[:,0], X[:,1], y)

plt.legend(['클래스 0', '클래스 1'], loc=4)
plt.xlabel('첫 번째 특성')
plt.ylabel('두 번째 특성')

✏️ k-최근접 이웃 알고리즘

# 1-최근접
import mglearn
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

plt.figure(dpi=100)
mglearn.plots.plot_knn_classification(n_neighbors=1)

🔼 결과

# 3-최근접
plt.figure(dpi=100)
mglearn.plots.plot_knn_classification(n_neighbors=3)

🔼 결과 : 1일 때와 3일 때의 결과가 다르다. = > 최적점!

✏️ 이진 분류 문제 정의

# 데이터 준비하기
X, y = mglearn.datasets.make_forge() # X : 데이터(feature, 독립변수), y : 레이블(label, 종속변수)
from sklearn.model_selection import train_test_split

# 일반화 성능을 평가할 수 있도록 데이터 분리 -> 훈련셋, 테스트셋
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=7)  # 75:25

X_train.shape  # 26 -> 19
X_test.shape  # 26 -> 7

# k-최근접 이웃 분류 모델 설정 - 위의 결과 토대로
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=3)

# 모델 학습하기
clf.fit(X_train, y_train)

# score 함수를 사용하여 예측 정확도 확인
clf.score(X_test, y_test)
clf.score(X_train, y_train) # -> 과대적합 상황

✏️ KNeighborsClassifier 이웃의 수에 따른 성능평가

# 이웃의 수에 따른 정확도를 저장할 리스트 변수
train_scores = []
test_scores = []

n_neighbors_settings = range(1,15)

# 1 ~ 10까지 n_neighbors의 수를 증가시켜서 학습 후 정확도 저장
for n_neighbor in n_neighbors_settings:
  # 모델 생성
  clf = KNeighborsClassifier(n_neighbors=n_neighbor)
  clf.fit(X_train, y_train)

  # 훈련 세트 정확도 저장
  train_scores.append(clf.score(X_train, y_train))

  # 테스트 세트 정확도 저장
  test_scores.append(clf.score(X_test, y_test))

# 예측 정확도 비교 그래프 그리기
plt.figure(dpi=100)

plt.plot(n_neighbors_settings, train_scores, label='훈련 정확도')
plt.plot(n_neighbors_settings, test_scores, label='테스트 정확도')
plt.ylabel('정확도')
plt.xlabel('이웃의 수')
plt.legend()
plt.show()

# 최적점은 3!

✔️ 위스콘신 유방암 데이터셋을 사용한 악성 종양(label 1) 예측하기 ▶️ 독립변수(x, feature, data) : cancer.feature_names 치면 나옴 ▶️ 종속변수(y, class, target) : 악성, 양성

# 데이터 불러오기
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

# 산점도 그리기
import pandas as pd

df = pd.DataFrame(cancer['data'], columns=cancer.feature_names)
pd.plotting.scatter_matrix(df, c=cancer['target'], figsize=(15,15),
                           marker='o', hist_kwds={'bins':20}, s=10, alpha=.8)
plt.show()

# 종속변수의 값 확인
import numpy as np

plt.imshow([np.unique(cancer['target'])])
_ = plt.xticks(ticks=np.unique(cancer['target']), labels=cancer['target_names'])

🔼 결과(0이 악성, 1이 양성)

# 데이터 분리하기(훈련데이터, 테스트데이터)
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=7)

# 최적점 알아보
# 이웃의 수에 따른 정확도를 저장할 리스트 변수
train_scores = []
test_scores = []

n_neighbors_settings = range(1,21)

# 1 ~ 10까지 n_neighbors의 수를 증가시켜서 학습 후 정확도 저장
for n_neighbor in n_neighbors_settings:
  # 모델 생성
  clf = KNeighborsClassifier(n_neighbors=n_neighbor)
  clf.fit(X_train, y_train)

  # 훈련 세트 정확도 저장
  train_scores.append(clf.score(X_train, y_train))

  # 테스트 세트 정확도 저장
  test_scores.append(clf.score(X_test, y_test))

# 예측 정확도 비교 그래프 그리기
plt.figure(dpi=100)

plt.plot(n_neighbors_settings, train_scores, label='훈련 정확도')
plt.plot(n_neighbors_settings, test_scores, label='테스트 정확도')
plt.ylabel('정확도')
plt.xlabel('이웃의 수')
plt.legend()
plt.show()

🔼 결과(최적점은 7-8!)

2022-09-19

Mon, 19 Sep 2022 08:14:53 GMT

📌 머신러닝 및 딥러닝 개요

✅ 머신러닝 프로세스

문제 정의 및 데이터 준비하기 -> 학습하기 -> 추론 및 평가 -> 문제 정의 및 데이터 준비하기 -> ...(문제정의를 잘못했을 경우 계속 다시 처음으로 돌아가서 문제점을 파악해야한다)

✏️ 문제 정의 및 데이터 준비하기

명확한 문제 정의가 가장 중요
데이터를 자세히!!! 들여다볼 수 있어야 함.
캐글 활용

✏️ 학습하기

SOTA 모델 활용 -> 내 데이터셋에 맞는 것 찾기
하이퍼파라미터 튜닝
모델 선택 -> 내부요소 + 외부요소의 복합적 고려해야함

✏️ 추론 및 평가

추론? 학습된 모델로부터 정답이 없는 데이터에 대해 정답을 만드는 행위

✏️ 용어

데이터 준비하기
- 클래스 불균형 : 클래스 분포 형태의 불균형, 이상탐지
  - 과소표집과 과대표집 : 과소표집은 다른 클래스에 비해 상대적으로 많이 나타나 있는 클래스의 개수를 줄이는 것, 과대표집은 개수가 적은 클래스를 복제하는 것(SMOTE 등 기법들을 활용)
  - 회귀 : 연속적인 값 예측 (ex. 햄버거 가격, 영화 관객 수 등) 0과 1을 예측하는 로지스틱 회귀
  - 분류 : 미리 정의된 여러 클래스 중 하나를 예측. (ex. 햄버거 종류, 숫자 판별, 얼굴인식 또는 종류 구분 등.) 이진분류, 다중분류, 다중 레이블 분류 등이 있다.
  - 원핫 인코딩 : 하나의 클래스만 1이고 나머지 클래스는 전부 0으로 인코딩(더미변수같은건가 ...........)
  - 교차 검증 : 모델의 타당성을 검증(과대적합 방지를 위해 사용) 학습데이터 - 모델 학습에 사용 검증 데이터 - 모델의 검증을 위해 사용, 주로 학습 도중에 사용 데이트 데이터 - 모델의 최종 성능 평가에 사용 = > 테스트 데이터는 최종 평가 이전에는 절대로 사용하면 안됨.
학습하기
- 하이퍼파라미터 : 경험에 의해 결정되는 요소. 적합한 값을 찾기 위해 반복적인 실험과 많은 시간 투자가 필수이다.
  - 비지도 학습 : 학습 데이터에 정답이 포함되어 있지 않은 것. 모델에게 햄버거를 종류별로 여거 개 주고 같은 종류끼리 묶어보라고 하는 것(클러스터링)
  - 생성 모델 : 햄버거 사진을 주고, 모델에게 다시 햄버거 사진을 그려보라고 하는 것.
  - 강화 학습 : 에이전트가 주어진 환경에 대해 어떠한 행동을 결정하고, 이를 통해 얻는 보상으로 학습하는 것.
  - 과대 적합 : 모델이 문제를 일반화하지 못하고 단순히 외워 새로운 데이터에 대해서는 좋은 성능을 보이지 못하는 경우. = > 해결 방안 : 학습 데이터를 더 다양하게 많이 수집, 정규화를 사용(규칙을 단순하게), 이상치 제거(but, 데이터가 많다면 제거하는 방법은 옳지 않음)
  - 과소 적합 : 모델이 학습 데이터를 충분히 학습하지 않아 모든 측면에서 좋지 않은 성능을 보여주는 경우. 이와 같은 경우에는 모델이 아직 성능을 개선할 수 있는 여지가 있음. = > 해결 방안 : 학습 데이터를 더 다양하게 많이 수집, 더 복잡한 모델을 사용, 모델을 충분히 학습시키기 ❗❗ 두가지 문제를 동시에 해결할 수 있는 방안 -> 양질의 데이터 수집!(사실 실무적으로는 불가능...)
평가하기
- 혼동행렬 : 모델의 성능 평가에 사용.
  - 정확도 : 전체 데이터 중에서 실제 데이터의 정답과 모델이 예측한 정답이 같은 비율
  - 정밀도와 재현율(Precision&Recall) : 정밀도 - 예측 True 중 실제 True 비율(예측잘하는거) 재현율 - 실제 True 중 예측 True 비율(실제가정말실제인가)
  - F1-Score : 정밀도와 재현율 둘 다 중요한 경우 사용(조화평균구함)
  - ROC 곡선 : 이진 분류 시스템에 대한 성능 평가 기법

✔️ 기존 사례에서 사용된 데이터셋을 먼저 적용해보는 것도 프로젝트를 성공으로 이끄는 지름길. ✔️ 커뮤니티 살펴보기 : Tensorflow Korea, 캐글 등..

2022-09-14

Fri, 16 Sep 2022 01:02:58 GMT

📌 기술 특강

🗣️ 김웅식교수님 - 빅데이터와 인공지능 및 AI와 만날 가까운 미래 예측

✅ 빅데이터의 가치

✏️ 잦은 불량률은 빅데이터로 접근하지 않으면 규명하기 어렵다. 삼성의 갤럭시 노트 7 배터리가 여러대가 발화된 일이 있다. 삼성은 제품 20만대, 배터리 3만대를 동원하여 발화 원인을 조사하기도 했다. 이를 출시 전 빅데이터를 이용해 조사하여 예측했다면?

✏️ 빅데이터의 특징 : 3V(volume, velocity, variety) 규모가 방대하고 이 데이터의 생성주기가 빠를 뿐만아니라 이 방대한 양의 데이터를 빠르게 처리할 수 있어야 한다. 또한, 이 데이터의 종류는 다양하다는 특징.

✅ 빅데이터를 어떻게 활용하는가?

✏️ 구글의 하둡 프레임워크가 보편화 되면서 빅데이터분석이 활발해졌다. 하둡이란 GFS(Google File System)과 MapReduce를 기반으로 빅데이터 분산처리 시스템 개발 프레임워크.

✏️ 인공지능 - 빅데이터를 분석하는 Anaystics의 핵심 방법. 머신러닝 기반의 인공지능은 빅데이터 학습을 통해 고도화되고 다양한 빅데이터 분석을 통해 다양한 분야의 인사이트를 추출할 수 있다.

✅ 인공지능

✏️ 기호기반 인공지능 / 연결주의 인공지능 ▶️ 기호기반 인공지능은 지식을 명제로 전환한 후 명제들 간의 연역적 추론

......................... 간만에 필기 열심히 햇것만 터치패드가 지혼자 드래그 하더니 싹 다 지웠다 미친거아닌가 .......................................................... 컨트롤 제트 했는데 이렇게만 살아났음 왜 이정도만 살아난건지는 저도 몰겟네요 ..^^.....................................................................................................

2022-09-07

Wed, 14 Sep 2022 05:25:53 GMT

📌 유튜브 댓글 크롤링 및 워드 클라우드 시각화

(이것도 셀레니움을 사용해서 크롤링을 할 것이기 때문에 크롤링 전에 꼭 설치 해줘야 됨!!)

✅ 유튜브 댓글 크롤링

# 라이브러리 임포트
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

import time
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

options = webdriver.ChromeOptions()
options.add_argument('--headless')        
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome('chromedriver', options=options) # 크롬 브라우저 준비

driver.get('https://www.youtube.com/watch?v=ycEtLNlX_ss') # 열림
driver.implicitly_wait(3)

time.sleep(1.5)

driver.execute_script("window.scrollTo(0,800)") # 스크롤 800만큼 내리기
time.sleep(3)

# 댓글 수집을 위한 스크롤 내리기
last_height = driver.execute_script("return document.documentElement.scrollHeight")  # 최초 접속 시 스크롤 높이 초기화
# 스크롤 내리기를 끝날때 까지 

while True:
  driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
  time.sleep(2)

  new_height = driver.execute_script("return document.documentElement.scrollHeight")

  if new_height == last_height:
    break

  last_height = new_height
  time.sleep(2)

  try:
    driver.find_element_bt_css_selecter('#dismiss-button > a').click() # 유튜브 1달 무료 팝업 닫기
    time.sleep(1.5)

  except:
    pass

🔼 크롤링을 위해 코딩을 통해 액션 부여하는 작업들이다.

# 댓글 크롤링
html_source = driver.page_source
soup = BeautifulSoup(html_source, 'html.parser')

id_list = soup.select('div#header-author > h3 > #author-text > span')
comment_list = soup.select('yt-formatted-string#content-text')

id_final = []
comment_final = []

for i in range(len(comment_list)):
  temp_id = id_list[i].text
  temp_id = temp_id.replace('\n', '').replace('\t', '').replace(' ', '').strip()
  id_final.append(temp_id) # 댓글 작성자

  temp_comment = comment_list[i].text
  temp_comment = temp_comment.replace('\n', '').replace('\t', '').replace('\r', '').strip()
  comment_final.append(temp_comment) # 댓글 내용

🔼 댓글 작성자와 댓글 내용 크롤링 작업

# dataframe 만들기 (list -> dic -> dataframe)

youtube_dic = {"아이디":id_final, "댓글 내용":comment_final}
youtube_pd = pd.DataFrame(youtube_dic)

🔼 크롤링한 것을 데이터프레임 형태로 저장

youtube_pd.to_csv('유튜브댓글_크롤링_오후_20220909.csv', encoding='utf-8-sig', index=False)

🔼 파일로 저장하는 것도 잊지말자 ..

✅ 워드 클라우드 시각화

df = pd.read_csv('/content/유튜브댓글_크롤링_오후_20220909.csv')
text = " ".join(li for li in df['댓글 내용'].astype(str))

데이터프레임형태로 불러온 다음 워드 클라우드 시각화를 위해 텍스트들을 join을 통해 모두 붙여준다.

워드 클라우드 시각화 코드는 늘 하던대로 ... 하면!!

이렇게 나옵니다 친구한테 댓글 1만개 이하인 영상 아무거나 보내보라고 한거라 이게 먼 영상이길래 사이토가 가장 크게 나타난건지는 모르겟네요 ... 영상에 나온 사람 이름인가??

2022-09-06

Wed, 14 Sep 2022 05:25:00 GMT

📌 전국 의료 기관 데이터 분석

✅ 라이브러리 임포트 및 데이터 준비하기

import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px

df = pd.read_csv('/content/data.csv', encoding='EUC-KR')

# NaN 데이터 확인하기
df.isna().sum()  -> 소재지전화, 의료기관종별명, 의료인수, 입원실수, 병상수, 진료과목내용명

# 컬럼별 데이터 확인 -> df.컬럼명.unique()

✅ 데이터 분석하기

# 상세영업상태명 별 의료 기관 수
df['상세영업상태명'].value_counts()

gb_df = df.groupby(by=['상세영업상태명']).size().reset_index(name='의료기관수')

🔼 gb_df 입력해 출력해보면 이렇게 데이터프레임형식으로 나타난다.

# 영업상태별 의료기관수 확인
px.histogram(gb_df, x='상세영업상태명', y='의료기관수')

🔼 결과

# 파이차트
px.pie(gb_df, names='상세영업상태명', values='의료기관수')

🔼 결과

# 지역명 별 의료 기관 수
df['지역명'].value_counts()
lgb_df = df.groupby(by=['지역명', '도시명', '상세영업상태명', '의료기관종별명']).size().reset_index(name='의료기관수')

이 역시 변수명을 입력하여 출력할시 데이터프레임형태로 되어있는 것을 확인할 수 있다.

# 지역별 의료기관수 현황
px.histogram(lgb_df, x='지역명', y='의료기관수')

🔼 결과

# 지역에 따른 영업상태별 의료기관 수 확인
px.histogram(lgb_df, x='지역명', y='의료기관수', color='상세영업상태명')

🔼 결과

# 지역에 따른 시군구별 의료기관 수 확인
px.histogram(lgb_df, x='지역명', y='의료기관수', color='도시명')

🔼 결과

# 지역에 따른 의료기관종류별 의료기관 수 확인
px.histogram(lgb_df, x='지역명', y='의료기관수', color='의료기관종별명')

🔼 결과

# 지역별 의료기관수 확인하는 파이 차트
px.pie(lgb_df, names='지역명', values='의료기관수')

🔼 결과

# 의료기관종별 의료기관수 현황
px.histogram(lgb_df, x='의료기관종별명', y='의료기관수')

🔼 결과

# 의료기관종별 의료기관수 확인하는 파이 차트
px.pie(lgb_df, names='의료기관종별명', values='의료기관수')

🔼 결과

✅ 워드 클라우드 시각화

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

# 진료과목명을 하나의 text 형태로 변환
text = " ".join(cont for cont in df.진료과목내용명.astype(str))

🔼 워드 클라우드 시각화를 위한 전처리 과정 (진료과목내용명으로 워드 클라우드 시각화)

plt.subplots(figsize=(25, 15))

wordcloud = WordCloud(background_color='black', width=1000, height=700, font_path=fontpath).generate(text)

plt.axis('off')
plt.imshow(wordcloud, interpolation='bilinear')
plt.show()

위와 같은 결과가 나온다.

✅ 내 위치와 가장 가까운 의료기관 찾기

✏️ 단 영업중인 병원만 검색되도록 하기 ✏️ 내 위치는 도로명 주소로 입력 받고 가장 가까운 의료기관은 5개만 추출하여 지도 시각화 ✏️ 내 위치 마커와 병원 마커를 표시하고 병원 마커를 클릭하면 병원명이 나오도록

✔️ 라이브러리 임포트 및 데이터 준비하기

# 1) 라이브러리 임포트
import folium
import pandas as pd

# 2) 파일 업로드
df = pd.read_csv('/content/drive/MyDrive/data.csv', encoding='EUC-KR')

# NaN 데이터 확인하기
# df.isna().sum()

✔️ 내 위치 주소를 입력하고 가까운 병원 5개만 추출하여 저장하기

# 3) 주소를 좌표로 변환할 함수 준비
from geopy.geocoders import Nominatim

def geocoding(address):
  geolocoder = Nominatim(user_agent = 'South Korea', timeout=None)
  geo = geolocoder.geocode(address)
  crd = {"lat":float(geo.latitude), "lng":float(geo.longitude)}

  return crd

# 4) 사용자에게 주소를 입력받기
address = input("당신의 주소를 입력하시오.")
crd = geocoding(address)

# 5) 주소 좌표로 변환하여 tuple 형태로 변수에 담기
from geopy.distance import geodesic

myhome = folium.Map(location=[crd['lat'],crd['lng']], zoom_start=14)

# 6) 병원데이터 dataframe에 거리 계산하여 담기
hpt = pd.DataFrame(columns=['사업장명', '도시명', '의료기관종별명', '상세영업상태명', '위도', '경도', '거리'])
myhome = (crd['lat'], crd['lng'])

adr_s = address.split(' ')[0]
df = df.loc[df.지역명.str.contains(adr_s)]

for n in df.index:
  hpt_loc = (df.loc[n, '위도'], df.loc[n, '경도'])  # tuple 형태

  # hpt dataframe에 담기
  hpt.loc[n] = [df.loc[n, '사업장명'],
                df.loc[n, '도시명'],
                df.loc[n, '의료기관종별명'],
                df.loc[n, '상세영업상태명'],
                df.loc[n, '위도'], df.loc[n, '경도'],
                geodesic(myhome, hpt_loc).kilometers]

# 7) 내 위치에 가장 가까운 영업중인 병원 5개 뽑기
my_hpt = hpt.loc[hpt['상세영업상태명'] == '영업중']
my_hpt = my_hpt.sort_values(by=['거리']).head(5)

✔️ 지도 시각화

# 8) 지도 준비
my_map = folium.Map(location=[crd['lat'], crd['lng']], zoom_start=14)
for n in my_hpt.index:
  folium.Marker([my_hpt.loc[n, '위도'], my_hpt.loc[n, '경도']],
                popup=''+my_hpt.loc[n, '사업장명']+'',
                icon=folium.Icon(icon='hospital-o', prefix='fa')).add_to(my_map)
  folium.Marker([crd['lat'], crd['lng']], icon=folium.Icon(color='red', icon='glyphicon glyphicon-home')).add_to(my_map)

my_map

🔼 지도 시각화 결과

📌 네이버 공감뉴스 크롤링

#이 부분은 처음 한번만 실행하면 됨
!pip install selenium
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

셀레니움 라이브러리 사용을 위한 설치

# 1) 라이브러리 임포트
from selenium import webdriver
from bs4 import BeautifulSoup

import re
import time
from pytz import timezone
import datetime

import pandas as pd

import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator


# 2) 데이터 프레임 생성
data = pd.DataFrame(columns=['순위', '공감종류', '기사제목', '기사링크', '기사내용', '공감수', '수집일자'])


options = webdriver.ChromeOptions()
options.add_argument('--headless')   # headless -> 창을 띄우지 않고 가상으로 진행하는 것
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage') # deb/shm 디렉토리 사용X
driver = webdriver.Chrome('chromedriver', options=options)

url_list = ['https://entertain.naver.com/ranking/sympathy/love',
            'https://entertain.naver.com/ranking/sympathy/cheer',
            'https://entertain.naver.com/ranking/sympathy/congrats',
            'https://entertain.naver.com/ranking/sympathy/expect',
            'https://entertain.naver.com/ranking/sympathy/surprise',
            'https://entertain.naver.com/ranking/sympathy/sad']

# https://entertain.naver.com/ranking/sympathy/cheer
# https://entertain.naver.com/ranking/sympathy/congrats
# https://entertain.naver.com/ranking/sympathy/expect
# https://entertain.naver.com/ranking/sympathy/surprise
# https://entertain.naver.com/ranking/sympathy/sad


for i in range(len(url_list)):
  driver.get(url_list[i])

  driver.implicitly_wait(3)

  time.sleep(1.5)

  driver.execute_script('window.scrollTo(0,800)')
  time.sleep(3)

  html_source = driver.page_source
  soup = BeautifulSoup(html_source, 'html.parser')

  li = soup.select('li._inc_news_lst3_rank_reply') #ul.news_lst news_lst3 count_info > li

  # 공감종류
  sym = url_list[i].split('.')[2].split('/')[3]

  for index_l in range(0, len(li)):
    try:
    # 순위
      rank = li[index_l].find('em', {'class', 'blind'}).text.replace('\n', '').replace('\t', '').strip()

    # 뉴스 제목
      title = li[index_l].find('a', {'class', 'tit'}).text.replace('\n', '').replace('\t', '').strip()

    # 뉴스 내용
      summary = li[index_l].find('p', {'class', 'summary'}).text.replace('\n', '').replace('\t', '').strip()

    # 뉴스 링크
      link = li[index_l].find('a').attrs['href']

    # 공감수
      sym_s = li[index_l].find('a', {'class', 'likeitnews_item_likeit cheer'}).text.replace('\n','').replace('\t','').strip().split('수')[1]

    # dataframe에 저장 (append)
      data = data.append({'순위' : rank,
                          '공감종류' : sym,
                          '기사제목' : title,
                          '기사링크' : 'http://entertain.naver.com' + link,
                          '기사내용' : summary,
                          '공감수' : sym_s,
                          '수집일자' : datetime.datetime.now(timezone('Asia/Seoul')).strftime('%Y-%m-%d %H:%M:%S')}, ignore_index=True)

    except:
      pass

    print('Complets of ' + rank + ' : ' + title)

print('---------------------------------')
print(data)

코드는 이렇게 짜봤었는데 사실 이렇게 하면 안된다!!!!! print('Complets of ' + rank + ' : ' + title) 요 부분은 잘 출력되는데 데이터 append 과정에서 문제가 있는듯하다.. cheer만 데이터 프레임에 저장됨 글서 일단은 걍 포기하겟습니당👍

2022-09-05

Wed, 14 Sep 2022 05:24:34 GMT

📌 과제리뷰

✏️ 집계함수 -> value_counts(), sum() ...

✏️ groupby -> ex. df.groupby(['발생지시도'])['사망자수'].sum()

✏️ 정렬 - sort 사용

ex1. df.groupby(['발생지시도'])['사망자수'].sum().sort_values(ascending=False)

ex2. group_df = df.groupby(['발생지시도'])[['사망자수','부상자수','사상자수']].sum().sort_values(by='사망자수',ascending=False)

-> '발생지시도'가 인덱스가 됨, by=' '을 기준으로 sort (+) group_df.T -> 차트가 세로형태인 것을 가로 형태로 바꾸어줌

✏️ 그래프

import matplotlib.pyplot as plt

plt.rcParams['figure.figsize']
plt.style.use('ggplot')
group_df[].T.plot.bar()
plt.show()

📌 내 주변 무료 와이파이 지도 시각화

(위에 적은 것들을 활용해서 .. )

✅ 라이브러리 임포트 및 데이터 준비하기

import folium
import pandas as pd
import plotly.express as px

data = pd.read_csv('/content/dataset.csv', encoding='EUC-KR')
data.isna().sum() # 누락 확인 -> 설치년월일 누락있음
data.설치시설구분.unique() -> 서민·복지시설, 서민/복지시설,  서민·복지시설, 서민복지시설 로 중복있음-> 서민복지시설(전처리)
data.loc[data.설치시설구분.str.contains('서민'), '설치시설구분'] = '서민복지시설'

✅ 데이터 분석하기

# 설치시도별 무료 WIFI 설치 현황 수
data['설치시도명'].value_counts()

# 설치시도별, 설치시설구분, 서비스제공사명 무료 WIFI 설치 현황
group_data = data.groupby(by=['설치시도명', '설치시설구분', '서비스제공사명']).size().reset_index(name='총설치수')

size()는 총 값을 계산해주지만 시리즈형태로 불러온다.(count는 데이터프레임)그래서 reset_index를 사용하여 컬럼으로 형태로 바꾸고 데이터 프레임 형태로 불러올 수 있다. 그리고 또 name=''을 통해 총 값 컬럼에 이름을 지정해줄 수 있다.

✅ 데이터 시각화하기

# 설치시도별 WIFI 설치 현황
px.histogram(group_data, x='설치시도명', y='총설치수')

🔼 결과

# 설치시설별 WIFI 설치 현황
px.histogram(group_data, x='설치시설구분', y='총설치수')

🔼 결과

# 서비스제공사별 WIFI 설치 현황
px.histogram(group_data, x='서비스제공사명', y='총설치수')

🔼 결과

# 시도에 따른 설치시설별 와이파이 설치 현황
fig = px.histogram(data, x='설치시도명', color='설치시설구분')
fig.show()

🔼 결과

# 설치시도별 WIFI 설치 현황
fig = px.pie(group_data, names='설치시도명', values='총설치수')
fig.show()

여기에

colors = ['gold', 'mediumturquoise', 'darkorange', 'lightgreen']  # 색지정
fig.update_traces(textposition='inside', textinfo='percent+label', hoverinfo='value', textfont_size=20,
                  marker=dict(colors=colors, line=dict(color = '#000000', width=2)))

위의 코드를 입력하면 커스텀도 가능하다. (textposition을 'inside'로 지정하여 파이차트 내부에 퍼센트나 이 값이 무엇인지 textinfo를 통해 명시가능하다. hover는 마우스 커서를 가져다대었을때 해당 정보를 보여주는 것이다.)

모두 추가하면 이런식으로 그래프가 나타난다.

# 설치시설별 WIFI 설치 현황
fig = px.pie(group_data, names='설치시설구분', values='총설치수')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

🔼 결과

✔️ 대전시 무료 와이파이 현황 분석

dj_df = data.loc[data['설치시도명']=='대전광역시']
dj_df.info()

대전시 데이터만 따로 추출하여 저장

# 시군구에 따른 설치시설별 와이파이 설치 현황
fig = px.histogram(dj_df, x='설치시군구명', color='설치시설구분')
fig.show()

🔼 결과

# 시군구에 따른 관리기관별 와이파이 설치 현황
fig = px.histogram(dj_df, x='설치시군구명', color='관리기관명')
fig.show()

🔼 결과

# 집계데이터프레임 만들 때, 기준이 될 수 있는 컬럼을 모두 groupby 하자
# 합쳐서 시각화는 차트에서 제공 해줌
group_dj = dj_df.groupby(by=['설치년월', '설치시군구명', '설치시설구분', '서비스제공사명', '관리기관명']).size().reset_index(name='총설치수')

groupby 후 시각화

# 시군구별 WIFI 설치 수와 설치시설 구분
fig = px.histogram(group_dj, x='설치시군구명', y='총설치수', color='설치시설구분')
fig.show()

🔼 결과 위에서 groupby 하지 않고 그래프를 그렸을 때와 다른 결과가 나온다. (아마 groupby 하면서 널값들이 있던 행들은 다 날라가서 그런거같다)

# 시군구별 WIFI 설치 수와 서비스제공사명
fig = px.histogram(group_dj, x='설치시군구명', y='총설치수', color='서비스제공사명')
fig.show()

🔼 결과

# 시군구별 WIFI 설치 현황
fig = px.pie(group_dj, names='설치시군구명', values='총설치수')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

🔼 결과

# 설치시설구분 WIFI 설치 현황
fig = px.pie(group_dj, names='설치시설구분', values='총설치수')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

🔼 결과

# 서비스제공사별 WIFI 설치 현황
fig = px.pie(group_dj, names='서비스제공사명', values='총설치수')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

🔼 결과

# 관리기관별 WIFI 설치 현황
fig = px.pie(group_dj, names='관리기관명', values='총설치수')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

🔼 결과

✔️ 내 위치에 가장 가까운 무료 와이파이 찾기 - 지도 시각화

# 1. 내 위치 좌표 찾기
# 1) folium 지도에 click하면 좌표정보가 popup으로 띄어주고 그걸 확인해서 내 위치 좌표로 사용하는 방법
# 지도에 ClickForMarker 함수와 LatLngPopup 함수를 적용하여 위치를 Marker 표출

import folium

m = folium.Map(location=[36.3511, 127.3866], zoom_start=14)

# ClickForMarker 함수 적용
m.add_child(folium.ClickForMarker(popup='point'))

# 위도/경도 팝업 활성화 시키도록 적용 -> 지도를 탐색해서 좌표값 찾는데 도움
m.add_child(folium.LatLngPopup())

🔼 이를 활용하여 보고 싶은 위치의 경도 위도 좌표 정보를 알아낼 수 있다.

# 2) 도로명 주소 -> 좌표값으로 변환
from geopy.geocoders import Nominatim

def geocoding(address):
  geolocoder = Nominatim(user_agent = 'South Korea', timeout=None)
  geo = geolocoder.geocode(address)
  crd = {"lat":str(geo.latitude), "lng":str(geo.longitude)}

  return crd

crd = geocoding('서울 종로구 사직로 161')
print(crd['lat'])
print(crd['lng'])

🔼 경도와 위도를 추출해내는 함수를 선언하여 address를 입력하면

위와 같이 위도 경도 정보가 출력된다.

myhome = folium.Map(location=[crd['lat'],crd['lng']], zoom_start=14)

folium.Marker([crd['lat'],crd['lng']], icon=folium.Icon(color='red', icon='glyphicon glyphicon-home')).add_to(myhome)
myhome

위의 경도 위도 정보를 활용하여 지도 시각화를 하면

이런 식으로 마커 표시 가능.

# 2. 나랑 가장 가까운 WIFI 찾기
from geopy.distance import geodesic

# 1) 무료 WIFI 위치 정보 가져오기
my_wifi = pd.DataFrame(columns=['설치시군구명', '설치시설구분', '위도', '경도', '거리'])

myhome = (37.5759183, 126.9768292702487)

for n in data.index:
  wifi_loc = (data.loc[n, '위도'], data.loc[n, '경도'])  # tuple 형태
  print(type(wifi_loc))

  # 2) my_wifi dataframe에 담기
  my_wifi.loc[n] = [data.loc[n, '설치시군구명'], data.loc[n, '설치시설구분'], data.loc[n, '위도'], data.loc[n, '경도'], geodesic(myhome, wifi_loc).kilometers]

위에서 구한 좌표 데이터를 토대로 주변 무료 와이파이 지도시각화를 하기 위해 무료 와이파이 데이터의 위도, 경도 정보를 튜플형태로 저장. 또, myhome(내 위치)와 wifi_loc(와이파이 위치)의 거리 차를 임포트한 geodesic을 이용해 데이터 프레임 거리 컬럼에 저장.

# myhome과 가장 가까운 WIFI top5 뽑기
my_wifi = my_wifi.sort_values(by=['거리']).head(10)
my_wifi

그 후 거리가 가장 가까운 순으로 정렬하여 그 중 상위 10개만 저장한다.

my_map = folium.Map(location=[37.5759183, 126.9768292702487], zoom_start=14)

for n in my_wifi.index:
  folium.Marker([my_wifi.loc[n, '위도'], my_wifi.loc[n, '경도']],
                popup=''+my_wifi.loc[n, '설치시설구분']+'',
                icon=folium.Icon(icon='wifi', prefix='fa')).add_to(my_map)

  folium.Marker([37.5759183, 126.9768292702487], icon=folium.Icon(color='red', icon='glyphicon glyphicon-home')).add_to(my_map)

my_map

위에서 상위 10개를 뽑은 데이터를 토대로 지도 시각화한 결과

✔️ 도로명 주소를 입력받아 해당 위치에서 가장 가까운 무료 와이파이 찾기

# 1) 라이브러리 임포트
import folium
import pandas as pd
import plotly.express as px

# 2) wifi 데이터프레임 준비
data = pd.read_csv('/content/dataset.csv', encoding='EUC-KR')

# 3) 주소를 좌표로 변환할 함수 준비
from geopy.geocoders import Nominatim

def geocoding(address):
  geolocoder = Nominatim(user_agent = 'South Korea', timeout=None)
  geo = geolocoder.geocode(address)
  crd = {"lat":float(geo.latitude), "lng":float(geo.longitude)}

  return crd

# 4) 사용자에게 주소를 입력받기
address = input("당신의 주소를 입력하시오.")
crd = geocoding(address)

# 5) 주소 좌표로 변환하여 tuple 형태로 변수에 담기
from geopy.distance import geodesic

myhome = folium.Map(location=[crd['lat'],crd['lng']], zoom_start=14)
my_wifi = pd.DataFrame(columns=['설치시군구명', '설치시설구분', '위도', '경도', '거리'])

myhome = (crd['lat'], crd['lng'])

keypoint = address.split(' ')[0]
data = data.loc[data.설치시도명.str.contains(keypoint)]

# 6) my_wifi dataframe에 거리 계산하여 담기
for n in data.index:
  wifi_loc = (data.loc[n, '위도'], data.loc[n, '경도'])  # tuple 형태

  # my_wifi dataframe에 담기
  my_wifi.loc[n] = [data.loc[n, '설치시군구명'], data.loc[n, '설치시설구분'], data.loc[n, '위도'], data.loc[n, '경도'], geodesic(myhome, wifi_loc).kilometers]

# 7) 내 위치에 가장 가까운 wifi 10개 뽑기
my_wifi = my_wifi.sort_values(by=['거리']).head(10)

# 8) 지도 준비
for n in my_wifi.index:
  folium.Marker([my_wifi.loc[n, '위도'], my_wifi.loc[n, '경도']],
                popup=''+my_wifi.loc[n, '설치시설구분']+'',
                icon=folium.Icon(icon='wifi', prefix='fa')).add_to(my_map)
  folium.Marker([crd['lat'], crd['lng']], icon=folium.Icon(color='red', icon='glyphicon glyphicon-home')).add_to(my_map)

my_map

위에서 입력한 코드와 유사하지만 도로명 주소를 사용자에게 입력받기 때문에 입력받은 주소를 함수를 통해 위도 경도로 변환하여 저장하기때문에 위도 경도 입력시 crd['lat], crd['lng']로 입력해야한다.

이렇게 입력한 주소 중심으로 무료 와이파이가 표시된다.

2022-09-02

Wed, 14 Sep 2022 05:23:46 GMT

📌 ESG 특강

✅ 공생 회사 소개

: ESG 중 S의 인권적인 부분, 지역 사회 관계 구축 등을 주축에 둔 회사이다. 실제로 혁신 창업지원 사례로 실험실 창업팀 MVP 제작 및 멘토링 지원 프로그램, 라오스 불발탄 피해 절단장애인을 위한 다목적 맞춤 의수 및 자립생활용 보조기기 자급화 실증사업 등이 있다.

✅ 창업

: 메이커란? 다른 나라에는 Garage가 있는데 우리나라는 그런 창고공간이 주거공간에 있기가 흔치 않아서 나라에서 메이커 스페이스를 만들고자 노력하고 있다. 창업관련해서 크라우드 펀딩쪽으로도 활용가능.

✅ 소셜벤처

해결 가능한 사회문제들을 비즈니스를 하는 곳. 요즘에는 플라스틱 사용에 관한 환경문제가 대두되어지고 있다. 사회적 기업과의 차이점은 사회적 가치를 창출하면서도 경제적 가치 역시 창출한다는 것이다. 사례로는 닷워치, 설리번+앱, 거동이 불편한 노인 및 장애인들이 국가 지원을 받아 이용할 수 있는 저비용 퍼스널 로봇 개발 등이 있고, 창업지원 사례로는 장애 체험을 통해 문제를 발견해 메이킹 기술을 접목하여 해결방안도출해내는 일상혁신 메이커톤 등이 있다.

✅ SDG, GDP

: GDP란 우리나라 안에 있는 모든 사람이 생산한 가치를 말한다. 하지만 경제적인 척도로 나라를 평가하기에 부족한 면이 있기 때문에 나온 것이 SDG이다. SDG란 지속 가능 발전 목표로 이는 지속 가능한 발전을 위한 국제적인 약속이다. 목적으로는 경제 사회 환경의 균형 발전.

✅ CSR, CSV, ESG

: CSR은 기업 활동 외 사회 공헌 활동을 말하는 것이며, CSV는 기존의 비즈니스 모델에서 사회적 가치와 경제적 가치를 창출하는 것이고 ESG는 기업의 비재무적요소이다. 이 세가지를 기준으로 기업가치를 평가하는 주요지표로 대두되고 있다. Blackrock과 미국의 전경련이 주주 이익 극대화가 비즈니스의 장기적 성과를 망칠 수 있음을 강조. 우리나라 사례로는 매일 유업의 특수분유 제조.

✅ 적정기술

: 적정기술이란 그 기술이 사용되는 사회공동체의 정치적, 문화적, 환경적 조건을 고려해 해당 지역에서 지속적인 생산과 소비가 가능하도록 만들어진 기술이다. 적정기술의 조건은 쉽게이용가능하고, 적은비용이어야하며 간단해야하며 현지 재료를 사용해야한다. 또한 변화 가능해야하며 스스로 제작할 수 있어야하고 지역 발전에 보탬이 되어야 한다는 것이다. 이의 사례로는 물을 바로 정화해 마실 수 있는 라이프 스트로, 개발도상국 아이들을 위한 저렴한 가격으로 제작된 컴퓨터 등이 있다. 또한 이외에도 보조기기를 공급을 해주거나 더 나아가 직접 제작할 수 있게끔 해줄 수 있다.

📌 진로맵 그리기

✅ 컨셉맵 BOK

: 서로 의미있는 관계를 가지고 있는 중요한 컨셉(정보, 키워드)를 하나의 그림으로 표현. (ex. 스누피가든)

✅ 진로맵 작성(+cmap)

2022-09-01

Wed, 14 Sep 2022 05:23:26 GMT

📌 네이버 랭킹 뉴스 크롤링

✅ 많이 본 뉴스

from urllib.request import urlopen
from bs4 import BeautifulSoup
from pytz import timezone

import pandas as pd
import datetime

🔼 크롤링에 필요한 라이브러리(url, BeautifulSoup 등)와 수집일자를 출력하기 위한 라이브러리 임포트

🔼 크롤링할 랭킹 뉴스 화면

개발자 모드로 보면 🔽 이런식으로 볼 수 있다. 이 html 태그들을 확인하면서 크롤링해야한다.

# 1) 데이터 프레임 생성
data = pd.DataFrame(columns=['언론사명', '순위', '기사제목', '기사링크', '수집일자'])

# 2) 네이버 랭킹 뉴스 접속 주소 준비 : https://news.naver.com/main/ranking/popularDay.naver
url = 'https://news.naver.com/main/ranking/popularDay.naver'

# 3) url에서 html 가져오기
html = urlopen(url)

# 4) html을 파싱할 수 있는 object로 변환
bsObject = BeautifulSoup(html, 'html.parser', from_encoding='UTF-8')

🔼 먼저 크롤링한 것을 담을 데이터 프레임을 형성하고 url을 입력후 urlopen을 해준다. BeautifulSoup을 이용하여 파싱할 수 있게 변환.

# 5) 네이버 랭킹 뉴스 정보가 있는 div만 가져오기
div = bsObject.find_all('div', {'class', 'rankingnews_box'})

🔼 위의 캡쳐본을 다시 보면 확인할 수 있듯 랭킹 뉴스 정보가 div 태그 안에 rankingnews_box 라는 클래스로 선언되어 있는 것을 볼 수 있다. find_all을 사용하여 이것들을 가져온다.

🔼 위의 캡쳐본을 확인해보면 언론사명이 아시아경제 로 선언되어 있는 것을 볼 수 있다.

# 6) 네이버 랭킹 뉴스 상세 정보 추출
for index_div in range(0, len(div)):
  # 6-1) 언론사명 추출
  strong = div[index_div].find('strong', {'class', 'rankingnews_name'})
  press = strong.text

🔼 해서 find를 이용해서 'strong'안의 class 명 rankingnews_name을 입력해서 추출. 그 후 press라는 변수에 저장. (✏️ find와 find_all의 차이는?

🔼 위를 보면 ul 태그 안 class = "rankingnews_list"로 선언되어 랭킹 뉴스들이 li 태그로 하나 하나 입력되어 있는 것을 볼 수 있다.

  # 6-2) 랭킹 뉴스 정보 추출
  ul = div[index_div].find_all('ul', {'class', 'rankingnews_list'})
  for index_r in range(0, len(ul)):
    li = ul[index_r].find_all('li')
    for index_l in range(0, len(li)):
      try:  # 예외처리
        # 순위
        rank = li[index_l].find('em', {'class','list_ranking_num'}).text
        # 뉴스 제목
        title= li[index_l].find('a').text
        # 뉴스 링크
        link = li[index_l].find('a').attrs['href']
        # 7) dataframe 저장(append)
        data = data.append({'언론사명':press,
                            '순위':rank,
                            '기사제목':title,
                            '기사링크':link,
                            '수집일자':datetime.datetime.now(timezone('Asia/Seoul')).strftime('%Y-%m-%d %H:%M:%S')}, ignore_index=True)

      except:
        pass

      print('Complets of ' + rank + ' : ', title)

print('----------------------------------------')
print(data)

🔼 해서 for문을 사용해 ul 태그 안에 li 태그들을 하나하나 불러온다. 그 후 또 for문과 try를 이용하여 li 태그 속 순위, 뉴스 제목, 뉴스 링크를 데이터 프레임에 append한다.

🔼 이를 보면 순위는 1, 기사 제목과 링크는 휴가철·명절 두려운 반려견들..."추석은 가족과 함께하고 싶어요" (a 태그 안에 같이 있지만 링크는 href로 선언되어있어서 attrs['href']로 추출하고 제목은 텍스트므로 .text로 추출)

수집일자는 위에서 임포트한 라이브러리를 활용하여 현재시간을 한국시간으로 변환하여 출력.

data.to_csv('네이버랭킹뉴스_많이본뉴스_크롤링_20220901.csv', encoding='utf-8-sig', index=False)

🔼 크롤링한 데이터는 저장!!

day_df = pd.read_csv('/content/네이버랭킹뉴스_많이본뉴스_크롤링_20220901.csv')

🔼 그 후 데이터 프레임 형식으로 불러온다.

day_df['기사제목'].replace('[^\w]', ' ', regex=True, inplace=True)

🔼 그 다음에는 기사제목에 있는 특수부호들을 없애기 위한 전처리를 해준다.

import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

🔼 워드클라우드를 위한 라이브러리 임포트. 코랩은 한글 깨짐 방지 코드도 실행시켜주어야 함!!

# wordCloud 라이드버리에서는 하나의 문자열로 제공해야함
# 391의 기사제목을 하나의 text로 데이터 전처리

day_text = " ".join(li for li in day_df.기사제목.astype(str))
day_text

🔼 워드클라우드를 위한 데이터 전처리

plt.subplots(figsize=(25,15))
wordcloud = WordCloud(background_color='white', width=1000, height=700, font_path=fontpath).generate(day_text)
plt.axis('off')
plt.imshow(wordcloud, interpolation='bilinear')
plt.show()

🔼 워드클라우드를 실행시키면!

🔼 이런 결과가 나온다. 이는 9월 12일자 기준으로 크롤링된 데이터를 가지고 한 워드 클라우드이다.

✅ 댓글 많은 뉴스

댓글 많은 뉴스도 링크만 수정하고 코드는 위와 동일하게 하면 된다. (링크:https://news.naver.com/main/ranking/popularMemo.naver)

data.to_csv('네이버랭킹뉴스_댓글많은뉴스_크롤링_20220901.csv', encoding='utf-8-sig', index=False)
memo_df = pd.read_csv('/content/네이버랭킹뉴스_댓글많은뉴스_크롤링_20220901.csv')

🔼 데이터 저장 후 데이터를 불러온 다음

import re

def clean_text(inputString):
  text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
  return text_rmv

# text 붙이면서 데이터 전처리
memo_text = " ".join(clean_text(li) for li in memo_df.기사제목.astype(str))  # df.기사제목 = df['기사제목']

많이 본 뉴스와 다른 방식으로 데이터 전처리. re라는 것을 임포트 한 후 특수기호를 삭제하는 함수를 선언한다. 그후 join을 이용해 텍스트를 붙일 때 데이터 전처리까지 한번에 하는 방식.

그 후 워드 클라우드를 해주면(코드는 위와 동일하다)

🔼 이런 결과가 나온다(이 역시 9월 12일자 랭킹뉴스 기준 시각화)

2022-08-29~2022-09-01

Wed, 14 Sep 2022 05:19:54 GMT

📌 과제 리뷰

✅ 경기도 전기차 충전소 현황 분석

라이브러리 임포트 및 데이터 불러오기
데이터 전처리
데이터 분석(그래프 그리기)
지도 시각화

로 구분해서 작성해보겠다.

✏️ 1. 라이브러리 임포트 및 데이터 불러오기

import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import folium

df = pd.read_csv('/content/drive/MyDrive/전공관련/데이터 자료/전기차충전소현황.csv')

데이터분석을 위해 pandas 불러왔고 그래프를 그리기 위한 matplot라이브러리와 plotly, 지도시각화를 위한 folium까지 import 완료

✏️ 2. 데이터 전처리

# 1) 시군구명 컬럼 생성 및 필요없는 컬럼 삭제
data_split = df['소재지도로명주소'].str.split(' ')
df['시군구명'] = data_split.str.get(2)
del df['소재지지번주소']
del df['소재지도로명주소']
del df['소재지우편번호']

데이터 분석을 위해 필요한 건 시군구명이기때문에 소재지도로명주소 컬럼에서 시군구명만 split을 한 후 컬럼을 새로 생성했다. 그 후 우리 분석에 필요없는 지번주소 도로명주소 우편번호 이런 것들은 그냥 싹 다 삭제했다.

# 2) 컬럼 순서 정리
df = df[['충전소명','시군명', '시군구명', 'WGS84위도', 'WGS84경도', '운영기관명', '충전기타입명']]

그리고 .. 내가 약간 강박증이 있어서 새로 생성한 컬럼이 뒤에 따로 있는게 싫어서 순서를 정리해보았다. 안해도 문제없음.

# 3) NaN데이터 처리
# df.isna().sum()
df.dropna(inplace=True)
df.reset_index(drop=True, inplace=True)

NaN 데이터 확인 후 dropna로 그냥 다 날려버렸다. 근데 여기서 문제. dropna로 데이터를 날리게 되면 인덱스 번호가 0,1,2,3,5,...,333,335,... 이런식으로 되어서 나중에 지도시각화할 때였나 .. 암튼 에러가 뜬다. 그래서 인덱스 번호를 리셋해주었다. 다른 조에서 에러가 났대서 구경갔다가 알게된 사실 .. 감사 ..

✏️ 3. 데이터 분석(그래프 그리기)

df.to_csv('경기도전기차현황.csv', encoding='utf-8-sig')

데이터 저장부터 하고 분석합시다..

# 1) 시군별 충전소 현황 - 단순한 빈도수 체크
fig = px.bar(df, x='시군명', color = '시군명')
fig.show()

시별로 구분해서 보고 싶어서 color에 시군명을 넣어보았다. 성남시에 가장 많고 용인과 수원이 뒤따르고 있는 모습.

# 2) 각 시별 시군구별 충전소 현황
city = input('충전소 현황을 확인하고 싶은 지역을 입력하시오: ')  # 지역 이름 넣기
a = df['시군명'].str.contains(city)  # 해당 지역의 인덱스 찾기
df2 = df[a]  # 인구구조 저장
fig = px.bar(df2, x='시군구명', color ='시군구명')
fig.show()

split을 한 이유.. 사용자에게 시를 input 받아 시군구별로 비교하고 싶었다. 근데 사실 이 그래프에는 비밀이 있다. 그 시에 구가 없으면 걍 도로명주소가 나온다... 이렇게 .. 지번주소로 split을 했었다면 동으로라도 비교가 가능했을텐데 split했을 때는 이런거까지 생각하고 하지는 않았기땜에 ....

# 3) 운영기관 빈도수 그래프
fig = px.bar(df, x='운영기관명', color='운영기관명')
fig.show()

운영기관별로도 비교해보았다. 근데 보면 색이 연해서 .. (나중에 교통사고데이터분석할때는 더더욱 색이 연했다) 이 색을 어케 할 수는 없나??했었는데 월요일, 그러니까 9월 5일에 교수님이 plotly로 히스토그램 그리는 방법을 알려주시면서 걍 해결됐다 .. 교수님이 히스토그램 그리시는 거 보면서 처음 그래프 그리기 전에 빈도수 비교 그래프니까 matplot으로 히스토그램 그래프를 그렸다가 그래프가 뭔가 맘에 안들어서 plotly로 히스토그램 그래프 그리는 방법을 검색해봐야겠다 해놓고 까먹은게 기억이 났다.. 이상하게 교육장에서 과제하면 정신이 없어서 집에서 차분히 하면 잘 보이는 것들도 다 안보이고 금방 해결할 수 있는 문제도 엄청 시간을 들여 헤매게 된다 .. 나중에 교통사고 데이터 분석할때 이게 엄청 심해져서 .. 걍 집에서 처음부터 다시하게돼서 밤도 샜다 ... 나는 뭐가 문제지 뭐가 문제긴 뭐가 문제야 집중력 문제지 .. 우짜죠 총명캔디라도 사먹어야될까요

# 4) 충전기 현황(파이차트)
ratio = df['충전기타입명'].value_counts()
labels=['AC완속', 'DC차데모+AC3상+DC콤보', 'DC차데모+DC콤보', 'DC콤보', 'DC차데모+AC3상']
plt.figure(dpi=200)
plt.title('충전기 비율')
plt.pie(ratio, startangle=90, autopct='%.2f%%')
plt.legend(labels, loc=(0.9, 0.7))
plt.show()

충전기는 파이차트로 그리고 싶어서 그리는데 아무래도 이건 총 value 같은 데이터가 없다보니까 value_counts를 써서 그렸다. (이것도 다른조가 알려줬다 감사 ..) 이것도 plotly 써서 그리면 좀 더 보완 가능할 거 같다.

# 5) 지역별 운영기관 분포도
fig = px.bar(df, x='시군명', color='충전기타입명')
fig.show()

그래프를 그리다보니까 누적그래프를 너무 ...... 그리고 싶었는데 이게 다 컬럼이다보니까 그려지지를 않아서 .. (검색을 그짓말 안치고 50번은 하고 유튜브 영상도 5개는 본 거 같은데 groupby를 몰랐다 .. 구글링 하는 방법부터 연마해야할듯) 일단은 color로 구분하는 걸로 만족했었다 ..

✏️ 4. 지도 시각화

우리 조는 지도시각화에 표현하고 싶은 것이

설치 취소된 충전소 맵에 표시하기
충전기 선호도 맵에 표시하기
랜드마크 찾아서 그 근처 전기차 현황 보기

였다(모두 조장님의 아이디어 .. 짱!)

2번은 자료를 조사하다보니 차종별로 충전기 호환되는게 있고 안되는게 있어서 이걸로 표시하는 걸로 바뀌었다. 또 원래 충전기 별로 색을 구분해서 표시하려고 했는데 시각화를 하다보니 이게 별로 의미가 없는 거 같아서 사용자가 차종을 입력하면 충전 가능한 곳과 불가능한 곳으로 구분해서 표시하는 것으로 최종 결정!

자료는 이곳에서 참고했다!! (https://www.ev.or.kr/portal/chargerkind)

from ipywidgets.widgets.widget_selection import RadioButtons
# 3. 지도 시각화 - 충전소 위치
# 충전기타입별 가능한 차종 all~~~

from scipy.sparse import dok


type_1 = ['블루온', '레이', '쏘울', '아이오닉', '스파크', 'i3', 'Leaf', '볼트', 'ZOE']
type_2 = ['블루온', '레이', '쏘울', '아이오닉', 'Leaf', 'SM3 ZE', '코나', '니로', 'ZOE', '스파크', '볼트', 'i3']
type_3 = ['블루온', '레이', '쏘울', '아이오닉', 'Leaf', '코나', '니로', 'ZOE', '스파크', '볼트', 'i3']
type_4 = ['아이오닉', '코나', '니로', '쏘울', 'ZOE', '스파크', '볼트', 'i3']
type_5 = ['블루온', '레이', '쏘울', '아이오닉', 'Leaf', 'SM3 ZE']
landmark = ['용인 에버랜드', '수원 화성', '서울대공원(서울랜드)', '한국민속촌', '파주 프로방스 마을']
landmark_lat = ['37.27711935934', '37.2869619', '37.42922350891575', '37.259406344922276', '37.79080554013303']
landmark_lon = ['127.22694956007', '127.011801', '127.01476688687515', '127.12315632756929', '126.68517789344757']


print(landmark)

carname = input("차종을 입력하세요")
ln = input("위의 랜드마크 중 하나를 골라 입력하시오")


Kmap = folium.Map(location=[df['WGS84위도'].mean(), df['WGS84경도'].mean()], zoom_start=10)

condition = df['충전기타입명']

for n in range(5):
  if ln in landmark[n]:
    folium.CircleMarker([float(landmark_lat[n]), float(landmark_lon[n])], radius = 100, 
                      color='orange', fill_color='orange').add_to(Kmap)

for index_draw in range(0, len(condition)):
  if condition[index_draw] == 'AC완속' and carname in type_1:
    folium.Marker([df.loc[index_draw, 'WGS84위도'], df.loc[index_draw, 'WGS84경도']],
                  popup=''+df['충전소명'][index_draw]+'', tooltip = '블루온, 레이, 쏘울, 아이오닉, 스파크, i3, Leaf, 볼트, ZOE',
                  icon = folium.Icon(color='blue', icon='fa-car', prefix='fa')).add_to(Kmap)

  elif condition[index_draw] == 'DC차데모+AC3상+DC콤보' and carname in type_2:
    folium.Marker([df.loc[index_draw, 'WGS84위도'], df.loc[index_draw, 'WGS84경도']],
                  popup=''+df['충전소명'][index_draw]+'', tooltip = '블루온, 레이, 쏘울, 아이오닉, Leaf, SM3 ZE, 코나, 니로, ZOE, 스파크, 볼트, i3',
                  icon = folium.Icon(color='blue', icon='fa-car', prefix='fa')).add_to(Kmap)

  elif condition[index_draw] == 'DC차데모+DC콤보' and carname in type_3:
    folium.Marker([df.loc[index_draw, 'WGS84위도'], df.loc[index_draw, 'WGS84경도']],
                  popup=''+df['충전소명'][index_draw]+'', tooltip = '블루온, 레이, 쏘울, 아이오닉, Leaf, 코나, 니로, ZOE, 스파크, 볼트, i3',
                  icon = folium.Icon(color='blue', icon='fa-car', prefix='fa')).add_to(Kmap)

  elif condition[index_draw] == 'DC콤보' and carname in type_4:
    folium.Marker([df.loc[index_draw, 'WGS84위도'], df.loc[index_draw, 'WGS84경도']],
                  popup=''+df['충전소명'][index_draw]+'', tooltip = '아이오닉, 코나, 니로, 쏘울, ZOE, 스파크, 볼트, i3',
                  icon = folium.Icon(color='blue', icon='fa-car', prefix='fa')).add_to(Kmap)

  else:
    folium.Marker([df.loc[index_draw, 'WGS84위도'], df.loc[index_draw, 'WGS84경도']],
                  popup=''+df['충전소명'][index_draw]+'', tooltip = '충전 불가',
                  icon = folium.Icon(color='red', icon='fa-car', prefix='fa')).add_to(Kmap)  

Kmap

차종은 코나, 랜드마크는 민속촌을 입력한 결과이다 솔직히 경기도 전기차 현황 분석은 우리가 하려고 했던 대로 결과가 잘 나온 편인 거 같다. 문제는 .. 교통사고현황이었다. 집에서 과제하고있는데도 집에 가고 싶었다 ㅎㅎ ..

✅ 2018~2021년 교통사고 현황 분석

이번에도

라이브러리 임포트 및 데이터 불러오기
데이터 전처리
데이터 분석(그래프 그리기)
지도 시각화
부산지역 교통사고 현황 분석

로 구분해서 작성해보겠다.

✏️ 1. 라이브러리 임포트 및 데이터 불러오기

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import folium

df_18 = pd.read_csv('/content/drive/MyDrive/전공관련/데이터 자료/도로교통공단_사망교통사고정보_2018.csv')
df_19 = pd.read_csv('/content/drive/MyDrive/전공관련/데이터 자료/도로교통공단_사망교통사고정보_2019.csv')
df_20 = pd.read_csv('/content/drive/MyDrive/전공관련/데이터 자료/도로교통공단_사망교통사고정보_2020.csv')
df_21 = pd.read_csv('/content/drive/MyDrive/전공관련/데이터 자료/도로교통공단_사망 교통사고 정보_20211231.csv')

이때까지만 해도 제정신이었던 거 같은데 어디서 정신머리가 가출햇을꼬...

✏️ 2. 데이터 전처리

# 2018년
date_18 = df_18['발생년월일시분'].str.split(' ')
df_18['발생년월일'] = pd.to_datetime(date_18.str.get(0), format='%Y-%m-%d', errors='raise')
df_18['발생시간'] = date_18.str.get(1).str.split(':').str.get(0)
df_18 = df_18.astype({'발생시간':'int64'})
df_18 = df_18.astype({'발생년':'str'})
#df_18['발생시간'] = pd.to_datetime(date_18.str.get(1), format='%H:%M', errors='raise').dt.time  -> 시분초

어디긴 어디야 걍 집에서 나온 순간부터 정신머리는 없었던 거 같다... 암튼 경기도 현황이랑 유사하게 split이용해서 발생년월일시분에서 발생년월일과 발생시간만 따와서 새 컬럼을 생성하고 데이터 타입도 변경해주었다. 사실 발생년은 나중에 그래프그리다가 생성했다.

# 2019년
date_19 = df_19['발생년월일시'].str.split(' ')
df_19['발생년월일'] = pd.to_datetime(date_19.str.get(0), format='%Y-%m-%d', errors='raise')
df_19['발생시간'] = date_19.str.get(1)
df_19 = df_19.astype({'발생시간':'int64'})
df_19 = df_19.astype({'발생년':'str'})

# 2020년
date_20 = df_20['발생년월일시'].str.split(' ')
df_20['발생년월일'] = pd.to_datetime(date_20.str.get(0), format='%Y-%m-%d', errors='raise')
df_20['발생시간'] = date_20.str.get(1)
df_20 = df_20.astype({'발생시간':'int64'})
df_20 = df_20.astype({'발생년':'str'})

# 2021년
date_21 = df_21['발생년월일시'].str.split(' ')
df_21['발생년월일'] = pd.to_datetime(date_21.str.get(0), format='%Y-%m-%d', errors='raise')
df_21['발생시간'] = date_21.str.get(1).str.split(':').str.get(0)
df_21 = df_21.astype({'발생시간':'int64'})
df_21 = df_21.astype({'발생년':'str'})

데이터들이 다 달라서 욕하면서 전처리했다. 근데 이걸 교육장에서는 눈치를 못챔 .. 미친거아님??? 조장님이랑 팀원언니가 말을 해줬는데 아 ㅇㅋㅇㅋ해놓고 아무생각없이 전처리하고 나중에 집에서 하는데 지도시각화가 안돼서 그제서야 눈치챔.. 남의 말을 귓등으로도 안들은거지 걍 코랩도 답답햇겟다 오류로 그따구로 하는 거 아니라도 알려주는데 알아먹지도 못하고 ... 그렇게 저는 약 8시간을 그저 흘러보내고 집에 왔습니다.. 이거 쓰니까 또 화나네 ...

# 2) 컬럼 정리
# 2-1) 18년도 사상자 = 사망자 + 중상자 + 경상자, 나머지년도 부상자 = 중상자 + 경상자)
del df_18['사상자수']
df_18['부상자수'] = df_18['중상자수'] + df_18['경상자수']
# 2-2) 법규위반 -> 가해자법규위반
del df_18['법규위반_대분류']
df_18.rename(columns={'법규위반':'가해자법규위반'}, inplace=True)
# 2-3) 가해자당사자분류, 피해자당사자분류
del df_18['가해자_당사자종별_대분류']
del df_18['피해자_당사자종별_대분류']
# 2-4) 발생위치 () -> _
df_21.rename(columns={'발생위치X(UTMK)':'발생위치X_UTMK', '발생위치Y(UTMK)':'발생위치Y_UTMK'}, inplace=True)

데이터를 보면 나머지 데이터에는 사상자수가 없고 18년도에만 부상자수가 없고 이런게 있어서 처음에는 걍 18년도에만 있는 사상자 컬럼을 날리고 18년도에만 부상자수 컬럼을 추가했는데 나중에 코로나 관련된 그래프를 그리다보니까 사상자수 데이터로도 비교하고 싶어져서 결국 그때 다시 컬럼을 추가 생성했다 .. 컬럼수나 컬럼명이 다르면 데이터 합칠때 다 nan 값 처리가 되기때문에 이걸 다 하나하나 고쳐줘야한다. 이것도 몰랐다가 집에와서 알았다 .. 대체 교육장에서는 뭘했냐 저혈압인데 곧 고혈압될 거 같다 걍

# 3) 컬럼삭제
del df_18['발생년월일시분']
del df_19['발생년월일시']
del df_20['발생년월일시']
del df_21['발생년월일시']

필요없는 컬럼 삭제해주고

# 4) 데이터 합치기
df_list = [df_18, df_19, df_20, df_21]
df_all = pd.concat(df_list, ignore_index=True)

데이터를 합쳐주었다 ..

✏️ 3. 데이터 분석(그래프 그리기)

# 1) 년도별 사망자수 비교
fig = px.bar(df_all, x='발생년', y = '사망자수')
fig.show()

히스토그램 ....

# 2) 년도별 부상자수 비교
fig = px.bar(df_all, x='발생년', y='부상자수')
fig.show()

히스토그램을 했었다면 ..........

# 3) 요일별 사망자수 비교
fig = px.bar(df_all, x='요일', y='사망자수', color='주야')
fig.show()

✏️ 4. 지도 시각화

# 지도시각화(연도별로 컬러 구별)

df_map = folium.Map(location=[df_all['위도'].mean(), df_all['경도'].mean()], zoom_start=12)


df_all = df_all.astype({'부상자수':'float64'})
df_all = df_all.astype({'사망자수':'float64'})

acc = df_all.사고유형
year = df_all.발생년

for n in range(len(year)):
  if year[n] == '2018':
    cnt = df_all['사망자수'][n] + df_all['부상자수'][n]
    folium.CircleMarker([df_all['위도'][n],df_all['경도'][n]], radius=cnt*5, popup=acc[n], 
                        color='red', fill_color='red').add_to(df_map)
  elif year[n]=='2019':
    cnt = df_all['사망자수'][n] + df_all['부상자수'][n]
    folium.CircleMarker([df_all['위도'][n],df_all['경도'][n]], radius=cnt*5, popup=acc[n], 
                        color='blue', fill_color='blue').add_to(df_map)
  elif year[n]=='2020':
    cnt = df_all['사망자수'][n] + df_all['부상자수'][n]
    folium.CircleMarker([df_all['위도'][n],df_all['경도'][n]], radius=cnt*5, popup=acc[n], 
                        color='green', fill_color='green').add_to(df_map)
  elif year[n]=='2021':
    cnt = df_all['사망자수'][n] + df_all['부상자수'][n]
    folium.CircleMarker([df_all['위도'][n],df_all['경도'][n]], radius=cnt*5, popup=acc[n], 
                        color='yellow', fill_color='yellow').add_to(df_map)

df_map

그리고 발표할 때 지도시각화한 거 보여주려고하자 화면이 노란색으로 떠가지고 결국 그냥 넘어갔었는데 그 원인을 알았다 .. 원래 CircleMarker말고 Circle로 코드를 입력했어서 반지름을 cnt * 250을 해놔서 그랬다 ... 이거 쓰면서 또 화면이 노랗게 떠서 컴퓨터가 드디어 맛이 간건가 ..... 했는데 알고보니 그래서 그런거였다.. 5로 바꾸면 잘 보인다.

✏️ 5. 부산지역 교통사고 현황 분석

위에까지가 교수님이 주신과제였고 이거만 하면 재미없으니까 .. 추가적으로 할 수 있는 게 뭐 없을까 고민을 하다가 부산이 도로가 막장이라 초보자들이나 여행온 사람들은 운전하기 어렵다고 한 게 생각나서 부산 데이터를 따로 저장해서 그래프를 그려보니까 전체 데이터로 년도별 분석을 한 것과 다른 특이한 그래프가 그려져서 부산지역 교통사고 현황 분석을 해보자고 결정!

✔️ 1. 부산 데이터 저장

df_bs = df_all[df_all['발생지시도'] == '부산']
df_bs = df_bs.astype({'사망자수':'int64'})
df_bs = df_bs.astype({'부상자수':'int64'})

df_bs['사상자수'] = df_bs['사망자수'] + df_bs['부상자수']

df_bs.reset_index(drop=True, inplace=True)

# 부산 데이터 연도별로
bs_18 = df_18[df_18['발생지시도'] == '부산']
bs_19 = df_19[df_19['발생지시도'] == '부산']
bs_20 = df_20[df_20['발생지시도'] == '부산']
bs_21 = df_21[df_21['발생지시도'] == '부산']

bs_18 = bs_18.astype({'사망자수':'int64'})
bs_19 = bs_19.astype({'사망자수':'int64'})
bs_20 = bs_20.astype({'사망자수':'int64'})
bs_21 = bs_21.astype({'사망자수':'int64'})
bs_18 = bs_18.astype({'부상자수':'int64'})
bs_19 = bs_19.astype({'부상자수':'int64'})
bs_20 = bs_20.astype({'부상자수':'int64'})
bs_21 = bs_21.astype({'부상자수':'int64'})

bs_18.reset_index(drop=True, inplace=True)
bs_19.reset_index(drop=True, inplace=True)
bs_20.reset_index(drop=True, inplace=True)
bs_21.reset_index(drop=True, inplace=True)

보면 알겠지만 위에서부터 시각화를 위한 변수 선언을 엄~청 많이 해서 .. 나중되서는 엄청 헷갈리고 정신없었다 진심으로 ..

✔️ 2. 그래프

# 사망자수 그래프
fig = px.bar(df_bs, x='발생년', y='사망자수')
fig.show()

# 부상자수 그래프
fig = px.bar(df_bs, x='발생년', y='부상자수')
fig.show()

그리고 .. 대망의 누적그래프 ..

원래 plotly로 그리고 싶었는데 구글링을 아무리 해도 뭔소리인지를 모르겠거나 dataframe을 만들어서 그리는 예시만 있거나 하고 내가 원하는 건 못찾았다 .. 내가 그리려는건 총 value가 데이터에 주어져 있지도 않은 컬럼들인데 이거땜에 머리를 쥐어짜다가 결국엔 걍 데이터를 새로 만들었다 ...

mydata = df_bs[['사망자수', '중상자수', '경상자수']]

#mydata[:121].sum() -> 18년
#mydata[121:236].sum() -> 19년
#mydata[236:336].sum() -> 20년
#mydata[336:].sum() -> 21년

samang = [123, 116, 100, 113]
js = [22, 28, 16, 13]
gs = [41, 20, 15, 20]
year=["2018", "2019", "2020", "2021"]

plt.figure(dpi=150)
plt.bar(year, samang, color='red', label='사망자')
plt.bar(year, js, color='green', bottom = np.array(samang), label='중상자')
plt.bar(year, gs, color='yellow', bottom = np.array(samang)+np.array(js), label='경상자')
plt.legend(loc="lower left",bbox_to_anchor=(0.8,1.0))
plt.show()

이렇게 ............
sum써서 총 value를 구하고 그 값을 리스트에 저장해서 그래프 그릴때 2차원 배열을 만들어서 그린셈이다 .. 근데 이걸 groupby를 쓰면 걍 해결이라니 눈물이 낫당 당연함 요따구 코드로 그린 그래프가 아침 7시 넘어서 완성됨 이거 다 하고 고대로 노트북 덮고 씻고 출근햇다 .......

우리조가 부산 데이터를 가지고 알고 싶었던 것이 2021년에 사상자수가 증가한 이유니까 이와 연관된 것이 무엇이 있을까 고민을 해보았다.

코로나 사회적 거리두기와의 연관성
2021년 사망자수 증가 원인으로 파악되어지는 부산외곽순환고속도로가 정말 증가 원인일까?
안전속도 5030 정책

이 세가지를 중심으로 파악해보기로 했고 결과적으로는 2번 말고는 미궁속으로 빠지게되었다 .. 근데 그건 권교수님네조가 해결해서 ....... 일단 1번은 그래프가 우리가 원하는 대로 그려지지 않아서 그래프를 여러개 그려볼 수 밖에 없었다. 3번은 사실 솔직하게 말하자면 1번이 미궁으로 빠지자(처음에는 2번도 미궁이었다 ....) 뭐 더 할 거 없나?하다가 추가 된 거 였고 내가 자료조사하면서 받아놓은 안전표지 데이터가 있어서 그걸 지도 시각화를 해보려고 했는데 데이터가 너무 많아서!! 결국 그려지지 않았다. 그 외에도 뭐 더 하려고 했던 후보들도 있었으나 .. 시간관계상 ...

1. 코로나 사회적 거리두기와의 연관성

df_bs['발생월'] =  df_bs['발생년월일'].dt.month
df_bs['발생년월'] = pd.to_datetime(df_bs['발생년월일']).dt.to_period('M')

df_bs = df_bs.astype({'발생년월':'str'})
df_bs = df_bs.astype({'발생월':'str'})

코로나와의 연관성을 보기 위한 시각화를 위해 발생년월과 발생월이라는 컬럼을 따로 생성했다.

# 발생년월별 사망자수 현황
fig = px.bar(df_bs, x='발생년월', y='사망자수', color='발생월')
fig.show()

원래 이 그래프를 사회적 거리두기 완화기간과 강화기간을 기준으로 색을 구분하고 싶었는데 실패했다. 해서 일단 발생월로 구분해본 결과이다. 보면 2020년 2,3월이 다른 년도에 비해 적다. 같은 해 1월하고만 비교해도 확연히 차이가 나는 것을 확인할 수 있다. 똑같이 코로나 발생 이후인 21년하고 비교해봐도 적다. 그럼 21년은 왜이렇게 증가했나? 원래 2.5단계이던 거리두기가 21년 1월 24일 2단계로 격하하였고 2월 15일부터 3월 31일까지는 1.5단계인 사회적 거리두기 완화기간이었기 때문이다. 4월 1일부터 2단계로 격상하자 훅 줄어들었다. 다른 년도 4월하고 비교해도 확연히 적다. 그 후 5월 21일부터 8월 9일까지 1.5단계로 격하되었고 이때 데이터를 보면 또 증가한다. 그 후 8월 10일부터 4단계로 격상되었는데 좀 줄어들다가 10월부터는 또 증가한다. 해서 4단계가 6시까지는 4인 모임이 가능하고 그 후 10시까지는 2인까지만 가능한 것이 영향을 끼치지 않았을까 해서 달별 발생시간을 비교해보았다.

21년도 데이터만 비교한 것이다. 하 .. 보면 알겠지만 전혀 연관없다. 근데 이거쓰다가 눈치챈건데 0시 데이터 어디갔냐 ........... 하 걍 spss랑 R로 통계분석 할 때가 그립다.... spss는 코드가 뭐임 걍 버튼만 누르면 표 딱 그려주고 그래프 그려주고 확률이랑 계수랑 계산 다 해주고 나는 그냥 그 숫자보고 결론만 내면 되는데 .. 복학해서 통계분석하면 아 교수님 이건 개껌이죠 ㅋ 하면서 웃으면서 할 수 있을 거 같다 ................... 올 초까지만 해도 날 괴롭히던 상관분석과 회귀분석을 그리워할 줄은 몰랐다 암튼 .. 그래프를 그려고 결론이 나지 않아 10월부터 12월까지는 걍 사람들이 연말이라고 부산 놀러가서 사고난 거 아닐까 하는 그지같은 추측만 낳았다 ..................

** 2. 부산외곽순환고속도로가 증가 원인이라는 가설 증명**

이건 히트맵을 보면 알 수 있다.

오른쪽 아래가 21년도인데 다른 년도보다 더 사고가 난 것을 확인할 수 있다.

사고다발지역이라는 연산로터리도 한번 봐보면 여기는 오히려 21년도에는 사상자수가 나온 사고는 안났다.

*3. 안전속도 5030 *

이는 위에서도 설명했듯 지도시각화에 실패했다. 하지만 이것도 사상자가 증가했다는 그래프나 히트맵으로만 봐도 설명이 가능하긴 하다. 원래 이것도 발표 때 말했어야 했는데 깜빡했다 ...

위에는 20년도 아래는 21년도인데 이거보면 꼭 부산외곽순환도로가 아니더라도 도로에서 사고가 많이 났던 걸 확인할 수 있다.

과제 리뷰 끝 ..

2022-08-26

Fri, 26 Aug 2022 08:13:50 GMT

📌 크롤링

✏️ 스타일 시트(CSS)


    
        css 적용한 문장 포맷
    
    
    
    첫번째 문단
    두번째 문단
    세번째 문단

🔼 결과

✅ 타슈 크롤링 및 지도 시각화

(주소 : https://new.tashu.or.kr/stationList.do)

from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
import re

import pandas as pd
import folium

# 크롤링
# 1) 데이터 프레임 생성
data = pd.DataFrame(columns=['스테이션명', '위치', '상태정보', '위도', '경도'])

# 2) 타슈 사이트 접속 주소 준비 : https://new.tashu.or.kr/stationList.do
url = 'https://new.tashu.or.kr/stationList.do'

# 3) url 접속하여 HTML에 가져오기
html = urlopen(url)

# 4) HTML 태그를 파싱(parsing)하여 변환
bsObject = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')

# 5) 타슈 정류장 정보가 있는 table만 가져오기
table = bsObject.find_all('table', {'class', 'board-tp-01 stationtable'})

# 6) 상세 정보 추출하기
# 6-1) table 내에 tr를 찾기
tr = table[0].find_all('tr')

# 6-2) 첫 tr(테이블의 컬럼 정보)은 제거
tr = tr[1:len(tr)]

# 6-3) 타슈 정류장 상세 정보 추출
for index_tr in range(0, len(tr)):
  td = tr[index_tr].find_all('td')

  # 장소
  station = td[0].text.split('.')[1] # 1. 무역전시관입구(택시승강장) -> . 자르고 -> 무역전시관입구(택시승강장)

  # 위치
  location = td[1].text

  # 상태정보
  condition = td[2].text

  # 좌표 추출
  # 1) 위도(latitude)
  lat = td[3].button.attrs['data-lat']
  # 2) 경도(longitude)
  lon = td[3].button.attrs['data-ltd']

  # 7) 타슈 정류장 상세 정보 DataFrame에 담기(append)
  data = data.append({'스테이션명':station,
                      '위치':location,
                      '상태정보':condition,
                      '위도':lat,
                      '경도':lon}, ignore_index=True)
  print('Complets of' + station)

print('-----------------------------------------------')
print(data)

# 데이터 저장
data.to_csv('TASHU.csv', encoding='utf-8-sig')

# 데이터 준비하기
df = pd.read_csv('/content/TASHU.csv')


# 지도 시각화
# 타슈 정류장의 상태에 따라서 Maker를 다른 색으로 표시

# 1) 타슈 정류장 위치 기반으로 중심좌표를 설정
t_map = folium.Map(location=[df['위도'].mean(), df['경도'].mean()], zoom_start=14, tiles='Stamen Terrain')

# 2) 타슈 정류장의 상태에 따라서 Marker를 다른색으로 표시(df.상태정도.unique()) -> 정상:파랑, NETWORK 에러:빨강
condition = df.상태정보 # == df['상태정보']

# 3) 타슈 정류장 Marker 추가하기
for index_draw in range(0, len(condition)):
  if condition[index_draw] == '정상':
    folium.Marker([df.loc[index_draw, '위도'], df.loc[index_draw, '경도']],
                  popup=''+ df.loc[index_draw, '스테이션명']+'', icon=folium.Icon(color='blue', icon='fa-bicycle', prefix='fa')).add_to(t_map)
  elif condition[index_draw] == 'NETWORK 에러':
    folium.Marker([df.loc[index_draw, '위도'], df.loc[index_draw, '경도']],
                  popup=''+ df.loc[index_draw, '스테이션명']+'', icon=folium.Icon(color='red', icon='fa-bicycle', prefix='fa')).add_to(t_map)

t_map

✅ 세종 어울링 크롤링 및 지도 시각화

(주소 : https://www.sejongbike.kr/userStationAction.do?process=stationTotalList&menu=21)

# 크롤링
# 1) 데이터 프레임 생성
data = pd.DataFrame(columns=['스테이션명', '위치', '상태정보', '위도', '경도'])

# 2) 어울링 사이트 접속 주소 준비 : # https://www.sejongbike.kr/userStationAction.do?process=stationTotalList&menu=21
url = 'https://www.sejongbike.kr/userStationAction.do?process=stationTotalList&menu=21'

# 3) url 접속하여 HTML에 가져오기
html = urlopen(url)

# 4) HTML 태그를 파싱(parsing)하여 변환
bsObject = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')

# 5) 어울링 정류장 정보가 있는 table만 가져오기
table = bsObject.find_all('table', {'class', 'content_table'})

-> 접속 주소, class content_table로 변경

  # 좌표 추출
  # 1) 위도(latitude)
  lat = td[3].a.attrs['onclick'].split(' ')[1].replace("'",'').replace(",",'').replace(");",'') # attrs === attribute (속성)
  # onclick = td[3].a.attrs['onclick']
  # lat = onclick.split.(',')[1]
  # lat = lat.replace('\'','').strip() -> strip은 앞뒤 공백만 없애줌

  # 2) 경도 Longitude
  lon = td[3].a.attrs['onclick'].split(' ')[2].replace("'",'').replace(",",'').replace(");",'') # attrs === attribute (속성)
  # lon = onclick.split(',')[2]
  # lon = lon.replace(');','').replace('\'','').strip()

-> 타슈와는 달리 button이 아니라 a 태그 안에 onclick="javascript.openMapSize('', '위도', '경도')"식으로 적혀있어서 그것을 split을 이용해 잘라주고 각각의 값을 담아준다.

html로 저장해서 보면 🔽🔽 이런식으로 나타난다.

2022-08-25

Thu, 25 Aug 2022 08:29:56 GMT

📌 plotly를 이용한 데이터 시각화

import pandas as pd
import plotly.express as px

df = pd.read_csv('/content/도로교통공단_교통사고 정보.csv', encoding='euc-kr')

# 발생년월일시 -> 시간 따로 컬럼 분리(뒤의 두자리)

# 1) 시간만 자르기 위해 문자열로 형변환
df = df.astype({'발생년월일시':'string'})

# 2) 발생시간이라는 컬럼에 담기(ex. 2019010100 -> 00)
df['발생시간'] = df['발생년월일시'].str[8:]  # string 슬라이싱해서 발생시간에 담음

# 3) 다시 형변환(int로)
df = df.astype({'발생시간':'int64'})

# 4) 발생년월일시(string) -> 날짜타입으로 변경
# ex) 20190101 -> 20190101(년월일) 자르고 -> YYYY-MM-DD인 날짜 형태로 변경

df['발생년월일시'] = pd.to_datetime(df['발생년월일시'].str[:8], format='%Y-%m-%d', errors='raise')

✅ 날짜별/시간별 교통사고 발생현황

fig = px.scatter(df, x='발생년월일시', y = '발생시간', color = '발생지시도', size = '사망자수', hover_data=['발생시간'])
fig.show()

🔼 결과 이렇게 scatter 그래프를 통해 전체적인 현황을 놓고 보면 특정 시간대나 어느 날짜, 지역에 상관없이 사고가 발생하고 있다는 것을 알 수 있다.

✅ 시간대별 교통사고 사망자 현황

fig = px.bar(df, x='사망자수', y='발생시간', orientation='h')
fig.show()

🔼 결과 19시에 가장 사고가 많이 일어나고 있다는 것을 알 수 있다.

❓ 세로로 하게 되면 🔼 이런식으로 그려진다. 가로로 하는 것이 가독성이 더 좋음.

✅ 지역별 교통사고 사망자 현황

# 지역별
fig = px.bar(df, x='사망자수', y='발생지시도', orientation='h')
fig.show()

🔼 경기도가 가장 사망자 수가 많다.

✅ 요일별 교통사고 사망자 현황

# 요일별
fig = px.bar(df, x='사망자수', y='요일', orienta![](https://velog.velcdn.com/images/may_o5/post/c7c26084-ffab-4631-9575-2390287e481c/image.png)
tion='h')
fig.show()

🔼 월요일에 사망사고가 가장 많이 발생하고 있다는 것을 알 수 있다.

✅ 사고유형별 교통사고 사망자 현황

# 사고유형별
fig = px.bar(df, x='사망자수', y='사고유형별', orientation='h')
fig.show()

🔼 기타가 가장 많고 횡단중 사고자가 그 다음으로 많다. (기타사유가 가장 많은데 기타를 좀 세부분류 해주셨다면 좋았을텐데 좀,, 불편할뻔..했는데 대분류, 중분류, 가해자당사자종별 등으로 분류를 해주시긴해서 마음이 좀 덜 불편해졌다)

✅ 교통사고 현황 지도에 표시하기

import folium

map = folium.Map(location=[36.321665,127.378953])


dj_df = dj_df.astype({'사망자수':'float64'})
dj_df = dj_df.astype({'부상자수':'float64'})

# for문을 사용하여 dj_df 데이터가 있을 때까지 반복적으로 CircleMarker를 지도에 add 시키는 작업 -> 74번

for n in dj_df.index:
  # CircleMarker 사이즈 계산
  cnt = dj_df['사망자수'][n] + dj_df['부상자수'][n]
  folium.CircleMarker([dj_df['위도'][n],dj_df['경도'][n]], radius=cnt*10, popup=dj_df['사고유형'][n],
                      color='#3186cc',fill_color='#3186cc').add_to(map)

map

🔼 결과

(2021년 데이터 또한 분석하여 비교해보았지만 첨부는 하지 않겠습니다..)

❓ 조건문을 사용하여 색 지정하기

for n in gb_df.index:
  if gb_df['사고유형'][n]=='기타':
    color = 'red'
  elif gb_df['사고유형'][n]=='횡단중':
    color = 'blue'
  else:
    color = 'green'
  # CircleMarker 사이즈 계산
  cnt = gb_df['사망자수'][n] + gb_df['부상자수'][n]
  folium.CircleMarker([gb_df['위도'][n],gb_df['경도'][n]], radius=cnt*10, popup=gb_df['사고유형'][n], 
                      color=color, fill_color=color).add_to(gb_map)

🔼 결과 (경상북도의 데이터만 활용)

2022-08-24

Thu, 25 Aug 2022 04:02:25 GMT

📌 HTML(인터넷 프로그래밍 입문)

HTML -> <태그명> 형식, 대소문자 구분하지는 않음.

html의 기본형태 title에 적은 것은 도메인 이름이 되고, 파일 경로가 URL로 적힌다. 파일을 열면 이런식으로 뜬다.

✅ 글자태그

Hn 태그 -> 글자크기, align -> 정렬 border를 쓰면 굵게도 가능하며 이탤릭체, 밑줄 등도 가능.

🔼 결과

문장 포멧

p는 문단구분 태그

-> br과 p의 차이

디비젼 태그 -> 레이아웃을 나누는 목적

✅ 목록태그

목록 태그는 UL, OL 등이 있고 LI가 소속. UL type으로 square, 로마숫자(i)를 표기함 🔼 결과

✅ 하이퍼링크 태그

위의 목록 태그 안에 a 태그를 활용하여 글자에 링크를 걸어놓았다. 파일을 열면 이렇게 뜨는데 글자를 누르게 되면 위의 첨부한 링크로 이동하게 된다.

✅ 이미지태그

img 태그 -> scr="파일경로\파일이름.확장명" alt="이미지 설명" 위를 보면 a 태그 안에 img 태그를 넣어서 이미지 클릭시 링크로 이동할 수 있는 로직을 짰으나 나는 이미지와 링크를 첨부하지 않아서 임의로 한글로 적어놓았음(사진 크기도 width와 height로 설정가능!) 🔼 결과 내 벨로그 프로필을 캡쳐하고 링크에 내 벨로그 주소를 입력해서 이미지를 누르면 벨로그에 접속할 수 있게끔 해보았다.

✅ 테이블태그

✅ 입력태그(인풋은 태그안에서 바로 닫아서 추가 안됨. button은 됨

어제 기술블로그 바로 안썼더니 노트패드에 적어놓은게 테이블 태그부터 날라갔다... 다시 해서 정리해놔야지 .. 앞으로는 진짜 바로 써야겠다 ..

2022-08-23

Tue, 23 Aug 2022 09:14:33 GMT

어제에 이어서 행정안전부에서 데이터를 받아 인구조사 그래프를 그렸다.

📌 인구구조 다양하게 시각화하기

✅ 성별에 따른 인구분포 그래프 그리기

import csv
import matplotlib.pyplot as plt

f = open('/content/201902_201902_연령별인구현황_gender.csv')
data = csv.reader(f)

# 남성, 여성 데이터 담을 list 변수 선언
m_list = []
f_list = []
address = input('검색할 지역을 입력하세요')

for row in data:
  if address in row[0]:
    for i in row[3:104]:
      m_list.append(-int(i.replace(',','')))  # -int를 통해 남성 데이터 음수로 변환

    for i in row[106:]:
      f_list.append(int(i.replace(',','')))

plt.figure(dpi=200)
plt.rcParams['axes.unicode_minus'] = False
plt.title(address + '지역의 남녀 성별 인구 분포')
plt.barh(range(101), m_list, label = '남성')
plt.barh(range(101), f_list, label = '여성')
plt.legend()
plt.show()

🔽 결과

✅ 파이 차트를 통해 성별 비율 확인하기

size = []

-> 남녀 인구 합계를 담을 리스트 변수 선언

for row in data:
  if address in row[0]:
    sum_m = 0  
    sum_f = 0
    for i in row[3:104]:
      m_list.append(-int(i.replace(',','')))
      sum_m += int(i.replace(',',''))  

    for i in row[106:]:
      f_list.append(int(i.replace(',','')))
      sum_f += int(i.replace(',',''))
    break

size.append(sum_m)
size.append(sum_f)

-> 합계 구할 변수(sum_m, sum_f)를 선언하여 합계 구하기

plt.figure(dpi=200)
color = ['crimson', 'darkcyan']
label = ['남', '여']
plt.title(address + '지역의 남녀 성별 인구 분포')
plt.pie(size, labels=label, autopct='%.2f%%', colors=color, startangle=90)
plt.legend()
plt.show()

-> 파이 차트 그리기

🔽 결과 (대전 지역을 입력한 결과)

✅ 파이 차트 더 다양하게 그려보기

plt.figure(dpi=200)

size = [1244, 2312, 1031, 1233]
label = ['A형', 'B형', 'AB형', 'O형']
color = ['darkmagenta', 'deeppink', 'hotpink', 'pink']
plt.axis('equal')
plt.pie(size, labels=label, autopct='%.2f%%', colors = color, explode=(0,0,0,0.1), shadow=True, startangle=90)
plt.legend()
plt.show()

-> 색, explode를 이용해 강조, 그림자효과, 시작각도 조절(90도로 설정)

✅ 성별에 따른 인구분포 그래프 그리기2

-> (남자 - 여자) 값을 비교하는 그래프

import csv
import matplotlib.pyplot as plt

f = open('/content/202202_202202_연령별인구현황_gender.csv')
data = csv.reader(f)

# (남성 연령 데이터 - 여성 데이터) 를 담을 list 변수 선언
result = []

address = input('검색할 지역을 입력하세요')

for row in data:
  if address in row[0]:
    for i in range(3, 104):
      result.append(int(row[i].replace(',', '')) - int(row[i+103].replace(',', '')))
    break

# 시각화
plt.figure(dpi=200)
plt.rcParams['axes.unicode_minus'] = False
plt.title(address + '지역의 남녀 인구수')
plt.bar(range(101), result)
#plt.legend()
plt.show()

🔽 결과

📌 pandas 라이브러리

✅ 사용자가 입력한 지역과 인구구조가 유사한 지역 찾기

# 1) 데이터 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('/content/age_2019.csv', encoding = 'utf-8')
# df.head() -> 데이터 앞에서 다섯개 확인df.tail -> 뒤에서 다섯개 확인, df.info() -> 데이터 정보 확인

# 2) 데이터 전처리
# 2-1) 행정코드 삭제
names_split = df['행정구역'].str.split('(')
df['행정구역'] = names_split.str.get(0)  # get(0) -> 첫번째 인덱스에 있는 것을 가져오는 것

# 2-2) 컬럼명 변경(행정구역 제외)
columns_list = df.columns

final_col = {}
for col in columns_list[1:]:  # 행정구역 제외하고 실행
  final_col[col] = col.split('_')[2]

df.rename(columns=final_col, inplace=True)

# 2-3) 콤마(,) 제거 후 숫자 형태로 변환
df.replace('[^\w]', '', regex=True, inplace=True)  # 정규식을 사용한 모든 컬럼의 특수기호 제거

# 2-4) 인덱스 변경(0,1,... -> 서울특별시, 서울특별시 종로구,...)
df.set_index(keys=['행정구역'], inplace=True)

# 2-5) 데이터 형변환
df = df.astype('int')

# 3) 데이터
# 3-1) (각각의 데이터) / (총 인구수) -> 비율 계산
df = df.div(df['총인구수'], axis=0)  # 전체 데이터를 총 인구수로 나워서 비율로 변환, axis는 축(0은 행, 1은 열)

# 3-2) 총인구수와 연령구간인구수 데이터 삭제
del df['총인구수'], df['연령구간인구수']

# 정제된 파일 저장
# df.to_csv('2019_인구구조_정제데이터.csv', encoding='utf-8-sig')

# 4) 사용자에게 지역을 입력받고 그 값을 저장
address = input('인구구조가 알고 싶은 지역의 주소(읍면동 단위)를 입력해주세요: ')  # 지역 이름 넣기

a = df.index.str.contains(address)  # 해당 지역의 인덱스 찾기
df2 = df[a]  # 인구구조 저장

# 5) 사용자가 선택한 인구구조와 가까운 데이터 찾기 
df.sub(df2.iloc[0], axis=1)  # df.sub -> 뺄셈, df.iloc[0] -> 숫자형(int), df.loc[] -> 인덱스명을 적어야 함
np.power(df.sub(df2.iloc[0], axis=1),2).sum(axis=1).sort_values().index[1:6]  # 자기 자신은 빼고, power은 제곱

# ) 시각화
plt.style.use('ggplot')
df.loc[np.power(df.sub(df2.iloc[0], axis=1),2).sum(axis=1).sort_values().index[1:6]].T.plot()
plt.show()

🔽 결과 (잠실2동을 입력한 결과)

2022-08-22

Mon, 22 Aug 2022 08:48:27 GMT

📌 우리 동네 인구 구조 시각화하기

▶️ 데이터 : 행정안전부 인구 통계

✅ 신도림 연령 별 인구수 그래프 그리기

import csv
import matplotlib.pyplot as plt

# 1) 파일 읽어들이기
f = open('/content/age.csv')
data = csv.reader(f)

result = []  # 리스트 변수

# 2) 데이터 한줄씩 읽기
for row in data:
  # 2-1) 신도림만 추출하여 출력
  if '신도림' in row[0]:  # 중복되는 동이 있을 경우 and 연산자를 이용해 시도를 입력('대전' in row[0] and '삼성동' in row[0])
    # 연령 별 인구수 데이터 result 변수에 담기
    for i in row[3:]:
      result.append(int(i))

# 3) 시각화

plt.figure(dpi=100)
plt.style.use('ggplot')  # 격자 무늬 스타일 지정
plt.plot(result)
plt.show()

🔽🔽 결과

✅ 사용자에게 주소를 입력받아 그래프 출력하기

시, 동 입력받아 그리기

city = input("도시 이름을 입력하시오.")
dong = input("동네명(동)을 입력하시오.")

입력받을 변수 지정

if city in row[0] and dong in row[0]:

-> 시와 동을 and 연산자를 이용하여 추출

plt.title(city + ' '+ dong + '의 인구구조')

-> 그래프 타이틀 수정

🔽🔽 결과

전체 주소를 입력받아 출력

address = input("본인의 전체 주소(시 군구 읍면동)을 입력하시오.")

-> 주소 입력 변수

for row in data:
  # 2-1) 사용자가 입력한 동 정보 추출하여 출력
  if row[0].split('(')[0] == address:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리

-> for-if문 수정

plt.title(address + '의 인구구조')

-> 그래프 타이틀 수정

두개의 동 입력받아 비교하기

result1 = []  # 리스트 변수
result2 = []
address1 = input("비교할 동네의 전체 주소(시 군구 읍면동)을 입력하시오.")
address2 = input("본인의 전체 주소(시 군구 읍면동)을 입력하시오.")

-> 변수 설정

for row in data:
  # 2-1) 사용자가 입력한 동 정보 추출하여 출력
  if row[0].split('(')[0] == address1:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result1.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리

  if row[0].split('(')[0] == address2:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result2.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리

-> 각각의 주소를 출력하여 result 변수에 저장

plt.figure(dpi=100)
plt.title(address1 + '과 ' + address2 + '의 인구구조')
plt.plot(result1, 'r', label = address1)
plt.plot(result2, 'b', label = address2)
plt.legend()
plt.show()

-> 시각화

🔽🔽 결과

✅ 입력받은 지역의 4개년 비교(2019~2022)

import csv
import matplotlib.pyplot as plt

# 1) 파일 읽어들이기
f1 = open('/content/age_2019.csv')
f2 = open('/content/age_2020.csv')
f3 = open('/content/age_2021.csv')
f4 = open('/content/age_2022.csv')

data1 = csv.reader(f1)
data2 = csv.reader(f2)
data3 = csv.reader(f3)
data4 = csv.reader(f4)

result1 = []  # 리스트 변수
result2 = []
result3 = []
result4 = []
address = input("알아보고자 하는 지역의 전체 주소(시 군구 읍면동)를 입력해주세요.")

# 2) 데이터 한줄씩 읽기(2019년)
for row in data1:
  # 2-1) 사용자가 입력한 주소 정보를 추출하여 출력
  if row[0].split('(')[0] == address:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result1.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리
# 2020년
for row in data2:
  # 2-1) 사용자가 입력한 주소 정보를 추출하여 출력
  if row[0].split('(')[0] == address:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result2.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리
# 2021년
for row in data3:
  # 2-1) 사용자가 입력한 주소 정보를 추출하여 출력
  if row[0].split('(')[0] == address:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result3.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리
# 2022년
for row in data4:
  # 2-1) 사용자가 입력한 주소 정보를 추출하여 출력
  if row[0].split('(')[0] == address:  # 시 군구 읍면동 정보가 일치하는 정보 추출
    # 2-2) 연령 별 인구수 데이터 address 변수에 담기
    for i in row[3:]:
      result4.append(int(i.replace(',', '')))  # replace(A, B)를 통해 ',' 처리

# 시각화
plt.figure(dpi=100)
plt.title(address + '의 인구구조')
plt.plot(result1, 'r', label = '2019년도 ' + address + ' 인구분포')
plt.plot(result2, 'g', label = '2020년도 ' + address + ' 인구분포')
plt.plot(result3, 'b', label = '2021년도 ' + address + ' 인구분포')
plt.plot(result4, 'y', label = '2022년도 ' + address + ' 인구분포')
plt.legend()
plt.show()

🔽🔽 결과

✅ bar 차트 그리기

plt.bar(range(len(result)),result)

-> plot을 bar로 변경하고 range(len())으로 x좌표 범위 설정

+) barh로 변경시 가로 그래프로 변경됨(horizontal)

✅ 팀별과제

사용자가 입력한 연도의 인구구조 비교하는 그래프 그리기

import csv
import matplotlib.pyplot as plt
import os


# 1) 파일 읽어오기
file_list = os.listdir('/content/') # 디렉토리를 이용하여 파일을 리스트 형태로 저장
print(file_list)

# 변수 생성
result = []
result_1= []

year_1 = input("비교하고자 하는 첫번째 연도를 입력하시오.")
year_2 = input("비교하고자 하는 두번째 연도를 입력하시오.")

address = input("비교할 동네주소명 [시 군 구 읍면동]")

for fl in file_list:
  if year_1 in fl:
    f_1 = open(fl)

  if year_2 in fl:
    f_2 = open(fl)    

data = csv.reader(f_1)
data1 = csv.reader(f_2)

for row in data:
  if row[0].split('(')[0] == address:
    for i in row[3:]:
      result.append(-int(i.replace(',','')))

for row in data1:
  if row[0].split('(')[0] == address:
    for i in row[3:]:
      result_1.append(int(i.replace(',','')))


plt.figure(dpi=100)
plt.style.use('ggplot')             # Bar chart 쓸 때 유의점 
plt.barh(range(len(result)), result, label = year_1 + '인구구조')
plt.barh(range(len(result_1)), result_1, label = year_2 + '인구구조') # range => 범위, len => 항목 갯수(나이 1,2,~ 100) ==> range를 항목 개수(나이범위)로
plt.title(address + '의 ' + year_1 + '년과 ' + year_2 + '년의 인구구조 비교')
plt.legend()
plt.show()  # barh => bar + horizontal

🔽 결과

2022-08-19

Fri, 19 Aug 2022 06:03:09 GMT

🗣️삼성전자 MX 사업부 안드로이드 개발자 최윤찬님 특강🗣️

이거 넘 웃겼다 ..

계속 공부 필요(지식 반감기가 짧음), 독서(소프트웨어 관련) 영어 무조건 ..... 카타 - 작은 훈련용 코딩 펫프로젝트, 오픈 소스 프로젝트, 페어 프로그래밍

이후 점심 먹고 오후에 그린 인생그래프 .. 솔직히 대학원 졸업 이후부터는 뭘 하고있을지 잘 모르겠다

2022-08-18

Thu, 18 Aug 2022 09:03:17 GMT

📌 대중교통 데이터 분석

✅ 유임 승차 비율이 가장 높은 역은 어디일까

file_path = '/content/drive/MyDrive/전공관련/파이썬/subwayfee.csv'

import csv

f = open(file_path, encoding = 'cp949')

data = csv.reader(f)

next(data)

max = 0    # 유임승차 최대일 때 값 저장 변수
rate = 0   # 유임승차 비율을 구하는 변수
station = ''

for row in data:
  for i in range(4,8):
    row[i] = int(row[i])
   # rate = row[4] / row[6]   ※유임승차 비율 -> 유임승차 / 무임승차  => 이렇게 할 경우 에러!(무임승차자가 0인 경우가 있어서)
  if row[6] != 0 and (row[4]+row[6]) > 100000:
    rate = row[4] / (row[4] + row[6])   # 유임승차 / 전체 승차자(유임 + 무임)

  if rate > max:
    max = rate
    station = row[3] + ' ' + row[1]

print(station, round(max*100, 2))  # 비율이므로 *100, 소수점자리 2번째까지 출력

▶️▶️ 결과! 홍대입구 공항철도 1호선 95.16

(사실 강사님 따라가기 조금 벅차서 혼자 책보고 쳤더니 이게 맞는건지는 잘 모르겠다 ..)

❓ 무임승차자가 가장 많은 역

-> rate 처리 수식만 rate = row[6] / (row[4] + row[6])로 변경 하면 됨

✅ 유무임 승하차 인원이 가장 많은 역

file_path = '/content/drive/MyDrive/전공관련/파이썬/subwayfee.csv'

import csv

f = open(file_path, encoding = 'cp949')

data = csv.reader(f)

next(data)

# 유무임승하차  변수 생성
max = [0] * 4         # max = [0,0,0,0]
station = [''] * 4    # station = ['', '', '', '']
title = ['유임승차', '유임하차', '무임승차', '무임하차']

for row in data:
  for i in range(4,8):
    row[i] = int(row[i])

    if row[i] > max[i-4]:
        max[i-4] = row[i]
        station[i-4] = row[3] + ' ' + row[1]

for i in range(4):
        print(title[i] + ':' + station[i], max[i])

▶️▶️ 결과!

유임승차:강남 2호선 2235658
유임하차:강남 2호선 2193476
무임승차:종로3가 1호선 289163
무임하차:제기동 1호선 279438

✅ 위의 결과 파이그래프로 그리기

plt.pie(row[4:8])
plt.axis("equal")
plt.show()

matplotlib 임포트 후 위의 코드 입력

▶️▶️ 결과

+) 색 변경 및 해상도, 타이틀, 퍼센트 설정

c = ['#14CCC0', '#389993', '#FF1C6A', '#CC14AF']
plt.figure(dpi=300)
plt.title(row[3] + ' ' + row[1])
plt.pie(row[4:8], colors = c, labels = title, autopct="%1.f%%")

✅ 출근시간 승하차 그래프

출근 시간 승하차 인원이 가장 많은 역은?

next(data)  # next 두번
next(data)

# 1) 변수 선언
max = 0
station = ''

# 2) 승하차 인원이 가장 많은 역 출력
for row in data:
  row[4:] = map(int, row[4:])  # map 함수 이용해서 한번에 형변환

  if row[10] > max:
    max = row[10]
    station = row[3] + '(' + row[1] + ')'

print(station, max)

▶️▶️ 결과 신림(2호선) 188831

그래프 그리기

# 1) 리스트 저장 변수 생성
result = []

2) 역별 승하차 인원 인덱스 출력하여 result 변수에 저장

for row in data: row[4:] = map(int, row[4:]) result.append(sum(row[10:15:2]))

3) 막대 그래프 그리기

result.sort() # sort 이용하여 정렬

plt.figure(figsize=(20,5)) plt.bar(range(len(result)), result) plt.show()

🔽 결과 
![](https://velog.velcdn.com/images/may_o5/post/87fa57b2-3e21-46bd-8a7c-b51f2a1c8a84/image.png)
-> sort 하지 않고 그래프를 그렸을 때

![](https://velog.velcdn.com/images/may_o5/post/2498f584-46dd-4ad4-95bb-f3c91e495a68/image.png)
-> sort 한 경우




### ✅ 사용자가 시간을 입력하여 그래프 그리기

1) 시간 저장

time = int(input("몇시: ")) if time < 4: # 24시 이후 새벽은 +24 처리 후 출력할 수 있도록 설정 time = time + 24 idx = 2 * time -4

for row in data: row[4:] = map(int, row[4:]) if row[idx] > max: max = row[idx] station = row[3] + ' ' + row[1]

print(station, max)



🔽 결과

![](https://velog.velcdn.com/images/may_o5/post/56bf3381-26f5-4492-a926-d8e0025121be/image.png)





### ✅ 시간대별 승하차 그래프

1) 시간 별 승하차 변수 선언

max_in = [0] * 24 max_out = [0] * 24 station_in = [''] * 24 station_out = [''] * 24

for row in data: row[4:] = map(int, row[4:]) for idx in range(24): if row[2idx+4] >= max_in[idx]: max_in[idx] = row[2idx+4] station_in[idx] = row[3] + ' ' + row[1] if row[2idx+5] >= max_out[idx]: max_out[idx] = row[2idx+5] station_out[idx] = row[3] + ' ' + row[1]

print(station_in, max_in) print(station_out, max_out)

for i in range(24): print(station_in[i], max_in[i], station_out[i], max_out[i])

2) 그래프 그리기

plt.bar(range(24), max) plt.xticks(range(24), station, rotation=90) # rotation로 x축 글자 눕히기 plt.show()


🔽 결과

![](https://velog.velcdn.com/images/may_o5/post/06c78c9c-a707-4133-be42-9535245f6e40/image.png)

2022-08-17

Wed, 17 Aug 2022 08:59:54 GMT

📌 경영전략과 기업가 정신

계획 = 목적 + 방법 (무언가를 수행할 때 그것의 목적이 무엇인지가 중요함)
경영 -> 조직의 목표를 사람들을 통해 효과적, 효율적으로 달성하는 것. 계획조직지휘통제의 과정.

What is Strategy? 그 기업이 경쟁관계에서 독특한 우월성을 유지할 것인가.
경영전략 프로세스 : 미션비젼(왜존재?) -> 경영 환경 분석 -> 경영전략 수립
실행 -> 평가

차별화 전략 / 비용우위 전략 : 보급형과 프리미엄, 이마트 등
스타벅스 일화(차별화 전략 예시)

기업가 정신 : 새로운 기회를 찾아 자원의 제약에도 불구하고 자기 희생과 열정을 바탕으로 모험에 도전하는 자세
창의적인 생각 - 다른 관점에서 바라보기, 거꾸로 생각하기

2022-08-16

Tue, 16 Aug 2022 09:19:31 GMT

📌 matplotlib를 이용하여 그래프 그리기

✅ 기본 그래프 그리기

import matplotlib.pyplot as plt

-> 라이브러리 임포트

plt.plot([1,2,3,4], [10, 20, 30, 40])
plt.show()

-> plt.plot을 통해서 x,y값을 입력하고 plt.show를 통해서 그래프를 나타낸다.

plt.title("ploting") -> 을 통해서 그래프 이름 설정 가능

plt.legend() -> plot에 label을 통해 범례 이름 설정가능

color = 'r', linestyle = '--' -> color를 통해 색지정, linestyle을 통해 선모양 변경가능.(color는 c로, linestyle은 ls로 요약가능, r,g,b,k,y는 축약가능. 다른 색은 안됨)

✅ 내 생일의 기온 변화를 그래프로 그리기

import csv
import matplotlib.pyplot as plt
from datetime import datetime

# 최고, 평균, 최저, 날짜 기온 데이터 리스트에 담아서 출력
high = []  # 1) list 선언
avg = []
low = []
date_list = []

f = open('/content/seoul2022.csv', encoding='cp949')  # 2) 데이터 불러오기
data = csv.reader(f)
next(data)  # 3) 헤더

# 4-1) list 변수에 최고, 평균, 최저 기온 데이터 담기
for row in data:
  if row[-1] != '' and row[-2] != '' and row[-3] != '':  # 4-1) 결측치 제외
  # 자신이 태어난 월과 일이 일치하는 데이터만
    if row[0].split('-')[1] == '03' and row[0].split('-')[2] == '17':
      high.append(float(row[-1]))  # 4-2) 데이터 담기
      low.append(float(row[-2]))
      avg.append(float(row[-3]))
      date_list.append(datetime.strptime(row[0], '%Y-%m-%d'))  # 2022-08-01 -> %Y-%m-%d

plt.figure(figsize=(10,5), dpi=200) 
plt.plot(date_list, high, 'r', label='high')
plt.plot(date_list, avg, 'g', label='avg')
plt.plot(date_list, low, 'b', label='low')
plt.legend()
plt.show()

🔽 결과 ❓ 내가 태어난 연도부터 확인 가능한 코드는 무엇일까?(데이터 편집 없이 코드로 구현한다면)

# 나머지 코드는 그대로
for row in data:
  if 2000 <= int(row[0].split('-')[0]):
    if row[-1] != '' and row[-2] != '' and row[-3] != '':
      if row[0].split('-')[1] == '03' and row[0].split('-')[2] == '17':
        high.append(float(row[-1]))  # 4-2) 데이터 담기
        low.append(float(row[-2]))
        avg.append(float(row[-3]))
        date_list.append(datetime.strptime(row[0], '%Y-%m-%d'))  # 2022-08-01 -> %Y-%m-%d

🔽 결과

✅ 한글 깨짐 방지 코드

import matplotlib as mpl
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

!apt -qq -y install fonts-nanum

import matplotlib.font_manager as fm

fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
mpl.font_manager._rebuild()

그래프 코드에 아래 코드를 추가하면 된다.

plt.rcParams['axes.unicode_minus'] = False
plt.rc('font', family='NanumBarunGothic')

🔽 결과

✏️ 범례 위치 수정 plt.legend(loc=) -> loc=에 위치에 맞는 숫자를 입력하면 됨.

✅ 년도 입력하여 출력하기

start_year = input("언제부터?")
end_year = input("언제까지?")

-> 년도 변수 입력

for row in data:
  if int(start_year) <= int(row[0].split('-')[0]) and int(end_year) >= int(row[0].split('-')[0]):
    if row[-1] != '' and row[-2] != '' and row[-3] != '':
      if row[0].split('-')[1] == '03' and row[0].split('-')[2] == '17':
        high.append(float(row[-1]))  # 4-2) 데이터 담기
        low.append(float(row[-2]))
        avg.append(float(row[-3]))
        date_list.append(datetime.strptime(row[0].split('-')[0], '%Y'))

-> 입력받은 년도 시각화 처리 코드

plt.title(start_year + "년 이후부터" + end_year + "까지의 내 생일의 기온 변화 그래프")

-> 타이틀 입력

🔽 결과(start_year에 2002년, end_year에 2018년 입력한 결과)

✅ 다양한 그래프 그리기

- 히스토그램

import csv
import matplotlib.pyplot as plt

# 최고 기온 데이터만 result 리스트에 담아서 출력
result = []  # 1) list 선언

f = open('/content/seoul2022.csv', encoding='cp949')  # 2) 데이터 불러오기
data = csv.reader(f)
next(data)  # 3) 헤더

# 4) result list 변수에 최고 기온 데이터 담기
for row in data:
  if row[-1] != '':
    if row[0].split('-')[1] == '08':  # 4-1) 결측치 제외
      result.append(float(row[-1]))  # 4-2) 데이터 담기

plt.figure(dpi=100) 
plt.rc('font', family='NanumBarunGothic') 
plt.rcParams['axes.unicode_minus'] = False

plt.title("서울의 8월 최고 기온 데이터 히스토그램")
plt.hist(result, bins=100, color = 'r')
plt.show()

🔽 결과

(※ 히스토그램은 축약 안됨)

✏️ 1,4,8월 최고 기온 그래프

aug = []
jan = []
apl = []

-> 변수 선언

for row in data:
  month = row[0].split('-')[1]
  if month == '08':
    if row[-1] != '':
      aug.append(float(row[-1]))

  if month == '01':
    if row[-1] != '':
      jan.append(float(row[-1]))

  if month == '04':
    if row[-1] != '':
      apl.append(float(row[-1]))

-> 각 달에 맞게 list 변수에 최고 기온 데이터 담기

plt.hist(aug, bins=100, color = 'r', label = "8월 최고 기온")
plt.hist(jan, bins=100, color = 'b', label = "1월 최고 기온")
plt.hist(apl, bins=100, color = 'y', label = "4월 최고 기온")

-> 히스토그램 그리기

🔽 결과

✏️ 8월 최고, 최저, 평균 기온 비교

high = []
low = []
avg = []

-> 변수 선언

for row in data:
  month = row[0].split('-')[1]
  if month == '08':
    if row[-1] != '':
      high.append(float(row[-1]))
    if row[-2] != '':
      low.append(float(row[-2]))
    if row[-3] != '':
      avg.append(float(row[-3]))

-> 각 달에 맞게 list 변수에 최고 기온 데이터 담기

plt.hist(high, bins=100, color = 'r', label = "8월 최고 기온")
plt.hist(low, bins=100, color = 'b', label = "8월 최저 기온")
plt.hist(avg, bins=100, color = 'y', label = "8월 평균 기온")

-> 히스토그램 그리기

✏️ 사용자에게 월을 입력받아 히스토그램 그리기

choice_month = input("원하는 월을 입력하시오")

-> 사용자에게 원하는 달을 입력받음

for row in data:
  month = row[0].split('-')[1]
  if month == choice_month:
    if row[-1] != '' and row[-2] != '' and row[-3] != '':
      high.append(float(row[-1]))
      low.append(float(row[-2]))
      avg.append(float(row[-3]))

-> 입력받은 달의 최고, 최저, 평균의 데이터를 변수에 저장

plt.hist(high, bins=100, color = 'r', label = choice_month + "월 최고 기온")
plt.hist(low, bins=100, color = 'b', label = choice_month + "월 최저 기온")
plt.hist(avg, bins=100, color = 'y', label = choice_month + "월 평균 기온")

plt.title(choice_month + "월 기온 데이터 히스토그램")

-> 히스토그램 그리기

🔽 결과(04 입력한 결과)

- boxplot(상자그림)

-> aug와 jan의 boxplot 코드를 따로 했을 때

-> boxplot([aug, jan])로 했을 때

히스토그램(1월과 8월 최고 기온 비교)이랑 동일한 코드, hist를 boxplot으로만 변경

✏️ 상자그림을 이용한 월별 기온 변화 비교

import csv
import matplotlib.pyplot as plt

high = []
low = []
avg = []

f = open('/content/seoul2022.csv', encoding='cp949')  # 1) 데이터 불러오기
data = csv.reader(f)
next(data)  # 2) 헤더

# 3) 월별 데이터 저장형 month 변수를 선언
# month = [[0], [1],...,[10],[11]] -> 총 12개
# month[0].append()

month = []

for i in range(12):
  month.append([])

# 4) 각 달에 맞게 list 변수에 데이터 담기
for row in data:
  if row[-1] != '':
    month[int(row[0].split('-')[1])-1].append(float(row[-1]))
    # (row[0].split('-')[1]) -> 월 출력, int를 이용해서 형변환(01->1), 인덱스는 0부터 시작이므로 -1을 한 것.

plt.figure(dpi=100) 
plt.rc('font', family='NanumBarunGothic') 
plt.rcParams['axes.unicode_minus'] = False
plt.boxplot(month)

plt.title("서울 최고 기온 데이터 월별 상자 그림")
plt.legend()
plt.show()

🔽 결과

+) 일별 비교

2022-08-12

Fri, 12 Aug 2022 08:30:36 GMT

📌 colab을 이용한 데이터 분석

1. 변수와 문자열

▶️▶️ 변수 - 숫자시작, 예약어와 동일한 단어사용, '_'를 제외한 특수문자 사용 X (ex. 1dog, for, *dog)

( + 대소문자구분하긴하나 소문자를 주로 쓴다.)

▶️▶️ 문자열(string) - '+'로 문자열 연결, 한 줄 이상 여러 줄로 된 문자를 사용하려면 Multiline String -> (''') 사용

2. 리스트

: 여러 값을 함께 모을 수 있는 자료형 대괄호([]), 콤마(,) 사용

<예시>

train = [1,2,3,4,5]

✅ list의 특정 데이터만 추출 -> indexing

세번째 데이터만 추출-> 출력하고 싶으면?

print(train[2])

✅ list의 특정 범위의 데이터만 추출 (list 슬라이싱) ❗인덱스 -> [위치:번째]❗

특정 위치에 연속적인 데이터 가져오기 (1,2,3 데이터만 추출❗)

print(train[0:3])

✅ list에 데이터를 추가 -> list에서 제공하는 append() 함수 이용

<예시>

week = ["월", "화", "수", "목", "금"]
print(week)

# 토, 일을 추가
week.append("토")
week.append("일")

print(week)

3. 딕셔너리

▶️▶️Dictionary(사전) - 키와 값으로 구성되어 있는 자료형. 중괄호({key : value})로 구성

<예시>

student 변수를 선언해서 학생정보를 딕셔너리로 저장하고 출력하기

student = {"이름" : "김정민", "학과" : "빅데이터학과", "학년" : "휴학", "학번" : "20190177"}
student

✅데이터 가져오기

print(student["이름"])

✅데이터 추가하기

student["취미"] = "드라마"

4. 실전! 기온데이터 분석

✏️ 데이터 분석은 떠오르는 질문을 구체적으로 상세하게 잘 정리해야함!

✅ 기온 관측 이래 서울의 최고 기온이 가장 높았던 날은?

  import csv


# 1) 데이터를 읽어온다.
f = open('/content/seoul.csv', 'r', encoding = 'cp949')
data = csv.reader(f)  # delimiter=',' -> 콤마인 경우에는 생략 가능
header = next(data)

max_temp = -999 # 최고 기온 값을 저장할 변수 -> 정확한 값을 위해 극단적인 값 지정
max_date = ''   # 최고 기온이 가장 높았던 날짜를 저장할 변수

# 2) 순차적으로 최고 기온을 확인한다.(+ 날짜 출력까지)
for row in data:
  # 2-1) 결측치 데이터 처리
  if row[-1] == '':
    row[-1] = - 999      # 명확한 결과를 위해 극단적인 값으로 초기화(절대 나오지 않을 값!)
  row[-1] = float(row[-1])  # 최고 기온 출력 -> 실수형으로 출력 -> 결측치로 인한 오류발생 -> ?

# 3) 최고 기온이 가장 높았던 날짜의 데이터를 저장한다.
  if max_temp < (row[-1]):
   max_temp = (row[-1])
   max_date = row[0]

f.close()

# 4) 최종 저장된 데이터를 출력한다.
print("기상 관측 이래 서울의 최고 기온이 가장 높았던 날은", max_temp, "도로", max_date, "였습니다.")

위의 코드를 활용하여 최저 기온 가장 낮은 날도, 평균 기온이 가장 높은 날도 구해보았다. 전공에서 파이썬을 배웠을 때나 교필로 파이썬을 배웠을 때 모두 리스트를 파일로 불러오는 것을 배웠는데 전공 때는 Pandas로 하는 거만 좀 제대로 배웠던 것 같고(아닐수도 ...) 교양수업은 그때 한 과제를 봐보니까 진짜 리터럴리 한땀..한땀 리스트를 한줄 한줄 불러왔었더라.. 보자마자 저게 뭐임?하면서 걍 창 끔

이거는 광주의 최고기온이 가장 높았던 날! 고향이 광주이기 때문에 2018년도까지는 광주에서 살아서 광주 최고기온을 한번 구해보았다. 엄마가 매년 여름마다 1994년이 제일 더웠다고 했는데 서울에서는 1994년이 안나오길래 2018년이 더 더웠구나 .. 했는데 광주는 최고기온이 1994년 7월 19일로 나왔다.

2022-08-11

Thu, 11 Aug 2022 09:20:49 GMT

📌 팀티칭 수업 - 모델링 강의

✏️ 일반 모델링 이론

▶️▶️ 모델이란? 인간이 만든 것들!! 만든 의도(목적)이 있으며 대표성을 지니고 모범, 표준이 될 만한 것. 표현의 대상이 존재하며 그 표현 수단 역시 다양하다. 이를 언어매체라고 부르기로 약속. 또한, 이를 사용하는 사람, 고객이 존재한다. 예를 들어, 오페라 하우스는 시드니에 위치한 랜드마크로 오페라 극장이다. 이는 조개를 형상화 한 건물로 설명할 수 있다.

▶️▶️ 모델의 어원 라틴어 modellus(우유통) 측정 단위 -> 파생어 : mould, module, model ❗ 공통의미 : 뭔가를 담는 틀

=> 인간이 사물을 인식하여 형성된 심상을 매체로 표현하는 행위

그렇다면 모델링이란❓

사람이 어떤 의도를 가지고 대상을 인식하여 형성된 최고의 심장을 적절한 매체를 통해 표현하는 과정.

~~그 후 경영 핵심 개념에 대해 설명해주셨지만 너무 길므로 설명은 패스 ..~~

경영에 대해 들은 후 조를 짜서 직접 사업 계획을 세우는 일을 했다. 우리조는 시니어 층과 1인가구를 대상으로 하는 사업을 기획했는데 처음에 너무 방대해져서 .... 촬영하러 오신 대표님께 도움을 받아 겨우겨우 할 수 있었다. 우리 조는 외로운 1인가구 노년층을 대상으로 새로운 만남의 장소를 제공할 수 있는 보드게임방을 구상했다. 또 어르신들이 보드게임이 생소해서 하기 어려우실 수 있으니 20-30대 청년들을 알바생으로 모집하여 게임 룰 설명도 해드리고 말동무도 해드리는 것도 추가했다.

그 후에는 레고를 이용하여 자신이 좋아하는 것을 만들어 보았다. 나는 우리집 강아지를 만들어 보았음 강아지처럼 보이나요 ...

또 감정도 만들어 보았는데 나는 자꾸 엄청나게 1차원적으로 만들었는데(최대한 단순하게 ..) 다른 사람들은 되게 잘 만들어서 신기했다. 어떻게 그렇게 하지??

사업 구상을 하거나 경영학에 대해 강의를 들어본 적이 없어가지고 오늘은 조금 생소했었던 것 같지만 그래도 이런 것도 추후에 좋은 경험이 될거라 생각!