Sowon.log

[데일리 리포트] 2023-09-29

Sat, 30 Sep 2023 13:17:22 GMT

<< [[2023-09-28]] | [[2023-09-30]]>>

2023-09-29

[!quote]

Those who dream by day are cognizant of many things which escape those who dream only by night. — Edgar Allan Poe

[!tip] Goals

SQL

역행자

[!todo]+ Habit Tracker

데일리 리포트

22 전략 - 독서

22 전략 - 글쓰기

Plan, Do, See

Time	Plan	Do	Status	Review
07:00
08:00
09:00
10:00
11:00	기상, ' 나는 왜 자꾸 내 탓을 할까 ' 읽기
12:00	봄이 산책, 점심
13:00	봄이 산책, 점심
14:00	봄이 산책, 점심
15:00	낮잠
16:00	낮잠
17:00	SQL
18:00	SQL
19:00	저녁, 산책
20:00	SQL
21:00	SQL, 블로깅, ' 나는 왜 자꾸 내 탓을 할까 ' 정리
22:00	' 나는 왜 자꾸 내 탓을 할까 ' 정리 & 블로깅
23:00
24:00
01:00
02:00

[!success]+ Today I Learned

SQL https://velog.io/@joel_lee/TIL-SQL-Ch2.-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%83%9D%EC%84%B1%EA%B3%BC-%EC%A1%B0%ED%9A%8C-1

[!note]+ Highlights of the Day

Note

[TIL] SQL Ch2. 데이터 생성과 조회 1

Fri, 29 Sep 2023 12:38:29 GMT

테이블 생성 SQL (DDL)

CREATE

[!NOTE]

DDL : Data Definition Language

#mysql/create #mysql/select

create table book_list (
    book_no        varchar(16)    not null,
    book_name    varchar(50),
    writer        varchar(50),
    publisher    varchar(30),
    reg_date    date,
    price        int
);

show databases;
use mysql;

ALTER

#mysql/alter/add #mysql/alter/modify #mysql/alter/change #mysql/alter/drop #mysql/alter/rename

alter table book_list add column description varchar(1000);
alter table book_list modify column book_name varchar(100);
alter table book_list change column description book_desc varchar(1000);
alter table book_list drop column book_desc;
alter table book_list rename book_info;

DROP_TRUNCATE

#mysql/truncate #mysql/drop

[!NOTE] trincate 와 drop

truncate : 데이터만 삭제

모든 행 삭제

drop : 데이터와 테이블 삭제

둘 다 롤백이 안 됨

truncate table book_list;
drop table book_list;

테이블 생성 SQL (DML)

[!NOTE]

DML : Data Manipulation Language

INSERT

#mysql/insert

insert into book_list values ('9791168473690', '세이노의 가르침', '세이노', '데이원', '20230302',7200);

insert into book_list (book_no, book_name, writer, publisher, price)
values ('2138092823', '몽', '모모', 'ㅇㅇ', 10000)

insert into book_list values ('97asd1asd1000', '세이노의 가르침', '세이노', '데이원', '20230302',7200);

UPDATE

#mysql/update

[!NOTE] UPDATE

조건절 (where) 이 없으면 모든 row 에 대해 업데이트

update book_list set reg_date = '20230815' where book_name='몽';

DELETE

#mysql/delete

[!NOTE] DELETE

조건절 (where) 이 없으면 모든 데이터 삭제

컬럼 데이터 삭제는 update 을 이용해 null 로 만들자

delete from book_list where publisher = 'ㅇㅇ';

테이블 조회 SQL (Easy)

SELECT, ALIAS

#mysql/select #mysql/distinct #mysql/count

select * from melon_chart limit 3;

select singer from melon_chart;
select distinct singer from melon_chart;
select count(distinct singer) as cnt from melon_chart;
select count(distinct singer) "가수" from melon_chart as mc;

select ranking, song from melon_chart where singer = 'NewJeans';

select * from melon_chart where singer = 'NewJeans' and ranking <= 5;

select * from melon_chart where singer = '정국' or singer = '박재정';

WHERE (IN, LIKE, BETWEEN)

#mysql/where #mysql/where/in #mysql/where/like #mysql/where/between

select * from melon_chart where song = 'I AM';

select * from melon_chart where song in ('I AM', 'Super Shy', 'Spicy');
select * from melon_chart where song = 'I AM' or song = 'Super Shy' or song = 'Spicy';

select * from melon_chart where song = 'I AM' or song = 'Super Shy' or song = 'Spicy' and singer = 'NewJeans';
select * from melon_chart where (song = 'I AM' or song = 'Super Shy' or song = 'Spicy') and singer = 'NewJeans';

select * from melon_chart where song like '_카%';

select * from like_test where col like '%\%%';
select * from like_test where col like '%\_%';
select * from like_test where col like '%#%%' escape '#';
select * from like_test where col like '%$_%' escape '$';

select * from melon_chart where like_no between 100000 and 150000;

ORDER BY (LIMIT)

#mysql/order_by

select * from melon_chart order by ranking desc;

select song, singer from melon_chart order by ranking;

select * from melon_chart where singer not in ('정국', '박재정') order by song;

select * from melon_chart order by singer asc, like_no desc;

select * from melon_chart order by like_no desc limit 3, 5;

집계 함수

#mysql/count #mysql/sum #mysql/avg #mysql/min #mysql/max

select count(*), count(1), count(col1), count(col2) from function_test;
select count(*) from melon_chart where like_no > 100000;

select sum(col1), sum(col2) from function_test;
select avg(col1), avg(col2) from function_test;
select min(col1), min(col2) from function_test;
select max(col1), max(col2) from function_test;

GROUP BY

#mysql/group_by

select * from animal_info group by animal;
select animal, type, count(*) from animal_info where animal='강아지' group by animal, type;
select animal, type, min(age), max(age) from animal_info group by animal, type order by animal;

HAVING

#mysql/having

select animal, type, count(*)
    from animal_info
    where count(*) > 2
    group by animal, type;

select animal, type, count(*) 
    from animal_info 
    where animal = '고양이'
    group by animal, type
    having count(*) > 2
    order by count(*) desc;

[데일리 리포트] 2023-09-28

Thu, 28 Sep 2023 14:41:34 GMT

<< [[2023-09-27]] | [[2023-09-29]]>>

2023-09-28

[!quote]

It is easier to live through someone else than to become complete yourself. — Betty Friedan

[!tip] Goals

SQL 시작!

선물 사기 : 일단 딱 15명인데 얼마나 살까

세컨드 브레인 끝내기!

[!todo]+ Habit Tracker

데일리 리포트

22전략 - 독서

22전략 - 글쓰기

Plan, Do, See

Time	Plan	Do	Status	Review
07:00
08:00	아침, 세컨드 브레인 읽기		🟥	어제 결국 3시까지 책 읽어서 늦잠 잤다.
09:00	세컨드 브레인 읽고 정리하기		🟥	좀 더 빨리 자고 빨리 일어날 수 있도록 하자.
10:00	봄이 산책, 선물 사기		🟥	수면유도제가 있으니 적극적으로 활용할 것.
11:00	봄이 산책, 선물 사기	기상, '나는 왜 자꾸 내 탓을 할까'읽기	🟩
12:00	점심	봄이 산책, 선물 사기, 점심	🟩	붕어빵 쿠키 샀다! 만세~
13:00	SQL 시작!	봄이 산책, 선물 사기, 점심	🟩	그거 말고 또 눈독 들여 놓은 거 있으니, 나중에 사자
14:00	SQL	봄이 산책, 선물 사기, 점심	🟩
15:00	SQL	SQL 시작!	🟩
16:00	필요서류 재검토	SQL	🟨
17:00		필요 서류 재검토, 낮잠	🟨
18:00		낮잠	🟨
19:00	저녁	필요 서류 다시 쓰기	🟨
20:00		저녁	🟩
21:00		저녁, SQL 챕터 1 끝	🟩
22:00		데일리 리포트, 블로깅, 세컨드 브레인 정리	🟩
23:00		세컨드 브레인 정리 & 블로깅, 데일리 리포트
24:00
01:00
02:00

[!success]+ Today I Learned

SQL : https://velog.io/@joel_lee/SQL-Ch.1-SQL%EA%B8%B0%EC%B4%88-DBMS-Modeling-SQL-sites-%EA%B3%B5%EA%B3%B5-%EB%8D%B0%EC%9D%B4%ED%84%B0

[[브러시업 2023-09-28]]

세컨드 브레인 정리 끝 : https://velog.io/@joel_lee/%EC%84%B8%EC%BB%A8%EB%93%9C-%EB%B8%8C%EB%A0%88%EC%9D%B8-1-IntroChap.1

[!note]+ Highlights of the Day

예정보다 세 시간이나 더 꿀잠을 자 버렸다 😱

지망동기는 단순히 지망동기를 말하는 게 아니라 "왜 지망하는가"에 더해 =="기업이 왜 자신을 고용해야 하나"==를 설명하는 것이 중요.

SQL 기본 개념과 설치 끝!

[SQL] Ch.1 SQL기초 (DBMS, Modeling, SQL sites, 공공 데이터)

Thu, 28 Sep 2023 13:06:09 GMT

DBMS

#DBMS

[!info] DBMS

DBMS = DataBase Management System

RDBMS = Relational DBMS : 관계형 데이터베이스. 관계형 모델을 사용.

NoSQL - Not only SQL

테이블과 모델링

#Modeling

[!info] 모델링

데이터를 어떤 식으로 그룹화해서 저장할지를 미리 설계하는 과정

SQL 사이트 소개

[!info] SQL 연습 사이트

프로그래머스 https://www.programmers.co.kr/

hackerrank https://www.hackerrank.com/domains/sql

SQL zoo https://sqlzoo.net/

Leet Code https://leetcode.com/

공공데이터 소개

[!info] 공공데이터

공공데이터 포털 https://www.data.go.kr/

[TIL] SQL Ch1. SQL 기초 2 (완)

Thu, 28 Sep 2023 13:02:01 GMT

SQL 사이트 소개

[!info] SQL 연습 사이트

프로그래머스 https://www.programmers.co.kr/

hackerrank https://www.hackerrank.com/domains/sql

SQL zoo https://sqlzoo.net/

Leet Code https://leetcode.com/

공공데이터 소개

[!info] 공공데이터

공공데이터 포털 https://www.data.go.kr/

[TIL] SQL Ch1. SQL 기초 1

Thu, 28 Sep 2023 08:16:29 GMT

DBMS

#DBMS

[!info] DBMS

DBMS = DataBase Management System

RDBMS = Relational DBMS : 관계형 데이터베이스. 관계형 모델을 사용.

NoSQL - Not only SQL

테이블과 모델링

#Modeling

[!info] 모델링

데이터를 어떤 식으로 그룹화해서 저장할지를 미리 설계하는 과정

[데일리 리포트] 2023-09-27

Wed, 27 Sep 2023 15:48:43 GMT

<< [[2023-09-26]] | [[2023-09-28]]>>

2023-09-27

[!quote]

You always have two choices: your commitment versus your fear. — Sammy Davis Jr.

[!tip] Goals

[!todo]+ Habit Tracker

데일리 리포트

22전략 - 독서

22전략 - 글쓰기

Plan, Do, See

Time	Plan	Do	Status	Review
07:00
08:00
09:00	기상, 데일리 리포트
10:00	봄이산책
11:00	봄이산책
12:00	점심, 데이터 분석 Master Class
13:00	데이터 분석 Master Class
14:00	데이터 분석 Master Class, 면담 준비
15:00	LOA 면담 : 전직, 상병수당, 노트북이나 핸드폰
16:00	낮잠
17:00	데이터 분석 Master Class
18:00	데이터 분석 Master Class
19:00	데이터 분석 Master Class
20:00	저녁
21:00	데이터 분석 Master Class
22:00	데이터 분석 Master Class
23:00	데이터 분석 Master Class
24:00	데이터 분석 Master Class, 데일리 리포트
01:00
02:00

[!success]+ Today I Learned [[Ch.3 엑셀 데이터 분석]]

[!note]+ Highlights of the Day

데이터 분석 Master Class의 엑셀 끝!

[[2023-09-27 LOA 면담]]

[TIL] Excel Ch3. 엑셀 데이터 분석 (완)

Wed, 27 Sep 2023 15:34:51 GMT

한 번에 끝냈으니 링크로 대체

텍스트링크 : https://velog.io/@joel_lee/Excel-Ch1.-%EC%97%91%EC%85%80-%EA%B8%B0%EC%B4%88-T-%EA%B2%80%EC%A0%95-%ED%9A%8C%EA%B7%80-%EA%B5%B0%EC%A7%91-%EB%8C%80%EC%8B%9C%EB%B3%B4%EB%93%9C-4udyx5lh

[Excel] Ch3. 엑셀 기초 (T-검정, 회귀, 군집, 대시보드)

Wed, 27 Sep 2023 15:32:06 GMT

[!abstract] 요약

T-test : 2022년, 2023년 매출 데이터

회귀 분석 : 도요타 중고차 데이터

군집 분석 : 백화점 구매정보, 고객정보 데이터

엑셀 대시보드

[!note] 감상

T-test

통계 검정 2급을 딴 이후에 오랜만에 t 검정을 접했는데 감회가 새롭다.

역시 일본어보단 한국어로 설명을 듣는 게 머리에 쏙 들어오는 듯 싶다.

회귀 분석

분석을 행하는 데 있어서 다중공선성이 중요.

엑셀에서 더미 데이터를 다루는 법을 처음 알았다

군집 분석

엑셀의 해 찾기 기능이 새로웟다

대시보드

Power BI 수업이 기대가 된다.

엑셀은 너무 무거운 듯?

데이터 검정

T-test

#t-test

[!info] T-test

모집단의 표준편차가 알려지지 않았을 때, 정규분포 모집단에서 모은 샘플의 평균값에 대한 가설검정

==표본 두 집단이 통계적으로 같은지, 다른지 비교==하는 테스트

종류

대응표본 : 표본 집단 1 개를 특정 값과 비교

대응표본 (쌍체) : 1 개 집단의 실험 전후 비교

독립표본 : 두 표본 집단 비교

양측 검정과 단측 검정

실습 : 프로모션 효과 분석

데이터 탐색 및 전처리

[!note]

매출 상위 20 브랜드

피벗 테이블 -> 행 레이블 -> 값 필터 -> 상위 10 -> 20 으로 변경

작년과 중복되는 고객 찾아내기

COUNTIF($T$7:$T$3810,P7)

T-test 시행 및 검정 결과 분석

[!NOTE] T-test

t- 검정 : 쌍체 비교

t- 독립표본

f- 검정 : 분산에 대한 두 집단

등분산인가, 이분산인가

t- 검정 : 이분산 or 등분산 가정 두 집단

회귀 분석

실습 : 자동차 가격 예측

데이터 소개 및 공선성/가변수

#multicollinearity #dummy_variables

[!NOTE]

다중 공선성 Multicollinearity

가변수 Dummy variables : 숫자가 아닌 변수의 경우

타입이 3 개면 더미는 두 개만 만들어도 됨

데이터 전처리 및 회귀분석 시행

#excel/regression

[!NOTE]

데이터 전처리

상관분석을 통한 공선성이 생길 가능성 확인

아래의 경우 연식이랑 Diff_First Drive Year 가 많이 겹침

==회귀분석==

데이터 -> 데이터 분석 -> 회귀 분석

MET COLOR 과 DOORS 변수를 제거하고 다시 분석

MSE, RMSE

군집 분석

K-means Clustering 소개

#k-means

[!NOTE] K-means Clustering

Process

실습 : 명품 구매고객 분석

군집화 시행

[!NOTE] Clustering

Tiny Data 화 -> Ref 추가 -> 각 변수의 평균과 표준편차 구하기 -> 표준화

-> 적당한 중심점 설정 -> 군집 나누기 -> 해 찾기 (제한 조건 설정) -> 해법 옵션 설정 -> 해 찾기

액셀 대시보드

[!NOTE]

실습 : 리테일 대시보드 제작

[!NOTE]

==슬라이서==

삽입 -> 슬라이서

세세한 서식까지 지정 가능

열도 수정 가능

보고서 연결 : 다른 피벗 테이블과 슬라이서 공유

그래프 -> 데이터 레이블 추가

카메라 : 테이블 자체는 카메라로

[Excel] Ch2. EDA (Tiny Data, EDA, 쿼리, 상관분석)

Wed, 27 Sep 2023 05:20:04 GMT

Tiny Data : 로우 데이터 관리

[!info] Tiny Data 란?

데이터 전처리에 걸리는 시간을 최소화하기 위한 표준화 데이터 형태

밑바닥부터 시작할 필요 없는 데이터

[!tip] 필요 조건

열에는 개별 변수 1 개

행에는 관측치

각 표는 1 개의 관측기준에 의해 조직

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

#EDA

[!info] EDA

수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계 (인사이트) 를 찾아내는 프로세스

[!example]

데이터 특성 이해

데이터 변동의 패턴 발견

이상치 발견

모델링 전략 수립, 방향 설정

분석 결과의 발견

[!quote]

' 잘못된 질문 ' 에 대한 ' 확실한 답 ' 은 결론이 확실할 수 있으나, 때론 ==' 정확한 질문 '==에 대한 ' 대략적인 답이 더 낫다 ' - John Tukey, 미국의 수학자이자 컴퓨터 과학자.

실습 : 세계 인구 데이터 분석

데이터 소개 및 전처리

#excel/query

[!note] 쿼리를 이용한 Tiny Data 화

데이터 -> 테이블/범위에서 -> 쿼리 편집기 -> 변환 -> 열 피벗 해제

데이터 탐색 및 시각화

#excel/graph/combo

[!note] 시각화

콤보 그래프

신장률 계산 수식 복붙 팁

IF 함수를 이용한 다른 대륙 간 계산 방지

실습 : 미국 도시별 House Price 데이터 분석

데이터 소개 및 탐색

[!note]

추세 탐색 : 막대 그래프, 분산 그래프, 박스 그래프

Pivot table 열 그룹화

상관분석 및 시각화

#excel/correlation

[!note] 상관분석

데이터 분석 추가

파일 -> 옵션 -> 추가기능 -> 분석 도구 팩

셀 배경을 값에 따라 표시

홈 -> 조건부서식 -> 규칙 관리 -> 새 규칙 -> 셀 값을 기준으로 모든 셀의 서식 지정

[!example] 결과

실습 : 온라인 쇼핑몰 데이터 분석

데이터 소개

데이터 탐색 및 전처리

#excel/text #excel/search #excel/isnumber

[!note]

텍스트를 날짜 형식으로 바꾸기

데이터 -> 텍스트 나누기 -> 3단계 열 데이터 서식 -> 날짜 선택

날짜를 요일로 바꾸기

여러 도메인의 주소를 통합하기

IF(ISNUMBER(SEARCH("google",K2)),"google",K2)

Pivot 테이블 열 합계 비율로 나타내기

피벗 테이블 필드 -> 값 -> 값 필드 설정 -> 값 표시 형식 -> 열 합계 비율

장바구니 상관 분석

[TIL] Excel Ch2. EDA 2 (완)

Wed, 27 Sep 2023 05:17:45 GMT

실습 : 온라인 쇼핑몰 데이터 분석

데이터 소개

데이터 탐색 및 전처리

[!note]

텍스트를 날짜 형식으로 바꾸기

데이터 -> 텍스트 나누기 -> 3단계 열 데이터 서식 -> 날짜 선택

날짜를 요일로 바꾸기

여러 도메인의 주소를 통합하기

IF(ISNUMBER(SEARCH("google",K2)),"google",K2)

Pivot 테이블 열 합계 비율로 나타내기

피벗 테이블 필드 -> 값 -> 값 필드 설정 -> 값 표시 형식 -> 열 합계 비율

장바구니 상관 분석

[데일리 리포트] 2023-09-26

Tue, 26 Sep 2023 14:10:05 GMT

2023-09-26

[!quote]

If you owe the bank $100 that's your problem. If you owe the bank $100 million, that's the bank's problem. — J. Paul Getty

[!tip] Goals

[!todo]+ Habit Tracker

데일리 리포트

22 전략 - 독서

22 전략 - 글쓰기

Plan, Do, See

Time	Plan	Review
07:00	기상, 데일리 리포트
08:00	이불 세탁, 데이터 분석 Master Class
09:00	데이터 분석 Master Class, 봄이 산책
10:00	봄이 산책
11:00	봄이 산책, 점심, 데이터 분석 Master Class
12:00	낮잠
13:00	낮잠	생각보다 피곤했는지 알람을 맞췄는데도 한 시간 더 자버렸다.
14:00	데이터 분석 Master Class
15:00	데이터 분석 Master Class	엑셀 Ch1 끝! 블로그 투고도 끝!
16:00	데이터 분석 Master Class
17:00	데이터 분석 Master Class, 블로그 투고
18:00	독서회 준비, 이동
19:00	독서회
20:00	독서회
21:00	이동, 저녁
22:00	독서회 정리, 데일리 리포트
23:00	샤워 후 취침
24:00
01:00
02:00

[!success]+ Today I Learned

독서회

다음부턴 책 전체의 요점을 간결하게 정리하자

[[Ch.2 탐색적 데이터 분석]]

[!note]+ Highlights of the Day

첫 독서회 참가! 다음은 한 달 뒤!

엑셀의 여러 기능을 점점 잘 다룰 수 있게 된 거 같다!

오늘의 일기

[!tip] 독서회

다들 좋아하는 책을 가져와 적절히 발표했다.

다음부턴 나도 책의 요점을 간결하고 정확하게 전달하자.

편지 가게나 키타가와 야스시의 다른 책을 읽어보자.

[독서 모임] 2023-09-26

Tue, 26 Sep 2023 13:39:02 GMT

[!tip] 감상

다들 좋아하는 책을 가져와 적절히 발표했다.

다음부턴 나도 책의 요점을 간결하고 정확하게 전달하자.

편지 가게나 키타가와 야스시의 다른 책을 읽어보자.

[!note] 소개받은 책

それは誠

芥川賞候補作

「ライ麦畑でつかまえて」似の淡々と描いた青春小説

主人公の独特な目線と主観がポイント

日日是好日

茶道のエッセー集

好きなことで生きる

==手紙屋==

喜多川泰

手紙屋に手紙を送り、返事をもらう

なぜ僕らは働くのか

変な家

変な絵

プロカウンセラーの共感の技術

세컨드 브레인

[TIL] Excel Ch2. EDA 1

Tue, 26 Sep 2023 08:47:15 GMT

Tiny Data : 로우 데이터 관리

[!info] Tiny Data 란?

데이터 전처리에 걸리는 시간을 최소화하기 위한 표준화 데이터 형태

밑바닥부터 시작할 필요 없는 데이터

[!tip] 필요 조건

열에는 개별 변수 1 개

행에는 관측치

각 표는 1 개의 관측기준에 의해 조직

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

#EDA

[!info] EDA

수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계 (인사이트) 를 찾아내는 프로세스

[!example]

데이터 특성 이해

데이터 변동의 패턴 발견

이상치 발견

모델링 전략 수립, 방향 설정

분석 결과의 발견

[!quote]

' 잘못된 질문 ' 에 대한 ' 확실한 답 ' 은 결론이 확실할 수 있으나, 때론 ==' 정확한 질문 '==에 대한 ' 대략적인 답이 더 낫다 ' - John Tukey, 미국의 수학자이자 컴퓨터 과학자.

실습 : 세계 인구 데이터 분석

데이터 소개 및 전처리

#excel/query

[!note] 쿼리를 이용한 Tiny Data 화

데이터 -> 테이블/범위에서 -> 쿼리 편집기 -> 변환 -> 열 피벗 해제

데이터 탐색 및 시각화

#excel/graph/combo

[!note] 시각화

콤보 그래프

신장률 계산 수식 복붙 팁

IF 함수를 이용한 다른 대륙 간 계산 방지

실습 : 미국 도시별 House Price 데이터 분석

데이터 소개 및 탐색

[!note]

추세 탐색 : 막대 그래프, 분산 그래프, 박스 그래프

Pivot table 열 그룹화

상관분석 및 시각화

[!note] 상관분석

데이터 분석 추가

파일 -> 옵션 -> 추가기능 -> 분석 도구 팩

셀 배경을 값에 따라 표시

홈 -> 조건부서식 -> 규칙 관리 -> 새 규칙 -> 셀 값을 기준으로 모든 셀의 서식 지정

[!example] 결과

[Excel] Ch1. 엑셀 기초 (피벗, 기초 함수, 배열 함수)

Tue, 26 Sep 2023 06:41:53 GMT

[!note] 감상

피벗 테이블의 디자인과 필드 추가가 인상깊었다.

디자인 -> 부분합, 총합계, 보고서 레이아웃

피벗 테이블 분석 -> 필드, 항목 및 집합 -> 계산 필드

함수의 적극적인 활용

LARGE, SMALL : 매출 증감 순위 찾기

VLOOKUP : 팀이나 브랜드 찾기

배열 함수 #excel/array

[!note] 데이터 분석 데이터 분석은 유용한 정보를 발굴하고 결론적인 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정

[!info] Goal 엑셀로 할 수 있는 기본적인 업무부터 최적화된 분석 방법론까지 실습을 통해 데이터 분석 역량 강화

#excel/shortcut

[!example] 단축키

#excel/static

[!example] 기초 통계량

#excel/text

[!example] 텍스트 추출

#excel/sumifs

[!example]

#excel/vlookup

[!example]

#excel/array

[!example]

[TIL] Excel Ch1. 엑셀 기초 3 (완)

Tue, 26 Sep 2023 06:39:20 GMT

#excel/sumifs

[!example]

#excel/vlookup

[!example]

#excel/array

[!example]

[TIL] Excel Ch1. 엑셀 기초 2

Mon, 25 Sep 2023 22:58:03 GMT

#excel/static

[!example] 기초 통계량

#excel/text

[!example] 텍스트 추출

데이터 사이언스 100 개 노크 (구조화 데이터 가공편) (중급)

Mon, 25 Sep 2023 22:50:51 GMT

[!Important]+ Goals 일반사단법인 데이터사이언스 협회가 GitHub 에 공개한 " 데이터 사이언스 100 개 노크 (구조화 데이터 가공편)" 의 문제연습을 하는 코스입니다. 이 코스에서는 애매한 조건, 소트, 집계, 샘플링 등에 대해 배울 수 있습니다. 비즈니스 현장에서의 분석 실무에서는 데이터의 대부분이 구조화 데이터입니다. 구조화 데이터를 자유롭게 가공, 집계하는 스킬을 닦아, 데이터 사이언스의 실전력을 올립시다.

[!abstract]+ Curriculum

애매한 조건

소트

집계

서브쿼리

샘플링

뺄셈 에러 대응

name identification

데이터 분할

애매한 조건

전방 조건

문제 10

#pd/query/str/startswith

df_store 에서 store_cd 가 "S14" 로 시작하는 항목만 추출하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_store.query("store_cd.str.startswith('S14')", engine='python').head(10))

문제 13

정규표현

#regular_expression #regex #pd/query/str/contains

임의의 한 글자	.
문자열 선두	^
문자열 끝	$
동일문자 반복	* + ?
범위지정	-
대괄호에 포함되는 어떤 한 문자에 매치	[]
대괄호에 포함되는 문자 이외에 매치	[^]

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.query("status_cd.str.contains('^[A-F]', regex=True)", engine='python').head(10))

후방 조건

문제 11

#pd/query/str/endswith

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.query("customer_id.str.endswith('1')", engine='python').head(10))

문제 14

#pd/query/str/contains #regex #regular_expression

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.query("status_cd.str.contains('[1-9]$', regex=True)", engine='python').head(10))

부분 조건

문제 12

#pd/query/str/contains

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_store.query("address.str.contains('横浜市')", engine='python'))

문제 15

#pd/query/str/contains

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.query("status_cd.str.contains('^[A-F].*[1-9]$', regex=True)", engine='python').head(10))

소트

순서 바꾸기

문제 17

#pd/sort

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.sort_values('birth_day', ascending=True).head(10))

문제 18

#pd/sort

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_customer.sort_values('birth_day', ascending=False).head(10))

순위

문제 19

#pd/rank #pd/concat #pd/sort

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

# "df_tmp"に処理後のデータを代入してください

df_tmp = pd.concat(
                   [df_receipt[['customer_id', 'amount']]
                   , df_receipt["amount"].rank(method='min', ascending=False)
                   ]
                   , axis=1)
# カラム名を指定します。書き換える必要はありません
df_tmp.columns = ['customer_id', 'amount', 'ranking']
print(df_tmp.sort_values('ranking', ascending=True).head(10))

문제 20

#pd/rank #pd/concat #pd/sort

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

# "df_tmp"に処理後のデータを代入してください

df_tmp = pd.concat(
                   [df_receipt[['customer_id', 'amount']]
                   , df_receipt["amount"].rank(method='first', ascending=False)
                   ]
                   , axis=1)
# カラム名を指定します。書き換える必要はありません
df_tmp.columns = ['customer_id', 'amount', 'ranking']
print(df_tmp.sort_values('ranking', ascending=True).head(10))

집계

카운트

문제 22

#len #pd/unique

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(len(pd.unique(df_receipt.customer_id)))

합계

문제 23

#pd/groupby/agg/sum

점포 별 매출액과 매출 수량 총합

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby('store_cd').agg({'amount':'sum', 'quantity':'sum'}).reset_index().head())

Max/Min

문제 24

#pd/groupby/agg/max

영수증 데이터에서 고객 id 별로 최근 매출 날짜를 계산

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby('customer_id').agg({'sales_ymd':'max'}).reset_index().head(10))

문제 25

#pd/groupby/agg/min

영수증 데이터에서 고객 id 별로 가장 오래된 매출 날짜를 계산

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby('customer_id').agg({'sales_ymd':'min'}).reset_index().head(10))

문제 26

#pd/groupby/agg

한 번 이상 방문한 사람 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

df_tmp = df_receipt.groupby('customer_id').agg({'sales_ymd':['max','min']}).reset_index()
#  カラム名を指定します。書き換える必要はありません
df_tmp.columns = ["_".join(pair) for pair in df_tmp.columns]
print(df_tmp.query('sales_ymd_max != sales_ymd_min').head(10))

통계량

문제 27

#pd/groupby/agg/mean #pd/sort

점포 별 매상 평균

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby("store_cd").agg({"amount":"mean"}).reset_index().sort_values("amount", ascending=False).head())

문제 28

#pd/groupby/agg/median #pd/sort

점포 별 매상 중앙값

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby("store_cd").agg({"amount":"median"}).reset_index().sort_values("amount", ascending=False).head())

문제 29

#pd/groupby/apply #lambda

점포 별 가장 자주 팔린 상품 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(df_receipt.groupby('store_cd').product_cd.apply(lambda x: x.mode()).reset_index())

문제 30

#pd/groupby/var #std_var

점포 별 매출 표준분산 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(
    df_receipt
    .groupby("store_cd")
    .amount.var(ddof=0)
    .reset_index()
    .sort_values("amount", ascending=False)
    .head()
    )

문제 31

#pd/groupby/std #pd/std_dev

점포 별 매출 표준편차 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(
    df_receipt
    .groupby("store_cd").amount
    .std(ddof=0)
    .reset_index()
    .sort_values("amount", ascending=False)
    .head()
    )

문제 32

#np/percentile

퍼센타일 (백분위수) 구하기

import pandas as pd
import numpy as np
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(
    np.percentile(df_receipt.amount, [25,50,75,100])
    )

문제 33

#pd/query #pd/groupby/agg/mean

매출 평균이 330 이상인 점포 뽑기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(
    df_receipt.groupby("store_cd")
    .agg({"amount":'mean'})
    .reset_index()
    .query("amount >= 330")
    )

서브쿼리

검색결과로부터의 서브쿼리

문제 34

#pd/query

회원 별 매출 총액과 그 평균 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

print(
      df_receipt
      .query('not customer_id.str.startswith("Z")', engine='python')
      .groupby("customer_id")
      .amount
      .sum()
      .mean()
      )

조건지정에서의 서브쿼리

문제 35

#pd/query

평균 매출액 이상의 회원 구하기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

amount_mean = df_receipt.query('not customer_id.str.startswith("Z")', engine='python').groupby("customer_id").amount.sum().mean()
amount_sum = df_receipt.query('not customer_id.str.startswith("Z")', engine='python').groupby("customer_id").amount.sum().reset_index()
print(amount_sum[amount_sum.amount >= amount_mean].head(10))

샘플링

랜덤

문제 75

#df/sample

무작위 샘플링

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

# random_stateを42としてランダムに1%のデータを抽出し, "df_sampleに代入してください"
df_sample = df_customer.sample(frac=0.01, random_state=42)
print(df_sample.head(10))

계층화

문제 76

#sample/stratify

성별 분포에 따라 계층 추출 후 성별 마다의 고객수를 집계

import pandas as pd
from sklearn.model_selection import train_test_split
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')


# sklearn.model_selection.train_test_splitを使用して層化を行ってください
_, sample_df_customer = train_test_split(df_customer, test_size=0.1, stratify =df_customer.gender_cd, random_state=42)
print(sample_df_customer.groupby("gender_cd").agg({'customer_id' : 'count'}))

뺄셈 에러 대응

문제 84

#pd/merge #fillna

고객 별 2019 년도 매출액 비율

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

# 1.レシート明細データフレーム（df_receipt）からqueryメソッドにて該当の期間のデータを抽出する
df_tmp_1 = df_receipt.query('20190101 <= sales_ymd <= 20191231')
# 2. "１"で抽出したデータを顧客データフレーム（df_customer）に結合する
df_tmp_1 = pd.merge(df_customer['customer_id'], df_tmp_1[['customer_id', 'amount']], how='left', on='customer_id'). \
    groupby('customer_id').sum().reset_index().rename(columns={'amount':'amount_2019'})
# 3. レシート明細データフレーム（df_receipt）を顧客データフレーム（df_customer）に結合する
df_tmp_2 = pd.merge(df_customer['customer_id'], df_receipt[['customer_id', 'amount']], how='left', on='customer_id'). \
    groupby('customer_id').sum().reset_index()
# 4. "2"と"3"で得たデータを内部結合する
df_tmp = pd.merge(df_tmp_1, df_tmp_2, how='inner', on='customer_id')
# 5. "4"の結合時に生じた欠損値を補完する
df_tmp['amount_2019'] = df_tmp['amount_2019'].fillna(0)
df_tmp['amount'] = df_tmp['amount'].fillna(0)
# 6. 2019の売り上げ金額 / 全期間の売上金額を行い割合をデータフレームに追加する 
df_tmp['amount_rate'] = df_tmp['amount_2019'] / df_tmp['amount']
# 7. "6"で生じた欠損値を補完する
df_tmp['amount_rate'] = df_tmp['amount_rate'].fillna(0)
# 8. queryメソッドにて条件に基づいて取得する
print( df_tmp.query('amount_rate > 0').head(10) )

Name Identification

완전일치

문제 87

#pd/merge #pd/sort #pd/drop_duplicates

복수 등록된 고객 데이터에서 복수 데이터 삭제 후, 매출액 0 인 고객은 id 번호가 가장 작은 고객만 남기기

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')


#　顧客ごとの売上金額合計を算出する
df_tmp = df_receipt.groupby('customer_id').agg({'amount':'sum'}).reset_index()
# 顧客データフレーム（df_customer）に売上金額合計を追加し、売上金額合計、顧客IDでソートする
df_customer_u = pd.merge(df_customer, df_tmp, how='left', on='customer_id').sort_values(['amount', 'customer_id'], ascending=[False, True])
# 同一顧客に対しては売上金額合計が最も高いものを残すように削除する
df_customer_u.drop_duplicates(subset=['customer_name', 'postal_cd'], keep='first', inplace=True)

print('減少数: ', len(df_customer) - len(df_customer_u))

변환 데이터 작성

문제 88

전 문제의 df_customer_u 를 기반으로 데이터프레임에 통합 ID 를 부여한 df_customer_n 을 작성

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')
df_customer_u = pd.read_csv('./100knocks-preprocess/87.csv', index_col=0)

# 顧客データフレーム(df_customer)と名寄顧客データフレーム（df_customer_u）を内部結合する
df_customer_n = pd.merge(df_customer, df_customer_u[['customer_name', 'postal_cd', 'customer_id']],
                        how='inner', on =['customer_name', 'postal_cd'])
# カラム名を変更する
df_customer_n.rename(columns={'customer_id_x':'customer_id', 'customer_id_y':'integration_id'}, inplace=True)

print('ID数の差', len(df_customer_n['customer_id'].unique()) - len(df_customer_n['integration_id'].unique()))

데이터 분할

레코드 데이터

문제 89

매출이 있는 고객만 대상으로 훈련 데이터와 검증 데이터 분리

import pandas as pd
from sklearn.model_selection import train_test_split
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')

#　顧客ごとの売上金額合計を算出します
df_sales= df_receipt.groupby('customer_id').agg({'amount':'sum'}).reset_index()
#  df_salesにある顧客のみを抽出します
df_tmp = pd.merge(df_customer, df_sales['customer_id'], how='inner', on='customer_id')
# 8:2の割合でランダムにデータを分割します
df_train, df_test = train_test_split(df_tmp, test_size=0.2, random_state=71)
print('訓練データ割合: ', len(df_train) / len(df_tmp))
print('検証データ割合: ', len(df_test) / len(df_tmp))

시계열 데이터

문제 90

월별 매출 집계 후 훈련 데이터 생성

import pandas as pd
# データをcsvファイルから読み込みます。書き換える必要はありません
df_customer = pd.read_csv('./100knocks-preprocess/customer.csv')
df_category = pd.read_csv('./100knocks-preprocess/category.csv')
df_product = pd.read_csv('./100knocks-preprocess/product.csv')
df_receipt =pd.read_csv('./100knocks-preprocess/receipt.csv')
df_store = pd.read_csv('./100knocks-preprocess/store.csv')
df_geocode = pd.read_csv('./100knocks-preprocess/geocode.csv')


df_tmp = df_receipt[['sales_ymd', 'amount']].copy()
# 西暦と月のみにし、"sales_ym"に代入します
df_tmp['sales_ym'] = df_tmp['sales_ymd'].astype('str').str[0:6]
# 月毎の"amount"を算出します
df_tmp = df_tmp.groupby('sales_ym').agg({'amount':'sum'}).reset_index()

#  「train_size, test_size」はデータの長さ, 「slide_window,start_point」はtrainデータの始まりを決定するのに使用します
def split_data(df, train_size, test_size, slide_window, start_point):
    train_start = start_point * slide_window
    test_start = train_start + train_size
    return df[train_start : test_start], df[test_start : test_start + test_size]

df_train_1, df_test_1 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=0)
df_train_2, df_test_2 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=1)
df_train_3, df_test_3 = split_data(df_tmp, train_size=12, test_size=6, slide_window=6, start_point=2)
print(df_train_3)

[데일리 리포트] 2023-09-25

Mon, 25 Sep 2023 15:10:37 GMT

2023-09-25

[!quote]

It is difficult to achieve a spirit of genuine cooperation as long as people remain indifferent to the feelings and happiness of others. — Dalai Lama

[!tip] Goals

[!todo]+ Habit Tracker 데일리 리포트 :: 2 22 전략 - 독서 :: 2 22 전략 - 글쓰기 :: 2

Plan, Do, See

Time	Plan	Review
07:00
08:00
09:00	기상, 카츠라역으로 출발
10:00	봄이 트리밍, 독서(세컨드 브레인)	미스도 최고!
11:00	봄이 트리밍, 독서(세컨드 브레인), 카드 신청
12:00	봄이 트리밍, 점심
13:00	다이소, 드러그 스토어
14:00	산책, 귀가
15:00	PARA 정리 시작 : 일단 프로젝트(이직준비)부터!
16:00	이력서 & 직무경력서의 메모화
17:00	이력서 & 직무경력서 브러시 업
18:00	이력서 & 직무경력서 브러시 업
19:00	저녁
20:00	이력서 & 직무경력서 브러시 업
21:00	이력서 & 직무경력서 브러시 업
22:00	책 소개 ppt 만들기 (세컨드 브레인)
23:00	데일리 리포트
24:00
01:00
02:00

[!success]+ Today I Learned

[[2_Areas/독서 모임/세컨드 브레인|세컨드 브레인]]

PARA Method를 이용한 [[이직 준비]] 6개 회사 이력서 쓰기

[[Ch.1 엑셀 기초]]

[!note]+ Highlights of the Day

6개 회사 분의 이력서와 직무경력서 브러시업 끝!

[데일리 리포트] 2023-09-24

Sun, 24 Sep 2023 12:25:33 GMT

2023-09-24

[!quote]

To profit from good advice requires more wisdom than to give it. — Wilson Mizner

[!tip] Goals

22 전략

운동 - 산책

[!todo]+ Habit Tracker 데일리 리포트 22 전략 - 독서 :: 1 22 전략 - 글쓰기 :: 0

Plan, Do, See

Time	Plan	Do	Review
07:00		아침 산책
08:00	아침 & 데일리 리포트 & 샤워
09:00	독서 모임 책 정하고 읽기	세컨드 브레인으로 확정!
10:00	산책 및 사색
11:00	산책 및 사색
12:00	세컨드 브레인 읽기
13:00	점심
14:00	낮잠		원래 한 시간만 잘 거였는데 너무 자버렸다
15:00	낮잠		다음부턴 꼭 알람을 맞춰놓고 자자!
16:00	낮잠
17:00	세컨드 브레인 읽고 블로그 쓰기	1 부 투고 끝!
18:00	데이터 분석 Master Class		엑셀은 쉬우니까 빠르게 보고 넘기자
19:00	저녁 산책 & 블로그 정리
20:00	저녁 & 데일리 리포트 쓰기
21:00	독서 및 정리 (세컨드 브레인)
22:00	독서 및 정리 (세컨드 브레인)
23:00	씻고 잘 준비

[!success]+ Today I Learned

[[Ch.1 엑셀 기초]] : 엑셀 단축키랑 참조 (상대, 절대, 혼합) 의 사용법.

[[230924 세컨드 브레인 (1) Intro~Chap.1]] : CODE. Capture, Organize, Distill, Express.

[!note]+ Highlights of the Day

블로그 재시작!

한국 여행 일정 정리 끝!

Fast Campus 의 강의 등록 완료

" 데이터 분석 Master Class"(80 시간)

SQL, R, Tableau, Redash, Power BI 입문용

" 한 번에 끝내는 데이터 엔지니어링 초격차 패키지 Online."(120 시간)

실무 예시 중심의 데이터 엔지니어링 28 개의 기술 스택

봄이 산책

오늘의 일기

[!note] 봄이 아침 산책 어제에 이어 오늘도 봄이는 6시에 일어나서 모두를 깨우기 시작했다. 요즘 와이프가 잠이 부족해서 이대로는 안 되겠다 싶어 어제 아침 산책을 나간 것이 원인일까 싶다. 오늘도 와이프의 수면을 보장하기 위해 조용히 옷을 갈아입고 집을 나섰다. 이제 고작 두 번 한 아침 산책이지만 마주치는 사람들은 정해져 있는 것 같다. 아침잠이 적은 할머니나 중년의 아저씨. 오늘 만난 대부분의 사람들이 어제도 만난 사람들이었다. 데리고 나온 강아지들은 역시 대부분 일본에서 인기가 많은 푸들이나 포메라니안이었다. 포메라니안은 비교적 경계심이 강해 조심스럽게 다가오고 잘 안 놀아 주지만, 푸들은 웬만하면 봄이랑 잘 어울려 논다. 아침 특유의 공기와 한산함, 적막 속에서 가끔 울리는 알람소리가 참 듣기 좋았다.

[!note] Fast Campus 구인구직을 알아보니 SQL을 다뤄본 경험을 요구하는 곳이 많아 찾아보고 수강신청! 입문용 강의와 초급편 강의를 두 개 신청했는데 마침 또 쿠폰을 뿌려서 할인이 많이 된 거 같아 기쁘다. 총 200시간에 이르는 강의인데 30만 원도 안 되는 가격이라니. "데이터 분석 Master Class"는 2주 안에 끝내고, "한 번에 끝내는 데이터 엔지니어링 초격차 패키지 Online"은 3-4주 안에 끝낼 수 있도록 노력하자!

[!note] 블로그 재시작 이사 후에 Aidemy의 강좌가 본격적으로 어려워지기 시작하고 슬럼프에 빠지면서 블로그를 안 쓰게 됐었다. 이제부터 다시 시작! 하루 하루를 제대로 기록하자.