SandwichBox

010. 데이터 취업 스쿨 스터디 노트_10주차_Git

Fri, 14 Jun 2024 11:39:35 GMT

10주차

수강한 분량

Git에 가입하고, Github과 Local을 연결하는 내용, Local 내부에서 충돌이 일어나는 내용을 다루는 법을 공부했다.

각 강의별 학습한 핵심 내용 정리

Git

버전관리

버전관리 시스템(형상관리)
- Configuration Management Systems
- Version Control Systems
버전관리
- Source Data + History
- 협업, 작업추적, 복구 등이 가능
Git 등장 배경
- Local Version Control Systems
  - 파일 버전 관리 시스템
  - 내 컴퓨터에서 버전 관리 기능 > 하드 날아가면 전체 코드 사라짐
  - 버전은 관리되지만, 협업은 여전히 어려움
- Centralized Version Control Systems
  - 중앙 관리 시스템
  - 협업이 가능해짐
  - commit 하는 순간 배포되어 다수에게 버그 유발 가능(서버로 바로 commit)
  - 인터넷이 안되면 작업이 불가능
  - 자신만의 version history를 가질 수 없음
- Distributed Version Control Systems
  - 분산 버전 관리 시스템
  - commit 하더라도 개인저장소 내에 적용됨(다른 개발자에게 영향 없음)
  - 원하는 순간 배포(push) 가능
  - 오프라인에서도 작업 가능
  - 자신만의 version history를 가짐
버전 관리 시스템 종류
- CVCS
  - CVS
    - 1980년대 만들어진 형상관리 시스템
    - commit 중 오류 발생 시 Rollback이 되지 않는 등의 문제
    - 이후 SVN으로 대체됨
  - SVN
    - subversion.apache.org
    - 2000년대 만들어졌고, 현재까지 두루 사용 중
- DVCS
  - Mercurial
  - Git
    - git-scm.com
    - SVM보다 빠른 속도, 많은 기능 지원
    - 현재 많은 기업이 사용 중
Git 기반의 서비스
- Github
  - github.com
  - git을 호스팅해주는 웹 서비스, 협업을 위한 기능을 제공
  - 소스코드 보안이 중요한 경우 사용을 기피함
- Gitlab
  - gitlab.com
  - 설치형 버전관리 시스템
    - 소스코드 보안이 중요한 기업에서 주로 사용
  - 클라우드 버전 관리 시스템
    - 10명 이하 부료(Githunb과 유사)
  - Issue tracker, Git Remote Repository, API, Team, Group 기능 제공
    Git 가입
git global configuration
- git config --global user.name
- `git config --global user.email.
가져올 때는 LF를 CRLF로 변경하고 보낼때는 CRLF를 LF로 변경
- git config --global core.autocrlf true
line ending
- CR
  - \r
- LF
  - \n
- window
  - CR + LF
- Unix or Mac
  - LF
- OS가 상이한 사용자가 같은 Git Repository를 작업할 때, 코드에서 변경된 내용이 없어도 CRLF 차이로 인해 commit이 발생할 수 있음
Editor
- git config --global core.editor
전체 설정 확인
- git config --list
항목별 설정 확인
- git config
  Git 용어
Repository
- 소스코드가 저장되어 있는 여러 개의 Branch가 모여있는 디스크상의 물리적 공간
- Local Repository
- Remote Repository
Checkout
- 특정 시점이나 Branch의 소스코드로 이동하는 것
- Checkout 대상
  - Branch
  - Commit
  - Tag
- 과거 여러 시점의 코드로 이동 가능
Stage
- 작업할 내용이 올라가는 임시저장영역
- 내용중 commit에 반영할 파일만 선별하여 commit을 수행할 수 있음
Commit
- 작업할 내용을 Local Repository에 저장하는 과정
- 각각의 commit은 의미있는 변경단위, 변경에 대한 설명을 commit log로 남김
- commit을 아끼지 말기 > 게임의 save point
- commit단위, commit log format이 정해진 회사 혹은 팀 있음(빌드 서버를 사용하는 경우)
Tag
- 임의의 commit 위치에 쉽게 찾아갈 수 있도록 붙여놓은 이정표
- Tag가 붙은 commit은 commit id (version) 대신 tag name으로 쉽게 checkout 가능
Push
- Local Repository의 내용 중, Remote Repository에 반영되지 않은 commit을 Remote Repository로 보내는 과정
- Push하는 순간 다른 개발자들도 영향을 받음, 검증된 코드만 Push하기
Pull
- Remote Repository에 있는 내용 중, Local Repository에 반영되지 않은 내용을 가져와서 Local Repository에 저장하는 과정
- 다른 팀원이 변경하고 Push한 내용을 Local Repository에 가져올 수 있음
- Push 과정에서 Conflict가 일어나 Push가 거절된 경우, Pull을 통해 Remote Repository의 변경 내용을 Local Repository에 반영하여 Conflict를 해결한 뒤 다시 Push를 시도해야 함
Branch
- 특정 시점 (commit 단위)에서 분기하여 새로운 commit을 쌓을 수 있는 가지를 만드는 것
- 개발의 주축이 되는 branch를 master branch 혹은 main branch라고 함
- 모든 branch는 최종적으로 다시 master branch에 merge되는 형식으로 진행됨
Merge
- Branch의 반대개념으로 하나의 Branch를 다른 Branch와 합치는 과정
- Merge되는 두 Branch는 주종관계가 성립 > dev Branch를 main Branch에 merge
- Merge되는 과정에서 Conflict가 발생한 경우, Diff를 수정하여, Conflict를 해결한 뒤 Merge를 진행할 수 있음
  Local Repository
Working Directory(작업공간)
- 실제 소스 파일, 생성한 파일들이 존재
Index(Stage)
- Staging Area(준비영역)의 역할, git add한 파일들이 존재
HEAD
- 최종 확정본, git commit한 파일들이 존재
Local Repository 생성
- 원하는 디렉토리로 이동한 후, git init을 실행하면 git이 활동을 시작
- ls -all
  - 내부에 있는 모든 파일들을 보여줌
  - -all 옵션으로 숨겨진 것 또한 보여줌
- touch
  - 빈 파일을 생성
- git status
  - git에 존재하는 파일 확인
version 관리
- git add
  - Working Directory에서 변경된 파일을 Index(Stage)에 추가
- git commit -m "commit에 대한 설명"
  - Index(Stage)에 추가된 변경사항을 HEAD에 반영 (확정)
Remote Repository 생성
- Github Token 생성
  - 보안상의 이유로 Remote Repository 접속 시 비밀번호 대신 Token 사용

Remote Repository 등록

  - `git remote add origin https://githup.com/.git`
  - `git remote add origin https://:@githup.com/.git`
      - 매번 아이디와 비밀번호 입력 없이 연결 가능

git remote -v
- remote repository 정보 확인

Remote Repository에 변경 내용 push
- HEAD에 반영된 변경내용을 Remote Repository에도 반영하기 위해서는 Git Push를 사용
- git push origin
Remote Repository에서 Pull 하기
- git pull origin
파일 읽기
- cat
파일 쓰기
- cat >
  Remote Repository
README file
- 프로젝트에 대한 설명, 사용방법, 라이센스, 설치방법 등에 대한 내용을 기술하는 파일
- 나, 직장동료, 프로그램 사용자를 위해 존재
.gitignore
- Git 버전 관리에서 제외할 파일목록을 지정하는 파일
- 사용자가 원하지 않는 파일들을 자동으로 commit 대상에서 제외시켜 줌
Default Branch
- main
  - Remote에서 시작한 경우
- Master
  - Local에서 시작한 경우
- branch 이름을 수정할 수도 있지만 아주 초반이 아니라면 신중한 것이 좋다
- Default Branch 이름을 설정에서 아주 바꾸는 법이 있다
Git Clone
- 앞서 폴더를 만들고
  - Git Init으로 해당 폴더를 초기화
  - Remote Repository 등록
  - Remote Repository 내용을 Pull하는 모든 과정을 Git Clone으로 수행
- git clone https://github.com/.git
- git clone https://:@githup.com/.git
```
  - 매번 아이디와 비밀번호 입력 없이 연결 가능
```
Branch
- 조회
  - Local에서 조회
    - git branch
  - Remote 조회
    - git branch -r
  - Local, Remote 함께 조회
    - git branch -a
- 생성
  - git branch
  - 특정 branch를 remote인 origin에 올리겠다
    - git push origin
- 이동
  - git checkout
  - 없어 만들고 이동
    - git checkout -b
- 삭제
  - 내가 머무르고 있는 branch에서는 자신을 삭제할 수 없다
  - Local에서
    - git branch -d
  - Remote에서
    - git push origin --delete
      Log and Diff
Git Graph -VScode에서 Git 변화를 그래프 형태로 볼 수 있는 것
Git Log
- branch 별로 변경이력을 볼 수 있음
Git Editor
- git config --global core.editor --wait
  - --wait옵션은 command line으로 VSCode를 실행시켰을 경우, VSCode 인스턴스 닫을 때까지 command 대기
Git Configuration
- git config --global -e
  - git configuration 파일 열기
- Git Diff 설정 추가
```
[diff]
tool = vscode
[difftool "vscode"]
cmd = "code --wait --diff $LOCAL $REMOTE"
```
Git Diff
- Local branch 간 비교
  - git diff
    - Bash 환경에서 확인
  - git difftool
    - vscode의 diff 기능을 활용
- commit 간 비교
  - commithash 앞 7자리만 넣어도 비교 가능
  - git diff
    - Bash 환경에서 확인
  - git difftool
    - vscode의 diff 기능 활용
- 마지막 commit과 이전 commit 비교
  - git diff HEAD HEAD^
    - Bash 환경에서 확인
  - `git difftool HEAD HEAD^
    - vscode의 diff 기능 활용
- 마지막 commit과 현재 수정사항 확인
  - git diff HEAD
- Local과 Remote 간 비교
  - git diff origin/
    Merge and Conflict
Git Merge
- 현재 위치한 branch에 다른 branch를 병합
  - git merge
Git Conflict
- Branch를 Merge하는 과정에서 충돌이 생김
- Push, Pull 하는 과정에서도 충돌이 날 수 있음
git mergetool
- conflict 발생 이후 위의 명령어 입력 시, conflict난 파일들이 차례로 열림
- 내부 문자 의미
  - <<<<
    - 현재 변화
  - ====
    - 구분
  - >>>>
    - 앞으로의 변화
- 살릴 내용 말고 나머지 다 지우고 저장
- git status로 확인하면, 파일명.확장자.orig 라는 파일이 생김
  - 백업용 파일
- add, commit하면 정리
- 이후 merge 중 충돌 관련된 내용 문서가 나옴
  Tag
특정 버전(Commit)에 Tag를 달아놓을 필요가 있을 때 사용
- 버전 릴리즈
생성
- 현재 버전에 Tag 달기
  - git tag
- 특정 버전에 Tag 달기
  - git tag
- Tag를 Remote Repository에 Push
  - git push origin
Tag 목록 보기
- git tag
Tag 상세 정보
- git show
삭제
- git tag --delete
- git push --delete origin
  README
프로젝트에 대한 설명, 사용방법, 라이센스, 설치방법 등에 대한 내용을 기술하는 파일
나, 직장동료, 프로그램 사용자를 위해 존재
Markdown 문법
- #
  - headers
  - 갯수가 많을수록 작아짐
- >
  - blockquote
  - 블럭 인용
  - 블럭 내에서 다른 Markdown 요소 포함 가능
- 목록
  - 1.
    - 순서가 있는 목록
      - 내림차순으로 자동 정렬
  - *, -, +
    - 순서가 없는 목록
      - 문자가 달라도 상관 X
      - 하위로 갈수록 표시 모양이 달라짐
- 코드블럭
  - {code}<\code><\pre>


느낀점
그동안 Git을 사용하면서 왜 충돌이 일어날까. 나 혼자 쓰는데?? 하는 부분을 이해할 수 있었다. 모든 충돌은 컴퓨터가 가치판단을 하지 않기때문에 일어나는 것. 내용을 갈아엎는다면, 무조건 충돌을 예상하고 어떻게 수정할 지, 혹은 강제로 바꾸는 것을 익히는 것이 필요할지도.
SQL과 마찬가지로 Git은 command 환경이지만 Bash라 언어가 달랐다. 예전에 끄적거리던 리눅스언어가 생각났다. 그때 좀 더 노력했다면 지금 훨씬 쉬웠을까?
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



009. 데이터 취업 스쿨 스터디 노트_9주차_SQL
Fri, 14 Jun 2024 11:35:12 GMT
9주차
수강한 분량
SQL, SQL 고급 내용을 공부했다. MySQL, AWS 등을 익혔다.
각 강의별 학습한 핵심 내용 정리
DataBase 설치하기

MySQL 설치
server
workbench
server에 접속해 명령을 던지는 프로그램


shell
router
connectorDataBase

DataBase
여러 사람이 공유하여 사용할 목적으로 체계화해 통합, 관리하는 데이터의 집합체


DBMS
사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해주고 데이터베이스를 관리해주는 소프트웨어


RDB, Relational Database
서로간에 관계가 있는 데이터 테이블들을 모아둔 데이터 저장공간


SQL
데이터베이스에서 데이터를 정의, 조작, 제어하기 위해 사용하는 언어
DDL, Data Definition Language
CREATE, ALTER, DROP


DML, Data Manipulation Language
INSERT, UPDATE, DELETE, SELECT


DCL, Data Control Language
GRANT, REVOKE, COMMIT, ROLLBACK




root 계정으로 접속
% mysql -u root -p


현재 DB 목록 확인
SHOW DATABASES;


DB 이름 지정하여 생성
CREATE DATABASE dbname;


DB로 이동
USE dbname;


DB 삭제
DROP DATABASE dbname;User



사용자 정보는 mysql에서 관리하므로 mysql DB로 이동 후 조회
use mysql;
SELECT host, user FROM user;


User 생성
현재 PC에서만 접속 가능한 사용자를 비번과 함께 생성
CREATE USER 'username'@'localhost' identified by 'password';


외부에서 접속 가능한 사용자를 비번과 함께 생성
CREATE USER 'username'@'%' identified by 'password';




User 삭제
접근 범위에 따라 이름이 같은 사용자여도 별도로 삭제
DROP USER 'username'@'localhost'
DROP USER 'username'@'%'


User 권한 관리
권한 확인
SHOW GRANTS FOR 'username'@'localhost'


권한 부여
`GRANT ALL ON dbname.* to 'username'@'localhost';


권한 삭제
REVOKE ALL ON dbname.* from 'username'@'localhost';




새로고침
FLUSH PRIVILEGES;DB 요소 및 명령어



실습용 데이터 베이스 만들어 두기
CREATE DATABASE zerobase DEFAULT CHARACTER SET utf8mb4
utf8
다국어


mb4
이모지 문자 지원Table







Table
DB 안에서 실제 데이터가 저장되는 형태이고, 행(row)과 열(column)로 구성된 데이터 모음


Table 생성
CREATE TABLE tablename(columnname datatype, columnname datatype, ...);


Table 목록 확인
SHOW TABLES;


Table 정보 확인
DESC tablename;


Table 변경
아래 문구 뒤에 변경할 내용에 맞추어 다음 문구를 넣는다.
ALTER TABLE tablename
table 이름 변경
RENAME new_tablename;


column 추가
ADD COLUMN columnname databtype;


column 데이터 타입 변경
MODIFY COLUMN columnname datatype;


column 이름, 데이터 입 변경
CHANGE COLUMN old_columnname new_columnname datatype;


column 삭제
DROP COLUMN columnname




Table 삭제
DROP TABLE tablename;DML



INSERT
데이터 추가
INSERT INTO tablename (col1, col2, ...) VALUES (val1, val2, ...);
컬럼 이름 순서와 값 순서가 일치하도록 주의
모든 컬럼 값 추가하는 경우 컬럼 이름 생략해도 괜찮음
INSERT INTO tablename VALUES (val1, val2, ...);


SELECT
테이블 내 특정 컬럼에 대한 데이터를 조회
SELECT col1, col2 FROM tablename;


테이블 내 모든 컬럼에 대한 데이터를 조회
SELECT * FROM tablename;


WHERE
SQL문에 조건을 추가하여 SELECT 뿐 아니라 UPDATE, DELETE에도 사용
WHERE condition;




UPDATE
테이블 내 데이터 수정
UPDATE tablename SET col1 = val1, col2 = val2, ... WHERE condition;


DELETE
테이블 내 내용 삭제
DELETE FROM tablename WHERE condition;ORDER BY



정렬
SELECT col1, col2 FROM tablename
ORDER BY col1, col2, ... ASC | DESC;비교 연산자

=
같은





보다 큰(초과)


<
보다 작은(미만)



=


보다 크거나 같은(이상)


<=
보다 작거나 같은(이하)


<>
보다 크거나 작은(같지 않은)


!=
같지 않은논리 연산자
AND 우선순위가 OR 보다 높아 먼저 처리되므로 괄호 활용을 잘 해야한다.


AND
조건을 모두 만족하면 TRUE
SELECT col1, col2 FROM tablename WHERE cond1 AND cond2 AND cond3 ...;


OR
하나의 조건이라도 만족하면 TRUE
SELECT col1, col2 FROM tablename WHERE cond1 OR cond2 OR cond3 ...;


NOT
조건을 만족하지 않으면 TRUE
SELECT col1, col2 FROM tablename WHERE NOT cond


BETWEEN
조건값이 범위 사이에 있으면 TRUE
SELECT col1, col2 FROM tablename WHERE col1 BETWEEN val1 AND val2;


IN
조건값이 목록에 있으면 TRUE
SELECT col1, col2 FROM tablename WHERE col1 IN (val1, val2, ...)


LIKE
조건값이 패턴에 맞으면 TRUE
SELECT col1, col2 FROM tablename WHERE col LIKE pattern
%
어떤 문자가 와도 괜찮다


_
어떤 문자 한 개UNION





UNION
여러 개의 SQL문을 합쳐서 하나의 SQL문으로 만들어주는 방법
칼럼 갯수가 같아야 함




UNION
중복된 값을 제거하여 알려준다


UNION ALL
중복된 값도 모두 보여준다


SELECT col1, col2, ... FROM tableA UNION | UNION ALL SELECT col1, col2, ... FROM tableB;JOIN

JOIN
두 개 이상의 테이블을 결합하는 것


INNER JOIN
두 개의 테이블에서 공통된 요소들을 통해 결합하는 조인 방식
SELECT tableA.col1, tableB.col2, ... FROM tableA INNER JOIN tableB ON tableA.col = tableB.col WHERE condition;


LEFT JOIN
두 개의 테이블에서 공통 영역을 포함해 왼쪽 테이블의 다른 데이터를 포함하는 조인 방식
SELECT tableA.col1, tableB.col2, ... FROM tableA LEFT JOIN tableB ON tableA.col = tableB.col WHERE condition;


RIGHT JOIN
두 개의 테이블에서 공통 영역을 포함해 오른쪽 테이블의 다른 데이터를 포함하는 조인 방식
SELECT tableA.col1, tableB.col2, ... FROM tableA RIGHT JOIN tableB ON tableA.col = tableB.col WHERE condition;


FULL OUTER JOIN
두 개의 테이블에서 공통 영역을 포함하여 양쪽 테이블의  다른 영역을 모두 포함하는 조인 방식
SELECT tableA.col1, tableB.col2, ... FROM tableA FULL OUTER JOIN tableB on tableA.col = tableB.col WHERE condition;
MySQL은 동일 쿼리를 제공하지 않고 비슷한 다른 것으로 사용가능
SELECT tableA.col1, tableB.col2, ... FROM tableA LEFT JOIN tableB on tableA.col = tableB.col UNION SELECT tableA.col1, tableB.col2, ... FROM tableA RIGHT JOIN tableB ON tableA.col = tableB.col WHERE condition;




SELF JOIN
가장 많이 사용되며, INNER JOIN과 같은 결과를 낸다.
JOIN되는 table들의 공통되는 데이터를 가져온다.
SELECT tableA.col1, tableB.col2, ... FROM tableA, tableB, ... WHERE condition;
기준을 where 절에 명시한다유용한 기능





CONCAT
여러 문자열을 하나로 합치거나 연결하는 함수
SELECT CONCAT('string1', 'string2', ...);


ALIAS
칼럼이나 테이블 이름에 별칭 생성
SELECT column AS alias FROM tablename
SELECT col1, col2, ... FROM tablename AS alias
as 생략 가능


DISTINCT
검색한 결과의 중복 제거
SELECT DISTINCT co1, co2, ... FROM tablename;


LIMIT
검색결과를 정렬된 순으로 주어진 숫자만큼만 조회
SELECT col1, col2, ... FROM tablename WHERE condition LIMIT number;AWS RDS



AWS RDS, Amazon Relational Database Service
AWS에서 제공하는 관계형 데이터베이스 서비스
Cloud 상에 Database를 구축한다


AWS RDS 생성
콘솔 > 서비스 > 데이터베이스 > RDS > 데이터베이스 생성
표준 생성 > MySQL > 프리 티어(무료) > 스토리지 자동 조정 활성화 해제(임계값 초과 시 스토리지 늘어나면 돈 냄) > 퍼블릭 액세스 가능 체크(외부에서 접속할 때 필요) > 자동 백업 비활성화(용량 많이 차지함) > 삭제 방지 활성


외부 접속 설정
해당 DB > 보안에 VPC 보안 그룹 아래 default 값 눌러 이동
보안 그룹 내 보안 그룹 ID 눌러 보안 페이지로 이동
인바운드 규칙 내 하나를 체크한 후 인바운드 규칙 편집
규칙 추가
MySQL/Aurora
Anywhere-IPv4




접속
앤드포인트 및 포트 정보를 활용
% mysql -h <엔드포인트> -P <포트> -u <마스터 사용자 이름> -p


use mysql
select host user from user;


중지
DB 체크하고, 작업 > 일시 정지


다시 시작
DB 내부로 들어와 작업 > 시작SQL file



SQL File
SQL 쿼리를 모아놓은 파일
DB, Table을 Restore, back up하는데에 이용함SQL File 실행



로그인 이후
source /path/filename.sql
\. /path/filename.sql
\. filename.sql
로그인할 때 맨 뒤에 database 를 적으면 바로 그곳에서 시작한다


외부에서 바로 실행
mysql -u username -p databaseName < /path/filename.sqlDatabase Backup



특정 DB backup
mysqldump -u username -p dbname > backup.sql


모든 DB backup
mysqldump -u username -p --all-databases > backup.sqlDatabase Backup Restore



DB를 백업한 SQL File을 실행하여 그 시점으로 복구하거나 이전할 수 있다.
SQL File 실행하는 방법과 동일함


AWS RDS 서비스가 사용 가능한 상태에서 접속
zerobase로 이동
source filename.sqlDatabase Backup Table Restore

mysqldump -u username -p dbname tablename > backup.sqlTable Schema Backup

데이터를 제외하고 테이블 생성 쿼리만 백업
특정 table schema backup
mysqldump -d -u username -p dbname tablename > backup.sql


모든 table schema backup
mysqldump -d -u username -p dbname > backup.sqlPython with MySQL



ds_study 가상환경에서 진행
테이블은 그대로 두고 내용만 삭제
delete from police_station;


라이브러리 설치
pip install mysql-connector-pythonconnect



연결db변수 = mysql.connector.connect(
  host = '주소',
  port = 3306,
  user = 'admin',
  password = '*****',
  database = 'zerobase'
)



db변수 = mysql.connector.connect(
    host = 'localhost',
    user = 'root',
    password = '*****',
    database = 'zerobase'
)
- 닫기
    - `변수.close()`
### execute
- 커서 생성
    - `커서변수 = db변수.cursor()`
    - `커서변수.execute();`
- SQL File 실행 코드
    - `파일변수 = open("filename.sql").read()`
    - `커서변수.execute(파일변수)`
    - 쿼리가 여러개 존재하는 경우
        - `커서변수.execute(파일변수, multi = Ture)`
### fectch all
- 조회하는 쿼리를 실행할 경우 데이터를 가지고 오는데, 그 데이터를 변수에 담는 함수
- `데이터변수 = 커서변수.fetchall()`
- 읽어올 데이터 양이 많은 경우
    - 커서 변수 선언시, `buffered = True` 옵션을 넣어준다
- 데이터변수의 데이터 타입은 튜플이 여러 개 담긴 리스트
- 데이터변수, 검색 결과를 Pandas의 DF로 변환하여 읽을 수 있다
### csv
- csv에 있는 데이터를 python으로 INSERT 하기
- commit()
    - database에 적용하기 위한 명령
- MySQL.connector execute 공식문서 참조
    - operation 옵션에 query 구문을 쓰고, params 옵션에 query 구문에서 데이터로 받을 부분을 쓰는데, 이때 paramas 옵션을 명시하지 않아도 위치상 두 번째면 paramas 값으로 받는다.
## CONSTRAINT
- 자동 생성된 CONSTRAINT 를 확인
    - `show create table tablename;`
### PPRIMARY KEY
- 테이블의 각 레코드를 식별
- 중복되지 않은 고유값을 포함
- NULL 값을 포함할 수 없음
- 테이블 당 하나의 기본키를 가짐
- 생성
    - 기존 테이블을 수정
        - `ALTER TABLE tablename ADD PRIMARY KEY (col1, col2);`
    - 새로운 테이블에 생성
CREATE TABLE tablename
(
    col1 datatype NOT NULL,
    col2 datatype NOT NULL,
    ...
    CONSTRAINT constaint_name # 생략가능, 자동 생성됨
        PRIMARY KEY (co1, col2, ...)
);
- 삭제
    - `ALTER TABLE tablename DROP PRIMARY KEY;`
### FOREIGN KEY
- 한 테이블을 다른 테이블과 연결해주는 역할이며 참조되는 테이블의 항목은 그 테이블의 기본키(혹은 단일값)
- 생성
    - 기존 테이블 수정
        - `ALTER TABLE tablename ADD FOREIGN KEY (col) REFERENCES REF_tablename(REF_col);`
    - 새로운 테이블에 생성
CREATE TABLE tablename
(
    col1 datatype NOT NULL,
    col2 datatype NOT NULL,
    col3 datatype,
    col4 datatype,
    ...
    CONSTRAINT constraint_name
     PRIMARY KEY (col1, col2, ...),
    CONSTRAINT constraint_name # 생략 가능
     FOREIGN KEY (col3, col4, ...) REFERENCES REF_tablename(REF_col)
);
```

삭제
ALTER TABLE tablename DROP FOREIGN KEY FK_constraint;AGGREGATE Functions



여러 칼럼 혹은 테이블 전체 칼럼으로부터 하나의 결과값을 반환하는 함수
COUNT
총 갯수를 계산해주는 함수
SELECT COUNT(col) FROM tablename WHERE condition;


SUM
합계를 계산해주는 함수
SELECT SUM(col) FROM tablename WHERE condition;


AVG
평균을 계산해주는 함수
SELECT AVG(col) FROM tablename WHERE condition;


MIN
가장 작은 값을 찾아주는 함수
SELECT MIN(col) FROM tablename WHERE condition;


MAX
가장 큰 값을 찾아주는 함수
SELECT MAX(col) FROM tablename WHERE


FIRST
첫 번째 결과값을 리턴하는 함수


LAST
마지막 결과값을 리턴하는 함조건
GROUP BY



그룹화하여 데이터를 조회
SELECT col1, col2, ... FROM tablename WHERE condition GROUP BY col1, col2, ... ORDER BY col1, col2, ...
distinct는 비슷한 효과를 내지만 ORDER BY를 사용할 수 없다HAVING

조건에 집계함수가 포함되는 경우 WHERE 대신 사용함
SELECT col1, col2, ... FROM tablenumber WHERE condition GROUP BY col1, col2, ... HAVING condition (Aggregate Functions) ORDER BY col1, col2, ...SCALAR Functions
입력값을 기준으로 단일 값을 반환하는 함수
UCASE
영문을 대문자로 변환하는 함수
SELECT UCASE(string);




LCASE
영문을 소문자로 변환하는 함수
SELECT LCASE(string);


MID
문자열 부분을 반환하는 함수
SELECT MID(string, start_position, length);
string
원본 문자열


start
문자열 반환 시작 위치
첫 글자, 1
마지막 글자, -1


length
반환할 문자열 길이






LENGTH
문자열의 길이를 반환하는 함수
SELECT LENGTH(string);
문자열 없음
0


공백
1


NULL
NULL




ROUND
지정한 자리에서 숫자를 반올림하는 함수(0이 소수점 첫째 자리)
SELECT ROUND(number, deciamls_place)
number
반올림할 대상


decimals
반올림할 소수점 위치(option)
0
첫 번째 소수점 위치


-1
일단위 위치








NOW
현재 날짜 및 시간을 반환하는 함수
SELECT NOW();


FORMAT
숫자를 천단위 콤마가 있는 형식(문자열)으로 반환하는 함수
SELECT FORMAT(number, decimal_place);
number
포맷을 적용할 문자 혹은 숫자


decimals
표시할 소수점 위치
잘리면 자동으로 반올림하고
원래보다 더 있으면 0으로 채운다
0
소수점 표시 XSQL Subquery









하나의 SQL문 안에 포함되어 있는 또 다른 SQL문
메인쿼리가 서브쿼리를 포함하는 종속적인 관계
서브쿼리는 메인쿼리의 칼럼 사용 가능
메인쿼리는 서브쿼리의 칼럼 사용 불가
서브쿼리는 괄호로 묶어서 사용
단일 행 혹은 복수 행 비교 연산자와 함께 사용 가능
서브쿼리에서는 order by 사용불가


Scalar Subquery
SELECT 절에서 사용된다
결과는 하나의 칼럼이어야 한다
SELECT col1, (SELECT col2 FROM table2 WHERE condition) FROM table1 WHERE condition;


Inline view
FROM 절에서 사용되며, 메인쿼리에서는 인라인 뷰에서 조회한 칼럼만 사용 가능
내가 필요한 값들을 모아둔 결과를 inline view로 활용하는 것
SELECT a.col, b.col FROM tableA a, (SELECT col1, col2 from tableB) b WHERE condition;


Nested Subquery
WHERE 절에서 사용
Single Row
하나의 행을 검색하는 서브쿼리
서브쿼리가 비교연산자와 사용되는 경우, 검색결과는 한 개의 결과값을 가져야 한다
SELECT col1 FROM tableA WHERE col1 = (SELECT col2 FROM tableB WHERE condition) ORDER BY col1;


Multiple Row
하나 이상의 행을 검색하는 서브쿼리
IN
서브쿼리 결과 중에 포함될 때
SELECT col1 FROM tableA WHERE col IN (SELECT col2 FROM tableB WHERE condition) ORDER BY col1;
JOIN을 써도 괜찮고, 효율도 JOIN이 더 좋음


EXISTS
서브쿼리 결과에 값이 있으면 반환
SELECT col1 FROM tableA WHERE EXISTS (SELECT col2 FROM tableB WHERE condition) ORDER BY col1;


ANY
서브쿼리 결과 중에 최소한 하나라도 만족하면(비교연산자 사용)
SELECT col1 FROM tableA WHERE col1 = ANY (SELECT col2 FROM tableB WHERE condition) ORDER BY col1


ALL
서브쿼리 결과를 모두 만족하면(비교연산자 사용)
SELECT col1 FROM tableA WHERE col1 = ALL (SELECT col2 FROM tableB WHERE condition) ORDER BY col1




Multiple Column
하나 이상의 열을 검색하는 서브쿼리
서브쿼리 내에 메인쿼리 칼럼이 같이 사용되는 경우
SELECT col1 FROM tableA a WHERE (a.col1, a.col2, ...) IN (SELECT b.col1, b.col2, ... FROM tableB b WHERE a.col1 = b.col2) ORDER BY col1;





느낀점
SQL 코딩 테스트 연습은 많이 했지만, 직접 DB를 만들고 table을 만들어 내용을 정리하고, 합하고, 그것을 또 AWS에 올리는 것은 처음 해봤다. 처음에는 따라하는것이 벅차서 내용을 이해 못하다가, sql 백업 파일에서 오류가 나면서 갑자기 많은 것이 이해되었다.
잘 안되어야 머리를 굴리는 이유는 무엇일까. 그래도 지금까지 한 공부 중에 가장 재미있다. 직관적이고, 실습 과정이 안전하다고 느껴진다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



007. 데이터 취업 스쿨 스터디 노트_7주차_EDA, 웹크롤링, 파이썬 프로그래밍_2
Sat, 25 May 2024 04:09:21 GMT
7주차
수강한 분량
EDA, 웹크롤링, 파이썬 프로그래밍의 일부분인 웹데이터, 유가분석을 정리했다.
각 강의별 학습한 핵심 내용 정리
웹 데이터 분석
cd DS_study/ds_study/WebData
conda activate ds_study
code .
ctrl + shfit + P
Beautiful Soup

tag로 이루어진 문서를 해석하는 python 라이브러리
from ba4 import BeautifulSoup
open()
파일명과 함께 읽기(r) / 쓰기(w) 속성 지정
page = open("파일주소.html", 'r').read()


html.parser
Beutiful Soup의 html을 읽는 엔진 중 하나
soup = BeautifulSoup(page, "html.parser')
들여쓰기가 잘 안되어있고, 읽기 불편함




prettify()
html 출력, 들여쓰기를 이쁘게 만들어 주는 기능
print(soup.prettify())html 기초






test_first.html 파일 활용하여 실습 진행


html 언어
브라우저를 통해 예쁜 화면을 제공함
tag로 이루어져 있음
html
웹 페이지를 표현


head
눈에 보이지 않지만 문서에 필요한 헤더 정보 보관


body
눈에 보이는 정보를 보관
div

p
문단


class
구분 속성


id
구분 속성


a

href
주소창


target
_blink
새창




b
굵게


i
기울여서








특정 태그가 보고 싶을 때
soup.body
soup['body']
soup.find('p')
1개만 찾아줌


soup.find_all('p')
지정된 태그 모두를 찾아 리스트 형태로 반환


조건을 좁히는 방법으로 class, id를 태그와 함께 추가할 수 있다
soup.find_all(class_='클래스명')
soup.find_all({'class' : '클래스명'})
특정 클래스를 찾는 방법


soup.find_all(id_='아이디명')
특정 id로 찾는 방법




담아져 있는 내용 출력
soup.find('p').text
출력문자가 나옴
공백을 지우기 위해 끝에 .strip()을 붙이면 됨


soup.find('p').string
soup.find_all('p').get_test()
p로 쌓여있는 실제 출력 글자 가져오는 함수


soup.find_all('a')[0].get('href')
a태그의 첫 번째 요소의 주소값을 가져오기






a 태그
링크
출력글자
soup.find_all('a').['href'].string
a 태그의 href 속성의 글자를 가져오는 방법
출력 글자가 나옴크롬 개발자 도구







웹데이터 검출하고 싶은데 html을 잘 모를 때 활용하는 도구
크롬 설정 > 도구 더보기 > 개발자 도구
필요 데이터 부분 선택하면, 어느 부분인지 태그가 보임
를 beautifulsoup으로 해석하기

ulropen('url주소').status
응답 상황을 알 수 있다, http 상태코드 반환
200
정상






프롬프트에서 특정 라이브러리 잘 인스톨되었는지 확인
pip list | findstr 라이브러리명


requests 라이브러리 깔았는데 임포트되지 않아 오류 내용을 보니 chardet이 없다고 해서 깔고 마저 하니 되었다. 
requests 라이브러리와 urllib.requests.Request는 비슷한 역할을 한다
requests.get()
requests.post()


무언가를 찾는 함수
find 와 비슷한 것 select one
find_all 와 비슷한 것 select
select, select one 의 문법
~~.select("#아이디명 > li")
class면 . 을 활용
id 면 # 을 활용
만약 띄어쓰기가 존재하면 속성이 여러 개, .으로 이어주기
상, 하위 이동이 간결함위키백과 문서 정보 가져오기





한글로만 이루어진 페이지, 여명의 눈동자 위키백과 웹페이지 활용
한글로 되어있는 웹페이지 주소는 옮길 경우 문자의 나열이 바뀐다.import urllib
from urllib.request import urlopen, Request


html = 'http://ko.wikipedia.org/wiki/{search_words}'
req = Request(html.format(search_words = urllib.parse.quote('여명의_눈동자'))) # 글자를 URL로 인코딩
response = urlopen(req)
soup = BeautifulSoup(response, 'html.parser')
soup.find_all('ul')[15],text.strip().replace('\xa0', '').replace('\n', '')
바꾸고 싶은 문자를 찾아 replace함수에 넣고
찾고 싶은 부분의 순서를 찾아 15 자리에 넣는다.
#### list 데이터형
- 리스트 변수를 선언할 때 생긴 메모리를 가리키는 주소가 복사됨
- 반복문, 조건문에 적용하는 것이 편함
- 리스트 내부에 리스트를 가질 수 있다
- `isinstance(변수명, list)`
    - 자료형이 list인지 확인 가능
### 시카고 맛집 분석
#### 시카고 맛집 메인페이지 분석
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
메인페이지와 서브페이지 분석을 따로 해야할 수 있기 때문에 주소를 두 개로 분리
url_base = 'https://www.chicagomag.com'
url_sub = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'
url = url_base + url_sub
http 403은 서버에서 유저가 문제가 있다고 하는 것

req = Request(url, headers = {'User-Agent': 'Chrome'})
html = urlopen(req).read()
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()
soup.find_all('div', class = 'sammy'), len(soup.find_all('div', class = 'sammy')) # 갯수확인
select로도 가능
soup.select(".sammy"), len(soup.select(".sammy"))
전체 코드 긁어오기 위한 샘플 코드 테스트 중...
tmp_one = soup.find_all('div', 'sammy')[0]
type(tmp_one)
위 값이 bs4.element.Tag 이면 bs4 요소이므로 bs4 함수를 적용할 수 있다
tmp_one.find(class_ = 'sammyRank').get_text()
tmp_one.find('div', {'class' : 'sammyRank'}).get_text()
tmp_one.select_one('.sammylisiting').text()
tmp_one.find("a")['href']
tmp_one.select_one("a").get('href')
- 크롬 개발자 도구 내 network 탭을 살펴보면 요청과 그에 상응하는 응답이 기록된다
    - Request Headers 토글을 열어보면 user-agent 정보가 있다. 그곳에 나온 정보를 활용하는게 정석이나, 간략하게 Chrome 정도로 사용해도 좋다.
    - req.status 를 보면 200은 응답을 제대로 받았다, 403번은 별로인 상태
- fake-useragent 라이브러리 
    - from fake_useragent import UserAgent
    - UserAgent().ie
        - user-agent에 들어갈 값을 랜덤으로 만들어준다
- type(찾은 요소) = bs4.element.Tag 이면, find 명령을 또 활용할 수 있다는 의미
- 연결되는 홈페이지 주소가 상대경로이기 때문에, 주소를 상위 페이지와 하위 페이지로 구분해 분석하는 것이 용이하다
- re 모듈
import re
\n 혹은 \r\n이 보이면 분리해라
re.split(()'\n|\r\n'), 문자열)
from urllib.parse import urljoin
url_base = 'https://www.chicagomag.com'
rank = []
main_menu = []
cafe_name []
url_add = []
list_soup = soup.find_all('div', 'sammy')
for item in list_soup:
    rank.append(item.find(class_= 'sammyRank').get_text())
    tmp_string = item.find(class_= 'sammyListing').get_text()
    main_menu.append(re.split(('\n|\r\n'), tmp_string)[0])
    cafe_menu.append(re.split(('\n|\r\n'), tmp_string)[1])
    url_add.append(urljoin(url_base, item.find('a')['href']))
    # 두 번째 인자(주소)가 절대 주소라면 그냥 사용하고, 상대 주소라면 첫 번째 인자(주소)를 붙여서 사용하라
확인용
len(rank), len(main_manu), len(cafe_name), len(url_add)
rank[:5], ...
데이터 정리
data = {
    "Rank": rank,
    "Menu": main_menu,
    "Cafe": cafe_name,
    "URL": url_add
}
df = pd.DataFrame(data)
df = pd.Dataframe(data, columns = ['Rank', 'Cafe', 'Menu', 'URL])
df.to_csv("주소/이름.csv", sep = ",", encoding = 'utf-8')
#### 시카고 맛집 하위 페이지 분석
-  Regular Expession_기초
    - .x
        - 임의의 한 문자를 표현
    - x+
        - x가 1번 이상 반복
    - x?
        - x가 존재하거나 존재하지 않는다
    - x*
        - x가 0번 이상 반복
    - x|y
        - x또는 y를 찾는다
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
df = pd.read_csv('주소/이.csv', index_col = 0)
df['URL'][0]
req = Request(df["URL"][0], headers = {'User-Agent': 'Chrome'})
html = urlopen(req).read()
soup_tmp = BeautifulSoup(html, 'html.parser')
print(soup_tmp.find('p', 'addy'))
가격과 주소가 하나의 태그에 들어있다...!
price_tmp = soup_tmp.find('p', 'addy').get_text()
price_tmp = re.split(".,", price_tmp)[0]
끝에 .group()을 해주어야 값만 나온다
tmp = re.search("$\d+.(\d+)?", price_tmp).group()
$가 반드시 있어야 하고, 숫자가 여러 개 있을 수 있고, .이 반드시 와야 하고, (숫자 여러개)의 것이 있을 수도 있고, 없을 수도 있다.
가격과 띄어쓰기 포함한 것의 길이 다음은 주소가 나타남
price_tmp[len(tmp) + 2:]
price = []
address = []
코드 작동 유무 확인 위해 세 번만 돌리기
for n in df.index[:3]:
    # html = urlopen(df['URL'][n])
req = request(df['URL'][n], headers = {"User-Agent": "Mozilla/5.0"})
html = urlopen(req).read()

soup_tmp = BeautifulSoup(html, 'lxml')

gettings = soup_tml.find('p', 'addy').get_text()

price_tmp = re.split('.,', gettings)[0]
tmp = re.search("\$\d+\.(\d+)?", price_tmp).group()

price.append(tmp)
address.append(price_tmp[len(tmp) + 2 :])

print(n)
- python스러운 문법
    - list를 고대로 사용하기
        - 여러 컬럼을 for문 안에서 사용하기 어려움
    - iterrows() 함수를 활용
for idx, row in df.iterrows():
    print(row['URL'])

- TQDM
    - 라이브러리
    - 코드 실행 중에 프로그래스 바가 보여짐
    - 오류 없이 제대로 모두 적용되었는지 확인하는데 활용하는 것
from tqdm import tqdm
price = []
address = []
코드 작동 유무 확인 위해 세 번만 돌리기
for idx, row in tqdm(df.index[:3].iterrows()):
    # html = urlopen(df['URL'][n])
req = request(row['URL'], headers = {"User-Agent": "Mozilla/5.0"})
html = urlopen(req).read()
# 홈페이지 수정중에 html parser로 불가능할 수 있음
# conda 환경 사용 중에 lxml 환경이 없는 경우가 있다. 깔아주면 됨
soup_tmp = BeautifulSoup(html, 'lxml')

gettings = soup_tml.find('p', 'addy').get_text()

price_tmp = re.split('.,', gettings)[0]
tmp = re.search("\$\d+\.(\d+)?", price_tmp).group()

price.append(tmp)
address.append(price_tmp[len(tmp) + 2 :])

print(n)
df['Price'] = price
df['Address'] = address
price, address를 위해 link 데이터가 필요했던 것이므로 최종적으로는 삭제
df = df.loc[:, ['Rank', 'Cafe', 'Menu', 'Price', 'Address']]
df.set_index('Rank', inplace = True)
df.to_csv('', sep = ',', encoding = 'utf-8')
pd.read_csv('', index_col = 0)
#### 시카고 맛집 데이터 지도 시각화
import folium
import pandas as pd
import googlemaps
import numpy as np
from tqdm import tqdm
주소 체크
df_ pd.read_csv('', index_col = 0)
gmaps_key = "geocoding api key geocoding api key"
gmaps = googlemaps.Client(key = gmaps_key)
lat = []
lng = []
for idx, row in tqdm(df.iterrows()):
    if not row["Address"] == "Multiple location":
        target_name = row["Address"] + ", " + "Chicago"
        gmaps_output = gmaps.geocode(target_name)
        location_output = gmaps_output[0].get('geometry')
        lat.append(location_output["location"]["lat"])
        lng.append(location_output["location"]["lng"])
else:
    lat.append(np.nan)
    lng.append(np.nan)
df["lat"] = lat
df["lng"] = lng
df.head()
mapping = folium.Map(location = [41.8781136, -87.6297982], zoom_start = 11)
mapping
for idx, row in df.iterrows():
    if not row["Address"] == "Multiple location":
        folium.Marker([row["lat"],
        row["lng"]],
        popup = row["Cafe"],
        tooltip = row["Menu"],
        icon = folium.Icon(
            Icon = "coffee",
            prefix = "fa"
            )
        ).add_to(mapping)
mapping

## 유가 분석
### selenium
#### 설치
- **최근 버전의 셀레니움은 크롬드라이버를 다운로드 받으실 필요가 없게 바뀌었습니다! 크롬드라이버는 받지 마시고, 코드 작성시driver = webdriver.Chrome()**
- Beautiful Soup으로만 해결할 수 없는 것
    - 접근할 웹 주소를 알 수 없을 때
    - 자바스크립트를 사용하는 웹페이지
    - 웹 브라우저로 접근하지 않으면 안될 때
- 웹 브라우저를 원격 조작하는 도구
- 자동으로 URL을 열고 클릭 등이 가능
- 스크롤, 문자의 입력, 화면 캡처 등
- Python 모듈 설치, 크롬드라이버 설치
from selenium import webdriver
더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()
적은 주소의 새 창 키기
driver.get("https://www.naver.com")
꺼짐
driver.quit()
#### 기초
from selenium import webdriver
from selenium import By
더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()
적은 주소의 새 창 키기
driver.get("https://www.pinkwink.kr/")
스크롤 가능한 높이 가져오기
last_height = driver.execute_script("return document.body.scrollHeight")
last_height
화면 스크롤 하단 이동
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);"))
Xpath 카피해온 곳 까지 스크롤
from selenium.webdriver import ActionChains
some_tag = driver.find_element(By.XPATH, '//*[@id="paging"]/ul')
action = ActionChains(driver)
action.move_to_element(some_tag).perform()
id로 찾아 입력 창에 글자 넣기
some_tag = driver.find_element(By.ID, 'gsc-i-idl')
some_tag.send_keys('data science')
버튼 클릭하는 코드 실행
xpath = '''//*[@id="___gcse_0"]/div/form/table/tbody/tr/td2/buttion'''
some_tag = driiver.find_element(By.XPATH, xpath).clink()
현재 화면 html 코드가져오기
from bs4 import BeutifulSoup
req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')
result = soup.find_all('div', 'gsc-webResult gsc-result')
result[0]
##### 기본 동작
- `get()` 함수
    - 접근하고 싶은 주소 지정
- `execute_script('')`
    -  자바스크립트 코드를 실행
- 화면 페이지를 지정히는 지점의 xpath를 찾기
    - Copy > Copy Xpath
- 보이는 화면에 내가 원하는 데이터가 있어야 에러가 안남
    - 한 화면에 많은 정보가 담겨있는 것이 좋음
- 화면 최대 크기 설정
    - `driver.maximize_window()`
- 화면 최소 크기 설정
    - `driver.minimize_window()`
- 화면 크기 설정
    - `driver.set_window_size(600, 600)`
- 새로 고침
    - `driver.refresh()`
- 뒤로가기
    - `driver.back()`
- 앞으로가기
    - `driver.forward()`
- 요소 찾기
    - `from selenium.webdriver.common.by import By`
    - `driver.find_element(by=BY.NAME, value="태그값")`
- 클릭
    - `driver.find_element(BY.CSS_SELECTOR, 'css값 복사해오기')`
- CSS
    - `#`
        - id
    - `>`
        - 하위
    - `.~~~`
        - class 이름
    - `(n)`
        - n번째 요소
- 새로운 탭 생성
    - `driver.execute_script('window.open("주소")')`
        - 공란이면 `about:blank` 창이 뜸
- 탭 이동
    - `driver.switch_to.window(driver.window_handles[1])`
    - n번째 창으로 이동
- 탭 닫기
    - `driver.close()`
        - 드라이버가 가리키고 있는 것이 이미 닫혀있을 경우 에러
- 전체 종료
    - `driver.quit()`
##### 화면 스크롤 & 검색어 입력
- 스크롤 가능한 높이(길이)
    - `driver.execte_script('return document.body.scrollHeight')`
- 화면 스크롤 하단 이동
    - `driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')`
- 현재 보이는 화면 스크린샷 저장
    - `driver.save_screenshot('./파일이름.확장자')`
        - `./`
            - 현재 위치
        - 저장위치/파일이름.확장자
- 화면 스크롤 상단 이동
    - `driver.execute_script('window.scrollTo(0, 0);')`
- 특정 태그 지점까지 스크롤 이동
from selenium.webdriver import ActionChains
some_tag = driver.find_element(By.CSS_SELEECTOR, '태그 이름')
action = ActionChans(driver)
action.move_to_element(some_tag).perform()
##### 검색어 입력(1)
- XPATH
    - `//`
        - 최상위
    - `*`
        - 자손 태그
        - 내 아래에 있는 모든 자손
    - `/`
        - 자식 태그
        - 내 바로 아래 있는 자식
    - `div[n]`
        - div 태그 중에서 n번째 태그
    - Xpath를 감싸는 것은 작은 따옴표로 하는 것이 내부의 큰 따옴표와 겹치지 않아 에러 방지에 좋다
from selenium import webdriver
from selenium.webdriver.common.by import By
더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()
적은 주소의 새 창 키기
driver.get("https://www.naver.com/")
css_selector
검색어 입력
keyword = driver.find_element(By.CSS_SELECTOR, '#query')
keyword.send_keys('파이썬')
버튼 클릭
search_btn = driver.find_element(by.CSS_SELECTOR, '#search_btn')
search_btn.click()
검색어 지우기
keyword = driver.find_element(By.CSS_SELECTOR, '#query')
keyword.clear()
keyword.send_keys('딥러닝')
XPATH
검색어 입력
keyword = driver.find_element(By.XPATH, '//*[@id="query"]')
keyword.send_keys('파이썬')
버튼 클릭
search_btn = driver.find_element(by.XPATH, '//*[@id="search_btn"]')
search_btn.click()
검색어 지우기
keyword = driver.find_element(By.XPATH, '//*[@id="query"]')
keyword.clear()
keyword.send_keys('딥러닝')
##### 검색어 입력(2)
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.chrome()
driver.get('http://pinkwink.kr')
돋보기 버튼 선택
driver.find_element(BY.CSS_SELECTOR, '#header > div.search').click()
처음부터 선택이 잘 안되고, 직접 눌러야 search on이라는 이름으로 바뀜
아래의 내용으로 진행
from selenium.webdriver import ActionChains
search_tag = driver.find_element(By.CSS_SELECTOR, '.search')
action = ActionChains(driver)
action.click(search_tag)
action.perform()
검색어 입력
driver.find_element(BY.CSS_SELECTOR, '#header > div.search > input[type=text]').send_keys('딥러닝')
검색 버튼 클릭
driver.find_element(BY.CSS_SELECTOR, '#header > div.search.on > button').click()
##### Selenium과 BeautifulSoup 함께 사용하기
현재 화면 html 코드 가져오기
driver.page_source
from bs4 import Beautifulopti
req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')
soup.select('.post-item')
contents = soup.select('.post-item')
len(contents)
### 주유소 가격
#### 데이터 얻어오기
- 대한민국 주유 가격을 알아보는 사이트: https://www.opinet.co.kr/user/main/mainView.dos
    - 싼 주유소 찾기 > 지역별
        - https://www.opinet.co.kr/searRgSelect.do
        - 사이트 구조 확인하기
            - 지역 정보를 선택
                - 웹페이지 주소도 안 바뀌고, HTML 소스에서 원하는 정보를 얻기도 쉽지 않다
            - 검색한 내용의 하단에 엑셀 저장이 바로 존재함
        - 목표 데이터
            - 브랜드
            - 가격
            - 셀프 주요 여부
            - 위치

- 문제 발생
    1. 해당 URL로 한 번에 접근이 안 됨
    2. 메인 페이지로 접속이 되고, 팝업창이 하나 나옴
    3. 창 전환 시 에러가 남
        - time.sleep(n) 으로 n초가 쉬어가면 selenium이 잘 따라감
from selenium impor webdriver
url = 'http://www.opinet.co.kr/searRgSlect.do'
driver = webdriver.Chrome()
driver.get(url)
time.sleep(3)
팝업창 뜸
팝업창으로 전환 후 닫아줌
driver.switch_to_window(driver.window_handles[-1])
driver.close()
time.sleep(3)
메인 화면 창으로 전환
driver.switch_to_window(driver.window_handles[-1])
driver.get(url)
새로 정리하기
import time
def main_get():
from selenium impor webdriver
페이지 접근
url = 'http://www.opinet.co.kr/searRgSlect.do'
driver = webdriver.Chrome()
driver.get(url)
time.sleep(3)
팝업창으로 전환
driver.switch_to_window(driver.window_handles[-1])
팝업창 닫기
driver.close()
time.sleep(3)
메인 화면 창으로 전환
driver.switch_to_window(driver.window_handles[-1])
접근 URL 다시 요청
driver.get(url)
main_get()
- 시도, 구 정보 가져오기
지역: 시/도
sido_list_raw = driver.find_element(BY.ID, 'SIDO_MNO')
sido_list_raw
sido_list = sido_list_raw.find_elements(BY.TAG_NAME, 'option')
sido_list
sido_names = [option.get_attribute('value') for option in sido_list]
sido_names.remove("")
sido_names
sido_list_raw.send_keys(sido_names[1])
gu_list_raw = driver.find_element(BY.ID, 'SIGUNGU_NM0')
gu_list = gu_list_raw.find_elements(BY.TAG_NAME, 'option')
gu_names = [opion.get_attribute('value') for option in gu_list]
gu_names.remove("")
gu_names
element_get_excel = driver.find_element(BY.ID, 'glopopd_excel').click()
import time
from tqdom import tqdm_notebook
for gu in tqdm_notebook(gu_names):
    element = driver.find_element(BY.ID , 'SIGUNGU_NM0')
    element.send_keys(gu)
    time.sleep(2)
element_get_excel = driver.find_element(BY.ID, 'glopopd_excel').click()
time.sleep(1)
driver.close()
#### 주유소 가격 정보 정리하기
- 파일 목록을 한 번에 가져오기
    - glob 라이브러리를 활용
- DF 형식이 동일하고 연달아 붙이기만 하면 될 때
    - pd.concat()
- 
import pandas as pd
from glob import glob
stations_files = glob("../data/지역_*.xls)
stations_files
tmp_raw = []
for file_name in stations_files:
    tmp = pd.read_excel(file_name, hedaer = 2)
    tmp_raw.append(tmp)
station_raw = pd.concat(tmp_raw)
station_raw.info()
station_raw.head()
stations = pd.DataFrame(
    {
        "상호": station_raw["상호"],
        "주소": station_raw["주소"],
        "가격": station_raw["휘발유"],
        "셀프": station_raw["셀프여부"],
        "상표": station_raw["상표"],
    }
)
stations['구'] = [eachAddress.split()[1] for eachAddress in stations['주소']]
len(stations['구'].unique())
stations[stations['구'] == '서울특별시', '구'] = '성동구'
stations[stations['구'] == '특별시', '구'] = '도봉구'
len(stations['구'].unique())
stations['가격'] = stations['가격'].astype('float')
가격이 없어서 -로 표시된 부분 버리기
stations = stations[stations['가격'] != '-']
stations['가격'] = stations['가격'].astype('float')
stations.reset_index(inplace = True)
del stations['index']
stations.head()
#### 주유가격 시각화
- Box Plot
    - Median 중심으로 아래 위 상자가 각각 전체 데이터의 25%씩 총 50%를 가짐
    - 상자 전체 길이, IQR(Inter Quatile Range)
    - IQR의 1.5배를 벗어나면 점으로 별도 표기, outlier
    - 가운데 십자 표시, Mean
import matplotlib.pyplot as plt
import seaborn as sns
pandas의 boxplot
stations.boxplot(column = '가격', by = '셀프', figsize = (12, 8));
seaborn의 boxplot
plt.figure(figsize = (12, 8))
sns.boxplot(x = '셀프', y = '가격', data = stations, palette = 'Set3')
plt.grid()
plt.show()
plt.figure(figsize = (12, 8))
sns.boxplot(x = '상표', y = '가격', hue = '셀프', data = stations, palette = 'Set3')
plt.grid()
plt.show()
지도 시각화
import json
immport folium
import warnings
Warnings.simplefilter(acction = 'ignore', category = futrueWarning)
stations.sort_values(by = '가격', asceding = False).head(10)
stations.sort_values(by = '가격', asceding = True).head(10)
import numpy as np
gu_data = pd.pivot_table(stations, index = ['구'], values = ['가격'], aggfunc = np.mean)
gu_data.head()
geo_path = '../data/02. skorea_municipalities_geo_simple.json'
geo_str = json.load(open(geo_path, encoding = 'utf-8'))
my_map = folium.Map(location = [37.5502, 126.982],
    zom_start = 10.5,
    tiles = 'Stamen Toner')
my_map.choropleth(
    geo_data = geo_str,
    data = gu_data,
    columns = [gu_data.index, '가격'],
    fill_color = 'PuRd',
    key_on = 'feature.id'
)
my_map
```
느낀점
사용하던 노트북에 문제가 있어서 새 노트북을 사는데 시간이 좀 걸렸다. 나는 빨리 구매했지만, 그 분이 삼 주에 걸쳐서 우리 집으로 오심.. 그 과정에서 마음이 지치고, 와중에 웹데이터를 이용하는 내용도 어렵고. 언제나 생각하지만 교육 자체보다는 외적인 것에 더 흔들릴 수 있음을 잊지말아야겠다. 교육은 쉬지 않고 진행되는데, 내가 이걸 끝까지 해내는 것이 목표라면 내가 좀 잘 못하는 순간도 괜찮다 생각하고 넘길 줄 알아야겠다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



006. 데이터 취업 스쿨 스터디 노트_6주차_EDA, 웹크롤링, 파이썬 프로그래밍_1
Mon, 13 May 2024 12:58:58 GMT
6주차
수강한 분량
EDA, 웹크롤링, 파이썬 프로그래밍의 일부분인 OT, 서울시 CCTV 현황 데이터 분석, 서울시 범죄 현황 데이터 분석
각 강의별 학습한 핵심 내용 정리
EDA / 웹크롤링 / 파이썬 프로그래밍
OT
프로젝트 위주로 진행하여, 잦은 변화 속 중요한 흐름을 이해하고 다양한 경험을 하는 것을 목표로 한다
minoconda 설치

win

anaconda Prompt


mac

homebrew 설치 필요
M1
miniforge설치conda 가상환경





버전 확인

conda --version


업데이트하기

conda update conda


conda 가상환경 생성

conda create -n ds_study python=3.8


conda 가상환경 활성화

conda activate ds_study


conda 가상환경 비활성화

conda deactivate


conda 가상환경 목록

conda env list


conda 가상환경 삭제

conda env remove -n ds_study


jupyter notebook 설치

conda install jupyter


package 설치

conda install ipython
conda install matplotlib
conda install seaborn
conda install pandas
conda install scikit-learn
conda install xlrd


jupyter notebook 실행

jupyter notebook~~


matplotlib 한글 설정(일단매번 설정해둠)
import matplotlib.pyplot as plt
from matplotlib import rc
%matplotlib inline
rc('font', family = 'Malgun Gothic')


from matplotlib import font_manager
f_path = 'C:\Windows\Fonts\malgun.ttf'
font_manager.FontProperties(fname-f_path).get_name()
### vscode 환경설정
- ctrl + shift + p
- select interpreter
- python: select interpreter
- ds_study 있는것 선택

## 서울시 CCTV 현황 데이터 분석
### 목표
1. 서울시 구별 CCTV 현황 데이터 확보
2. 인구 현황 데이터 확보
3. CCTV 데이터와 인구 현황 데이터 합치기
4. 데이터 정리, 정렬
5. 그래프 그리기
6. 전체 경향 파악하는 능력
7. 경향에서 벗어난 데이터 강조하는 능력
1~4: python, pandas
5: matplotlib
6: regression using numpy
7: insight, visualization
### 엑셀, 텍스트 파일 읽기
- `data = pd.read_csv("파일주소/파일명.확장자", encoding = 'utf-8')`
    - 인코딩값은 변하기도 함
- `data.head()`
    - 정렬된 값 중 상위 5개를 보는 것
    - ()안에 숫자를 넣으면 그만큼 볼 수 있음
- `data.tail()`
    - 정렬된 값 중 하위 5개를 보는 것
    - ()안에 숫자를 넣으면 그만큼 볼 수 있음
- `data.columns`
    - 컬럼 이름 조회
- `data.rename(columns = {"원래이름" : "바꿀이름" }, inplace = True)`
    - 원래이름 자리에 data.columns\[n\]으로 표시하는 것이 편하기도 하다
    - inplace = True 옵션
        - 원본 데이터를 이번 버전으로 교체하는 여부
        - True / False
- `data = pd.read_excel("파일주소/파일명.확장자")`
    - 엑셀 파일을 여는 함수
- `data = pd.read_excel("파일주소/파일명.확장자", header = n, usecols = "Alphabets")`
    - 헤더에 병합셀이 있을 수 있으므로 헤더를 지정해주는 것이 좋다
    - header 옵션
        - 자료를 읽기 시작할 행
    - usercols 옵션
        - Alphabets는 읽어올 엑셀의 지정 컬럼
### python 모듈 규칙
- `import MODULE`
    - module을 사용하겠다
    - MODULE.function
- `import MODULE as md`
    - module을 사용할 건데 md라고 부르겠다
    - md.function
- `from MODULE import function`
    - module에 포함된 function 함수만 사용하겠다
    - function
### pandas 이용하기
#### **Series**
- pandas의 데이터형의 기본 구성
- index, value로 이루어져 있다.
    - DF의 컬럼 한 줄 한 줄은 Series로, 이것들이 모여 DF가 된다.
- 한 가지 데이터 타입만 가질 수 있다.
    - 입력 데이터타입이 단일하지 않을 때 전체를 문자열, 실수형 데이터로 인식하게 됨
#### `date_range("시작날짜", periods = n)`
- 시작날짜부터 n일까지의 날짜 목록을 만드는 함수
- 시작날짜 양식은 
    - 예시: 20240429
- 데이터 타입
    - datetime64
#### **DataFrame**
- DataFrame 선언 방법
    - `pd.DataFrame(값, index = 값, columns = [값])`
        - index와 columns를 지정해야한다
    - `pd.DataFrame({"Key": ["K0", "K1"], "A": ["A0", "A1"]})`
        - 열 단위로 지정
    - `pd.DataFrame({"Key": "K0", "A": "A0"}, {"Key": "K1", "A": "A1"})`
        - 행 단위로 지정
- 각 값만 보고 싶을 때
    - `df.index`
    - `df.columns`
    - `df.values`
- `df.info()`
    - df 기본 정보 확인
    - 각 컬럼 크기와 데이터 형태 확인하는 용도
- `df.describe()`
    - df의 통계적 기본 정보 확인용
- `df.sort_values(by = "컬럼명", ascending = False)`
    -  by 옵션 
        - 컬럼명 기준으로 정렬
    - ascending 옵션
        - True일 경우 오름차순
- `df["컬럼명"]`
    - 특정 컬럼만 읽기
    - 컬럼명이 문자열인 경우 `df.컬럼명` 으로도 가능하다
- `df[인덱스 범위1:인덱스 범위2]`
    - 인덱스 범위에 있는 데이터 확인
    - 인덱스 범위를 숫자로 지정할 경우 인덱스 범위2에서 1개 뺀 값
    - 인덱스 범위를 이름으로 지정할 경우 끝까지 포함
- `df.loc[행, 열]`
    - `:` 표현
        - 전체 선택
    - `[, ]` 표현
        - 일부 선택
- `df.iloc[행, 열]`
    - 열 생략시 행만 선택
    - `:` 구분자를 이용해 범위를 지정하여 슬라이싱
    - `[]` 을 이용해 띄어서 선택도 가능
- `df[df["A"] > 0]`
    - df의 A컬럼 값 중 0보다 큰 것들만 선택적으로 보여준다
    - 내부는 조건문
    - 이때 전체 df 모양은 살린다
    - 조건에 맞지 않는 부분은 NaN으로 표시된다
        - NaN: Not a Number
- `df["E"] = [값들]`
    - 새로운 컬럼 E를 만들어 값들을 넣어준다.
- `df["E"].isin([값들])`
    - df의 E 컬럼에 값들이 있는가, 그렇다면 True, 아니면 False 반환
    - 조건문이므로 저것을 활용한 df만 편집하여 볼 수 있다
- `del df["컬럼명"]`
    - 특정 컬럼 삭제하기
- `df.drop([입력값], axis = 1)`
    - axis 옵션
        - 0
            - 디폴트값
            - 인덱스를 기준으로 삭제
        - 1
            - 컬럼을 기준으로 삭제
- `df.apply(함수)`
    - 함수를 각 컬럼마다 적용한 결과를 확인할 수 있다
    - 예시) `df.apply(np.cumsum)`
        - 각 컬럼 누적합
- `df.set_index("컬럼명", inplace = True)`
    - index를 재지정하는 함수
    - unique한 데이터를 index로 잡는 것이 좋음
- `df.corr()`
    - 데이터 상관관계 찾는 함수
    - 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 존재
    - 0.2 이상 데이터 비교하는 것은 의미 있다
    - 상관관계 != 인과관계
- 두 데이터 합치기
    - pandas.merge() 함수를 이용하여 병합
        - `pd.merge(left, right, on = 'key')`
            - key 컬럼을 기준으로 병합
        - `pd.merge(left, right, how = 'left', on = 'key')`
            - left에 key 를 기준으로 right 병합
            - right에 없는 값은 NaN으로 표시된다
            - left key에 없는 값은 없어진다
        - `pd.merge(left, right, how = 'outer', on = 'key')`
            - 둘 다 손상되지 않도록 key 컬럼을 기준으로 병합
            - 각자 없는 값은 NaN으로 표시된다
        - `pd.merge(left, right, how = 'inner', on = 'key')`
            - key 컬럼에서 두 데이터에 공통 분모만 병합
            - 기본 디폴트값
    - pandas.concat() 함수를 이용하여 병합
    - pandas.join() 함수를 이용하여 병합
- `df.to_csv("경로/파일이름.csv", sep = ",", encoding = "utf-8")`
    - DataFrame을 csv로 저장하는 함수\
### matplotlib 기초
- 그래프 결과가 중요할 경우 그래프 그리는 코드를 def()로 작성한다. 별도의 셀에서 그림만 나타낼 수 있기 때문이다
- `import matplotlib as mpl`
    - 자주 사용은 않지만 자주 쓰는 약어 알아두기
- `import matplotlib.pyplot as plt`
    - 2차원 그래프 그리는 모듈
    - matlab에 있는 기능을 담아둔 곳
- `from matplotlib.colors import ListedColormap`
    - 사용자 정의로 color map을 세팅할 수 있는 함수
    - `ListedColormap(리스트값)` 을 이용해 나만의 color map을 생성
- `get_ipython().run_line_magic('matplotlib', 'inline')`
    - 주피터 노트북에서 matplotlib 결과를 문서에 포함시켜서 출력하라
    - `%matplotlib inline` 이라고 작성해도 무방
- `plt.figure(figsize = (n, m))`
    - 가로 n 세로 m 길이의 사이즈의 그래프를 그려라
    - figure 하나에 여러 그래프를 그릴 수 있다
    - nXm 크기의 도화지를 설정한다고 생각하기
- `plt.plot(x 데이터, y 데이터, label = '라벨값', "선스타일옵션")`
    - x 데이터에 대응되는 y 데이터를 라벨값을 라벨로 달아서 그려라
    - 선 스타일 옵션, 문자와 기호로도 표현 가능
        - 문자
            - r
                - 빨간색
            - b
                - 파란색
            - s
                - 네모
            - g
                - 초록색
        - 기호
            - `--`
                - 점선
            - `^`
                - 삼각형
    - color 옵션
        - 선 색
    - linestyle 옵션
        - 선 모양
    - marker
        - 점 모양
    - markerfacecolor
        - 점 색
    - markersize
        - 점 크기
- `plt.scatter(x데이터, y데이터)`
    - 점을 뿌리듯이 그리는 그림. 점만으로 표현
    - c 옵션
        - 색깔을 단계로 지정
- `plt.text(x좌표, y좌표, 표시글자, fontsize = 숫자)`
    - 글자를 찍는 함수
    - 좌표값이 데이터와 동일하면 가리게 되므로 `x좌표값 * 1.02` 혹은 `y좌표값 * 0.98` 등으로 표시한다
- `plt.colorbar()`
    - 각 단계별 색 표현하는 함수
- `plt.xilm([시작, 끝])`
    - x축 범위를 시작과 끝으로 지정 가능
    - x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.grid()`
    - 그래프 격자 그리는 함수
    - 내부 값 디폴트: True
- `plt.legend()`
    - 라벨 범례 표현하는 함수
    - labels 옵션
        - 범례 종류를 나타내는 옵션
        - plot 내부에 범례를 표시한 경우 생략가능
        - 리스트 값으로 표현 가능
    - loc 옵션
        - 범례 위치
        - best가 디폴트로 총 11가지 존재하며 string 혹은 integer로 표시 가능
- `plt.xlabel("x축이름")`
    - x축 이름 달아줘
    - x를 y로 바꾸면 y축도 동일하게 적용됨
- `plt.title("그래프 이름")`
    - 그래프 이름 달아줘
- `plt.show()`
    - 그래프 보여줘
### numpy 기능
- `numpy.arange(a, b, s)`
    - a부터 b가지의 **s의 간격**
- `numpy.sin(value)`
    - value에 대응하는 sin값을 출력
    - sin자리에 cos를 넣으면 cos값 출력
- **numpy를 이용하여 1차 직선 만들기**
    - `np.polyfit(x데이터, y데이터, 차수)`
        - 직선을 구성하기 위한 계수 계산
        - 차수 옵션은 숫자로 바로 사용 가능
    - `np.poly1d(계수)`
        - polyfit으로 찾은 계수로 python에서 사용할 함수로 만들어 줌
        - 직선을 구성하는 두 개의 계수를 넣음
        - 이 결과값에 (x값)을 넣으면 예측 y값을 출력
    - `np.linsplace(a, b, n)`
        - a부터 b까지 **n개의 등간격** 데이터 생성
        - 경향선을 위한 x데이터 생성
        - 이 값을 np.npoly1d의 결과 1차 함수에 활용
### pandas에서 matplotlib 기능 가져와 사용하기
- `df.plot(kind = '모양', figsize = (n, m), grid = True);`
    - kind 옵션
        - 'bar'
        - 'barh'
        - 'line'
    - figsize 옵션
        - (n, m)
    - grid 옵션
        - True / False
    - 마지막 `;` 표시하면 메모리 번지가 보이지 않음
        - 주피터 노트북은 셀 내부 마지막에 변수가 존재하면, 변수값을 보여줌. plot의 변수값은 메모리 번지인듯. 그것을 보여주지 않으려면 ;을 붙이면 됨 왤까???
### 인구현황 데이터 훑어보기
- 전체 숫자 오름차순, 내림차순 정렬
- 최근 증가율 확인 위해 최근 3년간 그 전 보유한 갯수 대비 많이 설치한 것으로 정리
    - 2016 + 2015 + 2014 / 2013 이전 \*100
- unique() 함수 이용하여 데이터 초반 검증 필요
- 각 요소의 합계도 보아야 하지만, 비율도 보아야 한다
- 특정 컬럼을 골라 sort_values()를 한 결과를 보면 정렬이 되어 데이터를 되어 보기 좋다
- **주피터 노트북 내에 망치 모양 뭐지???**
### CCTV 데이터 경향
- 데이터 경향 그려보기
    - 단순한 소계
    - 중요 지수 대비 비율
        - 선형회귀 활용 -> 간단히 numpy 활용
    - 비율과 데이터, 전체 경향 함께 보기
- 경향에서 벗어난 데이터 강조하기
    - 실제값과 경향과의 차이를 오차 컬럼을 만들어 표현하기
    - 오름차순, 내림차순 둘 다 보여주기
    - 오차 컬럼 내 상위, 하위 5개만 표시하는 등 선택적으로 글씨와 함께 특별한 색을 사용하면 EDA용 시각화자료로 괜찮음
## 서울시 범죄 현황 데이터 분석
### 강남3구 범죄 현황 데이터 특징 정리하기
- 데이터 과학의 목적
    - 가정(인식)을 검증하고 표현하는 것
### 데이터 개요
- 서울시 관서별 5대 범죄 현황 > 데이터 수집
- `thousands = ","`
    - pd.read_csv로 부를 때, 숫자에 콤마가 있는 경우 활용할 수 있는 옵션
    - 문자 인식될 수 있지만, 콤마 제거 후 숫자로 읽는 것이 가능해짐
- `df.info()`로 확인한 후 실제 데이터 갯수와 RangeIndex 범위를 비교해 보면 정리해야 하는 데이터가 얼마나 있는지 확인할 수 있다
- `df[df['특정컬럼'].isnull()]`
    - 특정 컬럼에 NaN이 있는 데이터만 따로 확인해보기
- `df = df[df['특정컬럼'].notnull()]`
    - NaN 컬럼을 제거하지 말고, NaN이 아닌 데이터만 불러오기
### pandas의 pivot_table
- `pd.pivot_table(df, index = ["컬럼명", ...], values = ["컬럼명", ...], columns = ["컬럼명", ...], aggfunc = [함수, ...], margins = True)`
    - 컬럼명을 인덱스로 재정렬해줌
    - `df.pivot_table()` 로 사용해도 동일한 결과가 나옴
    - 옵션의 값들이 한 개일 경우 일반적인 표현, 여러 개일 경우 리스트 형태로 표현
    - 인덱스를 여러 개 지정한 경우, 제일 첫 번째 요소에 맞추고 뒤로 갈 수록 중복될 수 있다
    - values 옵션으로 보고 싶은 컬럼을 지정할 수 있음
    - columns 옵션
        - 분류를 지정
        - 없는 데이터는 NaN으로 표시
            - fill_value = 값
                - NaN에 대한 표시를 지정해주는 옵션
    - aggfunc 옵션
        - 중복 데이터를 정리하는 방식
        - 디폴트: 평균
        - 함수를 값으로 받음
        - 함수를 리스트 형태로 여러 개 받을 수 있음. 하나의 컬럼에서 평균, 총합 등으로 계산한 값이 따로 가능
    - margins 옵션
        - False 값이 디폴트
        - True이면 총계값 나옴
### 데이터 정리
- index를 경찰서 이름, columns를 죄종, 발생검거로, aggfunc을 덧셈으로 활용하여 pivot_table을 만들어본다
- 컬럼이 multi로 잡혀 보기 불편함
    - `df["함수명", "계산된 컬럼명", "죄종값", "발생검거값"]`등으로 접근해야 함
        - level 0~n까지 순서대로 나옴
    - `df.columns.droplevel([0, 1, ...])`
            - 다중 컬럼에서 특정 컬럼을 제거
            - 위 값을 df.columns로 다시 재배정함
                - **inplace 옵션이 있는지 확인**
            - df.columns의 결과가 MultiIndex일 경우, 마지막에 names 값을 확인해보기
                - None이라고 되어있을 경우 종류가 여러 개라는 것이 아니므로 삭제해도 괜찮을지도...? 다만 pivot한 과정을 어딘가에 메모해두어 컬럼의 속성을 기억해둘 필요 있음
- 경찰서 이름 > 구 이름 변환 등이 필요함
    - 커뮤니케이션 능력
    - 보고서 능력
    - 목적을 상기하여 지역별 분석이었으므로 이름을 지역으로 치환하는 것이 필요
### pip 명령과 conda 명령
- anaconda가 많은 python 모듈을 포함한 배포판이라 따로 설치할 일이 없음
- pip 명령
    - python의 공식 모듈 관리자
    - `pip list`
        - 현재 설치된 모듈 리스트 반환
    - `pip install module_name`
        - 모듈 설치
    - `pip uninstall module_name`
        - 설치된 모듈 제거
    - 주피터 노트북에서는 !를 앞에 붙이면 os레벨 명령 사용 가능
        - `!pip list`
            - 주피터 노트북 안쓰고 바로 코드를 export 하여 사용하면 !명령어는 에러 발생
        - `get_ipython().system("pip list")`
- conda 명령
    - anaconda에서 배포한 모듈 관리자
    - pip 명령은 conda환경에서 dependency 관리가 정확하지 않을 수 있으므로 가급적 conda를 사용하는 것이 좋음
    - 모든 모듈이 conda로 설치되지 X
    - `codna list`
        - 설치된 모듈 list
    - `conda install module_name`
        - 모듈 설치
    - `conda uninstall module_name`
        - 모듈 제거
    - `conda install -c channel_name module_name`
        - 지정된 배포 채널에서 모듈 설치
### google maps api 사용
- conda install googlemaps를 검색
    - conda-forge 채널에서 설치하기
    - python 세계 모듈간 dependency문제와 개인 PC 환경의 indivisual diffence로 인한 문제가 있음
- `conda install -c conda-forge googlemaps`
- Google Map API key가 필요
    - 구글 클라우드 결제 계정 링크에 접속
    - 계정만들기
    - ds_study로 이름 만들기
    - 개인정보 입력하기
    - 탐색메뉴> API 및 서비스 > 사용자 인증 정보 선택
    - 사용자 인증 정보 만들기 > API 키 선택
    - 발급된 키 복사 후 저장 > 키 제한 선택
    - API 및 서비스 > 사용자 인증 정보 > 키 제한 선택 > Geocoding API 선택 > 저장
import googlemaps
gmaps_key = "복사한 키값"
gmaps = googlemaps.Client(key = gmaps_key)
gmaps.geocode("서울영등포경찰서", language = "ko")
### python for 문
for n in [1, 2, 3, 4]:
    print(n)
list comprehension
[n for n in range(1, 5)]
- pandas의 iterrows()
    - pandas DF는 대부분 2차원인데, for문을 이용하면 가독성이 떨어짐
    - itterows() 옵션을 사용하면 편함
    - 인덱스와 내용으로 나누어 받는 것을 주의
### google maps에서 구별 정보 얻어 데이터 정리
import googlemaps
gmaps_key = "복사한 키값"
gmaps = googlemaps.Client(key = gmaps_key)
gmaps.geocode("서울영등포경찰서", language = "ko")
- api를 불러온 결과는 리스트 형태이고 각 값이 딕셔너리 형태이다.
- 딕셔너리에서 데이터 얻는 get 명령어를 활용
- 전체 주소에서 필요한 구 이름만 가져온다
- 경찰서 이름에서 소속된 구이름, 위도, 경도 정보 저장하기 위한 컬럼을 np.nan으로 채워 생성
- iterrows()를 이용해 인덱스와 그에 해당하는 행을 받아 반복문을 수행
- 구글 검색을 용이하게 하기 위해 검색어를 가급적 상세하게 잡아준다
- 범죄의 발생과 검거를 합쳐 표현하고 싶다
    - `get_level_values(0)[0] + get_level_values(1)[0]`를 반복적으로 활용
### 구별 데이터로 변경
- `pd.read_csv(index_col = 0)` index_col 옵션을 통해 인덱스를 지정할 수 있음
- 구별로 pivot하기, 이때 활용 함수는 sum
    - 활용 함수에 맞지 않는 위도와 경도는 삭제
- 검거율 컬럼 만들기
    - 다수의 컬럼을 다수의 컬럼으로 나누기
        - `df[컬럼명리스트] = df[분자리스트].div(df[분모리스트].values) ** 100`
    - 검거 컬럼 삭제
    - 실제로는 발생 연도, 검거 연도를 구분 분석해야 하지만, 일단은 디테일하게 하지 않는다고 가정하고 heatmap 그래프에서 문제될 가능성이 있어 100이상 수치는 100으로 바꾼다
        - `df[df[컬럼명리스트] > 100] = 100`
            - 만약 모듈 버전과 의존성 문제로 작동하지 않는 경우 for문을 활용
    - 컬럼 이름 변경
        - `df.rename(columns = {"원래이름": "나중이름", ...}, inplace = True)`
### 범죄현황 데이터 최종 정리
- 범죄 특성 상 경중에 따라 발생 건수의 차이가 크다. 예로 살인은 한 자리수, 절도는 네 자리수 발생임
    - 시각화 후 비교가 어려워진다
    - 본래 DF는 두고, 정규화한 데이터를 만든다.
    - min-max scailing
        - 최고값:1, 최솟값: 0
        - `df = df[리스트변수]/df[리스트변수].max()`
    - 스케일링한 자료에 검거율 자료를 이어 붙인다
    - `df1[리스트변수] = df2[리스트변수]`를 활용하면 df1에 df2값을 가로로 이어붙일 수 있다. 이때 리스트 변수는 이어붙이기 원하는 컬럼명들의 나열
- 범죄 스케일링 데이터 + 범죄 검거율 데이터 + 인구 데이터 + CCTV 데이터 + 정규화된 범죄 데이터의 평균 데이터
    - 이후에 범죄별로 가중치를 더해서 평균을 내는 방법도 존재함
    - `np.mean(np.array([여러 데이터 나열1], [여러 데이터 나열2], ...), axis = 1)`
        - 결과값: 여러 데이터 나열1의 평균, 여러 데이터 나열2의 평균, ...
        - axis = 1이면 행을 기준, 디폴트값 
### seaborn 사용
- `!conda install -y seaborn`
    - seabon 깔기
- `import seaborn as sns`
    - matplotlib과 함께 실행된다
    - 임포트만 시켜도 matplotlib 결과가 seaborn 스타일로 바뀐다
- `sns.load_dataset("")`
    - 연습용 데이터 제공해줌
- `plt.plot(x데이터1, y데이터1, x데이터2, y데이터2, x데이터3, y데이터3, ...)` 등으로 여러 그래프 그릴 수 있음
    - 개별 설정은 불가능
- `sns.set_style("문자")`
    - white, whitegrid, dark, darkgrid, stick 등 이 존재함
- `sns.despine(offset = 10)`
    - 그래프 중심점이 10만큼 떨어짐
- `sns.boxplot(x = x데이터, y = y데이터, data = 원천 데이터, hue = "", palette = "")`
    - 원천 데이터를 먼저 고르고 x데이터와 y데이터는 컬럼명으로 선택 가능
    - hue 옵션
        - 종류따라 구분 하고 싶은 컬럼
    - palett 옵션
        - 색상표 선택
- `sns.swarmplot(x = "", y = "", data = 원천 데이터, color = "")`
    - 데이터 분포를 볼 수 있음
    - 박스플랏과 함게 콜라보하면 좋음
    - color 옵션
        - 낮아질수록 검은색, 높아질수록 흰색이 됨
- `sns.lmplot(x = "", y = "", data = 원천 데이터, hue = "", ci = None, order = 1, size = 숫자), roubust = False`
    - 회귀선 + 산점도 동시에 그려주는 그래프
    - size 옵션
        - 그래프의 크기
        - 정수 한 개 입력
        - height로 이름 바뀜
    - hue 옵션
        - 종류따라 구분 하고 싶은 컬럼
        - 컬럼의 종류별 산점도 + 회귀선을 동시에 볼 수 있다
    - ci 옵션
        - 회귀선 근처 흐릿한 부분
        - None으로 두면 회귀선 근처 흐릿한 부분이 사라짐
        - 디폴트: None 아님
    - scatter_kws 옵션
        - 산점도 크기와 값을 표현
        - {"문자" = 값} 속성의 이름을 문자에, 해당되는 값을 할당
    - order 옵션
        - 회귀선의 차수
        - 디폴트: 1
    - robust 옵션
        - 이상값을 포함할지 여부
        - 디폴트: False, 이상값 모두 포함함
- `sns.heatmap(데이터, annot = True, fmt = "", cmap = "")`
    - annot 옵션
        - 네모 상자마다 값 표시
        - True / False
    - fmt 옵션
        - 소수점 표시 여부
        - d: 정수형
        - f: 실수형
    - cmap 옵션
        - 색상표
    - linewidths 옵션
        - 표 칸 간격 표시
        - 숫자 표시
- `sns.pairplot(데이터, hue = "")`
    - 다수의 컬럼을 비교할 때 사용
    - 특성별 상관관계를 표시
    - hue 옵션
        - 종류따라 구분 하고 싶은 컬럼
        - 기준 컬럼별로 특성별 상관관계를 겹치게 그려줌
    - 이때, 원하는 컬럼만 선택하려면 `x_vars = [], y_vars = []` 옵션을 사용하여 리스트 내부에 원하는 컬럼명을 순서대로 넣어준다
    - kind 옵션
        - reg: 회귀
        - scatter: 산점도
        - kde: 지형도
        - hist: 히스토그램
    - height 옵션
        - 산점도 크기
        - 이전에는 size
- `df.query("컬럼명 == '문자'")`
    - 해당 컬럼이 문자와 동일한 데이터만 가져와라
### 범죄현황데이터 시각화
- 각 범죄간의 상관관계 확인
    - 강도가 살인으로 연결되는 것 보다 폭력이 살인으로 연결될 가능성이 높지 않을까 가설 후보로 둘 수 있음
    - 자료의 갯수가 많지 않아 확실히 알 수는 없음
- 인구수, CCTV와 범죄들의 상관관계를 확인
    - 소수의 이상점을 포함한 회귀선은 오류가 있을 수 있으므로 그것을 제외한 관계를 보는 것이 좋다
    - 인과관계가 아니라 상관관계이므로 가설을 세울 때 유의해야함
- 인구수, CCTV와 범죄 검거율의 상관관계를 확인
    - 검거율을 맨 처음 100이상을 100으로 제한하여 대부분이 100에 몰려있음
- 검거율로 heatmap, 정규화된 검거율의 대표값인 검거의 합을 기준으로 정렬
- 범죄발생 건수로 heatmap, 대표값으로 정규화된 발생 건수로 정렬
- **강남 3구 범죄 발생 건수가 낮지 않고, 범죄 검거율이 높지 않다. 인구대비 현황을 고려해야 할 것이다.**
### Folium 지도 시각화
- 크롬에서 동작이 가장 좋은 지도 시각화 도구
- `conda install -c conda -forge folium`
    - 설치에 문제가 있어
        - `!pip install folium`으로 설치
        - `!pip install charset` , `!pip install charset-normalizer` 설치하면 오류가 적어짐(windows한정)
- 위도와 경도 좌표만 입력해도 지도가 표시됨
        - `folium.Map(location = [위도, 경도])`
- 지도를 html로 저장 가능
    - `지도.save('파일경로/파일명.html')`
        - 주피터 노트북 환경이 아닐 때, 결과보기위함
- `folium.Map(location = [위도, 경도], tiles = '스타일', zoom_start = 크기)`
    - zoom_start 옵션
        - 확대 크기를 지정
        - 허용 범위: 0~18
        - 디폴트: 10
    - tiles 옵션
        - 지도 스타일 바꿔줌
            - 디폴트: OpenStreetMap
            - 여러 종류 있음
- 마커를 추가
    - `folium.Marker(location = [위도, 경도]).add_to(지도이름)`
- `folium.Marker(location = [위도, 경도], popup = '나올 멘트와 형식', tooltip = '나올 멘트와 형식', icon = folium.Icon(icon = 모양, color = 색깔)).add_to(지도이름)`
    - popup 옵션
        - 문자타입으로 입력
        - 클릭하면 입력한 글씨가 출력됨
        - html 문법 적용 가능
            - `표시글자`
                - 표시 글자가 작성되어있고, 클릭하면 연결주소로 새창이 열림
    - tooltip 옵션
        - 문자타입으로 입력
        - 갖다대기만 하면 글씨가 출력됨
        - html 문법 적용 가능
    - icon 옵션
        - `folium.Icon()`를 불러옴
            - color 옵션
                - 문자로 입력가능
                - 아이콘 둘러싼 것의 색깔
                - 디폴트: 파랑
            - icon_color 옵션
                - 아이콘 자체의 색깔
                - 디폴트: 하양
            - icon 옵션
                - 표현되는 아이콘 모양
                - 디폴트: info-sign
            - angle 옵션
                - 가운데 아이콘의 기울어짐 정도
                - 시계방향
                - 디폴트: 0
            - prefix 옵션
                - fa 값일 경우
                    - font-awsome 참조
                - 디폴트: glyphicon
                    - getbootsrap 참조
- `지도이름.add_child(folium.ClickForMarker(popup = '표시 문구'))`
    - 지도를 클릭한 곳에 마커가 생성됨
    -  popup 옵션
        - 문자 입력으로 표시문구가 반환
        - 디폴트: 위도, 경도
- `지도이름.add_child(folium.LatLngPopup())`
    - 지도 클릭한 곳에 위도 경도를 반환해줌
    - 옵션 X
- `folium.Circle(location = [위도, 경도], radius = 반지름 크기, popup = '나올 멘트와 형식', tooltip = '나올 멘트와 형식', color = "색깔", fill = False, fill_color = 색깔)`
    - radius 옵션
        - 반지름 크기
        - 디폴트: 10
    - color 옵션
        - 선 색깔
    - fill 옵션
        - True 일 경우, 내부 색상 채워짐
        - 디폴트: False
    - fill_color 옵션
        - fill이 True일 경우 채워질 색상
- `folium.CircleMarker(location = [위도, 경도], radius = 반지름 크기, popup = '나올 멘트와 형식', tooltip = '나올 멘트와 형식', color = "색깔", fill = False, fill_color = 색깔)`
    - Circle보다 원형 크기가 훨씬 큼
    - 공식문서에서도 정확한 차이 기술 X
- 클릭으로 위도 경도 정보 반환
    - `folium.Map(~~).add_child(folium.LatLngPopup())`
- 지도에 colormap 표현
    - us_states.json 파일 이용해 경계선과 id를 각 지역에 구현
        - json 라이브러리 임포트 필요
    - us_unemployment csv파일에 위의 json 파일과 매칭되는 id와 값을 갖게 함
    - `지도.Choropleth(geo_data = '활용 json 데이터', data = 활용 데이터, columns = [활용 컬럼들 나열], key_on = '공유 기준 컬럼', fill_color = '색', fill_opacity = 색 진하기 수치, line_opacity = 색 진하기 수치, legend_name = '표시 이름'`
        - 경계선을 하나의 덩어리로 잡고 색을 입힐 수 있음
        - geo_data 옵션
            - 경계선 좌표값이 담긴 데이터
        - data 옵션
            - 활용 데이터
            - Pandas의 DataFrame, Series 로 이루어져야 함
        - columns 옵션
            - 활용 데이터에서 사용할 컬럼
        - key_on 옵션
            - 문자값
            - 활용 지도 데이터와 활용 데이터 사이 공통된 key 컬럼 이름
            - feature.id 혹은 feature.properties.statename
        - fill_color 옵션
            - 채우는 색
        - fill_opacity 옵션
            - 채우는 색 흐린 정도
            - 0~1 사이
        - line_opacity 옵션
            - 선 흐린 정도
            - 0~1 사이
        - legend_name 옵션
            - 범례 이름
#### 아파트 유형 지도 시각화
- 공공데이터 포털 참조
- pandas의 DataFrame으로 부름
- DataFrame.info()로 데이터 상태 확인
    - NaN 데이터 제거
        - `df.dropna()`
    - 인덱스 리셋
        - `df.reset_index(drop = True)`
- for 문과 iterrows() 함수 활용하여 각 행별로 세대 수에 따라 색을 다르게 표현
for idx, rows in df.iterrows():
    lat, lng = row.위도, row.경도
# marker
folium.Markar(
    location = [lat, lng],
    popup = rows.주소,
    tooltip = rows.분류,
    icon = folium.Icon(
        icon = 'home',
        colors = "lightred" if rows.세대수 >= 199 else "lightblue"
        icon_color = 'darkred' if rows.세대수 >= 199 else "darkblue"
    )
).add_to(지도이미지)

# CircleMarker
folium.CircleMarkar(
    location = [lat, lng],
    radius = rows.세대수 * 0.2,
    fill = True,
    color = "pink" if rows.세대수 >= 518 else "green",
    fill_color = "pink" if rows.세대수 >= 518 else "green"
    )
).add_to(지도이미지)
```
서울시 범죄현황 지도 시각화 및 장소별 분석
지도시각화

지도시각화에 필요한 json 파일 > 현재 무료는 Lucy Park 자료가 유일
각 범죄별, 범죄 전체, 인구대비 범죄 데이터를 지도에 시각화하기
각 범죄별 검거의 평균값을 검거 컬럼으로 넣고 경찰서별 정보를 이용해 범죄발생과 함께 정리
각 범죄 검거 컬럼을 컬럼 내 최댓값으로 나누어 정규화한 값의 평균을 구하여 검거 라는 컬럼을 만듬
이때, np.mean() 옵션의 axis = 1이 행으로 다른 것과 다름에 주의


실습 중 crime_in_Seoul_row 파일로 실습이 잘 안 될 경우, crime_in_Seoul_1st 파일을 활용하면 잘 될 것

장소별 분석

강남 3구 > 유흥업소가 몰려있어서 그럴 수 있다는 가설을 확인하기 위함
최초 받았던 발생 장소별 데이터를 읽어보기
장소 컬럼을 unique() 함수로 무엇이 있는지 확인해보기


pd.DataFrame.pivot_table() 함수를 활용하여 index = 장소,. columns = 범죄명, aggfunc = np.sum 으로 장소별 범죄의 합을 보기
각 범죄를 각 범죄별 최댓값으로 나누어 정규화하기
정규화된 각 범죄의 평균을 구함
droplevel로 멀티컬럼 지울 것 지우기, 맨 위가 0번


heatmap으로 확인하기
노상에서 많이 일어남
범죄가 시작되기 전 상태가 아니라, 발생한 순간의 장소임을 확인



느낀점
단순히 프로그래밍을 할 줄 아는 것이 아니라, 어떤 데이터를 특정한 모양으로 보고 싶다 혹은 어떠한 이유로 이런 데이터들을 정리하고 싶다와 같이 데이터를 파고드는 힘이 있어야한다는 것을 알았다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



005. 데이터 취업 스쿨 스터디 노트_5주차_알고리즘
Tue, 07 May 2024 22:56:46 GMT
5주차
수강한 분량
알고리즘을 수강했다. 검색, 순위, 정렬 등 기본부터 특정 값(최대, 최소, 최빈 등)을 구하는 것, 그리고 알고리즘에서 가장 많이 활용되는 것 같아 보이는 재귀까지 다양한 알고리즘을 배웠다.
각 강의별 학습한 핵심 내용 정리

algorithm
일련의 절차나 방법을 공식화한 형태로 표현한 것


API
application Programming Interface
사용자가 사용하기 쉽게 이미 만들어둔 함수, 속성
알고리즘을 활용해 만듬선형 검색



선형으로 나열되어 있는 데이터를 순차적으로 스캔하며 원하는 값을 찾는다
검색 성공 / 실패


보초법
마지막 인데스에 찾으려는 값을 추가해, 찾는 과정을 간략화 한다
검색 성공: 마지막 이전에 값이 검색된 경우
검색 실패: 마지막에 값이 검색된 경우





이진 검색

정렬되어 있는 자료구조에서 중앙값과의 크고 작음을 이용해 데이터를 검색한다
중요 변수
staIdx
첫 인덱스


endIdx
마지막 인덱스


midIdx
중앙값 인덱스
(staIdx + endIdx) // 2


midVal
중앙값




의사코드
검색 데이터가 주어진 데이터들의 범위 안엔 있는지 먼저 확인
검색 데이터가 중앙값보다 크다면 staIdx를 중앙값 인덱스 +1
검색 데이터가 중앙값보다 작다면 endIdx를 중앙값 인덱스 -1
검색 데이터가 중앙값과 같다면 midIdx를 반환





순위, Rank

수의 크고 작음을 이용해서 정렬되지 않은 수의 순서를 정하는 것

중요변수

ranks = [0 for i in range(n)]
기존 자료구조의 순위를 저장하는 자료구조, n은 기존 자료구조의 수와 동일




의사코드

중첩구문을 활용해 기존 자료구조의 모든 숫자와 나머지의 모든 숫자와 비교한다
기준 숫자와 비교해 더 작은 경우 rank값에 1을 더해준다


class를 활용한 실습사항

변수 초기화
반복적으로 활용하는 함수를 만들고, 그것을 활용해 특정 상황마다 앞의 함수에 적용하는 함수, 그리고 적용된 결과물을 불러오는 함수를 따로 만들었다
setRank
setMidRank
getMidRank





버블 정렬, Bubble

처음부터 끝가지 인접하는 인덱스 값을 순차적으로 비교하여 큰 숫자를 가장 끝으로 옮기는 알고리즘

중요변수

tmp 활용해 두 자료를 맞교환할 수 있다. 그러나 아래와 같이 python에서는 swap에 유용한 구조가 있다
tmp = a; a = b; b = tmp
a, b = b, a




의사코드

중첩 반복문을 활용해 처음 두 변수를 비교해 더 큰 수가 오른쪽에 오게 한다.
한 싸이클을 다 돌고 나면 다시 처음부터 비교하는데 이때 지난 싸이클에서 비교한 제일 마지막 숫자는 제외한다


깊은 복사
import copy


def 함수명(데이터, deepCopy = True):
    if deepCopy:
        cns = copy.copy(데이터)
    else:
        cns = 데이터 

### 삽입 정렬, Insert
- 정렬되어 있는 자료 배열과 하나씩 비교해 정렬 위치를 찾는 알고리즘
- 중요변수
    - cNum
        - 현재 비교 기준 변수
    - i2
        - 현재 비교 기준 변수와 비교할 앞 변수 인덱스
        - 이 인덱스를 가진 자료값이 cNum과 비교하여 오름차순일 때는 크다면, 내림차순일 때는 작다면 i2 + 1 인덱스를 가진 자료값에 이 인덱스 자료값을 넣어주고, i2값은 하나 빼어 0까지 변화한다.
        - 만약 비교 후 변화가 없다면 i2보다 작은 인덱스를 가진 값들은 이미 정렬되어 있으므로 비교X
- 의사코드
    - 두 번째 요소부터 마지막까지 범위인 반복문을 만들어, 현재 비교 기준 변수 인덱스로 할당한다.
    - 현재 비교 기준 변수 인덱스 왼쪽에 존재하는 변수와 값을 비교하여 변화해야 하는 경우 비교 인덱스 + 1 위치에 비교 인덱스의 자료값을 넣어주고, 비교 인덱스는 하나를 빼어 더 왼쪽값을 비교한다. 이때 비교 인덱스가 0보다 크거나 같을 때까지를 조건으로 둔다

- 함수에서 동일 데이터를 옵션만 바꾸어 활용하고 싶을 때를 위해 **옵션만 바꾸는 함수**를 class 내부에 선언해주기도 함
class 클래스명:
    def init(self, 데이터, asc = True):
        self.data = 데이텆
        self.isAsc = asc
def isAscending(self, flag):
    self.isAsc = flag
객체명 = 클래스명.함수(데이터)
위에서 잔뜩 활용한 객체명에 특정 옵션만 바꾸어 마저 활용할 수 있다
객체명.isAscending(False)

### 선택 정렬, Select
- 주어진 리스트 중에 최솟값을 찾아 그 값을 맨 앞에 위치한 값과 교체하는 방식으로 자료를 정리하는 알고리즘
- 중요변수
    - minIdx
        - 최솟값 인덱스
    - tempNum
        - 기준값과 최소인덱스를 교환할 때 사용하는 임시변수
- 의사코드
    - 중첩 반복문을 활용하여, 주어진 자료 처음부터 마지막 -1 까지 반복문은 비교 기준 인덱스 값을, 비교 기준인덱스 + 1부터 마지막까지 반복하는 내부 반복문은 비교 인덱스값으로 활용한다.
    - 첫번째 반복문을 시작할 때 반복문에 활용하는 i값을 minIdx 초기값으로 할당한다.
    - 주어진 값을 상호 비교하여 비교 기준 인덱스의 자료값이 비교 인덱스 자료값보다 크다면 minIdx에 비교 인덱스 값을 할당한다
    - 내부 반복문이 완료되면, i번째 값과 minIdx번째 값을 상호교환한다.

- 깊은 복사를 함수 외부에서도 활용할 수 있음
    - 아래와 같이 활용할 경우 원본 데이터 훼손을 막을 수 있음
import copy
result = 클래스명.함수명(copy.deepcopy(데이터))
```
최댓값, Max

자료구조에서 가장 큰 값을 찾는다.
중요변수
maxNum
가장 큰 수
임의로 자료구조의 가장 첫 번째 요소를 할당




의사코드
maxNum에 자료구조 가장 첫 번째 요소를 할당한다
maxNum을 주어진 자료구조의 두 번째 요소부터 마지막 요소까지 비교하여, maxNum이 더 작을 경우 비교 요소를 maxNum에 할당한다



최솟값, Min

자료구조에서 가장 작은 값을 찾는다
중요변수
minNum
가장 작은 수
임의로 자료구조의 가장 첫 번째 요소를 할당




의사코드
minNum에 자료구조 가장 첫 번째 요소를 할당한다
minNum을 주어진 자료구조의 두 번째 요소부터 마지막 요소까지 비교하여, minNum이 더 클 경우 비교 요소를 minNum에 할당한다



최빈값,

자료구조에서 빈도수가 가장 많은 데이터
중요변수
indexes
자료구조에 포함된 데이터값을 인덱스로 두고 빈도를 체크할 리스트


maxAlgorithm
최댓값 알고리즘을 활용해 원래 자료구조에서 가장 큰 값을 구하고, 이후에 새로운 리스트에서 가장 큰 값을 구하는데 활용한다.




의사코드
자료구조에서 최댓값 알고리즘을 활용해 가장 큰값을 구해, 0부터 가장 큰 값까지 0이 배정된 새로운 리스트를 만든다
자료구조 데이터가 나올 때 마다 새로운 리스트의 해당 인덱스값에 1을 더해준다.
최댓값 알고리즘을 활용해 새로운 리스트에서 가장 큰 값의 인덱스를 구한다.



근삿값, Near

자료구조에서 특정 값(참값)에 가장 가까운 값
중요변수
inputNum
찾고 싶은 숫자




의사코드
주어진 자료구조 각 데이터에서 찾고 싶은 숫자를 빼고, 절대값 함수 abs() 처리를 한다
위의 처리를 한 각 값을 비교하여 가장 작은 값을 가진 숫자를 찾아 출력한다
만약 근삿값을 이용해 새로운 값을 기존 리스트에 추가하는 경우에는 제일 끝에 있는 것부터 하나씩 뒤로 밀어두고, 근사값 인덱스 자리에 새로운 값을 추가한다



평균, Average

여러 수나 양의 중간값을 갖는 수
중요변수
total
모든 수의 합


len(자료구조)
모든 수의 갯수


cnt
조건을 만족한 모든 수의 갯수




의사코드
반복문을 활요앻 주어진 숫자를 다 더한다
모든 수의 합을 모든 수의 갯수로 나눈다
만약 특정 조건을 만족해야 한다면, 조건을 만족한 경우 추가되는 새로운 리스트 자료구조를 만들어 두어도 된다. 혹은 cnt 변수를 이용해 모든 수의 갯수를 저장해두어도 괜찮다.
특정 조건 중 정수들의 평균을 구할 때
주어진 숫자 - int(주어진 숫자) == 0 을 조건으로 두기







재귀, Recursion

나 자신을 다시 호출하는 것
의사코드
특정 조건에서만 나 스스로를 부른다
이때 인수값을 하나씩 빼주는 등 변화를 주어야 한다
영원히 반복되지 않도록 특정 조건2일 때 반복되지 않는 특정 값을 반환한다


유클리드 호제법
두 자연수 n1, n2에 대해 (n1 > n2) n1을 n2로 나눈 나머지를 r이라고 할 때, n1과 n2의 최대공약수는 n2와 r의 최대공약수와 같다



하노이의 탑, Tower of hanoi

퍼즐 게임의 일종으로 세 개의 기둥을 이용해, 원판을 다른 기둥으로 옮기면 된다.
한 번에 한 개의 원판만 옮길 수 있다
큰 원판이 작은 원판 위에 있어서는 안 된다


중요변수
discCnt
원판 갯수


fromBar
출발 기둥


toBar
도착 기둥


viaBar
경유 기둥




의사코드
만약 디스크 갯수가 1개라면 그 디스크를 출발 기둥에서 도착 기둥으로 옮겨라
만약 디스크 갯수가 1개보다 많다면
원판 갯수-1 개들을 출발 기둥에서 경유 기둥으로 옮겨라 -> 재귀 함수로 반복
제일 큰 원판을 출발 기둥에서 도착 기둥으로 옮겨라
원판 갯수-1 개들을 경유 기둥에서 도착 기둥으로 옮겨라 -> 재귀 함수로 반복





병합 정렬, Merge

자료구조를 분할하고 각각의 분할된 자료구조를 정렬한 후 다시 병합하여 정렬한다
상대적으로 속도가 빠르다
중요변수
midIdx
중간 인덱스 값


leftNums
0부터 midIdx까지의 값들 모음


rightNums
midIdx부터 끝까지의 값들 모음


mergeNums
정렬된 값을 저장할 리스트


leftIdx
왼쪽 숫자들의 인덱스
처음은 0이고, 한 묶음이 끝나면 다시 0


rightIdx
오른쪽 숫자들의 인덱스
처음은 0이고, 한 묶음이 끝나면 다시 0




의사코드
만약 주어진 데이터의 길이가 2보다 작다면 을 반환
주어진 자료의 길이 중간값을 midIdx로 둔다
왼쪽 숫자와 오른쪽 숫자로 나눈다
왼쪽 숫자가 오른쪽 숫자보다 작다면 왼쪽 숫자[왼쪽인덱스]를 정렬된 값에 추가한다
만약 오른쪽 숫자가 더 크다면 오른쪽 숫자[오른쪽인덱스]를 정렬된 값에 추가한다
왼쪽인덱스가 왼쪽 숫자모음 길이보다 커지거나, 오른쪽인덱스가 오른쪽 숫자모음길이 보다 커지면 루프를 나와, 정렬된 값에 남은 숫자들을 이어 붙인다
만약 순서가 바뀐다면, asc = True 와 같은 옵션을 넣어주어야 하며, 재귀로 부를 때에도 옵션에 asc = asc 등으로 명시를 해주어야 한다



퀵 정렬, Quick

기준 값보다 작은 값과 큰 값으로 분리한 후 다시 합친다

중요변수

midIdx
기준 인덱스로, 주어진 자료의 길이를 반으로 나눈 몫으로 할당


midVal
기준 인덱스의 자료값


smallNums
기준 값보다 작은 숫자들의 리스트


sameNums
기준 값과 같은 숫자들의 리스트


bigNums
기준 값보다 큰 숫자들의 리스트




의사코드

주어진 자료의 길이가 2보다 작다면 자료를 반환한다
주어진 자료의 값이 기준값보다 작으면 smallNums에 추가
주어진 자료의 값이 기준값과 같으면 sameNums에 추가
주어진 자료의 값이 기준값보다 크면 bigNums에 추가
smallNums에 재귀적으로 적용한 것에 sameNums를 더하고, bigNums에 재귀적으로 적용한 것을 더하여 반환한다



연습문제
*+ 추후에 추가
*
느낀점
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



004. 데이터 취업 스쿨 스터디 노트_4주차_자료구조
Tue, 07 May 2024 22:56:35 GMT
4주차
수강한 분량
자료구조를 수강했다. 자료구조에서는 리스트, 튜플, 딕셔너리를 배웠고, 각 자료구조마다 존재하는 함수도 있지만 슬라이싱, 정렬 등은 비슷하게 작용했다. 다만 딕셔너리는 인덱스가 아니라 키로 값들을 구분하는 것을 유의해야 했다.
각 강의별 학습한 핵심 내용 정리

자료구조

컨테이너 자료형의 데이터 구조
컨테이너 자료형
여러 개의 데이터가 묶여있는 자료형
리스트, 튜플, 딕셔너리, 셋트 존재
변수명을 복수형으로 적는 경향있다리스트







리스트

배열과 같이 여러 개의 데이터를 나열한 자료구조


[]로 선언하고, 데이터 구분은 ,를 이용한다

숫자, 문자(열), 논리형 등 모든 기본 데이터를 같이 저장할 수 있다

리스트에 또 다른 컨테이너 자료형 데이터를 저장할 수 있다

인덱스

아이템에 자동으로 부여되는 번호표


리스트 아이템은 인덱스를 이용해 조회가 가능하다

변수명[인덱스번호]를 이용해 아이템에 접근 가능하다


리스트 길이

리스트 저장된 아이템 갯수
len(리스트변수)


레퍼런스 변수

메모리 주소를 가지고 멀리 있는 리스트 값을 참조하는 것
리스트의 레퍼런스 변수: 리스트를 선언할 때 사용한 변수명


for문의 range(len(리스트변수))를 활용하면 리스트의 아이템 조회가 쉽다

for item in range(lists)


for문에 리스트변수를 활용하면 리스트 아이템 조회가 쉽다

for item in lists


len(변수)

변수가 문자열일 경우, 문자열 길이도 알 수 있다


for문을 활용한 리스트 아이템 참조하기

for 지역변수 in range(len(리스트변수명)):
리스트변수 내부 아이템의 인덱스를 참조하는 방법


for 지역변수 in 리스트변수명:
리스트변수 내부 아이템을 직접적으로 참조하는 방법


리스트 내부에 리스트가 또 있는 경우
for 지역변수1, 지역변수2 in 리스트변수명:
지역변수1은 리스트내부의 첫 번째 요소를, 지역변수2는 리스트내부의 두 번째 요소를 가리킨다


조건문을 함께 활용할 경우for 지역변수 in 리스트변수명:
if 조건문: continue  # 조건에 해당하면 아래를 수행하지 않고 다음 단계의 for문을 수행한다
수행문 # 조건에 해당하지 않을 경우 수행하는 문구


while문을 활용한 리스트 아이템 참조하기

조건을 횟수로 제한하고, 반복문 말미에 횟수 변수에 1을 더하는 방법
boolean값을 가진 flag변수를 활용하여 반복문 말미에 횟수 변수에 1을 더하고, 횟수 변수가 어느 값인 경우 flag에 false를 주는 방법
True 조건문을 활용하여 반복문 말미에 횟수 변수에 1을 더하고, 횟수 변수가 어느 값인 경우 break를 주는 방법


enumerate()함수

인덱스와 아이템을 한 번에 조회하는 함수
for idx, value in enumerate(리스트변수명):
인덱스변수, 값변수 순서로 배정된다


리스트변수 뿐 아니라, 문자열로도 활용이 된다




리스트에 아이템 추가하기

append() 함수
리스트변수명.append(새로운값)
마지막 인덱스에 아이템을 추가한다.


insert() 함수
리스트변수명.insert(특정인덱스, 새로운값)
특정 인덱스에 아이템을 추가한다.




리스트 아이템 삭제하기

pop() 함수
리스트변수명.pop()
마지막 인덱스에 해당하는 아이템을 삭제한다.


리스트변수명.pop(특정인덱스)
특정 인덱스에 해당하는 아이템을 삭제한다.


삭제하는 데이터를 반환한다.


remove() 함수
리스트변수명.remove(아이템)
특정 아이템을 삭제한다.


1개의 아이템만 삭제할 수 있으므로, 여러 개를 삭제하고 싶다면 while문을 활용하는 것이 좋다.while 아이템 in 리스트변수명:
리스트변수명.remove(아이템)




리스트 연결하기

extend() 함수
리스트변수명1.extend(리스트변수명2)
리스트변수명1에 리스트변수명2를 추가한다.


덧셈 연산자 활용
리스트변수명1 + 리스트변수명2
리스트변수명1과 리스트변수명2가 이어진 새로운 변수가 만들어진다.




리스트 정렬하기

sort() 함수
오름차순으로 정렬한다
sort(reverse = True)
내림차순으로 정렬




reverse() 함수
주어진 순서를 뒤집는다
변수명.reverse()




리스트 슬라이싱

[n:m:s]
n에서 부터 m-1까지 s칸씩
숫자가 없을 경우 n자리는 맨 처음부터, m자리는 맨 끝까지, s는 1이 디폴트
숫자가 음수일 경우 뒤쪽에서부터 계산, 이때 -1이 맨 끝자리


문자열 슬라이싱
리스트 슬라이싱과 동일


슬라이싱을 이용해 아이템 변경도 가능
slice() 함수
변수명[slice(n, m)]




리스트 곱셈 연산

아이템이 반복된다


리스트 아이템 위치 찾기

index() 함수
변수명.index(값, n, m)
만약 변수 내부에 값이 복수개 존재할 경우 맨 앞의 하나만 반환한다
n에서 m까지의 범위 내에서 주어진 값의 인덱스를 찾는다. 생략시 처음부터 끝까지가 디폴트




리스트에서 특정 아이템 갯수 알아내기

count() 함수
변수명.count(값)




특정 아이템 삭제

del 변수명[n]
n자리에 인덱스, 슬라이싱 적용 가능




random 패키지에 sample 함수 활용

random.sample(범위, 갯수)
리스트로 반환



튜플

튜플

리스트와 비슷하지만 아이템 변경(수정, 삭제)이 불가능
() 이용해 선언하고, ,를 이용해 구분한다
아이템이 한 개일 경우 아이템 뒤에 콤마를 추가하면 튜플로 선언이 가능
(아이템, )




소괄호 없이 아이템을 , 이용해 나열해도 튜플로 선언됨
숫자, 문자(열), 논리형 등을 같이 저장할 수 있음
튜플 내 또 다른 컨테이너 자료형 데이터 저장이 가능하다
튜플과 리스트는 서로 변환이 가능하다
tuple() 함수
tuple(변수명)


list() 함수
list(변수명)






튜플 아이템 조회

인덱스를 활용한 슬라이싱을 이용


특정 아이템 존재 유/무

in, not in 키워드 활용
값 in 변수명
변수내에 값과 동일한 아이템이 있으면 True


값 not in 변수명
변수내에 값과 동일한 아이템이 없으면 True


문자열에도 활용 가능




튜플 길이

len(튜플변수명)


튜플 결합


연산자를 이용해 두 튜플을 결합해 새로운 튜플을 선언할 수 있다


리스트의 extend() 함수 사용 불가능


튜플 슬라이싱

리스트와 동일한 방식으로 슬라이싱 가능
슬라이싱 이용한 데이터 변경은 불가능
다만 리스트를 슬라이싱 이용해 튜플의 아이템으로 변경할 수 있고, 결과는 여전히 리스트이다.
slice() 함수 활용 가능


튜플 아이템 정렬

튜플을 리스트로 변환 후, sort() 함수를 활용해 정렬, tuple() 함수를 이용해 재변환
sorted() 함수
sorted(변수명)
원본 자료는 그대로, 새롭게 리스트 자료형을 반환
key, reverse 옵션은 sort() 함수와 동일






튜플과 for문

리스트와 동일한 방법 활용


튜플과 while문

리스트와 동일한 방법 활용



딕셔너리

딕셔너리

key와 value를 이용해 자료를 관리
key
중복X
리스트, 튜플의 index와 비슷한 역할, 내가 부여하는 값
immutable값만 올 수 있다.(변경 불가능한)
ex) tuple




{}을 이용해 선언하고, : 이용해 key와 value를 연결하고, ,를 이용해 아이템 나열
{key : value, ...}
숫자, 문자(열), 논리형, 컨테이너 자료형도 올 수 있다




딕셔너리 조회

변수명[key]를 활용해 value를 조회한다
없는 key를 넣으면 Error 발생


변수명.get(key)를 활용해 value를 조회한다
없는 key를 넣으면 None을 반환한다


전체값 조회
keys() 함수
변수명.keys()
타입: dict_keys
리스트 형태로 반환


values() 함수
변수명.values()
타입: dict_values
리스트 형태로 반환


items() 함수
변수명.items()
타입: dict_items
tuple 형태로 저장되어 있음






딕셔너리 추가

변수명[key] = value형태로 아이템을 추가
이미 존재하는 key일 경우 value값이 수정됨




딕셔너리 수정

변수명[존재하는 key] = 새로운 값


딕셔너리 삭제

del 변수명[key]
변수명.pop(key)
삭제된 값이 반환된다




딕셔너리

in, not in 키워드
key 존재 유무를 판단


len() 함수
clear()
모든 아이템을 삭제
아이템 갯수가 0인 dict만 남는다연습문제





*+ 추후에 추가

*
느낀점


이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



003. 데이터 취업 스쿨 스터디 노트_3주차_기초 수학
Tue, 23 Apr 2024 12:12:31 GMT
3주차
수강한 분량
일정이 밀려 2주차에 들었어야 하는 기초 수학을 3주차에 듣게 되었다. 우선 기본 개념강의를 우선적으로 듣고 문제 강의는 하루에 쪼개어 들어야겠다. 순수하게 활용할 수 있는 시간 자체가 별로 없다는 기분이다.
각 강의별 학습한 핵심 내용 정리
1. 약수 소수 소인수 공약수 공배수

약수

어떤 수를 나누어 떨어지게 하는 수
나누어서 나머지가 0인 숫자


소수

1과 그 수 자신만을 약수로 가지는 수
1은 제외
중첩 반복문으로 그 숫자보다 작은 숫자로 나누어 나머지가 0이 아닌것으로만 구성된 것


소인수

약수 중에서 소수인 숫자


소인수분해

1보다 큰 정수를 소인수의 곱으로 나타낸 것
주어진 수를 제일 작은 소인수로 반복적으로 나눈다
소인수분해를 이용하면 최대공약수, 공약수를 구할 수 있다
공통인 소인수 거듭제곱에서 지수가 작은 수를 모두 곱한 것
모든 수를 공통으로 나누어 떨어지는 것들을 구해 나눗셈에 사용된 숫자를 모두 곱한 것


소인수분해를 이용하면 최소공배수, 공배수를 구할 수 있다
공통인 소인수 거듭제곱에서 지수가 크고 공통이 아닌 수를 모두 곱한 것
모든 수를 공통으로 나누어 더이상 공통수로 나눌 수 없을 때 나눈 수들과 나눈 결과값들을 전부 곱한 수




공약수

두 개 이상의 수에서 공통된 약수


최대공약수

공약수 중 가장 큰 수
유크리드 호제법
x, y의 최대공약수는 y, x%y의 최대공약수와 같다




공배수

두 개 이상의 수에서 공통된 배수


최소공배수

공배수 중 가장 작은 수
주어진 수를 곱한 것에 최대공약수로 나눈 것의 몫
주어진 수가 3개 이상이면, 일단 두 개의 최소공배수를 구한 후, 그것과 세 번째 수의 공배수를 구한다


리스트

리스트변수.count(a)
리스트 변수 내에 a라는 것이 몇 개가 있는지 반환


리스트변수.append(a)
리스트변수에 a를 추가하기


리스트변수.remove(a)
리스트변수 내에 a를 없애기





2. 진법

진법
특정 숫자 몇 개를 사용해 수를 표시하는 방법


2진수
0, 1


8진수
0~7


10진수
0~9


16진수
09와 AF


변환법
10진수 > X 진수
주어진 수를 X로 나누고 가장 마지막 나머지부터 매 순간 있던 나머지를 연속으로 나열한 값
print('{숫자:#b}') 등의 형태로도 가능함
# 없이 사용하면 앞에 몇 진수인지 표시가 나오지 않는다.
bin()
binary, 2진수로 바꾸는 함수
바꾼 값 앞에 0b표시가 나오고, 문자열임
format(숫자, '#b')로도 가능하다


oct()
octal, 8진수로 바꾸는 함수
바꾼 값 앞에 0o표시가 나오고, 문자열임
format(숫자, '#o')로도 가능하다


hex()
hexadecimal, 16진수로 바꾸는 함수
바꾼 값 앞에 0x표시가 나오고, 문자열임
format(숫자, '#x')로도 가능하다




X진수 > 10진수
각 자릿수에 있는 숫자 * X ^ 자릿수(제일 오른쪽이 0)을 다 더한다
int('숫자', X)
X진수의 숫자를 10진수로 바꾸어준다




2진수 > 8진수
뒤에서부터 3자리씩 구분하고 빈 자리는 0으로 채운다
칸마다 각 자릿수에 있는 숫자 * 2 ^ 자릿수(제일 오른쪽이 0)을 다 더하고, 합의 수를 나열한다


2진수 > 16진수
뒤에서부터 4자리씩 구분하고 빈 자리는 0으로 채운다
칸마다 각 자릿수에 있는 숫자 * 2 ^ 자릿수(제일 오른쪽이 0)을 다 더하고, 합의 수를 나열한다


모든 변환 함수는 X진수에서 X진수로 변환이 가능하다



3. 수열

수열
규칙성을 갖고 나열된 수들
${a_n}$: 일반항
n 정의역: 자연수
${{a_n}}$: 수열이라는 표시
특정항은 특정항까지의 합에서 특정학 이전의 항까지의 합과 같다
${S_n = a_1 + a_2 + a_3 + ...}$
${a_n = S_n - S_{(n-1)}}$        ${단, n >= 2이고, a_1 = S_1}$




등차수열
연속된 두 항의 차이가 일정한 수열
${a_n = a_1 + (n-1)\times d}$
등차 중항
연속된 세 항에서 가운데 항
앞 뒤 항을 더하고 반으로 나누면 등차중항이 나온다


${S_n = n(a_1 + a_n)/2}$


등비수열
연속된 두 항의 비가 일정한 수열
${a_n = a_1 \times r^{(n-1)}}$
등비 중항
연속된 세 항에서 가운데 항
앞항과 뒷항을 곱하고 루트를 씌우면 등차중항이 나온다


${S_n = a_1 \times (1 - (r^n)) / (1-r) = a_1 \times ((r^n) - 1) / (r - 1)}$


시그마
${\Sigma}$ 
수열의 합을 나타내는 기호


${\Sigma^{n}_{k=1}a_k}$ 
1부터 n항까지 합 구하라는 의미




계차수열
어떤 수열의 인접하는 두 항의 차로 이루어진 또 다른 수열
${{b_n}}$은 ${{a_n}}$의 계차 수열
${\Sigma^{n-1}_{k=1}b_k = a_n - a_1}$ , ${a_n = a_1 + (n-1) \times d}$ , ${S_n = n(a_1 + a_n) / 2}$ 를 활용하여 일반항을 구하면 된다


피보나치 수열
세 번째 항은 두 번째 항과 첫 번째 항을 더한 합인 수열
${a_1 = 1, a_2 = 1, n > 2}$ 일 때, ${a_n = a_{(n-2)} + a_{(n-1)}}$


팩토리얼
1부터 양의 정수 n까지 정수를 모두 곱한 것
${0! = 1, n! = 1 \times 2 \times 3 \times ... \times n}$
math 모듈
math.factorial(n) >> n!




군 수열
여러 개의 항을 묶었을 때 규칙성을 가지는 수열
군
여러 항을 묶은 것
군마다 항의 갯수를 나열하면 그것 또한 수열이고, 그것의 합은 전체 군 수열에서 n번째 항이 몇 군, 몇 번째 항인지 알 수 있다





4. 통계

순열
n개에서 r개를 택해 나열하는 경우의 수
${_nP_r = n(n-1)(n-2)...(n-r+1) =  {n! \over {(n-r)!}} }$
원순열
시작과 끝의 구분이 없는 순열
${{n! \over n}\quad or \quad (n-1)!}$




조합
n개에서 순서없이 r개 선택하는 경우의 수
${_nC_r = {_nP_r \over r!} =  {n! \over {(n-r)!r!}} \quad 단, 0


확률
모든 사건에서 특정 사건이 일어날 수 있는 수
모든 사건 = 표본 공간
특정 사건 = 사건


조합을 이용해 확률을 알아낼 수 있다.
당첨의 조합과 낙첨의 조합의 곱을 분자로, 전체에서 뽑는 갯수의 조합을 분모로 두면 확률을 구할 수 있다





연습문제
+ 추후에 추가
느낀점
기초 수학은 짧기도 하고, 이전에 공부한 내용이라 어렵지 않았다. 게다가 매번 예시를 들어 설명해주기 때문에 이해하기 어려운 부분은 나오지 않았다. 잠깐 숨 돌리는 기분이었다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



002. 데이터 취업 스쿨 스터디 노트_2주차_파이썬중급
Tue, 23 Apr 2024 12:04:55 GMT
2주차
수강한 분량
파이썬 중급은 객체지향개념과 클래스, 패키지와 함수, 모듈에 대해 다루었다. 스터디 조가 배정되었고, 일주일에 한 번씩 만나 주어진 과제를 공유하고, 그 내용에 대해 얘기하고 있다. 그러면 안되는데도 개인사가 자꾸 일정을 방해한다.
각 강의별 학습한 핵심 내용 정리
1. 함수

함수: 입력값이 주어지면 특정 연산을 거쳐 출력값을 만드는 것def 함수명(입력값(생략가능)):
  return 반환값


함수명(입력값들) # 호출법

- 내장 함수: 파이썬에서 기본으로 제공하는 것
- 사용자 함수: 사용자가 직접 선언하는 함수
- 함수 사용 하는 이유: 특정 기능을 재사용하기 위함

- round(a, b): a숫자의 소수점 아래 b번째까지만 출력

- 함수 내에서 또 다른 함수 호출
def fun1():
    print('fun1 호출')
    fun2()
    print('fun2 호출 후 실행')
def fun2():
    print('fun2 호출')
    fun3()
    print('fun3 호출 후 실행')
def fun3():
    print('fun3 호출')

#### 함수 요소
- pass 이용해 실행문 생략 가능, 실행문을 비워두면 error 발생

- 인수: 함수 호출 시 함수에 전달되는 데이터
- 매개변수: 호출부와 선언부에 관계에 매개를 맺어주는 변수
    - \*매개변수 매개변수 갯수가 정해지지 않은 경우에 사용하는 것
        - type은 tuple 데이터 타입으로 iterable type
- 인수와 매개변수의 갯수가 동일해야 한다. 아니면 error

- return 키워드를 활용하면 함수 실행 결과를 호출부로 반환할 수 있다
    - return을 만나면 함수 실행을 **종료**한다

- 지역변수: 함수 안에 선언된 변수로, 함수 안에서만 사용이 가능하다
- 전역변수: 함수 밖에 선언된 변수로, 어디에서나 사용은 가능하지만 함수 안에서 수정은 불가능하다
- global 키워드를 사용하면 함수 안에서도 전역변수 값을 수정할 수 있다

- 중첩함수: 함수 안에 또 다른 함수가 있는 형태
    - 내부 함수를 감싸고 있는 함수 외부에서 호출 불가능

- lambda 함수: 함수 선언이 보다 간단하게 가능
함수이름 = lambda 매개변수: 연산식
함수이름(매개변수) # 호출법

### 2. 모듈
- 모듈: 함수가 선언되어 있는 파이썬 파일
    - 내부 모듈: 파이썬 설치 시 기본적으로 사용할 수 있는 모듈
    - 외부 모듈: 별도 설치 후 사용할 수 있는 모듈
    - 사용자 모듈: 사용자가 직접 만든 모듈
#### 모듈 제작
- 일반 python 파일을 만들면 된다.
    - 확장자 .py
    - as 이용하여 모듈 이름 단축 가능
        - import @#$% as @@
    - from 과 as 이용하여 모듈 특정 기능만 사용하는 것
        - from 모듈 import 함수1, 함수2, ...: 단일~복수 개 가능
        - from 모듈 import \*: 모든 기능을 활용하겠다는 의미

#### 모듈 실행
- import 를 이용해 확장자를 제외한 파일 이름을 붙여 불러온다

### 3. 실행 파일
- \_\_name\_\_: 에는 모듈 이름이 저장되거나 '\_\_main\_\_'이 저장된다
- 실행 파일 중에 제일 먼저 실행해야 하는 파일
- 이 파일이 실행파일이라면 그때만 아래 기능이 실행되어라
if name == 'main':
    실행문

### 4. 패키지
- 패키지를 이용하면 관련 있는 모듈을 그룹으로 관리할 수 있음
- site-packages라는 디렉토리에 있는 모듈은 어디서나 사용할 수 있다
import sys
for path in sys.path:
    print(path) # 참조하는 디렉토리 리스트를 출력해줌
- venv: virtual environment의 약자, 가상환경
    - 프로젝트마다 가상환경을 만들고, 그것에 맞추어 설정을 바꾸거나 작업을 할 수 있다. 각 환경마다 독립적으로 진행할 수 있음

- 자주 사용하는 모듈
    - math: 수학
    - random: 난수
    - time: 시간
### 5. 객체지향 프로그래밍
- 객체를 이용한 프로그램
- 객체(object)
    - 속성(attribute)
        - 변수
    - 기능(Function)
        - 함수
- 객체 사용 장점
    - 코드 재사용, 모듈화에 좋다
    - 부품 결합도가 낮으면 가장 이상적인 프로그램이 될 수 있다

### 6. 클래스
- class키워드와 속성(변수), 기능(함수)를 이용해 만든다
클래스명 첫 자는 대문자로 쓰는 것이 관례
class 클래스명: # 클래스 선언
    def init(self, 변수1, 변수2): # 생성자, 속성
        self.변수명1 = 변수1 # 변수명은 객체 속성을 의미
        self.변수명2 = 변수2 # 변수1은 매개변수를 의미
    def 함수명1(self): # 기능, self 표시는 현재 클래스안에 포함된다는 의미
        실행문
    def 함수명2(self): # 기능
        실행문

- 객체는 클래스의 생성자를 호출한다.
    - 객체명1 = 클래스명(변수1값, 변수2값)
- 객체 속성 변경
    - 속성에 직접 접근하여 수정하기
    - 객체명.객체속성 = 새로운 값

- 객체와 메모리
    - 클래스에서 객체를 선언해 사용하는 것은 변수안에 저장된 객체 메모리 주소를 이용해 객체 기능을 호출하거나 속성을 변경하는 것
    - 변수는 객체의 메모리 주소를 저장하고 이를 이용해 객체를 참조하는 것
    - 레퍼런스 변수라고 부르기도 한다
    - 얕은 복사
        - 객체의 메모리 주소가 할당되는 것
        - 객체가 새로 생긴 것이 아니라, 메모리 주소만 복사한 것으로 하나의 객체를 가리키는 여러 변수가 생긴 것
    - 깊은 복사
        - 동일한 객체가 하나 더 생기는 것
        - copy.copy()함수 사용으로 가능
            - `import copy`
              `사본 = copy.copy(원본)`
        - id() 이용하면 메모리 주소를 확인할 수 있음
            - id(변수)
        - 자료구조가 가지고 있는 함수를 사용해 깊은 복사가 가능하기도 함
            - 반복구조 변수라면 for문을 사용해 하나씩 이어붙이는 것도 가능

- 클래스 상속
    - 클래스가 다른 클래스를 상속해 내 것처럼 사용하는 것
        - `class 클래스명(다른 클래스명)`
    - 생성자
        - 객체가 생성될 때 생성자를 호출하면  \_\_init\_\_()가 자동 호출됨
            - 호출됨: `변수 = 클래스명()`
    - \_\_init\_\_()
        - 속성을 초기화한다
    - 기능은 바로 사용이 가능하지만, 속성은 \_\_init\_\_() 호출되어야 사용이 가능하다
    - 상위 클래스의 속성을 초기화함
        - `상위클래스.__init__(self, 변수명1, 변수명2)`
        - super() 함수 사용
            - `super().__init__(변수명1, 변수명2)`
    - **다중 상속**
        - 2개 이상 클래스를 상속한다
        - `class 클래스명(클래스1, 클래스2, 클래스3, ...)`
        - 동일한 이름이 있으면 헷갈리므로 남발하면 안됨
            - 원칙적으로는 가장 먼저 상속받은 클래스를 이용함
    - 오버라이딩
        - 하위 클래스에서 상위 클래스의 메서드를 재정의(override)하는 것
        - 중복된 코드를 많이 정리할 수 있고, 시간 절약도 된다
class 상위:
    def init(self, 변수명1, 변수명2):
        self.변수1 = 변수명1
        self.변수2 = 변수명2
def 함수명1(self):
    수행문1
class 하위(상위):
    def init(self, 변수명1, 변수명2):
        super().init(변수명1, 변수명2)
def 함수명1(self):
    수행문2

- 추상 클래스
    - 상위 클래스에서 하위 클래스에 메서드 구현을 강요하는 것
    - 구체화하지 않으면 에러가 발생
    - 특정 기능을 각자 알맞게 맞추어 사용하기 위함
from abc import ABCMeta
from abc import abstractmethod
class 상위(metaclass = ABCMeta):
    def init(self, 변수명1, 변수명2):
        self.변수1 = 변수명1
        self.변수2 = 변수명2
@abstractmethod # decoration
def 함수명1(self):
    pass # 선언만 되어있음
class 하위(상위):
    def init(self, 변수명1, 변수명2):
        super().init(변수명1, 변수명2)
def 함수명1(self):
    수행문 # 구현을 함
### 7. 예외란?
- 예외
    - 문법적인 문제는 없으나, 실행 중 발생하는 예상하지 못한 문제
    - 소프트웨어적으로 처리할 수 없는 문제
    - eg) syntax error, network error, system 환경 불안정, 하드웨어적 불가능
- 예외 관련 클래스는 Exception 클래스를 상속한다
    - Exception
        - ArithmeticError
            - ZeroDivisionError
        - EnvironmentError
            - IOError
        - LookupError
            - IndexError
        - SyntaxError
            - IndentationError
- 예외 처리
    - 발생된 예외를 별도 처리함으로써 프로그램 전체의 실행에 문제가 없도록 하는 것
    - 정확하게 문제가 발생할 부분만 try로 감싸야 함
try:
    실행문1 # 문제가 발생할 수 있는 부분, 문제가 없는 경우 수행됨
except:
    실행문2 # 문제가 발생한 경우 수행될 부분
else:
    실행문3 # 예외가 발생하지 않았을 때 수행하는 부분
finally:
    실행문4 # 예외 발생과 상관없이 항상 수행되는 부분
실행문5 # 에러가 없이 예외처리 정리가 잘 된 경우 마저 수행될 부분

- Exception
    - 예외를 담당하는 클래스
    - 어떤 에러때문에 발생한 예외인지 알아낼 수 있다
try:
    실행문1
except Exception as e: # error 발생 시 예외처리 구문을 e로 부르기로 함
    print(e) # error 발생 시, 적절한 예외 처리 구문이 나옴
- raise
    - 예외를 발생시킬 수 있다.
def 함수(변수명1, 변수명2):
    if 조건문:
        실행문1
    else:
        raise Exception('예외 처리 문구')
try:
    함수(값1, 값2) # 호출
except Exception as e: # error 발생 시 예외처리 구문을 e로 부르기로 함
    print(e) # error 발생 시, 위에서 만든 예외 처리 문구가 나옴

- 사용자 예외 클래스
    - Exception 클래스를 상속해 만들 수 있다
class 사용자예외클래스명(Exception):
    def init(self, 변수명):
        super().init('{}은 사용할 수 없습니다.'.format(변수명))
def 함수(변수명1, 변수명2):
    if 조건문: # 특정 상황일 때 만들어둔 사용자 예외 클래스를 실행시킨다
        raise 사용자예외클래스명(변수)
    else:
        실행문1
try:
    함수(값1, 값2) # 호출
except Exception as e: # error 발생 시 예외처리 구문을 e로 부르기로 함
    print(e) # error 발생 시, 위에서 만든 예외 처리 문구가 나옴

### 8. 텍스트 파일 쓰기
- open('a', 'b')
    - 파일 열기
    - a: 디렉토리명
    - b: 파일의 모드
        - w 모드
            - 쓰기 전용, write
            - 파일이 존재하지 않으면 만들고, 존재하면 연다.
            - 기존의 글을 전부 지우고 새로운 글로 덮어버린다
        - r 모드
            - 읽기 전용, read
            - 파일이 존재하지 않으면 에러발생
            - 내부 내용이 무엇이건 문자열로 읽어들임
            - encoding = ''
                - UTF8 등 인코딩버전을 맞춰야할 때가 있다
        - a 모드
            - 쓰기 전용, append
            - 파일이 존재하면 덧붙인다
        - x 모드, exclusive creation
            - 쓰기 전용, 
            - 파일을 만들고 작성한다
            - 파일이 존재하면 에러가 발생
- read()
    - 읽기
- write()
    - 쓰기
    - 내용은 문자열만 가능하다. 숫자여도 str()로 변환하기
- close()
    - 파일 닫기
file = open('파일주소/파일명.확장자', 'w')
변수명 = file.write('작성할 문구') # 작성할 문구의 길이를 반환함
print(변수명)
file.close()
file = open('파일주소/파일명.확장자', 'r')
변수명 = file.read() # 텍스트파일 내용을 문자열로 읽음
print(변수명)
file.close()

- time.strftime()
    - 출력되고자하는 문자형태로 표시하기
    - %Y
        - 연
    - %m
        - 월
    - %d
        - 일
    - %H
        - 시
    - %M
        - 분
    - %S
        - 초
    - %p
        - am, pm 표시
    - %I
        - 12시간제

- 문자열.replace('문자열1', '문자열2', 횟수)
    - 문자열 내에서 문자열1을 발견하면 문자열2로 바꾸겠다. 이때 횟수가 주어지면 그 횟수만큼만 적용되고, 그 횟수를 넘어간 이후 발견한 문자열1은 바꾸지 않는다.
- 문자열.split('구분자')
    - 문자열 내에 구분자를 기준으로 문자열을 나누어 리스트에 각각 저장한다

- with as 구문
    - 파일 닫기를 생략할 수 있다
    - with open('파일주소/파일명.확장자', 모드) as 변수명
        - '파일주소/파일명.확장자'를 열어서 파일을 가리키고 있는 레퍼런스 변수를 변수명이라 하겠다.
with open('파일주소/' + '파일명.확장자', 'a') as f:
    f.write('작성 문자열')
with open('파일주소/' + '파일명.확장자', 'r') as f:
    print(f.read())

- uri
    - 인터넷에 있는 자원을 나타내는 유일한 주소(Uniform Resource Identifier)

- writelines()
    - 반복 가능한 자료형의 데이터를 파일에 쓸 때 사용하는 함수
- readlines()
    - 파일의 모든 데이터를 읽어서 리스트 형태로 반환함
- readline()
    - d
변수명 = 반복 가능한 자료형
for i in 변수명:
    with open('파일주소/' + '파일명.확장자', 'a') as f:
        f.write(i)
        f.write(\n)
변수명 = 반복 가능한 자료형
with open('파일주소/' + '파일명.확장자', 'a') as f:
    f.writelines(변수명) # 바로 연결됨
    # 개행을 원한다면 아래와 같이 사용 가능
    f.writelines(i + '\n' for i in 변수명)
with open('파일주소/' + '파일명.확장자', 'r') as f:
    변수명 = f.readlines()
print(변수명)
with open('파일주소/' + '파일명.확장자', 'r') as f:
    변수명 = f.readline()
while 변수명 != 0:
    print('변수명)
    변수명 = f.readline() # 다음 줄 읽게 됨
```
연습문제
+ 추후에 추가
느낀점
혼자 공부할 때는 어디서부터 어디까지 내가 지금 당장 알아야 활용할 수 있는지조차 모르기 때문에 필요한 정보를 찾아내는 것 자체도 힘이 드는 일이었다. 아무래도 모든 내용을 다루지 않는 다는 것은, 오히려 꼭 알아야 하는 내용을 위주로 정리한것이니 이것만큼은 꼭 이해해야겠다는 생각이 들었다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



001. 데이터  취업 스쿨 스터디 노트_1주차_파이썬기초
Fri, 12 Apr 2024 04:40:48 GMT
1주차
수강한 분량
교육 첫 주에 배정된 분량은 파이썬 기초의 개념 강의와 실습 강의였다. 개인의 일정에 따라 몰입형과 병행형으로 나누어졌는데, 평일 중에 수업을 듣는 나는 몰입형으로 하루에 3~4시간의 분량이 추천되었다.
각 강의별 학습한 핵심 내용 정리
1. pyCharm 설치
pycharm에서 붙여넣고 싶을 때 단축키 ctrl + d (duplicate 약자)
pycharm에서 실행하고 싶을 때 shift + F10
2. 변수

변수: 데이터가 저장되어 있는 특정한 공간
변수명: 메모리 주소가 너무 어려워 인간이 이해할 수 있는 언어로 지칭하는 것
변수를 사용하는 이유: 반복과 수정이 용이함
변수명 규칙
데이터의 의미를 유추할 수 있게 작명
영문
소문자 시작(추후에 나올 클래스와 혼동 가능성 줄이기 위함)
카멜 표기법: myAge
스네이크 표기법: my_age
예약어, _ 제외한 특수문자, 공백문자 사용 금지
숫자는 첫 번째 자리 제외하고 사용 가능



3. 자료형
메모리를 낭비하지 않고 효율적으로 관리하기 위해서

정수형

int
메모리가 허용되는 한 무한 사용 가능


실수형

float
대략 소수점 이하 17~18번째에서 데이터 손실이 일어남


문자형

str
'' 혹은 "" 로 묶어서 표현


논리형

bool
True 혹은 False 존재


type(변수): 변수의 타입을 확인할 수 있다

# 내용 :단행 주석, ctrl + \ 로 가능

'''내용''': 다행 주석

자료형 변환

문자로
str()


숫자로
int()
float()
논리형을 숫자로 바꾸면, True는 1로 False는 0으로 변환됨


논리로
bool()


빈 문자 / 공백 문자
'': 빈 문자
False


' ': 공백 문자
True


글자 내용과 관계없이 채워진 문자라면 True4. 데이터 입력





input('가이드 문구'): 입력 함수

입력받은 데이터는 모두 str 타입5. 데이터 출력



print(): 출력함수

,를 이용해 데이터 연속 출력 가능
옵션
end
자동으로 마지막에 개행문자가 삽입되어 있다
end = '': 옵션값에 빈 문자 넣기 가능, 그 다음 내용이 바로 붙어서 나옴




f'내용 {변수명}': format함수 사용


특수문자

\t: 탭
\n: 개행


format()

print('라라라{}라라라{}'.format(변수명, 변수명))
print('라라라{0}라라라{1}'.format(변수명, 변수명))


형식 문자

%s: 문자열
%d: 정수
%f: 실수
%.1f: 소수점 첫 번째자리까지 표현, 사사오입 적용됨


사용법
print('lala: %s' % VariableName)6. 연산자
산술





더하기

+
숫자끼리 덧셈: 더하기 연산
문자끼리 덧셈: 문자열 이어 표현
숫자와 문자의 덧셈: 불가능


빼기

-
숫자끼리 뺄셈: 빼기 연산
문자끼리 뺄셈: 불가능
숫자와 문자의 뺄셈: 불가능


곱하기

*
숫자끼리 곱셈: 곱셈 연산
문자를 이용한 곱셈: 곱해진 수만큼 반복


나누기

/
숫자끼리 나눗셈: 나눗셈 연산
0을 나누는 경우 항상 결과는 0
0으로 나누는 경우 항상 결과는 ZeroDivisionError: division by zero로 0으로 나눌 수 없다는 에러가 나옴
나눈 결과는 항상 float


나머지

%
나머지만 구한다
divmod(num1, num2)[1]


몫

//
몫만 구한다
divmod(num1, num2)[0]


나머지와 몫을 한 번에 구하기

divmod(num1, num2)
(몫, 나머지) 의 tuple 형태로 결과가 나옴




거듭 제곱

**
앞의 수를 뒷 수만큼 거듭 제곱한다.
n의 m제곱근 공식
n ** (1/m)


math 모듈
sqrt() 함수
math.sqrt(n): n의 제곱근 구하기


pow() 함수
math.pow(n, m): n의 m제곱값 알려줌




format(숫자, ',')
숫자를 3자리마다 ,로 구분하고 데이터 타입을 str로 바꿈복합





할당

=
오른쪽의 값을 왼쪽에 할당(대입)


덧셈 연산 후 할당

+=


뺄셈 연산 후 할당

-=


곱셈 연산 후 할당

*=


나눗셈 연산 후 할당

/=


나머지 연산 후 할당

%=


몫 연산 후 할당

//=


거듭 제곱 연산 후 할당

**=비교



연산 결과는 bool이다

숫자인 경우 크기 비교

문자인 경우 아스키코드를 이용해 크기 비교

A: 65
a: 97
ord() 함수
문자를 십진수로 표현하기
ord('A') = 65


chr() 함수
십진수를 문자로 표현하기
chr(97) = a




문자열인 경우 문자열 자체를 비교

하나라도 다르면 False


크다






크거나 같다


=




작다

<


작거나 같다

<=


같다

==


같지 않다

!=논리



그리고

and
A와 B 모두 True인 경우만 결과 값이 True


또는

or
A와 B 중 하나가 True인 경우 결과 값이 True


아니다

not
A 상태를 부정하는 결과



7. operator모듈

산술 연산자 모듈
operator.add()
+


operator.sub()
-


operator.mul()
*


operator.truediv()
/


operator.mod()
%


operator.floordiv()
//


operator.pow()
**




비교 연산자 관련 모듈
operator.eq()
==


operator.ne()
!=


operator.gt()





operator.ge()

=




operator.lt()
<


operator.le()
<=




논리 연산자 관련 모듈
operator.and_()
and


operator.or_()
or


operator.not_()
not
난수 모듈




random
random.randint(n, m)
n에서 m사이의 난수를 하나 만들기



8. 조건식

조건식
어떤 조건에 따라 실행이 분기되는 식


A if 조건식 else B: 조건식의 결과가 True면 A 실행, 아니면 B실행
너무 길 때는 \를 끝에 두고 개행하면 연결 문장으로 읽힌다.if문

단일조건if 조건식:
  실행문 # 조건식이 True일 때 수행

if~else문

양자택일if 조건식:
  실행문 # 조건식이 True일 때 수행
else:
  실행문 # 조건식이 False일 때 수행
삼항연산자 사용법
조건식 결과에 따른 실행만 하는 경우
  실행문1 if 조건문 else 실행문2
조건식 결과를 변수에 할당하는 경우
  변수 = 변수값1 if 조건문 else 변수값2if~elif문



다자택일(다중조건)if 조건식1:
  실행문1  # 조건식1이 True일 때 수행
elif 조건식2:
  실행문2  # 조건식2가 True일 때 수행
조건식 중 하나를 만족하면 나머지 조건식은 비교X 조건식 순서가 중요
조건 범위를 명시한다.

중첩 조건문

조건문 안에 또 다른 조건문이 있을 수 있다
3단계 이상 중첩은 코드 식별이 어려워 논리적 오류가 나기 쉽다. 

9. 반복문

특정 실행을 반복하는 것
프로그래밍이 간결하고 유지 보수가 쉽다
횟수에 의한 반복
회수 지정하여 그만큼 반복 실행


조건에 의한 반복
조건을 지정하여 그에 만족하는 동안 반복 실행for문
for 반복구조 적용될 변수 in 반복구조:
실행문


횟수에 의한 반복일 경우 적합한 반복문
range(시작, 끝, step)
시작부터 끝-1까지 step만큼 증가하면서 반복
step이 1일 경우 생략 가능
시작이 0인 경우 생략 가능while문
while 조건문:
실행문


조건에 의한 반복문일 경우 적합한 반복문
조건문이 True이면 영원히 반복하게 됨
무한루프: 반복문을 빠져나올 수 없는 경우
외부, 내부에 조건문 관련하여 값이 조정되는 실행문을 넣어두어야 무한반복이 안 됨
실행문에 n < m,  실행문에 n += 1 등으로 for문과 비슷하게 제어
flag = True로 두고, 어떤 조건을 만족 시 flag = False로 하여 반복 중지반복문 제어





continue
실행을 생략하고 다음 반복문 실행문으로 넘어간다


else
반복문이 종료된 후 실행되는 실행문이다


break
반복 실행 중 break를 만나면 반복문을 빠져나온다



중첩 반복문

반복문 안에 다른 반복문을 선언하는 것
중첩은 2단계가 보편적이고 최대 3단계로 하는 것이 부하를 막는 좋은 방법

10. 연습문제

datetime 라이브러리
datetime.datetime.today()
순간의 날짜와 시간을 불러올 수 있음
~~~.month, year, day, hour, minute, second 등 사용 가능




\t 를 이용하면 글씨 갯수와 관계없이 동일한 여백을 가질 수 있다.
len(): 문자 길이를 반환한다
find(): 특정 문자열의 위치를 찾아 반환함
isdigit(): 숫자이면 True 반환, 아니라면 False 반환
random 라이브러리
random.randint(a, b): a와 b 사이의 정수 중 랜덤으로 하나 반환



느낀 점
개념 강의에도 예시 문제 풀이가 있었지만, 직접 해볼 수 있는 문제 풀이 강의를 통해 손에 익힐 수 있어 좋았다. 주에 한 번씩 추가 퀴즈를 풀어야 하는 점도 적당한 긴장감을 갖고 강의에 집중할 수 있는 요소였다.
이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.



000. ZB 데이터 취업 스쿨 26기 OT 후기
Tue, 02 Apr 2024 12:33:44 GMT
입과계기
기계공학과 졸업 이후 취업준비 중에 컴퓨터 공학에 관심을 가지게 되었고, 데이터 분석 교육 중 프로젝트 경험을 통해 매력을 느꼈다. 이후 독학으로 데이터관련 교육과 자격증 취득으로 취업을 준비하던 도중 개인적 한계를 느껴 도움을 받고자 취업 연계 교육을 찾아보았다. 부트텐트에서 제로베이스를 비롯한 여러 부트캠프를 알아보았지만, 전문가가 직접 코칭해주는 프로젝트 경험을 제공하는 데이터 취업 스쿨은 취업과 이후 업무에서도 도움이 될 것 같아 신청하게 되었다.
OT 듣고난 후 각오와 다짐
포기하지 않기 위해서는, 매일매일 꾸준하게 해야한다는 것을 다시 한 번 생각하게 된다. 그동안 취업이 제대로 되지 않았던 이유 또한 목표를 취업으로 두지 않았기 때문이라는 생각이 들었다. 매일매일 들어야 하는 수업, 매주 있는 평가과제, 한 과목이 끝날때마다 있는 평가 과제, 마지막으로 총 세 번 수행하는 프로젝트 과제까지 수행하는 것으로 끝이 아니다. 이후에 이력서와 자소서, 면접 코칭과 실제로 여러 회사에 지원하는 과정까지가 데이터 취업 스쿨의 진짜 끝이겠지.
데이터로 먹고 살기 위해서 시작했으니, 올해 꼭 끝을 볼 것이다.

SandwichBox

010. 데이터 취업 스쿨 스터디 노트_10주차_Git

10주차

수강한 분량

각 강의별 학습한 핵심 내용 정리

Git

버전관리

Git 가입

Git 용어

Local Repository

Remote Repository

Log and Diff

Merge and Conflict

Tag

README

느낀점

009. 데이터 취업 스쿨 스터디 노트_9주차_SQL

9주차

수강한 분량

각 강의별 학습한 핵심 내용 정리

DataBase 설치하기

DataBase

User

DB 요소 및 명령어

Table

DML

ORDER BY

비교 연산자

논리 연산자

UNION

JOIN

유용한 기능

AWS RDS

SQL file

SQL File 실행

Database Backup

Database Backup Restore

Database Backup Table Restore

Table Schema Backup

Python with MySQL

connect

AGGREGATE Functions

조건

GROUP BY

HAVING

SCALAR Functions

SQL Subquery

느낀점

007. 데이터 취업 스쿨 스터디 노트_7주차_EDA, 웹크롤링, 파이썬 프로그래밍_2

7주차

수강한 분량

각 강의별 학습한 핵심 내용 정리

웹 데이터 분석

Beautiful Soup

html 기초

div

a

크롬 개발자 도구

위키백과 문서 정보 가져오기

바꾸고 싶은 문자를 찾아 replace함수에 넣고

찾고 싶은 부분의 순서를 찾아 15 자리에 넣는다.

메인페이지와 서브페이지 분석을 따로 해야할 수 있기 때문에 주소를 두 개로 분리

http 403은 서버에서 유저가 문제가 있다고 하는 것

select로도 가능

전체 코드 긁어오기 위한 샘플 코드 테스트 중...

위 값이 bs4.element.Tag 이면 bs4 요소이므로 bs4 함수를 적용할 수 있다

\n 혹은 \r\n이 보이면 분리해라

확인용

데이터 정리

가격과 주소가 하나의 태그에 들어있다...!

끝에 .group()을 해주어야 값만 나온다

$가 반드시 있어야 하고, 숫자가 여러 개 있을 수 있고, .이 반드시 와야 하고, (숫자 여러개)의 것이 있을 수도 있고, 없을 수도 있다.

가격과 띄어쓰기 포함한 것의 길이 다음은 주소가 나타남

코드 작동 유무 확인 위해 세 번만 돌리기

코드 작동 유무 확인 위해 세 번만 돌리기

price, address를 위해 link 데이터가 필요했던 것이므로 최종적으로는 삭제

주소 체크

더이상 드라이버를 다운받지 않아도 됨

적은 주소의 새 창 키기

꺼짐