seonyoung_3.log

[Spark] 클라우드

Wed, 02 Oct 2024 08:19:55 GMT

📁 클라우드

관리가 훨씬 쉽고, 보안이 뛰어나며, 가용성이 좋음
스파크를 쓸 때는 여러 대의 컴퓨터를 사용하는데, 보통 클라우드의 서버를 빌림

📁 클라우드 3대장

AWS : 지금까지 시장을 지배해왔고, 앞으로도 그럴 가능성이 높음
- 한 번 시장을 지배한 이후로, 모든 것의 기준이 되었음
GCP : Bigquery 원툴일 수 있지만, 그 원툴이 너무 강력
Azure : 편하지만, 비쌈
그 외 여러 가지 이유(지원, 투자, 계열사 등)로 기타 클라우드를 사용하는 경우도 많음

📁 스토리지

AWS를 이용하게 되면 기본적으로 대부분의 파일(데이터)를 S3에 보관
- 내 컴퓨터에 보관하는 것보다 안전하며, 임의의 팀원이 접근할 수 있음
그 데이터를 다시 데이터베이스에 연결하여 사용할 수도 있음
스파크는 S3에서 직접 읽을 수도, DB를 통해 읽을 수도 있음
비용에 주의하면 좋음

📌 Amazon S3란?

Amazon S3는 업계 최고의 확장성, 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스
데이터 레이크, 웹사이트, 클라우드 네이티브 애플리케이션, 백업, 아카이브, 기계학습 및 분석과 같은 다양한 사용 사례에 대한 원하는 양의 데이터를 저장하고 보호
Amazon S3는 99.999999999(9가 11개)의 내구성을 제공하도록 설계되었으며, 전세계 수백만 고객을 위해 데이터를 저장함

📁 엔진

쉽게 말해 컴퓨터를 빌리는 것
단일 기기를 빌릴 수도 있고, 여러 대를 빌려쓸 수도 있음
접속은 보통 ssh를 이용하고, vscode를 이용하면 좀 더 편리할 수 있음

📁 데이터베이스

데이터 공유 : 데이터베이스는 여러 사용자가 동시에 접근하여 데이터를 공유할 수 있음
데이터 보호 : 데이터베이스는 데이터를 보호하기 위해 다양한 보안 기능을 제공
데이터 검색 : 데이터베이스는 데이터를 쉽게 검색할 수 있도록 인덱싱 기능을 제공
데이터 백업과 복원 : 데이터베이스는 데이터를 백업하고 복원하는 기능을 제공하여 데이터 손실을 방지 → 이를 통해 중요한 데이터를 안전하게 보호할 수 있음

수십가지 데이터베이스가 있는데, 서로 다른 세 가지 유형 확인
RDS : 관계형 데이터베이스
- postgres와 mysql 등 다양한 옵션이 있는데, 보통 엔지니어가 결정한 걸 따르면 됨
- 대동소이하며, 위에서 언급한 인덱싱을 잘 활용하면 좋음
- 항상 서버가 떠 있어야 하며, 그렇기 때문에 그 비용이 나감
Athena : S3에 있는 데이터를 직접 간편하게 분석할 수 있는 대화형 쿼리 서비스
- 보통 S3에 있는 데이터와 연동
- Serverless라고 하여, 쿼리를 운용할 때만 잠시 기기를 빌려 연산한 뒤 다시 반납
  - 따라서 비용이 저렴한 것이 보통
- 바로 Spark와 연동할 수도 있음
Redshift : 빠르고 강력한 데이터 웨어하우징
- 구동을 위해서는 클러스터(여러 대의 컴퓨터)를 구성하여 운영하여야 함(비쌈)
- 복잡한 연산에 조금 더 효율적
- 역시, Spark와 연동할 수 있음

📁 아키텍쳐 예시

📁 EMR

페타바이트급 데이터 처리, 대화식 분석 및 기계 학습을 위한 빅 데이터 솔루션
AWS에서 Spark를 사용하면, 보통 EMR을 이용

[Spark] 파일 유형

Tue, 01 Oct 2024 11:38:12 GMT

📁 File format

다양한 파일 유형이 있는데, 크게 시간적 비용과 공간적 비용으로 장단점을 비교
시간적 비용: 읽고 쓰는데 걸리는 시간
- 파일 유형에 따라 수십배까지 차이가 남
공간적 비용: 저장된 파일의 크기를 가리킴
- 마찬가지로 파일 유형에 따라 수십배까지 차이가 남
- 좀 더 나아가, 입/출력 시에 필요한 메모리도 굉장히 중요

📁 csv, txt

가장 흔한 포맷으로, 개발이나 분석 직군이 아닌 사람도 많이 다룸
CSV는 Comma-separated values의 약자로, 콤마로 구분된 정형 데이터를 가리킴
- Comma(,) 대신 Tab(\t)과 같은 다른 구분자seperator를 사용할 수도 있음
- 데이터 안에 구분자가 들어있는 경우, 방어할 수는 있지만 깨질 위험이 있음
가장 느리고, 무거워서 소규모 데이터가 아니면 부적절
내부적으로는 encoding(utf-8, cp949 등)에 따라 다르게 저장됨

📁 json

csv, txt와 크게 다르지는 않음
단, 저장된 자료를 python의 dictionary와 같은 형식으로 강제하며, 이를 JSON Object라 함
- ex) {”키”:”값”} / {KEY : Value}
- dict와 같은 것은 아님 / 파이썬의 dict를 json으로 변환하여 사용할 수 있으며, 이를 dump한다고 함
- 좀 더 자세히 들어가면 byte serialize를 이해해야겠지만, 여기서는 생략
여러 JSON Object를 JSON Array에 담을 수 있음
비교적 개발자의 선호도가 높으며, 비교적 대용량의 데이터도 JSON으로 관리하는 경우가 많음
- API 통신도, 보통 JSON 형식으로 함
- 하지만 여전히 무거워서 대용량 데이터를 다루는데는 불편
txt와 마찬가지로 encoidng방법에 따라 다르게 저장되는데, utf-8을 사용하는 것이 일반적

📁 Pickle
- 하나의 컴퓨터로 개인용 프로젝트에서 데이터를 관리할 때 편리한 데이터 형식
  - 버전과 운영체제에 대한 의존Dependency이 있기 때문에 협업할 때 데이터를 주고 받으면 작동하지 않을 위험이 있음
위의 유형(csv, json)보다 2~30% 정도 용량이 가벼움
- read/write 속도가 수십배 이상 빠름

📁 Parquet

대용량 데이터 저장에서 표준 (보통 “파케이”라고 읽음)
굉장히 가볍고, 빠름!
다수의 OLAB Database가 내부적으로 parquet를 사용하여 데이터를 저장
Spark 또한 Parquet를 지원

📁 기타

arrow나 hdfs, feather도 때에 따라 유용하게 사용됨
위와 같은 압축, 속도가 가능한 이유는 기본적으로 칼럼기반columnnar이기 때문

📁 I/O

Input & Output을 가리킴
다양한 맥락에서 쓰이지만, 여기서는 데이터의 입출력을 말하는 것

전처리에서 잘 돌던 데이터가, 저장save에서 터지는(OOM) 경우가 있음

언급한 것 중 가장 빠른 데이터 수급은 메모리

좀 더 자세히는 Network < Disk < Memory

이러한 이유로 In-memory DB를 사용하기도 함

스파크는 기본적으로 모든 데이터를 Memory에서 처리

내부적으로는 lazy computation 등으로 좀 더 복잡

[Spark] 스파크, 파이썬과 데이터

Fri, 27 Sep 2024 10:56:56 GMT

대규모 데이터 전처리에 있어 스파크는 표준

실제 많은 회사가 스파크를 운용하고 있기에 협업 차원에서 도움이 됨

📁 스파크란?

Apache Spark : SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진

대용량 데이터를 다루는 것에 특화된 프레임 워크

Pyspark: Python을 기반으로 하여 별도의 언어 공부가 필요 없음

대용량 데이터: 대용량 데이터를 다루는 기술에 대한 이해

분산 처리: 여러 대의 컴퓨터를 사용한다는 것에 대한 이해

📁 스파크 사용 이유

대용량 데이터 사용 시 사용할 수밖에 없음

ex) 800GB의 Microsoft Academic Graph 데이터를 다룰 때, 스파크를 쓸 수밖에 없음

대용량 데이터 처리는 분할Partition하여 처리함으로써 스파크를 우회할 수 있지만, Graph 형식의 데이터는 분할하기 어려워 부득이 스파크를 사용

약 10~20대의 컴퓨터를 사용하여 수백만건의 논문 데이터를 교정할 수 있음

📁 파이썬 메모리 이슈로 터짐

파이썬 작업을 하다보면 아래와 같은 이유를 알 수 없는 에러가 종종 발생

이는 일반적으로 컴퓨터 공학에서는 OOM(Out of Memory)이라 하며, 특히 대용량 데이터를 처리할 때는 자주 만나게 될 문제

스파크를 쓰든, 파이썬을 쓰든 메모리의 관리는 굉장히 중요

📁 메모리

메모리 : 기억 장치

굉장히 세분화가 되어 있지만 크게 RAM과 Disk(SSD)로 나눔

RAM : 쉽게 말해 작업 공간

데이터를 갖고 작업하기 위해 우리는 데이터를 RAM이란 곳에 올림(read_csv 등)

여기에 OS(윈도우 등)와 기본적인 프로그램을 올리면 2~6GB 정도 차지함

컴퓨터를 끄면 RAM에 올라간 데이터는 삭제됨

Disk : 쉽게 말해 저장 공간

장기적으로 데이터를 보관(저장)하는 공간

컴퓨터를 꺼도, Disk의 데이터는 사라지지 않음

📁 CPU

CPU : 일꾼, 보통 컴퓨터는 여러 일꾼을 가지고 있음

모두 이해할 필요는 없으며, 가장 중요한 것은 코어의 수라고 봐도 됨

같은 코어 수라도, 고성능의 CPU는 수배 이상 빠를 수 있음

하나의 작업을 위해 여러 코어를 사용하는 것을 병렬 처리

스파크 또한 여러 대의 PC를, 그리고 각 PC의 여러 코어를 모두 사용

📁 Data type

내부적으로는 각 데이터에 대한 명확한 타입이 있음

적절한 데이터 타입을 사용하면, 보통 30% 이상의 메모리를 절약할 수 있음

📁 정수(Integers)

컴퓨터에서는 정수를 이진법으로 표현

뒤의 숫자는 얼마나 많은 메모리를 할당assign할 것인지에 대한 얘기

더 많은 메모리를 할당할수록, 더 큰 숫자를 담을 수 있음

int8:-128 ~ 127

int16: -32768 ~ 32727

Int32: -2,147,483,648 ~ 2,147,483,647

Int64: -9,223,372,036,854,775,808 ~ 9,223,372,036,854,775,807 → 엄밀히는, 부호를 위해 1비트(메모리의 단위)를 사용

📁 오버플로(Overflow)

크기에 맞지 않는 데이터를 넣어 의도하지 않은 결과가 나오는것을 오버플로overflow

정확한 정의는 좀 더 복잡

파이썬의 데이터 타입은 기본적으로 동적Dynamic이기 때문에 자동으로 데이터형이 바뀜

따라서 큰 숫자를 다루는 것은 굉장히 주의해야 함!

📁 부동소수점(Floating points)

부동소수점 : 사람에게 직관적이지 않지만, 컴퓨터는 부득이 사용하는 개념

앞에서 보았듯 컴퓨터는 이진법을 사용하기 때문에, 정수는 어렵지 않게 표현할 수 있음

하지만 0.2, 18.5, $\pi$와 같은 정수가 아닌 숫자는 정확하게 표현할 수 없음 → 5.96e-54같은 게 바로 부동소수점

부동소수점은 하나의 숫자를 형태와 자릿수로 구분하여 표현하는 것

ex) $478.224 = 4.78224 * 10^2$, $0.0098765 = 9.8765 * 10^-3$

일부의 데이터는 형태(4.78224)를, 나머지 데이터로 자릿수(2)를 표현

이진법이고, 소수부와 정수부가 다르기 때문에 정확하게는 조금 다름

부동소수점 또한 정수와 마찬가지로 float16, float64 등을 사용하는데, 더 큰 메모리를 사용할수록 값이 정확해지지만 데이터가 더 무거워짐

📁 부동소수점 오차

부동소수점은 그 원리상 필연적으로 오차를 동반

이러한 오차는 더 많은 메모리(16 → 32)를 사용할수록 줄어들지만, 이론적으로는 무한히 많은 메모리를 사용해야만 이 오차를 정확히 없앨 수 있음

딥러닝의 경우 메모리 사용을 줄이기 위해, 의도적으로 오차를 감수해서라도 메모리를 줄이기도 함(float 16등)

📁 String, Category

문자열은 문제가 더 복잡함

일반적으로 우리에게 친숙한 대부분의 소프트웨어는 유니코드unicode를 이용하여 문자열을 인코딩

이러한 원리를 모두 지금 이해할 필요는 없음

중요한 것은 메모리를 굉장히 많이 차지한다는 것을 기억하면 된다는 것

이에 대한 대안으로, 범주Category형 자료를 사용할 수 있음

Pandas의 경우 각 데이터의 고유값을 내부에서 숫자로 치환하여 사용

본래 문자열로 이루어져있던 칼럼을 범주형으로 변환

해당 범주 자료가 내부에서는 숫자로 사용되고 있음을 봄

이를 통해 90% 이상의 메모리를 절약할 수 있음

📁 Datetime

시간과 관련된 정보

일반적으로 소프트웨어들은 Unix Timestamp를 기준으로 함

UTC time zone을 사용

1970년 1월 1일 0시를 기준으로 몇 초가 경과했는지를 숫자로 표현한 것

연, 월, 일 시 등의 표현은 사람마다, 소프트웨어마다, 회사마다, 팀마다 모두 다를 수 있음

이러한 표현들을 일반적으로 표현하기 위한 양식 또한 존재

이를 통해 숫자인 Unix timestamp를 사람이 이해 가능한 문자열로 바꾸거나, 거꾸로 문자열을 Unix timestamp로 바꿀 수도 있음

일반적으로 년도을 %y나 %Y(4자리)로, 월을 %m, 일은 %d로 표현
## 21년 11월 6일 4시 30분을 파싱 dt = datetime.strptime("21/11/06 16:30", "%d/%m/%y %H:%M") dt >> datetime.datetime(2006, 11, 21, 16, 30)

📁 Time zone

시간대time zone은 시간 데이터를 다룰 때 굉장히 중요한 부분

특히 소프트웨어는 범국가적이기 때문에, 시간의 표준화는 필수

일반적으로 컴퓨터 공학에서는 UTC를 기준으로 하며, Unix timestamp도 UTC를 따름

대부분의 Database 또한 timezone 정보를 필수로 함

[코드카타 SQL] 없어진 기록 찾기

Thu, 26 Sep 2024 08:54:34 GMT

📁 문제 설명

ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_OUT 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_OUTS 테이블의 ANIMAL_ID는 ANIMAL_INS의 ANIMAL_ID의 외래 키입니다.

📁 문제

천재지변으로 인해 일부 데이터가 유실되었습니다. 입양을 간 기록은 있는데, 보호소에 들어온 기록이 없는 동물의 ID와 이름을 ID 순으로 조회하는 SQL문을 작성해주세요.

💡 정답

SELECT AO.ANIMAL_ID,AO.NAME FROM ANIMAL_OUTS AS AO LEFT JOIN ANIMAL_INS AS AI ON AI.ANIMAL_ID=AO.ANIMAL_ID WHERE AO.ANIMAL_ID IS NOT NULL AND AI.ANIMAL_ID IS NULL ORDER BY AO.ANIMAL_ID

💡 또 다른 정답

SELECT ANIMAL_ID, NAME FROM ANIMAL_OUTS EXCEPT SELECT ANIMAL_ID, NAME FROM ANIMAL_INS ORDER BY ANIMAL_ID;

ANIMAL_OUTS에서 가져온 동물 중 ANIMAL_INS에 없는 동물을 찾기 위해 EXCEPT를 사용 → EXCEPT 연산자는 첫 번째 쿼리에서 가져온 결과에서 두 번째 쿼리의 결과를 뺀 나머지 동물, 즉 보호소에 들어온 기록이 없고 출소 기록만 있는 동물만 남음

📌EXCEPT 연산자는 SQL에서 두 개의 쿼리 결과를 비교하여, 첫 번째 쿼리의 결과에는 포함되지만 두 번째 쿼리의 결과에는 포함되지 않는 행을 반환하는 연산자 → 쉽게 말해, 첫 번째 쿼리의 결과에서 두 번째 쿼리의 결과를 "제외"한 것

[코드카타] - SQL 즐겨찾기가 가장 많은 식당 정보 출력하기

Tue, 24 Sep 2024 10:19:59 GMT

📁 문제 설명

다음은 식당의 정보를 담은 REST_INFO 테이블입니다. REST_INFO 테이블은 다음과 같으며 REST_ID, REST_NAME, FOOD_TYPE, VIEWS, FAVORITES, PARKING_LOT, ADDRESS, TEL은 식당 ID, 식당 이름, 음식 종류, 조회수, 즐겨찾기수, 주차장 유무, 주소, 전화번호를 의미합니다.

📁 문제

REST_INFO 테이블에서 음식종류별로 즐겨찾기수가 가장 많은 식당의 음식 종류, ID, 식당 이름, 즐겨찾기수를 조회하는 SQL문을 작성해주세요. 이때 결과는 음식 종류를 기준으로 내림차순 정렬해주세요.

💡 내가 적은 오답

SELECT FOOD_TYPE, REST_ID, REST_NAME, MAX(FAVORITES) AS FAVORITES FROM REST_INFO GROUP BY FOOD_TYPE ORDER BY FOOD_TYPE DESC

즐겨찾기수가 가장 많은 음식점을 구하라고 해서 결과도 그렇고 이 코드가 정답이 맞는 거 같은데 아무리 해봐도 오답이라고 해서 결국에 찾아보았음...

💡 정답

SELECT FOOD_TYPE, REST_ID, REST_NAME, FAVORITES FROM REST_INFO WHERE (FOOD_TYPE, FAVORITES) IN (SELECT FOOD_TYPE, MAX(FAVORITES) FROM REST_INFO GROUP BY FOOD_TYPE) GROUP BY FOOD_TYPE ORDER BY FOOD_TYPE DESC

다른 사람들은 서브쿼리를 사용했으며, 결과를 비교해보니 출력값이 똑같이 나왔음

📌 왜 MAX는 틀렸고, 서브쿼리를 이요해야하는지 찾아보니 GROUP BY로 묶으면 가장 상단에 있는 데이터들을 임의로 가져오기 때문에 결과물이 같은 거 같지만 이는 가장 상단에 식당 정보를 가져왔던 것이 우연히 같았던 것이지 가장 즐겨찾기가 많은 식당이 아니라고 함

[코드카타 SQL] 가격대 별 상품 개수 구하기

Fri, 06 Sep 2024 10:52:54 GMT

📁 문제 설명

다음은 어느 의류 쇼핑몰에서 판매중인 상품들의 정보를 담은 PRODUCT 테이블입니다. PRODUCT 테이블은 아래와 같은 구조로 되어있으며, PRODUCT_ID, PRODUCT_CODE, PRICE는 각각 상품 ID, 상품코드, 판매가를 나타냅니다. 상품 별로 중복되지 않는 8자리 상품코드 값을 가지며 앞 2자리는 카테고리 코드를 나타냅니다.

📁 문제

PRODUCT 테이블에서 만원 단위의 가격대 별로 상품 개수를 출력하는 SQL 문을 작성해주세요. 이때 컬럼명은 각각 컬럼명은 PRICE_GROUP, PRODUCTS로 지정해주시고 가격대 정보는 각 구간의 최소금액(10,000원 이상 ~ 20,000 미만인 구간인 경우 10,000)으로 표시해주세요. 결과는 가격대를 기준으로 오름차순 정렬해주세요.

📁 결과 예시

💡 내가 적은 정답

SELECT CASE WHEN PRICE < 10000 THEN 0 WHEN PRICE < 20000 THEN 10000 WHEN PRICE < 30000 THEN 20000 WHEN PRICE < 40000 THEN 30000 WHEN PRICE < 50000 THEN 40000 WHEN PRICE < 60000 THEN 50000 WHEN PRICE < 70000 THEN 60000 WHEN PRICE < 80000 THEN 70000 WHEN PRICE < 90000 THEN 80000 ELSE 90000 END PRICE_GROUP, COUNT(*) AS PRODUCTS FROM PRODUCT GROUP BY 1 ORDER BY 1

다른 쉬운 방법이 있을 것 같았지만 모르겠어서 case when 구문으로 하나 씩 다 적었다...

💡 또 다른 정답

SELECT TRUNCATE(PRICE, -4) AS PRICE_GROUP, COUNT(*) AS PRODUCTS FROM PRODUCT GROUP BY 1 ORDER BY 1

📌 TRUNCATE 함수 설명

기본 형식: TRUNCATE(number, decimal_places)

number: 자르려는 원본 숫자

decimal_places: 소수점 이하 자릿수를 지정 → 양수이면 소수점 이하 자릿수를 지정하고, 음수이면 소수점 위의 자릿수를 지정

TRUNCATE(PRICE, -4): 이 함수는 PRICE 값을 10,000 단위로 잘라서 처리

예를 들어, PRICE가 12,345라면 TRUNCATE(PRICE, -4)는 10,000으로 반환됨

-4는 자를 위치를 천 단위로 지정하는 것

[코드카타] 문자열 바꿔서 찾기

Thu, 05 Sep 2024 11:19:59 GMT

📁 문제

문자 "A"와 "B"로 이루어진 문자열 myString과 pat가 주어집니다. myString의 "A"를 "B"로, "B"를 "A"로 바꾼 문자열의 연속하는 부분 문자열 중 pat이 있으면 1을 아니면 0을 return 하는 solution 함수를 완성하세요.

📁 입출력 예

💡 내가 적은 정답

def solution(myString, pat): swapped_string = myString.translate(str.maketrans('AB', 'BA')) if pat in swapped_string: return 1 else: return 0

str.maketrans() : 문자열 변환을 위한 변환 테이블을 생성하는 함수 ㄴ 이 테이블은 두 개의 문자열을 매핑하여 각각의 문자를 다른 문자로 변환하는 데 사용됨

str.translate() : str.maketrans()로 생성된 변환 테이블을 사용하여 문자열의 문자를 실제로 변환하는 메서드

💡 또 다른 정답

def solution(myString, pat): return int(pat.replace('A', 'b').replace('B', 'a') in myString.lower())

엄청 짧은 정답을 발견했지만, replace 변경 문자에 왜 소문자를 넣은지와 lower()을 사용한 이유가 궁금해서 찾아보았음

📌 궁금증에 대한 결과

replace() 메서드에서 변환 문자에 소문자를 사용하는 이유는 변환된 문자열의 형식이 명확하고 예측 가능하게 하기 위함

일관성: 'A'와 'B'를 서로 바꾸는 것이며, 결과적으로 소문자와 대문자를 혼합하지 않으므로 비교할 때 혼동이 없음

가독성: 'a'와 'b'를 사용함으로써 변환된 문자열이 더 읽기 쉬울 수 있으며, 대소문자 구분 없이 바뀐 문자를 명확하게 식별할 수 있음

lower() 사용 이유는 대소문자 구분없이 일관되게 비교하기 위함

[코드카타] 간단한 식 계산하기

Wed, 04 Sep 2024 11:59:37 GMT

📁문제

문자열 binomial이 매개변수로 주어집니다. binomial은 "a op b" 형태의 이항식이고 a와 b는 음이 아닌 정수, op는 '+', '-', '*' 중 하나입니다. 주어진 식을 계산한 정수를 return 하는 solution 함수를 작성해 주세요.

📁 입출력 예

💡 나의 정답

def solution(binomial): answer = 0 a, op, b = binomial.split() if op == '+': answer = int(a) + int(b) elif op == '-': answer = int(a) - int(b) else: answer = int(a) * int(b) return answer

💡 또 다른 정답

def solution(binomial): return eval(binomial)

나는 하나씩 모두 입력해서 정답을 도출했는데 eval하나만 넣고 돌리면 바로 정답이 나올 줄이야..😂

역시 python은 방법이 정말 다양하다는 것을 깨달았음

📌 eval 함수 : 문자열 형태의 파이썬 표현식을 실행하고 그 결과를 반환 결국, 이 함수는 binomial이라는 문자열 수식을 파이썬 코드로 평가하여 계산 결과를 돌려줌 ㄴ ex) binomial이 "3 + 5"라면, eval("3 + 5")는 8을 반환 binomial이 "10 / 2"라면, eval("10 / 2")는 5.0을 반환

✅ 주의할 점 : eval 함수는 주어진 문자열이 임의의 코드 실행을 가능하게 하므로, 신뢰할 수 없는 입력에 대해 사용하지 않는 것이 좋음

[머신러닝] 딥러닝

Tue, 03 Sep 2024 10:29:11 GMT

📁 딥러닝

<머신러닝 vs 딥러닝>

머신러닝과 딥러닝은 내부 구조와 활용범위가 다를 뿐 기본적인 흐름은 같음

다만 딥러닝은 자연어처리와 이미지 처리에 뛰어난 발전을 이룸

공통점 : 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능(AI)의 하위 분야

차이점

머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 부류를 하는 방법

딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용함

<딥러닝의 유래>

인공 신경망(Artificial Neural Networks)

인간의 신경세포를 모방하여 만든 망(Networks)

신경세포 : 이전 신경세포로 들어오는 자극을 이후 신경세포로 전기신호로 전달하는 기능을 하는 세포

퍼셉트론(Perceptron) : 인공 신경망의 가장 작은 단위

선형회귀식

$$ \hat{Y} = w_0 + w_1X $$

$$ Y = w_0 + w_1X +b $$

몸무게와 키 데이터

Y: 키

X: 몸무게

$w_0$: 100 로 임의로 설정

$w_1$: 1 로 임의로 설정

b(편향, bias): 실제 Y값 - 예측 Y

키-몸무게 데이터에 대한 퍼셉트론

<가중치 구하기 - Gradient Descent>

ex)

늦은 밤 산을 하산하는 가장 쉬운 방법은?

A) 밑으로 밑으로 향하면 됨

회귀 문제에서 최소화 하려는 값은?

Mean Squared Error(MSE): 에러을 제곱한 총합의 평균

즉, 가중치(weight)를 이리 저리 움직이면서 최소의 MSE를 도출

이렇게 최소화하려는 값을 목적 함수 혹은 손실 함수(cost function)이라고 명명 → 📌 경사 하강법(Gradient Descent) : 모델의 손실 함수를 최소화하기 위해 모델의 가중치를 반복적으로 조정하는 최적화 알고리즘(weight를 찾기 위한 직관적이고 빠른 계산 방법) → 변수 X가 여러 개 있다면 동시에 여러 개의 값을 조정하면서 최소의 값을 찾으면 됨

<활성화 함수>

타이타닉 문제에서 사망, 생존과 같은 비선형적분류를 만들기 위해 활성화 함수(Acitvation Fucntion)을 사용하게 됨

로지스틱회귀 때 배웠던 로지스틱 함수 역시 활성화 함수의 한 예

<히든 레이어의 등장>

데이터를 비선형적으로 변환함과 동시에 데이터의 고차원적 특성(ex 이미지, 자연어)을 학습하기 위해 중간에 입력과 결과 외의 추가하게 되는 숨은 층(Hidden Layer)의 개념이 등장 → 📌 하지만, 히든 레이어를 추가할 수록 더 좋은 모델이 나올 줄 알았으나, 실제로는 기울기 소실이라는 문제가 발생(그 이유는 인공 신경망의 학습 과정에 있음)

인공 신경망의 학습

입력 데이터가 신경망의 각 층을 통과하면서 최종 출력까지 생성되는 과정을 순전파(Propagation)

신경망의 오류를 역방향으로 전파하여 각 층의 가중치를 조절하는 과정을 역전파(Backpropagation)

기울기 소실 문제 등장

문제 : 역전파 과정에서 하위 레이어로 갈수록 오차의 기울기가 점점 작아져 가중치가 거의 업데이트 되지 않는 현상

해결 : 특정 활성화 함수(ex Relu)를 통해 완화 하게 됨

각 명칭에 대한 정리

Input Layer : 주어진 데이터가 벡터(Vector)의 형태로 입력됨

Hidden Layer : Input Layer와 Output Layer를 매개하는 레이어로 이를 통해 비선형 문제를 해결할 수 있게 됨

Output Layer : 최종적으로 도착하게 되는 Layer

Activation function(활성화 함수) : 인공신경망의 비선형성을 추가하며 기울기 소실 문제 해결함

<딥러닝의 복습>

딥러닝에서 동일한 데이터에 대해서 여러 번 공부 할 수 있음

epoch : 전체 데이터가 신경망을 통과하는 한 번의 사이클

1000 epoch : 데이터 전체를 1000번 학습

batch : 전체 훈련 데이터 셋을 일정한 크기의 소 그룹으로 나눈 것

iteration : 전체 훈련 데이터 셋을 여러 개(=batch)로 나누었을 때 배치가 학습되는 횟수 ex) 1000개의 데이터 batch size 100개라면, 1 epoch에는 iteration은 10번 일어나며 가중치 업데이트도 10번 진행

📁 Tensorflow 패키지

tensorflow.keras.model.Sequential

model.add: 모델에 대한 새로운 층을 추가함

unit

model.compile: 모델 구조를 컴파일하며 학습 과정을 설정

optimizer : 최적화 방법, Gradient Descent 종류 선택

loss : 학습 중 손실 함수 설정

회귀: mean_squared_error(회귀)

분류: categorical_crossentropy

metrics : 평가척도

mse: Mean Squared Error

acc : 정확도

f1_score: f1 score

model.fit: 모델을 훈련 시키는 과정

epochs: 전체 훈련 데이터 셋에 대해 학습을 반복하는 횟수

model.summary(): 모델의 구조를 요약하여 출력

tensorflow.keras.model.Dense: 완전 연결된 층

unit: 층에 있는 유닛의 수. 출력에 대한 차원 개수

input_shape:1번째 층에만 필요하면 입력데이터의 형태를 지정

model.evaluate: 테스트 데이터를 사용하여 평가

model.predict: 새로운 데이터에 대해서 예측 수행

📁 딥러닝의 활용 예시

<자연어처리(가장 간단)>

인간의 언어를 데이터 화 하는 것

ex) 단어의 빈도 수 기반 데이터 화(Bag of Words)

📁 딥러닝 이미지 예시

이미지는 색깔이 이미 데이터이기 때문에 합성 곱 연산을 통해 딥러닝 모델에 학습하고 이미지를 생성하는 방식으로 발전

<이미지는 원래 데이터 기반>

이미지도 RGB 256개의 데이터로 이루어진 데이터의 집합

3차원 데이터를 모델에 학습 시킴 ex) 숫자 2를 예측하는 딥러닝의 구조 ex) 합성 곱(CNN) 연산의 예시

[코드카타] 원하는 문자열 찾기

Mon, 02 Sep 2024 11:06:01 GMT

📁 문제

알파벳으로 이루어진 문자열 myString과 pat이 주어집니다. myString의 연속된 부분 문자열 중 pat이 존재하면 1을 그렇지 않으면 0을 return 하는 solution 함수를 완성해 주세요.

단, 알파벳 대문자와 소문자는 구분하지 않습니다.

📁 입출력 예

💡 내가 적은 오답(1)

def solution(myString, pat): answer = 0 for i in myString: if i == pat: answer = 1 else: answer = 0 return answe

💡 내가 적은 오답(2)

def solution(myString, pat): if pat in myString: return 1 else: return 0

myString 안에 pat이 존재하는지 확인하기 위해선 for문을 이용해야할줄 알았는데 문자열 내에서 특정 패턴이 존재하는지 확인하는 작업은 문자열의 포함 여부를 확인하는 것이라 필요 없다는 것을 깨닫고 바꾸었음(python의 in연산자를 활용할 수 있음)

그러나 또 오답...

💡 내가 적은 정답

def solution(myString, pat): myString = myString.lower() # 문자열을 소문자로 변환하여 대소문자 구분을 없앰 pat = pat.lower() if pat in myString: return 1 else: return 0

📌 대소문자 구분을 없애는 이유

문자열 검색시 일관성과 정확성을 높이기 위해 대소문자 구분을 없애는게 필요함

사용자의 편의성

문제의 명확성

검색 효율성

정확한 매칭 → 즉, 사용자 입력의 다양한 형태를 처리하고, 검색 결과의 일관성을 보장하며, 알고리즘을 단순화하기 위해서 필요함

[머신러닝] 비지도 학습

Fri, 23 Aug 2024 04:29:39 GMT

📁 붓꽃 데이터를 이용한 군집화

K - 평균 군집화 혹은 알고리즘(K-means clustering) : 가장 일반적으로 사용되는 알고리즘

sepal_length: 꽃 받침의 길이

sepal_width: 꽃 받침의 너비

petal_length: 꽃 잎의 길이

petal_width 꽃 잎의 너비

species(Y, 레이블): 붓꽃 종(setosa, virginica, versicolor)

Labeling이 안된 꽃 받침 길이-너비 산점도

위의 점들을 3개로 그룹화 → “데이터”의 기준으로 보면 3개가 아닌 K개의 그룹으로 정해볼 수 있음

📁 K-Means Clustering

<수행순서>

K개 군집 수 설정

임의의 중심을 선정

해당 중심점과 거리가 가까운 데이터를 그룹화

데이터의 그룹의 무게 중심으로 중심점을 이동

중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화 (3~5번 반복) → 📌 이렇게 임의로 선정한 K군집수를 기준으로 데이터 군집화 프로세스를 진행

장점

일반적이고 적용하기 쉬움

단점

거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐

반복 횟수가 많을 수록 시간이 느려짐

몇 개의 군집(K)을 선정할지 주관적임

평균을 이용하기 때문에(중심점) 이상치에 취약함

Python 라이브러리

sklearn.cluster.KMeans

함수 입력 값

n_cluster: 군집화 갯수

max_iter: 최대 반복 횟수

메소드

labels_: 각 데이터 포인트가 속한 군집 중심점 레이블

cluster_centers: 각 군집 중심점의 좌표

📁 군집평가 지표

<실루엣 계수>

비지도 학습 특성 상 답이 없이 때문에 그 평가를 하긴 쉽지 않음

군집화가 잘되어 있다는 것은 다른 군집간의 거리는 떨어져 있고 동일한 군집끼리는 가까이 있다는 것을 의미 → 📌 실루엣 분석(silhouette analysis) : 간 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정

실루엣 계수

수식:

$$ S(i) = \frac{b(i)-a(i)}{max(a(i),b(i))} \ 단\ i는 데이터 $$

$a(i)$ : 데이터 포인트 $i$ 과 같은 군집에 속한 다른 포인트들과의 평균 거리

$b(i)$ : 데이터 포인트 $i$ 와 가장 가까운 다른 군집 간의 평균 거리

해석 : 1로 갈수록 잘 군집화 되어 있음 / 1에 가까울수록 잘 못 군집화 되어 있음

→ 📌특정한 데이터 i의 실루엣 계수는 얼마나 떨어져있는가($b(i) -a(i)$)가 클 수록 크며, 이를 단위 정규화를 위해 $a(i), b(i)$ 값 중에 큰 값으로 나눔

좋은 군집화의 조건

실루엣 값이 높을수록(1에 가까움)

개별 군집의 평균 값의 편차가 크지 않아야 함

Python 라이브러리

sklearn.metrics.sihouette_score: 전제 데이터의 실루엣 계수 평균 값 반환

함수 입력 값

X: 데이터 세트

labels: 레이블

metrics: 측정 기준 기본은 euclidean

📁 고객 세그멘테이션

이중 고객 세그멘테이션(Customer Segmentation) : 다양한 기준으로 고객을 분류하는 기법

주로 타겟 마케팅이라 불리는 고객 특서엥 맞게 세분화 하여 유형에 따라 맞춤형 마게팅이나 서비스를 제공하는 것을 목표로 둠

RFM의 개념

Recency(R) : 가장 최근 구입 일에서 오늘까지의 시간

Frequency(F) : 상품 구매 횟수

Monetary value(M) : 총 구매 금액

[머신러닝] 회귀, 분류 모델링

Fri, 23 Aug 2024 02:44:52 GMT

📁 의사결정나무(Decision Tree, DT)

의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법

타이타닉의 예시

성별의 기준으로 의사결정나무 시각화

결정 트리의 과정 → 출처 : https://eehoeskrap.tistory.com/12

명칭

루트 노드(Root Node) : 의사결정나무의 시작점 / 최초의 분할조건

리프 노드(Leaf Node) : 루트 노드로부터 파생된 중간 혹은 최종 노드

분류기준(criteria) : sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류

불순도(impurity)

불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게 분포) 됨을 나타냄

리프 노드로 갈수록 불순도가 작아지는(한쪽으로 클래스가 분류가 잘되는)방향으로 나무가 자람

샘플(samples) : 해당 노드의 샘플 개수(891개의 관측치)

값(value) : Y변수에 대한 배열 / 549명이 죽었고(Y = 0), 342명이 살았음(Y = 1)

클래스(class)

가장 많은 샘플을 차지하는 클래스를 표현

위에서는 주황색(Y = 0 다수), 파란색(Y=1 다수)를 표현

<의사결정나무 정리>

장점

쉽고 해석하기 용이

다중분류와 회귀에 모두 적용이 가능

이상치에 견고하며 데이터 스케일링이 불필요(데이터의 상대적인 순서를 고려해서)

단점

나무가 성장을 너무 많이하면 과대 적합의 오류에 빠질 수 있다.

훈련 데이터에 민감하게 반응하여 작은 변화가 노이즈에도 나무의 구조가 크게 달라짐(불안정성)

Python 라이브러리

sklearn.tree.DecisionTreeClassifier

sklearn.tree.DecisionTreeRegressor

📁 랜덤 포레스트 이론

의사결정 나무는 과적합과 불안정성 대한 문제가 대두

이를 해결하기 위한 아이디어는 바로 나무(tree)를 여러 개 만들어 숲(Forest)를 만드는 것

<배깅(Bagging)의 원리>

언제나 머신러닝은 데이터의 부족이 문제

이를 해결 하기 위한 Bootstrapping + Aggregating 방법론

Bootstrapping : 데이터를 복원 추출해서 유사하지만 다른 데이터 집단을 생성하는 것

Aggregating : 데이터의 예측,분류 결과를 합치는 것

Ensemble(앙상블) : 여러 개의 모델을 만들어 결과를 합치는 것

Bootstrap은 “자기 스스로 해낸다”의 뜻의 유래를 가지고 있고, 영단어로는 부츠 신발의 끈을 의미

이를 차용하여 데이터를 복원추출한다는 것을 뜻

이렇게 생성된 데이터 샘플들은 모집단의 분포를 유사하게 따라가고 있어 다양성을 보장하면서 데이터의 부족 이슈를 해결하게 됨

여러 개의 데이터 샘플에서 각자 의사결정트리를 만들어서 다수결 법칙에 따라 결론을 냄

ex) 1번 승객에 대해서 모델 2개는 생존, 모델 1개는 사망을 분류하였다면, 1번 승객은 최종적으로 생존으로 분류 → 📌 의사결정나무의 장점은 수용하고 단점은 보완하여, 랜덤 포레스트는 일반적으로 굉장히 뛰어난 성능을 보여서 지금도 자주 쓰이는 알고리즘

<랜덤 포레스트 정리>

장점

Bagging 과정을 통해 과적합을 피할 수 있음

이상치에 견고하며 데이터 스케일링이 불필요

변수 중요도를 추출하여 모델 해석에 중요한 특징을 파악 할 수 있음

단점

컴퓨터 리소스 비용이 큼

앙상블 적용으로 해석이 어려움

Python 패키지

sklearn.ensemble.RandomForestClassifer

sklearn.ensemble.RandomForestRegressor

📁 최근접 이웃

K-Nearest Neighbor(KNN, KNN) : 주변의 데이터를 보고 내가 알고 싶은 데이터를 예측하는 방식

K=3이라면 별 1개와 세모 2개이므로 ? 는 세모로 예측될 것

K=7이라면 별 4개와 세모 3개이므로 ?는 별로 예측될 것 → 📌 KNN의 기본 원리 : 확인할 주변 데이터 K개를 선정 후에 거리 기준으로 가장 많은 것으로 예측하는 것

<하이퍼 파라미터의 개념>

파라미터(Parameter) : 머신러닝 모델이 학습 과정에서 추정하는 내부 변수이며 자동으로 결정 되는 값

Ex) 선형회귀에서 가중치와 편향

(혼동주의) Python에서는 함수 정의에서 함수가 받을 수 있는 인자(입력 값)를 지정하는 개념

하이퍼 파라미터(Hyper parameter) : 데이터 과학자가 기계 학습 모델 훈련을 관리하는데 사용하는 외부 구성변수이며 모델 학습과정이나 구조에 영향을 미침

<거리의 개념>

유클리드 거리(Euclidean Distance) : 두 점의 좌표가 주어지면 피타고라스의 정리로 거리를 구할 수 있는 것

유클리드 거리 공식:

표준화는 필수

장점

이해하기 쉽고 직관적

모집단의 가정이나 형태를 고려하지 않음

회귀, 분류 모두 가능함

단점

차원 수가 많을 수록 계산량이 많아짐

거리 기반의 알고리즘이기 때문에 피처의 표준화가 필요함

Python 라이브러리

sklearn.neighbors.KNeighborsClassifier

sklearn.neighbors.KNeighborsRegressor

📁 부스팅 알고리즘

부스팅(Boosting) 알고리즘 : 여러 개의 약한 학습기(weak learner)를 순차적으로 학습하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해나가는 학습 방식

빨간색과 초록색을 분류하는 문제의 경우 1개의 선(learner)으로 구별되지 않는 경우가 있음

이를 통해 여러 개의 learner를 합친 ensemble을 통해 성능을 올리는 방법

부스팅 알고리즘 종류

Gradient Boosting Model

특징

가중치 업데이트를 경사하강법 방법을 통해 진행

Python 라이브러리

sklearn.ensemble.GradientBoostingClassifier

sklearn.ensemble.GradientBoostingRegressor

XGBoost

특징

트리기반 앙상블 기법으로, 가장 각광받으며 Kaggle의 상위 알고리즘

병렬학습이 가능해 속도가 빠름

Python 라이브러리

xgboost.XGBRegressor

xgboost.XGBRegressor

LightGBM

특징

XGBoost와 함께 가장 각광받는 알고리즘

XGBoost보다 학습시간이 짧고 메모리 사용량이 작음

작은 데이터(10,000건 이하)의 경우 과적합 발생

Python 라이브러리

lightgbm.LGBMClassifier

lightgbm.LGBMRegressor

[코드카타] 길이에 따른 연산

Thu, 22 Aug 2024 06:03:37 GMT

📁 문제

정수가 담긴 리스트 num_list가 주어질 때, 리스트의 길이가 11 이상이면 리스트에 있는 모든 원소의 합을 10 이하이면 모든 원소의 곱을 return하도록 solution 함수를 완성해주세요.

📁 입출력 예

💡 나의 오답

def solution(num_list): answer = 0 if len(num_list) >= 11: for i in num_list: answer += i else: for i in num_list: answer *= i return answer

if에서 리스트의 길이 11 이상일 때 리스트에 있는 모든 원소들의 합

else에서 10이하면 모든 원소들의 곱을 return하는 코드를 작성함 → 그러나 첫 번째 테스트만 통과하고 두 번째 테스트는 실패... → 무언가 더 추가해야 하는 건가 싶어서 더 시도를 해보았음

💡 나의 정답

def solution(num_list): answer = 0 if len(num_list) >= 11: for i in num_list: answer += i else: answer = 1 for i in num_list: answer *= i return answer

뭐가 문제인지 모르겠어서 인터넷에 찾아보니 곱셈을 하기 전에 초기 값을 1로 설정을 하는게 좋다고 함

그래서 for문 시작 전 answer = 1을 추가 함

📌 곱셈의 항등원이란?

수학적으로 곱셈에서 1은 곱하기 연산에 대해 항등원 역할을 함

즉, 1로 초기화한 상태에서 다른 숫자를 곱하면, 결과가 정확하게 계산

💡 다른 사람의 정답

from math import prod def solution(num_list): return (sum(num_list) if len(num_list) > 10 else prod(num_list))

math모듈에서 prod함수를 가져오는 것 → prod : 리스트의 모든 원소를 곱한 값을 반환하는 함수

return (sum(num_list) if len(num_list) > 10 else prod(num_list)) → len(num_list) > 10 조건이 참인 경우, sum(num_list)를 반환 즉, 리스트의 길이가 11 이상이면 리스트의 원소들의 합을 계산하여 반환 → len(num_list) <= 10 조건이 거짓인 경우, prod(num_list)를 반환 즉, 리스트의 길이가 10 이하이면 리스트의 원소들을 모두 곱한 값을 계산하여 반환

[머신러닝] 머신러닝 프로세스

Wed, 21 Aug 2024 07:31:11 GMT

📁 예측 모델링 프로세스

📁 데이터 수집

데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당

<실제 데이터 수집>

회사 내 데이터가 존재한다면

SQL 혹은 Python 을 통해 데이터 마트를 생성

회사 내 Data가 없다면 → 데이터 수집 필요

방법1 : CSV, EXCEL 파일 다운로드

방법2 : API를 이용한 데이터 수집

방법3 : Data Crawling

📁 탐색적 데이터 분석(EDA)

탐색적 데이터 분석은 데이터의 시각화, 기술 통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정

이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있음

예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정

ex) 기술 통계를 통한 EDA 예시

tips.describe()

include='all' 옵션을 통해 범주형 데이터도 확인 가능

ex) 시각화를 이용한 EDA 예시

tips 데이터

countplot : 범주형 자료의 빈도 수 시각화

방법: 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때

ex) 상점에서 판매되는 제품의 카테고리별 판매수 파악

x축: 범주형 자료

y축: 자료의 빈도수

barplot : 범주형 자료의 시각화

방법: 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교

ex) 다양한 연령대별 평균소득을 비교할 때

x축: 범주형 자료

y축: 연속형 자료

boxplot : 수치형 & 범주형 자료의 시각화

방법: 데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현하고 싶을 때

ex) 여러 그룹간 시험 점수 분포를 비교할 때

x: 수치형 or 범주형

y: 수치형 자료

histogram : 수치형 자료 빈도 시각화

방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움

ex)고객들의 연령 분포를 파악 할 때

x축: 수치형 자료

y축: 자료의 빈도수

scatterplot : 수치형끼리 자료의 시각화

방법: 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때

ex) 키와 몸무게 간의 관계를 나타낼 때

x축: 수치형 자료

y축: 수치형 자료

pairplot : 전체 변수에 대한 시각화

방법: 한 번에 여러 개의 변수를 동시에 시각화 하고 싶을 때

x축: 범주형 or 수치형 자료

y축: 범주형 or 수치형 자료

대각선: 히스토그램(분포)

📁 데이터 전처리

이는 전체 분석 프로세스에서 90%를 차지 할 정도로 노동, 시간 집약적인 단계

<이상치(Outlier)>

이상치란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값

Extreme Studentized Deviation(ESD) 이용한 이상치 발견

데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값

모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한됨

데이터가 크게 비대칭일 때( → Log변환 등을 노려볼 수 있음)

샘플 크기가 작을 경우

IQR(Inter Quantile Range)를 이용한 이상치 발견

ESD와 동일하게 데이터가 비대칭적이거나 샘플사이즈가 작은 경우 제한됨

Box plot: 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림이라고도 함

사분위 수: 데이터를 순서에 따라 4등분 한 것

$$ Q1(25%), Q2(50%,중위수), Q3(75%) $$

$$ ⁍ $$

$$ 상한 \ 이상치 = Q3 + 1.5IQR \ 하한 \ 이상치 = Q1 - 1.5IQR $$

이상치 발견 방법
# ESD를 이용한 처리 import numpy as np mean = np.mean(data) std = np.std(data) upper_limit = mean + 3*std lower_limit = mean - 3*std

# IQR을 이용한 처리(box plot) Q1 = df['column'].quantile(0.25) Q3 = df['column'].qunatile(0.75) IQR = Q3 - Q1 uppper_limit = Q3 + 1.5*IQR lower_limit = Q1 - 1.5*IQR

조건필터링을 통한 삭제(a.k.a. boolean Indexing): df[ df['column'] > limit_value]

이상치는 사실 주관적인 값(데이터를 삭제할지 말지는 분석가가 결정할 몫)

다만, 도메인과 비즈니스 맥락에 따라 그 기준이 달라지며, 데이터 삭제시 품실은 좋아질 수 있지만 정보 손실을 동반하기 때문에 이상치 처리에 주의해야 함(단지, 통계적 기준에 따라서 결정할 수도 있음)

또한, 이상 탐지(Anomaly Detection)이라는 이름으로 데이터에서 패턴을 다르게 보이는 개체 또는 자료를 찾는 방법으로도 발전할 수 있음 → ex) 사기 탐지, 사이버 보안 등

<결측치(Missing Value)>

이상치가 분포에 크게 어긋나는 특이한 데이터라면, 결측치는 존재하지 않는 데이터

결측치 처리 방법

수치형 데이터

평균 값 대치: 대표적인 대치 방법

중앙값 대치: 데이터에 이상치가 많아 평균 값이 대표성이 없다면 중앙 값을 이용 ex) 이상치는 평균 값을 흔들리게 함

범주형 데이터

최빈값 대치

사용 함수

간단한 삭제 & 대치

df.dropna(axis = 0): 행 삭제

df.dropna(axis = 1): 열 삭제

Boolean Indexing

df.fillna(value): 특정 값으로 대치(평균, 중앙, 최빈값)

알고리즘을 이용

sklearn.impute.SimpleImputer:평균, 중앙, 최빈값으로 대치

SimpleImputer.statistics_ : 대치한 값 확인 가능

sklearn.impute.IterativeImputer: 다변량대치(회귀 대치)

sklearn.impute.KNNImputer: KNN 알고리즘을 이용한 대치

→ 📌 위와 같이 간단하게 결측치를 대치할 수도 있지만, 알고리즘을 이용해 대치할 수도 있음

<범주형 데이터 전처리 - 인코딩(Encoding)>

인코딩의 사전적 뜻은 어떤 정보를 정해진 규칙에 따라 변환하는 것

반면 우리가 만든 머신러닝 모델은 숫자를 기반으로 학습하기 때문에 반드시 인코딩 과정이 필요

레이블 인코딩(Label Encoding)

정의: 문자열 범주형 값을 고유한 숫자로 할당

1등급 → 0

2등급 → 1

3등급 → 2

특징

장점: 모델이 처리하기 쉬운 수치형으로 데이터 변환

단점: 실제로는 그렇지 않은데, 순서 간 크기에 의미가 부여되어 모델이 잘못 해석 할 수 있음

사용 함수

sklearn.preprocessing.LabelEncoder

메소드

fit: 데이터 학습

transform: 정수형 데이터로 변환

fit_transform: fit과 transform을 연결하여 한번에 실행

inverse_transform : 인코딩된 데이터를 원래 문자열로 변환

속성

classes_: 인코더가 학습한 클래스(범주)

원-핫 인코딩(One-Hot Encoding)

정의: 각 범주를 이진 형식으로 변환하는 기법

빨강 → [1,0,0]

파랑 → [0,1,0]

초록 → [0,0,1]

특징

장점: 각 범주가 독립적으로 표현되어, 순서가 중요도를 잘못 학습하는 것을 방지, 명목형 데이터에 권장

단점: 범주 개수가 많을 경우 차원이 크게 증가(차원의 저주) , 모델의 복잡도를 증가, 과적합 유발

사용 함수

pd.get_dummies

sklearn.preprocessing.OneHotEncoder

메소드(LabelEncoder와 동일)

categories_: 인코더가 학습한 클래스(범주)

get_feature_names_out(): 학습한 클래스 이름(리스트)
# CSR 데이터 데이터프레임으로 만들기 csr_df = pd.DataFrame(csr_data.toarray(), columns = oe.get_feature_names_out()) # 기존 데이터프레임에 붙이기(옆으로) pd.DataFrame([titaninc_df,csr_df], axis = 1)

<수치형 데이터 전처리 - 스케일링(Scaling)>

인코딩이 범주형 자료에 대한 전처리라고 한다면, 스케일링은 수치형 재료에 대한 전처리

머신러닝의 학습에 사용되는 데이터들은 서로 단위 값이 다르기 때문에 이를 보정하는 것

표준화(Standardization)

각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0 표준편차를 1로 조정하는 방법

수식

$$ x_{new} = \frac{x-x_{mean}}{x_{std}} $$

함수: sklearn.preprocessing.StandardScaler

메소드

fit : 데이터학습(평균과 표준편차를 계산)

transform: 데이터 스케일링 진행

속성

mean_: 데이터의 평균 값

scale_, var_: 데이터의 표준 편차,분산 값

n_features_in_: fit 할 때 들어간 변수 개수

feature_names_in_: fit 할 때 들어간 변수 이름

n_samples_seen_ : fit 할 때 들어간 데이터의 개수

특징

장점

이상치가 있거나 분포가 치우쳐져 있을 때 유용

모든 특성의 스케일을 동일하게 맞춤 / 많은 알고리즘에서 좋은 성능

단점

데이터의 최소-최대 값이 정해지지 않음.

정규화(Normalization)

정의: 데이터를 0과 1사이 값으로 조정(최소값 0, 최대값 1)

수식

$$ x_{norm} = \frac{x-x_{min}}{x_{max}-x_{min}} $$

함수: sklearn.preprocessing.MinMaxScaler

(표준화와 공통인 것은 제외)

속성

data_min_: 원 데이터의 최소 값

data_max_: 원 데이터의 최대 값

data_range_ : 원 데이터의 최대-최소 범위

특징

장점

모든 특성의 스케일을 동일하게 맞춤

최대-최소 범위가 명확

단점:

이상치에 영향을 많이 받을 수 있음(반대로 말하면 이상치가 없을 때 유용)

로버스트 스케일링(Robust Scaling)

정의: 중앙값과 IQR을 사용하여 스케일링

수식

$$ x_{robust} = \frac{x-median}{IQR} $$

특징

장점: 이상치의 영향에 덜 민감

단점: 표준화와 정규화에 비해 덜 사용됨

함수: sklearn.preprocessing.RobustScaler

속성

center_: 훈련 데이터의 중앙값

📁 데이터 분리

<과적합은 머신러닝의 적>

국소적인 문제를 해결하는 것에 집중한 나머지 일반적인 문제를 해결하지 못하는 현상을 과대적합 이슈라고 함

즉, 과대적합(Overfitting)이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상

예측 혹은 분류를 하기 위해서 모형을 복잡도를 설정

모형이 지나치게 복잡할 때 : 과대 적합이 될 수 있음

모형이 지나치게 단순할 때: 과소 적합이 될 수 있음

과적합의 원인

모델의 복잡도(상기의 예시)

데이터 양이 충분하지 않음

학습 반복이 많음(딥러닝의 경우)

데이터 불균형(정상환자 - 암환자의 비율이 95: 5)

<과적합 해결 - 테스트 데이터의 분리>

학습 데이터(Train Data) : 모델을 학습(fit)하기 위한 데이터

테스트 데이터(Test Data) : 모델을 평가 하기 위한 데이터

함수 및 파라미터 설명

sklearn.model_selection.train_test_split

파라미터

test_size: 테스트 데이터 세트 크기

train_size: 학습 데이터 세트 크기

shuffle: 데이터 분리 시 섞기

random_state: 호출할 때마다 동일한 학습/테스트 데이터를 생성하기 위한 난수 값. 수행할 때 마다 동일한 데이터 세트로 분리하기 위해 숫자를 고정 시켜야 함

반환 값(순서 중요)

X_train, X_test, y_train, y_test

📁 데이터 전체 프로세스 적용 과정 예시

데이터 로드 & 분리

train / test 데이터 분리

탐색적 데이터 분석(EDA)

분포확인 & 이상치 확인

데이터 전처리

결측치 처리

수치형: Age

범주형: Embarked

삭제 : Cabin, Name

전처리

수치형: Age, Fare, Sibsp+Parch

범주형

레이블 인코딩: Pclass, Sex

원- 핫 인코딩: Embarked

모델 수립

평가

📁 교차 검증과 GridSearch

<교차 검증(Cross Validation)>

모델을 평가하기 위한 별도의 테스트 데이터로 평가하더라도 고정된 테스트 데이터가 존재하기 때문에 과적합에 취약한 단점이 있음

이를 피하기 위한 교차검증방법이 있음 → 📌 교차 검정이란 데이터 셋을 여러 개의 하위 집합으로 나누어 돌아가면서 검증 데이터로 사용하는 방법

K-Fold Validation

Train Data를 K개의 하위 집합으로 나누어 모델을 학습시키고 모델을 최적화 하는 방법

이때 K는 분할의 갯수

Split 1: 학습용(Fold 2~5), 검증용(Fold1)

Split 2: 학습용(Fold1, 3~5), 검증용(Fold2)

Split 5까지 반복 후 최종 평가

특징

데이터가 부족할 경우 유용합니다.(반복 학습)

함수

skelarn.model_selection.KFold

sklearn.model_selection.StrifiedKFold: 불균형한 레이블(Y)를 가지고 있을 때 사용

<하이퍼 파라미터 자동적용하기 - GridSearchV>

하이퍼 파라미터(Hyper Parameter) : 모델을 구성하는 입력 값 중 사람이 임의적으로 바꿀 수 있는 입력 값

다양한 값을 넣고 실험할 수 있기 때문에 이를 자동화해주는 Grid Search를 적용해볼 수 있음

💡 데이터 분석 프로세스 총 정리(전체 데이터 프로세스)

[코드카타] 왼쪽 오른쪽

Tue, 20 Aug 2024 11:07:24 GMT

📁 문제

문자열 리스트 str_list에는 "u", "d", "l", "r" 네 개의 문자열이 여러 개 저장되어 있습니다. str_list에서 "l"과 "r" 중 먼저 나오는 문자열이 "l"이라면 해당 문자열을 기준으로 왼쪽에 있는 문자열들을 순서대로 담은 리스트를, 먼저 나오는 문자열이 "r"이라면 해당 문자열을 기준으로 오른쪽에 있는 문자열들을 순서대로 담은 리스트를 return하도록 solution 함수를 완성해주세요. "l"이나 "r"이 없다면 빈 리스트를 return합니다.

📁 입출력 예

💡 내가 적은 오답

def solution(str_list): answer = [] for i in range(len(str_list)): if i == "l": return str_list[:i] elif i == "r": return str_list[i+1:] else: return []

나름 정답일 것 같다는 생각으로 코드 실행을 눌렀지만 테스트 두 개 중 하나를 틀렸다..

💡 내가 적은 정답

def solution(str_list): for i in range(len(str_list)): if str_list[i] == "l": return str_list[:i] elif str_list[i] == "r": return str_list[i+1:] else: return []

고민하다가 들여쓰기를 잘못했나라는 생각이 들어서 else의 들여쓰기를 바꿔봤더니 정답...!

else 구문을 if, elif에 맞추는 것이 아닌 for 루프에 맞춰도 되는지 의문이 들어 찾아봄

파이썬에서 else 블록은 루프가 정상적으로 끝날 때 실행되도록 설계되어 있기 때문에 else 구문은 for 루프와 맞춰서 들여쓰기를 하는 것이 맞음

📌

1. else 구문 위치 - else 블록은 for 루프의 블록 내부에 위치해야 하며, for 루프가 반복을 마친 후 실행됨 - 즉, for 루프가 중간에 return 문으로 종료되지 않고 끝까지 실행된 경우에만 else 블록이 실행됨 2. 들여쓰기 - else 블록의 들여쓰기는 for 루프와 같은 수준으로 맞춰야 함 - 즉, for 루프의 내부 블록과 같은 들여쓰기를 사용하여 else 블록이 for 루프와 연결되어 있다는 것을 명확히 해야 함

💡 또 다른 정답

def solution(str_list): for i in range(len(str_list)): if str_list[i] == "l": return str_list[:i] elif str_list[i] == "r": return str_list[i+1:] return []

이렇게 애초에 else 구문을 작성 안하고 바로 return []를 해도 결과가 나온다는 것을 알게 되어 생각지도 못해 신기해서 가져와 보았음

[아티클] 확실히 알아두면 편해지는 머신러닝 10가지 알고리즘

Mon, 19 Aug 2024 11:55:33 GMT

📁 1. 선형 회귀(Linear Regression)

가장 기초 적인 머신러닝 모델

여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적 ex) 몸무게, 나이, BMI, 성별 등을 데이터로 활용하여 키와 같은 연속형 변수를 예측하는 것 → 남성/여성으로 구분되는 성별은 연속형 변수가 아님

선형 회귀 모델은 예측할 종속 변수만 연속형 변수이어야 하며, 예측하는데 사용되는 그외 변수들은 연속형일 필요는 없음

구분 : 지도 학습

문제 유형 : 회귀

적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터 → 복잡한 알고리즘에 비해서는 예측력이 떨어지지만 데이터 특성이 복잡하지 않을 때는 쉽고 빠른 예측이 가능하기 때문에 많이 사용됨 → 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 함

<장점>

모델이 간단하기 때문에 구현과 해석이 쉬움

같은 이유로 모델링하는 데 오랜 시간이 걸리지 않음

<단점>

최신 알고리즘에 비해 예측력이 떨어짐

독립변수와 예측변수의 선형 관계를 전제로 하기 때문에, 이러한 전제에서 벗어나는 데이터에서는 좋은 예측을 보여주기 어려움

<예시>

연속된 변수를 예측하는 데 사용

BMI(체질량지수), 매출액, 전력 사용량과 같은 변수

📁 2. 로지스틱 회귀(Logistic Regression)

선형회귀처럼 기본 분석 모델

알고리즘의 근간을 선형 회귀 분석에 두고 있어서 선형 회귀 분석과 상당히 유사하지만 다루는 문제가 다름

선형 회귀 분석은 연속된 변수를 예측하는 반면, 로지스틱 회귀 분석은 Yes/No처럼 두 가지로 나뉘는 분류 문제를 다룸

구분 : 지도 학습

문제 유형 : 분류

적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터 → 너무 기본 알고리즘이라 꼭 알고 있어야 함 → 실제 이진분류가 필요한 상황이 많이 때문에 두 가지 범주를 구분하는 간단한 예측에 유용하며 딥러닝에서도 기본 지식

<장점>

선혀 회귀 분석만큼 구현하기 용이

계수(기울기)를 사용해 각 변수의 중요성을 쉽게 파악할 수 있음

<단점>

선형 회귀 분석을 근간으로 하고 있기 때문에, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐

<예시>

Yes/No, True/False와 같은 두 가지 범주로 나뉜 값을 예측하는 데 사용

분류 문제에 있어서 기준선 베이스라인으로 자주 활용(타 모델과 비교 목적)

📁 3. K-최근접 이웃(KNN)

거리 기반 모델

선형 관계를 전제로 하지 않음

각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델

가까이에 있는 데이터를 고려하여 예측값이 결정됨

구분 : 지도학습

문제 유형 : 회귀/분류

적합한 데이터 유형 : 아웃라이어가 적은 데이터 → 다중분류 문제에 가장 간편히 적용할 수 있는 알고리즘(베이스라인 모델로도 사용)

<장점>

수식에 대한 설명이 필요 없을 만큼 직관적이고 간단

선형 모델과 다르게 별도의 가정이 없음 ex) 선형 회귀는 독립변수와 종속변수의 선형 관계를 가정하고 있기 때문에 가정에 들어맞지 않는 데이터에 취약하나, KNN은 이러한 가정이 없어 더 자유로움

<단점>

데이터가 커질수록 상당히 느려질 수 있음

아웃라이어에 취약

<예시>

주로 분류(Classification)에서 사용되며, 로지스틱 회귀(Logistic Regression)로 해결할 수 없는 3개 이상의 목표 변수들도 분류할 수 있음

작은 데이터셋에 적합

📁 4. 나이브 베이즈(Naive Bayes)

베이즈 정리를 적용한 조건부 확률 기반의 분류 모델 → 조건부 확률 : A가 일어났을 때 B가 일어날 확률을 의미 ex) '무료라는 단어가 들어 있을 때 해당 메일이 스팸일 확률' (이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힘)

구분 : 지도 학습

문제 유형 : 분류

적합한 데이터 유형 : 독립변수의 종류가 매우 많은 경우고리즘 → 범용성이 높지는 않지만 독립변수들이 모두 독립적이라면 충분히 경쟁력 있는 알고리즘 → 딥러닝을 제외하고 자연어 처리에 가장 적합한 알고리즘

<장점>

-** 비교적 간단한** 알고리즘에 속하며 속도 또한 빠름

작은 훈련셋으로도 잘 예측함

<단점>

모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하고 단점이 되기도 함 → 실제 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만, 실제 데이터에서 그런 경우가 많지 않기에 단점임

<예시>

각 독립변수들이 모두 독립적이고, 그 중요도가 비슷할 때 유용

자연어 처리(NLP)에서 간단하지만 좋은 성능을 보여줌

범주 형태의 변수가 많을 때 적합하며, 숫자형 변수가 많은 때는 적합하지 않음

📁 5. 결정 트리(Decision Tree)

관측값과 목푯값을 연결시켜주는 예측 모델로서 나무 모양으로 데이터를 분류

수많은 트리 기반 모델의 기본 모델이 되는 중요 모델

트리 기반 모델은 선형 모델과는 전혀 다른 특징을 가지며, 선형 모델이 각 변수에 대한 기울기 값들을 최적화하여 모델을 만들어 나갔다면, 트리 모델에서는 각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델을 만듦 ex) 남자/여자로 나눠서 각 목푯값 평균치를 나눈다거나, 나이를 30세 이상/미만인 두 분류로 나눠서 평균치를 계산하는 방식으로 데이터를 무수하게 쪼개어 나가고, 각 그룹에 대한 예측치를 만들어 냄

구분 : 지도 학습

문제 유형 : 회귀/분류

적합한 데이터 유형 : 일반적인 데이터 → 예측력과 성능으로만 따지면 시각화가 매우 뛰어나다는 유일한 장점이 있을 뿐 결정 트리 모델을 사용할 일은 없음 → 하지만 트리 기반 모델은 딥러닝을 제외하고 현재 가장 유용하고 많이 쓰이는 트렌드임

<장점>

데이터에 대한 가정이 없는 모델

ex) 선형 모델은 정규분포에 대한 가정이나 독립변수와 종속변수의 선형 관계 등을 가정으로 하는 모델인 반면, 결정 트리는 데이터에 대한 가정이 없으므로 어디에나 자유롭게 적용할 수 있음

아웃라이어에 영향을 거의 받지 않음

트리 그래프를 통해서 직관적으로 이해하고 설명할 수 있음(즉, 시각화에 굉장히 탁월)

<단점>

트리가 무한정 깊어지면 오버피팅 문제를 야기할 수 있음

앞으로 배울 발전된 트리 기반 모델들에 비하면 예측력이 상당히 떨어짐

<예시>

종속변수가 연속형 데이터와 범주형 데이터 모두 사용할 수 있음

모델링 결과를 시각화할 목적으로 가장 유용

아웃라이어가 문제될 정도로 많을 때 선형 모델보다 좋은 대안이 될 수 있음

📁 6. 랜덤 포레스트(Random Forest)

결정 트리의 단점인 오버피팅 문제를 완화시켜주는 발전된 형태의 트리 모델

랜덤으로 생성된 무수히 많은 트리를 이용하여 예측하기 때문에 랜덤 포레스트라 불림 → 여러 모델(여기서는 결정 트리)을 활용하여 하나의 모델을 이루는 기법을 앙상블이라 부름

구분 : 지도학습

문제 유형 : 회귀/분류

적합한 데이터 유형 : 일반적인 데이터 → 앙상블 기법을 사용한 기반 모델 중 가장 보편적인 방법

<장점>

결정 트리와 마찬가지로, 아웃라이어에 거의 영향을 받지 않음

선형/비선형 데이터에 상관없이 잘 작동

<단점>

학습 속도가 상대적으로 느린 편

수많은 트리를 동원하기 때문에 모델에 대한 해석이 어려움

📁 7. XG부스트(XGBoost)

랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘이나 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어 내는 알고리즘

트리 모델을 기반으로 한 최신 알고리즘 중 하나로, 랜덤 포레스트보다 훨씬 빠른 속도와 더 좋은 예측 능력을 보여줌

손실함수뿐만 아니라 모형 복잡도까지 고려함

구분 : 지도 학습

문제 유형 : 회귀/분류

적합한 데이터 유형 : 일반적인 데이터

<장점>

예측 속도가 상당히 빠르며, 예측력 또한 좋음

변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여줌

<단점>

복잡한 모델인 만큼, 해석에 어려움이 있음

더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다로움

📁 8. 라이트GBM(LightGBM)

XGBoost 이후로 나온 최신 부스팅 모델

리프 중심 트리 분할 방식을 사용

구분 : 지도 학습

문제 유형 : 회귀/분류

적합한 데이터 유형 : 일반적인 데이터

<장점>

XGBoost보다도 빠르고 높은 정확도를 보여주는 경우가 많음

예측에 영향을 미친 변수의 중요도를 확인할 수 있음

변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여줌

<단점>

복잡한 모델인 만큼, 해석에 어려움이 있음

하이퍼파라미터 유닝이 까다로움

📁 9. K-평균 군집화(K Means Clustering)

비지도 학습의 대표적인 알고리즘 중 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 머신러닝 기법

거리 기반으로 작동하며 적절한 K값을 사용자가 지정해야 함

거리 기반으로 작동하기 때문에 데이터 위치가 가까운 데이터끼리 한 그룹으로 묶음(이때 전체 그룹의 수는 사용자가 지정한 K개) → 수많은 데이터를 가지고 있을 때, 데이터를 하나하나 직접 살펴보기에는 시간적인 한계가 따름 → 클러스터링은 이러한 상황에서 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점을 제공

<장점>

구현이 비교적 간단

클러스터링 결과를 쉽게 해석할 수 있음

<단점>

최적의 K값을 자동으로 찾지 못하고, 사용자가 직접 선택해야 함

거리 기반 알고리즘이기 때문에, 변수의 스케일에 따라 다른 결과를 나타낼 수 있음

📁 10. 주성분 분석(PCA)

Principal Component Analysis의 약자

비지도 학습에 속하기 때문에 당연히 종속 변수는 존재하지 않고, 어떤 것을 예측하지도 분류하지도 않음

PCA의 목적은 데이터 차원을 축소하는 데 있음(차원 축소 : 변수의 개수를 줄이되, 가능한 그 특성을 보존해내는 기법)

기존의 변수 중 일부를 그대로 선택하는 방식이 아니라, 기존 변수들의 정보를 모두 반영하는 새로운 변수들을 만드는 방식으로 차원 축소를 함 → 차원 축소 방법 중 가장 인기 있으며 구현하기 또한 쉬운 편

<장점>

다차원을 2차원에 적합하도록 차원 축소하여 시각화에 유용

변수 간의 높은 상관관계 문제를 해결해줌

<단점>

기존 변수가 아닌 새로운 변수를 사용하여 해석하는 데 어려움이 있음

차원이 축소됨에 따라 정보 손실이 불가피

<예시>

다차원 변수들을 2차원 그래프로 표현하는 데 사용할 수 있음

변수가 너무 많아 모델 학습에 시간이 너무 오래 걸릴 때 (차원 축소를 진행하면 학습에 드는 시간을 줄일 수 있어) 유용

오버피팅을 방지하는 용도로 사용할 수도 있음

📌 출처 ‣ https://yozm.wishket.com/magazine/detail/1931/

[코드카타] qr code

Fri, 16 Aug 2024 10:29:41 GMT

📁 문제

두 정수 q, r과 문자열 code가 주어질 때, code의 각 인덱스를 q로 나누었을 때 나머지가 r인 위치의 문자를 앞에서부터 순서대로 이어 붙인 문자열을 return 하는 solution 함수를 작성해 주세요.

📁 입출력 예

💡 내가 적은 오답

def solution(q, r, code): answer = '' for i in code: if i % q == r: answer += [r+1] return answer

r인 위치의 문자를 앞을 꺼내오는 방법을 내 머리에서 생각할 수 있는 최선이 r+1...

역시나 틀렸었고, 예전에 이와 비슷한 문제를 풀 때 사용했던 것이 있었던 것 같아 찾아보았음

💡 나의 정답

def solution(q, r, code): answer = '' for i, char in enumerate(code): if i % q == r: answer += char return answer

char : 문자열 code의 각 문자(현재 인덱스 i에 위치한 문자) → char의 역할 : 현재 인덱스에서 code 문자열의 특정 문자를 참조하는 것

i : 문자 char의 인덱스

enumerate : code의 각 문자와 해당 문자의 인덱스를 함께 반환

💡인상 깊었던 다른 정답

def solution(q, r, code): return code[r::q]

code[r::q] : 인덱스 r에서 시작하여 매 q번째 인덱스의 문자를 추출

나머지가 r인 인덱스를 정확히 선택하기 때문에 문제의 요구사항을 만족

q로 나눈 나머지가 r인 위치의 문자를 추출하는 방식과 일치

→ 진짜 미친 것 같다.. 어떻게 이런 방식을 생각할까..? 나는 언제쯤 자연스레 이렇게 생각할까?😂

[코드카타] 접두사인지 확인하기

Wed, 14 Aug 2024 10:04:32 GMT

📁 문제

어떤 문자열에 대해서 접두사는 특정 인덱스까지의 문자열을 의미합니다. 예를 들어, "banana"의 모든 접두사는 "b", "ba", "ban", "bana", "banan", "banana"입니다. 문자열 my_string과 is_prefix가 주어질 때, is_prefix가 my_string의 접두사라면 1을, 아니면 0을 return 하는 solution 함수를 작성해 주세요.

📁 입출력 예

💡 내가 적은 오답

def solution(my_string, is_prefix): return 1 if my_string in is_prefix else 0

일부만 정답으로 나옴

💡 내가 적은 정답

def solution(my_string, is_prefix): if my_string.startswith(is_prefix): return 1 else: return 0

위에 적은 코드 외에 다양하게 시도를 해보았지만 답이 나오지 않았음

python에 내가 원하는 문자열이 특정 문자로 시작하는지 알 수 있는 메서드가 있을 것 같아 찾아 보았음

startswith 메서드를 발견하였음 → 이는 문자열 메서드로, 문자열이 특정 접두사로 시작하는지 확인함 (시작하면 True, 그렇지 않으면 False를 반환함)

💡 그 외 정답

def solution(my_string, is_prefix): return 1 if my_string.find(is_prefix) == 0 else 0

find 메서드 : is_prefix가 my_string의 맨 앞에서 시작하면 0을 반환하고, 그렇지 않으면 -1을 반환함 → 따라서 my_string.find(is_prefix) == 0가 참이면 (즉, is_prefix가 my_string의 맨 앞에 있을 경우) 1을 반환하며, 그렇지 않으면 (즉, is_prefix가 my_string의 맨 앞에 없을 경우) 0을 반환

[머신러닝] 선형회귀, 다중선형회귀

Tue, 13 Aug 2024 10:49:59 GMT

📁 선형회귀

<선형회귀 용어 정리>

공통

Y는 종속 변수, 결과 변수

X는 독립 변수, 원인 변수, 설명 변수

통계학에서 사용하는 선형회귀 식

$$ Y = \beta_0 + \beta_1X + \varepsilon $$

$\beta_0$: 편향(Bias)

$\beta_1$: 회귀 계수

$\varepsilon$: 오차(에러), 모델이 설명하지 못하는 Y의 변동성

머신러닝/딥러닝에서 사용하는 선형회귀 식

$$ Y = wX + b $$

$w$: 가중치

b: 편향(Bias)

📌 결국 두 수식이 전달하려고 하는 의미는 같음

→ 회귀 계수 혹은 가중치를 값을 알면 X가 주어졌을 때 Y를 알 수 있다는 것

📁 회귀분석 평가 지표

<회귀 평가지표 - MSE>

에러 정의방법

방법1) 에러 = 실제 데이터 - 예측 데이터 로 정의하기

방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기

방법3) 데이터만큼 나누기

에러 정의 방법 수식화

방법1) $\varepsilon = y_i - \hat{y_i}$

방법2) $\sum\limits_{i=1}^n (y_i - \hat{y_i})^2$

방법3) $\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}$

📌 y값의 머리에 있는 ^ 표기를 hat이라고 하며, 예측(혹은 추정)한 수치에 표기

→ 수식 전체를 보면 이해하기 힘들 수 있지만, 단계별로 확인해보면 어렵지 않음

Mean Squared Erorr(MSE)라고 정의 $$ MSE = \frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n} $$

<선형회귀만의 평가 지표 - R Square>

숫자를 예측하는 회귀분석에서 선형회귀에서만 평가되는 지표가 1개 더 있으며, 바로 R Square 지표임

R Square : 전체 모형에서 회귀선으로 설명할 수 있는 정도

어떤 값을 “예측”한다는건 어림짐작으로 평균값보단 예측을 잘해야한다는 것을 의미

기초 용어

$y_{i}$: 특정 데이터의 실제 값

$\bar{y}$: 평균 값

$\hat{y}$: 예측, 추정한 값

R Square의 정의 $$ R^2 = \frac{SSR}{SST} = \frac{SSR}{SSR+SSE} $$

3번의 데이터 값은 SST = 174^2, SSR = 169^2

해당 값에 대한 설명력 = 94%

단, 모든 데이터에 대해서 위 계산을 수행

📌 앞으로 만나는 숫자 예측 문제는 모델을 머신러닝이든 딥러닝이든 어떤 모델을 만들어도 위 MSE 지표를 최소화하는 방향으로 진행하고 평가하게 됨

기타 평가 지표

RMSE: MSE에 Root를 씌워 제곱 된 단위를 다시 맞추기

$$ RMSE = \sqrt{\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}} $$

MAE: 절대 값을 이용하여 오차 계산하기

$$ MAE = \frac{1}{n}\sum\limits_{i=1}^n{\left\vert y_i - \hat{y_i} \right\vert} $$

sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스

coef_ : 회귀 계수

intercept : 편향(bias)

fit : 데이터 학습

predict : 데이터 예측

📁 다중선형회귀

X와 Y간의 데이터에서 아주 간단한 단순회귀분석만 있는 것이 아니라 실제의 데이터들은 비선형적 관계를 가지는 경우가 많음

이를 위해서 X변수를 추가 할 수도, 변형할 수 도 있음

<단순선형회귀 vs 다항회귀>

<수치형 데이터 vs 범주형 데이터>

수치형 데이터

연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터

ex) 키, 몸무게

이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터

ex) 주사위 눈, 나이

범주형 데이터

순서형 자료 : 자료의 순서 의미가 있음

ex) 학점,등급

명목형 자료 : 자료의 순서 의미가 없음

ex) 혈액형, 성별

💡 정리

머신러닝모델 중에 선형회귀는 이해하기 쉽고 방법도 쉬운 장점이 있지만 말 그대로 X-Y변수간의 선형적 관계가 좋아아만 좋은 성능을 냄

↓*

1. 선형성 (Linearity)* : 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함

2. 등분산성 (Homoscedasticity)* : 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함

즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 함

3. 정규성 (Normality)* : 오차 항은 정규 분포를 따라야 함

4. 독립성 (Independence)* : X변수는 서로 독립적이어야 함

<다중공선성 문제>

변수가 많아지면 서로 연관이 있는 경우가 많음

이처럼 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것을 다중공선성(Multicolinearity)문제라고 함

<다중공선성 해결방법>

서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬)

두 변수를 동시에 설명하는 차원축소(Principle Component Analysis, PCA) 실행하여 변수 1개로 축소

<선형 회귀 정리>

장점

직관적이며 이해하기 쉬움(X-Y관계를 정량화 할 수 있음)

모델이 빠르게 학습됨(가중치 계산이 빠름)

단점

X-Y간의 선형성 가정이 필요

평가지표가 평균(mean)포함 하기에 이상치에 민감

범주형 변수를 인코딩시 정보 손실이 일어남

Python 패키지

sklearn.linear_model.LinearRegression

[코드카타] 카운트 업

Mon, 12 Aug 2024 11:00:43 GMT

📁 문제

정수 start_num와 end_num가 주어질 때, start_num부터 end_num까지의 숫자를 차례로 담은 리스트를 return하도록 solution 함수를 완성해주세요.

📁 입출력 예

💡 내가 푼 정답

def solution(start, end): answer = [] for i in range(start,end+1): answer.append(i) return answer

문제를 풀고 나서 무언가 더 간단한 정답이 있을 것 같아서 찾아보니 아니나 다를까 완전 초간단 풀이가 있는 것을 발견

💡 초간단 풀이

def solution(start, end): return list(range(start, end + 1))

range(start, end + 1) : 파이썬의 range 함수를 사용하여 숫자의 시퀀스를 생성

range(start, end + 1) : start에서 시작하여 end까지 포함하는 범위를 생성

end + 1을 사용하는 이유 : range 함수는 끝값을 포함하지 않기 때문에 end를 포함하기 위해 end + 1을 설정

list(range(start, end + 1)) : 이 range 객체를 리스트로 변환

range 객체는 반복 가능한 객체로, 리스트로 변환하면 실제로 저장된 숫자들을 확인할 수 있음 → 결과적으로, 이 표현식은 start부터 end까지의 모든 정수를 포함하는 리스트를 반환

📌 나의 생각

이렇게 간단한 풀이를 언제쯤 생각해서 풀까라는 생각을 하게 되었습니다.

또한, 이러한 생각을 실천하기 위해서는 다양한 코드카타를 많이 접하고 풀어봐야겠다는 생각을 다시 한번 하게 되었습니다.

seonyoung_3.log

[Spark] 클라우드

📁 클라우드

📁 클라우드 3대장

📁 스토리지

📌 Amazon S3란?

📁 엔진

📁 데이터베이스

📁 아키텍쳐 예시

📁 EMR

[Spark] 파일 유형

📁 File format

📁 csv, txt

📁 json

📁 Pickle

📁 Parquet

📁 기타

📁 I/O

[Spark] 스파크, 파이썬과 데이터

📁 스파크란?

📁 스파크 사용 이유

📁 파이썬 메모리 이슈로 터짐

📁 메모리

📁 CPU

📁 Data type

📁 정수(Integers)

📁 오버플로(Overflow)

📁 부동소수점(Floating points)

📁 부동소수점 오차

📁 String, Category

📁 Datetime

📁 Time zone

[코드카타 SQL] 없어진 기록 찾기

📁 문제 설명

📁 문제

💡 정답

💡 또 다른 정답

[코드카타] - SQL 즐겨찾기가 가장 많은 식당 정보 출력하기

📁 문제 설명

📁 문제

💡 내가 적은 오답

💡 정답

[코드카타 SQL] 가격대 별 상품 개수 구하기

📁 문제 설명

📁 문제

📁 결과 예시

💡 내가 적은 정답

💡 또 다른 정답

[코드카타] 문자열 바꿔서 찾기

📁 문제

📁 입출력 예

💡 내가 적은 정답

💡 또 다른 정답

📌 궁금증에 대한 결과

[코드카타] 간단한 식 계산하기

📁문제

📁 입출력 예

💡 나의 정답

💡 또 다른 정답

[머신러닝] 딥러닝

📁 딥러닝

<머신러닝 vs 딥러닝>

<딥러닝의 유래>

<가중치 구하기 - Gradient Descent>

<활성화 함수>

<히든 레이어의 등장>

<딥러닝의 복습>

📁 Tensorflow 패키지

📁 딥러닝의 활용 예시

<자연어처리(가장 간단)>

📁 딥러닝 이미지 예시

<이미지는 원래 데이터 기반>

[코드카타] 원하는 문자열 찾기

📁 문제

📁 입출력 예

💡 내가 적은 오답(1)

💡 내가 적은 오답(2)

💡 내가 적은 정답

📌 대소문자 구분을 없애는 이유

[머신러닝] 비지도 학습