Learning Journey

251217_데일리 학습

Wed, 17 Dec 2025 04:28:53 GMT

✔️ 원칙

집중력에 치우치지 말자
학습의 난이도를 "공부한다" 가 아닌 "열어본다" 수준으로
휴식을 끊지 말자 (허용하되, 시간을 격리한다)

1️⃣ 09:00 ~ 12:00 (핵심 집중)

목표 : 미진행

2️⃣ 13:00 ~ 15:00 (저부하)

할 일 1) 전처리 과정 2) 머신러닝 (지도/비지도 학습) 복습
15:00 ~ 16:00 1) 유튜브 시청

3️⃣ 16:00 ~ 18:00 (실습 / 질문고정)

할 일 1) 지도, 비지도 학습 종류 학습 2) 지도, 비지도 종류 별 하나 씩 코드 진행해보기

4️⃣ 19:00 ~ 21:00 (정리)

결과 요약

✔ 내일 아침 첫 행동 정하기

SQL 코트카타 이후 질문 1개 고정

251204_통계_1

Thu, 04 Dec 2025 10:25:48 GMT

목표

통계를 왜 배워야하는지 답을 할 수 있다.
기술 통계와 추론 통계 차이를 답 할수 있다.
정규분포와 표준화에 대해 이해하고 간단히 설명할 수 있다.

Why 를 달고 살자.

통계 정의 및 쓰임

통계란? → 데이터를 해석하게 해주는 도구 1) 신뢰할 수 있는 추론과 검증을 위함 2) 데이터의 이해를 위함 3) 모델링과 머신러닝의 기반 4) 청자 설득을 위함

✔️ 숙지해야하는 내용

통계에 대한 모든 것을 익힌다는 생각은 버리기
해석을 어떻게 할지(수식에 집중 x) 초점 맞추기

통계 기초

통계학

'모집단'의 성질을 추정, 설명하는 것을 목표

모집단

알고자 하는 대상 전체

추정 방법

: 전수 조사 (모집단 기준) vs 표본 조사 (일부 기준)

표본

모집단의 일부

표본 추출

: 모집단에서 표본(일부)를 뽑는 것 : 표본 크기 → 샘플 수 (행의 갯수)

기술통계 vs 추론통계

기술통계

현재의 데이터를 요약 / 설명하는 통계 중심 경향치 (평균, 중앙값, 최빈값) + 흩어진 정도(분산, 표준편차) + 분포(왜도 / 첨도)

중심 경향치

중앙값 : 데이터 크기를 순서대로 나열 시 정확히 가운데 위치하는 값 → 이상치 영향을 덜 받음

흩어진 정도

모집단 분산 : 각 데이터가 평균에서 얼마나 떨어져 있는지 = $σ^2$ : $(a - 평균)^2 + (b - 평균)^2 ... /전체 데이터 개수$
표준 편차 : 분산에 루트를 씌운 값 = $σ$
분산 확인 그래프(시각화) : 히스토그램, 박스플랏, 밀도곡선, 바이올릿플랏 등

분포

왜도 : 데이터 분포의 좌우 비대칭성을 나타내는 척도
첨도 : 뾰족함이나 완만함의 정도를 나타내는 척도

추론 통계

일부(표본) 를 바탕으로 모집단 추정(예측)하거나 주장이 맞는지 검정하는 통계

기술통계와의 차이점 : 일부를 가지고 모집단을 예측

해당 표본이 얼마나 신뢰할 수 있는 정보인지 추정해야 함. → 확률로 불확실성을 다루는 통계

확률 기초

확률

발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현 0<=P(A)<=1 --> 모든 사건의 확률을 전부 더하면 1

확률변수

사건의 결과에 따라 값이 확률적으로 정해지는 변수

이산형

하나 씩 셀 수 있는 변수 ex> 주사위, 나이

연속형

무한히 쪼갤 수 있는 변수, 연속적으로 존재 ex> 키, 수면시간

실현값

실제로 그 확률변수가 가진 구체적인 값

확률 분포

확률 변수가 가질 수 있는 값과 그에 대한 발생 확률 간의 관계를 정리 x축 : 확률변수, y축 : 값이 나올 가능성(확률 or 밀도)

이산형 : 셀 수 있음(유한) - 막대
연속형 : 셀 수 없음(무한) - 곡선 → 구간(그래프 너비)로 확률을 계산해야 함

✔️추론 통계-확률분포 가 중요한 이유

현실 모집단 관찰 불가 (확률분포로 가정)
표본은 해당 확률 분포에서 나온 실현 값으로 생각
통계적 추론 : 실현값을 바탕, 어떤 분포에서 나왔는지 추정하는 과정

기댓 값

확률 변수가 오랜 반복에서 평균적으로 기대되는 값

** 실현 값이 많을수록 평균은 기댓 값에 가까워진다. **

🔑조건부확률

동시확률분포 (확률변수 2개) = 변수 2개를 엮을 때의 확률 분포 : 독립적이다 = P(X,Y) = P(X) * P(Y)
조건부확률 : P(X|Y) = Y가 주어졌을 때, X가 일어날 확률

추론통계

추정

모집단 특성을 알 수 없기에 표본을 통해 추정
범위를 정하기 위해 표본 평균의 분포가 정규분포를 따른다는 전제 사용*
가설검정

Python Basic #1

Wed, 03 Dec 2025 11:12:15 GMT

복습 겸 중요사항 정리

가상환경 설치

### 터미널 경로 확인 필요
python -m venv venv        # 설치
venv\scripts\activate   # 실행
deactivate                # 실행종료

여러 프로젝트 진행 시 호환성 문제가 없도록 (관리하기 용이하도록) 각 폴더(프로젝트 별) 내 가상환경 구성

자료형

문자, 숫자(정/실수), 논리형, None 크롤링 진행 시 대부분 문자열(str) 로 추출 (추후 진행시 유의하기) 문자열 연산 (+ , *) -> 문자 이어붙이기, 반복하기

문자열(str)

인덱스와 순서가 존재 슬라이싱 가능

email="da_leesunho@velog.io"
email[:11]        # da_leesunho
email[11:]        # @velog.io
email[:-1]        # da_leesunho@velog.i
email[::-1]        # li.golev@ohnuseel_ad

"python".upper()            # PYTHON
"    abc de    ".strip()    # abc de
"a,b,c".split(",")            # [a, b, c]

split 함수의 경우, 리스트로 담아준다

자료 구조

리스트

여러 개의 데이터, 순서가 있으며 값 변경이 가능하다 -> 비슷한 값들을 다룰 때 사용

scores=[60, 40, 20, 40, 70]
scores.append(100)      # [60, 40, 20, 40, 70, 100]
scores.count(40)        # 2
scores[0:3]                # [60, 40, 20]

리스트 컴프리헨션

반복문 + 조건문 -> 한 줄로 줄여주는 것 이름이 필요 없을 때, 효율적으로 작성하고자 할 때 [표현식 반복문 조건식]

딕셔너리

키:값 -> 값에 대한 정보를 자세히 표현해 줄 때, 순서 x

user={"name":"Tom","age":25}
user["name"]         # "Tom"
user["job"]            # Error 발생 (프로그램 종료)
user.get("job")        # None (밑 코드로 진행 유지)
user["job"] = developer        # 새 키/값 추가

문자열 파싱 연습

email = da_leesunho@velog.io
username = email.split("@")[0]
domain = email.split("@")[1]
# or
username, domain = email.split("@")
    # username = da_leesunho, domain = velog.io

문자열 숫자 정규화

data1="1,200"
data2="10.5%"
data3="   300  "

data1_=int(data1.replace(",",""))            # 1200
data2_=float(data2.replace("%",""))/100        # 0.105
data3_=int(data3.strip())                    # 300

🔑 리스트 필터링 & 컴프리헨션

[표현식 반복문 조건식]

## 60 이상만 추출한 리스트 생성 -> for 문
scores=[95, 50, 82, 100, 59, 88]
passed = []
for i in scores:
    if i >= 60:
        passed.append(i)                    ## [95, 82, 100, 88]        
or
## 리스트 컴프리헨션
scores=[95, 50, 82, 100, 59, 88]
passed = [i for i in scores if i>=60]         # [95, 82, 100, 88]

## 90 이상 PASS 이외 FAIL
scores=[95, 50, 82, 100, 59, 88]
result = []
for i in scores:
    if i>=90:
        result.append("PASS")
    else:
        result.append("FAIL")        # ['PASS', 'FAIL', 'FAIL', 'PASS', 'FAIL', 'FAIL']
or
result=["PASS" if i>=90 else "FAIL" for i in scores]    # ['PASS', 'FAIL', 'FAIL', 'PASS', 'FAIL', 'FAIL']

🔑 딕셔너리 변환

info = "name=Tom, age=20, city=Seoul"
items = info.split(",")        # ['name=Tom', ' age=20', ' city=Seoul']
result={}
for i in items:
    key, value = i.split("=")
    result[key.strip()] = value
or
result = {k.strip():v for k, v in (i.split("=") for i in items)}

20251202_데일리 학습 프레임

Tue, 02 Dec 2025 02:21:05 GMT

📘 오늘의 데일리 학습 프레임

(날짜: 2025-12-02)

1️⃣ 오늘의 최종 목표 (Outcome)

오늘 학습이 끝나면 무엇을 할 수 있어야 하는가?
- 데이터 분석에 있어 통계가 왜 중요한지 설명할 수 있다.
- 기술통계와 추론 통계에 대한 개념 이해, 각각 차이점 설명 가능하다.
- 통계 분석 방법의 다양한 종류를 이해하고 간단히 얘기해 볼 수 있다.
- ~~[ ] SQL 기본 구조문에 대한 작성, 설명이 가능하다.~~
- ~~[ ] Python 특징과 변수, 자료형, 자료구조를 작성하고 설명할 수 있다.~~

2️⃣ 핵심 3가지 포커스 (Focus Targets)

통계학 기초 1챕터 ~~2. SQL 1 ~ 4회차~~ ~~3. Python 이론/실습 2회차~~

3️⃣ 타임 박스 (Time Box)

구간	내용	시간
Warm-up	데일리 학습 프레임 작성	20분
Deep Work 1	통계 1챕터 수강	1시간 30분
Break	휴식	30분
Deep Work 2	SQL / Python 기본 복습	1시간 30분
Wrap-up	오늘 배운 것 3줄 요약	20분

총 예상: 약 3시간 40분

4️⃣ 학습 시작 전 체크리스트 (Environment/Attention)

알림 OFF (카톡·메일·유튜브)
휴대폰은 바깥 방에 두기
책상 위 불필요한 물건 치우기
오늘 필요한 파일·노트·브라우저만 열기
이어폰 또는 백색소음 설정
물 준비

5️⃣ 실습 & 학습 기록 (Feedback Loop)

오늘 해결한 문제/과제
- 통계학 기초 1챕터 완료
- 판다스 과제 필수 4문제 완료
막힌 지점
- SQL, Python 복습 실패
해결 방법 또는 다시 찾아볼 부분
- 우선순위 조정 및 시간 분배 최적화

6️⃣ 학습 종료 요약 (Reflection)

✔ 배운 점 10개 이내

기술 통계 vs 추론 통계 → 데이터 요약, 설명 vs 표본 데이터 통해 모집단 특성 추정, 가설 검증
표준편차는 분산의 제곱근을 취한 값
모집단은 전체 데이터, 분석가는 표본 데이터를 이용한다.
신뢰구간 : 모집단의 평균이 특정 범위 내 있을 확률
가설검정 : 귀무가설(H0), 대립가설(H1)
이진(값이 2개) / 범주 데이터 구분
숫자형 : 히스토그램/막대형, 범주형 : 파이/막대그래프
상관관계(np.corrcoef) & 상관계수 & 인과관계
다변량 분석 : df화, sns.pairplot or heatmap

✔ 아직 명확하지 않은 부분 3개

✔ 다음 학습 최우선 과제

SQL 코드카타
판다스 도전 2문제

7️⃣ 감정/컨디션 체크 (Energy)

현재 에너지 레벨 (1~10): 10
집중 방해 요소는 무엇이었나? 과식
다음을 위한 에너지 조절 계획:
- 음식량 조절

데이터 전처리 & 시각화 4

Tue, 18 Nov 2025 11:31:42 GMT

해당 세션을 진행하는 동안에는 Anaconda Jupyter Notebook 으로 진행한다.

데이터 EDA (이상치, 결측치 확인 및 처리 방식)을 살펴보자

실습은 별도로 진행, 나만의 ipynb 생성을 목표로 한다

1) 손코딩은 반드시 진행해볼 것 2) 하나의 코드에 대해 다양한 함수와 값을 변형하여 살펴보기

EDA ?

Exploratory Data Analysis, 탐색적 데이터 분석 : 수집한 데이터가 들어왔을 때, 다양한 각도에서 관찰 및 이해하는 과정

다시 말해, 데이터를 분석하기 전 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정을 말한다.

Data EDA 과정

① 분석의 목적, 변수 확인 ② 취합데이터 문제 확인 (ex> df.head, tail, 이상/결측치 확인) ③ 데이터 개별속성 확인, 패턴화(시각화)

오늘은 EDA 과정 ② 에 해당하는, Cleaning (데이터 정제) 를 통한 이상,결측치 확인과 처리 방안을 살펴 볼 것이다.

이상치 & 결측치

이상치 : 전체 데이터 범위에서 벗어난 아주 작은 or 큰 값 결측치 : 데이터 수집 과정에서 측정되지 않거나 누락된 데이터 보통 Null 혹은 NaN, NA

결측치 식별 & 처리

결측치를 처리하는 방법은 두 가지다. → ① 제거 ② 대체

처리 - '① 제거' 로 할 경우 코드를 알아보자

# 컬럼별 결측치 식별 
df3.isnull().sum()

# 결측치 제거1 - 열 제거하기 
df3 = df3.drop('Unnamed: 4', axis=1)


# 결측치 제거2 - 결측치가 있는 행들은 모두 제거
df3.dropna()
# 같은 표현
df3.dropna(axis=0, how='any')

# 결측치 제거3 - 결측치가 있는 열을 모두 제거 
# 열로 제거하면 컬럼이 제거되는 현상이 발생하므로 매우 위험합니다.  
# df3.dropna(axis=1)

# 결측치 제거4 - 전체 행이 결측값인 경우만 삭제하고 싶은 경우
# how='all'을 사용해줍니다. 
df3.dropna(how='all')

# 결측치 제거5 - 결측치 제거 후 결과를 바로 저장하고 싶을 때
# inplace=True 조건을 넣어줍니다. 
df3.dropna(inplace=True)

# drop 이후 결측치가 잘 제거되었는지 체크가 필요하겠죠? 
df3.isnull().sum()

처리 - '② 대체' 로 하는 경우

# 결측치 대체: 최빈값
# mode 는 최빈값을 의미
# df3 의 Interaction type 컬럼을 fillna함수를 이용하여 채워주되, mode() 함수를 사용하여 최빈값으로 넣어줌
# mode 함수는 시리즈를 output으로 가집니다. 
# 따라서,[0]을 통해 시리즈 중 단일값을 가져와야 합니다. 
df3 = df3['Interaction type'].fillna(df3['Interaction type'].mode()[0])
df3.isnull().sum()

# 결측치 대체: 평균값
df['sw'] = df['sw'].fillna(df['sw'].mean())
df.isnull().sum()

# 결측치 대체: 중간값
# inplace=True 로 하면 원본 데이터가 바뀌게 됩니다.
df['sw'] = df['sw'].fillna(df['sw'].median())
df.isnull().sum()

# 결측치 대체: 바로 위 값으로 대체
df['sw'] = df['sw'].fillna(method='ffill')
df.isnull().sum()

# 결측치 대체: 바로 아래 값으로 대체
df['sw'] = df['sw'].fillna(method='bfill')
#df.isnull().sum()

# 결측치 대체: group by 값으로 대체
# 사전 데이터 확인
df.groupby('Is Amazon Seller')['sw'].median()

# group by한 데이터를 데이터프레임의 컬럼으로 추가하기 위해 
# transform 함수 사용
df['sw'] = df['sw'].fillna(df.groupby('Is Amazon Seller')['sw'].transform('median'))
df.isnull().sum()

이상치 식별 & 처리

*① Z-score (StandardScaler) ② IQR(Interquartile Range) *

그 외) Isolation Forest, DBScan 등 (필요시 서치)

Z-score

정규 분포 환경**에서 데이터의 표준 편차를 이용해 탐지하는 방법 scikit-learn 라이브러리 지원

df = pd.read_csv("p.csv")

# string -> float -> int 
df['sw'] = df['Shipping Weight'].str.split().str[0]
df['sw'] = pd.to_numeric(df['sw'] , errors='coerce').fillna(0.0).astype(int)

# z-score 를 적용할 컬럼 선정
df1 = df[['sw']]

# 표준화 진행
# 표준화 :  평균을 0으로, 표준 편차를 1로 
# 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법
# 표준화를 하게 되면 각 데이터들은 평균을 기준으로 얼마나 떨여져 있는지를 나타내는 값으로 변환
scale_df = StandardScaler().fit_transform(df1)

merge_df = pd.concat([df1, pd.DataFrame(StandardScaler().fit_transform(df1))],axis=1)
merge_df.columns = ['Shipping Weight', 'zscore']

# 이상치 감지 
# Z-SCORE 기반, -3 보다 작거나 3보다 큰 경우를 이상치로 판별 
mask = ((merge_df['zscore']<-3) | (merge_df['zscore']>3))

# mask 메소드 사용
strange_df = merge_df[mask]

# 총 55 건 탐지 
strange_df.count()

IQR

정규 분포 환경이 아닐 때 사용 데이터의 25 ~ 75% 범위는 정상, 이외 값은 이상치로 간주

Box Plot IQR(Q3) : 제 3사분위 값 - 제 1사분위 값(Q1)

df = pd.read_csv("p.csv")

# string -> float -> int 
df['sw'] = df['Shipping Weight'].str.split().str[0]
df['sw'] = pd.to_numeric(df['sw'] , errors='coerce').fillna(0.0).astype(int)

# 이상치를 감지할 컬럼 선정
df1 = df[['sw']]

# Q3, Q1, IQR 값 구하기
# 백분위수를 구해주는 quantile 함수를 적용하여 쉽게 구할 수 있음
# 데이터프레임 전체 혹은 특정 열에 대하여 모두 적용이 가능

q3 = df1['sw'].quantile(0.75) 
q1 = df1['sw'].quantile(0.25)

iqr = q3 - q1
q3, q1, iqr

# 이상치 판별 및 dataframe 저장 
# Q3 : 100개의 데이터로 가정 시, 25번째로 높은 값에 해당합니다.
# Q1 : 100개의 데이터로 가정 시, 75번째로 높은 값에 해당합니다.
# IQR : Q3 - Q1의 차이를 의미합니다.
# 이상치 : Q3 + 1.5 * IQR보다 높거나 Q1 - 1.5 * IQR보다 낮은 값을 의미

def is_outlier(df1):
    score = df1['sw']
    if score > 7 + (1.5 * 6) or score < 1 - (1.5 * 6):
        return '이상치'
    else:
        return '이상치아님'

# apply 함수를 통하여 각 값의 이상치 여부를 찾고 새로운 열에 결과 저장
df1['이상치여부'] = df1.apply(is_outlier, axis = 1) # axis = 1 지정 필수

# IQR 방식으로 구한 이상치 개수는 349 개 
df1.groupby('이상치여부').count()

데이터 전처리 & 시각화 3

Mon, 17 Nov 2025 11:55:46 GMT

해당 세션을 진행하는 동안에는 Anaconda Jupyter Notebook 으로 진행한다.

오늘은 SQL 의 JOIN 기능과 같은 Pandas 함수를 배웠다 간단히 이론부분만 정리하고 실습은 노트북 환경에서 진행한다

각 라이브러리의 함수에 대한 모든 문법을 외울 수는 없다 어떠한 기능을 필요로 할 때, 어떤 라이브러리에 어떤 함수를 사용하면 되는지를 알아두자

MERGE

SQL 의 JOIN 과 같은 기능 Pandas에 내장된 함수 테이블의 공통컬럼을 기준으로 병합한다

주요 파라미터는 다음과 같다. : on : how : left / right on : sort : (병합 후) 인덱스 정렬 여부 : suffixes : 중복 컬럼 이름 처리 : indicator

# how, on 옵션을 통해 구체적으로 지정 가능
merge_df = pd.merge
(df2,df3, how='inner', left_on='Customer ID', right_on='user id')

JOIN

SQL 의 JOIN 과 *유사 df(데이터프레임)의 메소드 인데스 기준으로 병합한다 *

주요 파라미터는 다음과 같다. _: on : how : lsuffix / rsuffix : 이름 같은 컬럼, 문자열 지정 부여 : sort : (병합 후) 인덱스 정렬 여부 : suffixes : 중복 컬럼 이름 처리

# join시 이름이 같은 컬럼이 있을 경우, 옵션으로 설정하여 조인 가능
df.join(df2)
# 위 코드는 오류가 남
df.join(df2,how='left', lsuffix='1', rsuffix='2')
# 동일명 컬럼 지정 후 오류발생 x

CONCAT

SQL 의 UNION 과 같은 기능 DF(데이터프레임) 혹은 특정 축을 연결하는데 사용

주요 파라미터는 다음과 같다. : axis : 수직(=0) / 수평(=1)결합 : join : 조인방식 : join_axes : 조인 축 지정 : keys : df 축이름 지정 : ignore_index : 인덱스 재배열

# 수직결합
pd.concat([df2, df3], axis=0, ignore_index=True, join='inner')

# 수평결합
pd.concat([df2, df3], axis=1, ignore_index=True, join='inner')

데이터 전처리 & 시각화 2

Fri, 14 Nov 2025 11:38:32 GMT

데이터 전처리 강의 수강 중, 세션이 오늘부터 진행되었다. 직접 작성해보면서 복습한다는 생각으로 작성하려한다.

이전 VSC 내 Jupyter Notebook 실습 환경을 구성하여 진행하였고, 해당 세션을 진행하는 동안에는 Anaconda Jupyter Notebook 으로 진행한다.

각 라이브러리의 함수에 대한 모든 문법을 외울 수는 없다 어떠한 기능을 필요로 할 때, 어떤 라이브러리에 어떤 함수를 사용하면 되는지를 알아두자

Python & Library

일전 Python 장점을 얘기한 적이 있었다. : 수많은 커뮤니티 & 라이브러리(모듈 집합체) 존재

그에 따라 Python을 사용하는 유저는 언제든지 필요에 따라, 기존 라이브러리를 호출하여 사용이 가능하다.

import (호출)

import 라이브러리 명 as 별칭

라이브러리를 호출하는 명령어로, 기본 구문은 위와 같다. 오늘은 pandas 와 time 라이브러리를 사용할 예정으로 호출해준다.

_Pandas : R(프로그래밍 언어) 의 데이터프레임을 참고하여 만듬 : 데이터 프레임은 열, 행, 인덱스로 구성된 테이블 형식이다 _

import pandas as pd
import time

Jupyter Notebook 환경에서 최초 import를 진행하면, 해당 ipynb 파일에서는 더 이상 호출 할 필요가 없다. 참고하도록 하자

✔️ import? from?

라이브러리를 호출할 때 import 를 사용한다고 했다. from 의 경우, 라이브러리의 특정 함수를 호출하고자 할 때 사용한다.

from matplotlib.pyplot as plt        # matplotlib 라이브러리의 pyplot 함수를 호출

그럼 import로 호출하면 되지않나? 라고 생각하겠지만, 코드가 너무 길어지게 된다.

라이브러리 지원함수

라이브러리. 이후 tab 을 하면 사용할 수 있는 함수리스트를 볼 수 있다.

Magic Command

IPython Kernel 에서 제공되는 명령어 %, %% 를 통해 실행

IPython 커널의 경우, Jupyter Notebook 및 Lab과 같은 웹 기반 대화형 환경을 위한 표준 커널이다. 즉, Jupyter 환경에서만 사용가능한 특수 커맨드라고 생각하자

자주쓰이는 커맨드 중 time (코드 실행시간 측정) 을 사용해보았다.

%%time : 셀 전체 수행 후 소요 시간

EDA 시작

EDA는 Exploratory Data Analysis 의 약자 데이터를 이해하기 위해, 요약 통계와 시각화를 활용하여 데이터의 주요 특성, 변수 간의 잠재적 관계, 패턴, 이상치 등을 찾아내는 초기 분석 단계이다.

즉 본격적인 데이터 분석을 하기 위해 데이터를 체크한다는 개념이다

데이터 프레임 만들기

데이터프레임은 테이블 형태로 만들 수 있고, 리스트와 딕셔너리 활용할 수 있다.

data1 = [['Choi',22],['Kim',48],['Joo',32]]
df4 = pd.DataFrame(data1, columns=['Name','Age'])

data2 = {'Name' : ['Choi','Kim','Joo'],'Age':[22,48,32]}
df5 = pd.DataFrame(data2)

리스트 및 딕셔너리로 이루어진 데이터를 데이터프레임(테이블)화 한 것을 볼 수 있다.

추가적으로, Display 내장함수를 쓰면 여러 개의 데이터 셋을 볼 수 있다. display(df1, df2 ...)

CSV 파일을 통한 LOAD

pandas의 read_csv 함수를 이용해 읽어온 파일을 출력한다. pd.read_csv(파일명)

처음/마지막 기준 5줄 출력

SQL Limit 절과 비슷, 기본 값 5로 지정 df.head() / df.tail()

구조 파악하기

행의 갯수를 출력 len(df)

SQL_Programmers 코딩 테스트 5

Thu, 13 Nov 2025 01:09:22 GMT

학습사이트 > https://school.programmers.co.kr/

경기도에 위치한 식품창고 목록 출력하기

FOOD_WAREHOUSE 테이블에서 경기도에 위치한 창고의 ID, 이름, 주소, 냉동시설 여부를 조회하는 SQL문을 작성해주세요. 이때 냉동시설 여부가 NULL인 경우, 'N'으로 출력시켜 주시고 결과는 창고 ID를 기준으로 오름차순 정렬해주세요.

SELECT
    WAREHOUSE_ID,
    WAREHOUSE_NAME,
    ADDRESS,
    CASE WHEN FREEZER_YN IS NULL THEN 'N'
    ELSE FREEZER_YN END AS FREEZER_YN
FROM FOOD_WAREHOUSE
WHERE ADDRESS LIKE '%경기도%'
ORDER BY WAREHOUSE_ID ASC

Case When 구문을 통해 Null 대체 값을 지정해주어야하는 문제였다. 또한 Null처리함수 IFNULL 을 사용할 수도 있다.

SELECT IFNULL(FREEZER_YN, "N")        # 해당 컬럼이 NULL 일 경우 문자열 N으로 표기

하지만 INFULL 함수는 MYSQL에서만 사용이 가능하다 모든 DBMS에서 사용할 수 있는 COALESCE 함수를 기억해두자

SELECT COALESCE(FREEZER_YN, 'N')        # 해당 컬럼이 NULL 일 경우 문자열 N으로 표기

DATETIME 에서 DATE로 형 변환

ANIMAL_INS 테이블에 등록된 모든 레코드에 대해, 각 동물의 아이디와 이름, 들어온 날짜를 조회하는 SQL문을 작성해주세요. 이때 결과는 아이디 순으로 조회해야 합니다. 날짜 컬럼은 시각(시-분-초)을 제외한 날짜(년-월-일)만 보여주세요

SELECT
    ANIMAL_ID,
    NAME,
    DATE_FORMAT(DATETIME, '%Y-%m-%d') AS '날짜'
FROM ANIMAL_INS
ORDER BY ANIMAL_ID
;
'''
SELECT
    ANIMAL_ID,
    NAME,
    SUBSTR(DATETIME, 1, 10) AS  '날짜'
FROM ANIMAL_INS
ORDER BY ANIMAL_ID
;
'''

두 가지 방법으로 풀어보았다. 1) DATE_FROMAT 함수를 이용하여 날짜 형식 변환 2) SUBSTR 함수를 이용하여 앞에서부터 지정한 문자열 추출

흉부외과 또는 일반외과 의사 목록 출력하기

DOCTOR 테이블에서 진료과가 흉부외과(CS)이거나 일반외과(GS)인 의사의 이름, 의사ID, 진료과, 고용일자를 조회하는 SQL문을 작성해주세요. 이때 결과는 고용일자를 기준으로 내림차순 정렬하고, 고용일자가 같다면 이름을 기준으로 오름차순 정렬해주세요.

SELECT
    DR_NAME,
    DR_ID,
    MCDP_CD,
    DATE_FORMAT(HIRE_YMD, '%Y-%m-%d') AS HIRE_YMD    # 문제에서 제시한 조건(날짜형식)을 위해 DATE_FORMAT 함수 사용
FROM DOCTOR
WHERE MCDP_CD IN ('CS', 'GS')
ORDER BY HIRE_YMD DESC, DR_NAME ASC

문제를 끝까지 읽는 습관을 들여야겠다.. 날짜형식 맞춤 조건을 보지 못해서 바로잡는데 오래걸렸다

가격이 제일 비싼 식품의 정보 출력하기

FFOOD_PRODUCT 테이블에서 가격이 제일 비싼 식품의 식품 ID, 식품 이름, 식품 코드, 식품분류, 식품 가격을 조회하는 SQL문을 작성해주세요.

SELECT *
FROM FOOD_PRODUCT
ORDER BY PRICE DESC
LIMIT 1

'''
SELECT *
FROM FOOD_PRODUCT
WHERE PRICE =
        (SELECT
            MAX(PRICE)
        FROM FOOD_PRODUCT
        )
'''

처음엔 '너무 쉽다' 하면서 첫 번째 쿼리(가격 내림차 순 & LIMIT 활용) 으로 풀었다. 이후 1분 정도 다른 방법을 고민하다가 중첩 서브쿼리를 사용해 풀어보았다.

데이터 전처리 & 시각화 1

Wed, 12 Nov 2025 09:01:31 GMT

데이터 전처리 & 시각화 강의를 수강하고, 배운 내용 및 실습을 진행한 부분을 작성하고자 한다.

이전 Jupyter Notebook 실습 환경을 구성했는데, 해당 환경에서 진행한다.

Pandas

Python 내 라이브러리 표 형태(관계형) 의 데이터 분석을 할 때 가장 많이 사용 됨 Excel, csv, tsv, pickle 등과 함께 사용할 수 있음

데이터의 결측치를 쉽게 처리할 수 있고, 데이터의 시각화 및 문자열 및 날짜, 시간 처리도 간편하다.

Jupyter Note 터미널에서, pip install pandas 를 통해 설치가 가능하다.

라이브러리 불러오기

보통 별칭은 "pd" 로 사용한다.

import pandas as pd

데이터 셋 불러오기

현재 사용 가능한 데이터셋이 없기에, 'seaborn' 라이브러리를 가져온다. 이후 'tips'라는 이름을 가진 데이터를 가져와 data 변수에 지정

import seaborn as sns
data = sns.load_dataset('tips')
data

데이터 불러오기/저장하기

to_csv( ) 메소드를 통해 데이터를 파일화 ( ) 안에는 경로\파일명 을 지정하면 된다.

# to_csv 메소드(데이터를 저장)
data.to_csv("tips_data.csv")

데이터 전치리를 완료하고 나서, 위와 같이 파일을 저장할 수 있다.

pandas에 내장된 read_csv 함수를 통해 데이터 불러오기

df=pd.read_csv("tips_data.csv")
df

불러오기를 진행했을 때 새로운 컬럼('Unnamed:0') 이 생성된 것을 볼 수 있다. 파일 저장 시 index 생성여부에 대해 지정 해 줄 수 있는데, 기본 값이 True 이므로 index 가 생성된 것이다.

저장 시 index=False 를 통해 인덱스 생성이 되지 않게 해보자

data.to_csv("tips_data.csv", index=False)
df=pd.read_csv("tips_data.csv")
df

반대로 불러오기 시에도 가능하다.

data.to_csv("tips_data.csv")
df=pd.read_csv("tips_data.csv, index_col = 0")
df

Python 컴프리헨션 & 예외 처리 (1/2)

Tue, 11 Nov 2025 10:50:37 GMT

오늘 배우게 된 Python - 컴프리헨션(Comprehension) 과 예외 처리

바로 복습을 해야 할 정도로 어려웠다. 그래서 이 전 과정은 잠깐 뛰어 넘고, 복습해보려고 한다.

이론 먼저 진행해보고, 익숙해지기 위해 실습도 따로 진행해볼 예정이다

세 줄 요약 > _1) 컴프리헨션(comprehension) 2) 파이써닉 코딩을 위함 3) 너무 복잡해지면 쓰지마라 _

환경 : VSC (Visual Studio Code)

** 코드 실행은 .py 파일을 실행한다는 개념으로 터미널에서 실행

컴프리헨션 (Comprehension)

짧게 한 줄로 작성할 수 있는 파이썬의 문법 간결성 과 가독성을 확보 for 문보다 미세하게 빠른 경우가 많음 (내부루프 활용) 식 자체가 너무 복잡해지면 사용하면 안 됨

저 영단어를 처음 들어봤다.. 공부 필요성을 느끼며 사전적의미를 검색해봤다. : 이해, 포함, 독해 / 이해력(문맥에 따라) 사전적 의미와 설명이 유의미한 연관이 있는지는 모르겠다.

일단, 어느정도 개념은 파악했으니 예문을 통해 확인해보자

# 길이가 5인 리스트 생성
# 0~5까지 순회하면서 각 인덱스 값에 x2 를 진행
size = 5
arr = [0]*size
for i in range(len(arr)):
    arr[i]=i*2
print(arr)

리스트 선언, for~in range 구문을 통해 각각의 인덱스에 값을 할당한 코드이다. 다음 코드를 보자.

size=5
arr=[i*2 for i in range(len(arr))]
print(arr)

똑같은 과정과 결과를 목표로 작성한 코드이다. 얼핏봐도, 코드 행 수가 줄었다. 이처럼 '선언과 할당, 조건'의 순차적인 작업을 일원화하여 짧고 간략하게 작성하는 것이다.

기본 구조는 다음과 같다. → 변수를 활용한 값(표현식) for 변수 in 반복대상 if 조건

조건을 사용한 추가 예시를 하나 더 보도록 하자

size=[i for i in range(1,11)]    # size 리스트의 선언과 할당까지 진행
print(size)
arr=[l for l in range(len(size)) if l%2==0] # arr 리스트의 선언과 할당, 조건을 진행
print(arr)

어느정도 작성하다보니 익숙해졌다. 그런데 자료구조가 '리스트'인 경우를 제외하고, 다른 자료구조도 사용이 가능할까? 마찬가지로 가능하다.

딕셔너리 컴프리헨션 : {키 표현식: 값 표현식 for 변수 in 반복대상 if 조건} 세트(집합) 컴프리헨션 : {표현식 for 변수 in 반복대상 if 조건}

Python 자료구조

Mon, 10 Nov 2025 08:44:53 GMT

네 줄 요약 > _1) 리스트와 튜플은 시퀀스(순서가 있는) 자료형이며, 2) 튜플은 수정 불가 3) 딕셔너리는 키와 값의 쌍으로 이루어진 자료형 4) 자료형 별 메소드 확인하자 (특히 dictionary.pop) _

환경 : VSC (Visual Studio Code)

Python 자료구조에 대해 학습해보자. ** 코드 실행은 .py 파일을 실행한다는 개념으로 터미널에서 실행

리스트 (List)

여러 값을** 순서대로 저장할 수 있는** 자료형 (Data Type) 대괄호 [ ] 를 사용 수정 & 삭제 가능 (Mutable)

list_a = ["apple", "banana", 56, "abc", "leesunho", "data", "Analyst"]
print(list_a)
print(list_a[0])
print(list_a[-1])
print(list_a[0:7:2])        # 0~6(7-1) 인덱스까지 두 칸 간격의 데이터 출력

리스트 자료형에 자주 사용하는 메소드를 학습하고 알아두자

메소드	설명
append(a)	맨 뒤에 추가
insert(i,a)	지정 위치에 추가
remove(a)	해당 요소 삭제
pop()	마지막 요소 꺼내기
sort()	오름차 순 정렬

✔️ 메소드(Method) ?

Object(객체) 와 연관되어 사용된다. → " . "으로 연결되어 있어야 한다

str, float, list 등 자료형은 모두 객체 ex> .split() , .append 등

✔️ 메소드 vs 함수

_ 함수는 독립적으로 정의 → 이름만으로 호출이 가능함 그러나 메소드는 이름만으로 호출되지 않음. 정의된 클래스와 연관되어 호출이 가능하다_

즉 메소드는 클래스 내에서 정의되므로, 해당 클래스에 종속된다.

✔️ pop()

해당 메소드의 실행결과를 보자.

_Python 실행 시 동작 과정은, 위에서부터 아래로 진행된다.

1) 첫 번째 print 문 : list_a 의 리스트가 출력 2) 두 번째 print(pop) 문 : 리스트의 마지막 자료 출력 3) 마지막 print 문 : 마지막 자료가 빠진 리스트 출력_

다음 실행 결과를 보자

결론적으로 pop() 메소드는 단순히 마지막 데이터를 추출하여 리스트에서 제거하는게 아닌, 추출하여 재사용을 위한 용도로도 사용할 수 있다.

튜플 (Tuple)

변경이 불가능한 리스트 소괄호 ( ) 를 사용 수정 & 삭제 불가능 (Immutable) → 데이터 보호 목적

a = ("apple", "banana", 56, "abc", "leesunho", "data", "Analyst")
print(type(a))
print(a)

List vs Tuple

변경 가능 vs 불가능
실행 속도 : 약간 느림 vs 빠름
활용 예시 : 학생 점수 목록 vs 좌표, 고정 데이터

딕셔너리 (Dictionary)

_키와 값의 쌍으로 이루어진 자료형 순서가 (의미) 없다 중괄호 { } 로 선언 키로 접근 _

student = {
    "name" : "Lee sun ho",
    "age" : "31",
    "job" : "da"
    }
print(type(student))
print(student)
student["name"] = "sun ho LEE"      # name 키의 값을 변경
print(student)
student["grade"] = 95               # 현재 없는 grade 키에 95 지정
print(student)
print(len(student))                 # student 딕셔너리의 키 개수 구하기

딕셔너리의 주요 메소드는 다음과 같다.

메소드	설명
keys()	모든 키 가져오기
values()	모든 값 가져오기
items()	키와 값 모두 가져오기
get(key)	특정 키의 값 가져오기
pop(key)	특정 키 삭제

✔️ _Dictionary 키 제거 방법 _

1) pop 메소드 이용

student = {
    "name" : "Lee sun ho",
    "age" : "31",
    "job" : "da"
    }
student.pop("age")
print(student)

만약, 딕셔너리의 없는 키를 pop 으로 제거한다면? → 당연히 에러가 발생한다. 확인 해보자

student = {
    "name" : "Lee sun ho",
    "age" : "31",
    "job" : "da"
    }
print(student)
student.pop("id")           ## 없는 키 값 pop 메소드 사용 
print(student)

해당 error 는 딕셔너리를 다룰 때 실무에서도 많이 발생하는 문제라고 한다. 당연히 에러가 나서 동작 안하는게 맞지 않나?? 라고 생각하겠지만, 에러가 발생하면 실행은 아예 중단이 된다.

없는 키 값이라면서 에러 없이 진행하는 방법은 뭐가 있을까? pop ("키" , None) 을 사용하는 것이다. 삭제하려는 키가 없는 키라면, None 을 던지는 것이다. 정확히는 NonType의 None 이라는 값의 반환하는 것

참고사이트 : https://docs.python.org/3.14/library/constants.html#None

student = {
    "name" : "Lee sun ho",
    "age" : "31",
    "job" : "da"
    }
print(student)
student.pop("id", *****None*****)           ## 없는 키 값 pop 메소드 사용 
print(student)

에러코드 발생하지 않고, 아래 print 문까지 출력된 걸 볼 수 있다. 반드시 알아두자

2) del 함수 이용

student = {
    "name" : "Lee sun ho",
    "age" : "31",
    "job" : "da"
    }
print(student)
del student["age"]
print(student)

del 함수 사용 시, 없는 키 값이라면 에러 발생한다. pop 메소드를 통해 삭제하는 방법을 연습하도록 하자

Python 기본 문법 및 자료형

Mon, 10 Nov 2025 06:38:40 GMT

세 줄 요약 > _1) print f문자열을 통해 이쁘고 효율적으로 출력하자 (3.6버전부터~) 2) 변수 선언 주의사항 숙지하고, 3) 자료형 (Data Type) 확인 잘하자 _

환경 : VSC (Visual Studio Code)

오늘은 Python 기본 문법과 자료형에 대해 학습해 볼 예정이다. 코드 실행은 .py 파일을 실행한다는 개념으로 터미널에서 실행할 것이다.

Python 실행

print("Hello, Python!") 기본적으로 내장되어있는 출력 함수 → 문자열은 ""(따옴표)를 통해 표기한다.

print("Hello, Python!")

파이썬 파일을 저장 후, 터미널에서 실행 할 수 있다. python [py 파일명]

print f 문자열

보다 직관적으로 지정할 수 있게 f"문자열 폼" 형태료 표현 가능하다. 변수를 넣을 위치에는 중괄호 { } 를 사용하여 작성 ☆ 변수 개념은 뒤에서!

a = "Hello"
b = "Python!"
print(f"시작해보자! {a},{b}")

주석 (Comment)

코드에 설명을 달 때 사용함 실행에 영향을 주지 않음. "#" 을 사용하여 한 줄을 대상으로, " ''' " 통해 구간을 주석 처리할 수 있다.

# 출력문 실행
print("Hello, Python!")     # 코드 오른쪽에서도 사용 가능
'''
Python 가보자~
'''

주석 처리를 할 코드를 블록으로 잡아 *ctrl + / * 입력하면 한 번에 처리 가능하다.

변수 (Variable)

값을 지정하여 사용하기 위함 (재활용) ex> 변수 (바구니) 에 값을 담아 (지정) 하여 필요할 때 재사용을 할 수 있다.

a = "Hello"            # a 라는 변수에, "Hello" 문자열을 지정
b = "Python!"        # b 라는 변수에, "Python!" 문자열을 지정
print(a, b)

변수 선언 시, 주의 사항 이 있다. 익혀두도록 하자

허용	예시	비고
영문, 숫자, _	user_name, age1	O
숫자로 시작	1name	X
공백 포함	my name	X
대소문자 구분	Name != name	O

자료형 (Data Type)

값의 데이터 타입이라고 생각하자 대표적인 자료형(Data Type) 은 다음과 같다. → int (정수), float (실수), str (문자열), bool (논리값)

a = 10
b = 3.14
c = "Sun ho"
d = True

print(type(a))        # type 함수를 통해 변수가 지정하는 데이터의 타입을 확인
print(type(b))
print(type(c))
print(type(d))

각 변수의 데이터 타입을 확인 할 수 있다.

문자열

문자열은 문장, 단어 같이 텍스트 데이터를 나타내는데 사용된다. 따옴표(' or ") 감싸져 있다. 또한 위 데이터 타입 도식을 보면, 문자열은 시퀀스 형에 포함된다. 시퀀스 형(Sequence Type) : 순서가 존재

text = "leesunho"
print(text[0])      # 0 번째 인덱스 "l" 출력
print(text[-1])     # 가장 끝의 인덱스 "o" 출력
print(text[0:4])    # 0 번째 인덱스부터 4-1(3) 인덱스까지 출력
print(text[::-1])   # 문자열 뒤집기

✔️ 인덱스

자료의 위치 값 이라고 생각하자. Python 의 경우, 문자열의 인덱스가 0부터 시작, SQL 의 경우, 1부터 시작한다.

Python 실습 환경 구성

Fri, 07 Nov 2025 08:24:24 GMT

세 줄 요약 > _1) 환경 구성 많이 어렵지 않았음 2) 가상환경을 왜 사용하는지 이해 했음 3) 괜찮은 학습 사이트를 알게 됨 (코딩도장 - https://dojang.io) _

파이썬 실습을 위해 편집기 프로그램을 설치했다.

강의 3회차 까지 진행하면서, 눈으로 보고 이해하는 것과 직접 작성하는 것은 별개라는 걸 느꼈다.

반드시 설치하는 것을 권장한다. (VSC 를 이용 할 예정) 공식사이트 >> https://code.visualstudio.com/

Window 환경기준으로, 다른 OS 구성은 알아서 찾아보자.

Visual Studio Code

_Visual Studio Code (VSCode)

1) 마이크로스프트가 만든 무료 코드 편집기 2) 파이썬, 자바스크립트, HTML 등을 지원함_

① VSC 내 Python 설치

[확장] - python 검색 후 설치 → 코드실행(ctrl + F5) 가능해짐

② 작업 폴더 생성

1) 바탕화면 "python_study" 폴더 명 생성 2) VSC [file] - [Open Folder] 로 해당 폴더 열기 _3) [file] - [New Text File] 클릭 → 앞으로 생성하는 파일은 해당 폴더 내 저장됨

③ 가상 환경 생성

_ 1) [Terminal] - [New Terminal] 클릭하여 터미널 생성_ _ 2) 경로 ~~ 폴더명> 로 되어있는지 확인_ _ 3) 가상 환경 생성하기_

python -m venv [가상 환경이름]        -- 폴더 내 [가상환경 이름] 폴더 생성
[가상환경 이름]\Scripts\activate        -- 가상환경 활성화
deactivate        -- 가상환경 비활성화

터미널 프롬프트 시작에 (가상환경 이름) 이 보여야 실행 된 상태다. (없으면 비활성화 상태)

✔️ _가상환경 왜 써야함?!_

가상환경을 사용하지 않으면 무슨 문제가 발생할까?? 이해를 위해 아래 그림을 보자 (글로벌 vs 가상)

그림 출처 : https://dojang.io/mod/

먼저 "글로벌 파이썬 환경" 그림에서 '파이썬 설치 폴더' 와 내부에 있는 '인터프리터'를 살펴보자

"스크립트B.py" 파일 은 패키지X 2.0 부터 존재하는 모듈을 사용 하고 python 3.8 버전 기능 필요 함 → 호환 문제로 오류 발생 및 진행 어려움

그에 반해, "가상환경" 은 프로젝트 별 인터프리터와 패키지가 각 파이썬 실행파일에 적합한 것으로 설정되어 있어 문제가 발생하지 않는다~

결론은, 프로젝트가 많아지게 되면 제각각 패키지 버전 과 파이썬 버젼 (인터프리터) 이 다양해질 가능성이 높기에, 새로운 프로젝트를 할 때마다 가상환경을 구성해주는 것이 바람직스럽겠다~

😁 프로젝트 별 폴더 관리 ok, 인터프리터는 어떻게 지정하지 몰라서 찾아보았다. 위 과정을 토대로 진행한 가상환경(venv) 과 글로벌 인터프리터가 보인다. 알아두자

참고사이트 > https://dojang.io https://mr-spock.tistory.com/19

Python 개요

Fri, 07 Nov 2025 06:18:03 GMT

_두 줄 요약 >

1) 컴퓨터도 이해하면서, 사람도 쉽게 작성, 관찰 할 수 있는 언어 2) 대형 커뮤니티로 참고 할 수 있는 데이터도 겁나게 많고, 다들 쓰기 때문에 사용을 안할 수가 없다._

Python 이란?

정의

사람이 읽기 쉬운 문법을 가진 고급 프로그래밍 언어로 데이터 분석, 인공지능, 웹 개발, 자동화 등 다양한 분야에 활용

주요 특징

간결성, 범용성, 풍부한 라이브러리, 오픈소스

문법이 짧고 직관적 (간결성)
데이터 분석, 웹, AI 등 여러 분야에서 사용 (범용성)
또한 다양한 확장 모듈을 제공 (라이브러리)
무료로 사용이 가능 (오픈소스)
#### ✔️ _라이브러리, 패키지, 모듈_

패키지는 모듈의 집합이며, 라이브러리는 패키지와 모듈의 집합체이다.

모듈 (datetime, math, random 등) : 여러 클래스, 함수, 변수를 가지고 있는 (.py) 파일 패키지 (NumPy, Pandas) : 단일 혹은 복수 개의 py 파일 라이브러리 (matplotlib, PyTorch, Beautiful Soup) : 재사용이 가능한 코드 모음집

import [모듈 or 패키지 or 라이브러리] 를 통해 불러올 수 있다.

_사용 목적 (이유) _

데이터 처리 강점, 풍부한 라이브러리, 자동화 등

✔️ 전세계 1등

프로그래밍 언어 중 1위인 이유가 무엇일까? → "생산성" : 직관적인 코드 (한마디로 쉽다) : 압도적으로 많은 라이브러리 및 프로젝트 (https://pypi.org/) _ _: 차세대 기술분야 적용의 생산성과 편리성 (by 라이브러리) 참고) C 언어 - "성능"이 우선시 될때 많 이 사용

대표적인 라이브러리 종류 1) NumPy 수치 계산을 위한 라이브러리 다차원 배열과 행렬 연산을 지원하여 데이터 분석, 머신 러닝 등에 널리 사용 2) Pandas 데이터 조작과 분석을 위한 라이브러리 (데이터프레임 중심) 3) Matplotlib 데이터 시각화를 위한 라이브러리 각종 그래프와 차트를 생성하는 데에 널리 사용 4) Tensor Flow 구글에서 개발한 머신 러닝 프레임워크 딥 뉴럴 네트워크를 구축하고 학습하는 데에 사용 5) PyTorch Facebook에서 개발한 머신 러닝 프레임워크 (텐서 연산) 6) Scikit-learn 기계 학습 알고리즘을 모아놓은 라이브러리 (머신 러닝 모델 구축) 7) Keras 딥 뉴럴 네트워크를 구축하고 학습 (Tensor 와 같이 자주 사용) 8) Seaborn Matplotlib을 기반으로 한 통계 데이터 시각화 라이브러리(디자인 강점) 9) SciPy 과학적 계산, 최적화, 통계, 신호 처리 등의 기능을 제공 10) OpenCV 이미지 및 비디오 처리와 관련된 다양한 작업에 사용

참고사이트 > https://coding-factory.tistory.com/952

SQL_Programmers 코딩 테스트 4

Thu, 06 Nov 2025 01:37:11 GMT

학습사이트 > https://school.programmers.co.kr/

한 해에 잡은 물고기 수 구하기

FISH_INFO 테이블에서 2021년도에 잡은 물고기 수를 출력하는 SQL 문을 작성해주세요. 이 때 컬럼명은 'FISH_COUNT' 로 지정해주세요._

SELECT
    COUNT(ID) AS FISH_COUNT
FROM FISH_INFO
WHERE YEAR(TIME) = '2021'

해당 문제에서 포인트는 YEAR 함수 이다. FISH_INFO 테이블은 아래와 같다.

YEAR 함수를 이용하여 연도(4자리) 값을 추출, 조건절에 사용하여 풀었다.

분기별 분화된 대장균의 개체 수 구하기

각 분기(QUARTER)별 분화된 대장균의 개체의 총 수(ECOLI_COUNT)를 출력하는 SQL 문을 작성해주세요. 이때 각 분기에는 'Q' 를 붙이고 분기에 대해 오름차순으로 정렬해주세요. 대장균 개체가 분화되지 않은 분기는 없습니다.

SELECT
    CASE WHEN A.EXT_MONTH BETWEEN 1 AND 3 THEN '1Q'
    WHEN A.EXT_MONTH BETWEEN 4 AND 6 THEN '2Q'
    WHEN A.EXT_MONTH BETWEEN 7 AND 9 THEN '3Q' ELSE '4Q' END AS QUARTER,
    COUNT(A.ID) AS ECOLI_COUNT
FROM
    (
    SELECT 
        ID,
        MONTH(DATE_FORMAT(DIFFERENTIATION_DATE, '%Y-%m-%d')) AS EXT_MONTH
    FROM ECOLI_DATA
    ) A
GROUP BY QUARTER
ORDER BY QUARTER

해당 문제에서 포인트는 CASE 구문, 날짜 함수 이다. ECOLI_DATA 테이블은 아래와 같다._

문제의 목적과 그에 따른 조건들을 살펴보면서, 데이터 추출에 필요한 작업을 정리해보았다.

1) DIFFERENTIATION_DATE 컬럼에서 월 값 출력 2) CASE WHEN 구문으로 각 분기 데이터 추출 3) COUNT 함수 사용

쿼리 작성에 대한 부분은 다양하다. 코드테스트를 목적으로 한다면, 문제에 명시된 조건들을 토대로 작성을 하면 된다.

실무에서는, 쿼리를 날리는 매순간 비용(리소스) 이 들기 때문에, 줄일 수 있는 형태로 작성되어야 한다고 함. EX> 하나의 쿼리에서 테이블을 참고하는 횟수를 최소화 (WITH 구문 등)

SQL 끄적끄적

Wed, 05 Nov 2025 06:04:11 GMT

근 3주 간의 SQL 세션이 끝났다. 코드카타를 통해 흐름은 놓치지 않을 예정.

그 동안 진행한 이론을 쭉 보면서 놓쳤던 부분이나, 되새기기가 필요한 부분을 끄적여보자.

데이터 분석가의 주요 업무&역량

데이터 추출
데이터 가공
데이터 시각화
인사이트 도출

SQL = 데이터 추출 / 가공에 있어 필수 역량 → 데이터 추출과 전처리 정합성 검증

구분	상세
언어	SQL, PYTHON
통계지식	이론에 대한 이해, 필요한 부분은 학습이 필요
자격증 취득	SQLD, ADsP 등 정량적 구분을 위함
프로젝트 경험	가장 중요
	앞선 언어, 통계지식 등이 선행 되어야 함

★ 코딩테스트 필수 진행, 시간 내 추출 등 숙달 필요

ROW DATA : 가공되지 않은 데이터를 의미 DBMS : DB에 규칙성과 정합성을 부여 → 데이터 등록/정리/검색 을 용이하게 해주는 소프트웨어

DBMS 저장방식 : 관계형, 계층형, 망형으로 구분 그 중 관계형 저장방식이 대중적

_관계형(RDBMS)

1) 행과 열로 이루어진 2차원 구조 2) 계층형, 망형 구조가 발전된 형태 3) 데이터 구성, 복구가 가능 4) 정규화를 통한 중복제거 및 이상치 제거 가능_

SQL (Structured Query Language) RDBMS 에서 데이터를 관리하고 처리하기 위한 표준화된 언어

SQL 의 작동 및 작성순서

다시 한 번 작성하지만 SQL을 작성하고 오류를 찾아내는데 많은 도움이 된다. 숙지하자. 작동 순서

FROM → ON → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY

작성 순서

SELECT → FROM → WHERE → GROUP BY → HAVING → ORDER BY

SQL_Programmers 코딩 테스트 3

Wed, 05 Nov 2025 01:07:40 GMT

학습사이트 > https://school.programmers.co.kr/

대장균들의 자식의 수 구하기

SELECT
     A.ID, COUNT(B.ID) AS CHILD_COUNT
FROM ECOLI_DATA A
LEFT JOIN
     ECOLI_DATA B
ON A.ID = B.PARENT_ID
GROUP BY A.ID
HAVING (CHILD_COUNT IS NULL) = 0

해당 문제에서 포인트는 JOIN 이다. ECOLI_DATA 는 아래와 같다. 목적에 맞는 결과 값을 얻기 위해서는, ID 와 PARENT_ID 칼럼을 활용해야 한다. JOIN을 통해 ID 와 PARENT_ID 칼럼을 PK, FK 로 지정해서 출력해보자 매핑된 테이블이 출력 되었다. 자식의 수를 구하는 목적을 해결하기 위한 조건은 완성된 것이다. _ _자식의 수 = 0 인 경우, NULL 이 아닌 숫자 0을 출력해야 하는 조건도 있기에, HAVING 절로 조건도 명시 해야한다. 이후 집계함수 COUNT, GROUP BY 를 통한 ID 컬럼 별로 출력 할 수 있게 진행하면 된다.

대장균들의 크기에 따라 분류하기1

SELECT
    ID,
    CASE WHEN SIZE_OF_COLONY <= 100 THEN 'LOW'
         WHEN SIZE_OF_COLONY <= 1000 THEN 'MEDIUM'
    ELSE 'HIGH' END AS SIZE
FROM ECOLI_DATA
ORDER BY ID

해당 문제에서 포인트는 CASE 구문 이다. 대장균 개체의 크기가 ① 100 이하라면 'LOW', 100 초과 1000 이하라면 'MEDIUM', 1000 초과라면 'HIGH' 분류 ② ID 별 오름차순 정렬 의 조건이 명시 // 테이블은 (ECOLI_DATA) 동일함

어렵지 않은 문제였다. CASE 구문의 동작 로직을 상기하도록 하자 아래를 통해 살펴보자

CASE WHEN 조건1 THEN 결과
     WHEN 조건2 THEN 결과2        --- **조건1 에 해당하는 데이터는 걸러진 상태**
     ...
     ELSE 결과3
END

조건1 에 해당되는 데이터는 고려하지 않고, 이후 조건 부분을 작성한다.

SQL WINDOW FUNCTION, WITH

Tue, 04 Nov 2025 10:47:44 GMT

FROM → ON → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY
SQL 동작 순서를 명시 알아두고 항시 습관화하기

오늘한 SQL, PYTHON 이론 및 실습을 복습하고 다시 한 번 풀어보았다.

눈으로는 당연하지만, 내 머릿 속에서 찾아 표현하는 것은 당연하지가 않다..

(학습에 한정하지 않고) 앞으로 행동하고 발생하는 모든 현상에 대해 논리적으로 생각하고, '왜?' 를 계속 떠올리자..! 물음에 대한 답변을 하지 못 하면 모르는 것이고, 부족한 것이다.

SQL WINDOW FUCTION

테이블의 행과 행 간의 관계를 정의하기 위해 제공되는 함수 → 여러 행의 관계를 파악하기 위해 사용, 분석 OR 순위 함수로 알려져 있음

종류는 다음과 같다.

종류	함수
`순위`	RANK, DENSE_RANK, ROW_NUMBER
`집계`	SUM, MAX, MIN, AVG, COUNT
`순서`	FIRST_VALUE, LAST_VALUE, LAG, LEAD
`비율`	RATIO_TO_REPORT, PERCENT_RANK, CUME_DIST, NTILE

우리가 기존에 알고 있던 집계함수 역시 마찬가지로, 윈도우 함수이다. 순위, 합계, 평균, 행 위치 등을 조작하는 역할이다.

종류는 확인했고, 특징을 알아보자

집계함수 : GROUP BY 구문과 병행하여 사용 가능
순위, 순서, 비율함수 : GROUP BY 구문과 병행하여 사용 불가 → 윈도우 함수와 GROUP BY 구문은 둘 다 파티션을 분할한다는 의미에서 유사

```SQL

--- WINDOW FUNCTION 예시 SELECT WINDOW_FUNCTION () OVER (PARTITION BY 컬럼 ORDER BY 컬럼) FROM 테이블명 ## PARTITION BY 생략 가능

> _윈도우 함수를 언제 써야하는지, 사용해야하는 이유는?_
_**집계함수처럼 계산은 하되, 원본 행들을 그대로 유지하면서 계산 결과를 함께 보고 싶을 때**_
```SQL
SELECT department,
      AVG(salary)
FROM employees
GROUP BY department;        -- 부서별 평균 급여만 남고, 개인별 행은 표출하지 않음

SELECT 
 employee_name,
 department,
 salary,
 AVG(salary) OVER (PARTITION BY department) AS dept_avg_salary
FROM employees;                -- SELECT 문의 행을 유지하면서, 각 부서별 평균 급여를 같이 표출

위에 종류를 나타낸 표를 참고 색 강조를 한 함수를 볼 수 있는데, 실무에서 자주쓰이는 함수가 대상이다.

먼저 순위함수를 살펴보자.

순위함수 (RANK)

특정 컬럼의 순위를 구하는 함수 동일한 값에 대해서는 같은 순위를 부여, 중간 순위를 비운 값이 출력

select *,
    rank() over(partition by JOB order by SALARY) as rank1
from basic.window1

SALARY 값이 2등인 두 개의 행에 대해, 2가 아닌 3으로 표기가 된 것을 볼 수 있다.

순위함수 (DENSE_RANK)

특정 컬럼의 순위를 구하는 함수 동일한 값에 대해서는 같은 순위를 부여, 중간 순위를 비우지 않고 출력

select *,
    dense_rank() over(partition by JOB order by SALARY) as RANK1
from basic.window1

SALARY 값이 2등인 두 개의 행에 대해, 2로 표기가 된 것을 볼 수 있다.

순위함수 (ROW_NUMBER)

특정 컬럼의 순위를 구하는 함수 동일한 값에 대해서 고유한 순위를 부여

select *,
    ROW_NUMBER() over(partition by JOB order by SALARY) as RANK1
from basic.window1

SALARY 값이 2등인 두 개의 행에, 순차적으로 순위가 표기 된 것을 볼 수 있다.

순서 함수 (FIRST_VALUE)

파티션 별 가장 먼저 나온 값을 출력 공동 등수 인정 X, 처음 나온 행만 가져오며 MIN 함수와 결과 동일

FIRST_VALUE(컬럼1) OVER(PARTITION BY 컬럼2 ORDER BY 컬럼3)

순서 함수 (LAST_VALUE)

파티션 별 가장 마지막에 나온 값을 출력 공동 등수 인정 X, 나중에 나온 행만 가져오며 MAX 함수와 결과 동일

LAST_VALUE(컬럼1) OVER(PARTITION BY 컬럼2 ORDER BY 컬럼3)

순서 함수 (LAG)

이전 N 번째 행을 가져오는 함수 별도 명시가 없는 경우, 기본값은 1 가져올 행이 없을 경우 DEFAULT 값을 지정해주는 것으로 NVL, ISNULL 함수와 기능 동일

select *,
    LAG(SALARY) OVER (ORDER BY NAME) as PREV_SAL 
from basic.window1

select *,
    LAG(SALARY, 2) OVER (ORDER BY NAME) as PREV_SAL 
from basic.window1

순서 함수 (LEAD)

이후 N 번째 행을 가져오는 함수 별도 명시가 없는 경우, 기본값은 1 가져올 행이 없을 경우 DEFAULT 값을 지정

select *,
    LEAD(SALARY) OVER (ORDER BY NAME) as PREV_SAL 
from basic.window1

select *,
    LEAD(SALARY,2) OVER (ORDER BY NAME) as PREV_SAL 
from basic.window1

비율 함수 (RATIO_TO_REPORT)

파티션 내 전체 SU, 값에 대한 행별 백분율을 소수점으로 출력 결과값은 0 ~ 1 사이 MySQL 미지원 함수 RATIO_TO_REPORT(컬럼1) OVER (PARTITION BY 컬럼2 ORDER BY 컬럼3)

비율 함수 (PERCENT_RANK)

파티션 별 가장 먼저 나오는 값을 0, 마지막에 나오는 값을 1로 정하여, 행 순서 별 백분율을 출력

select *,
    PERCENT_RANK() OVER (partition by JOB order BY SALARY)
from basic.window1

비율 함수 (CUME_DIST)

*파티션 별 전체 건 수에서 현재 행보다 작거나 같은 건수에 대한 누적 백분율을 출력 *

select *,
    cume_dist() OVER (partition by JOB order BY SALARY)

비율 함수 (NTILE)

파티션 별 전체 건수를 계산한 값으로 N등분한 결과를 출력

select *,
    cume_dist() OVER (partition by JOB order BY SALARY)

WITH 문

테이블 재사용

구분	상세
`정의`	SQL 구문에서 사용되는 임시 테이블
`사용이유`	쿼리 가독성 및 성능 향상
`특징`	임시 테이블의 개념, 작성한 쿼리 내에서만 실행 가능
	하나의 SQL 구문에서 여러 개의 WITH 문 선언 가능
	하나의 테이블에 대한 여러 조회가 필요한 경우, WITH 문으로 1회 조회 및 선언
	복잡한 연산을 보다 효율적으로 처리 (JOIN, UNION 등의 결과를 WITH 문에 저장

기본 문법은 아래와 같다.

WITH 임시테이블명 AS
(    SELECT 컬럼1, 컬럼2, ..
     FROM 테이블명
 )
SELECT 임시테이블에서 불러온 컬럼 중 필요한 컬럼 
FROM 임시테이블명

예시) PROGRAMMERS - 대장균의 크기에 따라 분류하기2

WITH CLASSIFIED AS (
    SELECT
        ID,
        CASE NTILE(4) OVER (ORDER BY SIZE_OF_COLONY DESC)
            WHEN 1 THEN 'CRITICAL'
            WHEN 2 THEN 'HIGH'
            WHEN 3 THEN 'MEDIUM'
            WHEN 4 THEN 'LOW'
        END AS COLONY_NAME
    FROM ECOLI_DATA
)
SELECT ID, COLONY_NAME
FROM CLASSIFIED
ORDER BY ID;

예시2) 다중 WITH 구문

WITH gogo as                     -- 첫번째 WITH 절
(    select game_account_id, exp
    from basic.users 
    where `level` >50
),
hoho AS                         -- 두번째 with 절, with 구문은 처음 한번만 작성합니다. 
(    select distinct game_account_id, pay_amount, approved_at
    from basic.payment 
    where pay_type='CARD'
) 
select case when b.game_account_id is null then '결제x' else '결제o' end as gb
, count(distinct a.game_account_id)as accnt 
from gogo as a
left join hoho as b
on a.game_account_id=b.game_account_id
group by case when b.game_account_id is null then '결제x' else '결제o' end
;
)
SELECT ID, COLONY_NAME
FROM CLASSIFIED
ORDER BY ID;

이외 주요 함수

SQL UNION, JOIN (2/2)

Mon, 03 Nov 2025 10:05:32 GMT

FROM → ON → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY
SQL 동작 순서를 명시 알아두고 항시 습관화하기

이어서 진행해보자 - 한 주의 시작부터 파이썬 세션도 같이 진행되고 정신이 없지만 정신차리고 해보자 _ - JOIN 에 대한 예제를 코딩테스트 사이트에서 많이 풀어보자 _

Remind 'UNION' : 수직 결합 / 'JOIN' : 수평 결합 임을 떠올리며 학습해보자.

SQL 테이블 수평 결합 (JOIN)

여러 테이블을 수평 으로 결합 할 때 사용하는 기능이다. 기본적인 구조는 다음과 같다.
---- JOIN 기본 구문
select 컬럼1, 컬럼2.
from 테이블 a
join                 -- 필요에 따라 사용하는 JOIN의 종류가 다양하다. 다음 주에 학습할 예정 ~
select 컬럼1, 컬럼2..
from 테이블 b
on a.공통컬럼=b.공통컬럼

```SQL
---- JOIN 기본 구문
------ 공통 컬럼이 2개 이상인 경우
select 컬럼1, 컬럼2
from 테이블 as a
join                 -- 필요에 따라 사용하는 JOIN의 종류가 다양하다. 다음 주에 학습할 예정 ~
select 컬럼1, 컬럼2..
from 테이블 as b
on a.공통컬럼=b.공통컬럼 and a.공통컬럼2=b.공통컬럼2

JOIN 의 종류는 다음 주에 학습 할 예정이다. 그렇다면 필수 조건 (주의사항) 은 무엇일까?

① JOIN 하고자 하는 테이블들의 공통 컬럼을 찾는다. ② *공통 컬럼의 관계(PK, FK) *를 찾는다. ③ 출력하고자 하는 결과 값에 따른 적절한 JOIN 방식을 찾는다.

② 공통 컬럼의 **관계(PK, FK)**을 찾는다.

PK, FK 가 무엇인지 먼저 알아보자

구분 설명

PK 기본 키, Null 일 수 없고 유일한 값을 갖는다

'FK' 외래 키, PK와 JOIN 하기 위한 연결컬럼의 역할
표에 나온 설명과 같이 JOIN을 하기 위해서는, 하나의 테이블의 PK와, 연결해주려는 테이블의 FK 를 찾아주어야 한다. PK의 특징(NULL 값 존재 X, 모든 행의 값이 유일한 값)을 기억해두자

③ 적절한 JOIN 방식을 찾자 위 도식과 같이, JOIN의 종류는 다양하다. JOIN에 대해 전반적인 이해를 바탕으로 필요에 따른 JOIN 방식을 사용하여야한다. 실무에서 자주 사용하는 JOIN 방식에 대해 알아보자

구분	설명
`PK`	기본 키, Null 일 수 없고 유일한 값을 갖는다
'FK'	외래 키, PK와 JOIN 하기 위한 연결컬럼의 역할

1) INNER JOIN

: 두 테이블에서 일치하는 값을 가진 행을 출력 (교집합)

---- INNER JOIN 기본 구문
select 컬럼1, 컬럼2... 
from 테이블명1
inner join 테이블명2   
on a.공통컬럼=b.공통컬럼

2) LEFT JOIN

: 기준 테이블(A)의 모든 행과, 연결하려는 테이블(B)의 일치하는 행을 반환 : 일치하는 항목이 없으면 B의 컬럼 값에 NULL 값이 출력

---- LEFT JOIN 기본 구문
select 컬럼1, 컬럼2... 
from 테이블1 as a                -----  기준테이블 : 테이블1 
left join basic.theglory2 as b
on a.공통컬럼=b.공통컬럼

RIGHT 조인의 경우, LEFT의 반대로 오른쪽 컬럼이 기준이 된다. LEFT JOIN에서 순서만 변경하면 되기 때문에 별도로 학습하지 않는다.

3) FULL OUTER JOIN

: 테이블의 모든 데이터를 보고 싶을 때 : MySQL의 경우 지원 X (UNION과 LEFT & RIGHT JOIN의 결합)

실무에서 하면 "딱밤" (리소스 및 비용 엄청 남)

select 컬럼1, 컬럼2,...
from 테이블명1 a left join 테이블명2 b
on a.공통컬럼=b.공통컬럼

union

select 컬럼1, 컬럼2,...
from 테이블명1 a right join 테이블명2 b        --- LEFT 조인으로 테이블1과 2의 위치를 바꿔주면 된다.
on a.공통컬럼=b.공통컬럼

UNION / JOIN 비교

구분	UNION
'결합방식'	수직 결합
`특징`	SELECT 문은 같은 수의 열을 가져야 합니다.
	각 SELECT 문의 열은 동일한 순서를 가져야 합니다.
'종류'	UNION : 결합한 결과에서 중복되는 행은 하나만 표시
	UNION ALL: 결합한 결과에서 중복되는 행을 모두 표시

구분	JOIN
'결합방식'	수평 결합
`특징`	각 테이블은 결합을 위해 공통컬럼을 반드시 1개이상 가져야 합니다.
	PK 는 기본키라고 부르며, NULL 일 수 없고, 유일한 값을 가집니다. 테이블 당 하나의 기본키만 가질 수 있습니다.
	FK 는 외래키라고 부르며, 다른 테이블의 PK 와 연결되는 컬럼을 의미합니다. (즉, PK 와 공통컬럼)
'종류'	INNER / LEFT / FULL OUTER

SQL_Programmers 코딩 테스트 2

Thu, 30 Oct 2025 08:10:25 GMT

학습사이트 > https://school.programmers.co.kr/

특정 세대의 대장균 찾기

SELECT
    ID
FROM
    ECOLI_DATA
WHERE
    PARENT_ID
    IN (
        SELECT
            ID
        FROM
            ECOLI_DATA
        WHERE
        PARENT_ID
        IN (
            SELECT
                ID
            FROM
                ECOLI_DATA
            WHERE
            PARENT_ID IS NULL
            )
        )
ORDER BY ID

해당 문제에서 포인트는 중첩 서브 쿼리 였다. "WHERE / HAVING (조건 절)에 사용되는 서브쿼리" 를 칭함

서브쿼리의 결과에 따라 달라지는 조건 절

(비) 상관 서브쿼리 개념

구분	설명
`상관 서브쿼리`	메인 쿼리의 컬럼을 참조하여, 각 행마다 반복 실행
'비상관 서브쿼리'	메인 쿼리와 독립되어, 먼저 실행 후 결과를 메인 쿼리에 전달
_쉽게 말해서,

*상관 서브쿼리는 메인 쿼리없이 동작이 불가한 서브 쿼리이며,** 비상관 서브쿼리는 메인 쿼리없이도 동작이 가능한 서브 쿼리다._

해당 문제에서 반복적으로 결과 값을 추출, 원하는 최종 결과 값을 메인 쿼리에 사용할 수 있도록 하는 것이 관건이었다.

RETRY> 멸종위기의 대장균 찾기

도저히 모르겠다. 확인해보니 LV5 문제라 추후 재시도 예정...

가장 큰 물고기 10마리 구하기

SELECT
    ID, LENGTH
FROM
    FISH_INFO
ORDER BY
    LENGTH DESC, ID ASC
LIMIT 10

_ 오랜만의 쉬운 문제로 숨통이 트였다. 해당 문제에서 포인트는 LIMIT 구문 이었다. "표기되는 출력의 행 표기를 제한하는 구문"_

실무) 쿼리를 날릴 때 자원 관리를 위해 사용

특정 물고기를 잡은 총 수 구하기
```
SELECT
COUNT(a.ID) AS FISH_COUNT
FROM
(
SELECT
    A.ID, A.FISH_TYPE, B.FISH_NAME
FROM
    FISH_INFO AS A
LEFT JOIN
    FISH_NAME_INFO AS B ON A.FISH_TYPE = B.FISH_TYPE
) a
WHERE a.FISH_NAME IN ('BASS','SNAPPER')
```
한 번에 쿼리를 날려 성공했다.. 해당 문제에서 포인트는 JOIN, 서브쿼리 였다. 1) LEFT JOIN 을 통해 A 테이블 기준 공통 컬럼으로 결합하고, 2) 서브 쿼리화 3) 서브 쿼리에서 생성된 테이블(a)를 이용해 조건 절을 통한 원하는 값 출력