orca_orcinus.log

금융 시계열 분석 기법의 최신 동향 (중 일부)

Wed, 14 Jan 2026 08:23:33 GMT

이론 <-> 실무

과거 표준 <-> 현재 트렌드

. . . . . .

1. 분수 차분

왜 만들었나?

원본 데이터(d=0): 가격 패턴(추세)이 살아잇지만 통계적으로 불안정(정상성 X) 1차 차분 데이터(d=1): 통계적으로 안정(정상성 O)이지만, 어제 가격이 1,000원이었는지 1,000,000원이었는지 기억-memory-이 삭제된 상태.

정보-memory-를 최대한 살리면서 통계적 안정성(정상성)도 확보할 방법이 필요함.

어떻게 하냐면

처음 접하고 날짜는 정수 단위인데 어떻게 분수로 쪼개는지 궁금했음. 과거 데이터에 곱하는 가중치를 소수점 단위(d)로 조절하는 방식이다.

L -> 지연 연산자 이렇게 나타낼 수 있다.

1차 차분 수식

대입해서 정리했다. 정리된 1차 차분 수식이다.

2차 차분은 이렇게 나타낼 수 있겠지?

일반화 해보자

(1-L)^d를 일반화된 이항정리로 전개하면? 이렇게 된다

y_t를 차분 결과라 하자

그럼 이렇게 나타낼 수 있다.

어떤 시점 x_(t-k)마다 앞에 가중치 오메가_k가 붙어있는 것에 주목하자.

전개하면 이렇게 될 것이고

드 디 어

이해하기 쉽게 차분 d에 1과 0.4를 각각 대입해보면

아하~~ 이래서 분수 차분은 기억을 가지고 있다는 거구나.

이때, 과거 데이털르 무한정 사용할 수는 없으니까 FFD(Fixed-Width Window)='고정 윈도우'를 이용해서 범위를 정해준다. 범위는 어떻게 정함? 가중치가 너무 작아서 영향이 떨어지는 지점으로.

왜 좋은가?

일반 차분은 신호까지 날려버리지만 분수 차분은 최대한 보존한다.
원본(d=0)과의 상관관계를 80~90% 유지하면서 정상성도 갖춰 딥러닝 학습 결과가 월등함.
덕분에 예측력이 향상됨

최적 d값은 어떻게 정하나?

d를 0.1같은 작은 값부터 조금씩 올려가면서 탐색함 ADF검정 p값 < 0.05 를 통과하는(=정상성을 확보하는) 가장 작은 값을 찾는다.

2. GARCH(1,1) 그리고 Garman-Klass

변동성 내용

3. HMM 그리고 GMM(Gaussian Mixture Model)

레짐 탐지 내용

4. Walk-Forward 그리고 CPCV(Combinatorial Purged Cross-Validation)

시계열 CV 내용

5. Boosted Hybrid

잔차 재학습 내용

비지도 학습을 활용한 페어 트레이딩 탐색

Tue, 06 Jan 2026 08:36:57 GMT

페어 트레이딩이란?

일종의 차익거래이다. 여기선 이해하기 쉽게 주식으로 예를 들겠다.

주가가 비슷하게 움직이는 2개의 주식이 있다고 가정하자. 평소와 움직임이 달라지며 A주식과 B주식의 가격 차이가 벌어지는 상황을 상상해보자. 예를 들어, A주식은 가격이 오르고 B주식은 가격이 내려갔다. 이때, 평균회귀를 기대하며 A주식에 대해 (공)매도 B주식에 대해 매수를 하는 것이 통계적 차익거래라고 할 수 있다.

페어 트레이딩 대상을 찾기 위하여 S&P 500에서 500개 주식의 정보를 갖고왔다 그리고 아래는 500개 주식끼리의 상관관계를 나타낸 히트맵이다

이게 추상화도 아니고 도무지 알아볼 수 없다. 주식 2개씩 계속 뽑아서 확인해야할까? 그럼 500_C_2(조합) = 124,750 개의 쌍이 나온다. 그걸 다 점검하는 것은 말이 안되는 짓이다.

그렇다면 상관관계 상위권만 점검하면 될까? 여전히 문제가 있다. 상관관계는 '왜'를 설명하지 못한다. 이게 시장 전체가 올라서 생긴 상관계수인지 섹터 전체가 올라서 생긴 상관계수인지 아니면 해당 시기에 우연히 같이 올라서 생긴 상관계수인지 설명할 수 없다.

(아래는 수익률 행렬이다. 컬럼은 주식 티커, 값은 수익률, 행은 날짜로 구분한다)

위에서 발생한 문제를 해결하기 위해 PCA를 도입한다.

PCA의 특성

전체 데이터를 가장 잘 설명하는 새로운 축 도입
차원을 축소한다 (방금까지 무려 500차원이었다)
노이즈를 버린다 (주성분 개수 선택에 의해)

익숙한 이미지.

PCA 결과를 요약한 이미지이다. 여기서 궁금증이 생길 것이다 아니 이러면 개별 주식이 주성분으로 압축되어 다 사라진 것 아니냐? 이러면 어떻게 분석하느냐?

나도 같은 의문을 가졌다. 이때 PCA의 '로딩'이라는 개념을 알아야한다

로딩이란, 쉽게 말하면 해당 주성분(PC)를 생성하는데 기존 컬럼들이 얼마나 기여했는지를 나타내는 수치이다. 가중치라고 생각해도 된다.

우리가 PC성분 개수를 k개로 골랐다고 가정하자. 그럼 AAPL 의 로딩 벡터를 이렇게 생각할 수 있다 AAPL: [loading_PC_1, loading_PC_2, ... , loading_PC_k]

즉, 각 주식의 각 PC에 대한 로딩 기여도를 나타낸 k차원 벡터이다

이때, 로딩 유사도를 이용해 군집화를 진행한다. 왜 로딩 유사도를 이용하는가? 로딩이 유사하다는 것은 주가가 움직일 때 같은 시장 요인(Factor)에 대해 거의 동일한 민감도로 반응한다는 것을 의미하기 때문!!!

이제 같은 군집 내에서 가장 유사한 Pair 를 골라주면 된다.

거의 다 왔다.

Pair -> BAC, C 당첨 눈으로 봐도 비슷하게 움직인다는 것이 보인다.

한눈에 확인하기 쉽게 스프레드 그래프를 새로 그렸다.

Z-스코어를 이용한 진입 신호

초록색 - A long / B short 빨간색 - A short / B long

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

비지도 학습(PCA, 군집화)을 활용해서 무엇을 했나? 포인트 정리

1) 차원의 저주 해결 및 연산 효율성 극대화 12만개의 조합을 전수조사하는 대신, 수치화된 로딩 벡터 군집화로 연산 효율을 수만배 높였음.

2) 가짜 상관관계 제거 단순히 차트가 닮은 게 아니라, 시장을 움직이는 동인(Driver)에 반응하는 메커니즘이 같은 종목들을 찾아냈다.

마지막으로 '공분산행렬 분해'를 꼭 알아보시길 바랍니다 PCA 이해도가 차원이 달라졌습니다

머신러닝 스태킹 앙상블 첫 시도

Sat, 03 Jan 2026 02:48:44 GMT

데이터 전처리

모든 피처 시각화 다 띄움 산점도+회귀선 분석이 아주 직관적이라 마음에 들었다

베이스라인 모델

베이스모델 LGB 빠르고 데이터 안 가리고 좋음 이상치 제거, 피처 엔지니어링 하나씩 넣어보면서 결정

다른 모델은 다를 수도있지 않나? 맞지만 하나만 고른다면 최선 선형 모델은 워낙 빨라서 베이스라인 여러개를 동시에 돌려도 됨

피처 엔지니어링 단순히 피처늘려서 좋다? ㄴㄴ 트리에는 뭘 해야 좋고 (의미 있는 기준으로 빠르게 분기하도록)

선형은 어떻게 먹여야 좋고 (직선으로 관계를 보기 좋게. 비선형/상호작용 인식할 수 있게)

각각의 기계(모델)가 알아들을 수 있도록

뭔가 파생 변수 더 없을까 고민 분류 때의 아이솔레이션 Anomaly Score, 오토인코더 Latent Vector 만들었던 것처럼

군집화 피처를 만들자!! 지도, 비지도 2가지 방식으로 함

지도는 내가 직접 구간별 답을 주는 방식 비지도는 K-Means 클러스터링 해봤음

큰 기대와 달리 둘 다 그냥 그렇길래 제외함 (큰 차이 X) 생각해보니 이거 LGBM만 해봤음. 선형에도 해봐야했는데..

box-cox (skew 0.75 이상, 고정 람다가 아니라 컬럼마다 최적 람다를 찾아주는 식으로)

스케일링 (필요한 모델일 때)

베이스 러너

트리 모델 선형 모델 뉴럴 모델 커널 모델 거리 모델 (확률 모델)

머신러닝 모델을 기반 기준으로 나눠봄

앙상블 때 서로 다른 성격이면 더 좋으니까

다른 기반의 모델들을 골고루 테스트하기로함

*참고: 태뷸러 데이터는 트리, 선형이 거의 다 해먹음

 추가해봤자 뉴럴 커널 약간.

커널 트릭??

커널 함수를 이용해서

차원 확장(비선형 능력)은 얻고

고차원 특징을 직접 만들 필요는 없다.

커널릿지, SVR → 데이터가 적어서(1,100행) 커널릿지가 더 어울림

근데 XGB LGB 등 트리 모델이 성능이 기대만큼 안 나옴.

의외로 뉴럴의 성능이 더 나왔음. 그래서 채택

각종 선형 모델도 많이 해봄.

거리 모델은 KNN도 해봤으나 역시 안 좋음.

각각의 모델에 적합한 처리로 넣어주기

선형 모델에 타깃 인코딩 해봄 (기대만큼 결과가 좋지 못해서 아쉬움)

원핫 인코딩의 경우 원핫 인코딩 하고나서 피처 평가 (순열 중요도) 거기서 지우는 것도 해봄 원본 피처 자체를 지우면 손실이 크니까

원핫으로 나눠진 상태에서 → 골라 지우기

(이렇게도 해봤다는 것이지 권장하는 건 아님)

순열 중요도 이용.

피처 셀렉션 목적!!

중요도 ≤ 0 , P밸류 > 0.05 , p99_low < 0 이것도 하나하나 삭제하면서 RMSE 개선되는지 확인함 (특히 선형 모델!!)

데이터가 약 1,100개밖에 없어서 (문제인 데이터가 똑같이 10개일 때 비율을 생각) 이상치 몇개가 회귀선을 강력하게 끌어당기듯이 노이즈가 타깃 예측을 방해함. 그래서 데이터가 적어도 과감히 삭제

중요도. 0 이하는 삭제 고려

p값은 우리가 아는 통계적 유의성

p99_low는 99% 신뢰구간에서의 최솟값. 반복시 중요도가 어디까지 떨어지는가 = 최악의 경우에도 쓸모가 있는가?

0 양수이면? 최악이어도 도움 된다 < 0 음수이면? 어떤 경우엔 나빴다가 좋았다가 한다. 노이즈 가능성 높으므로 삭제 고려

기타 참고한 것

잔차 분석 (모델이 어디서 틀리나 진단)

널 중요도 (타깃을 무작위로 섞어서 확인)

SHAP (각 피처 기여도 값)

피처 중요도 << 이놈은 일부러 안 봄. 안 좋다고 함.

블렌딩 스태킹

블렌딩(가중치 앙상블), 스태킹 진행함

블렌딩은 수동으로 하는 것과

scipy minimize 최적 수행이 있음

스태킹 OOF, test

코드 오타내서 스태킹 컬럼 하나 값이 전부 0이됨 모르고 제출했다가 절망함

릿지CV, 메타모델 전부 비교해서 선택 힐 클라이밍도 해봄 (가중치 합 강제로 1 만들기)

스태킹 하면서 깨달음 데이터를 보는 관점이 다른 모델들이 서로 보완

XGB LGB 단독 성능이 CAT보다 좋았지만 CAT이 좋음

포켓몬 배틀 예시

PassThrough 스태킹 (메타모델이 원본 X의 세부 신호도 다 담기 위해) OOF를 원본 피처에 섞어서 XGB 주는 것도 해봄

기타

못해봐서 아쉬운거

스태킹 더 많은 조합을 준비해놨는데 못해본거. 모델마다 다르게, 데이터에서 이상치 혹은 노이즈를 더 제거하면 성능이 더 좋아질게 분명한데 못해서 아쉽다 VIF(다중공선성) 확인하고 삭제해볼 시간이 없어서 아쉽다 혹은 PCA 시드 앙상블?? 알아보고 싶었는데

더욱 개선할 여지나 아이디어는 많았다 하루만 더있었다면 18,000 아래도 될 것 같지만? 못해ㅘ거 아쉽네

ai와 협업하는 것의 중요성을 또 다시 체감

자바웹개발 (DB → 백엔드 → 프론트엔드) 우리도 써야한다 근데 일임은 ㄴㄴ

나는 실험 설계에 집중해야한다

의사결정 수억 수십억 수백억 설명가능? 재현성은? 재현가능?

나를 중심으로 ai를 써야한다

선형회귀와 헷지

Thu, 18 Dec 2025 07:34:26 GMT

선형회귀는 예측만을 위한 도구가 아니라 구조 파악의 도구로도 활용할 수 있다.

y = a + bx + e

절편a, 기울기b 의미는?

주식과 헷지에 대한 예시로 알아보자.

(예시를 이해하기 쉽도록 둘 다 오르는 경우로 만들었음)

y축 내 포트폴리오 수익률 x축 시장 수익률 기울기b 시장이 1만큼 움직일 때의 자산 움직임 (시장 민감도) 절편a 시장으로 설명되지 않는 고유 변동 (시장과 무관한 추가 수익)

주식을 산다는 것은 기본적으로 내 자산을 b에 노출시키는 것 (x가 움직이면 b만큼 영향을 받아 y가 움직이니까)

b값에 대해 생각해보자 b = 1 b = 2.5 (위 이미지) b = 0.3 b = 0 b < 0 (음수)

b = 0 에서 a의 의미가 잘 보인다. 시장 영향을 제거하고 남은 성분이므로, 그 주식 고유의 성격이다.

주식을 산다는 것은 궁극적 목표는 a를 찾는 것. (seeking alpha) 초과수익을 추구한다고도 한다.

a값에 대해 생각해보자

a > 0 a = 0 a < 0

헷지(hedge)란 무엇인가?

간단히 말하면 원래 포지션의 위험을 줄이기 위해 반대 방향의 포지션을 일부 취하는 것이다.

다시 b를 생각해보자

내 포트폴리오는 시장 민감도가 크다. 이 말은 시장이 급락할 때의 반응도 크다는 뜻이다.

조만간 시장에 일시적으로 큰 충격이 있을 것으로 예상된다. 그런데 주식을 팔기는 싫고 장기보유하고싶다. 뭔가 방법이 없을까?

헷지를 하는 이유

일시적으로 내 포트폴리오의 시장 민감도를 낮추고 싶다. 이때 헷지를 사용하면 된다

b를 0에 가깝게 만드는 것이다. (혹은 내가 원하는 전략에 맞춘 값으로) 그럼 일시적으로 시장 민감도가 줄어들어 충격을 완화할 수 있다.

내 포트폴리오의 b(시장 민감도)를 낮추려면 b가 음수 값인 것을 추각하면 된다

여기서는 시장 수익률의 정확히 반대인, 지수 선물 매도를 생각할 수 있다.

이렇게 시장 성분(b)을 제거해서 주식 고유 성분(a)만 누리는 것이다.

b값이 음수인 다른 대안(금, 채권 등)은 안되나요? 된다. 하지만 헷지보다도 자산배분 성격이 강하다. (장기 수익률 및 MDD 조정 등의 목적)

헷지에 대한 오해

헷지의 목적은 수익 극대화가 아니라 '변동성을 제한하는 것'이다

이를 선형회귀에 입각해 설명하면, 불필요한 흔들림(분산)을 회귀로 분해해서 제거하는 작업이다.

(수익률을 고유 성분 a와 시장 성분 b로 분해해서 해석했다)

구체적인 헷지 계산법

시장 민감도 b는 시간에 따라 변한다

. . . (더 이상은 주제를 벗어나서 생략)

머신러닝을 위한 데이터 전처리

Thu, 18 Dec 2025 07:11:47 GMT

1. 데이터 클리닝 -> 모델 학습에 방해가 되는 요소를 제거하거나 수정하여 데이터 품질을 올린다.

2. 데이터 트랜스포메이션 -> 데이터를 알고리즘이 다루기 좋은 형태/분포로 바꾼다.

3. 피처 엔지니어링 -> 모델 학습 성능을 높일 수 있는 새로운 변수를 만들어낸다.

내가 사용하려고 만든 작업 플로우는 아래와 같다.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

0. 데이터 파악

수치형 문자열 수치 + 문자열 수치인척 문자열

어떤 컬럼들이 있는지 의미 확인

1. 정제

1-1. 중복값 삭제 1-2. 수치인척 문자열 -> 수치

1-3. 범주형 처리 (순서 있는 문자열 -> 수치) 1-4. 결측치 처리

a) 대체

숫자형 - 중앙값, 평균, 상수 범주형 - 최빈값, 'Unknown'(특히 의미있는 결측)

b) 삭제

행 - 결측치가 적을 때 -> 행 내에서 말고, 결측 행이 적을 때를 뜻함 -> 행 내에서 결측치가 많으면 지워야지

열 - 결측치가 많을 때 -> 단, 의미있는 결측의 경우 삭제하지 않고 위와 같이 대체한다

1-5. 이상치 처리 (에러 및 통계적 아웃라이어)

먼저 명백한 오류인, 논리적으로 불가능한 에러 값을 처리한다

박스플랏(IQR) - 히스트플랏kde(히스토그램) 순으로 모든 컬럼 확인.

통계적 아웃라이어 처리 방법 지도학습의 경우 타깃(y) - 피처(x) 분리해서 생각 타깃은 원래 성격을 최대한 보존. 변환까진 괜찮은데 삭제/대체 최소화

이후

대체 (클리핑)
변환 (로그)
삭제

2. 인코딩 - 원핫 (순서 없는 범주형)

지도학습은 타깃(y) 피처(x) 분리.

컬럼을 따로 지정할 수도 있지만 그냥 넣어도 수치형이 아닌 것들을 알아서 인코딩한다 표면적으로 수치형인데 개념적으로 범주형이라 인코딩하고 싶으면 수동으로 지정해야함

데이트타임이 좀 특이한데 그냥 겟더미즈에 넣으면 반응 안하고 무시함 근데 머신에 넣으면 오류남. 그래서 뭔가 변환을 해야하는데 그냥 통째로 겟더미즈 수동 변환 컬럼에 지정해버리면 날짜 시간 값마다 더미 만들어서 차원폭발 일어남 그래서 겟더미즈가 아니라 내가 데이트타임에서 원하는 값을 쪼개고 수치형으로 정리해놔야함

3. 스케일링

스케일링이 필요한 모델의 경우 적합한 스케일러를 고른다 수치형 컬럼만 골라서 넣는다.

4. 피처 엔지니어링

피처 엔지니어링은 데이터마다 접근 방식이 매우 다양해서 간단히 말할 수 없다.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

공부하면서 가장 혼동이 왔던 부분은 값을 수정하는 메서드 3종이다. 이번 기회에 간단히 정리해봤다.

1) .apply(func)

replace, map으로 처리하기 어려운 복잡한 로직을 적용한다. 그래서 주로 함수와 같이 사용하는데 하나 알아둬야할 것이 있다.

함수의 x가 무엇이냐? 시리즈면 '스칼라'를 하나씩 가져와서 처리. 그걸 모아서 반환값은 시리즈. 데이터프레임이면 '시리즈'를 하나씩 가져와서 처리. 그걸 모아서 반환값은 데이터프레임.

주의! func 뒤에 () 쓰면 안됨. 안 써야 앞에 객체를 받음.

2) .replace() 값 치환. 지정하지 않은 것은 그대로 둔다. (중요)

3) .map() 이것도 매핑 규칙에 맞춰 값을 치환한다. 그런데 지정하지 않은 것들은 모조리 null로 바뀐다. (중요)

데이터를 null로 바꿔버리면 아주 위험할 것 같은데 이게 왜 있을까? 무슨 이유로 만들어진 메서드인지 궁금해서 알아봤다.

목적은 시리즈의 값들을 매핑 규칙에 따라 '재정의'!! 그래서 규칙에 없는 것들은 null로 바꾸는구나.

이렇게 말하면 조금 더 이해가 쉽다. "내가 필요한 값만 재정의하고 나머지는 관심 없으므로 null"

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

데이터 전처리는 어느정도 틀이 정해져있는 반복 노동이다. 특히 클리닝과 트랜스포메이션이 그렇다. 따라서, 앞으로 ai에 의해 자동화될 가능성이 굉장히 높다.

ai가 해준다고 공부를 안해도 된다는 것은 아니다. 나는 ai가 대체할 수 없는 역량을 더 강화하는 것이 효율적이라 생각한다. 도메인 특화 피처 엔지니어링은 오랜 기간 ai가 대체할 수 없을 것 같다.

그럼 결국 무엇이 중요한가? 돌고돌아 도메인 지식이 또 중요해진다. 데이터 사이언스는 시작과 끝이 도메인 지식인 것 같다.

SQL 을 조금 더 알아보자

Thu, 18 Dec 2025 07:11:26 GMT

<목차>

SELECT 와 별칭의 범위
GROUP BY 작동 원리
GROUP BY 와 SELECT
HAVING 이 존재하는 이유
JOIN 의 실제 작동 원리

## 1. SELECT 와 별칭의 범위 지난 글에서 SQL의 실제 작동 순서를 알아보았다

실제로는 SELECT의 작동 위치가 FROM 위가 아닌 HAVING 아래라는 것이 핵심인데 이것을 모를 때 생기는 가장 큰 오해가 있다. 'SELECT 에서 만든 별칭은 그보다 윗쪽에 있는 절에서는 사용할 수 없다'는 것이다. 예를 들면 SELECT에서 만든 AS '별칭'은 그 아래에 있는 ORDER BY에서는 당연히 사용할 수 있지만 윗쪽에 있는 WHERE 절에서는 원칙적으로 사용할 수 없다. 그런데 종종 어떤 곳에서는 WHERE 절에서 사용이 되기도 한다. 그건 저 실수를 저지르는 사람들이 너무 많다보니 최신DB들이 편의성을 위해 인식하도록 바꿔놓은 것이다. 원래는 불가능한 것이 맞다.

2. GROUP BY 작동 원리

예를 들어, 이런 테이블에서

SELECT InvoiceNo, COUNT(*) AS cnt
FROM data3
GROUP BY InvoiceNo

GROUP BY와 COUNT(*)을 이용하면

이런 결과가 나온다. 그런데 궁금하다. 우리 눈에는 하나의 컬럼 값인데 도대체 어떻게 몇 개인지 출력된 걸까? GROUP BY는 하나의 컬럼 값만 남기고 삭제하는 것이 아니라 해당 컬럼 값의 이름으로 '집계용 객체'를 만드는 것이다. 데이터 베이스 용어로는 "결과 셋(Result Set)을 재구성했다"라고 한다. 그래서 눈에 보이는 컬럼 값은 하나인데도 여러가지 연산이 가능한 것이다. 예를 들어, 아래테이블을 그룹화하면

name   age
-----  ----
Alice  20
Alice  21
Alice  23

내부적으로는 이런 구조가 되는 것이다

그룹(name='Alice') → [20,21,23]

3. GROUP BY 와 SELECT

GROUP BY를 처음 사용하면 이런 실수를 자주 한다. GROUP BY에서 지정한 컬럼이 SELECT에 없는 오류 GROUP BY에서 지정하지 않은 컬럼이 SELECT에 있는 오류

이런 실수를 반복하다보면 그룹화한 컬럼이 반드시 출력되어야하는구나를 알게되는데 여기서 또 궁금하다. 왜 그렇지? 그리고 SELECT에서 다른 함수들은 왜 출력될 수 있는 거지? 간단히 말하면, '그룹화한 객체 옆에는 그것을 대표할 수 있는 값만 올 수 있기 때문'이다 데이터 베이스의 기본 구조를 떠올려보면 '하나의 행 = 어떤 하나의 사물/사건의 정보를 담은 단위'이다 즉, 행 하나하나가 어떤 사물/사건인 것이다. 그런데 어떤 컬럼이 그룹화 됐을 때, 원래 하던 대로 그 옆에 '하나의 행'에 대한 정보를 넣어버리면? 데이터 베이스의 기본 구조가 완전히 망가진다 테이블 = 어떤 종류의 객체 행 = 그 객체의 개별 인스턴스 컬럼 = 그 인스턴스를 설명하는 속성 이기 때문이다. 이러한 이유로 그룹화 컬럼 옆에는 반드시 그것을 대표하는 값이 와야하는 것이다.

4. HAVING 이 존재하는 이유

나는 처음 공부할 때, WHERE이 있는데 왜 HAVING이 또 있는지 궁금했다. 왜 굳이 조건 필터링 예약어가 2개일까? 글을 열심히 읽은 독자라면 이제 HAVING이 존재하는 이유를 자연히 알 것이다. WHERE은 행 단위로 필터링하는 기능을 수행하고 HAVING은 그룹을 필터링하는 기능을 수행한다. 즉, '하나의 행'들로 이루어진 테이블을 필터링하는 것과 '그룹'들로 이루어진 테이블을 필터링하는 것의 차이다.

5. JOIN 의 실제 작동 원리

A) 논리적 관점 - 개념 테이블A와 테이블B를 크로스 조인(Cartesian Product)한다. 곱집합을 만드는 것으로 가능한 모든 조합이 생성 된다

예를 들어, 테이블A가 20행이고 테이블B가 30행이면 600행의 테이블이 만들어진다. 여기서 JOIN의 종류와 조건(ON condition)에 맞는 행만 남기는 것이다. INNER JOIN - 조건에 맞는 행만 남긴다. LEFT JOIN - 왼쪽 테이블의 행 + 조건에 맞는 행만 남긴다. 이래서 LEFT JOIN을 쓰면 NULL이 들어간 행이 많이 보이는 것이다. B) 물리적 관점 - 실제 작동 하지만 매번 저렇게 곱집합을 생성해버리면 불필요한 연산량이 폭발하기 떄문에 실제로는 곱집합을 전부 만들지 않도록 똑똑한 알고리즘을 사용하고 있다. ex. Nested Loop Join, Hash Join 등

SQL 공부를 시작할 때 반드시 알아야할 것

Thu, 18 Dec 2025 07:11:06 GMT

이 글을 누른 독자는 SQL을 학습하다 막혀서 검색한 사람일 것으로 가정하고 작성한다. 어떤 목적으로 SQL을 학습하는지는 모르지만 반드시 알아야할 것이 있다. 지금 SQL을 배우는 곳에서 분명히 예약어를 하나씩 알려줄 건데 그렇게 배우면 지식이 파편화돼서 힘들어지는 순간이 분명히 온다

C, 자바, 파이썬 같은 프로그래밍 언어들은 문법을 하나 배우면 내가 필요한 곳 혹은 쓰고싶은 곳에 넣으면서 각각이 독립적으로 기능하는데 SQL은 커다란 틀이 정해져있어서 작성 순서를 반드시 지켜야하고 해당 절 안에서 사용 가능한 예약어가 무엇인지 알아야한다.

그래서 쿼리문의 전체 구조를 먼저 알아야 한다. 지금부터 아래의 순서로 글을 작성하겠다.

<목차>

SQL의 틀 SQL의 실제 작동 순서 서브쿼리 VS WITH(=CTE)

1. SQL의 틀

우선 전체 틀을 보여줄테니 외우자.

이것이 SQL의 기본 틀이다. '틀'이라는 것은 정해진 규칙이니까 의구심을 갖지 말고 외워서 따르도록 한다. 줄바꿈 공백 부분도 의도된 것이니 외우자.

2. SQL의 실제 작동 순서

이것이 SQL의 실제 작동 순서이다. SELECT는 사실 HAVING 다음에 실행된다. (다음 글에서 추가 설명)

SQL이라는 것은 결국 이 덩어리가 계속 반복되는 것이다.(조회 기준) 이것을 빨리 깨닫는 것이 매우매우 중요하다. 저 덩어리가 계속 반복되면서 WITH 전처리를 하거나 ORDER BY, LIMIT 출력을 조절하거나 UNION 다른 덩어리와 이어주는 것이다

3. 서브쿼리 vs WITH(=CTE)

반복되는 덩어리는 '서브쿼리' 형태로 덩어리 안에서조차 반복된다.

서브쿼리는 이 위치에서 사용 가능하다. 그런데 쿼리문을 쓰다보면 서브쿼리와 WITH 무엇을 쓸까? 고민되는 순간이 생기는데 한 번만 쓰는 경우 or 단일 값 필요 -> 서브쿼리 나머지 -> 싹다 WITH 이렇게 사용하면 아주 좋다. 아 그리고 너무나 당연하게도 WITH 내부에서조차 저 덩어리가 반복된다. 끝 //추가 서브쿼리, WITH 외에 추가로 VIEW 가 있다. VIEW를 써야하는 경우도 분명히 있어서 선택을 해야하는데 대부분의 경우 서브쿼리, VIEW 보다 WITH를 쓰는것이 좋다.