nin_cheon.log

einforcement learning introduction + State-action value function + Continuous state spaces

Sun, 22 Jun 2025 08:05:53 GMT

1. Reinforcement Learning 개요

정의: 보상 R 만을 지도 신호로 받아, 에이전트가 스스로 정책(π)을 학습해 장기 수익 (누적 보상)을 최대화

2. Markov Decision Process (MDP)

요소	기호	설명
상태	`s ∈ S`	환경 관측치
행동	`a ∈ A`	의사결정
보상	`R(s)`	즉시 수치
전이확률	`P(s'│s,a)`	다음 상태 분포
할인인자	`0<γ<1`	미래 보상 현재 가치

3. Return(수익)

$$ G_t = \sum_{k=0}^{T} \gamma^{k} R_{t+k+1} $$

결정적 MDP: 하나의 $$(G_t)$$ 최적화
확률적 MDP: $$(\mathbb{E}[G_t])$$ 최적화

4. Bellman Equation (기본형)

$$ Q^{\pi}(s,a)=R(s)+\gamma, \mathbb{E}{s'}\Big[\max{a'}Q^{\pi}(s',a')\Big] $$

5. 가치 함수 & 최적 정책

상태–행동 가치 $$(Q^\pi(s,a))$$
상태 가치 $$(V^\pi(s)=\max_a Q^\pi(s,a))$$
최적 정책 $$(\pi^(s)= \arg\max_a Q^(s,a))$$

6. Deep Q-Network (DQN) 워크플로

경험 ((s,a,r,s')) → Replay Buffer
목표
$$ y = r + \gamma \max_{a'} Q_{\theta^-}(s',a') $$
손실
$$ \mathcal{L}=(y-Q_\theta(s,a))^2 $$
파라미터 업데이트 (SGD/Adam)
소프트 업데이트
$$ \theta^- \leftarrow \tau\theta + (1-\tau)\theta^- $$

7. ε-Greedy 탐색

확률 $$(1-ε): (\arg\max_a Q)$$ (활용)
확률 $$ε$$: 무작위 (탐색)
보통 ε=1.0 → 0.01 선형/지수 감소

8. 학습 안정화 Tricks

기법	요점
Replay Buffer	상관 제거, 샘플 다양성
Mini-Batch	32–128개 경험으로 1 step 학습
Soft Update	`τ ≈ 0.01` 로 타깃 네트워크 점진 반영

9. 연속 상태 공간 대응

테이블 불가 → 함수 근사(NN, 선형) 사용
예: 헬리콥터 상태 벡터
$$(x,y,z,φ,θ,ψ,\dot{x},\dot{y},\dot{z},\dot{φ},\dot{θ},\dot{ψ})$$

10. Lunar Lander 실습 메모

상태(8D): (x,y,ẋ,ẏ,θ,θ̇,l,r)
행동: {NoOp, Left, Main, Right}
할인: γ ≈ 0.985
성공: 두 깃발 사이 Soft Landing + 연료 최소
권장 하이퍼파라미터:
- 학습률 1e-3
- Mini-batch 64
- Buffer 1e5
- τ=0.01

Collaborative filtering+ Recommander systems implementation detail + Content-based filtering + Principal Component Analysis

Mon, 09 Jun 2025 00:10:04 GMT

1. Collaborative Filtering

개념:
사용자-아이템 간의 과거 상호작용 데이터를 바탕으로 추천
즉, "비슷한 사용자/아이템이 좋아한 것"을 기반으로 예측

User-based CF

비슷한 사용자를 찾고, 그들이 좋아한 아이템을 추천
예시: 나와 취향이 유사한 A가 좋아한 영화 B → 나에게도 B 추천

Item-based CF

비슷한 아이템을 찾고, 사용자가 좋아한 아이템과 유사한 아이템을 추천
예시: 내가 좋아한 영화 A와 유사한 영화 B → 나에게 B 추천

평점 예측 공식

$ \hat{r}_{ui} = \mu + b_u + b_i + q_i^T p_u $

$\hat{r}_{ui}$ : 사용자 $u$의 아이템 $i$에 대한 예측 평점
$\mu$ : 전체 평균 평점
$b_u$ : 사용자 편향
$b_i$ : 아이템 편향
$p_u$, $q_i$ : 잠재 요인(latent factor) 벡터

2. Recommendation System Implementation Detail

Matrix Factorization

사용자-아이템 행렬 $R$을 $P \times Q^T$ 로 분해
$P \in \mathbb{R}^{n_{users} \times k}, Q \in \mathbb{R}^{n_{items} \times k}$

Objective Function

$ \min_{p_, q_} \sum_{(u, i) \in \kappa} (r_{ui} - p_u^T q_i)^2 + \lambda (||p_u||^2 + ||q_i||^2) $

$\kappa$: 관측된 사용자-아이템 쌍의 집합
$\lambda$: 정규화 계수

학습 방법

Stochastic Gradient Descent (SGD) 방식으로 미니배치 기반 학습
관측된 평점에 대해서만 손실을 계산

3. Content-Based Filtering

개념:
아이템의 속성(장르, 설명, 키워드 등)을 사용하여 사용자 취향에 맞는 아이템을 추천

핵심 개념

각 아이템은 특징 벡터로 표현됨 (예: TF-IDF, Word2Vec 등)
사용자의 선호도를 이 벡터와 비교하여 예측

사용자 프로필 벡터

$ \vec{u} = \frac{1}{|\mathcal{I}u|} \sum{i \in \mathcal{I}_u} \vec{x}_i $

$\mathcal{I}_u$: 사용자 $u$가 좋아한 아이템들의 집합
$\vec{x}_i$: 아이템 $i$의 특징 벡터

예측 방식

사용자 벡터 $\vec{u}$와 아이템 벡터 $\vec{x}$ 간의 유사도(cosine similarity)를 계산하여 추천

4. Principal Component Analysis (PCA)

목적:
고차원 데이터를 저차원 공간으로 투영하여 중요한 정보 유지하면서 차원 축소

주요 개념

분산이 큰 방향으로 새로운 축(Principal Component)을 정의
첫 번째 주성분이 데이터의 최대 분산을 가지는 방향

수식 정리

평균 중심화

$ x_i' = x_i - \bar{x} $

공분산 행렬 계산

$$ \Sigma = \frac{1}{m} X^T X $$

고유값 분해 또는 SVD

$$ X = U S V^T $$

$U$: 좌표 회전 행렬 (주성분)
$S$: 특이값 (분산 크기)
$V$: 원래 차원 축의 방향

차원 축소

$$ Z = X \cdot U_{reduce} $$

$U_{reduce}$: 상위 $k$개의 주성분 벡터로 구성

클러스터링 + 이상탐지

Sun, 01 Jun 2025 07:14:52 GMT

1. 클러스터링 (Clustering)

개념

비지도 학습: 레이블 없는 데이터(x)만 사용
목표: 비슷한 데이터끼리 자동으로 묶기

K-Means 알고리즘

군집 수 $K$ 설정
군집 중심(centroid) $\mu_1$ ~ $\mu_K$ 무작위 초기화
두 단계 반복:

할당 단계: 각 데이터 포인트 $x^{(i)}$를 가장 가까운 군집 중심 $\mu_k$에 할당
$c^{(i)} := \arg\min_k |x^{(i)} - \mu_k|^2$

업데이트 단계: 각 군집 중심을 해당 군집에 속한 점들의 평균으로 갱신
$\mu_k := \frac{1}{\left|{i: c^{(i)} = k}\right|} \sum_{i: c^{(i)} = k} x^{(i)}$

비용 함수 (Distortion Function)

K-means는 아래 비용 함수를 최소화함: $J(c, \mu) = \frac{1}{m} \sum_{i=1}^m |x^{(i)} - \mu_{c^{(i)}}|^2$

무작위 초기화 & 로컬 옵티마

여러 번 초기화 후 가장 낮은 비용 함수 값을 가진 결과 선택

K 값 선택법: Elbow Method

군집 수 증가에 따른 비용 함수 변화 그래프에서 급격한 완화 지점을 선택
반드시 명확하지 않으며 목적에 따라 판단 필요

2. 이상 탐지 (Anomaly Detection)

개념

정상 데이터만으로 학습하여 “이상값”을 찾아냄
비정상 데이터는 소수 존재하거나 전무할 수도 있음

사용 사례

항공기 엔진 결함 탐지, 사기 거래 탐지, 서버 이상 동작 탐지 등

방법: 확률 기반 밀도 추정

각 특징 $x_j$에 대해 가우시안 분포 모델링 $p(x_j) = \frac{1}{\sqrt{2\pi} \sigma_j} \exp\left( -\frac{(x_j - \mu_j)^2}{2\sigma_j^2} \right)$
전체 확률:
$p(x) = \prod_{j=1}^n p(x_j)$
임계값 $\varepsilon$보다 작으면 이상 탐지:
$p(x) < \varepsilon \Rightarrow \text{Anomaly}$

평균·분산 계산 ($\mu$, $\sigma^2$)

각 특징에 대해 계산:
$\mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)}, \quad \sigma_j^2 = \frac{1}{m} \sum_{i=1}^m (x_j^{(i)} - \mu_j)^2$

주의사항

특징이 가우시안처럼 보이지 않으면 로그, 제곱근 등 변환 필요
이상 탐지는 특징 선택이 특히 중요함

의사 결정 나무와 앙상블

Sun, 25 May 2025 13:28:50 GMT

1. 의사결정 트리란 무엇인가?

의사결정 트리(Decision Tree)는 데이터를 분할해가며 예측을 수행하는 트리 기반 모델이다.
루트 노드(root node)부터 시작해 각 결정 노드(decision node)에서 특정 특성(feature)을 기준으로 데이터를 분할하며, 마지막 리프 노드(leaf node)에서 예측 값을 출력한다.

예: 귀 모양, 얼굴 모양, 수염 여부 등의 특성으로 고양이인지 아닌지를 분류

2. 의사결정 트리 학습 과정

2.1. 트리 구성 단계

루트 노드에서 어떤 특성(feature)으로 분할할지 선택
선택된 특성 값을 기준으로 데이터 분할
각 하위 노드에 대해 위 과정을 반복 (재귀적 트리 생성)
리프 노드 조건:
- 모든 데이터가 하나의 클래스일 경우
- 트리의 최대 깊이 도달
- 정보 이득(information gain)이 임계값 이하
- 노드 내 샘플 수가 최소 임계값보다 작을 경우

2.2. 분할 기준: 정보 이득 (Information Gain)

엔트로피(Entropy): 데이터 집합의 불순도를 측정
- 모든 클래스가 섞여 있을수록 엔트로피가 높음 (최대 1)
- 하나의 클래스만 있을 경우 엔트로피는 0
정보 이득:
- 분할 전 엔트로피 − 분할 후 가중 평균 엔트로피
- 정보 이득이 큰 특성을 선택해 트리를 분할

2.3. 연속형 변수 처리

연속형 변수는 다양한 임계값(threshold)을 기준으로 분할
예: 무게 ≤ 9 또는 > 9
각 임계값마다 정보 이득을 계산하여 가장 큰 정보 이득을 주는 값을 선택

2.4. 범주형 변수 처리

범주형 변수가 셋 이상의 값을 가질 경우, 원-핫 인코딩(One-hot encoding)을 사용
각 카테고리를 0 또는 1로 인코딩하여 의사결정 트리 학습에 사용

3. 트리 앙상블 (Tree Ensembles)

3.1. 단일 트리의 한계

하나의 의사결정 트리는 훈련 데이터에 민감해 overfitting 또는 underfitting 가능성 있음
해결책: 여러 개의 트리를 결합해 예측 성능을 향상

3.2. 배깅 (Bagging)과 랜덤 포레스트 (Random Forest)

배깅(Bootstrap Aggregating): 훈련 세트를 복원 추출로 여러 개 샘플링해 각기 다른 트리를 학습
랜덤 포레스트(Random Forest):
- 배깅 + 각 노드에서 분할 시 특성의 일부를 무작위로 선택해 다양성 증가
- 앙상블된 트리들의 예측을 다수결 또는 평균으로 결합해 최종 예측

3.3. 부스팅 (Boosting)과 XGBoost

부스팅(Boosting): 순차적으로 여러 트리를 학습하며 이전 트리가 잘못 예측한 샘플에 가중치를 부여
XGBoost:
- 부스팅 기반 고성능 알고리즘
- 빠르고, 과적합 방지를 위한 정규화 포함
- 머신러닝 대회에서 자주 우승하는 알고리즘

# XGBoost 사용 예시
from xgboost import XGBClassifier
model = XGBClassifier()
model.fit(X_train, y_train)

4. 분류 트리 vs 회귀 트리

분류 트리: 클래스 예측 (예: 고양이인지 아닌지)
- 분할 기준: 엔트로피 감소 (정보 이득)
회귀 트리: 숫자 예측 (예: 동물 무게)
- 분할 기준: 분산 감소 (Variance Reduction)
- 리프 노드 예측값: 해당 노드의 평균 출력값

5. 장단점 및 사용 시기

장점

빠른 학습 속도
비교적 쉬운 해석 가능성 (작은 트리)
정형 데이터(스프레드시트 형태)에 효과적

단점

단일 트리는 데이터에 민감하고 불안정할 수 있음
트리 앙상블은 해석이 어려움

사용 추천 상황

정형 데이터가 있는 경우 → 의사결정 트리 또는 XGBoost
이미지, 오디오, 텍스트 등 비정형 데이터 → 신경망(Neural Network)

머신러닝 개발 조언, 편향과 분산, 개발 프로세스, 불균형 데이터셋

Sun, 18 May 2025 12:59:46 GMT

1. 머신러닝 개발 조언 (Advice for Machine Learning)

모델 성능 향상을 위해 고려할 수 있는 대표적인 방법은 다음과 같습니다.

1.1 더 많은 데이터 확보 (Getting More Data)

고분산 문제 해결: 훈련 데이터 부족으로 인한 과적합 위험 감소
일반화 성능 향상: 다양한 데이터 패턴 학습 가능
주의사항: 데이터 수집에는 비용과 시간이 소요되며, 항상 성능이 향상되는 것은 아님

1.2 특성 수 줄이기 (Feature Selection / Dimensionality Reduction)

모델 복잡성 감소: 과적합 방지 및 속도 향상
차원 축소 기법: PCA, t-SNE 등 사용 가능

1.3 새로운 특성 추가 (Adding New Features)

고편향 문제 해결: 모델의 과소적합을 개선
Feature Engineering: 기존 특성의 조합, 변형 등 활용

1.4 다항 특성 추가 (Adding Polynomial Features)

비선형 관계 학습 가능
과적합 유의 필요

1.5 정규화 (Regularization)

고분산 문제 해결: 모델 복잡도 제어
종류:
- L1 정규화 (Lasso): 특성 선택 효과
- L2 정규화 (Ridge): 가중치 감소
정규화 파라미터: $\lambda$ 튜닝 필요 (ex. 교차검증 활용)

2. 편향과 분산 (Bias and Variance)

모델의 에러를 진단하고 개선하기 위해 핵심 개념인 편향과 분산을 이해해야 합니다.

2.1 편향 (Bias)

정의: 모델이 잘못된 가정을 통해 일관된 오차를 보이는 현상
특징:
- 높은 훈련 오차 ($J_{train}$ ↑)
- 교차 검증 오차도 유사하게 높음 ($J_{cv} \approx J_{train}$)
해결법:
- 더 복잡한 모델 사용
- 특성 수 증가
- 정규화 강도 감소 ($\lambda$ ↓)

2.2 분산 (Variance)

정의: 데이터의 작은 변화에도 모델 예측이 크게 변하는 현상
특징:
- 낮은 훈련 오차 ($J_{train}$↓)
- 교차 검증 오차는 매우 높음 ($J_{cv} \gg J_{train}$)
해결법:
- 더 많은 데이터 확보
- 특성 수 줄이기
- 모델 단순화
- 정규화 강도 증가 ($lambda$ ↑)

2.3 학습 곡선 (Learning Curves)

훈련 세트 크기에 따른 오차의 변화를 통해 모델 상태 진단 가능

모델 상태	훈련 오차	검증 오차	해석
고편향	높음	비슷하게 높음	과소적합
고분산	낮음	매우 높음	과적합
적절함	낮음	비슷하게 낮음	일반화 우수

3. 머신러닝 개발 프로세스 (Machine Learning Development Process)

머신러닝 프로젝트는 다음의 일련의 단계를 따라 효율적으로 진행됩니다.

문제 정의 (Problem Definition): 예측하고자 하는 목표 설정
데이터 수집 (Data Collection): 신뢰 가능한 데이터 확보
데이터 준비 (Data Preparation): 결측치 처리, 정규화 등
모델 선택 (Model Selection): 선형 회귀, 결정 트리 등
모델 훈련 (Model Training): 학습 알고리즘 적용
모델 평가 (Model Evaluation): 교차 검증, 오차 분석
모델 튜닝 (Model Tuning): 하이퍼파라미터 조정
모델 배포 (Model Deployment): 실서비스에 적용
모니터링 및 유지보수 (Monitoring): 모델 성능 지속 확인 및 개선

4. 불균형 데이터셋 (Skewed Datasets)

소수 클래스 데이터가 너무 적은 경우, 모델은 대부분 다수 클래스를 예측하게 되어 문제가 됩니다.

4.1 문제점

정확도 착시: 단순히 다수 클래스 예측만 해도 정확도는 높게 나올 수 있음
학습 편향: 소수 클래스 무시 → 실무에서 치명적

4.2 해결 방안

데이터 증강 (Data Augmentation): 소수 클래스 데이터 합성/복제
오버샘플링 (Oversampling): 소수 클래스 복제
언더샘플링 (Undersampling): 다수 클래스 일부 제거
클래스 가중치 조정 (Class Weighting): 손실 함수에 가중치 부여
대안 평가 지표 사용:
- 정밀도 (Precision)
- 재현율 (Recall)
- F1 점수
- AUC (Area Under the Curve)
앙상블 기법 (Ensemble Methods): 랜덤포레스트, 배깅, 부스팅 등 활용

Additional Neural Network Concepts + Back Propagation

Sun, 11 May 2025 11:02:17 GMT

1. 경사하강법과 한계

경사하강법은 선형회귀, 로지스틱 회귀, 신경망의 기본 학습 알고리즘
하지만 학습률($\alpha$) 조절이 어려움
- 너무 작으면 느림
- 너무 크면 발산하거나 진동
한 단계 업데이트 수식:

$$ w_j := w_j - \alpha \frac{\partial J}{\partial w_j} $$

동일한 방향으로 반복 이동하는 경우: 학습률을 더 키우고 싶음
진동하는 경우: 학습률을 줄여야 함

2. Adam 알고리즘의 개요

Adam: Adaptive Moment Estimation의 약자
학습률($\alpha$)을 자동으로 조정
각 파라미터별로 다른 학습률 $\alpha_1, \alpha_2, ..., \alpha_n$ 사용
경사하강법보다 더 빠르고 안정적인 수렴 유도

실무에서는 대부분 경사하강법(GD) 대신 Adam 사용

TensorFlow 구현:

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

3. Adam 알고리즘의 핵심 아이디어

파라미터가 비슷한 방향으로 계속 움직임 → 학습률 증가
파라미터가 진동 → 학습률 감소
내부적으로는 1차/2차 모멘텀(평균/분산)을 추적하여 업데이트

4. 계산 그래프 (Computation Graph)

딥러닝의 핵심 개념. 순전파와 역전파 계산을 시각적, 단계적으로 표현함.

4-1. 순전파 예시 (단일 뉴런)

$x=-2$, $y=2$
$w=2$, $b=8$
출력 $a = wx + b = -4 + 8 = 4$
오차: $d = a - y = 2$
비용 함수:

$$ J = \frac{1}{2}(a - y)^2 = \frac{1}{2} d^2 = 2 $$

4-2. 역전파 개요

오른쪽에서 왼쪽으로 계산
$\frac{\partial J}{\partial d} = 2d = 4$
$\frac{\partial J}{\partial a} = 2$
$\frac{\partial J}{\partial b} = 2$
$\frac{\partial J}{\partial c} = 2$
$\frac{\partial J}{\partial w} = -4$

5. 도함수의 직관적 계산 예시

함수: $J(w) = w^2$

$w = 3 \Rightarrow J = 9$
$w = 3.001 \Rightarrow J = 9.006001$
도함수: $\frac{\Delta J}{\Delta w} \approx 6$

공식적 계산

$$ \frac{dJ}{dw} = 2w $$

$w = 3 \Rightarrow \frac{dJ}{dw} = 6$
$w = 2 \Rightarrow \frac{dJ}{dw} = 4$
$w = -3 \Rightarrow \frac{dJ}{dw} = -6$

6. SymPy로 도함수 계산 (파이썬 코드)

import sympy as sp
w = sp.symbols('w')
J = w**2
sp.diff(J, w)  # 결과: 2w

7. 계산 그래프와 역전파 효율성

노드 수: $n$, 파라미터 수: $p$
브루트포스 방식: $O(n \cdot p)$
계산 그래프 역전파: $O(n + p)$ → 효율적!

8. 대규모 신경망 예제 (ReLU 포함)

입력: $x = 1$, 정답: $y = 5$
네트워크 구조:
- $a_1 = \max(0, w_1x + b_1)$
- $a_2 = \max(0, w_2a_1 + b_2)$
- 비용 함수:

$$ J = \frac{1}{2}(a_2 - y)^2 $$

예시 값:
- $w_1=2$, $b_1=0$, $w_2=3$, $b_2=1$
- $a_1 = 2$, $a_2 = 7$
- $J = 2$

9. 자동 미분과 오토디프(Autodiff)

프레임워크 (TensorFlow, PyTorch)는 자동 미분 기능 제공
사용자는 forward 계산만 정의하면 됨
내부적으로 계산 그래프 + 역전파로 도함수 자동 계산
과거에는 직접 미분을 손으로 계산해야 했지만 이제는 필요 없음!

Neural Network Training, Activation Functions, Multiclass Classification

Sun, 04 May 2025 10:14:03 GMT

Neural Network Training + Activation Functions + Multiclass Classification 정리

1. 신경망 학습 (Neural Network Training)

신경망은 아래의 순서를 반복하며 학습한다.

순방향 전파 (Forward Propagation): 입력값을 통해 예측값을 계산
손실 함수 계산 (Loss Function): 예측값과 실제값의 차이 계산
역전파 (Backpropagation): 오차를 기반으로 각 가중치에 대한 기울기(gradient) 계산
파라미터 업데이트 (Gradient Descent): 가중치와 편향을 업데이트

파라미터 업데이트 공식 (경사하강법)

$$ W := W - \eta \cdot \frac{\partial L}{\partial W} $$

$$ b := b - \eta \cdot \frac{\partial L}{\partial b} $$

( \eta ): 학습률 (learning rate)
( L ): 손실 함수 (loss function)

2. 활성화 함수 (Activation Functions)

활성화 함수는 비선형성을 도입하여 신경망이 복잡한 문제를 해결할 수 있도록 해준다.

주요 활성화 함수 정리

1. Sigmoid

수식: $\sigma(z) = \frac{1}{1 + e^{-z}}$
특징: 출력 범위 (0, 1), 확률 해석 가능

2. Tanh

수식: $\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$
특징: 출력 범위 (-1, 1), 중심이 0

3. ReLU

수식: $f(z) = \max(0, z)$
특징: 계산 간단, Gradient Vanishing 문제 완화

Python 구현 예시

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def tanh(z):
    return np.tanh(z)

def relu(z):
    return np.maximum(0, z)

3. 다중 클래스 분류 (Multiclass Classification)

다중 클래스 분류는 입력 데이터가 둘 이상의 클래스 중 하나에 속할 확률을 예측하는 문제이다.
이를 위해 신경망의 출력층에서 Softmax 함수를 사용하고, 손실 함수로 Cross Entropy를 사용한다.

Softmax 함수

Softmax는 각 클래스에 대한 점수(logit)를 확률 값으로 변환한다.

$$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} $$

( z_i ): 클래스 ( i )의 logit (출력 전 score)
( K ): 전체 클래스 수
결과적으로 모든 클래스 확률의 총합은 1이 됨

Softmax 함수 Python 구현 예시

def softmax(z):
    exp_z = np.exp(z - np.max(z, axis=1, keepdims=True))  # 안정성 확보
    return exp_z / np.sum(exp_z, axis=1, keepdims=True)

4. Cross Entropy Loss

Cross Entropy는 모델이 예측한 확률 분포와 실제 정답 분포 간의 차이를 측정하는 손실 함수이다.

다중 클래스 분류에서 주로 사용되며, 예측 확률이 실제 정답과 가까울수록 손실 값이 작아진다.

수식 (Multiclass 기준)

$$ \mathcal{L} = -\sum_{i=1}^{K} y_i \log(\hat{y}_i) $$

( K ): 클래스의 수
( y_i ): 실제 정답 (One-hot Encoding)
( \hat{y}_i ): 모델의 예측 확률 (Softmax 결과)

예: 정답이 클래스 2일 때 → ( y = [0, 1, 0] )

수치 예시

# 예측값 (Softmax 출력)
y_hat = np.array([0.7, 0.2, 0.1])

# 실제 정답 (One-hot 벡터)
y_true = np.array([1, 0, 0])

# Cross Entropy 계산
loss = -np.sum(y_true * np.log(y_hat))  # = -log(0.7) ≈ 0.357

파이썬에서의 Neural Network 구현과 AGI, 행렬

Sun, 20 Apr 2025 11:51:45 GMT

1. 순방향 전파의 파이썬 구현

신경망의 각 계층은 입력값을 받아 가중치와 곱하고 편향을 더한 뒤, 비선형 활성화 함수를 적용하여 다음 계층으로 전달
순방향 전파(Forward Propagation)는 입력에서 출력까지 데이터를 전달하며 예측값을 계산하는 과정

Python 코드 예시:

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def dense(a_in, W, b):
    z = np.matmul(a_in, W) + b
    a_out = sigmoid(z)
    return a_out

np.matmul은 벡터 또는 행렬 곱셈을 수행하여 효율적인 연산이 가능
반복문보다 벡터화를 통해 학습 및 예측 속도를 획기적으로 향상시킬 수 있음

2. 텐서와 행렬 연산의 이해

Tensor는 다차원 배열로, TensorFlow에서 데이터는 일반적으로 2D 행렬로 표현됨
예: (1, 2) 입력은 1x2 행렬로 처리되어 배치 학습에 유리함
행렬 곱셈의 조건: A (m×n) 와 B (n×p) → AB는 (m×p) 크기의 행렬
내적(dot product)을 통해 각 뉴런의 출력값을 계산할 수 있음

행렬 곱셈 예시:

입력 A: 2x3, 가중치 W: 3x4 → 출력 Z: 2x4
Z의 각 원소는 A의 한 행과 W의 한 열의 내적 결과

3. 인공 일반 지능(AGI)에 대한 고찰

ANI(Artificial Narrow Intelligence): 특정 업무에 특화된 AI, 자율주행·음성인식 등 실용화 단계
AGI(Artificial General Intelligence): 인간 수준의 일반 지능, 현재는 미완의 영역
인간의 뇌는 다양한 센서 입력(청각, 시각, 촉각 등)에 유연하게 적응 가능함
동일한 뇌 영역이 데이터 유형에 따라 보는 법, 듣는 법, 느끼는 법을 학습할 수 있음
하나 또는 소수의 강력한 학습 알고리즘이 뇌의 다양한 기능을 가능하게 한다는 하나의 학습 알고리즘 가설이 제시됨

4. 신경망의 벡터화 구현

신경망을 벡터화(Vectorization)하면 GPU의 병렬 연산을 활용하여 연산 속도를 크게 향상시킬 수 있음
for-loop 기반 코드 대신 matmul, broadcast 등을 활용해 효율적으로 구현

Z = np.matmul(A_in, W) + b
A_out = sigmoid(Z)

입력 X가 여러 샘플을 포함하는 경우에도 병렬로 처리 가능
신경망 학습과 추론의 핵심 연산은 대부분 행렬 곱셈에 기반함

신경망(Neural Network)과 딥러닝의 이해

Sun, 13 Apr 2025 07:04:27 GMT

1. 신경망의 개요

신경망(Neural Network)은 인간의 뇌 구조를 모방한 기계 학습 알고리즘으로, 복잡한 패턴 인식과 예측 문제에 강력한 성능을 발휘함
딥러닝(Deep Learning)은 은닉층(hidden layer)이 여러 개인 신경망으로, 대규모 데이터 학습에 유리
주로 음성 인식, 컴퓨터 비전, 자연어 처리, 추천 시스템 등 다양한 분야에 응용됨

2. 신경망의 동작 원리

기본 구성 단위는 뉴런(neuron)이며, 입력을 받아 가중치(weight)를 곱하고 편향(bias)를 더한 후 활성화 함수(activation function)를 적용해 출력

수식 표현:

$z = w \cdot x + b$ $a = g(z)$

$g(z)$는 시그모이드 함수 등 비선형 함수로 사용됨

3. 신경망 구조

입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성됨
은닉층의 수와 뉴런의 개수는 모델의 표현력을 결정

예시 구조:

입력 특징 벡터 $x \in \mathbb{R}^n$ → 은닉층 → 출력값 $\hat{y}$ 예측

각 은닉층은 이전 계층의 출력(활성화 값)을 입력으로 받아 연산 수행

4. 순방향 전파 (Forward Propagation)

입력값이 신경망을 따라 전달되어 최종 출력이 계산되는 과정

예시 순서:

$a^{[1]} = g(W^{[1]} x + b^{[1]})$
$a^{[2]} = g(W^{[2]} a^{[1]} + b^{[2]})$
$\hat{y} = a^{[L]}$ (최종 출력)

모든 계층에서 활성화 함수를 적용해 비선형성을 부여함

5. 특징 학습 (Feature Learning)

신경망은 중간층(은닉층)을 통해 입력 특성으로부터 유용한 표현(feature representation)을 스스로 학습함
사람이 직접 feature engineering을 하지 않아도 자동으로 특징을 조합할 수 있음

6. 딥러닝의 발전 배경

빅데이터: 디지털화로 인해 대규모 데이터 수집 가능
하드웨어 발전: GPU를 이용한 대량 병렬 연산이 가능해짐
알고리즘 개선: 신경망 구조의 고도화 및 정규화 기법, 최적화 기법의 발달

7. 컴퓨터 비전에서의 활용

이미지 → 벡터로 변환 → 신경망에 입력
초기 계층은 선, 가장자리 등의 단순한 패턴 탐지
중간 계층은 눈, 코 등 얼굴의 부분 감지
깊은 계층은 전체 얼굴 형태 감지 → 최종적으로 개인의 정체성 분류

8. 신경망 구현 방식

한 계층에서 다음 계층으로 활성화 값을 전달
텐서플로우(TensorFlow)와 같은 프레임워크로 쉽게 구현 가능

model = Sequential([
    Dense(25, activation='sigmoid'),
    Dense(15, activation='sigmoid'),
    Dense(1, activation='sigmoid')
])

model.predict(x) 형태로 순방향 예측 수행 가능

9. 데이터 표현 방식

TensorFlow에서는 입력 데이터를 2D 행렬(배치 처리)로 표현
예: (1, 2) 형태의 입력은 1x2 행렬 형태로 표현됨
Tensor는 수학적으로 행렬보다 일반적인 데이터 구조

10. 실습 정리 및 학습 소감

이번 강의에서는 신경망의 개념부터 구조, 동작 방식, 실제 구현까지 전반적인 흐름을 완벽히 이해
실제로 손글씨 숫자 분류, 커피 로스팅 품질 예측 등의 예제를 통해 신경망의 실제 적용 사례를 학습
특히, 순방향 전파를 직접 코드로 구현하고 TensorFlow 프레임워크로 단순화된 구현을 실습함

로지스틱 회귀에서의 경사하강법과 오버피팅의 문제

Sun, 06 Apr 2025 06:46:51 GMT

1. 로지스틱 회귀에서의 파라미터 최적화

로지스틱 회귀에서 모델의 성능을 향상시키기 위해 파라미터 $w$와 $b$를 조정해야 함
목표는 비용 함수 $J(w, b)$를 최소화하는 최적의 파라미터 값을 찾는 것
이를 위해 경사 하강법(Gradient Descent)을 사용

모델의 예측 함수

$f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}$

새로운 입력값 $x$ (예: 종양 크기, 환자 연령)를 넣으면 y=1일 확률을 예측

2. 경사 하강법의 작동 방식

경사 하강법은 비용 함수 $J(w, b)$가 가장 작아지는 방향으로 $w$와 $b$를 반복적으로 업데이트

일반적인 경사 하강법 식

$w_j := w_j - \alpha \cdot \frac{\partial J}{\partial w_j}$

$b := b - \alpha \cdot \frac{\partial J}{\partial b}$

$\alpha$: 학습률(learning rate), 너무 크면 발산하고 너무 작으면 수렴 속도가 느림

3. 로지스틱 회귀의 비용 함수 도함수

로지스틱 회귀의 비용 함수는 다음과 같이 미분됨

$w_j$에 대한 도함수

$\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)}$

$b$에 대한 도함수

$\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})$

$x_j^{(i)}$: $i$번째 샘플의 $j$번째 특성

4. 선형 회귀와의 차이점

선형 회귀와 업데이트 공식은 동일해 보이지만, 예측 함수 $f$가 다름
선형 회귀: $f(x) = w \cdot x + b$
로지스틱 회귀: $f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}$

따라서 모양은 비슷해도 완전히 다른 알고리즘

5. 특징 스케일링의 중요성

로지스틱 회귀에서도 특징 스케일링(feature scaling)은 학습 속도 향상에 효과적
예: 모든 특성값을 -1 ~ 1 범위로 정규화하면 경사 하강법의 수렴 속도 향상

6. 과적합 vs 과소적합

과적합(overfitting): 모델이 훈련 데이터에 너무 과하게 적합하여 새로운 데이터에 일반화되지 못함
과소적합(underfitting): 모델이 데이터의 패턴을 충분히 학습하지 못함

예시:

저차수 모델: 단순 직선 → underfitting, 편향(bias)이 높음
고차수 모델: 복잡한 곡선 → overfitting, 분산(variance)이 높음

최적의 모델은 편향과 분산이 모두 적절한 수준으로 균형을 이루는 경우

7. 과적합을 줄이는 세 가지 방법

더 많은 훈련 데이터 확보
- 데이터가 많을수록 일반화 성능 향상
특징 수 줄이기 (Feature Selection)
- 가장 관련성 높은 특성만 사용하여 과적합 방지
정규화 (Regularization)
- 비용 함수에 페널티 항 추가하여 파라미터 크기를 줄임

정규화는 모델 복잡도를 낮춰 과적합을 줄이는 데 효과적

8. 정규화된 비용 함수

수식:

$J(w, b) = \frac{1}{m} \sum_{i=1}^{m} \text{Loss}(f^{(i)}, y^{(i)}) + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2$

$\lambda$: 정규화 파라미터, 모델의 복잡도를 제어
$\lambda = 0$이면 정규화 없음 → 과적합 가능성 ↑
$\lambda$가 너무 크면 모델이 단순해져 underfitting 발생 가능

9. 정규화된 경사 하강법 업데이트

파라미터 업데이트 식:

$w_j := w_j - \alpha \cdot \left(\frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)} + \frac{\lambda}{m} w_j \right)$

$b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})$

$b$는 일반적으로 정규화하지 않음

10. 정규화의 직관적 이해

매 반복마다 $w_j$에 1보다 약간 작은 수를 곱하는 효과 → 점진적으로 파라미터 크기 감소
모델이 복잡해지는 것을 억제하여 일반화 성능 향상

로지스틱 회귀분석과 기능함수

Sun, 30 Mar 2025 07:55:12 GMT

1. 로지스틱 회귀의 개요

로지스틱 회귀(Logistic Regression)는 이진 분류(binary classification) 문제를 해결하는 데 널리 사용되는 지도 학습 알고리즘
출력값이 연속적인 수치가 아닌 0 또는 1과 같은 범주형 값을 가질 때 사용됨
시그모이드 함수를 활용하여 예측값을 확률 형태로 출력

2. 분류 문제와 결정 경계

분류(Classification)는 특정 입력에 대해 출력이 카테고리(클래스)로 나오는 문제
대표 예시: 스팸 여부, 종양의 악성 여부, 사기 거래 탐지

일반적으로 출력 레이블은 0(False) 또는 1(True)로 표현함

결정 경계 (Decision Boundary)

로지스틱 회귀는 다음과 같은 함수 구조를 가짐:

$f(x) = \frac{1}{1 + e^{-z}}, \quad z = w \cdot x + b$

결정 경계는 $z = 0$일 때를 기준으로 정의됨
즉, $w \cdot x + b = 0$이 분류 기준
결정 경계의 좌우에 따라 y = 0 또는 y = 1로 예측

3. 시그모이드 함수

로지스틱 회귀의 핵심 함수는 시그모이드(Sigmoid) 함수

정의:

$g(z) = \frac{1}{1 + e^{-z}}$

$z \rightarrow +\infty$ 일 때 $g(z) \rightarrow 1$
$z \rightarrow -\infty$ 일 때 $g(z) \rightarrow 0$
$z = 0$일 때 $g(z) = 0.5$

출력값은 항상 0과 1 사이이며, 1일 확률로 해석 가능

4. 예측과 분류 기준

로지스틱 회귀의 예측값 $f(x)$는 확률로 해석
일반적으로 다음과 같은 기준을 사용

임계값 기준:

$f(x) \geq 0.5$ → y = 1 예측
$f(x) < 0.5$ → y = 0 예측

0.5는 가장 일반적인 임계값, 문제에 따라 조정 가능

5. 비용 함수 (Cost Function)

제곱 오차는 비선형 분류 문제에 적합하지 않음 → 로그 손실 함수 사용

로지스틱 손실 함수:

$Loss(f, y) = -y \log(f) - (1 - y) \log(1 - f)$

전체 비용 함수:

$J(w, b) = \frac{1}{m} \sum_{i=1}^{m} Loss(f^{(i)}, y^{(i)})$

$m$: 훈련 샘플 개수
$f^{(i)}$: $i$번째 예측값, $y^{(i)}$: 실제 레이블

이 함수는 볼록(convex)하여 경사 하강법으로 최적화 가능

6. 경사 하강법 (Gradient Descent)

비용 함수를 최소화하기 위해 반복적으로 가중치와 편향을 조정하는 알고리즘

파라미터 업데이트 식:

$w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)}$

$b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})$

$\alpha$: 학습률 (learning rate)

학습률이 너무 크면 발산하고, 작으면 수렴 속도가 느림

7. 결정 경계의 확장: 다항 로지스틱 회귀

로지스틱 회귀는 다항 특성(polynomial features)을 사용해 복잡한 결정 경계도 학습 가능

예시:

$f(x) = g(w_1x_1^2 + w_2x_2^2 + b)$

이 경우 결정 경계는 원형 또는 타원형이 될 수 있음
차수가 높아질수록 복잡한 분류 경계 형성 가능

단, 복잡한 모델일수록 과적합(overfitting)에 주의해야 함

다중 선형 회귀 분석과 경사하강법

Sun, 23 Mar 2025 02:02:58 GMT

1. 다중 선형 회귀의 개요

다중 선형 회귀는 하나 이상의 입력 특징(feature)을 바탕으로 출력 값을 예측하는 지도 학습 알고리즘
기본적인 선형 회귀의 확장된 형태로, 다양한 특성을 사용하여 더 정확한 예측을 수행

2. 다중 선형 회귀의 수학적 모델

다중 선형 회귀는 여러 입력값을 각각의 가중치와 곱해 더한 후 편향값을 더하는 모델
모델은 다음과 같이 정의됨:

일반 수식:

$f(\vec{x}) = \vec{w} \cdot \vec{x} + b$

$\vec{w} = [w_1, w_2, ..., w_n]$ : 가중치 벡터
$\vec{x} = [x_1, x_2, ..., x_n]$ : 입력 특징 벡터
$b$ : 편향 (bias)
$f(\vec{x})$ : 예측 값

3. 다중 선형 회귀 모델의 예시

입력 특징 예시:

$x_1$: 집 크기 (평방피트)
$x_2$: 침실 수
$x_3$: 층 수
$x_4$: 주택의 연수 (나이)

모델 예시:

$\hat{y} = 0.1x_1 + 4x_2 + 10x_3 - 2x_4 + 80$

특징마다 예측에 영향을 주는 비율이 다름
- ex) 침실이 추가되면 $4,000$달러 상승, 연식 1년 증가 시 $2,000$달러 하락 등

4. 벡터화 (Vectorization)

벡터화를 사용하면 연산을 효율적으로 처리할 수 있으며, 코드가 짧고 실행 속도가 빨라짐

4-1. 벡터화 전 (비효율적인 구현):

f = 0
for j in range(n):
    f += w[j] * x[j]
f += b

4-2. 벡터화 후 (효율적인 구현):

f = np.dot(w, x) + b

np.dot()은 두 벡터의 내적(dot product)을 계산하는 함수
NumPy는 내부적으로 병렬 연산을 활용하여 속도 향상

5. 다중 선형 회귀의 비용 함수

비용 함수는 예측값과 실제값 사이의 오차를 수치화

$J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f_w(x^{(i)}) - y^{(i)})^2$

$m$: 훈련 샘플 개수
$x^{(i)}$: $i$번째 샘플의 입력 특징 벡터
$y^{(i)}$: $i$번째 샘플의 실제 출력 값
$f_w(x^{(i)})$: 예측 값

비용 함수는 기울기 하강법을 통해 최소화

6. 경사 하강법 (Gradient Descent)

모델의 가중치와 편향을 반복적으로 업데이트하여 비용 함수의 최소값을 찾는 최적화 알고리즘

6-1. 다중 특징일 때의 업데이트 식

$w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f_w(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)}$

$b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f_w(x^{(i)}) - y^{(i)})$

$\alpha$: 학습률 (Learning Rate)

6-2. 벡터화된 형태

dw = (1/m) * np.dot(X.T, (y_pred - y_true))
db = (1/m) * np.sum(y_pred - y_true)

w = w - alpha * dw
b = b - alpha * db

7. 특징 스케일링 (Feature Scaling)

여러 특징의 값 범위가 크게 다를 경우, 경사 하강법의 수렴 속도가 느려질 수 있음

7-1. 스케일링 방법

(1) Min-Max Scaling:

$x_i := \frac{x_i - \min(x)}{\max(x) - \min(x)}$

(2) 평균 정규화 (Mean Normalization):

$x_i := \frac{x_i - \mu}{\max(x) - \min(x)}$

(3) Z-점수 정규화 (Z-score Normalization):

$x_i := \frac{x_i - \mu}{\sigma}$

$\mu$: 평균, $\sigma$: 표준편차

일반적으로 모든 특징이 -1 ~ 1 정도의 범위를 가지면 학습이 빠름

8. 학습률 선택 및 수렴 확인

학습률 $\alpha$가 너무 작으면 → 수렴이 매우 느림
학습률이 너무 크면 → 발산할 수 있음

수렴 확인 방법:

반복 횟수에 따른 비용 함수 $J(w,b)$의 값 플로팅
반복마다 $J$가 꾸준히 감소하면 수렴 중
그래프가 평평해지면 수렴 완료

9. 특징 엔지니어링 (Feature Engineering)

원래의 특징을 조합하거나 변형하여 모델 성능을 높이기 위한 새로운 특징을 생성

예시:

$x_1$: 토지 너비
$x_2$: 토지 깊이
→ $x_3 = x_1 \cdot x_2$: 대지 면적

10. 다항 회귀 (Polynomial Regression)

단순 선형이 아닌 비선형 관계를 모델링

예시:

입력 $x$: 집 크기

모델:

$\hat{y} = w_1x + w_2x^2 + w_3x^3 + b$

또는

$\hat{y} = w_1\sqrt{x} + b$

주의: 다항 특징을 사용할 경우에도 스케일링이 매우 중요

11. 실습에서 사용하는 라이브러리

NumPy: 수치 계산 및 벡터화에 사용
Scikit-Learn: 선형 회귀 모델 구현에 자주 사용되는 오픈소스 라이브러리

실무에서도 Scikit-Learn의 LinearRegression 모델을 사용하여 간단하게 회귀 모델 학습 가능

회귀 모델과 경사하강법 정리

Sun, 16 Mar 2025 01:19:25 GMT

1. 지도 학습의 개요

지도 학습 은 데이터와 해당 정답 ( 출력값 ) 을 제공하여 모델을 학습시키는 방식
지도 학습의 대표적인 예는 선형 회귀 이며, 이는 기본적인 기계 학습 모델 중 하나

2. 지도 학습과 선형 회귀의 개념

지도학습
- 지도 학습은 입력 과 출력 을 포함하는 훈련 데이터셋을 사용하여 모델을 학습
- 지도 학습 모델의 목표는 주어진 입력 데이터에 대해 가장 적절한 출력을 예측하는 것
선형회귀
- 선형 회귀 모델은 데이터셋의 입력과 출력 간의 관계를 직선 형태의 함수로 표현하는 모델
- 선형 회귀를 통해 수치 값을 예측할 수 있으며, 이는 회귀 문제로 분류

3. 선형 회귀의 수학적 표현

선형 회귀 모델은 아래와 같은 수식으로 표현

$f(x)=wx+b$

$w : 기울기(가중치, weight)$

$b : 절편(bias)$

$x : 입력 값$

$f(x) : 예측 값$

4. 지도 학습 모델의 훈련 과정

4-1. 데이터 수집 및 전처리

주어진 데이터셋을 분석하고 필요한 정리 과정을 거침

4-2. 모델 학습

훈련 데이터셋을 사용하여 모델을 학습

4-3. 비용 함수 정의

모델의 예측 값이 실제 값과 얼마나 차이가 있는지를 평가하기 위한 비용 함수를 설정

4-4. 경사 하강법 적용

비용 함수 값을 최소화하는 방향으로 모델의 파라미터 ( $w$ , $b$ ) 를 조정

4-5. 최적의 모델 획득

최적의 파라미터 값을 찾으면 모델 학습 완료

5. 비용 함수 (Cost Function)

비용 함수는 모델이 얼마나 정확한지 측정하는 함수로, 대표적인 비용 함수는 평균 제곱 오차(Mean Squared Error, MSE)이다.

$ MSE = \frac{1}{m} \sum_{i=1}^{m} (f_w(x^i) - y^i)^2 $

비용함수 $J(w,b)$는 MSE의 변형으로, 미분을 간단하게하기 위해 $\frac{1}{2}$을 곱한 형태 $ J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f_w(x^i) - y^i)^2 $

$m : 훈련 데이터의 개수$

$f_w(x^i) : 모델이 예측한 값$

$y^i : 실제 정답 값$

비용 함수는 모델의 예측 값과 실제 값 간의 오차의 제곱을 평균한 값이며, 이를 최소화하는 것이 목표이다.

6. 경사 하강법 (Gradient Descent)

경사 하강법은 비용 함수가 최소화되는 방향으로 모델의 파라미터를 조정하는 최적화 알고리즘이다.

6-1 경사 하강법 업데이트 식

$w := w - \alpha \frac{\partial J}{\partial w}, \quad b := b - \alpha \frac{\partial J}{\partial b}$

$\alpha : 학습률 (Learning Rate)$

$\frac{\partial J}{\partial w}, \frac{\partial J}{\partial b} : 비용 함수에 대한 기울기(미분값)$

6-2 경사 하강법 적용 과정

$w$ 와 $b$ 를 임의의 값으로 초기화
비용 함수의 기울기 ( 미분 값 ) 를 계산
$w$ 와 $b$ 를 기울기 반대 방향으로 업데이트
비용 함수의 값이 더 이상 감소하지 않을 때까지 반복

7. 경사 하강법의 학습률 선택

학습률이 너무 작으면 최적의 값을 찾는 데 시간이 오래 걸림
학습률이 너무 크면 최적값을 지나쳐서 발산할 가능성이 있음
적절한 학습률을 선택하는 것이 중요

8. 선형 회귀의 훈련 과정 시각화

경사 하강법을 통해 비용 함수가 최소화되는 과정을 시각적으로 나타낼 수 있다.

등고선 그래프: 비용 함수의 값이 같은 지점을 연결한 그래프
- 학습 과정 동안 파라미터 $(w,b)$가 점점 최적의 값으로 이동하는 경로를 확인할 수 있음
3D 표면 그래프: 비용 함수 값을 3차원으로 표현한 그래프
- 경사 하강법이 점점 최저점(최적해)으로 이동하는 과정을 보여줌
비용 함수 그래프: 학습 단계별 비용 함수 값$𝐽(𝑤,𝑏)$이 점점 줄어들어 최소값에 도달하는지 확인하는 그래프

9. 일괄 경사 하강법 (Batch Gradient Descent)

전체 데이터셋을 사용하여 기울기를 계산하고 모델을 업데이트하는 방식.

모든 훈련 샘플을 고려하기 때문에 안정적인 학습이 가능하지만 계산량이 많음

10. 선형 회귀 모델의 활용

주택 가격 예측
제품 판매량 예측
주식 가격 예측
경제 데이터 분석
의료 분야에서 질병 예측

머신러닝 정리

Sat, 08 Mar 2025 06:22:32 GMT

1. 머신 러닝이란?

머신 러닝(Machine Learning)은 컴퓨터가 프로그래밍 없이도 학습할 수 있도록 하는 연구 분야
데이터를 기반으로 패턴을 찾아 예측하거나 의사 결정을 내리는 알고리즘을 개발하는 것이 핵심
인공지능(AI)의 한 분야로, 다양한 산업과 실생활에서 널리 활용되고 있음

2. 머신 러닝의 실생활 적용 사례

머신 러닝은 이미 여러 산업 및 서비스에서 사용되고 있으며, 아래와 같은 다양한 분야에서 사용되고 있다.

2-1. 인터넷 및 소셜 미디어

웹 검색 : 구글, 바이두와 같은 검색 엔진은 머신 러닝을 사용하여 검색 결과를 최적화하고 사용자의 검색 의도를 분석
사진 태깅 및 필터링 : 인스타그램, 스냅챗 등의 SNS는 머신 러닝을 이용하여 얼굴을 인식하고, 자동으로 태그를 추천함
추천 시스템 : 유튜브, 넷플릭스, 스포티파이 등의 서비스는 사용자 행동을 분석하여 맞춤형 콘텐츠를 추천함

2-2. 산업 및 공정 자동화

풍력 발전 최적화 : 머신 러닝을 이용하여 바람 패턴을 분석하고, 풍력 터빈의 효율성을 극대화
공장 자동화 및 품질 관리 : 제조업에서는 머신 러닝을 활용하여 결함을 감지하고 생산 공정을 최적화
물류 및 공급망 최적화 : 아마존, UPS 등의 기업은 머신 러닝을 활용하여 배송 경로를 최적화하고, 재고 관리를 자동화함

2-3. 의료 및 헬스케어

질병 진단 : 머신 러닝 기반 의료 AI는 X-ray, MRI 등의 의료 영상을 분석하여 질병을 조기에 진단하는 데 활용
유전체 분석 및 맞춤형 치료 : 환자의 유전체 데이터를 분석하여 최적의 치료법을 추천
의료 기록 분석 : 환자의 과거 진료 기록을 분석하여 질병 발생 가능성을 예측

2-4. 금융 및 경제

신용 평가 및 사기 탐지 : 금융 기관은 머신 러닝을 활용하여 대출 신청자의 신용도를 평가하고, 금융 사기를 감지
자동 주식 거래 : 머신 러닝 모델은 시장 데이터를 분석하여 자동으로 투자 전략을 수립하고 거래를 실행
보험 리스크 평가 : 머신 러닝을 이용하여 고객의 보험료를 산정하고, 리스크를 예측

3. 머신 러닝의 주요 개념

머신 러닝은 크게 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)으로 나뉨

3-1. 지도 학습(Supervised Learning)

지도 학습은 입력(X)과 출력(Y) 데이터를 학습하여 새로운 입력이 주어졌을 때 적절한 출력을 예측하는 방식으로, 가장 많이 사용되는 머신 러닝 방식이며, 다음과 같은 문제에 적용됨.

3-1-1. 지도 학습의 유형

회귀(Regression)

연속적인 값을 예측하는 문제
- 예시: 집값 예측, 날씨 예측, 주가 예측

분류(Classification)

데이터를 특정 카테고리로 분류하는 문제
- 예시: 이메일 스팸 필터링(스팸/비스팸), 암 진단(양성/악성), 이미지 인식(고양이/개)

3-1-2. 지도 학습의 주요 알고리즘

선형 회귀(Linear Regression)
- 회귀 알고리즘
로지스틱 회귀(Logistic Regression)
- 분류 알고리즘
결정 트리(Decision Tree)
- 분류 알고리즘
랜덤 포레스트(Random Forest)
- 분류 알고리즘
서포트 벡터 머신(SVM)
- 분류 알고리즘
인공 신경망(Artificial Neural Networks)
- 회귀 알고리즘, 분류 알고리즘

4. 머신 러닝 학습 과정

4-1. 데이터 수집 및 전처리

머신 러닝 모델을 학습시키기 위해서는 양질의 데이터가 필요함

데이터 정제(Cleaning) : 결측치 처리, 이상치 제거, 정규화 및 표준화
특징 엔지니어링(Feature Engineering) : 유의미한 특징을 추출하고 변형하여 모델 성능 향상

4-2. 모델 학습 및 평가

학습 데이터(Training Data)를 이용하여 모델을 학습시킴
검증 데이터(Validation Data)로 모델의 성능을 조정함
테스트 데이터(Test Data)로 모델의 최종 성능을 평가함

성능 평가 지표 : 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score, ROC 곡선

4-3. 모델 최적화

하이퍼파라미터 튜닝 : 모델의 성능을 최적화하기 위해 파라미터를 조정함
교차 검증(Cross Validation) : 데이터를 여러 번 나누어 모델을 평가하는 기법
오버피팅(Overfitting) 방지 : 모델이 훈련 데이터에 과적합되지 않도록 정규화(Regularization) 기법 사용

4-4. 실전 적용

모델 배포 : 학습된 모델을 실제 환경에 적용하여 사용
지속적인 학습 및 개선 : 새로운 데이터가 추가될 때 모델을 업데이트하여 성능 유지

5. 머신 러닝 학습을 위한 도구 및 환경

5-1. Jupyter Notebook

Python 기반의 대화형 개발 환경
- 머신 러닝 실습 및 데이터 분석에 유용

5.2 주요 라이브러리

NumPy, Pandas : 데이터 처리 및 분석
Matplotlib, Seaborn : 데이터 시각화
Scikit-Learn : 머신 러닝 알고리즘 구현
TensorFlow, PyTorch: 딥러닝 모델 개발

6. 머신 러닝의 미래 전망

2030년까지 머신 러닝과 AI는 약 13조 달러의 경제적 가치를 창출할 것으로 예상됨

자율 주행, 스마트 팩토리, 개인화된 의료 등 다양한 분야에서 지속적으로 발전
윤리적 문제(개인정보 보호, 편향성 문제)와 함께 신뢰할 수 있는 AI 개발이 중요한 과제

연구일지 #1

Sat, 01 Feb 2025 02:15:34 GMT

1.연구 개요

콘텐츠 업데이트가 RPG 게임 산업의 유저 잔존율에 미치는 영향을 분석하고자 한다.

2.데이터 수집(2025-01-26 기준)

본 연구를 진행함에 있어서, 전체 캐릭터를 대상으로 분석을 진행할 경우 많은 어려움이 있을 것으로 예상된다.

전체 캐릭터의 수 : 63,901,683 260레벨 이상 캐릭터의 수 : 1,394,192

따라서, 260레벨 이상으로 분석 구간을 제한할 경우 분석에 굉장히 용이할 것이다.

3.각 구간별 분석

그렇다면, 260레벨 미만의 구간에서 대부분의 캐릭터가 성장하지 않음을 증명하면, 260레벨 미만의 구간의 분석은 의미가 없다고 볼 수 있다.

# merged_file_over_260의 ratio column이 0인 row의 비율과 merged_file_under_260의 ratio column이 0인 row의 비율을 출력

print(len(merged_file_over_260[merged_file_over_260['ratio'] == 0]) / len(merged_file_over_260))

print(len(merged_file_under_260[merged_file_under_260['ratio'] == 0]) / len(merged_file_under_260))

ratio라는 변수는 2024-12-27의 exp의 총량 대비 2025-01-26의 exp 총량을 나타낸 변수이다.

따라서, ratio가 0이라는 것은 2024-12-27의 exp와 2025-01-26의 exp의 차이가 없다는 것을 의미한다.

labels = 'merged_file_over_260', 'merged_file_under_260'
sizes = [len(merged_file_over_260[merged_file_over_260['ratio'] == 0]) / len(merged_file), len(merged_file_under_260[merged_file_under_260['ratio'] == 0]) / len(merged_file)]
colors = ['gold', 'yellowgreen']
explode = (0.1, 0)

plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', shadow=True, startangle=140)
plt.axis('equal')
plt.show()

전체 row 수 대비 260레벨 이상 구간에서 성장이 멈춘 캐릭터의 비율은 1.2%이다.
전체 row 수 대비 260레벨 미만 구간에서 성장이 멈춘 캐릭터의 비율은 98.8%이다.

4.현상 분석

사실 메이플스토리라는 게임은 260레벨부터 시작이라는 말이 있을 정도로, 하이퍼버닝 등의 이벤트로 260을 달성하기 쉽다. 더불어, 유니온이라는 시스템이 존재해서 전 직업을 200레벨 혹은 250레벨까지 성장시킨 후 방치하는 일명 "주차"라는 플레이 방식이 만연하기 때문에 200레벨, 250레벨에 주차시켜둔 캐릭터가 굉장히 많기 때문에 이러한 현상이 발생한다.
여기서 한 가지 의문이 들 수 있는데, 과연 경험치가 오르지 않았다고 해서 플레이를 하지 않는다고 말할 수 있는가에 대한 의문이다. 이에 대한 대답은 당연하다이다. 설령, 특정 레벨대에 주차시켜놓고 보스만 잡는다고 하더라도, 보스몬스터를 잡으면 소량의 경험치가 들어온다. 사냥 컨텐츠는 물론이고, 실제로 인게임을 플레이하는 대부분의 활동은 경험치의 증가를 수반한다. 따라서, 경험치가 증가하지 않는 캐릭터는 실질적 플레이를 하지 않는 캐릭터라고 보는 것이 타당하다.

5.이후 분석 계획

오늘 분석을 위해, 총 132,266,991개의 데이터를 수집하였다. 너무 방대한 양의 데이터였기 때문에 시간이 과도하게 많이 들었다고 생각한다. 앞으로 분석을 위한 데이터는 모든 일자별 260레벨 이상의 캐릭터를 대상으로 분석할 예정이다.

6.추가 분석

260레벨 이상 구간에서의 레벨 구간별 분포 비율(%)

260레벨 미만 구간에서의 레벨 구간별 분포 비율(%)

메이플 스토리 유니온 주차구간인 200레벨과 140레벨에 있는 캐릭터의 비율이 유의미하게 높다.
250레벨 주차구간의 경우, 하이퍼버닝이 있긴하지만 대부분의 유저는 달성하기 어려운 레벨대이므로 많지는 않았다

블로그 시작

Tue, 26 Nov 2024 06:38:05 GMT

이것 저것 공부하면서 본 내용들을 조금씩 적어보려고 한다. 앞으로 공부할 내용이 더 많으니까 하루에 하나씩이라도 적어보자!