Tulip in Paris 🌷

[Reviewed Paper] 비정형 데이터 분석을 통한 금융 소비자 유형화 및 그에 따른 금융상품 추천 방법

Sun, 08 Sep 2024 11:18:59 GMT

비정형 데이터 분석을 통한 금융 소비자 유형화 및 그에 따른 금융상품 추천 방법 (Financial Instruments Recommendation based on Classification Financial Consumer by Text Mining Techniques)

이재웅 (경희대학교 일반대학원 경영학과)
김영식 /Kim Young Sik (경희대학교 경영대학 경영연구원 연구원)
권오병 /KWON OHBYUNG (경희대학교 경영대학, 교신저자)

주요 용어

비정형 데이터 텍스트와 같이 고정된 형식이 없는 데이터. 금융 상담 기록, 온라인 댓글, 리뷰 등이 이에 해당하며, 이 데이터로부터 소비자의 성향을 분석.
로보 어드바이저 알고리즘을 통해 투자 성향을 분석하고 맞춤형 금융상품을 추천하는 자동화된 금융 서비스.
텍스트 마이닝 비정형 데이터를 분석하여 유의미한 정보를 추출하는 기법. 여기서는 금융 소비자의 성향 파악에 사용됨.
투자 성향 금융 소비자의 위험 선호도, 투자 안정성, 수익률 기대치 등을 포함하는 개인별 투자 특성.
분류 알고리즘 데이터를 기반으로 특정 결과를 예측하는 모델. 여기서는 의사결정트리(Decision Tree), 랜덤 포레스트(Random Forest) 등이 사용됨.

연구 배경

최근 금융 산업에서는 비정형 데이터를 활용한 고객 맞춤형 서비스에 대한 필요성이 대두되고 있다. 기존 로보 어드바이저 시스템은 정형화된 데이터를 주로 활용하여 설문이나 기본 정보만으로 고객의 투자 성향을 파악하는 데 한계가 있다. 하지만 상담 기록, 리뷰, 온라인 댓글과 같은 비정형 데이터는 고객이 자신의 금융 성향을 자발적으로 표현한 중요한 정보원이 될 수 있다. 이를 분석하면 고객의 투자 성향을 더 깊이 이해할 수 있으며, 맞춤형 금융상품을 추천하는 데 유용할 수 있다.

연구 목적

이 논문의 목적은 비정형 데이터를 분석하여 금융 소비자의 성향을 유형화하고, 이를 바탕으로 고객에게 적합한 금융상품을 추천하는 시스템을 개발하는 것이다. 이를 통해 금융 소비자의 투자 성향을 더 정교하게 파악하고, 고객의 요구에 맞는 맞춤형 금융상품을 추천하는 방법론을 제시하고자 한다.

연구 방법론

본 연구는 비정형 데이터를 수집하고, 이를 텍스트 마이닝 기법을 통해 분석하여 고객의 투자 성향을 파악하는 방식을 채택했다. 수집된 데이터는 고객 상담 기록, 고객 의견, 금융 상품 리뷰 등에서 얻은 비정형 텍스트로, 이를 통해 금융 소비자의 투자 성향을 도출할 수 있었다.

1. 데이터 수집 및 처리

연구에서는 금융 소비자의 비정형 데이터를 수집하였으며, 이 데이터를 전처리 과정을 거쳐 분석 가능한 형태로 변환했다. 이 과정에서 텍스트 마이닝 기법을 활용하여 주요 키워드를 추출하고, 이 키워드들을 바탕으로 소비자의 투자 성향을 유형화했다.

2. 투자 성향 분석 및 유형화

고객의 투자 성향을 분석하기 위해 SVM(서포트 벡터 머신), 의사결정트리, 랜덤 포레스트 등 다양한 분류 알고리즘을 사용했다. 이 과정에서 가장 효과적인 알고리즘을 찾아내고, 고객의 텍스트 데이터에서 투자 성향을 예측하는 모델을 개발했다. 실험 결과, 랜덤 포레스트 알고리즘이 가장 우수한 성능을 보였으며, 이를 통해 금융 소비자의 투자 성향을 분류하는 데 성공했다.

3. 맞춤형 금융상품 추천

고객의 투자 성향을 분석한 이후, 분석된 성향에 맞는 금융상품을 추천하는 모델을 개발했다. 고객의 성향을 반영한 금융상품을 추천함으로써, 고객의 만족도와 금융상품에 대한 적합성을 크게 향상시킬 수 있음을 확인했다.

실험 결과

실험에서는 비정형 데이터를 분석하여 고객의 투자 성향을 정확히 예측하고, 이 성향에 맞는 금융상품을 추천하는 시스템이 높은 성능을 보였음을 입증했다. 특히, 랜덤 포레스트 알고리즘이 다른 분류 알고리즘에 비해 우수한 성능을 보였으며, 이를 통해 금융 소비자의 투자 성향을 예측하는 데 있어서 높은 정확도를 달성했다.

추천된 금융상품은 고객의 성향에 잘 맞는 상품들이었으며, 이를 통해 금융 소비자가 실제로 추천된 상품을 선택하는 비율이 높아졌다. 이는 맞춤형 추천 시스템이 금융 소비자의 투자 결정을 돕고, 금융 서비스의 효율성을 높일 수 있음을 보여준다.

연구의 시사점

본 연구는 비정형 데이터를 활용하여 금융 소비자의 투자 성향을 더 깊이 이해할 수 있는 가능성을 열었다. 고객의 비정형 텍스트 데이터를 분석함으로써, 기존의 정형화된 설문이나 인구통계학적 데이터에만 의존하던 방식을 넘어서 고객의 실제 투자 성향을 반영한 맞춤형 금융상품 추천이 가능해졌다.

이러한 연구는 로보 어드바이저의 기능을 강화하고, 고객 맞춤형 금융상품 추천의 정확도를 높이는 데 중요한 역할을 할 수 있다. 금융기관은 이 시스템을 활용해 고객의 요구를 더 잘 이해하고, 보다 나은 금융 서비스를 제공할 수 있을 것이다.

한계 및 향후 연구 방향

본 연구는 비정형 데이터를 활용한 고객 성향 분석에 중점을 두었으나, 텍스트 외의 다른 유형의 비정형 데이터(예: 음성 데이터)를 포함하지 않은 점은 한계로 작용할 수 있다. 향후 연구에서는 다양한 비정형 데이터를 활용한 연구를 확장하고, 고객의 투자 성향을 더 다각도로 분석하여 금융상품 추천 시스템의 성능을 더욱 향상시킬 수 있을 것이다.

[Reviewed Paper] 고객의 투자상품 선호도를 활용한 금융상품 추천시스템 개발

Sun, 08 Sep 2024 11:00:28 GMT

고객의 투자상품 선호도를 활용한 금융상품 추천시스템 개발 (Financial Products Recommendation System Using Customer Behavior Information)

김 효 중 (Hyojoong Kim)연세대학교 정보시스템학 석사
김 성 범 (SeongBeom Kim)연세대학교 정보대학원 석박통합과정
김 희 웅 (Hee-Woong Kim)연세대학교 정보대학원 교수, 교신저자

주요 용어

개인화 추천시스템 고객의 데이터를 바탕으로 개별 사용자의 선호도에 맞춰 상품이나 콘텐츠를 추천하는 시스템. 금융상품 추천에서는 고객의 투자 성향, 위험 회피도 등을 기반으로 맞춤형 금융상품을 제안함.
협업 필터링(Collaborative Filtering) 다수의 사용자와 상품 간의 상호작용 데이터를 기반으로 사용자와 비슷한 선호를 가진 다른 사용자들의 선택을 활용하여 추천하는 방식.
콜드 스타트 문제(Cold Start Problem) 신규 사용자나 신규 아이템에 대해 과거 데이터가 부족하여 정확한 추천을 제공하지 못하는 문제.
딥러닝 기반 협업 필터링(Deep Learning Collaborative Filtering) 사용자와 아이템 간의 복잡한 비선형 관계를 학습하기 위해 다층 신경망을 사용하는 협업 필터링 방식.
임베딩(Embedding) 데이터를 고차원에서 저차원 벡터로 변환하는 방식. 사용자와 상품의 특성을 저차원 벡터로 표현하여 추천 모델의 입력값으로 사용함.

연구 배경

이 논문은 최근 금융상품의 급증과 금융 거래의 복잡성 속에서 고객이 적합한 금융상품을 선택하기 어려워진 상황을 해결하고자 시작되었다. 금융상품은 고객의 투자 성향과 리스크 회피도에 따라 추천해야 하는데, 기존의 금융상품 추천시스템은 고객의 다양한 특성을 충분히 반영하지 못하는 한계를 가지고 있다. 또한, 새로운 고객이나 새로운 상품에 대한 데이터가 부족할 때 발생하는 콜드 스타트 문제로 인해 추천의 정확도도 떨어지는 문제가 있다.

연구 목적

이 연구는 고객의 금융상품 선호도를 분석하고, 그에 따른 맞춤형 금융상품을 추천하는 시스템을 개발하는 것을 목표로 하고 있다. 특히, 고객의 다양한 행동 데이터(예: 거래 내역, 자산 정보, 보유 종목 정보 등)를 활용하여 고객의 투자 성향과 리스크 회피도를 반영한 추천 모델을 제안하고자 한다. 이를 통해 고객의 투자 탐색 비용을 줄이고, 금융 투자 결정을 보다 쉽게 할 수 있도록 돕는 시스템을 구축하는 것이 목적이다.

기존 연구의 한계

기존 금융상품 추천 모델들은 주로 정형화된 고객 데이터를 바탕으로 하고 있으며, 복잡한 투자 성향이나 비선형적인 관계를 충분히 반영하지 못했다. 또한, 기존 협업 필터링 방식은 고객 간의 유사성을 계산하여 추천을 제공하지만, 새로운 고객이나 새로운 상품에 대해서는 적절한 추천을 제공하기 어려운 콜드 스타트 문제를 안고 있다.

연구 방법론

본 연구에서는 딥러닝 기반의 협업 필터링 모델을 도입하여, 고객의 투자 성향, 리스크 회피도, 거래 패턴 등 다양한 특성을 분석하고 이를 바탕으로 금융상품을 추천하는 시스템을 개발했다. 딥러닝을 통해 고객과 상품 간의 비선형적인 관계를 학습함으로써, 기존 협업 필터링의 한계를 극복하고 추천 성능을 향상시켰다.

1. 데이터 수집 및 전처리

고객의 거래 내역, 자산 정보, 보유 종목 정보, 계좌 개설일, 연령, 성별, 투자 상품 등에 대한 데이터를 수집하였고, 이를 바탕으로 고객의 잠재 선호도를 계산했다. 딥러닝 모델의 입력으로 사용하기 위해 고객과 상품의 특성을 임베딩 벡터로 변환하였고, 이를 통해 비선형적인 관계를 학습할 수 있도록 설계했다.

2. 협업 필터링 모델 개발

기존의 협업 필터링 방식과 달리, 본 연구에서는 딥러닝 기반의 협업 필터링을 활용하여 고객과 상품 간의 복잡한 상호작용을 모델링했다. 특히, 다층 신경망(Multi-Layer Perceptron, MLP)을 사용하여 고객과 상품 간의 비선형적인 관계를 학습하고, 이를 바탕으로 추천 성능을 향상시켰다. 이 과정에서 고객의 성별, 연령, 자산 정보, 거래 내역 등 다양한 특성 데이터를 함께 고려하여, 고객의 투자 성향과 금융상품에 대한 잠재 선호도를 예측했다.

3. 콜드 스타트 문제 해결

콜드 스타트 문제를 해결하기 위해, 새로운 고객이나 상품에 대해 기존 고객의 데이터를 활용하여 유사한 특성을 가진 고객 그룹을 찾아 추천을 제공하는 방식을 사용했다. 이를 통해 데이터가 부족한 상황에서도 정확한 추천을 제공할 수 있도록 했다.

실험 결과

본 연구에서 제안한 딥러닝 기반 협업 필터링 모델은 기존의 행렬 분해 방식이나 단순 협업 필터링 방식에 비해 훨씬 우수한 성능을 보였다. 특히, 추천 시스템의 성능을 평가하는 지표(MAE, MSE)에서 우수한 결과를 나타냈으며, 콜드 스타트 문제를 효과적으로 해결하는 데 성공했다. 실험 결과, 고객의 투자 성향과 리스크 회피도를 반영한 추천 시스템이 고객 만족도와 추천 정확도를 크게 향상시켰다.

성능 비교

딥러닝 협업 필터링 모델은 MAE(평균 절대 오차) 및 MSE(평균 제곱 오차) 지표에서 기존의 협업 필터링 모델에 비해 더 낮은 오차율을 보였으며, 특히 NDCG(정규화된 누적 이득)와 같은 지표에서도 탁월한 성능을 기록했다. 이는 고객의 다양한 특성과 금융상품 정보를 반영한 모델이 기존 방식에 비해 훨씬 더 효과적이라는 것을 입증한다.

연구의 시사점

본 연구는 금융상품 추천 시스템에서 고객의 다양한 특성을 반영하는 것이 중요하다는 점을 강조하며, 특히 고객의 투자 성향과 리스크 회피도를 반영한 맞춤형 추천이 가능하다는 것을 실증적으로 보여주고 있다. 이를 통해 금융기관은 고객의 만족도를 높이고, 투자 결정을 돕는 서비스를 제공할 수 있으며, 금융상품 추천의 정확도를 높일 수 있다.

또한, 본 연구는 실무적으로 금융상품 추천 시스템의 성능을 향상시키기 위한 딥러닝 기술의 활용 가능성을 제시하고 있으며, 이를 통해 고객 맞춤형 금융상품 추천 서비스가 더욱 발전할 수 있음을 보여준다.

한계 및 향후 연구 방향

본 연구의 한계로는, 추천 성능을 평가하는 기준이 상위 10개 또는 20개의 상품에 한정되었다는 점이다. 향후 연구에서는 다양한 추천 상품 개수에 따른 성능 변화를 분석하여 최적의 추천 시스템을 구축할 필요가 있다. 또한, 비정형 데이터(예: 고객 상담 기록, STT)와 같은 데이터를 추가적으로 분석하여 추천 시스템의 성능을 더욱 향상시킬 수 있는 가능성도 제시된다.

결론적으로, 본 연구는 딥러닝 기반 협업 필터링을 활용하여 금융상품 추천의 정확도를 높이고, 콜드 스타트 문제를 해결한 맞춤형 금융상품 추천 모델을 제안함으로써 금융 투자 분야에서의 추천 시스템 연구에 큰 기여를 했다.

[행렬] SVD (Singular Value Decomposition, 특이값 분해)

Thu, 05 Sep 2024 06:37:46 GMT

SVD(Singular Value Decomposition, 특이값 분해)는 다양한 데이터 분석, 이미지 처리, 정보 검색, 추천 시스템 등 많은 응용 분야에서 사용되고 있는 기법이다.

1. SVD

임의의 행렬 $m×n$ 행렬 $A$를 세 개의 행렬 $U, Σ, V$로 분해하는 방법이다.

$A=UΣV^T$

$U$ : $m×m$ 직교 행렬(Orthogonal Matrix)로 $A$의 열 공간(column space)을 설명하는 왼쪽 특이벡터들로 구성되어 있다.
$Σ$ : $m×n$ 대각 행렬(Digonal Matrix)로 $A$의 특이값들이 대각선에 위치한다.
$V^T$ : $n×n$ 직교 행렬(Orthogonal Matrix)로 $A$의 행 공간(row space)을 설명하는 오른쪽 특이벡터들로 구성되어 있다.

세 행렬을 좌표 변환의 측면에서 해석하면, $U$와 $V^T$는 회전 및 대칭을 나타내고 $Σ$는 크기 조정을 나타낸다.

2. 변환과 PCA

2.1 행렬의 변환

임의의 행렬 $A$는 벡터에 대해 스케일링, 회전 등의 선형 변환을 수행할 수 있다. 특이값 분해는 이 변환 과정을 세 가지 변환으로 나누어서 설명할 수 있다.

$Ax = UΣV^Tx$

$V^T$ : 오른쪽 회전 or 반사
- 데이터의 방향을 바꾼다.
$Σ$ : 스케일링(크기 조정)
- 각 특이값은 행렬 $A$가 각 특이값에 매칭되는 특정 축을 따라서 데이터를 얼마나 늘리거나 줄이는지를 설명한다.
- 이 단계에서 벡터의 길이(크기)가 변하면서 중요한 정보는 유지되고, 덜 중요한 정보는 탈락되는 선택의 기능을 보인다.
$U$ : 왼쪽 회전 or 반사
- 특이값에 의해 스케일링 된 벡터들을 새로운 공간으로 이동시킨다.

2.2 주성분 분석(PCA, Principal Component Analysis)

PCA의 목표

PCA는 데이터의 분산을 최대한 유지하면서 차원을 줄이는 것
고차원 데이터를 저차원으로 투영해, 데이터의 중요한 패턴을 찾고 노이즈나 덜 중요한 정보를 제거하려는 것

SVD는 주성분 분석(PCA)와 매우 밀접하게 연결된 차원 축소 기법이다. 고차원 데이터를 중요한 정보만 남기고 차원을 줄이는 기법으로, 데이터의 주요 패턴을 파악하는 데 사용된다. SVD는 PCA를 수행하는 수학적 방법 중 하나이다.

SVD와 PCA의 관계

PCA는 다음과 같은 단계를 거쳐 수행한다.

데이터의 중심화 (Centering) 데이터가 원점 주변에 분포하게 하여 데이터의 패턴을 분석할 수 있도록 각 차원의 평균을 0으로 맞춰주는 과정
공분산 행렬 계산 공분산 행렬은 데이터가 어떻게 서로 상관되어 있는지 설명한다. 공분산 행렬 : $A^TA$ 혹은 $AA^T$
SVD 적용 이 공분산 행렬에 SVD를 적용하여 특이값과 특이벡터를 구한다.
- 특이값은 각 주성분(Principal Component)이 설명하는 데이터의 분산 정도를 나타내며, 특이벡터는 주성분 방향을 나타낸다.
- 특이값이 큰 주성분이 데이터의 중요한 패턴을 설명하며, 특이값이 작은 주성분은 노이즈나 덜 중요한 정보일 가능성이 크다.
주성분 선택 특이값이 큰 몇 개의 주성분을 선택한다. 기존의 데이터가 m차원이었지만, 특이값이 큰 상위 n개의 주성분만을 선택하면 n차원으로 데이터의 차원을 줄일 수 있다.

직관적 이해

SVD의 역할 : SVD는 데이터의 중요한 패턴(주성분)을 찾고, 이 정보를 사용하여 데이터의 차원을 줄이는데 도움을 준다.

차원 축소의 의미 : 차원이 높은 데이터는 분석과 시각화가 어렵고, 계산 비용이 높기 때문에 SVD를 통해 데이터의 차원을 줄이면 더 간단하게 데이터를 다룰 수 있다.

데이터 압축과 노이즈 제거 : 특이값이 작은 주성분은 보통 데이터의 노이즈나 덜 중요한 정보를 나타낸다. 따라서 특이값이 작은 성분을 제거하면 데이터의 노이즈를 줄이면서 중요한 정보만 남길 수 있다.

3. SVD의 수학적 이해

3.1 행렬 $A$의 고유값과 고유벡터

정방 행렬에만 적용이 가능한 고유값 분해와는 다르게, SVD는 모든 형태의 $m×n$ 행렬에 적용할 수 있다. 이 과정에서 행렬의 특이값(singular value)과 특이벡터(singular vector)가 도출된다.

3.2 특이값 분해 계산 단계

Step 1 : $A^TA$와 $AA^T$의 계산 SVD의 첫 번째 단계는 다음 두 행렬을 계산하는 것이다.

$A^TA$는 $n×n$ 대칭 행렬이다.
$AA^T$는 $m×m$ 대칭 행렬이다.

이 두 행렬은 각각 $A$의 오른쪽 고유벡터와 왼쪽 고유벡터를 찾는 데 사용된다.

* Step 2* : 고유값 문제 해결

$A^TA$의 고유값을 구한다. 이 고유값들은 특이값의 제곱이 된다.
$A^TA$의 고유벡터는 $V$의 열을 이루며, 이를 오른쪽 특이벡터라고 한다.
$AA^T$의 고유벡터는 $U$의 열을 이루며, 이를 왼쪽 특이벡터라고 한다.

*Step 3 * : 특이값 계산 각 고유값의 제곱근이 $A$의 특이값이 되고, $Σ$행렬의 대각선에 배치된다. 특이값은 행렬 $A$의 중요한 정보, 즉 데이터의 분산과 크기를 나타낸다.

Step 4 : $U, Σ, V$ 행렬 구성

$U$ : $AA^T$의 고유벡터를 이용해 구성한다.
$Σ$ : 특이값을 대각선에 배치한 행렬이다.
$V$ : $A^TA$의 고유벡터를 이용해 구성한다.

4. SVD의 응용

4.1 차원 축소

SVD는 데이터의 차원을 축소하는 데 많이 사용된다. 예를 들어, 추천 시스템에서는 사용자와 아이템 간의 상호작용 행렬을 SVD로 분해하여 중요하지 않은 데이터를 제거하고, 중요한 패턴만을 남길 수 있다. 이렇게 하면 모델의 효율성과 성능을 개선할 수 있다.

4.2 데이터 압축

이미지 처리에서는 SVD를 사용하여 이미지를 압축할 수 있다. 이미지 데이터는 보통 큰 행렬로 표현되는데, 이를 SVD로 분해하고 중요 특이값만을 사용하여 이미지를 재구성함으로써 원본 이미지와 유사한 품질을 유지하면서도 파일 크기를 줄일 수 있다.

4.3 노이즈 제거

SVD는 데이터를 노이즈와 신호로 분리하는 데 유용하다. 중요하지 않은 특이값(노이즈)을 제거하고 나머지 신호를 사용하여 더 깨끗한 데이터를 얻을 수 있다.

5. SVD의 장점과 한계

장점

모든 행렬에 적용 가능 : 정방 행렬뿐만 아니라 모든 차원의 행렬에 대해 SVD를 사용할 수 있다.
차원 축소와 압축 : 중요한 정보를 추출해 차원을 축소할 수 있다.
수치적 안정성 : SVD는 매우 안정적인 수치적 기법으로, 대부분의 경우 수치 계산에서 매우 정확한 결과를 제공한다.

한계

계산 복잡성 : 큰 행렬에 대해서는 SVD의 계산이 매우 복잡하고 시간이 오래 걸릴 수 있다.
실시간 응용의 제한: 실시간으로 대규모 데이터를 처리해야 하는 경우 SVD는 적합하지 않을 수 있다.

[행렬] 고유값(Eigenvalue)과 고유벡터(Eigenvector), 그리고 주성분 분석(PCA)

Thu, 29 Aug 2024 10:28:29 GMT

1. 행렬의 고유값(Eigenvalue)과 고유벡터(Eigenvector)

1-1. 고유값과 고유벡터의 개념 및 기하학적 의미

고유값(eigenvalue)과 고유벡터(eigenvector)는 행렬이 표현하는 선형 변환의 본질을 이해하는 데 핵심적인 역할을 하며, 다양한 응용 분야에서 활용된다.

선형 변환 : 벡터 공간에서 벡터를 다른 벡터로 변환하는 연산 예를 들어, 2차원 공간에서의 행렬

행렬 𝐴는 벡터 𝑥를 다른 벡터 𝐴𝑥로 변환한다. 이때 대부분의 벡터는 변환 과정에서 크기와 방향이 모두 변한다. 하지만 특정한 벡터는 이 변환을 거치더라도 방향은 그대로 유지되고 크기만 변화하는데, 이러한 벡터를 고유벡터라고 하며, 크기의 변화 비율을 나타내는 값을 고유값이라고 한다.

선형 변환은 다음과 같은 수식으로 표현할 수 있다.

$Av=λv$

𝐴 : $𝑛×𝑛$ 정방행렬 𝑣 : 고유벡터(Eigenvector) → 𝐴에 의해 변환되어도 방향이 변하지 않는 벡터 𝜆 : 고유값(Eigenvalue) → 고유벡터 𝑣의 크기 변화

양수의 고유값 𝜆 → 고유벡터의 크기는 변하지만 방향은 유지 음수의 고유값 𝜆 → 고유벡터의 크기는 변화하며 방향은 반대 고유값 𝜆 = 1 → 크기와 방향이 모두 변화 없다. 고유값 𝜆 = 0 → 고유벡터가 축소되어 사라진다.

이 개념은 선형 변환의 기하학적 특성을 이해하는 데 매우 중요하다. 고유벡터와 고유값은 벡터 공간의 구조를 분석하고, 변환의 고유한 특성을 파악하는 데 도움을 준다.

1-2. 고유값 방정식과 고유값의 계산

고유값과 고유벡터를 구하는 과정은 행렬의 고유값 방정식을 푸는 것과 같다.

$(A-λI)v=0$

$I$ : 단위행렬(identity matrix) $λ$ : 고유값

이 방정식이 의미하는 바는, 행렬 $𝐴$에서 고유값 𝜆를 뺀 행렬 $A-λI$가 고유벡터 𝑣를 영벡터로 변환한다는 것이다. 이때, 고유벡터 𝑣가 자명하지(Trivial) 않은 해를 가지려면, 행렬 $A-λI$의 행렬식이 0이어야 한다.

$det(A-λI) = 0$

이 특성 방정식을 풀면 행렬 𝐴의 고유값 𝜆를 구할 수 있다. 각 고유값에 대해 대응하는 고유벡터는 행렬 $A-λI$의 영공간(null space)에 속하는 벡터이다.

1-3. 고유값 분해 (Eigen Decomposition)

고유값 분해(Eigen Decomposition) : 행렬을 고유값과 고유벡터로 분해하여 표현하는 방법

정방행렬 𝐴에 대해 𝑛개의 고유값 $λ_i$와 고유벡터 $𝑣_𝑖$가 존재하면, 𝐴를 다음과 같이 분해할 수 있다.

$A=VΛV^{−1}$

$V$ : 고유벡터로 구성된 행렬 ($V$의 각 열벡터는 행렬 $A$의 고유벡터) $Λ$ : 대각행렬 (대각선 요소로 행렬 $A$의 고유값들이 위치) $V^{−1}$ : $V$의 역행렬

이 고유값 분해는 행렬을 보다 간단하게 분석하거나 계산하는 데 유용하다.

행렬의 거듭제곱
행렬의 대각합(trace)

대칭행렬의 경우, 고유벡터들이 항상 서로 직교하므로 고유값 분해가 더 간단하다. 이때 $V$는 직교행렬(orthogonal matrix)이 되며, $𝑉^{−1} = 𝑉^𝑇$가 성립한다.

따라서 대칭행렬 $A$는 다음과 같이 분해할 수 있다.

$A=VΛV^{T}$

이와 같은 대칭행렬의 고유값 분해는 데이터 분석, 신호 처리, 기계 학습 등의 다양한 분야에서 활용된다.

2. 주성분 분석(PCA)

2-1. PCA

주성분 분석(PCA, Principal Component Analysis) : 고차원 데이터를 간단한 저차원 공간으로 변환하면서도, 원래 데이터의 손실을 최소화하는 차원 축소 기법이다. 데이터의 변동성(variance)을 가장 잘 설명하는 축을 찾아내고, 이 축을 따라 데이터를 투영(projection)하여 차원을 축소한다.

원 데이터가 위치한 공간에서, 데이터의 분산이 최대가 되는 새로운 좌표 축을 찾는다. 이 새로운 축은 데이터의 분산을 가장 잘 설명하는 방향이며, 첫 번째 주성분(Principal Component, PC1)이라고 불린다. PCA는 이 과정에서 상관성이 높은 변수들을 고려하여, 변수들 간의 상관성을 제거하고 데이터의 주요 패턴을 유지한다.

2-2. PCA의 수학적 원리

PCA의 수학적 원리는 고유값 분해(Eigen Decomposition)에 기반을 두고 있다. 이 과정에서 공분산 행렬의 고유값과 고유벡터를 계산하여, 고유값이 큰 순서대로 고유벡터를 정렬하고, 이들을 새로운 좌표 축으로 사용한다.

데이터 중심화 (Mean Centering) : 원 데이터의 각 변수에서 평균을 빼서, 데이터가 원점을 중심으로 분포하도록 한다. 이를 데이터 중심화(mean centering)라고 하며, 데이터 행렬 𝑋를 중심화한 결과는 다음과 같이 나타낼 수 있다:

$X_{centered} = X - \bar{X}$

여기서 $\bar{X} = \mu$로 $X$의 평균을 의미한다.

공분산 행렬 계산 (Covariance Matrix) : 중심화된 데이터를 바탕으로 공분산 행렬 $Σ$를 계산한다. 공분산 행렬은 데이터의 분산과 변수 간의 상관성을 나타내는 행렬로, 다음과 같이 정의된다:

$Σ = {1\over n-1} ; X^T_{centered} ; X_{centered}$

여기서 n은 데이터 포인트의 수이다.

고유값과 고유벡터 계산 (Eigenvalues and Eigenvectors) : 공분산 행렬 $Σ$의 고유값과 고유벡터를 계산한다. 고유값은 새로운 축의 중요도를 나타내며, 고유벡터는 새로운 좌표 축의 방향을 나타낸다.

$Σe=λe$

여기서 $λ$는 고유값, $e$는 고유벡터이다.

주성분 선택 (Selection of Principal Components) : 고유값의 크기 순서대로 고유벡터를 정렬하고, 가장 큰 고유값에 대응하는 고유벡터를 첫 번째 주성분(PC1)으로 선택한다. 두 번째로 큰 고유값에 대응하는 고유벡터는 두 번째 주성분(PC2)으로 선택한다. 이 과정을 반복하여 원하는 수의 주성분을 선택할 수 있다.

데이터 투영 (Projection of Data) : 선택된 주성분 축에 데이터를 투영하여, 저차원 공간으로 변환한다. 투영된 데이터는 원래 데이터의 중요한 정보를 최대한 유지하면서, 차원이 축소된 형태로 나타납니다.

$Z=XW$

$X$ : $n×p$ 크기의 데이터 행렬 $W$ : $p×k$ 크기의 주성분 벡터로 구성된 행렬 ($k$는 선택한 주성분의 수) $Z$ : $n×k$ 크기의 축소된 데이터 행렬로 $p$차원의 데이터가 $k$차원으로 축소된 형태

2-3. 정보 보존과 차원 축소

PCA는 기존 데이터의 정보를 최대한 보존하면서, 즉 차원 축소 과정에서 발생하는 정보의 손실을 최소화하며 데이터의 차원을 줄이는 것이다. 하지만 모든 주성분을 사용하지 않고 일부만 선택하면, 데이터의 변동성 중 일부는 손실될 수밖에 없다. 따라서 정보의 손실을 최소화하되 선택하는 주성분의 수를 최소화하기 위해서 적절한 주성분의 수를 결정해야한다.

주성분의 수를 결정하기 위해, 스크리 플롯(Scree Plot)이나 분산 설명 비율(PVE, Proportion of Variance Explained)을 사용할 수 있다.

스크리 플롯(Scree Plot) : 각 주성분에 대응하는 고유값의 크기를 시각화한 그래프

고유값의 크기가 급격히 줄어드는 지점인 엘보 포인트(Elbow Point)를 찾는 것이 일반적이다. 이 지점 이후의 주성분은 설명력이 낮으므로 제외할 수 있다.

분산 설명 비율(PVE, Proportion of Variance Explained) : 각 주성분이 데이터의 총 변동성에서 차지하는 비율

$PVE = {\lambda_j \over \sum_{i=1}^p \lambda_i }$

$\lambda_j$ : 선택된 주성분의 고유값 $\sum_{i=1}^p \lambda_i$ : 전체 고유값의 합

원하는 수준의 변동성을 설명할 수 있는 최소한의 주성분 개수를 선택할 수 있다.

[python library] re 라이브러리와 정규 표현식

Wed, 14 Aug 2024 00:47:33 GMT

1. Python의 re 라이브러리

Python의 re 라이브러리는 정규 표현식을 사용하여 문자열을 검색하고 조작하는 강력한 도구입니다. 정규 표현식(정규식)은 특정한 규칙을 가진 문자열의 집합을 표현하는 형식 언어로, 복잡한 문자열 패턴을 간단하게 처리할 수 있습니다.

2. 정규 표현식(regular expression) 패턴 구성 요소

메타문자

메타문자	설명	예시
.	임의의 한 문자	a.b → acb , a1b , ...
^	문자열의 시작	^ab → abc , abd , ...
$	문자열의 끝	ab$ → 1ab , 2ab , 3ab , ...
*	바로 앞 문자열 0회 이상 반복	ab*c → ac , abc , abbc , abbbc , ...
+	바로 앞 문자열 1회 이상 반복	ab+c → abc , abbc , abbbc , ...
?	바로 앞 문자열 0회 또는 1회	ab?c → ac , abc
{n, m}	바로 앞 문자열 n회부터 m회까지 반복	a{1,3} → a , aa , aaa
[ ]	문자의 집합 또는 범위	[a-z] → a , b , c , ... , x , y , z
[^ ]	(부정) 괄호 안에 있는 것 제외	[^a-z] → 소문자 a부터 z를 제외한 문자열

특수 시퀀스

특수 시퀀스	설명	예시
\d	숫자	(= [0-9]) \d{3} → 123 , 456
\D	숫자가 아닌 문자	(= [^0-9]) \D+ → abc, @#$
\w	단어 문자 (알파벳, 숫자, 밑줄)	(= [a-zA-Z0-9_]) \w+ → abc , 123 , a_1
\W	단어 문자가 아닌 문자	(= [^a-zA-Z0-9_]) \W+ → @#! , " "
\s	공백 문자	(공백, \t, \n) \s+ → " " , \t , \n
\S	공백 문자가 아닌 문자	(= [^ \t\n\r\f\v]) \S+ →abc , 123 , a_1

3. re 라이브러리 기본 사용법

re. search( <sub string> , <main string> )

import re
>
# _이에 있을 경우
A = re.search(r'abc', 'abcdef')
print(A.start())    # 0
print(A.end())        # 3
print(A.group())    # 'abc'
>
# _이에 없을 경우
B = re.search(r'abc', 'ab')
print(B)            # None
>
# _이에 두 번 이상 있을 경우 ▶ 제일 첫 _{반환
C = re.search(r'abc', 'abcabc')
print(C)            # 
>
# 두 자리 숫자 찾기
D = re.search(r'\d\d', 'a1ab12abc123')
print(D)            #}

re.match( <sub string> , <main string> )

import re
>
# _이의 시작에 있을 경우
A = re.match(r'abc', 'abcdef')
print(A.start())  # 0
print(A.end())    # 3
print(A.group())  # 'abc'
>
# _이의 시작에 없을 경우
B = re.match(r'abc', 'ab')
print(B)  # None
>
# _이의 시작에 두 번 이상 있을 경우 ▶ 제일 첫 _{반환
C = re.match(r'abc', 'abcabc')
print(C)  # 
>
# 두 자리 숫자가 문자열의 시작에 있을 경우
D = re.match(r'\d\d', '12abc123')
print(D)  # 
>
# 두 자리 숫자가 문자열의 시작에 없을 경우
E = re.match(r'\d\d', 'a1ab12abc123')
print(E)  # None}

re.compile( <pattern> , )

  import re
>
# 정규 표현식을 컴파일하여 패턴 객체 생성
pattern = re.compile(r'\d+')
>
# 패턴 객체를 사용하여 매칭 작업 수행
result = pattern.search('The year is 2024')
print(result.group())  # '2024'

re.fullmatch( <pattern> , <string> , )

import re
>
# 문자열 전체가 패턴과 일치하는지 확인
result = re.fullmatch(r'\d+', '123456')
print(result.group())  # '123456'
>
# 문자열 전체가 패턴과 일치하지 않는 경우
result = re.fullmatch(r'\d+', '123abc')
print(result)  # None

re.split( <pattern> , <string> , , )

import re
>
# 패턴을 기준으로 문자열을 분할하여 리스트로 반환
result = re.split(r'\s+', 'This is a test string')
print(result)  # ['This', 'is', 'a', 'test', 'string']
>
# 최대 분할 횟수를 지정
result = re.split(r'\s+', 'This is a test string', maxsplit=2)
print(result)  # ['This', 'is', 'a test string']

re.findall( <pattern> , <string> , )

import re
>
# 문자열에서 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
result = re.findall(r'\d+', 'There are 123 apples and 456 oranges')
print(result)  # ['123', '456']

re.finditer( <pattern> , <string> , )

import re
>
# 문자열에서 패턴과 일치하는 모든 부분을 찾아 반복 가능한 객체로 반환
matches = re.finditer(r'\d+', 'There are 123 apples and 456 oranges')
for match in matches:
    print(match.group())  # '123', '456'

re.sub( <pattern> , <repl> , <string> , , )

import re
>
# 패턴과 일치하는 부분을 다른 문자열로 대체
result = re.sub(r'\d+', 'number', 'There are 123 apples and 456 oranges')
print(result)  # 'There are number apples and number oranges'

re.subn( <pattern> , <repl> , <string> , , )

import re
>
# 패턴과 일치하는 부분을 다른 문자열로 대체하며, 대체된 횟수도 함께 반환
result = re.subn(r'\d+', 'number', 'There are 123 apples and 456 oranges')
print(result)  # ('There are number apples and number oranges', 2)

re.escape( <string> )

import re
>
# 문자열에서 특수 문자를 이스케이프 처리
escaped_string = re.escape('This is a test. [Special characters: *?+|]')
print(escaped_string)  # 'This\\ is\\ a\\ test\\.\\ \\[Special\\ characters\\:\\ \\*\\?\\+\\|\\]'

[python library] 크롤링 with Selenium

Tue, 06 Aug 2024 06:55:24 GMT

1. requests과 selenium

selenium : 웹 어플리케이션을 테스트하기 위해 고안된 프레임워크

requests 라이브러리로 웹 정보를 받고 BeautifulSoup를 사용해서 파싱하는 방식도 있지만, 로그인이나 클릭, 혹은 스크롤과 같은 동적인 웹 컨트롤이 필요한 경우 selenium을 사용한다.

하지만, selenium의 경우 시간과 비용이 많이 들기 때문에 동적인 웹 컨트롤이 필요하지 않은 경우에는 requests와 BeautifulSoup를 활용하는 것이 더 유리하다.

또한 selenium과 BeautifulSoup를 동시에 활용하는 것도 시간과 비용의 문제를 해결하기에 적합하다는 사실!

2. selenium & chromedriver

chromedriver : chrome 브라우저를 제어하기 위한 드라이버

selenium을 사용하기 위해서는 chrome driver을 다운받아서 사용해야 한다. https://chromedriver.chromium.org/downloads 에서 다운로드가 가능하지만 python 코드를 활용해서 이 과정을 자동화 할 수 있다.

!pip install selenium
!apt-get update
!apt install chromium-chromedriver
# !cp /usr/lib/chromium-browser/chromedriver '/content/drive/MyDrive/Colab Notebooks' # (최초 1회)
!pip install chromedriver-autoinstaller

3. selenium으로 Chrome browser 열기

from selenium import webdriver
driver = webdriver.Chrome() # driver 경로를 파일경로와 같은 곳에 둘 경우
driver = webdriver.Chrome('driver path') # driver 경로를 파일경로와 다른 곳에 둘 경우
url = 'https://www.google.com'
driver.get(url)

위와 같이 chrome browser을 화면에 직접 띄우고 눈으로 과정을 확인하면서 작업하는 방법도 있지만, 지금부터 작성할 코드는 화면을 띄우지 않고 진행할 것이라는 점을 명심하길 바란다.

from selenium import webdriver
import chromedriver_autoinstaller
import sys

# chrome_path를 시스템 경로에 추가
chrome_path = "/content/drive/MyDrive/Colab Notebooks/chromedriver"
sys.path.insert(0,chrome_path)

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') # 창을 띄우지 않는 Headless 모드
chrome_options.add_argument('--no-sandbox') # 샌드박스 모드 비활성화
chrome_options.add_argument('--disable-dev-shm-usage') # 메모리 문제 제거
chrome_options.add_argument('lang=ko_KR') # 한국어
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"]) # 불필요한 에러메시지 노출 방지
...

chromedriver_autoinstaller.install()  # Chromedriver 다운로드

driver = webdriver.Chrome(options=chrome_options)

url = 'https://www.google.com'
driver.get(url)

4. 웹 페이지 소스코드 읽기

위와 같이 chromedriver의 기본적인 설정 및 준비가 끝나면 기존에 requests를 활용했던 것과 동일하게 크롤링이 가능하다. BeautifulSoup를 활용한 파싱 이후로는 requests를 활용했던 것과 동일하지만, response.text 대신에 driver.page_source를 파싱해야 한다는 사실!

from bs4 import BeautifulSoup
import re

html = driver.page_source    # response.text와 같은 역할

soup = BeautifulSoup(html, 'html.parser')    # BeautifulSoup를 활용한 파싱
div_list = soup.find_all("div", attrs={"class" : re.compile("className")})
...

5. 동적 웹 컨트롤

버튼 클릭, 텍스트 입력, 로그인, 스크롤 등 다양한 동적 웹 컨트롤을 구현할 수 있다.

Example 1 : 버튼 클릭

from selenium.webdriver.common.by import By
>
target = driver.find_element(By.XPATH, '//*[@id="content"]/div[2]/div/button')
target.click()

Example 2 : 텍스트 입력

from selenium.webdriver.common.by import By
>
target = driver.find_element(By.ID, 'loginForm')
target.send_keys("abc123!")

Example 3 : 로그인

from selenium.webdriver.common.by import By
>
url = "https://nid.naver.com/nidlogin.login?mode=form&url=https://www.naver.com/"
driver.get(url)
>
entry_ID = driver.find_element(By.XPATH, '//*[@id="id"]')
entry_ID.send_keys("ID123")
>
entry_PW = driver.find_element(By.XPATH, '//*[@id="pw"]')
entry_PW.send_keys("pswd123!")
>
btn = driver.find_element(By.XPATH, '//*[@id="log.login"]')
btn.click()

Example 4 : 스크롤 움직이기

driver.execute_script("window.scrollTo(0, 700)")

execute_script() : 자바스크립트 동작

그 외에 버튼 누르기, 특정 위치로 focus 이동하기 등 다양한 동적 웹 컨트롤이 가능하다.

+ By 활용법

from selenium.webdriver.common.by import By
>
driver.find_element(By.XPATH, '//button')
driver.find_element(By.ID, 'loginForm')
driver.find_element(By.LINK_TEXT, 'Continue')
driver.find_element(By.PARTIAL_LINK_TEXT, 'Conti')
driver.find_element(By.NAME, 'username')
driver.find_element(By.TAG_NAME, 'h1')
driver.find_element(By.CLASS_NAME, 'content')
driver.find_element(By.CSS_SELECTOR, 'p.content')

[python library] 크롤링 with requests & BeautifulSoup

Mon, 05 Aug 2024 16:29:58 GMT

1. 크롤링(Crawling)과 스크래핑(Scraping)

▲ 나무위키 - 크롤링

▲ 나무위키 - 스크래핑

구분 없이 용어를 사용하는 경우가 많다고 하지만 엄밀하게 말하자면 크롤링이 스크래핑보다 더 큰 개념의 용어이다.

크롤링 (Crawling) : 웹 페이지의 정보를 가져오는 것
스크래핑 (Scraping) : (크롤링한) 웹 페이지에서 데이터를 추출하는 것

이번 글에서는 python의 BeautifulSoup_와 _requests 라이브러리를 사용한 크롤링을 다루고, 더 나아가 스크래핑까지 다룰 예정이다.

2. requests 라이브러리로 html 소스코드 불러오기

우선 requests 에 대하여, python에서 http를 다루기 위해 사용되는 라이브러리이다.

import requests

response = requests.get('url')

사실 requests 라이브러리의 .get( 'url' ) 함수 하나면 해당 url의 html 소스코드를 불러올 수 있다.

print(response)
>>> 

print(response.status_code)
>>> 200

print(response.text)
>>>    ...

위와 같이 .status_code의 값이 200일 경우 해당 url에 정상적으로 접근했다는 걸 뜻하기에 앞으로 다음과 같이 사용하도록 하자.

import requests
import sys

response = requests.get('url')

# status_code가 200이 아니면 status_code를 출력하며 프로그램 종료
if response.status_code != 200:
    sys.exit("status code of response is " + str(response.status_code))

3. User - Agent를 사용하여 안전하게 접근하기

위 과정을 반복하다보면, 어느 순간 똑같은 url에 접근함에도 불구하고 status_code가 200이 나오지 않는 순간이 찾아온다. 반복된 비정상적인 접근을 서버가 탐지하고 차단한 것이라고 볼 수 있다. 따라서, 비정상적인 접근으로 간주되지 않기 위해서 User-Agent를 활용해서 정상적인 접근을 시도해보자.

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'}
response = requests.get('url', headers=headers)

이때 'User-Agent'의 값은 m.avalon.co.kr에서 확인할 수 있다.

4. BeautifulSoup를 이용한 HTML 소스코드 파싱

파싱(Parsing) : 언어의 구문을 분석하는 것

따라서 BeautifulSoup 라이브러리를 활용해서 HTML 소스코드를 HTML 문법에 따라 분석하고 활용하자.

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
# 혹은 BeautifulSoup(response.text, 'lxml')

HTML은 태그(Tag)_와 _속성(Attribute), 그리고 속성 정보 등으로 구성되어 있다. 따라서 특정 함수를 통해서 원하는 정보를 추출할 수 있다.

soup.find()        # HTML 문서의 위에서부터 첫 번째 를 반환

soup.find_all()    # HTML 문서의 모든 를 반환

soup.get()        # soup가 가리키는 첫 Tag의 속성(Attribute)들 중
                          # 에 해당하는 값을 반환

soup.text                # soup가 가리키는 첫 Tag의 text를 반환

# 와 를 동시에 활용하여 검색하기
soup.find(, attrs = { : ... }
soup.find_all(, attrs = { : ... }

Example

soup.find("div")        # body, div, span, a, li, ul, table, ...
soup.find_all("div", attrs = {"class" : "Toastify"})

soup.find("a")
soup.get("href")
>>>> "/write?id=fe2612d2-a18b-47c6-bcda-21715ee42316"

soup.find("span")
soup.text
>>>> "동시대 미술이 선사하는\n극한의 깊이와 파격"

5. re 정규식 연산 라이브러리

정규표현식(정규식) : 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 find 혹은 find_all 함수를 사용하여 원하는 태그를 찾을 때 attrs을 사용하여 속성을 함께 검색할 수 있는데, 특정 단어를 포함한 모든 속성을 찾고 싶을 때 사용할 수 있다. 예를 들어서 설명해보겠다.

soup.find_all("div", attrs = {"class" : "language"}


위 코드는 _**Tag**_가 _**div**_이며 속성 중 _**"class"**_의 값이 _**"language"**_인 태그가 반환된다.

하지만 만약 _**"language_markdown"**_과 _**"language_null"**_처럼 _**"language"**_라는 단어를 포함한 _**"class"**_ 속성 값을 가진 _**div**_ _**Tag**_를 반환받고 싶다면 다음과 같이 _**re**_ 라이브러리의 _**re.compile()**_ 함수를 활용할 수 있다.
>```python
soup.find_all("div", attrs = {"class" : re.compile("language")})

결과물

import requests
from bs4 import BeautifulSoup
import sys
import re

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'}
response = requests.get('url', headers=headers)

if response.status_code != 200:
    sys.exit("status code of response is " + str(response.status_code))

soup = BeautifulSoup(response.text, 'html.parser')
td_list = soup.find_all("td", attrs = {"class" : re.compile("cell")})

text_list = []
for td in td_list:
    text_list.append(td.text)
# text_list = list(map(lambda x: x.text, td_list))