overhaul_.log

시계열 데이터 분석

Fri, 25 Oct 2024 02:33:32 GMT

https://www.tableau.com/analytics/what-is-time-series-analysis

시계열 분석(Time Series Analysis)이란?

시계열 분석은 일정한 시간 간격을 두고 수집된 데이터 포인트의 일련을 분석하는 특정 방법입니다. 시계열 분석에서는 데이터를 불규칙적이거나 임의로 기록하는 것이 아니라, 일정한 간격으로 데이터를 수집합니다. 그러나 시계열 분석은 단순히 데이터를 시간 순서대로 수집하는 것 이상을 의미합니다.

시계열 데이터를 다른 데이터와 차별화하는 것은 이 분석이 변수가 시간에 따라 어떻게 변화하는지를 보여줄 수 있다는 점입니다. 다시 말해, 시간이 중요한 변수로 작용하며, 이는 데이터 포인트가 시간에 따라 어떻게 조정되는지와 최종 결과에 대한 정보를 제공합니다. 시계열 데이터는 데이터 간 종속성을 나타내며, 이를 통해 추가적인 정보를 제공하는 역할을 합니다.

시계열 분석은 일반적으로 일관성과 신뢰성을 확보하기 위해 많은 데이터 포인트가 필요합니다. 대규모 데이터 세트는 대표성을 확보하고, 노이즈 데이터를 제거하며, 발견된 패턴이 이상값(outliers)이 아닌 실제 경향을 나타내는지 확인하는 데 도움을 줍니다. 또한, 시계열 데이터는 과거 데이터를 기반으로 미래를 예측하는 예측에도 사용할 수 있습니다.

시계열 데이터 분석을 사용하는 이유

시계열 분석은 조직이 시간에 따른 추세나 패턴의 근본적인 원인을 이해하는 데 도움을 줍니다. 데이터를 시각화함으로써 사용자들은 계절적 경향을 볼 수 있으며, 이러한 경향이 발생하는 이유를 더 깊이 파악할 수 있습니다. 최신 분석 플랫폼을 통해 이 시각화는 단순한 선 그래프 이상의 다양한 형태로 제공됩니다.

조직이 일관된 간격으로 데이터를 분석하면, 시계열 예측을 통해 미래 사건의 발생 가능성을 예측할 수 있습니다. 시계열 예측은 예측 분석의 한 부분으로, 계절성이나 주기적 행동과 같은 데이터 변화 가능성을 보여주며, 이를 통해 데이터 변수를 더 잘 이해하고 더 정확한 예측을 할 수 있도록 도와줍니다.

예를 들어, Des Moines 공립학교는 5년간의 학생 성취 데이터를 분석해 위험 학생을 식별하고, 시간이 지남에 따라 성과를 추적했습니다. 오늘날의 기술을 통해 매일 엄청난 양의 데이터를 수집할 수 있으며, 일관된 데이터를 충분히 확보하여 종합적인 분석을 수행하는 것이 그 어느 때보다 쉬워졌습니다.

시계열 분석의 예시

날씨 데이터 강수량 측정 온도 기록 심박수 모니터링(EKG) 뇌 활동 모니터링(EEG) 분기별 매출 주식 가격 자동 주식 거래 산업 예측 이자율 시계열 분석 유형 시계열 분석에는 다양한 데이터 범주가 포함되므로, 분석가들은 때때로 복잡한 모델을 만들어야 합니다. 그러나 모든 변동성을 다루거나 특정 모델을 모든 샘플에 일반화할 수는 없습니다. 너무 복잡하거나 과적합된 모델은 무작위 오류와 진정한 관계를 구분하지 못하게 되어, 분석이 왜곡되고 예측이 잘못될 수 있습니다.

시계열 분석 모델

분류(Classification): 데이터를 식별하고 범주를 할당합니다. 곡선 맞춤(Curve Fitting): 데이터를 곡선으로 나타내 변수 간 관계를 연구합니다. 기술 분석(Descriptive Analysis): 추세, 주기, 계절적 변동과 같은 시계열 데이터의 패턴을 식별합니다. 설명 분석(Explanative Analysis): 데이터와 그 관계, 원인과 결과를 이해하려고 시도합니다. 탐색 분석(Exploratory Analysis): 시계열 데이터의 주요 특징을 시각적 형식으로 강조합니다. 예측(Forecasting): 과거 추세에 기반하여 미래 데이터를 예측합니다. 개입 분석(Intervention Analysis): 사건이 데이터에 미치는 영향을 연구합니다. 세분화(Segmentation): 데이터를 세분화하여 원본 정보의 기본 속성을 보여줍니다.

시계열 데이터의 분류

시계열 데이터는 두 가지 주요 범주로 분류될 수 있습니다:

재고 시계열 데이터(Stock Time Series Data)

: 특정 시점에서 속성을 측정하는 것으로, 정보의 정적 스냅샷을 제공합니다.

흐름 시계열 데이터(Flow Time Series Data)

: 일정 기간 동안 속성의 활동을 측정하는 것으로, 총 결과의 일부를 구성합니다.

시계열 데이터의 변동

시계열 데이터에서는 변동이 간헐적으로 발생할 수 있습니다.

기능적 분석(Functional Analysis)

: 데이터 내 패턴과 관계를 파악하여 주목할 만한 사건을 식별합니다.

추세 분석(Trend Analysis)

: 일관된 방향으로의 움직임을 결정합니다. 추세에는 결정론적(deterministic)과 확률론적(stochastic) 유형이 있으며, 후자는 무작위적이고 설명하기 어렵습니다.

계절적 변동(Seasonal Variation)

: 일정한 간격으로 일어나는 사건을 설명합니다.

시계열 분석 모델 및 기법

Box-Jenkins ARIMA 모델

: 이 단변량 모델은 단일 시간 의존 변수를 이해하고 미래 데이터를 예측하는 데 사용됩니다. ARIMA 모델은 데이터가 정상성(stationary)을 가정하며, 이동 평균, 계절적 차분 연산자, 자기회귀 항을 포함하여 계절성을 설명할 수 있습니다.

Box-Jenkins 다변량 모델(Multivariate Models)

: 다중 시간 의존 변수(예: 온도와 습도)를 분석하는 데 사용됩니다.

Holt-Winters 방법: 지수 평활법(Exponential Smoothing)을 사용하는 기법으로, 계절성이 포함된 데이터를 예측할 때 사용됩니다.

시계열 데이터 (Time- Series) Data

Wed, 23 Oct 2024 14:51:13 GMT

시계열 데이터

시간의 흐름에 따라 관찰된 데이터 (기온 데이터, 주가 데이터 등)

변동 요인

-추세 변동(trend): 장기간에 걸쳐 점진적이고 지속적인 상승, 하락 상태 -계절 변동(any apparent sharp changes in behavior): 주기적인 패턴을 가지고 반복적으로 나타나는 변동 *-순환 변동(any apparent sharp changes in behavior): *수년간의 간격을 두고 상승과 하락이 주기적으로 나타나는 변동 *-불규칙 변동(any outlying observations): *명확히 설명될 수 없는 요인에 의해 발생되는 변동(ex.코로나)

시점에 따라 평균과 분산이 일정하지 않음. 분석한 데이터에 대해 신뢰할 수 없음. -> 시점에 따라 평균과 분산이 일정하도록 전처리 과정 필요

전처리 EDA

정상성(Stationary) :시계열 데이터가 시점에 따라 평균이나 분산이 변하지 않는 특징

평활화(Smoothing): 추세를 부드럽게 만드는 방법 -> 노이즈 제거하여 부드럽게

-이동평균법: 이전 일정한 구간의 평균 -지수평활법: 특점 시점에 가중치 --->평활화를 수행을 했을때 분산이 안정되는 느낌은 들지만, 특정 시점에 따라 데이터가 정상성을 띄긴 어려울 것이다.

차분: 현 시점의 데이터를 이전 시점의 데이터와 빼는 방법 -> 현시점-이전시점 = 그래프의 차이만 남음 -> 평균과 분산이 일정

평활화와 차분으로 정상성을 갖춘 시계열 데이터를 만듬

모델 학습

-AR 자기자신의 과거 값이 미래를 결정하는 모델 부분자기상관함수(PACF)를 활용 AR(p)모델 선정 yt = ~ 자기 자신의 과거값들의 합 = 미래를 결정 -MR 이전 *백색잡음들의 선형결합으로 표현되는 모델 자기상관함수(ACF)를 활용 MA(q)모델 선정 ' 잡음들의 선형 결함으로 미래를 결정.

선형 회귀는 종속, 독립. 여기는 백색잡음과 선형적으로

*백색 잡음: 시계열 모형의 오차항을 의미하며, 원인은 알려지지 않음/서로 독립이며 동일한 분포를 따름->회기모델에서 오차항이 존재. 시계열 데이터도 오차항을 가짐. -> 시계열 모델에서의 오차다. 오차들의 결합으로 표현되는 모델 -> MA

부분자기 상관함수 자기상관함수

ACF 오늘 1일전 2일전 3일전 오늘과 3일전이 얼마나 관계가 있는지 알아보는걸 상관계수 분석 => 1일전과 2일전이 3일전 일에 영향을 끼친다.

PACF 1일전과 2일전은 배제하고 3일전만 고려 급격히 감소하는 이전 시점 선정 -> 다른 건 고려시점이 아니다. PACF-> AR(3)모형 ACF->MA(3)모형

-ARIMA AR 과 MA 가 결합된 모델 ARIMA(p,d,q)모델 p는 AR모형의 PACF로 도출 q는 MA모형의 ACF로 도출 d는 정상화를 위해 차분을 몇 번 했는지 의미 d=0이면 ARMA(p, q)모델 if p==0 : IMA if q==0: ART

예측

회귀 예측

AR, MA, ARIMA, 딥러닝 -> 주가 예측, 기온 예측

회귀 모델 평가 지표

MSE, MAE, R-Square

분류 예측

딥러닝 -> 소음을 통한 제품 결합 확인, 자연어 처리(대화할 때 쓰는 말)

분류 예측 평가

혼동행렬, ROC Curve

mmsegmentation에서 사용할 API

Tue, 22 Oct 2024 15:19:22 GMT

mmsegmentation에서 사용할 API

gitgub open-mmlab https://github.com/open-mmlab/mmsegmentation

mmsegmentation은 OpenMMLab의 이미지 분할 라이브러리로, 다양한 분할 모델을 쉽게 사용할 수 있도록 돕는 역할

init_segmentor: 모델을 초기화하는 데 사용합니다. 설정 파일과 체크포인트 경로를 입력하여 모델을 로드합니다.

from mmseg.apis import init_segmentor

model = init_segmentor(config_file, checkpoint_file, device='cuda:0')

inference_segmentor: 주어진 이미지에 대해 분할 결과를 추론합니다.

from mmseg.apis import inference_segmentor

result = inference_segmentor(model, img)

show_result: 추론 결과를 시각화하는 데 사용할 수 있습니다. 이 함수는 분할된 이미지를 시각적으로 확인할 수 있도록 도와줍니다.

from mmseg.apis import show_result

show_result(img, result, out_file='output.png')

get_segmentation_results: 모델의 추론 결과에서 각 클래스에 대한 픽셀 수를 계산하고, IoU를 측정하는 데 사용할 수 있습니다. 이 부분은 일반적으로 직접 구현해야 하며, ground truth와 비교하여 IoU를 계산하는 로직을 포함해야 합니다.

mmcv: 이미지와 비디오 처리에 유용한 다양한 기능을 제공하는 라이브러리로, 파일 입출력과 같은 작업에 활용할 수 있습니다.

Vision former ViT 논문 리뷰

Tue, 22 Oct 2024 03:58:44 GMT

https://arxiv.org/pdf/2010.11929

이미지의 가치는 16X16단어:

대규모 이미지 인식을 위한 트랜스포머

알렉세이 도소비츠키 , 루카스 바이어, 알렉산더 콜레스니코프, 더크 바이센본, Xiaohua Zhai∗, 토마스 운터티너, 모스타파 데하니, 마티아스 마인드레러, 게오르그 하이골드, 실뱅 겔리, 야콥 우스코레, 닐 홀스비 ,동등한 기술 기여, 동등한 조언 Google 리서치, 브레인 팀 {아도소비츠키, 닐홀스비}@google.com

ABSTRACT

트랜스포머 아키텍처는 자연을 위한 사실상의 표준이 되었지만, 언어 처리 작업, 컴퓨터 비전에서 트랜스포머 아키텍처의 적용은 여전히 제한적입니다. 비전 분야에서 어텐션(attention)은 컨볼루션 네트워크와 함께 적용되거나 컨볼루션 네트워크의 특정 구성 요소를 유지하면서 대체하는 데 사용됩니다 전반적인 구조가 마련되어 있습니다. CNN에 대한 이러한 의존도가 필요하지 않다는 것을 보여줍니다 이미지 패치 시퀀스에 직접 적용된 순수 변압기는 다음과 같은 성능을 발휘할 수 있습니다 이미지 분류 작업을 매우 잘 수행합니다. 대량의 데이터를 여러 중간 크기 또는 작은 이미지 인식 벤치마크로 전송합니다 (이미지넷, CIFAR-100, VTAB 등) 비전 트랜스포머(ViT)는 우수합니다 최첨단 컨볼루션 네트워크와 비교했을 때 훈련하는 데 훨씬 적은 계산 리소스가 필요한 결과입니다.1 1 소개 자기 주의 기반 아키텍처, 특히 트랜스포머(Vaswani et al., 2017)는 다음과 같이 되었습니다 자연어 처리(NLP)에서 선택하는 모델. 지배적인 접근 방식은 다음을 사전 교육하는 것입니다 대규모 텍스트 말뭉치를 사용한 다음 더 작은 작업별 데이터 세트를 미세 조정합니다(Devlin et al., 2019). 감사합니다 트랜스포머의 계산 효율성과 확장성을 위해 다음과 같은 모델을 훈련하는 것이 가능해졌습니다 100B 이상의 매개변수를 가진 전례 없는 크기(브라운 외, 2020; 레피킨 외, 2020). 그리고 모델과 데이터 세트가 성장하고 있지만 여전히 성능이 포화될 조짐은 보이지 않습니다. 그러나 컴퓨터 비전에서는 컨볼루션 아키텍처가 여전히 지배적입니다(르쿤 외, 1989; 크리제프스키 외, 2012; 그 외, 2016). NLP 성공에서 영감을 받은 여러 작품이 결합을 시도합니다 자기 주의를 기울이는 CNN과 유사한 아키텍처(왕 외, 2018, 카리온 외, 2020), 일부 대체 기능 컨볼루션 전체 (라마찬드란 외, 2019; 왕 외, 2020a). 후자의 모델은 다음과 같습니다 이론적으로 효율적이지만, 다음과 같은 이유로 인해 최신 하드웨어 가속기에서 아직 효과적으로 확장되지 않았습니다 특수 주의 패턴의 사용. 따라서 대규모 이미지 인식에서 고전적인 ResNetlike 아키텍처는 여전히 최첨단입니다(Mahajan et al., 2018; Xie et al., 2020; 콜레스니코프 등). 2020). NLP에서 트랜스포머 확장 성공에서 영감을 받아 표준을 적용하는 실험을 진행합니다 가능한 한 최소한의 수정으로 이미지로 직접 변환합니다. 이를 위해 이미지를 분할합니다 는 패치로 만들고 이러한 패치의 선형 임베딩 시퀀스를 트랜스포머에 대한 입력으로 제공합니다.

모델 개요.

이미지를 고정된 크기의 패치로 분할하고 각 패치를 선형으로 삽입합니다. 위치 임베딩을 추가하고 결과 벡터 시퀀스를 표준 변환기에 공급합니다. 인코더. 분류를 수행하기 위해 추가 학습 가능 항목을 추가하는 표준 접근 방식을 사용합니다. "분류 토큰"을 시퀀스에 추가합니다. Transformer 인코더의 그림은 다음에서 영감을 받았습니다. Vaswaniet al. (2017).

3. METHOD

모델 설계에서는 원래 Transformer(Vaswani et al., 2017)를 최대한 가깝게 따릅니다. 이렇게 의도적으로 간단한 설정의 장점은 확장 가능한 NLP Transformer 아키텍처와 효율적인 구현 – 거의 즉시 사용할 수 있습니다.

3.1 비전 트랜스포머(VIT)

모델의 개요는 그림 1에 나와 있습니다. 표준 Transformer는 1D 입력을 받습니다. 토큰 삽입 순서. 2D 이미지를 처리하기 위해 이미지 x ∈ R의 모양을 변경합니다. H×W×C로 평평한 2D 패치의 시퀀스 xp ∈ R N×(피 2 ·기음) , 여기서 (H, W)는 원본의 해상도입니다. C는 채널 수, (P, P)는 각 이미지 패치의 해상도, N = HW/P2 는 패치의 결과 수이며, 이는 또한 유효 입력 시퀀스 길이 역할을 합니다. 변신 로봇. Transformer는 모든 레이어를 통해 일정한 잠재 벡터 크기 D를 사용하므로 패치를 평평하게 하고 기차를 사용하여 D 차원에 매핑합니다.

데이터분석라이브러리함수모음

Thu, 20 Jun 2024 13:34:22 GMT

1.scikit-learn를 별칭(alias)sk로 임포트하는 코드를 작성하고 실행하세요

import sklearn as sk

2.Pandas는 데이터 분석을 위해 널리 사용되는 파이썬 라이브러리입니다.

Pandas를 사용할 수 있도록 별칭 (alias)을 pd로 해서 불러오세요

import pandas as pd

3. Pandas함수 2개 데이터 파일을 읽고 합쳐서 1개의 데이터프레임 변수명 df에 할당하는 코드를 작성하세요

A0007IT.json 파일을 읽어 데이터 프레임 변수명 df_a에 할당하세요

signal.csv 파일을 읽어 데이터 프레임 변수명 df_b에 할당하세요

df_a와 df_b 데이터프레임을 판다스의 merge 함수를 활용하여 합쳐 데이터프레임 변수명 df에 저장하세요

합칠 때 사용하는 키(on):'RID'

합치는 방법 (how):'inner'

df_a = pd.read_json('A0007IT.json')
df_b = pd.read_csv('signal.csv')
df = pd.merge(df_a, df_b, on = 'RID', how='inner')

4.Address1에 대해 countplot그래프로 만드는코드와 답안을 작성하세요

Seaborn활용

Address1에 대해서 분포를 보여주는 countplot그래프

지역명이 없는 '-'에 해당하는 row(행) 삭제

import seaborn as sns

sns.countplot(data = df , x = 'Address1')
df = df[df['Address1'] !='-']
plt.show()

5. 실주행시간과 평균시속의 분포의 길이를 다음과 같이 확인하려고합니다

Time_Driving(실주행시간)과 Speed_Per_Hour(평균시속)을 jointplot그래프로 만드세요

Seaborn 활용

x축에는 Time_Driving표시, Y축에는 Speed_per_Hour 표시하세요

sns.jointplot(data= df, x = 'Time_Driving', y= 'Speed_Per_Hour')
plt.show()

6. 위의 jointplot 그래프에서 시속 300이 넘는 이상치를 발견할 수 있었습니다. 가이드에 따라서 전처리를 수행하고 저장하세요

대상 데이터프레임:df

jointplot그래프를 보고 시속 300이상이 되는 이상치를 찾아 해당 행(Row)을 삭제하세요

불필요한 'RID'컬럼 삭제

전저리 반영 후 새로운 데이터프레임 변수명 df_temp에 저장

df=df[df['Speed_Per_Hour']<300]
df_temp = df = df.drop(columns = 'RID')

7. 모델링 성능을 제대로 얻기 위해서 결측치 처리는 필수입니다.

대상 데이터프레임 : df_temp

결측치를 확인하는 코드 작성

결측치가 있는 행(raw) 삭제

전처리 반영된 결과를 새로운 데이터프레임 변수명 df_na에 저장

df_temp.isna().sum()
df_na = df_temp.dropna(axis= 0)

8. 모델링 성능을 제대로 얻기 위해서 불필요한 변수는 삭제해야합니다.

대상 데이터프레임: df_na

'Time_Departure', 'Time_Arrival' 2개 컬럼을 삭제하세요

전처리 반영된 결과를 새로운 데이터프레임 변수명 df_del에 저장하세요

df_del = df_na.drop(['Time_Departure','Time_Arrival'], axis = 1)

9. 원-핫 인코딩(One-hoe encoding)은 범주형 변수를 1과 0의 이진형 백터로 변환하기 위해 사용하는 방법입니다.

원-핫 인코딩으로 아래 조건에 해당하는 컬럼 데이터를 변환하세요

대상 데이터프레임: df_del

원-핫 인코딩 대상: object타입의 전체컬럼

활용함수: Pandas의 get_dummies

해당 전처리가 반영된 결과를 데이터프레임 변수 df_preset에 저장

cols = df_del.select_dtypes('object').columns
df_preset = pd.get_dummies(data = df_del, columns = cols)

10.훈련과 검증 각가에 사용할 데이터셋 분리

Time_Driving(실주행시간)컬럼을 label값 y로, 나머지 컬럼을 feature값 x로 할당한 후 훈련데이터셋과 검증데이터셋으로 분리

대상 데이터프레임: df_preset

훈련과 검증 데이터셋 분리

훈련 데이터셋 label : y_train, 훈련 데이터셋 Feature: x_train

검증 데이터셋 label: y_valid, 검증 데이터셋 Feature: x_valid

훈련 데이터셋과 검증데이터셋 비율은 80:20

random_state: 42

Scikit-learn 의 train_test_split 함수를 활용

RobustScaler 스케일링 수행

sklearn.preprocessing의 RobustScaler함수 사용

훈련데이터셋의 Feature는 RobustScaler의 fit_transform 함수를 활용하여 x_train변수로 할당

검증데이터셋의 Feature는 RobustScaler의 transform 함수를 활용하여 x_test변수로 할당

from sklearn.model_selection import train_test_split

x = df_preset.drop('Time_Driving', axis = 1)
y = df_preset['Time_Driving']

x_train, x_test, y_train, y_test = train_test_split( x, y , test_size = 0.2, random_state =42)
# 스케일링 수행
scaler = RobustScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)

11. Time_Driving(실주행시간)을 예측하는 머신러닝 모델을 만들려고 합니다. 의사결정나무 (decision tree)와 랜덤포레스트(RandomForest)는 여러가지 규칙을 순차적으로 적용하면서 독립변수 공간을 분할하는 모형으로 분류(classification)와 회귀 분석 (regression)에 모두 사용될 수 있습니다. 아래 가이드에 따라 의사결정나무(decision tree)와 랜덤포레스트(RandomForest)모델을 만들고 학습을 진행하세요

의사결정나무(decision tree)

트리의 최대깊이: 5

노드를 분할하기 위한 최소한의 샘플 데이터수(min_samples_split):3

random_state: 120

의사결정나무(desicion tree)모델을 dt변수에 저장

랜덤포레스트(RandomForest)

트리의 최대깊이:5

노드를 분할하기 위한 최소한의 샘플 데이터수(min_samples_split): 3

random_state: 120

랜덤포레스트(RandomForest)모델을 rf변수에 저장

위의2개의 모델에 대해 fit을 활용해 모델을 학습해주세요. 학습시 훈련데이터 셋을 활용

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

dt = DecisionTreeRegressor(max_depth=5, min_samples_split=3, random_state = 120)
dt.fit(x_train, y_train)


rt = RandomForestRegressor(max_depth = 5, min_samples_split = 3, random_state=120)
rt.fit(x_train, y_train)

# 예측 수행
y_pred_dt = dt.predict(x_test)
y_pred_rt = rt.predict(x_test)

# 결과 출력
print("Decision Tree Predictions:", y_pred_dt)
print("Random Forest Predictions:", y_pred_rt)

두 모델의 평균 제곱 오차(MSE) 값을 비교한 결과:

의사결정나무(Decision Tree)의 MSE: 573 랜덤포레스트(Random Forest)의 MSE: 548 MSE 값은 낮을수록 모델의 예측 성능이 좋음을 나타냅니다. 따라서, 랜덤포레스트(Random Forest) 모델이 더 낮은 MSE 값을 가지므로 의사결정나무(Decision Tree) 모델보다 더 좋은 성능을 보이는 것으로 판단할 수 있습니다.

결론적으로, 주어진 결과에서 랜덤포레스트(Random Forest) 모델이 더 좋은 성능을 보입니다.

12. 위 의사결정나무와 랜덤포레스트 모델의 성능평가. 아래 가이드에 따라 예측결과의 mae(Mean Absolute Error)를 구하고 평가

성능 평가는 검증 데이터셋을 활용

11번 문제에서 만든 의사결정나무 (decision tree)모델로 y값을 예측(predict)하여 y_pred_dt에 저장

검증 정답(y_vaild)과 예측값(y_pred_dt)의 mae(Mean Absolute Error)를 구하고 dt_mae변수에 저장

11번 문제에서 만든 랜덤포레스트 모델로 y값을 예측 (predict)하여 y_pred_rd에 저장

검증 정답(y_valid)과 예측값(y_pred_rf)의 mae(Mean Absolute Error)를 구하고 rf_mae 변수에 저장

from sklearn.metrics import mean_absolute_error

dt_mae = mean_absolute_error(y_test, y_pred_dt)
rf_mae = mean_absolute_error(y_test, y_pred_rf)

print("Decision Tree - Mean Absolute Error:", dt_mae)
print("Random Forest - Mean Absolute Error:", rt_mae)

13.Time_Driving(실주행시간)을 예측하는 딥러닝모델

Tensonflow framework를 사용하여 딥러닝 모델을 만드세요

히든레이어(hidden layer) 2개 이상으로 모델을 구성하세요

손실함수는 MSE(Mean Squared Error)를 사용하세요

하이퍼파라미터 epochs:30, batch_size:16으로 설정

각 에포크마다 loss 와 metrics 평가하기 위한 데이터로 x_valid, y_valid 사용

학습 정보는 history변수에 저장

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import MeanSquareError

model = Sequential([
    Dense(64, activation='relu', input_shape = (x_train.shape[1],)),
    Dense(32, acitivatio='relu'),
    Dense(16, activation='relu'),
    Dense(1)
    ])

model.complie(optimizer=Adam(), loss= MeanSquaredError(), metrics=['mae'])

history = model.fit(
    x_train, y_train,
    epochs = 30, 
    batch_size=16,
    validation_data=(x_valid, y_valid)
)

14. 위 딥러닝 모델의 성능을 평가

Matplotlib 라이브러리 활용해서 학습 mse와 검증 mse를 그래프로 표시하ㅔ요

1개의 그래프에 학습 mse과 검증 mse 2가지를 모두 표시하세요

위 2가지 각각이 범례를 'mse', 'val_mse'로 표시하세요

그래프의 타이틀은 'Model MSE'로 표시

x축에는 'Epochs'라고 표시하고 y축에는 'MSE'라고 표시

import matplotlib.pyplot as plt

mse = history.history['loss']
val_mse = history.history['val_loss']

epochs = range(1, len(mse)+1)

plt.figure(figsize=(10,6))
plt.plot(epochs,mse,'ro-', label='val_mse')
plt.title('Model MSE')
plt.xlabel('Epochs')
plt.ylabel('MSE')
plt.legend()
plt.grid(True)
plt.show()