orange_e7.log

AI-900 시험 대비 공부

Tue, 23 May 2023 02:03:43 GMT

https://learn.microsoft.com/ko-kr/certifications/resources/study-guides/AI-900

마이크로소프트 학습 사이트에서 AI-900 시험에 대한 정보를 얻을 수 있다.

인공지능 기본 사항

AI란? 인간의 능력을 모방하는 SW

결과 예측 및 기록 데이터를 기반으로 패턴 인식
비정상적인 이벤트 인식 및 의사 결정
시각적 입력 해석 → 테슬라의 자율주행
언어 이해 및 대화 참여 → 챗gpt
정보를 얻기 위해 원본에서 정보 추출

⭐일반적인 인공 지능 워크로드

워크로드 : 주어진 시간 안에 컴퓨터 시스템이 처리해야 하는 작업의 양과 작업의 성과
머신러닝 : 데이터 및 통계를 기반으로 한 예측 모델 -AI의 기초
이상 감지 : 비정상적인 패턴이나 이벤트를 감지하여 선제적 조치를 가능하게 하는 시스템
computer vision : 카메라, 이미지 또는 비디오 시각적 입력을 해석하는 애플리케이션
자연어 처리 : 서면 또는 음성 언어를 해석하고 사용자와 대화에 참여할 수 있는 애플리케이션

정보 마이닝 : 데이터 원본에서 정보를 추출하여 검색 가능한 지식 저장소 만들

⭐ 책임있는 AI의 원칙

구분	해결 과제 또는 위험	예제
공정성	바이어스는(편향) 결과에 영향을 줄 수 있다.	대출 승인 모델은 학습된 데이터의 바이어스로 인해 성별에 따라 차별한다.
신뢰성	오류로 인해 해로울 수 있다.	자율 주행 차량에서 시스템 오류가 발생하여 충돌이 발생
프라이버시 및 보안	데이터가 노출될 수 있다.	의료 진단 봇이 중요한 환자 데이터로 학습되지만 이러한 데이터가 안전하지 않게 저장되어 있다.
포용성	해결방법이 모든 사용자에게 작동하지 않을 수 있다. (모든사람이 골고루 받아야함)	예측 앱은 시각 장애가 있는 사용자를 위한 오디오 출력을 제공하지 않는다.
투명도	사용자는 복잡한 시스템을 신뢰해야한다.	AI기반 재무 도구는 투자 권장 지침을 제공한다. 이러한 권장 사항은 무엇을 기준으로 할까?
책임	AI 기반 결정은 누구의 책임?	안면 인식 증거에 따라 죄없는 사람이 번죄자로 확인되었다. 누구의 책임인가?

Azure 인공지능

Azure 기본 : 스케일링 가능하고 신뢰할 수 있는 클라우드 플랫폼
- 데이터스토리지
- compute
- 서비스
  
  Azure의 AI 서비스
- 기계 학습 : 기계 학습 모델의 학습, 배포 및 관리를 위한 플랫폼
- cognitive services : 4가지 주요 요소가 있는 서비스 모음 : 비전, 음성, 언어, 결정
- Azure Bot Servive : 대화형 봇 개발 및 관리를 위한 클라우드 기반 플랫폼
- Azure Cognitive Search : 지능형 검색 및 지식 마이닝을 위한 데이터, 추출, 보강, 인덱
  
  Cognitive Service
  
  : Azure 구독 내의 AI 애플리케이션 리소스
  
  특정 서비스용 독립 실행형 리소스
  
  여러 서비스용 일반 cognitive service 리소스
  
  : 다음을 통해 애플리케이션에서 소비한다.
  
  REST 앤드포인트(https://주소)
  
  인증 키 또는 권한 부여 토큰
  
  [실습]
  
  https://learn.microsoft.com/ko-kr/certifications/exams/ai-900/

https://github.com/MicrosoftLearning/AI-900-AIFundamentals/blob/main/instructions/01-module-01.md

위 링크로 실습하며 azure 익히기.



[필기 덤프문제 참고 링크]
https://gogetem.tistory.com/entry/AI-900-%EB%AC%B4%EB%A3%8C-%EB%8D%A4%ED%94%84-%ED%95%9C%EA%B8%80-01

https://www.examtopics.com/exams/microsoft/ai-900/view/



덤프 문제를 반복적으로 풀고 나면 충분히 합격할 수 있다.
ai-900은 비교적 쉬운 편에 속해 5일 정도 집중 공략했고 ai는 알파고 밖에 몰랐던 비전공자도 충분히 합격할 수 있었다.
시험은 한글로 접수하고 시험칠때 영어지문 보기를 클릭할 수 있어 참고하여 보는 것도 추천한다.

다들 꼭 합격하시길 바랍니다!

Optimizer(옵티마이저)

Wed, 10 May 2023 16:20:33 GMT

💡 Optimizer(옵티마이저)란?

손실 함수에 손실 점수에 따라 가중치를 조절해주는 역할을 한다. 손실 함수를 줄여나가면서 학습하는 방법은 어떤 옵티마이저를 사용하는 지에 따라 달라진다.

✔️ 종류

경사하강법(Graient Descent) : 기울기가 0에 가까워지는 점을 찾는다.

SGD : 구간을 끊으면서 점프해서 접근하는 방식이다.

모멘텀(Momentum) : 로컬 미니멈에 갇혀있다. 물리 엔진인 것 처럼? 공을 넣어 튀어 나오는 것처럼 글로벌 미니멈을 찾는다.

그 외 옵티마이저들

RMSProp와 AdaDelta가 가장 많이 사용된다.

모델을 학습시킬 때 옵티마이저는 최적의 가중치를 찾아주는 것이 중요하다.

Keras(케라스)_주택 가격 예측 : 회귀 문제

Wed, 10 May 2023 16:05:50 GMT

보스턴 하우징 데이터셋을 활용한 주택 가격 예측

✔️ 보스턴 하우징 데이터 셋 케라스에 포함되어 있는 buston_housing 데이터를 이용해 주택 가격을 예측하는 회귀 문제를 구현할 수 있다.

우선 케라스에서 제공하는 boston_housing 데이터를 import해주고 train_data와 test_data를 호출하여 데이터 셋을 load해주었다. 이 데이터는 13개의 특성값을 가진 numpy배열로 구성되어 있고 train_data는 404개로 학습 샘플과 test_data는 102개의 테스트 샘플이 있는 2차원의 배열임을 확인할 수 있다.

✔️ 데이터 전처리-Scaling

특성의 스케일이 다른 값들을 신경망에 학습시키면 최적의 값을 찾는 것에 어려움이 발생한다. 그래서 우선 데이터를 표준편차를 이용해 정규화(표준화)를 시켜 각 특성의 범위를 동일하게 해준다. (딥러닝에서는 minmax scailing보다 표준편차 scailing을 사용해주는 것이 더 좋다.)

mean = train_data.mean(axis=0) ➡️ train_data의 각 항목(축)의 평균을 구한다. train_data -= mean ➡️ 전체 data에서 평균치를 빼면 각 특성의 평균이 0이 되도록한다. *std = train_data.std(axis=0) train_data /= std *➡️ std함수로 표준편차를 구해준 후 train_data로 나눠주면 각 특성의 표준편차가 1이된다.

위와 같은 scaling 작업을 해주면, 각 특성이 다른 범위를 가지더라도 모든 특성이 동일한 범위를 갖게 해주어 모델 학습에 도움을 준다.

Scaling 작업을 거친 train_data의 배열은 13개로 동일한 것도 확인해볼 수 있다.

✔️모델의 구성

신경망 모델을 구현하기 앞서 필요한 모듈들을 아래와 같이 import해준다.

Sequential()은 선형적 연산하는 함수로 model 매개변수에 저장한다.

layer는 3개를 생성하였고 입력층과 중간층의 활성화 함수는 'relu'를 사용한다.

input_shape=(train_data.shape[1],)은 첫 번째 요소는 하나의 튜플(tuple)로 정의되며,두 번째 요소는 입력데이터의 특성 개수를 나타낸다. 샘플 개수를 지정하지 않았다면, 입력 데이터의 샘플 개수가 가변적인 경우에 사용할 수 있다.

마지막 층의 유닛은 집값이라는 1개의 값만 필요하므로, (1)을 지정해주었다.

옵티마이저는 'rmsprop', 회귀 알고리즘에서에서 손실은 'mse'라는 예측한 값과 실제 값 사이의 평균 제곱 오차를 사용하고, metrics도 동일하게 사용된다.

✔️ K-folder 검증을 사용한 훈련 검증

buston_housing 훈련 데이터 샘플이 404개로 적은 편에 속한다. 이때 사용하면 가장 좋은 검증 방법은 K-겹 교차 검증(K-fold cross-validation)을 쓰는 것이다.

데이터를 K개의 분할로 나누고 K개의 모델을 각각 만들어 K – 1개의 분할에서 훈련하고 나머지 분할에서 평가하는 방법이다. 모델의 검증 점수는 K개의 검증 점수 평균이 된다.

총 404개 폴더를 k개로 나눠주면 한 폴더의 데이터수를 알 수 있다. k=4 일때, 1개의 폴더의 사이즈는 101개가 된다.

이것을 반복하며 실험하기위해 all scores라는 변수에 미리 리스트 형태로 만들어준다.

검증 데이터, 학습 데이터, 모델 학습, 모델 검증까지 k번 반복하는 for for문에 i 루프 변수가 사용해 "처리중인 폴드 #i"에 출력된다.

✔️ 검증 데이터 준비 : k번째 분할

우선 학습용 데이터와 학습용 라벨을 잘라준다.

4개로 분할된 데이터의 각 폴더를 슬라이싱하여 끝점을 구해준다. 끝점을 알면 폴더 내 데이터를 쪼갤 수 있다.

✔️ 학습 데이터 준비 : 다른 분할 전체

가운데 폴더는 4로 나눴기 때문에 2개(data1, data2)로 나눠서 저장해준다.

이 두 데이터의 구조가 똑같다면 numpy에 있는 concatenate 함수를 사용해 두개를 합쳐줄 수 있다. (data1, data2)의 각 데이터를 구해 대입해주면 된다.

하지만 이때 길이가 동일한 가로축으로 병합하기 위해 axis = 0 값을 준다.

✔️ 모델 학습 : 케라스 모델 구성(컴파일 포함)

404개의 데이터를 k=4개로 나누어 주었기 때문에, 4개가 100번씩 학습된다.

verbose=0이면 훈련상황을 생략한다. 바로 결과볼 수 있다. verbose=1이면 훈련상황을 보여준다.

✔️ 모델 검증

이전까지 모델 검증 수행하는 메서드로 fit()함수를 사용했다. fit()함수는 입력 데이터와 타깃 데이터를 모델에 제공해 가중치(w)를 조정하며 최적의 가중치를 찾는 것이다. 검증 데이터에 대한 성능 지표로 accuracy, loss 등을 사용한다.

evaluate()함수는 학습된 모델의 성능을 평가하는 메서드이다. 입력데이터와 타깃 데이터를 모델에 제공하여, 입력데이터를 예측한 결과와 타깃 데이터 간의 차이를 계산한다. 이를 통해 모델의 일반화 성능을 평가하고, 검증 데이터에 대한 성능 지표를 계산한다.

즉, fit()함수는 모델을 학습하면서 모델의 성능을 평가하는 역할을 수행. evaluate()함수는 학습이 완료된 모델의 성능을 평가하는 역할을 수행한다.

같은 성능이면 params(모델의 학습 가능한 파라미터 수)계수가 낮아야 좋다. 모델이 더 적은 학습 가능한 파라미터로도 같은 수준의 성능을 내기 때문이다. 즉, 효율적인 모델이라고 할 수 있다.

검증된 데이터의 성능 지표와 all_scores 배열의 평균값을 비교하였다. 비슷한 결과 값을 확인했고 이는 모델이 일관된 성능을 보인다는 것을 의미한다.

Keras(케라스)_뉴스기사 분류

Wed, 10 May 2023 14:21:23 GMT

로이터 데이터 셋을 활용한 뉴스 기사 분류

✔️ 로이터 데이터셋

케라스에 포함되어 있는 로이터 데이터셋을 이용해 뉴스기사를 분류하는 과정을 구현해본다.

위와 같이 필요한 모듈을 import해준다. num_words=10000 매개변수는 데이터에 가장 자주 등장하는 단어 10000개로 제한한다.

✔️ 데이터 준비

레이블을 벡터로 바꾸는 방법은 2가지가 있다.

첫 번째는 레이블의 리스트를 정수 tensor로 변환하는 것 [참고] 영화리뷰 분류

두 번째는 원-핫 인코딩은 레이블의 인덱스 자리는 1이고 나머지는 모두 0인 벡터이다.

vectorize_sequences 함수는 정수로 이루어진 리스트 ‘sequences’와 one-hot-incoding된 벡터의 차원 ‘dimesion’은 기본값이 10,000으로 설정.

zero(len(sequences), dimension)은 크기가 (len(sequences), dimension)이고 모든 원소가 0인 2차원 행렬로 인코딩 된다.

for문을 통해 sequence 리스트에 서 각각의 시퀀스를 반복.

enumerate() 함수는 순서가 있는 자료형(list, tuple, dictionary, string)을 입력받아 인덱스 값을 포함하는 enumerate 객체를 리턴한다.

results[ i ]에서 특정 인덱서의 위치를 1로 반환한다.

데이터를 벡터로 변환하는 것은 뉴럴 네트워크를 투과하는 과정에서 행렬끼리의 연산이 필요하기에 데이터를 벡터로 변환해주어야 한다.

vectorize_sequences함수를 사용해 각각 학습용 데이터와 테스트 데이터를 벡터로 변환하여 저장해준다.

라벨 데이터를 카테고리 데이터로 One-Hot incoding해주는 이유는?
수치에 대한 정보에 초점을 맞추기 위해서 사용한다.* 예를 들어, 아이스크림의 종류를 분류하는 문제라면, 아이스크림 종류가 (메로나, 바밤바, 비비빅)이렇게 3가지 종류가 있다고 가정해 이를 라벨 데이터로 사용하게 된다면 (0,1,2)로 표현된다. 여기에서 1+1=2라고 처리를 하게되면, '바밤바+바밤바=비비빅'이라는 공식이 적용되게 된다. 각 카테고리의 특징을 반영하고 수치적 특성을 없애주기 위해 라벨 인코딩을 대신 원핫 인코딩으로 특징을 반영하고 수치적 특성을 없애주기 위해 one-hot 인코딩으로 카테고리 데이터로 변환시켜주는 것이다.

✔️ 신경망 모델 제작

to_categorical()함수를 사용하여 레이블을 One-Hot 인코딩할 수 있어 필요한 모듈을 우선 import 해준다.

sequential() 선형적 연산을 하는 모델 함수를 사용한다. 모델의 layer는 3개를 만들어주었다.

입력층과 중간층의 Dense 유닛 개수는 64개, 활성화함수는 'relu', input_shape(10000,)은 1차원의 10,000개 요소를 가지는 입력모양으로 지정해준다.

출력층은 다중 분류데이터의 마지막층에서 사용되는 softmax 활성화 함수를 사용한다.

옵티마이저는 'rmsprop', 손실 함수로 'categorical_crossentropy', metrics평가는 'accuracy'을 사용해 모델을 컴파일 해준다.

✔️ 훈련 검증 1

데이터가 학습하는 동안 학습 데이터에 대한 모델의 정확도를 측정해 매개변수에 지정한다.

10,000개의 샘플 데이터를 쪼개서 검증하기 위해 위와 같이 준비해준다.

학습 반복 횟수 epochs는 20번, 학습 데이터 개수 batch_size는 512개를 vaildation_data 각각의 매개변수에 검증 데이터를 전달한다.

✔️ 그래프 시각화

그래프 시각화를 위해 우선 matplot 모듈을 import해준다.

학습 데이터의 손실과 정확도, 검증 데이터의 손실과 정확도를 각 매개변수에 저장한다.

위 colormap 설정값과 라벨을 지정해 아래와 같은 그래프를 시각화한다.

✔️ 훈련 검증 2

검증된 결과로 모델을 다시 학습시키고 평가한다.

1번째 훈련 검증에서 10번째 epochs가 가장 좋았던 것을 확인할 수 있었다. 그래서 2번째 검훈련 검증에서 epochs 값을 20에서 10으로 바꿔주었다.

모델의 정확도는 78%로 이고 손실은 0.97이라는 결과를 얻어냈다.

Keras(케라스)_영화리뷰 분류

Wed, 10 May 2023 13:41:31 GMT

💡 IMDB(Internet Movie Data base) DataSet

✔️ imbd 데이터 셋은 케라스에 포함되어 있는 영화 리뷰 데이터를 이용해 파이썬으로 딥러닝을 구현할 수 있다.

우선 케라스에서 제공하는 imbd 데이터를 import해주고 train_data와 test_data의 단어를 10,000개만 제한하여 사용하기 위해 데이터 셋을 load해주었다.

이 데이터의 모양을 확인해보니 1차원의 25000개 샘플 데이터이다. 라벨 데이터는 1과 0으로만 이루어진 데이터이다.

max반복문은 모든 sequence함수 안에 있는 가장 큰 값을 찾는 것이다.

✔️ 데이터 준비

numpy 모듈을 import해 데이터를 준비한다.

크기가 (len(sequences), dimension)이고 모든 원소가 0인 행렬로 만들어주었다.

a 리스트의 원소들을 반복하면서 각 원소의 인덱스를 i 변수에, 원소 자체를 item 변수에 할당해준다.

enumerate() 함수는 순서가 있는 자료형(list, tuple, dictionary, string)을 입력받아 인덱스 값을 포함하는 enumerate 객체를 리턴한다.

train_data와 test_data를 각각 벡터로 변환해주면, 레이블을 쉽게 벡터로 바꿀 수 있게 된다.

여기서 영화리뷰 데이터는 긍정과 부정 두가지로 나뉘는 데이터인데, 이는 문자열 형태의 데이터이다. 각 단어에 해당하는 정수값을 부여하기 위해 레이블의 리스트를 정수 tensor로 변환하는 것이다.

보통 라벨 데이터는 0과 1사이의 값을 가지는 실수형으로 변환한다. 이는 분류 문제에서 모델의 출력과 0과 1사이의 값으로 나타나기 때문에 실수형으로으로 바꿔주어 신경망에 주입할 데이터로 준비해준다.

✔️ 신경망 모델 제작

모델 만들기 위해 필요한 models와 layers 모듈을 import해준다.

1번째 input layer의 Dense 유닛 개수는 16개, activation은 'relu' 함수를 사용해준다. 그러면 16차원의 공간으로 바꾸어 선형적인 연산을 하게된다. input_shape(10000,)은 1차원 배열에 10000개 요소가 들어간 입력모양이다.

2번째 hidden layer은 input layer와 동일하다.

3번째 output layer의 Dense 유닛은 1개이다. 긍정 or 부정 둘 중 하나의 값만 도출되어야 하기 때문에 하나로 설정한다. activation은 0과 1사이의 점수로, 어떤 샘플 타깃이 1일 가능성이 높다는 것은 그 리뷰가 긍정일 가능성이 높다는 것을 의미한다. 이진분류 모델의 마지막 활성화로 시그모이드 활성화 함수를 사용하는 것이 좋다.

마지막으로 손실 함수와 옵티마이저를 선택해야한다. model.compile은 rnsprop 옵티마이저와 binary_crossentropy 손실 함수로 모델을 설정하는 단계이다. 훈련하는 동안 accuracy(정확도)를 사용하여 metrics(평가)한다.

input layer / hidden layer / output layer 총 3개의 레이어를 생성하면 위와 같은 모양의 모델이 형성된다.

✔️ 훈련 검증

훈련하는 동안 train_data에 대한 모델의 정확도를 측정해준다.

10,000개의 샘플 데이터를 쪼개서 검증하기 위해 위와 같이 준비해준다.

x_train과 y_train tensor에 있는 샘플의 손실과 정확도를 측정할 것이다. partial_x_train과 partial_y_train를 512개의 샘플씩 20번의 epoch(에포크)동안 반복 훈련, vaildation_data 매개변수에 검증 데이터를 전달한다.

이 dictionary는 모델의 학습과정을 모니터링하기 위해 사용되는 검증데이터이다.

✔️ 모델 그래프 시각화

'acc': 학습 데이터에 대한 정확도(accuracy)를 나타내는 값 'loss': 학습 데이터에 대한 손실(loss)을 나타내는 값 'val_acc': 검증 데이터에 대한 정확도를 나타내는 값 'val_loss': 검증 데이터에 대한 손실을 나타내는 값

위는 loss에 대한 그래프이다. 노란색 포인트가 가장 좋은 epochs이고 그 이후는 훈련 데이터가 과하게 최적화되었다는 뜻의 overfitting이다.

위는 accuracy에 대한 그래프이다. 노란색 포인트가 가장 좋은 epochs이고 이를 기준으로 왼쪽은 underfitting, 오른쪽은 overfitting이다.

Keras(케라스)_mnist dataset 활용

Tue, 09 May 2023 18:29:25 GMT

💡 Keras란?

파이썬으로 구현된 high-level deep learning API이다. high-level은 추상화 레벨이 높다는 것으로 딥러닝 모델에 적합하다. 또한 쉬운 사용법과 간단한 문법, 빠른 설계가 가능하다.

케라스는 위와 같이 x값 input되었을때, 예측된 y값과 실제 y값을 비교하고 손실 점수에 따라 최적의 값을 찾는 프레임워크로 활용된다.

overfitting : 학습 데이터를 과하게 공급하여 학습시켰을 때 발생하는 에러
underfitting : 학습 데이터를 부족하게 공급하여 학습시켰을 떄 발생하는 에러

✔️ 파이썬으로 Keras 프레임워크를 활용해 데이터를 분석하고 학습시키는 딥러닝 과정을 구현할 수 있다.

케라스 모듈을 import하고 keras 버전도 확인해주었다. 케라스에서 사용할 datasets은 mnist라는 손글씨 데이터이다. minst.load_data()함수를 호출하여 반환된 값을 (train_images, train_labels), (test_images, test_labels)에 각각 할당해주었다.

train_images : 학습용 이미지 데이터
train_labels : 학습용 이미지 라벨
test_images : 테스트용 이미지 데이터
test_labels : 테스트용 이미지 라벨

위와 같이 분리된 학습 데이터셋과 테스트셋은 머신러닝 모델을 학습시키고 검증하는 데 사용된다.

train_images와 test_images의 데이터 모양을 살펴보았다. train data는 60000개로 학습하고 test data는 10000개로 테스트를 진행할 것이다.

train_labels의 dtype은 uint8이며, 이는 데이터 타입이 부호 없는 8비트의 정수임을 의미한다.

train_labels의 각 요소는 array([5,0,4,...,5,6,8])이며 해당 학습용 이미지 데이터가 0부터 9까지 나타낸다. train_labels의 첫 번째 요소는 첫 번째 학습용 이미지 데이터가 숫자5를 나타내는 것을 의미한다. 이 머신러닝 모델은 학습용 이미지 데이터와 해당 이미지 데이터가 나타내는 숫자(label)을 함께 사용하여 숫자 인식 분류 문제를 학습할 것이다.

✔️ 데이터 확인

우선 matplot 모듈을 import하여 파이썬의 데이터를 시각화할 수 있게 세팅해두었다. digit = train_images[4]은 이미지 데이터셋에 5번째 이미지를 train_images라는 변수로 불러와 digit이라는 변수에 저장해두었다. inshow 함수는 이미지를 보여주는 함수. cmap 함수는 colormap을 설정하는 인자. plt.cm.binary는 흑백 이미지를 표시하기 위한 colormap. 따라서 plt.imshow(digit, cmap=plt.cm.binary)은 digit 변수에 저장된 이미지 데이터를 흑백으로 시각화하는 코드이다.

✔️신경망 만들기

신경망을 만들기 위한 모듈을 임포트해주었다.

optimizer은 손실 함수에 손실 점수에 따라 가중를 조절하는 역할이다. (옵티마이저 자세한 내용은 다음 포스팅에 언급하겠다.)
Sequential()은 순차적으로 레이어 층을 더해주는 순차 모델이라고 불리며, 케라스에서 흔히 사용되는 모델이다.

network.add(layers.Dense())을 2개 생성하여 2개 레이어를 가진 신경망으로 만들었다. 구조의 이해를 위해 아래와 같은 그림을 첨부하였다.

Dense()는 뉴런마다 input들이 전부 연결된 것들을 Dense Layer라고 부른다.

첫 번째 layer는 512개의 유닛과 28x28 배열의 입력되는 모양을 가진 레이어 두 번째 layer는 출력층이며, 0~9까지 layer들을 계산하며 모양은 생략해도 1번 layer과 동일하게 적용된다.

✔️ 데이터 준비하기

이미지 데이터는 기본적으로 3차원으로 구성되어 있으며, 모델을 학습하기 위해 과부화 발생을 방지하기 위해 차원을 축소해주는 것이 좋다. reshape함수를 사용해 데이터 손실 없이 데이터 모양만 바꿔 2차원으로 축소시켜주었다.

또한 이미지 데이터는 0~255까지의 값으로 이루어져 있으며, 이 값을 신경망 모델이 학습할 수 있는 형태로 변환하기 위해 'float32' 데이터 타입으로 변환해주었다. 이렇게 하면 소수점 이하의 값을 포함할 수 있어, 더 다양한 값을 표현할 수 있다.

÷ 255를 한 이유는 모든 픽셀 값이 0부터 1사이의 값으로 스케일링시키기 위해서 이다. 픽셀값이 모두 동일한 범위내에 있게 되어 학습이 더욱 안정적으로 이루어지게 된다.

✔️ 라벨 데이터를 카테고리 데이터로 변환하기

원래 아래와 같이 train_labels은 1차원에 8비트 정수형 데이터이다.

라벨 데이터는 숫자가 아닌 문자 데이터로 인식하게 설정하여 계산되지 않게 해주었다.

그림과 같이 라벨 데이터는 문자로 남게된다.

✔️ 신경망 학습

network 변수에 train_images와 train_labels를 fit함수로 학습시킨다. 이때 epochs = 5, batch_size = 128로 지정해주었다.

쉽게 이해하기 위해 그림과 함께 살펴보면, epoch는 학습하는 횟수이고 batch_size는 학습 데이터의 개수이다.

epoch 값이 높을 수록 다양한 무작위 가중치를 학습하며, 적합한 파라미터를 찾을 확률이 올라간다.(즉, 손실 값이 내려간다.) 그러나, 지나치게 값을 높이면 그 학습 데이터셋에 oberfitting이 되어 다른 데이터에 대해선 제대로 된 예측을 못할 가능성이 있다.
batch_size 값이 너무 크면 한번에 처리해야 할 데이터 양이 많아져서 학습 속도가 느려지고, 메모리 부족 문제가 발생할 수 있다. 그러나 값이 너무 작으면 적은 데이터를 대상으로 가중치를 업데이트하고, 이 업데이트가 자주 발생해 훈련이 불안정해진다.

그래서 손실 함수를 줄이면서 가중치를 업데이트할 수 있는 적합한 값을 찾아야한다.

학습된 결과를 살펴 보면 epoch는 5번 모두 실행되었고, accuracy는 5번째가 0.9882로 가장 우수하다. loss도 5번째가 0.0386으로 손실이 가장 낮다.

테스트 데이터셋으로 test_loss와 test_acc를 모델의 성능을 평가해보니, 손실 값이 0.0626, 정확도는 0.9809임을 나타낸다. 이 학습된 신경망 모델은 약 98.1%의 정확도를 보이며, 숫자 인식 분류 문제에서 좋은 성능을 내는 모델이다.

Activation Function(활성화 함수)

Tue, 09 May 2023 14:09:09 GMT

💡 활성함수란?

입력 신호의 총합을 출력신호로 변환하는 함수. 활성화 함수에 따라 출력값이 결정된다.

✔️ 종류

1. Step Function(계단함수)

y 값이 0에서 0.9 사이에서는 반응이 발생하지 않는다. y=1이 되었을 때 반응이 발생한다.

계단 함수를 위와 같이 구현해보았을 때, x>0 이면 1을 리턴해주고 x<=0 이면 0을 리턴하게 되어 있다. 출력 결과 0일때 0, -1일때 0, 0.1일때 1이라는 결과값이 도출된다.

리스트로 입력값을 받으면, a = np.array([5,3,-4,2,0])는 def step_function_for_nump(x)의 x값이며 y = x > 0 으로 계산되어 return y.astype(np.int) 결과로 도출된다. return값은 int 정수형으로 1 또는 0이 된다. x = 5, y = True(=1) x = 3, y = True(=1) x = -4, y = False(=0) x = 2, y = True(=1) x = 0, y = False(=0)

2.Sigmoid Function(시그모이드 함수)

이진분류(binary classification)에 주로 사용되는 함수이다. 출력값이 0~1의 값이며, 이는 확률로 표현 가능하다.

이진분류란? 예를 들면 개와 고양이를 분류할때 값이 정확하게 나눠지지 않고 애매한 위치에 분포한 데이터들이 존재한다. 이때 선명하게 분류하기 위해 시그모이드 함수가 사용된다. 변별력을 높여주는 역할을 하기 때문에 중간층에서 사용하지 않고 마지막 층에서 확실하게 분류할 때 사용한다.

이 공식에 대입하여 아래와 같이 시그모이드 함수를 파이썬으로 구현할 수 있다.

계단 함수와 시그모이드 함수 비교

위 자료는 x = np.arange(-5,5,0.01) 배열을 입력값으로 받으며, y1 = sigmoid(x)는 'r-' 빨간 실선으로 표시하고 y2 = step_function_for_numpy(x)는 'b--' 파란색 점선으로 표시하여 matplot함수로 시각화한 그래프이다.

3. ReLU(Rectified Linear Unit) 함수

가장 많이 사용되는 함수 중 하나이다.

Rectified란 '정류된'이라는 뜻으로 x가 0이하일 때 차단되어 아무값도 출력하지 않고 0을 출력하는 정류된 선형 함수이다.

위 공식에 대입하여 파이썬으로 구현할 수 있다.

x = 5 이면 5를 출력되고 x = -5 이면 0이 출력되는 것을 확인할 수 있다.

4. Identity Function(항등 함수)

회귀(Regression)문제에서 주로 사용되며 출력층의 활성화 함수로 활용된다.

y = x

입력값 그대로 출력하기 때문에 굳이 정의할 필요는 없지만 신경망 중간 레이어 흐름과 통일하기 위해 사용한다.

항등 함수는 위와 같이 파이썬으로 구현할 수 있다.

💡 정리

*시그모이드 : 이진 분류 모델의 마지막 활성화 함수 소프트맥스 : 다중 분류 모델의 마지막 활성화 함수 ReLU : 기본적으로 은닉층에 사용하는 활성화 함수 *