[chap 2-1] 훈련 세트와 테스트 세트

March 21, 2022 2 분 소요

❗ 문제점 ❗

chap 1-3 에서 만든 K-최근접 이웃 알고리즘 이 문제점이 발견되었다. fish_data에 해당하는 정답인 fish_target을 알려주고, score함수를 통해서 정확도를 판단했기 때문이다. 그렇게 된다면 해결책은 간단하다.

💡 해결책 💡

fish_data와 fish_target 리스트에서 일부는 훈련용으로, 나머지는 테스트용으로 나누면 된다.

✨ 훈련 세트와 테스트 세트

📖 지도 학습과 비지도 학습

🎰 머신 러닝 🎰

지도 학습 : 정답이 있으니 알고리즘이 정답을 맞히는 것을 학습하는 것
- k-최근접 이웃 알고리즘
비지도 학습 : 타깃 없이 입력 데이터만을 사용
강화 학습

지도 학습에서는 데이터를 입력 이라고 하고, 정답을 타깃 이라고 한다.
입력 + 타깃 = 훈련 데이터 이다.
특성1, 특성2,,, > 입력 > 입력 + 타겟 > 훈련 데이터

1️⃣ 데이터 모으기

chap 1-3과 같은 과정을 통해서 fish_data와 fish_target리스트를 만들어준다.

from sklearn.neighbors import KNeighborsClassifier

bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3,
                11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7,
                10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

length = bream_length + smelt_length
weight = bream_weight + smelt_weight
fish_data = [[l, w] for l, w in zip(length, weight)]
fish_target = [1] * 35 + [0] * 14

하나의 생선 데이터를 샘플 이라고 한다.

2️⃣ 넘파이를 통해서 배열로 바꾸기

파이썬의 대표적인 배열 라이브러리이다. fish_data = [[l, w] for l, w in zip(length, weight)] 를 통해서 간단히 2차원 배열을 만들 수 있는데 굳이 왜 넘파이를 사용할까? 2차원 리스트를 넘파이를 통해서 배열로 바꾸게 된다면 넘파이에서 사용할 수 있는 함수들을 사용하기에 유리하다.

import numpy as np

input_arr = np.array(fish_data)
target_arr = np.array(fish_target)
print(input_arr.shape)  # -> (49, 2)

array() 함수 : 파이썬 리스트를 넘파이 배열로 바꾸어 줌
shape() 함수 : 출력값이 (샘플 수, 특성 수)로 출력된다.(= (행, 열))

3️⃣ 샘플링 편향 없이 훈련 세트와 테스트 세트 나누기

현재, 배열로 가지고 있는 값은 input_arr과 target_arr이다. 이 두 배열을 서로 매칭이 되어있기 때문에 무작정 랜덤으로 훈련 세트와 테스트 세트를 뽑으면 안된다.

💡 sol

샘플 개수만큼의 인덱스가 들어있는 배열을 만든다.(arrange()) 이때, 랜덤이지만, 진짜 랜덤처럼 출력할 때마다 샘플의 순서가 달라진다면 제대로된 정확도를 알 수 없기 때문에 랜덤같지만 순서는 출력할 때마다 같게 만들어 준다.(seed())

np.random.seed(42)
index = np.arange(49)

인덱스를 랜덤으로 섞어준다.(shuffle())

np.random.shuffle(index)

섞어진 인덱스에 해당하는 입력과 타깃을 훈련 세트와 테스트 세트로 분리해준다.

train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]
test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

배열 인덱싱 : 한 번에 여러 인덱스 사용 가능

🌗 두 번째 머신러닝 프로그램

kn = kn.fit(train_input, train_target)
print(kn.score(test_input, test_target))
print(kn.predict(test_input))
print(test_target)

Twitter Facebook LinkedIn

Sohn SooKyoung

[chap 2-1] 훈련 세트와 테스트 세트

❗ 문제점 ❗

💡 해결책 💡

✨ 훈련 세트와 테스트 세트

📖 지도 학습과 비지도 학습

1️⃣ 데이터 모으기

2️⃣ 넘파이를 통해서 배열로 바꾸기

3️⃣ 샘플링 편향 없이 훈련 세트와 테스트 세트 나누기

🌗 두 번째 머신러닝 프로그램

공유하기

댓글남기기

참고

Mujoco Tutorial 02/28

[졸업 프로젝트] 시각장애인을 위한 LaTeX 수식 음성 변환 기능 구현

[통계분석실습] 빅데이터 기반 프로야구 인기도 지표 분석 및 구단별 인기 기여 정도 파악

[Chap 5] EM 알고리즘