경력과 연봉의 관계를 분석하여, 경력이 주어졌을때 연봉을 예측하려 한다. 데이터를 살펴보니 아래와 같은 그래프로 나왔다고 가정했을 때,
아래 그림처럼, 해당 분포를 만족하는 직선을 찾으려 하는 것이 목표다
즉 b0,b1의 값을 찾아 가는 과정을 학습이라고 부른다!
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
X와 y를 설정하고 카테고리컬 문자열 데이터 fit_transform을 통해 원핫인코딩을 해준다.
X, y 준비 끝났으니 학습용과 테스트용으로 데이터 분리하고 모델링한후 mse를 구한다.
아래는 신규데이터 예측 방법이다. np.array를 reshape 하고 인코더의 transform을 통해 데이터 전처리를 하고 예측한다.
'인공지능 > 머신러닝' 카테고리의 다른 글
머신러닝 데이터 전처리 replace함수 이상한 값을 np.nan으로 바꾸고 np.nan을 처리하는 법(Nan 제거 또는 Nan을 다른 값으로) (0) | 2022.05.06 |
---|---|
머신러닝 Logistic Regression 과 Confusion Matrix (0) | 2022.05.06 |
머신러닝 feature scaling 2가지 방법 StandardScaler, MinMaxScaler (0) | 2022.05.06 |
머신러닝 카테고리컬 데이터를 처리하는 방법 LabelEncoder, OneHotEncoder (0) | 2022.05.06 |
카테고리컬 데이터를 확인하는 방법 (0) | 2022.05.06 |