from IPython.core.display import display, HTMLdisplay(HTML("<style> .container{width:90% !important;}</style>"))

import pandas as pd

1. 데이터 만들기, 식습관들(feature)에 따른 ---> 체형(label)¶

df = pd.DataFrame(columns=['calory', 'breakfast', 'lunch', 'dinner', 'exercise', 'body_shape'])

df.loc[0] = [1200, 1, 0, 0, 2, 'Skinny']df.loc[1] = [2800, 1, 1, 1, 1, 'Normal']df.loc[2] = [3500, 2, 2, 1, 0, 'Fat']df.loc[3] = [1400, 0, 1, 0, 3, 'Skinny']df.loc[4] = [5000, 2, 2, 2, 0, 'Fat']df.loc[5] = [1300, 0, 0, 1, 2, 'Skinny']df.loc[6] = [3000, 1, 0, 1, 1, 'Normal']df.loc[7] = [4000, 2, 2, 2, 0, 'Fat']df.loc[8] = [2600, 0, 2, 0, 0, 'Normal']df.loc[9] = [3000, 1, 2, 1, 1, 'Fat']

df

1-1. feature와 label 나누기¶

X = df[['calory', 'breakfast', 'lunch', 'dinner', 'exercise']]X

Y = df[['body_shape']]Y

1-2. 수치가 굉장히 높은 calory칼럼때문에, 전체데이터를 Rescaling해주기¶

사이킷런의 StrandardScaler를 이용하여, 각 feature가 같은범위내에 있도록 바꿔준다.
Normalization을 사용해도된다

from sklearn.preprocessing import StandardScalerx_std = StandardScaler().fit_transform(X)

x_std

array([[-1.35205803,  0.        , -1.3764944 , -1.28571429,  1.        ],       [ 0.01711466,  0.        , -0.22941573,  0.14285714,  0.        ],       [ 0.61612771,  1.29099445,  0.91766294,  0.14285714, -1.        ],       [-1.18091145, -1.29099445, -0.22941573, -1.28571429,  2.        ],       [ 1.89972711,  1.29099445,  0.91766294,  1.57142857, -1.        ],       [-1.26648474, -1.29099445, -1.3764944 ,  0.14285714,  1.        ],       [ 0.18826125,  0.        , -1.3764944 ,  0.14285714,  0.        ],       [ 1.04399418,  1.29099445,  0.91766294,  1.57142857, -1.        ],       [-0.15403193, -1.29099445,  0.91766294, -1.28571429, -1.        ],       [ 0.18826125,  0.        ,  0.91766294,  0.14285714,  0.        ]])

2. feature들의 Covariance Matrix 만들기¶

각 칼럼별로 존재하는 feature들을 row순으로 변형시키는 과정이 필요하다. 그래야 covariance Matrix를 만들 수 있음

import numpy as np

2-1. feature들을 칼럼방향이 아닌 row방향으로 변환시킨다.¶

features = x_std.T

2-2. 각 feature들이 row방향으로 향해있다면, np.cov를 이용해 covariance matrix를 만들 수 있다.¶

covariance_matrix = np.cov(features)print(covariance_matrix)

[[ 1.11111111  0.88379717  0.76782385  0.89376551 -0.93179808] [ 0.88379717  1.11111111  0.49362406  0.81967902 -0.71721914] [ 0.76782385  0.49362406  1.11111111  0.40056715 -0.76471911] [ 0.89376551  0.81967902  0.40056715  1.11111111 -0.63492063] [-0.93179808 -0.71721914 -0.76471911 -0.63492063  1.11111111]]

3. c_matrix를 이용해 EigenValue의 최대값인 EigenVector(PC) 구하기¶

이 과정에서는 np.linalg.eig()이 사용된다. 이 때 eigen_value와 eigen_vector 리스트를 반환해준다.
feature가 5개인 5차원이므로, eigen_vector도 5개가 나온다.

eig_vals, eig_vecs = np.linalg.eig(covariance_matrix)

eig_vals

array([4.0657343 , 0.8387565 , 0.07629538, 0.27758568, 0.2971837 ])

eig_vecs

array([[ 0.508005  ,  0.0169937 , -0.84711404,  0.11637853,  0.10244985],       [ 0.44660335,  0.36890361,  0.12808055, -0.63112016, -0.49973822],       [ 0.38377913, -0.70804084,  0.20681005, -0.40305226,  0.38232213],       [ 0.42845209,  0.53194699,  0.3694462 ,  0.22228235,  0.58954327],       [-0.46002038,  0.2816592 , -0.29450345, -0.61341895,  0.49601841]])

3-1. eig_vals의 최대값을 눈으로 확인후 가져오고, 전체 중 비율을 구한다.¶

만약 하나의 eig_vecs만 사용한다면, 5->1차원으로 줄이면서
전체 중 비율값이 = 전체정보 중 그만큼의 정보를 유실없이 가진다는 뜻이다.

eig_vals[0]  /  sum(eig_vals)

0.7318321731427544

1개의 eigen_vector사용으로 5->1차원 축소시 73% 정보유실이 없는채로 축소할 것이다.¶

3-2. 해당 eigen_vector를 이용해, 칼럼방향별 feature 데이터를 projection시킨다.¶

projection이란 eigen_vector 직선위에 모든 데이터를 올려놓겠다는 의미이다.(그림생각)

# 칼럼방향의 feautre array를 dot연산을 통해 아이겐벡터 최대값(eig_vecs[0])에 projection시킨다.# 이  때, eig_vecs는 row방향별 feature로 생성한 것이므로, T로 뒤집어준다.projected_X = x_std.dot(eig_vecs.T[0])

projected_X

array([-2.22600943, -0.0181432 ,  1.76296611, -2.73542407,  3.02711544,       -2.14702579, -0.37142473,  2.59239883, -0.39347815,  0.50902498])

3-3. PCA로 프로젝션된 각 데이터들을 df로 만들자.¶

result  =  pd.DataFrame(projected_X , columns=['PC1'])result['y-axis'] = 0.0result['label'] = Y

result

4. 이제 5차원--> PC(eigen_vector)로 프로젝션--> 1차원 된 데이터들을 시각화¶

import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

sns.lmplot('PC1', 'y-axis', data=result, fit_reg=False,  # x-axis, y-axis, data, no line           scatter_kws={"s": 50}, # marker size           hue="label") # color# titleplt.title('PCA result')

Text(0.5,1,'PCA result')

5. 사이킷런 PCA 모듈로 한방에 표시하기¶

from sklearn import decompositionpca = decomposition.PCA(n_components=1)sklearn_pca_x = pca.fit_transform(x_std)

sklearn_result = pd.DataFrame(sklearn_pca_x, columns=['PC1'])sklearn_result['y-axis'] = 0.0sklearn_result['label'] = Ysns.lmplot('PC1', 'y-axis', data=sklearn_result, fit_reg=False,  # x-axis, y-axis, data, no line           scatter_kws={"s": 50}, # marker size           hue="label") # color

<seaborn.axisgrid.FacetGrid at 0x26516c89ef0>

from IPython.core.display import display, HTMLdisplay(HTML("<style> .container{width:90% !important;}</style>"))

L1 Norm : 주사위 게임으로 이해하기¶

1부터 6대신 -3부터 3까지 나오는 주사위을 굴린다.
-3이 나오면 뒤로 3걸음, 3이 나오면 앞으로 3걸음 갈 것이다

import pandas as pdimport numpy as npfrom numpy import linalg #리니어 알제브라 함수

1. 데이터 프레임 만들기¶

size (3,3) 으로 -3~3이 나오도록 만든다.
각 행별로,총 3사람이 주사위를 던지는 것이다.
각 칼럼별로, 3회 던지는 것이다.

df = pd.DataFrame( np.random.randint(low=-3, high = 3, size=(3,3)))df

df.columns=['move_1', 'move_2','move_3',]

df

2. 누가 가장 많이 걸었을까?¶

뒤로 걷든, 앞으로 걷든 벡터의 크기를 구해야한다
이 때 사용되는 개념이 **L1 Norm**일 것이다.
간단하게 p=1이므로, 각 행을 절대값 취해서 더할 때 L1 norm을 쓴다.

2-1. 계산을 위해 df를 array로 만든다.¶

movements = df.values

movements

array([[-3, -3,  1],       [ 1,  2,  2],       [-3,  1,  0]])

2-2. norm은 numpy의 linearalgebra 모듈안에 있다.¶

Norm의 종류는 ord로 구분한다.

ord = 1 : L1 norm을 사용한다.
ord = 2 : L2 norm을 사용한다.
L1 norm을 axis=1로 행방향으로 절대값 취해서 더해진다.

# Norm의 종류는 ord로 구분한다.linalg.norm(movements, ord=1, axis=1)

array([7., 5., 4.])

3. L1 norm(절대값 취해서 다 더하는 것)은 Computer Science에서는 어디서 사용할까?¶

L1 Regularization
Computer Vision에서 사용된다.

L2 Norm¶

공식상으로 p=2이므로, 각 x를 제곱해서 다 더한다음 마지막에 루트를 취한다.

고등학교 때 배운 피타고라스의 정리와 일치한다.

1. 각 데이터 포인트의 거리를 측정하기 위해 df를 만들자.¶

3행2열의 size로, 1부터 10까지 랜덤한 정수가 들어가도록 만들자

df = pd.DataFrame( np.random.randint(low=1, high=10, size=(3,2)))df

df.columns = ['x', 'y']df

2. df로 만든 x, y 좌표쌍을 시각화하자¶

import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline #plot명령시 바로 차트가 보여진다.

2-1. 벡터의 크기를 구하는 피타고라스 같은 L2 norm이므로.. 차트를 그려놓고 보자¶

sns.lmplot('x', #x축 들어갈 칼럼                  'y', #y축 들어갈 칼럼          data=df, #dataFrame          fit_reg=False, #Regression line을 표시할 것인가          scatter_kws={'s':200}) # S maker와 sizeplt.title('data point visualization')plt.xlabel('x')plt.ylabel('y')

Text(6.675,0.5,'y')

3. (0,0)에서 가장 가까운 점을 찾기위해 L2 Norm을 사용해보자.¶

3-1. 어떠한 계산을 위해서는 df->values로 array로 풀어주자¶

data_points = df.valuesdata_points

array([[5, 1],       [2, 2],       [2, 1]])

## 3-2. array를 가지고 L2 norm을 적용시켜보자.linalg.norm(data_points, ord=2, axis=1)

array([5.09901951, 2.82842712, 2.23606798])

L2 norm은 어디서 사용할까?¶

머신러닝에서 사용하는 유클리디언 디스턴스가 바로 L2 norm이다.

kNN algorithm
kmean algorithm

둘다 벡터의 거리가 이용되는 알고리즘 들이다.

# 캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

import pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snssns.set() #시본을 default plot으로 지정한다# label칼럼은 수동으로 적고, 행인덱싱, 이후, 행인덱싱 순서대로 합쳐진 df의 index명도 지정해줘야함.def bar_chart(feature):    #label 칼럼 수동으로 종류별 행인덱싱    survived = train.loc[ train['Survived'] == 1,: ][feature].value_counts()    dead = train.loc[ train['Survived'] == 0,: ][feature].value_counts()    df = pd.DataFrame([survived, dead])    #label 칼럼의 종류별로 합쳐진 df의 index 수동으로 순서대로 바꿔주기.    df.index = [ 'Survived', 'Dead']        print(df.head())    df.plot(kind='bar', stacked = True, figsize =(10,5))

import pickletrain_data= pickle.load(open('fe_train.p', 'rb'))target= pickle.load(open('fe_target.p', 'rb'))test= pickle.load(open('test.p', 'rb'))

1. Modeling¶

train_data.head()

train_data.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 891 entries, 0 to 890Data columns (total 8 columns):Pclass        891 non-null int64Sex           891 non-null int64Age           891 non-null float64Fare          891 non-null float64Cabin         891 non-null float64Embarked      891 non-null int64Title         891 non-null int64FamilySize    891 non-null float64dtypes: float64(4), int64(4)memory usage: 55.8 KB

1.1 사이킷런(sklearn)에 있는 Classifier import하기¶

#kNNfrom sklearn.neighbors import KNeighborsClassifier#Decision Treefrom sklearn.tree import DecisionTreeClassifier#Random Forestfrom sklearn.ensemble import RandomForestClassifier#나이브 베이즈from sklearn.naive_bayes import GaussianNB# 서포터 벡터 머신from sklearn.svm import SVCimport numpy as np # np.mean 평균 등을 계산

1.2 사이킷런에 있는 K-fold Cross validation import하기¶

from sklearn.model_selection import KFoldfrom sklearn.model_selection import  cross_val_score#train 데이터를 10개로 등분 낼 예정, shuffle은 10등분하기 전 전체데이터를 한번섞는다. 그 이후 10개 쪼개는 과정에서는 shuffle안한다.k_fold = KFold(n_splits = 10, shuffle = True, random_state = 0)

2. Classifier로 분류하기¶

2-1. kNN Classifier¶

#  k=13 개의 네이버를 사용한다.clf = KNeighborsClassifier(n_neighbors= 13 )scoring = 'accuracy'#cross_val_score에는 #1 분류기의 종류, 2 train, 3 label, 4cv= cross_validation의 종류, 5 ?? , 6. 정확도 등 표시할 것#cross_val_score()의 반환결과는 cv의 종류에 지정해준 splits 개수대로 정확도가 나온다.score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)print(score)

[0.82222222 0.76404494 0.80898876 0.83146067 0.87640449 0.82022472 0.85393258 0.79775281 0.84269663 0.84269663]

# 10개의 정확도 평균내기 ( 2번째 인자는 소수점 몇째짜리까지 표시되도록 반올림 할 것인가! )round(np.mean(score) * 100, 2)

82.6

2-2. Decision Tree¶

kNN에서 했던 것에서 분류기만 바꿔준다.

clf = DecisionTreeClassifier()scoring = 'accuracy'score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)print(score)

[0.76666667 0.80898876 0.7752809  0.76404494 0.8988764  0.76404494 0.83146067 0.82022472 0.75280899 0.79775281]

round(np.mean(score) * 100, 2)

79.8

2-3. Random Forest¶

#랜덤포레스트의 tree수를 지정해준다. 13개clf = RandomForestClassifier(n_estimators=13)scoring = 'accuracy'score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)print(score)

[0.8        0.83146067 0.82022472 0.79775281 0.86516854 0.80898876 0.80898876 0.82022472 0.76404494 0.79775281]

round(np.mean(score) * 100, 2)

81.15

2-4. Naive Bayes¶

clf = GaussianNB()scoring = 'accuracy'score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)print(score)

[0.85555556 0.73033708 0.75280899 0.75280899 0.70786517 0.80898876 0.76404494 0.80898876 0.86516854 0.83146067]

round(np.mean(score) * 100, 2)

78.78

2-5. SVM¶

clf = SVC()scoring = 'accuracy'score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)print(score)

[0.83333333 0.80898876 0.83146067 0.82022472 0.84269663 0.82022472 0.84269663 0.85393258 0.83146067 0.86516854]

round(np.mean(score) * 100, 2)

83.5

SVM이 가장 큰 score를 내었으니, SVM을 분류기로 채택하고 testing한다.¶

테스트 데이터에... NaN이 있다.. 처리해보자.¶

test.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 418 entries, 0 to 417Data columns (total 9 columns):PassengerId    418 non-null int64Pclass         418 non-null int64Sex            418 non-null int64Age            332 non-null float64Fare           418 non-null float64Cabin          418 non-null float64Embarked       418 non-null int64Title          417 non-null float64FamilySize     418 non-null float64dtypes: float64(5), int64(4)memory usage: 29.5 KB

test['Age'].fillna ( test.groupby('Pclass')['Age'].transform('median') , inplace = True )

test['Title'].fillna ( test['Title'].mean(), inplace=True)

test.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 418 entries, 0 to 417Data columns (total 9 columns):PassengerId    418 non-null int64Pclass         418 non-null int64Sex            418 non-null int64Age            418 non-null float64Fare           418 non-null float64Cabin          418 non-null float64Embarked       418 non-null int64Title          418 non-null float64FamilySize     418 non-null float64dtypes: float64(5), int64(4)memory usage: 29.5 KB

3. Testing¶

#SVM을 이용하여, train 데이터 학습시키기clf = SVC()clf.fit(train_data, target)# test데이터에서 PassengerId칼럼만 빼내기(필요없어서)test_data = test.drop('PassengerId', axis = 1).copy()# SVM을 이용하여 test데이터 예측하기prediction = clf.predict(test_data)

# prediction결과는 리스트로 test데이터 개수만큼 나온다.prediction

array([0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1,       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,       1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1,       1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,       1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,       0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,       0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,       1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1,       0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,       0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,       0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0,       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,       0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0,       1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0,       0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0,       1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1,       0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1],      dtype=int64)

4. prediction결과(단순리스트)를 df프레임 형태로 저장해보기¶

test데이터 원본에는 남아있던 PassengerId와 prediction을 딕셔너리로 만들어서 DataFrame에 담아준다
이 때, prediction은 0or1으로 나타나는 Survived이므로, Survived로 키값(칼럼명)으로 지정해준다.

submission = pd.DataFrame({    'PassengerId' : test['PassengerId'],    'Survived' : prediction})#저장할 때, index=False를 주면, 불러올 때 이쁘게 불러와진다.# 반대로 그냥 정해놓고, 불러올 때 ignore_index=True를 줘도 된다.submission.to_csv('submission.csv', index=False)

submission = pd.read_csv('submission.csv')submission.head()

참고¶

k_fold = KFold(n_splits=10, shuffle=True, random_state=0) 에서요 "shuffle = True"로 하면 어떤 의미인가요? 혹시 매번 CV할때마다 Shuffle한다는 의미일까요? CV의 가장 주된 목적이 모든 데이터를 validation set으로 써서 accuracy variation을 줄인것으로 생각하면 CV로 쪼갤때 마다 Shuffle은 좀 아닌거 같은데요 ㅎㅎ 찾아봐도 그 의미가 잘 안나와서요. kfold 없이 그냥 cv = 10인거 계속 돌려도 같은 값이 나오네요 ㅎㅎ shuffle의미가 저에게 어렵습니다 ㅎㅎㅎ

seongmin lee 안녕하세요, shuffle=True할 경우, k개로 데이터를 나누기 전에 단 한번 데이터를 뒤섞게 됩니다. 10개의 데이터가 생성된 후 라운드마다 인덱스 1부터 10까지 검증데이터로 사용하게 되어있어요. 셔플링은 k의 수에 상관없이

생존자 예측 모델을 여러개 테스트 해서 SVM이 제일 우수하다라는 것을 알게 되었습니다.SVM 모델을 어떻게 이용하면 prediction과 실제결과가 나오는 비교할 수있나요? prediction이 지금 array인데 이걸 DF타입으로 바꿔서 train의 survived를 새로운 열로 붙이면 되는 걸까요?

아래 링크 가셔서 최하단 부분의 코드를 활용하시면 될 거 같습니다.https://github.com/minsuk-heo/wikibooks_python_ml/blob/master/jupyter_notebook/svm_%EB%86%8D%EA%B5%AC%EC%84%A0%EC%88%98_%ED%8F%AC%EC%A7%80%EC%85%98_%EC%98%88%EC%B8%A1_%EC%8B%A4%EC%8A%B5.ipynb

갑자기 너무 많은 질문을 드려 죄송합니다만 ㅎㅎㅎ KFold를 하는 이유가 seed 설정때문에 하는거죠? 그냥 cross_val_score(cv = 10)으로 해도 되는데 이러면 매번 값이 바뀌기 때문이죠? 그래서 cv = KFold로 설정하는거죠? 여기서 질문드립니다. 제가 최적화된 n_neighbor 값을 KNN모델에서 찾으려고 루프를 돌렸는데요, 뭐가 잘못되었는지 for문에서는 Kfold가 iterable하지 않다고 하네요... 이럴때 gridSearch를 해야하는지요? 두개 코드를 다 돌려보면 좀 결과가 다른데 이유가 무엇인지 좀 알 수 있을까요?

[knn Parameter 찾기]neighbors = np.arange(1, 502, 5)

kfold = KFold(n_splits=5, random_state=123)¶

score_list = []cv_score_list = []for n in neighbors: knn = KNeighborsClassifier(n_neighbors=n) knn.fit(X_train, y_train) score = knn.score(X_train, y_train) cv_score = cross_val_score(estimator=knn, scoring= 'accuracy', cv=5, X=X_train, y=y_train) score_list.append(score) cv_score_list.append(cv_score.mean())

[Gridsearch해서 찾기]kfold = KFold(n_splits=5, random_state= 123)neighbors = np.arange(1, 502, 5)grid_param = {'n_neighbors':neighbors}

knn = KNeighborsClassifier()grid = GridSearchCV(estimator=knn, param_grid = grid_param, cv= kfold, scoring='accuracy')grid_result = grid.fit(X_train, y_train)print(grid_result.bestscore)print(grid_result.bestparams)

cross_val_score(cv = 10) 은 kfold의 k=10과 동일합니다. http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html제가 kfold 를 쓴 별다른 이유는 없지만, kfold를 더욱 비디오에서 명시적으로 보여드릴 수 있어서 사용했어요.두번째 질문은 sklearn가 내부적으로 어떻게 작용하는 지 알아야 대답할 수 있을 것 같은데, 제가 거기까진 잘 모르겠네요. 제가 아는바로는 둘 다 stratified k-fold cross-validation를 사용하는 걸로 알고 있는데, 차이 나는 이유는 잘 모르겠습니다.

0. 패키지 복사¶

#-*- coding: utf-8 -*-#블로그용 html조절# from IPython.core.display import display, HTML# display(HTML("<style> .container{width:90% !important;}</style>"))import pandas as pd #데이터 포인트 생성import numpy as np # 편한계산을 위한from sklearn.cluster import KMeans #사이킷런의 KMeans 패키지 사용import matplotlib.pyplot as plt #시각화import seaborn as sns # 시각화%matplotlib inline

1. create data points¶

# df 데이터없이 칼럼명만 생성하기df  = pd.DataFrame( columns = ['x', 'y'])df

#좌표(data points)들 입력df.loc[0] = [3,1]df.loc[1] = [4,1]df.loc[2] = [3,2]df.loc[3] = [4,2]df.loc[4] = [10,5]df.loc[5] = [10,6]df.loc[6] = [11,5]df.loc[7] = [11,6]df.loc[8] = [15,1]df.loc[9] = [15,2]df.loc[10] = [16,1]df.loc[11] = [16,2]

df.head(12)

2. 시각화¶

2-1 seaborn을 이용한 data points 시각화¶

2-2 matplotlib을 이용한 전체 타이틀 + x,y축 라벨명 지정¶

#시본의 lm chart 이용하여 좌표찍기#x축에 들어갈 df의 칼럼명, y축 칼럼명, dataFrame, line여부, 마커사이즈sns.lmplot('x', 'y', data = df, fit_reg=False, scatter_kws={'s':100})#맷플롯립을 이용한 플롯 네이밍#만약 xlabel과 ylabel의 이름 안주면, seaborn의 df.의 '칼럼명1', '칼럼명2' 가 들어감plt.title('k-mean plot')plt. xlabel('x-axis')plt. ylabel('y-axis')

Text(16.3,0.5,'y-axis')

3. k-mean clustering¶

# 계산을 하려면 df 전체 값을-> array로data_points = df.valuesdata_points

array([[3, 1],       [4, 1],       [3, 2],       [4, 2],       [10, 5],       [10, 6],       [11, 5],       [11, 6],       [15, 1],       [15, 2],       [16, 1],       [16, 2]], dtype=object)

# k-mean 돌리기,  KMeans( 클러스트수 = 3) . fit( 학습시킬 data points(좌표형태의 array))kmeans = KMeans(n_clusters=3).fit(data_points)

# 클러스트3개가 적용된 kmeans 속에,, 각 datapoints의 해당 클러스트보기kmeans.labels_

array([1, 1, 1, 1, 2, 2, 2, 2, 0, 0, 0, 0])

#해당 클러스트의 클러스트 중심(centeroid)보기kmeans.cluster_centers_

array([[15.5,  1.5],       [ 3.5,  1.5],       [10.5,  5.5]])

df['cluster_id'] = kmeans.labels_

df

# 4. 클러스터링까지 포함하는 df를 시각화하기#시본으로 시각화하는데, hue옵션을 주어, 특정칼럼에 따른 색 구분시키기sns.lmplot('x', 'y', data = df, fit_reg=False, scatter_kws={'s' : 100},          hue = 'cluster_id', # hue의 인자인 클러스트_id에 따라 찍히는 점의 색이 달라진다.          )# 맷플롯립은 라벨링만 해주기plt.title('after  kmean clustering')plt.xlabel('x - axis')plt.ylabel('y - axis ')

Text(26.7781,0.5,'y - axis ')

14. 다중 분류 모델의 성능측정 - Performance Measure( ACU, F1 score) (7)	2018.08.21
13. 혼동행렬(Confusion Matrix) / 실습 (0)	2018.08.21
11. 머신러닝 알고리즘 - Norm( L1, L2) - : 벡터의 크기 or 길이 측정 / 실습 (0)	2018.08.19
10. 오버피팅 및 언터피팅 이해 및 극복하기(bias, variance를 통한 Regularization(lr) / Early Stop / Dropout) (8)	2018.08.17
9. 머신러닝 : 오버피팅 (0)	2018.08.17

13. 혼동행렬(Confusion Matrix) / 실습 (0)	2018.08.21
12. 머신러닝 알고리즘 : 차원축소 - PCA 알고리즘 / 실습 (1)	2018.08.19
10. 오버피팅 및 언터피팅 이해 및 극복하기(bias, variance를 통한 Regularization(lr) / Early Stop / Dropout) (8)	2018.08.17
9. 머신러닝 : 오버피팅 (0)	2018.08.17
8. 머신러닝 Classifier 실습 (2)	2018.08.15

12. 머신러닝 알고리즘 : 차원축소 - PCA 알고리즘 / 실습 (1)	2018.08.19
11. 머신러닝 알고리즘 - Norm( L1, L2) - : 벡터의 크기 or 길이 측정 / 실습 (0)	2018.08.19
9. 머신러닝 : 오버피팅 (0)	2018.08.17
8. 머신러닝 Classifier 실습 (2)	2018.08.15
7. 머신러닝 알고리즘 : 어떤 머신러닝 classifier를 써야할까? validation은 어떻게 할까? (1)	2018.08.14

11. 머신러닝 알고리즘 - Norm( L1, L2) - : 벡터의 크기 or 길이 측정 / 실습 (0)	2018.08.19
10. 오버피팅 및 언터피팅 이해 및 극복하기(bias, variance를 통한 Regularization(lr) / Early Stop / Dropout) (8)	2018.08.17
8. 머신러닝 Classifier 실습 (2)	2018.08.15
7. 머신러닝 알고리즘 : 어떤 머신러닝 classifier를 써야할까? validation은 어떻게 할까? (1)	2018.08.14
6. Unsupervised 러닝 : K-mean 알고리즘 (클러스터링 알고리즘) 및 실습 (2)	2018.08.10

10. 오버피팅 및 언터피팅 이해 및 극복하기(bias, variance를 통한 Regularization(lr) / Early Stop / Dropout) (8)	2018.08.17
9. 머신러닝 : 오버피팅 (0)	2018.08.17
7. 머신러닝 알고리즘 : 어떤 머신러닝 classifier를 써야할까? validation은 어떻게 할까? (1)	2018.08.14
6. Unsupervised 러닝 : K-mean 알고리즘 (클러스터링 알고리즘) 및 실습 (2)	2018.08.10
5. 머신러닝 알고리즘 : 선형회귀(linear regression) (2)	2018.08.09

	calory	breakfast	lunch	dinner	exercise	body_shape
0	1200	1	0	0	2	Skinny
1	2800	1	1	1	1	Normal
2	3500	2	2	1	0	Fat
3	1400	0	1	0	3	Skinny
4	5000	2	2	2	0	Fat
5	1300	0	0	1	2	Skinny
6	3000	1	0	1	1	Normal
7	4000	2	2	2	0	Fat
8	2600	0	2	0	0	Normal
9	3000	1	2	1	1	Fat

	PC1	label
0	-2.226009	Skinny
1	-0.018143	Normal
2	1.762966	Fat
3	-2.735424	Skinny
4	3.027115	Fat
5	-2.147026	Skinny
6	-0.371425	Normal
7	2.592399	Fat
8	-0.393478	Normal
9	0.509025	Fat

	Pclass	Sex	Age	Fare	Cabin	Embarked	Title	FamilySize
0	3	0	1.0	0.0	2.0	0	0	0.4
1	1	1	3.0	2.0	0.8	1	2	0.4
2	3	1	1.0	0.0	2.0	0	1	0.0
3	1	1	2.0	2.0	0.8	0	2	0.4
4	3	0	2.0	0.0	2.0	0	0	0.0

	move_1	move_2	move_3
0	-3	-3	1
1	1	2	2
2	-3	1	0

	PassengerId	Survived
0	892	0
1	893	1
2	894	0
3	895	0
4	896	1

	x	y	cluster_id
0	3	1	1
1	4	1	1
2	3	2	1
3	4	2	1
4	10	5	2
5	10	6	2
6	11	5	2
7	11	6	2
8	15	1	0
9	15	2	0
10	16	1	0
11	16	2	0

	Pclass	Sex	Age	Fare	Cabin	Embarked	Title	FamilySize
0	3	0	1.0	0.0	2.0	0	0	0.4
1	1	1	3.0	2.0	0.8	1	2	0.4
2	3	1	1.0	0.0	2.0	0	1	0.0
3	1	1	2.0	2.0	0.8	0	2	0.4
4	3	0	2.0	0.0	2.0	0	0	0.0

Menu

Category

Notice

Recent comments

Links

분류 전체보기

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

PCA : Principal Component Analysis (주 성분 분석)

PCA의 원리

머신러닝에서 수학적으로 구하는 PC

실습

1. 데이터 만들기, 식습관들(feature)에 따른 ---> 체형(label)¶

1-1. feature와 label 나누기¶

1-2. 수치가 굉장히 높은 calory칼럼때문에, 전체데이터를 Rescaling해주기¶

2. feature들의 Covariance Matrix 만들기¶

2-1. feature들을 칼럼방향이 아닌 row방향으로 변환시킨다.¶

2-2. 각 feature들이 row방향으로 향해있다면, np.cov를 이용해 covariance matrix를 만들 수 있다.¶

3. c_matrix를 이용해 EigenValue의 최대값인 EigenVector(PC) 구하기¶

3-1. eig_vals의 최대값을 눈으로 확인후 가져오고, 전체 중 비율을 구한다.¶

1개의 eigen_vector사용으로 5->1차원 축소시 73% 정보유실이 없는채로 축소할 것이다.¶

3-2. 해당 eigen_vector를 이용해, 칼럼방향별 feature 데이터를 projection시킨다.¶

3-3. PCA로 프로젝션된 각 데이터들을 df로 만들자.¶

4. 이제 5차원--> PC(eigen_vector)로 프로젝션--> 1차원 된 데이터들을 시각화¶

5. 사이킷런 PCA 모듈로 한방에 표시하기¶

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

Norm

실습

L1 Norm : 주사위 게임으로 이해하기¶

1. 데이터 프레임 만들기¶

2. 누가 가장 많이 걸었을까?¶

2-1. 계산을 위해 df를 array로 만든다.¶

2-2. norm은 numpy의 linearalgebra 모듈안에 있다.¶

3. L1 norm(절대값 취해서 다 더하는 것)은 Computer Science에서는 어디서 사용할까?¶

L2 Norm¶

1. 각 데이터 포인트의 거리를 측정하기 위해 df를 만들자.¶

2. df로 만든 x, y 좌표쌍을 시각화하자¶

2-1. 벡터의 크기를 구하는 피타고라스 같은 L2 norm이므로.. 차트를 그려놓고 보자¶

3. (0,0)에서 가장 가까운 점을 찾기위해 L2 Norm을 사용해보자.¶

3-1. 어떠한 계산을 위해서는 df->values로 array로 풀어주자¶

L2 norm은 어디서 사용할까?¶

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

Bias 와 Variance

그래프로 보자.

bias와 variance를 활용하여 언더피팅, 오버피팅 극복하기

오버피팅 방지 1 : Validation set으로 k-fold cross validation하면서 / train방법을 learing_rate를 높혀 Regularization

cost function in Regression문제(MSE) 의 변형으로 variance를 낮출 수 있다.

오버피팅 방지 2 : Early stopping in Deep learning

오버피팅 방지3 : Dropout

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

오버피팅이란?

Key conceps 살펴보기

그래프로 보기

Overfitting을 방지하는 방법

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

# 캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

1. Modeling¶

1.1 사이킷런(sklearn)에 있는 Classifier import하기¶

1.2 사이킷런에 있는 K-fold Cross validation import하기¶

2. Classifier로 분류하기¶

2-1. kNN Classifier¶

2-2. Decision Tree¶

2-3. Random Forest¶

2-4. Naive Bayes¶

2-5. SVM¶

SVM이 가장 큰 score를 내었으니, SVM을 분류기로 채택하고 testing한다.¶

테스트 데이터에... NaN이 있다.. 처리해보자.¶

3. Testing¶

4. prediction결과(단순리스트)를 df프레임 형태로 저장해보기¶

참고¶

kfold = KFold(n_splits=5, random_state=123)¶

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

kNN( k - Nearest Neighborhood) 분류기

Decision Tree 분류기

Random Forest

나이브 베이즈(Naive Bayes)

SVM(Support Vector Machine)

판단요소 * (관련요소1/판단요소) * (관련요소1/판단요소) * ... * (관련요소n /판단요소)
------------------------------------------------------------------------------------------------
관련요소1 * 관련요소2 * ... * 관련요소n

	Pclass	Sex	Age	Fare	Cabin	Embarked	Title	FamilySize
0	3	0	1.0	0.0	2.0	0	0	0.4
1	1	1	3.0	2.0	0.8	1	2	0.4
2	3	1	1.0	0.0	2.0	0	1	0.0
3	1	1	2.0	2.0	0.8	0	2	0.4
4	3	0	2.0	0.0	2.0	0	0	0.0