from IPython.core.display import display, HTMLdisplay(HTML("<style> .container{width:90% !important;}</style>"))

import pandas as pd

1. 데이터 만들기, 식습관들(feature)에 따른 ---> 체형(label)¶

df = pd.DataFrame(columns=['calory', 'breakfast', 'lunch', 'dinner', 'exercise', 'body_shape'])

df.loc[0] = [1200, 1, 0, 0, 2, 'Skinny']df.loc[1] = [2800, 1, 1, 1, 1, 'Normal']df.loc[2] = [3500, 2, 2, 1, 0, 'Fat']df.loc[3] = [1400, 0, 1, 0, 3, 'Skinny']df.loc[4] = [5000, 2, 2, 2, 0, 'Fat']df.loc[5] = [1300, 0, 0, 1, 2, 'Skinny']df.loc[6] = [3000, 1, 0, 1, 1, 'Normal']df.loc[7] = [4000, 2, 2, 2, 0, 'Fat']df.loc[8] = [2600, 0, 2, 0, 0, 'Normal']df.loc[9] = [3000, 1, 2, 1, 1, 'Fat']

df

1-1. feature와 label 나누기¶

X = df[['calory', 'breakfast', 'lunch', 'dinner', 'exercise']]X

Y = df[['body_shape']]Y

1-2. 수치가 굉장히 높은 calory칼럼때문에, 전체데이터를 Rescaling해주기¶

사이킷런의 StrandardScaler를 이용하여, 각 feature가 같은범위내에 있도록 바꿔준다.
Normalization을 사용해도된다

from sklearn.preprocessing import StandardScalerx_std = StandardScaler().fit_transform(X)

x_std

array([[-1.35205803,  0.        , -1.3764944 , -1.28571429,  1.        ],       [ 0.01711466,  0.        , -0.22941573,  0.14285714,  0.        ],       [ 0.61612771,  1.29099445,  0.91766294,  0.14285714, -1.        ],       [-1.18091145, -1.29099445, -0.22941573, -1.28571429,  2.        ],       [ 1.89972711,  1.29099445,  0.91766294,  1.57142857, -1.        ],       [-1.26648474, -1.29099445, -1.3764944 ,  0.14285714,  1.        ],       [ 0.18826125,  0.        , -1.3764944 ,  0.14285714,  0.        ],       [ 1.04399418,  1.29099445,  0.91766294,  1.57142857, -1.        ],       [-0.15403193, -1.29099445,  0.91766294, -1.28571429, -1.        ],       [ 0.18826125,  0.        ,  0.91766294,  0.14285714,  0.        ]])

2. feature들의 Covariance Matrix 만들기¶

각 칼럼별로 존재하는 feature들을 row순으로 변형시키는 과정이 필요하다. 그래야 covariance Matrix를 만들 수 있음

import numpy as np

2-1. feature들을 칼럼방향이 아닌 row방향으로 변환시킨다.¶

features = x_std.T

2-2. 각 feature들이 row방향으로 향해있다면, np.cov를 이용해 covariance matrix를 만들 수 있다.¶

covariance_matrix = np.cov(features)print(covariance_matrix)

[[ 1.11111111  0.88379717  0.76782385  0.89376551 -0.93179808] [ 0.88379717  1.11111111  0.49362406  0.81967902 -0.71721914] [ 0.76782385  0.49362406  1.11111111  0.40056715 -0.76471911] [ 0.89376551  0.81967902  0.40056715  1.11111111 -0.63492063] [-0.93179808 -0.71721914 -0.76471911 -0.63492063  1.11111111]]

3. c_matrix를 이용해 EigenValue의 최대값인 EigenVector(PC) 구하기¶

이 과정에서는 np.linalg.eig()이 사용된다. 이 때 eigen_value와 eigen_vector 리스트를 반환해준다.
feature가 5개인 5차원이므로, eigen_vector도 5개가 나온다.

eig_vals, eig_vecs = np.linalg.eig(covariance_matrix)

eig_vals

array([4.0657343 , 0.8387565 , 0.07629538, 0.27758568, 0.2971837 ])

eig_vecs

array([[ 0.508005  ,  0.0169937 , -0.84711404,  0.11637853,  0.10244985],       [ 0.44660335,  0.36890361,  0.12808055, -0.63112016, -0.49973822],       [ 0.38377913, -0.70804084,  0.20681005, -0.40305226,  0.38232213],       [ 0.42845209,  0.53194699,  0.3694462 ,  0.22228235,  0.58954327],       [-0.46002038,  0.2816592 , -0.29450345, -0.61341895,  0.49601841]])

3-1. eig_vals의 최대값을 눈으로 확인후 가져오고, 전체 중 비율을 구한다.¶

만약 하나의 eig_vecs만 사용한다면, 5->1차원으로 줄이면서
전체 중 비율값이 = 전체정보 중 그만큼의 정보를 유실없이 가진다는 뜻이다.

eig_vals[0]  /  sum(eig_vals)

0.7318321731427544

1개의 eigen_vector사용으로 5->1차원 축소시 73% 정보유실이 없는채로 축소할 것이다.¶

3-2. 해당 eigen_vector를 이용해, 칼럼방향별 feature 데이터를 projection시킨다.¶

projection이란 eigen_vector 직선위에 모든 데이터를 올려놓겠다는 의미이다.(그림생각)

# 칼럼방향의 feautre array를 dot연산을 통해 아이겐벡터 최대값(eig_vecs[0])에 projection시킨다.# 이  때, eig_vecs는 row방향별 feature로 생성한 것이므로, T로 뒤집어준다.projected_X = x_std.dot(eig_vecs.T[0])

projected_X

array([-2.22600943, -0.0181432 ,  1.76296611, -2.73542407,  3.02711544,       -2.14702579, -0.37142473,  2.59239883, -0.39347815,  0.50902498])

3-3. PCA로 프로젝션된 각 데이터들을 df로 만들자.¶

result  =  pd.DataFrame(projected_X , columns=['PC1'])result['y-axis'] = 0.0result['label'] = Y

result

4. 이제 5차원--> PC(eigen_vector)로 프로젝션--> 1차원 된 데이터들을 시각화¶

import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

sns.lmplot('PC1', 'y-axis', data=result, fit_reg=False,  # x-axis, y-axis, data, no line           scatter_kws={"s": 50}, # marker size           hue="label") # color# titleplt.title('PCA result')

Text(0.5,1,'PCA result')

5. 사이킷런 PCA 모듈로 한방에 표시하기¶

from sklearn import decompositionpca = decomposition.PCA(n_components=1)sklearn_pca_x = pca.fit_transform(x_std)

sklearn_result = pd.DataFrame(sklearn_pca_x, columns=['PC1'])sklearn_result['y-axis'] = 0.0sklearn_result['label'] = Ysns.lmplot('PC1', 'y-axis', data=sklearn_result, fit_reg=False,  # x-axis, y-axis, data, no line           scatter_kws={"s": 50}, # marker size           hue="label") # color

<seaborn.axisgrid.FacetGrid at 0x26516c89ef0>

14. 다중 분류 모델의 성능측정 - Performance Measure( ACU, F1 score) (7)	2018.08.21
13. 혼동행렬(Confusion Matrix) / 실습 (0)	2018.08.21
11. 머신러닝 알고리즘 - Norm( L1, L2) - : 벡터의 크기 or 길이 측정 / 실습 (0)	2018.08.19
10. 오버피팅 및 언터피팅 이해 및 극복하기(bias, variance를 통한 Regularization(lr) / Early Stop / Dropout) (8)	2018.08.17
9. 머신러닝 : 오버피팅 (0)	2018.08.17

우아 한의원 | 조재성 원장의 한의학, 의학통계, 프로그래밍

Menu

Category

Notice

Recent comments

Links

12. 머신러닝 알고리즘 : 차원축소 - PCA 알고리즘 / 실습

캡쳐 사진 및 글작성에 대한 도움 출저 : 유튜브 - 허민석님

PCA : Principal Component Analysis (주 성분 분석)

PCA의 원리

머신러닝에서 수학적으로 구하는 PC

실습

1. 데이터 만들기, 식습관들(feature)에 따른 ---> 체형(label)¶

1-1. feature와 label 나누기¶

1-2. 수치가 굉장히 높은 calory칼럼때문에, 전체데이터를 Rescaling해주기¶

2. feature들의 Covariance Matrix 만들기¶

2-1. feature들을 칼럼방향이 아닌 row방향으로 변환시킨다.¶

2-2. 각 feature들이 row방향으로 향해있다면, np.cov를 이용해 covariance matrix를 만들 수 있다.¶

3. c_matrix를 이용해 EigenValue의 최대값인 EigenVector(PC) 구하기¶

3-1. eig_vals의 최대값을 눈으로 확인후 가져오고, 전체 중 비율을 구한다.¶

1개의 eigen_vector사용으로 5->1차원 축소시 73% 정보유실이 없는채로 축소할 것이다.¶

3-2. 해당 eigen_vector를 이용해, 칼럼방향별 feature 데이터를 projection시킨다.¶

3-3. PCA로 프로젝션된 각 데이터들을 df로 만들자.¶

4. 이제 5차원--> PC(eigen_vector)로 프로젝션--> 1차원 된 데이터들을 시각화¶

5. 사이킷런 PCA 모듈로 한방에 표시하기¶

'머신러닝 & 딥러닝 > 머신러닝 기초' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	calory	breakfast	lunch	dinner	exercise	body_shape
0	1200	1	0	0	2	Skinny
1	2800	1	1	1	1	Normal
2	3500	2	2	1	0	Fat
3	1400	0	1	0	3	Skinny
4	5000	2	2	2	0	Fat
5	1300	0	0	1	2	Skinny
6	3000	1	0	1	1	Normal
7	4000	2	2	2	0	Fat
8	2600	0	2	0	0	Normal
9	3000	1	2	1	1	Fat

	PC1	label
0	-2.226009	Skinny
1	-0.018143	Normal
2	1.762966	Fat
3	-2.735424	Skinny
4	3.027115	Fat
5	-2.147026	Skinny
6	-0.371425	Normal
7	2.592399	Fat
8	-0.393478	Normal
9	0.509025	Fat