2. 유방암 (남/녀) 예측 문제 풀어보기

2018. 12. 26. 19:21

필요 패키지

cython : c계열의 라이브러리 사용 / c방식으로 파이썬 코딩 가능
- https://anaconda.org/anaconda/cython
- conda install -c anaconda cython
numpy : 수치 처리 / matrix 계산 가능
pandas : 데이터 과학에 필수적인 dataframe 등을 사용 / csv, 텍스트 파일 등을 사용한다.
keras : 딥러닝 라이브러리, 프론트 엔드를 담당
sklearn : 사이킷런, 파이썬이 기본적으로 제공하는 머신러닝 라이브러리
tensorflow : 딥러닝 백엔드

Sequential과 Dense

Sequential은 선형으로 설명가능한 모델일 경우 사용할 수 있다. 즉, 어떤 선을 기준으로 구분할 수 있을 때이다.
선형 회귀분석용 / 분류용 가설 모델들은 대부분 Sequential을 사용한다.
예를 들어, 암이다 / 암이 아니다.
마이너스 방향으로도 선형으로 설명가능한 모델일 경우, Sequential을 쓰면 된다.

Dense는 입력층과 출력층을 모두 연결하는 Layer이다. 그래서 은닉층으로 많이 사용된다.

그외 라이브러리들

sklearn의 cross_validation 클래스 안에 있는 train_test_split
예를 들어, 100개의 문제가 있는데, 이것을 trainset과 validationset 그리고 testset으로 구분지어야하는 상황이다.

이 때, 검증셋과 시험셋에 대해서 시험셋에 예측하기 쉬운 것만 들어가서 100점을 맞을 수 있고,
검증셋에 모르는 것만 들어가서, 학습자체가 제대로 안될 수 있다.
이 때 생각해낸 것이 여러번 교차적으로 짤라내서 정밀도를 높이는 방법이 교차검증이다.
IPython.display 클래스의 clear_output
콘솔에 출력할 때, 기존의 내용들을 지운 다음 다시 출력해주는 클래스이다.
sklearn.metrics 클래스의 confusion_matrix
주로 이진분류에서 사용되는 혼동행렬은, 원래 데이터와 예측값을 출력해주는 오류의 갯수를 나타내는 이진분류 결과표로서
아래와 같이 생각하면 된다.

                  원래1                               원래2                             원래3
원래1     원래1 예측1 표본수     원래1 예측2인 표본의 수     원래1 예측3인 표본의 수 -> a/a+b+c : 민감도
원래2     원래2 예측1 표본수     원래2 예측2인 표본의 수    원래2 예측3인 표본의 수
원래3     원래3 예측1 표본수     원래3 예측2인 표본의 수    원래3 예측3인 표본의 수
               d/ d+e+f = precision

Spyder로 작성한 py 파일

깃허브 2. 유방암 남/녀 예측

'머신러닝 & 딥러닝 > 케라스 실습' 카테고리의 다른 글

3. 은행 데이터를 가지고 이탈고객(Exited) / 인디안 당뇨병 예측하기 (1)	2018.12.26
1. Spyder와 딥러닝 기본 모델 사용하기 (0)	2018.12.26

우아 한의원 | 조재성 원장의 한의학, 의학통계, 프로그래밍

Menu

Category

Notice

Recent comments

Links