2. 유방암 (남/녀) 예측 문제 풀어보기
2018. 12. 26. 19:21
필요 패키지
- cython : c계열의 라이브러리 사용 / c방식으로 파이썬 코딩 가능
- https://anaconda.org/anaconda/cython
-conda install -c anaconda cython
- numpy : 수치 처리 / matrix 계산 가능
- pandas : 데이터 과학에 필수적인 dataframe 등을 사용 / csv, 텍스트 파일 등을 사용한다.
- keras : 딥러닝 라이브러리, 프론트 엔드를 담당
- sklearn : 사이킷런, 파이썬이 기본적으로 제공하는 머신러닝 라이브러리
- tensorflow : 딥러닝 백엔드
Sequential과 Dense
Sequential은 선형으로 설명가능한 모델일 경우 사용할 수 있다. 즉, 어떤 선을 기준으로 구분할 수 있을 때이다.
선형 회귀분석용 / 분류용 가설 모델들은 대부분 Sequential을 사용한다.
예를 들어, 암이다 / 암이 아니다.
마이너스 방향으로도 선형으로 설명가능한 모델일 경우, Sequential을 쓰면 된다.
Dense는 입력층과 출력층을 모두 연결하는 Layer이다. 그래서 은닉층으로 많이 사용된다.
그외 라이브러리들
- sklearn의 cross_validation 클래스 안에 있는 train_test_split
예를 들어, 100개의 문제가 있는데, 이것을 trainset과 validationset 그리고 testset으로 구분지어야하는 상황이다.
이 때, 검증셋과 시험셋에 대해서 시험셋에 예측하기 쉬운 것만 들어가서 100점을 맞을 수 있고,
검증셋에 모르는 것만 들어가서, 학습자체가 제대로 안될 수 있다.
이 때 생각해낸 것이 여러번 교차적으로 짤라내서 정밀도를 높이는 방법이 교차검증이다. - IPython.display 클래스의 clear_output
콘솔에 출력할 때, 기존의 내용들을 지운 다음 다시 출력해주는 클래스이다. - sklearn.metrics 클래스의 confusion_matrix
주로 이진분류에서 사용되는 혼동행렬은, 원래 데이터와 예측값을 출력해주는 오류의 갯수를 나타내는 이진분류 결과표로서
아래와 같이 생각하면 된다.
원래1 원래2 원래3
원래1 원래1 예측1 표본수 원래1 예측2인 표본의 수 원래1 예측3인 표본의 수 -> a/a+b+c : 민감도
원래2 원래2 예측1 표본수 원래2 예측2인 표본의 수 원래2 예측3인 표본의 수
원래3 원래3 예측1 표본수 원래3 예측2인 표본의 수 원래3 예측3인 표본의 수
d/ d+e+f = precision
Spyder로 작성한 py 파일
'머신러닝 & 딥러닝 > 케라스 실습' 카테고리의 다른 글
3. 은행 데이터를 가지고 이탈고객(Exited) / 인디안 당뇨병 예측하기 (1) | 2018.12.26 |
---|---|
1. Spyder와 딥러닝 기본 모델 사용하기 (0) | 2018.12.26 |