필요 패키지

깃허브 2. 유방암 남/녀 예측

  1. cython : c계열의 라이브러리 사용 / c방식으로 파이썬 코딩 가능
    - https://anaconda.org/anaconda/cython
    - conda install -c anaconda cython
  2. numpy : 수치 처리 / matrix 계산 가능
  3. pandas : 데이터 과학에 필수적인 dataframe 등을 사용 / csv, 텍스트 파일 등을 사용한다.
  4. keras : 딥러닝 라이브러리, 프론트 엔드를 담당
  5. sklearn : 사이킷런, 파이썬이 기본적으로 제공하는 머신러닝 라이브러리
  6. tensorflow : 딥러닝 백엔드

Sequential과 Dense

Sequential은 선형으로 설명가능한 모델일 경우 사용할 수 있다. 즉, 어떤 선을 기준으로 구분할 수 있을 때이다.
선형 회귀분석용 / 분류용 가설 모델들은 대부분 Sequential을 사용한다.
예를 들어, 암이다 / 암이 아니다.
마이너스 방향으로도 선형으로 설명가능한 모델일 경우, Sequential을 쓰면 된다.

image

Dense는 입력층과 출력층을 모두 연결하는 Layer이다. 그래서 은닉층으로 많이 사용된다.


그외 라이브러리들

  1. sklearn의 cross_validation 클래스 안에 있는 train_test_split
    예를 들어, 100개의 문제가 있는데, 이것을 trainset과 validationset 그리고 testset으로 구분지어야하는 상황이다.
    image
    이 때, 검증셋과 시험셋에 대해서 시험셋에 예측하기 쉬운 것만 들어가서 100점을 맞을 수 있고,
    검증셋에 모르는 것만 들어가서, 학습자체가 제대로 안될 수 있다.
    이 때 생각해낸 것이 여러번 교차적으로 짤라내서 정밀도를 높이는 방법이 교차검증이다.
    image

  2. IPython.display 클래스의  clear_output
    콘솔에 출력할 때, 기존의 내용들을 지운 다음 다시 출력해주는 클래스이다.

  3. sklearn.metrics 클래스의 confusion_matrix
    주로 이진분류에서 사용되는 혼동행렬은, 원래 데이터와 예측값을 출력해주는 오류의 갯수를 나타내는 이진분류 결과표로서
    아래와 같이 생각하면 된다.

                      원래1                               원래2                             원래3
    원래1     원래1 예측1 표본수     원래1 예측2인 표본의 수     원래1 예측3인 표본의 수  -> a/a+b+c : 민감도
    원래2     원래2 예측1 표본수     원래2 예측2인 표본의 수    원래2 예측3인 표본의 수
    원래3     원래3 예측1 표본수     원래3 예측2인 표본의 수    원래3 예측3인 표본의 수
                   d/ d+e+f  = precision

Spyder로 작성한 py 파일

깃허브 2. 유방암 남/녀 예측

+ Recent posts