전처리시 체크사항

  1. 중복확인 : duplicated(df)로 T/F 마스크를 만들어서, 인덱싱자리에 넣는다. => dpylr 라이브러리 사용
  2. 이상치 확인 : 이상치로 평균값이 튄다.
    ex> 오타, 응급상황 후 어설프게 입력

EDA의 방법 2가지

  1. 데이터 형태에 따른 2가지 EDA

    • 범주형(문자형) : 기초통계시 frequency(빈도)가 나옴

      1) 2개 범주 : 남/녀, 성공/실패와 같은 binary / binomial / dichotomous
      2) 3개이상 범주 : 명목형(Nomial)=순서없는 범주 / 순서형(Ordinal) = 순서있는 범주

    • 숫자형 : 기초 통계시 계산에 의해 평균,최소,최대,4분위수
      cf) %/% : 정수나누기 , %% : 나머지, ^ ** : 승수
      1) 연속형 : 키, 온도 등 소수점 표현이 되는 수로서 통계기법 多
      2) 이산형 : 건수, 개수, 등 측정이 아닌 count수

  2. 변수 개수에 따른 3가지 EDA
    1) 단 변수분석 :

    • 숫자형 단변수 EDA Missing rate, variation 등 확인 => Box plot(분포-통계확인) or hist(정규분포확인)하는 용도
      ex> is.na(age), sum(is.na(age)), mean(is.na(age)), new_age <- c(na.omit(age)) or na.rm = T
      ex> summary(height), quantile(height, na.rm=T), IQR(height, na.rm=T), var(height, na.rm=T), sd()
      cf) 2Q = median = 50% , 3Q - 1Q = IQR -> 가운데 50%가 퍼진 정도
      cf) Boxplot해석 순서 : median(50%)를 기준으로 3Q, 1Q -> 3Q + 1.5IQR = Upper fence / 1Q-1.5IQR = Lower fence -> 이상치들 보기
      cf) histgram : 구간을 쪼갠뒤 -> 카테고리를만들고 -> 그안에 몇개가 있는지 빈도확인 ( no space bar plot )
      cf) 아웃라이어는 평균을 튀게 만드나, 새로운 발견이 필요한 경우 포함시킨다.

    • 범주형 단변수 EDA빈도 or 새로운카테고리 확인->상대빈도 파악후 => 범주별 빈도를 기본으로 그리는 Bar chart => Bar chart에 누적된 line까지 그려주는 파레토 차트
      cf) 범주가 지나치게 많은 경우 => 기타 카테고리로 묶는다.

    2) 이 변수분석 :

    • 범주형 이변수 : 교차표를 위함 => 카이제곱검정으로 2개 이상의 범주형 변수 연관관계 파악 => bar chart with 범주
    • 숫자형 이변수 : 산점도(scatter plot) => 상관관계correlation확인
      cf) 상관관계선형성에 의한 척도이므로 0.7은 없다. 선의 기울기가 30도라도 +1이다. -30도라도 -1이다. 혹은 0으로 선형성이 없다
      cf) 상관계수분포에 대한 것으로 심리분야 0.3이상, 보통 0.7이상이 strong으로 판단, but 그래프 + 수치를 같이 제시해야한다.

    3). 다 변수분석 : 키 + 몸무게 + 혈액형


+ Recent posts