2. 전처리시 체크2가지 및 EDA시 변수의 성격에 따른 분류
전처리시 체크사항
- 중복확인 : duplicated(df)로 T/F 마스크를 만들어서, 인덱싱자리에 넣는다. => dpylr 라이브러리 사용
- 이상치 확인 : 이상치로 평균값이 튄다.
ex> 오타, 응급상황 후 어설프게 입력
EDA의 방법 2가지
데이터 형태에 따른 2가지 EDA
범주형(문자형)
: 기초통계시 frequency(빈도)가 나옴1)
2개 범주
: 남/녀, 성공/실패와 같은binary / binomial / dichotomous
2)3개이상 범주
:명목형(Nomial)=순서없는 범주
/순서형(Ordinal) = 순서있는 범주
숫자형
: 기초 통계시 계산에 의해 평균,최소,최대,4분위수
cf) %/% : 정수나누기 , %% : 나머지, ^ ** : 승수
1)연속형
: 키, 온도 등소수점 표현이 되는 수
로서 통계기법 多
2)이산형
: 건수, 개수, 등 측정이 아닌count수
변수 개수에 따른 3가지 EDA
1)단 변수
분석 :숫자형 단변수
EDA시Missing rate
,variation 등 확인 => Box plot(분포-통계확인) or hist(정규분포확인)
하는 용도
ex> is.na(age), sum(is.na(age)),mean(is.na(age))
,new_age <- c(na.omit(age)) or na.rm = T
ex> summary(height), quantile(height, na.rm=T), IQR(height, na.rm=T), var(height, na.rm=T), sd()
cf) 2Q = median = 50% , 3Q - 1Q = IQR -> 가운데 50%가 퍼진 정도
cf) Boxplot해석 순서 :median(50%)
를 기준으로 3Q, 1Q ->3Q + 1.5IQR = Upper fence
/1Q-1.5IQR = Lower fence
->이상치들 보기
cf) histgram : 구간을 쪼갠뒤 -> 카테고리를만들고 -> 그안에 몇개가 있는지 빈도확인 ( no space bar plot )
cf) 아웃라이어는 평균을 튀게 만드나, 새로운 발견이 필요한 경우 포함시킨다.범주형 단변수
EDA시빈도
or새로운카테고리 확인->상대빈도
파악후 => 범주별 빈도를 기본으로 그리는Bar chart
=> Bar chart에 누적된 line까지 그려주는파레토 차트
cf) 범주가 지나치게 많은 경우 => 기타 카테고리로 묶는다.
2)
이 변수
분석 :범주형 이변수
:교차표
를 위함 =>카이제곱검정
으로 2개 이상의 범주형 변수 연관관계 파악 => bar chart with 범주숫자형 이변수
:산점도(scatter plot)
=>상관관계correlation
확인
cf)상관관계
는 선형성에 의한 척도이므로 0.7은 없다. 선의 기울기가 30도라도+1
이다. -30도라도-1
이다. 혹은0
으로 선형성이 없다
cf)상관계수
는 분포에 대한 것으로 심리분야 0.3이상, 보통 0.7이상이 strong으로 판단, but 그래프 + 수치를 같이 제시해야한다.
3).
다 변수
분석 : 키 + 몸무게 + 혈액형
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
2-2 R markdown ggplot2 ( plotly 올릴시 에러 ) (0) | 2019.02.01 |
---|---|
2. R markdown( 변수별 EDA 및 abline 2가지 사용) (0) | 2019.02.01 |
1. R markdown(데이터경로, 불러오기, 5가지확인, summarizeColumns, mytable, mycsv) (0) | 2019.01.25 |
1. 통계 - 기술통계와 추론통계 , 표본추출방법들 (0) | 2019.01.19 |
R 검정 방법에 대한 나의 정리 (0) | 2019.01.03 |