5-5. 회귀분석(이상치, 가정사항 확인하기)
회귀분석 이전에 이상치 + 잔차를 통한 가정사항을 확인해야한다.
회귀모델의 이상치 확인
이상치 확인1 - outlierTest()
개별적으로 검사하는 것이 아니라 회귀모델 자체를 넣어주면outlierTest( 모델 )함수로 확인할 수 있다.잔차가 2배이상으로 크거나 2배이하로 작은 값을 이상치로 detect한다
결과에서, 해당변수의 P-value가 0.05이하로 나오면이상치라 판단하고, 제거한 모델을 만들고 다시 회귀분석한다. ( H0는 이상치가 아니다 인가보다)x축 = 지레점(Leverage) => 높으면
지렛점
y축 = 표준 잔차 => 높으면이상치
점선 => i번째 변수가 빠진상태에서, 회귀계수에 얼마나 큰 영향을 주는지에 대한영향점영향관측치)이상치확인2 - influencePlot()
x축이 크면 지레점
y축이 크면 이상치
원의크기가 크면 Cook's Distance에 대한 비율로서 정해지는 영향점
잔차진단을 통한 가정사항 확인
잔차 = 관측치(Y, observed) - 추정치(estimated)
제대로 된 모델에서 나온 잔차는
- 정규분포를 따르고
- 분산이 일정하고
- 특별판 추세(패턴)이 없어야한다.
=> 잔차에 추세(패턴)을 보인다면, 회귀모형에 포함되어야할 정보가 빠졌다는 것이다.
회귀분석의 이론적 배경
회귀모형( Y = b0 + b1X + e)의 가정
- X는 비확률변수이며, 주어진 어떤 값
- e는 서로 독립이며, 정규분포 N(0,o^2)을 따른다.
- 특히 2번의 가정이 맞지 않는 경우, 단순 회귀분석은 의미가 없다.
e(오차, 엡실론)이 서로 독립이 아닌 경우
- 예를들어, 시계열 데이터는 각 데이터마다 관계성이 있으므로 오차가 독립이 아니다. 이럴때는 Durbin Watson 의 D통계량을 체크해야한다고 한다.
이분산(Heteroscedasticity)의 문제
- 잔차가
등분산이 아닌 경우는OLS(최소제곱법, 오차의제곱의 합이 최소가 되도록하는 회귀식 구하기)가 아닌 WLS(Weighted Least Square), GLS(Generalized Least Square)를 사용해야한다고 한다.
이산적(Discrete) 종속변수인 경우
- 종속변수Y가 연속형(숫자형)이 아닌 경우에는, 정규분포를 따르지 않으므로 로짓/프로빗 모형을 적용해야한다고 한다.
결과적으로 잔차( resid( 모델 )) 에서 체크해야할 사항 3가지
정규성 검정: 만약 만족하지 않는 경우,Log, Root를 취해서 정규분포를 취하도록 만든다.
1) resid( lm() )을shapiro.test()에 넣으면 된다. H0 : 정규분포를 따른다.
2)normal Q-Q plot에서 45도 line에 있다면 정규분포를 따른다.
3)car패키지의 qqPlot()으로 정규성을 평가하면 신뢰구간(CI)까지 표시해준다.등분산성 검정: 잔차가 동일하 분산을 가지지 않는 경우,가중치를 고려한 WLS, 혹은 GLS를 이용해서 회귀식(선)을 만든다.Fitted Value와 Residual값(or 표준화된 Residual값)을 plot으로 그려서평행하게 분포(특별한 패턴X)되면 등분산성을 만족한다. 만약cone모양으로 점들이 퍼진다면, 등분산성을 만족하지 않는 것이다.
독립성 검정: 잔차가 독립적이지 않다면,시계열분석밖이다.- 잔차의 독립성은
durbinWatsonTest( fit )를 통해한다. dw test의 결과인D-W statistic는0 ~ 4의 값을 가지며,0은 양의 상관관계를 가져 독립x,4는 음의 상관관계를 가져 독립x,2가 독립적인 것을 의미한다. 검정결과가 2에 가깝다면 독립인 것이다.- p-values는
rho(자기상관관계)에 대한 것이다. 만약 p값이 0.05보다 작다면, 자기상관관계에 있다.
- 잔차의 독립성은
한번에 검정하기by gvlma패키지의gvlma( 모델 )- gvlma(모델) 이후 summary()를 하면
Global stat값이 나온다. 이때는p-value가 0.05보다 커서 H0가 기각 안되어야 H0 : 3+1(비선형회귀가능성)가정이 다 만족하는 것 - 만약 summary( gvlma(모델) )의 결과 Global stat의 p-value가 0.05보다 작다면 H0가 기각되어
적어도 1가지 이상이 잔차의 가정을 만족하지 x=> 1,2,3 다 하나씩 봐야한다. 하지만 잔차의 진단에서는 p-value를 너무 strict하게 보지 않아도 된다.
- gvlma(모델) 이후 summary()를 하면
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
| 5-6. 로지스틱 회귀분석(Logistic Regression) (12) | 2019.03.03 |
|---|---|
| 5-4. 회귀분석(변수 선택 및 모형 비교 for 다중공선성) (1) | 2019.02.28 |
| 5-3. 회귀분석(회귀모형의 결과해석) (1) | 2019.02.27 |
| 5-2. 회귀분석(모델링) (0) | 2019.02.25 |
| 5-1. Tidyverse + Dplyr + Tidyr + Rmarkdown (0) | 2019.02.25 |