5-5. 회귀분석(이상치, 가정사항 확인하기)
회귀분석 이전에 이상치
+ 잔차를 통한 가정사항
을 확인해야한다.
회귀모델의 이상치 확인
이상치 확인1 - outlierTest()
개별적으로 검사하는 것이 아니라 회귀모델 자체를 넣어주면outlierTest( 모델 )
함수로 확인할 수 있다.잔차가 2배이상으로 크거나 2배이하로 작은 값을 이상치로 detect한다
결과에서, 해당변수의 P-value가 0.05이하로 나오면이상치
라 판단하고, 제거한 모델을 만들고 다시 회귀분석한다. ( H0는 이상치가 아니다 인가보다)x축 = 지레점(Leverage) => 높으면
지렛점
y축 = 표준 잔차 => 높으면이상치
점선 => i번째 변수가 빠진상태에서, 회귀계수에 얼마나 큰 영향을 주는지에 대한영향점영향관측치)
이상치확인2 - influencePlot()
x축이 크면 지레점
y축이 크면 이상치
원의크기가 크면 Cook's Distance에 대한 비율로서 정해지는 영향점
잔차진단을 통한 가정사항 확인
잔차
= 관측치(Y, observed) - 추정치(estimated)
제대로 된 모델에서 나온 잔차
는
- 정규분포를 따르고
- 분산이 일정하고
- 특별판 추세(패턴)이 없어야한다.
=> 잔차에 추세(패턴)을 보인다면, 회귀모형에 포함되어야할 정보가 빠졌다는 것이다.
회귀분석의 이론적 배경
회귀모형( Y = b0 + b1X + e
)의 가정
- X는 비확률변수이며, 주어진 어떤 값
- e는 서로 독립이며, 정규분포 N(0,o^2)을 따른다.
- 특히 2번의 가정이 맞지 않는 경우, 단순 회귀분석은 의미가 없다.
e(오차, 엡실론)이 서로 독립이 아닌 경우
- 예를들어, 시계열 데이터는 각 데이터마다 관계성이 있으므로 오차가 독립이 아니다. 이럴때는 Durbin Watson 의 D통계량을 체크해야한다고 한다.
이분산(Heteroscedasticity)의 문제
- 잔차가
등분산
이 아닌 경우는OLS(최소제곱법, 오차의제곱의 합이 최소가 되도록하는 회귀식 구하기)
가 아닌 WLS(Weighted Least Square), GLS(Generalized Least Square)를 사용해야한다고 한다.
이산적(Discrete) 종속변수인 경우
- 종속변수Y가 연속형(숫자형)이 아닌 경우에는, 정규분포를 따르지 않으므로 로짓/프로빗 모형을 적용해야한다고 한다.
결과적으로 잔차( resid( 모델 )
) 에서 체크해야할 사항 3가지
정규성 검정
: 만약 만족하지 않는 경우,Log, Root
를 취해서 정규분포를 취하도록 만든다.
1) resid( lm() )을shapiro.test()
에 넣으면 된다. H0 : 정규분포를 따른다.
2)normal Q-Q plot
에서 45도 line에 있다면 정규분포를 따른다.
3)car패키지의 qqPlot()
으로 정규성을 평가하면 신뢰구간(CI)까지 표시해준다.등분산성 검정
: 잔차가 동일하 분산을 가지지 않는 경우,가중치를 고려한 WLS, 혹은 GLS
를 이용해서 회귀식(선)을 만든다.Fitted Value와 Residual값(or 표준화된 Residual값)
을 plot으로 그려서평행하게 분포(특별한 패턴X)
되면 등분산성을 만족한다. 만약cone
모양으로 점들이 퍼진다면, 등분산성을 만족하지 않는 것이다.
독립성 검정
: 잔차가 독립적이지 않다면,시계열분석
밖이다.- 잔차의 독립성은
durbinWatsonTest( fit )
를 통해한다. dw test
의 결과인D-W statistic
는0 ~ 4
의 값을 가지며,0
은 양의 상관관계를 가져 독립x,4
는 음의 상관관계를 가져 독립x,2
가 독립적인 것을 의미한다. 검정결과가 2에 가깝다면 독립인 것이다.- p-values는
rho(자기상관관계)
에 대한 것이다. 만약 p값이 0.05보다 작다면, 자기상관관계에 있다.
- 잔차의 독립성은
한번에 검정하기
by gvlma패키지의gvlma( 모델 )
- gvlma(모델) 이후 summary()를 하면
Global stat
값이 나온다. 이때는p-value가 0.05보다 커서 H0가 기각 안되어야 H0 : 3+1(비선형회귀가능성)가정이 다 만족하는 것
- 만약 summary( gvlma(모델) )의 결과 Global stat의 p-value가 0.05보다 작다면 H0가 기각되어
적어도 1가지 이상이 잔차의 가정을 만족하지 x
=> 1,2,3 다 하나씩 봐야한다. 하지만 잔차의 진단에서는 p-value를 너무 strict하게 보지 않아도 된다.
- gvlma(모델) 이후 summary()를 하면
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
5-6. 로지스틱 회귀분석(Logistic Regression) (12) | 2019.03.03 |
---|---|
5-4. 회귀분석(변수 선택 및 모형 비교 for 다중공선성) (1) | 2019.02.28 |
5-3. 회귀분석(회귀모형의 결과해석) (1) | 2019.02.27 |
5-2. 회귀분석(모델링) (0) | 2019.02.25 |
5-1. Tidyverse + Dplyr + Tidyr + Rmarkdown (0) | 2019.02.25 |