회귀분석 이전에 이상치 + 잔차를 통한 가정사항을 확인해야한다.

회귀모델의 이상치 확인

  1. 이상치 확인1 - outlierTest()
    개별적으로 검사하는 것이 아니라 회귀모델 자체를 넣어주면 outlierTest( 모델 )함수로 확인할 수 있다. 잔차가 2배이상으로 크거나 2배이하로 작은 값을 이상치로 detect한다
    결과에서, 해당변수의 P-value가 0.05이하로 나오면 이상치라 판단하고, 제거한 모델을 만들고 다시 회귀분석한다. ( H0는 이상치가 아니다 인가보다)

    x축 = 지레점(Leverage) => 높으면 지렛점
    y축 = 표준 잔차 => 높으면 이상치
    점선 => i번째 변수가 빠진상태에서, 회귀계수에 얼마나 큰 영향을 주는지에 대한 영향점영향관측치)

  2. 이상치확인2 - influencePlot()
    x축이 크면 지레점
    y축이 크면 이상치
    원의크기가 크면 Cook's Distance에 대한 비율로서 정해지는 영향점



잔차진단을 통한 가정사항 확인

잔차 = 관측치(Y, observed) - 추정치(estimated)

제대로 된 모델에서 나온 잔차

  1. 정규분포를 따르고
  2. 분산이 일정하고
  3. 특별판 추세(패턴)이 없어야한다.

=> 잔차에 추세(패턴)을 보인다면, 회귀모형에 포함되어야할 정보가 빠졌다는 것이다.



회귀분석의 이론적 배경

회귀모형( Y = b0 + b1X + e)의 가정

  1. X는 비확률변수이며, 주어진 어떤 값
  2. e는 서로 독립이며, 정규분포 N(0,o^2)을 따른다.
    • 특히 2번의 가정이 맞지 않는 경우, 단순 회귀분석은 의미가 없다.

e(오차, 엡실론)이 서로 독립이 아닌 경우

  • 예를들어, 시계열 데이터는 각 데이터마다 관계성이 있으므로 오차가 독립이 아니다. 이럴때는 Durbin Watson 의 D통계량을 체크해야한다고 한다.

이분산(Heteroscedasticity)의 문제

  • 잔차가 등분산이 아닌 경우는 OLS(최소제곱법, 오차의제곱의 합이 최소가 되도록하는 회귀식 구하기)가 아닌 WLS(Weighted Least Square), GLS(Generalized Least Square)를 사용해야한다고 한다.

이산적(Discrete) 종속변수인 경우

  • 종속변수Y가 연속형(숫자형)이 아닌 경우에는, 정규분포를 따르지 않으므로 로짓/프로빗 모형을 적용해야한다고 한다.


결과적으로 잔차( resid( 모델 )) 에서 체크해야할 사항 3가지

  1. 정규성 검정 : 만약 만족하지 않는 경우, Log, Root를 취해서 정규분포를 취하도록 만든다.
    1) resid( lm() )을 shapiro.test()에 넣으면 된다. H0 : 정규분포를 따른다.
    2) normal Q-Q plot에서 45도 line에 있다면 정규분포를 따른다.
    3) car패키지의 qqPlot()으로 정규성을 평가하면 신뢰구간(CI)까지 표시해준다.

  2. 등분산성 검정 : 잔차가 동일하 분산을 가지지 않는 경우, 가중치를 고려한 WLS, 혹은 GLS를 이용해서 회귀식(선)을 만든다.

    • Fitted Value와 Residual값(or 표준화된 Residual값)plot으로 그려서 평행하게 분포(특별한 패턴X)되면 등분산성을 만족한다. 만약 cone모양으로 점들이 퍼진다면, 등분산성을 만족하지 않는 것이다.
  3. 독립성 검정 : 잔차가 독립적이지 않다면, 시계열분석밖이다.

    • 잔차의 독립성은 durbinWatsonTest( fit )를 통해한다.
    • dw test의 결과인 D-W statistic0 ~ 4의 값을 가지며, 0은 양의 상관관계를 가져 독립x, 4는 음의 상관관계를 가져 독립x, 2가 독립적인 것을 의미한다. 검정결과가 2에 가깝다면 독립인 것이다.
    • p-values는 rho(자기상관관계)에 대한 것이다. 만약 p값이 0.05보다 작다면, 자기상관관계에 있다.
  4. 한번에 검정하기 by gvlma패키지의 gvlma( 모델 )

    • gvlma(모델) 이후 summary()를 하면 Global stat값이 나온다. 이때는 p-value가 0.05보다 커서 H0가 기각 안되어야 H0 : 3+1(비선형회귀가능성)가정이 다 만족하는 것
    • 만약 summary( gvlma(모델) )의 결과 Global stat의 p-value가 0.05보다 작다면 H0가 기각되어 적어도 1가지 이상이 잔차의 가정을 만족하지 x => 1,2,3 다 하나씩 봐야한다. 하지만 잔차의 진단에서는 p-value를 너무 strict하게 보지 않아도 된다.

+ Recent posts