회귀모형(lm())으로 만든 결과(summary())를 해석

lm( Y ~ X , data = )를 summary()로 요약하면

  1. Residual :
    Residual이라는 것이 나온다. 회귀모형으로 예측한 Y 와 실제 데이터의 Y의 차이를 의미하는 것이며, 찌꺼기로 취급해야한다.
    이 찌꺼기에는 패턴이나 추세가 있으면 안된다. 만약, plot으로 그린 결과에 어떠한 패턴이 있다면, 중요한 변수를 빠트려서 잔차에 남아있는 것이므로 찾아서 반영해줘야한다.

  2. coefficient :
    절편(b0)와 각 X의 기울기가 나온다. (Intercept)의 Estimate절편을 추정 한 값이며, 각 변수들의 Estimate기울기를 추정한 값이다.
    또한, 추정한 해당 회귀계수(절편, 기울기)에 대한 유의성을 단일표본t-test, mu = 0 (H0 : 해당 회귀계수 = 0)에 대한 p-value가 Pr(>|t|)로 표시된다.

    • 0 ~ 0.001 ***, 0.001 ~ 0.01 **, 0.01 ~ 0.05 *, 0.05 ~ 1 아무표시없음
    • 0.05이하로 H0가 기각되어야지, 해당 X의 회귀계수 0이 아니다 = 의미있는 회귀계수
    • 0.05보다 커서 H0가 기각안되면, 해당 X의 회귀계수는 0이다! -> 제외시켜야한다.
  3. multiple / Adjusted R-squared :
    먼저, ANOVA에서 나왔던 개념인 변동에 대한 이해가 필요하다. ANOVA에서는 총변동 = 그룹간변동(effect) + 그룹내변동(error)였다.
    회귀분석에서의 총 변동 = 회귀식이 설명할 수 있는 변동(effect) + 회귀식으로 설명할 수 없는 변동(error)로 구성되어있다.
    1) SST(결과변수의 총변동) = SSR + SSE
    2) SSR(Sum of Square of Regression) : 회귀식으로 설명되는 변동
    3) SSE(Sum of Square of Error) : 회귀식으로 설명하고 남은, 설명되지 않은 변동
    4) R-square(R^2) : SSR / SST (전체변동 중 회귀식으로 설명되는 변동) = 0 ~ 1

    그림으로 나타내면, 1 - SSE/SST정도인가보다.

3-1. Multiple R-squared :
결정계수 R^2(혹은 설명력 R^2)으로서, 앞에 말한 SSR/SST를 의미한다. 추정된 회귀식이 변동을 얼마나 잘 설명하는가로 해석된다.
만약, 값이 1이 나왔다면, 실제 관측값들이 회귀선상에 정확히 일치함을 의미한다.
만약, 값이 0.65 => 35%는 회귀식으로 설명할 수 없는 error임을 의미한다.
하지만, 치명적인 단점으로서 X의 개수가 증가할수록(아무상관없는 X를 추가하더라도) Multiple R-square(회귀식의 모형설명력 결정계수)도 무조건 증가하는 단점

3-2. Adjusted R-squared :
Multiple R-squared의 단점을 보완하기 위해, 보정된 R-squared(회귀식의 모형설명력, 결정계수)
변수(X)가 많아진 것을 분모에 반영하여, 변수의 개수가 고려된 R-squared(모형설명력, 결정계수)이다.

분모에 k는 변수의 개수를 의미한다.

3-3. 정리
1. Multiple R-square : BEST모델(Best회귀식)의 설명력(결정계수)
2. Adjusted R-square : 여러개의 모델을 만들어 놓은 상태에서, 좋은 모델을 찾기위해 비교시 사용되는 설명력

  1. F-statistic :

H0 : 모든 회귀계수에 대해 b1(=b2=b3=..bk)= 0을 가정한 뒤, H0를 기각시켜 회귀계수 0이 아닌 것이 적어도 하나 존재한다회귀모형의 유의성F-test한 것이다. F-검정통계량 계산은 ANOVA에서 처럼, F= SSR의평균 / SSE의평균으로 검정한다.

  • cf) 만약, 단순회귀(X1개 -> H0 : b1 = 0)일 시, coefficient의 t-test(단일표본t-test)나 모형의 F-test나 동일하다.
  • cf) F = t^2 (??) : X가 1개일때만?? 아니면 원래 분포자체가??

범주형의 X에 대한 회귀계수의 해석

앞서 숫자형 변수 X에 대해서 회귀계수(기울기)는 X가 한단위 증가시 Y의 증가량으로 해석했다.
범주형 변수 X의 경우, 범주안의 집단들 중에 1집단은 reference가 되고, 나머지 집단들이 나눠서 다른 변수처럼 표시되며, ref집단에 비해 나머지집단들의 X 한단위 증가시 Y의 증가량으로 해석된다.
예를 들어, mtcars데이터의 cyl(범주형)변수에는 4, 6, 8의 집단이 있다. 이 변수를 X(설명변수, 독립변수)로 넣어서 회귀모델을 만들면, 4집단은 표시가 안되면서 (cyl)6, (cyl)8에 대한 회귀계수가 생긴다. 해석은 (cyl)4에 비해, (cyl)6, (cyl)8집단이 Y에 어떻게 영향을 미치는지로 해석해야한다.

  • R에서 각 범주의 집단확인은 table(칼럼인덱싱)으로 하면된다. 마치 교차표 만들듯이

내부에서 작동하는 방식은 범주형을 -> 숫자형처럼 만드는 가변수Dummy 변수를 만들어서 처리한다. 집단이 3개인 경우, refence집단0,0으로 만들어놓고 나머지 2집단은 1,00,1이 될 것이다. 한 집단은 0으로 구성되어 기준이 되니, 집단수-1개의 자리수를 가지는 0과 1로 구성된다.

  • reference(기준)변수는 보통 빈도가 많거나 일반적인 집단을 기준집단으로 선택한다.

예를 들어, 약물의 종류가 P(lacebo), A(treatment A), B(treatment B)가 있다고 치자. 이때는 일반적인 집단인 P가 기준집단으로서 0으로만 구성될 것이다.

  • R에서 범주칼럼인덱싱 = relevel( factor(범주칼럼인덱싱) , ref = )로 기준집단을 직접 선택하여 더미변수화 시킬 수 있다.

표준화 회귀계수 for 회귀계수의 상대적 중요성

X-m/ sd(X)표준화시키는 목적은 단위를 고려한 비교를 위해서이다.
회귀분석전 모든 숫자형 변수들을 표준화시킨 후 회귀분석lm()을 돌리면, 표준화된 회귀계수가 얻어지며, 이것들을 plotting해서 단위를 배제시킨 회귀계수의 상대적 중요성을 확인할 수 있다. 이것은 가장 쉬운 변수 선택 방법이다.

  • SPSS로 회귀분석을 돌리면 표준화(B)+비표준화 회귀계수(b,베타)가 모두 출력된다. 그때는 표준화 회귀계수를 보고 상대적 중요성으로 해석하자!

신뢰구간은 보통 95%로 제시한다. 5%의 유의확률은 양측검정시 왼쪽 2.5%이하 <--> 오른쪽 97.5%이상의 임계치를 제시해준다. 추정한 회귀계수(기울기)가 2.5% ~ 97.5%는 확신을 가지고 있다는 것을 의미한다.
해석은 해당변수X가 1% 변화시, 종속변수Y는 추정회귀계수(2.5% ~ 97.5%)만큼 변화한다고 <<확신을 가지고 이야기할 수 있다>>

  • R에서는 confint()에 lm()결과를 넣어주면, 각 회귀계수별 신뢰구간을 제시해준다.

그러나, 이러한 해석을 위해서는 회귀분석의 가정 몇가지를 만족시켜야한다.

  1. B 2020.03.24 16:56

    표준화계수가 베타 아닌가요? B, b, β 가 각각 뭘 나타내는지 헷갈려서 검색하다가 발견하여 댓글 남깁니다.

+ Recent posts