ANOVA의 정의

ANalysis Of VAriance = 분산분석

  • 같은 카테고리라도 데이터(인종, 국가)마다 variance(분산) = variation(변동)의 평균이 다르므로 연구를 한다.
    ex> 전 세계 사람들의 BMI의 분산이 같다? -> 연구할 필요가 없다. / 같은 BMI라도 연구하는 곳마다 분산이 다르기 때문에, 연구할 가치가 있다.
  • 통계학은 variation(변동) = 분산이 우연에 의한 error인지 / effect있는 분산인지를 찾아내는 것이다.
  • 전체 변동 = factor A에 의한 변동 + factor B에 의한 변동 + ... + error가 다 포함되어있다. 이 전체 변동을 분할하여 어떤 요인에 의한 변동error에 비해 의미있는지를 밝힌다.

ANOVA를 이용한 3집단 비교( 그림내 분산->변동으로 수정해야함 )

  • 대 전제 : H0 : Ma = Mb = Mc (3집단의 평균이 모두 같다)

  • 3집단 이상부터는 분산 차이으로 -> 평균 차이를 해석한다.

    -위 그림처럼, 3집단의 평균차이는 명확하게 나타날 수 있다. 하지만 2집단간의 평균차이를 확인하기 위해서 각각을 3C2만큼 각각을 t-test해야한다.
    -분산분석을 활용해서 한번에 3집단 차이를 확인하는 원리는 아래와 같다.

    1) 3집단의 평균값을 찾는다.

    2) 3집단 평균 - 각 집단의 평균 (빨간색)의 차이를 보자.
    각 집단끼리 평균차이를 비교하는 것이 아니라, 전체 평균을 기준한 뒤 거기서의 차이만 비교하면 = 3집단의 평균차이도 비교 가능해진다.
    이것을 제곱해서 더하면, 분산의 개념이 된다. (분산 = 평균에서 떨어진 정도)

    3) 오른쪽 3집단간 평균의 차이가 별로 안나는 것과 비교했을 때,
    각 거리(편차)의 제곱(변동)을 다 더하면, 왼쪽 3집단이 훨씬 값이 크다 = 분산분석시 차이가 더 유의하게 나타난다.

  • 좀 더 자세히 알아보자.

    1) 3집단의 평균, 전체 평균이 있다.

    2) 위에서 말한 것과 유사하게 전체 변동(TSS) = 그룹내 변동 + 그룹간 변동으로 쪼갤 수 있다.
    그룹내 변동 : 각 그룹의 평균으로부터 떨어진 거리(의 제곱) = error
    그룹간 변동 : 전체평균을 기준으로 그룹의 평균까지의 거리(의 제곱) = effect
    전체 변동 = 그룹내 변동 + 그룹간 변동


    3) 그룹내 변동은 error이므로 적을 수록, 그룹간 변동은 effect이므로 높을 수록 3집단의 평균차이가 유의미해진다.
    전체 변동F검정F = effect(그룹간 변동)의 평균 / error(그룹내 변동)의 평균으로 측정되므로, error에 비해 effect가 얼마나 있는지로 구할 수 있다.

ANOVA(분산분석)의 종류

3개 집단 이상의 차이를 알아보는 ANOVA분석도 2개 집단의 비교인 독립표본 t-검정과 마찬가지로 아래 3가지 가정을 만족시켜야 시행할 수 있다.
1) 독립성
2) 정규성
3) 등분산성

  1. One way Anova(일원배치 분산분석) : 하나의 요인에 대한 3집단 이상의 분석

    • factor(독립변수) 1개 와 종속변수1개에서의 3집단 평균 비교
    • H0 : 3 집단간의 평균이 같다(차이없다, =) Ma = Mb = Mc
    • 전체변동 = factor 1에 의한 그룹간 변동(effect) + 그룹내 변동(error)
    • 자유도(df, Degree of freedom) : n개의 데이터 중 n-1개만 있으면 1개는 자동으로 알 수 있다. 이 때, 몇 개만 있으면 데이터를 알 수 있을까?에서 그 몇 개에 해당한다.
      ex> (1차원) 10개의 데이터 -> 9개만 있으면 다 알 수 있다.
      ex> (2차원 교차표) -> mxn행렬 -> m-1 * n-1 이 자유도이다.( 교차표에서 바깥쪽 합계는 미리 알고 있다고 가정하고 생각하면 된다.)
    • 분산분석의 과정 in SPSS
      1) 데이터에 따라 자유도가 결정
      2) 자유도에 의해 F분포가 정해짐
      3) 아노바 테이블에 의해 분석결과가 나옴 in SPSS
      (1) 그룹간(Between Groups) + 그룹내(Within Groups) = 전체(Total)변동의 값이 Sum of Square(편차를 제곱한 합=변동)으로 나타난다.
      (2) df(자유도)가 나타난다. 전체 -> 60개 데이터 -> 59 / 그룹간->3그룹이면 2 / 그룹내-> 전체자유도 59 - 그룹간 자유도 2 = 57 (그룹내 자유도 직접 구하는 법 모르겠음 )
      (3) Mean Sqaure = 변동들의 평균 = SS(변동들 합) / 자유도(n과 비슷)
      (4) F = 그룹간 변동들의 평균(MeanSquare) / 그룹내 변동들의 평균(MS)
      (5) Sig. = p-value 결정
      (6) 1), 2) 에서 정해진 F분포상에서 H0가 기각될지 안될지 판단함
    • 사후분석(Post-Hoc test = Multiple Comparison)
      1) H0( 집단간 평균차이 없다) 가 기각되었음 => 적어도 차이가 나는 집단이 하나는 존재 하는데, 어느 집단인지 구체적으로 알기 위한 것
      2) R상에서 알파벳이 다르게 나타나는 1개가 차이가 나는 집단이다
      ex> a b b : a만 평균차이가 나는 집단
    • 사후분석의 방법
      (1) 본페로니(가장 기본적이고 보수적) : 2개 집단끼리 nC2번 t-test를 하는데, 그때의 p-value의 유의수준을 0.05/n 으로 본다. 혹은 t-test에서 나온 p-value \* n 을 0.05와 비교한다.
      (2) 좀 더 완화시킨 방법들 : Tukey, scheffe, Duncan
      -Tukey : 반복수가 동일하다는 가정
      -Scheffe : 하나의 집단이 너무 클 때 사용
      -Duncan : 한꺼번에 세개를 비교할 때 사용
  2. Two way Anova : 두개 이상 요인에 대한 3집단 이상의 분석

    • facotor(요인)가 2개 이상이므로 전체변동 = factorA에 의한 변동 + factorB에 의한 변동 + error + A와 B의 상호작용 효과까지 고려해야한다.
      예를 들어, 수업 이해도(종속변수, 연속형)에 영향을 주인 요인으로서
      요인1 : 수업시 착석위치 ( 독립변수 X1 )
      요인2 : 출석점수( 독립변수 X2 ) 가 있다고 치자.
      이 때, 주성분X1 + X2이며, X1과 X2의 상호작용 효과인 X1:X2까지 고려해야한다. 그러므로, 구성될 수 있는 모델구성은 총 3가지다
      모델1 : Y ~ X1 + X2 (주성분만 포함)
      모델2 : Y ~ X1:X2 (상호작용 효과만 포함)
      모델3 : Y ~ X1 + X2 + X1:X2 = Y ~ X1 * X2

    • 상호작용 in R : 최대 2개 요인만 포함시키자.
      aov(종속변수(숫자) ~ 요인1(범주) + 요인2(범주) + 요인1\*요인2, data=data)
      결과로서 맨 마지막 줄의 Residuals = error에 비해, 각 요인들(주성분1, 주성분2, 상호작용효과3)들의 df(자유도) / Sum sq(변동(편차제곱)들이 합) / Mean sq(변동들의 평균) / F value(F검정 값:effect/error) / Pr(p-value)

    • 예시 들어보기 : 헤모글로빈 수치에 영향을 주는 요인2개 : 1)흡연이력 2)음주이력
      요인은 2개지만, 모델은 3가지 일 것이다.
      가설1 : 흡연이력에 따라 헤모글로빈 수치가 차이가 날 것이다.(Smoke effect)
      가설2 : 음주이력에 따라 헤모글로빈 수치가 차이가 날 것이다.(Alcohol effect)
      가설3 : 흡연이력(요인1)에 따른 헤모글로빈 수치의 양상(종속)음주이력 그룹(요인2)마다 다르다.(Interaction effect)
      (1) 상호작용 효과의 해석1 : Interaction plot(요인1는 x축, 요인2는 범례로 설정)한 뒤, 범례에 따라 변동이 있는지 없는지 본다.
      만약, 그래프가 평행하다면 : 요인2는 별로 영향이 없다. 만약, 그래프가 cross한다면, 요인1->종속변수에 요인2가 영향을 준다는 것을 의미한다.
      (2) 상호작용 효과의 해석2 : aov(헤모글로빈수치(종속변수) ~ 흡연이력(요인1) + 음주이력(요인2) + 요인1*요인2상호작용효과(요인1:요인2) )를 수행 한 뒤 summary()해보면, 3개의 모델이 생성되며 Pr(p-value)로 해석한다.
      만약, 상호작용효과(교호작용효과)에 대한 유의성 차이가 없다면 -> 요인1에 대한 종속변수가 요인2그룹마다 다르지 않다는 것을 의미. 상호작용효과를 제외하고 다시 aov()를 돌려야한다.
      (3) 상호작용효과를 제외한 이원배치 분산분석을 돌리는 것을 2 way ANOVA라 한다.

  3. 사후분석(Post-Hoc test, Multiple Comparison) : 3집단 이상에서 구체적으로 어느 두 집단끼리 차이가 있는지 확인

+ Recent posts