4-2. 3집단 이상의 (숫자형)분석 ANOVA
ANOVA의 정의
ANalysis Of VAriance = 분산분석
- 같은 카테고리라도 데이터(인종, 국가)마다 variance(분산) = variation(변동)의 평균이 다르므로 연구를 한다.
ex> 전 세계 사람들의 BMI의 분산이 같다? -> 연구할 필요가 없다. / 같은 BMI라도 연구하는 곳마다 분산이 다르기 때문에, 연구할 가치가 있다. - 통계학은 variation(변동) = 분산이 우연에 의한 error인지 / effect있는 분산인지를 찾아내는 것이다.
전체 변동 = factor A에 의한 변동 + factor B에 의한 변동 + ... + error
가 다 포함되어있다. 이전체 변동
을 분할하여어떤 요인에 의한 변동
이error
에 비해 의미있는지를 밝힌다.
ANOVA를 이용한 3집단 비교( 그림내 분산->변동으로 수정해야함 )
대 전제 :
H0 : Ma = Mb = Mc (3집단의 평균이 모두 같다)
3집단 이상부터는
분산 차이
으로 ->평균 차이
를 해석한다.
-위 그림처럼, 3집단의 평균차이는 명확하게 나타날 수 있다. 하지만 2집단간의 평균차이를 확인하기 위해서 각각을 3C2만큼 각각을 t-test해야한다.
-분산분석을 활용해서 한번에 3집단 차이를 확인하는 원리는 아래와 같다.1) 3집단의 평균값을 찾는다.
2) 3집단 평균 - 각 집단의 평균 (빨간색)의 차이를 보자.
각 집단끼리 평균차이를 비교하는 것이 아니라, 전체 평균을 기준한 뒤 거기서의 차이만 비교하면 = 3집단의 평균차이도 비교 가능해진다.
이것을 제곱해서 더하면, 분산의 개념이 된다. (분산 = 평균에서 떨어진 정도)
3) 오른쪽 3집단간 평균의 차이가 별로 안나는 것과 비교했을 때,
각 거리(편차)의 제곱(변동)을 다 더하면, 왼쪽 3집단이 훨씬 값이 크다 = 분산분석시 차이가 더 유의하게 나타난다.
좀 더 자세히 알아보자.
1) 3집단의 평균, 전체 평균이 있다.2) 위에서 말한 것과 유사하게
전체 변동(TSS)
=그룹내 변동
+그룹간 변동
으로 쪼갤 수 있다.
그룹내 변동 : 각 그룹의 평균으로부터 떨어진 거리(의 제곱) =error
그룹간 변동 : 전체평균을 기준으로 그룹의 평균까지의 거리(의 제곱) =effect
전체 변동 = 그룹내 변동 + 그룹간 변동3) 그룹내 변동은 error이므로 적을 수록, 그룹간 변동은 effect이므로 높을 수록 3집단의 평균차이가 유의미해진다.
전체 변동
은F검정
의F = effect(그룹간 변동)의 평균 / error(그룹내 변동)의 평균
으로 측정되므로, error에 비해 effect가 얼마나 있는지로 구할 수 있다.
ANOVA(분산분석)의 종류
3개 집단 이상의 차이를 알아보는 ANOVA분석도 2개 집단의 비교인 독립표본 t-검정
과 마찬가지로 아래 3가지 가정을 만족시켜야 시행할 수 있다.
1) 독립성
2) 정규성
3) 등분산성
One way Anova
(일원배치 분산분석) : 하나의 요인에 대한 3집단 이상의 분석- factor(독립변수) 1개 와 종속변수1개에서의 3집단 평균 비교
H0
: 3 집단간의 평균이 같다(차이없다, =) Ma = Mb = Mc전체변동
=factor 1에 의한 그룹간 변동(effect)
+그룹내 변동(error)
자유도
(df, Degree of freedom) : n개의 데이터 중 n-1개만 있으면 1개는 자동으로 알 수 있다. 이 때,몇 개
만 있으면 데이터를 알 수 있을까?에서 그 몇 개에 해당한다.
ex> (1차원) 10개의 데이터 -> 9개만 있으면 다 알 수 있다.
ex> (2차원 교차표) -> mxn행렬 -> m-1 * n-1 이 자유도이다.( 교차표에서 바깥쪽 합계는 미리 알고 있다고 가정하고 생각하면 된다.)- 분산분석의 과정 in SPSS
1) 데이터에 따라 자유도가 결정
2) 자유도에 의해 F분포가 정해짐
3) 아노바 테이블에 의해 분석결과가 나옴 in SPSS
(1) 그룹간(Between Groups) + 그룹내(Within Groups) = 전체(Total)변동의 값이 Sum of Square(편차를 제곱한 합=변동)으로 나타난다.
(2) df(자유도)가 나타난다. 전체 -> 60개 데이터 -> 59 / 그룹간->3그룹이면 2 / 그룹내-> 전체자유도 59 - 그룹간 자유도 2 = 57 (그룹내 자유도 직접 구하는 법 모르겠음 )
(3) Mean Sqaure = 변동들의 평균 = SS(변동들 합) / 자유도(n과 비슷)
(4) F = 그룹간 변동들의 평균(MeanSquare) / 그룹내 변동들의 평균(MS)
(5) Sig. = p-value 결정
(6) 1), 2) 에서 정해진 F분포상에서 H0가 기각될지 안될지 판단함 - 사후분석(Post-Hoc test = Multiple Comparison)
1) H0( 집단간 평균차이 없다) 가 기각되었음 => 적어도 차이가 나는 집단이 하나는 존재 하는데, 어느 집단인지 구체적으로 알기 위한 것
2) R상에서 알파벳이 다르게 나타나는 1개가 차이가 나는 집단이다
ex> a b b : a만 평균차이가 나는 집단 - 사후분석의 방법
(1)본페로니
(가장 기본적이고 보수적) : 2개 집단끼리 nC2번 t-test를 하는데, 그때의 p-value의유의수준을 0.05/n
으로 본다. 혹은 t-test에서 나온p-value \* n 을 0.05와 비교
한다.
(2) 좀 더 완화시킨 방법들 :Tukey
,scheffe
,Duncan
등
-Tukey : 반복수가 동일하다는 가정
-Scheffe : 하나의 집단이 너무 클 때 사용
-Duncan : 한꺼번에 세개를 비교할 때 사용
Two way Anova
: 두개 이상 요인에 대한 3집단 이상의 분석facotor(요인)가 2개 이상이므로
전체변동
= factorA에 의한 변동 + factorB에 의한 변동 + error +A와 B의 상호작용 효과
까지 고려해야한다.
예를 들어,수업 이해도(종속변수, 연속형)
에 영향을 주인 요인으로서
요인1 : 수업시 착석위치 ( 독립변수 X1 )
요인2 : 출석점수( 독립변수 X2 ) 가 있다고 치자.
이 때,주성분
은X1
+X2
이며, X1과 X2의 상호작용 효과인X1:X2
까지 고려해야한다. 그러므로, 구성될 수 있는 모델구성은 총 3가지다
모델1 :Y ~ X1 + X2
(주성분만 포함)
모델2 :Y ~ X1:X2
(상호작용 효과만 포함)
모델3 :Y ~ X1 + X2 + X1:X2
=Y ~ X1 * X2
상호작용 in R
: 최대 2개 요인만 포함시키자.
aov(종속변수
(숫자) ~요인1
(범주) +요인2
(범주) +요인1\*요인2
, data=data)
결과로서 맨 마지막 줄의Residuals
=error
에 비해, 각 요인들(주성분1, 주성분2, 상호작용효과3)들의 df(자유도) / Sum sq(변동(편차제곱)들이 합) / Mean sq(변동들의 평균) / F value(F검정 값:effect/error
) / Pr(p-value)예시 들어보기 :
헤모글로빈 수치
에 영향을 주는 요인2개 : 1)흡연이력
2)음주이력
요인은 2개지만, 모델은 3가지 일 것이다.가설1
: 흡연이력에 따라 헤모글로빈 수치가 차이가 날 것이다.(Smoke effect)가설2
: 음주이력에 따라 헤모글로빈 수치가 차이가 날 것이다.(Alcohol effect)가설3
:흡연이력(요인1)
에 따른헤모글로빈 수치의 양상(종속)
이음주이력 그룹(요인2)
마다 다르다.(Interaction effect)
(1)상호작용 효과의 해석1
: Interaction plot(요인1는 x축, 요인2는 범례로 설정)한 뒤, 범례에 따라 변동이 있는지 없는지 본다.
만약, 그래프가 평행하다면 : 요인2는 별로 영향이 없다. 만약, 그래프가 cross한다면, 요인1->종속변수에 요인2가 영향을 준다는 것을 의미한다.
(2)상호작용 효과의 해석2
: aov(헤모글로빈수치(종속변수) ~ 흡연이력(요인1) + 음주이력(요인2) + 요인1*요인2상호작용효과(요인1:요인2) )를 수행 한 뒤 summary()해보면, 3개의 모델이 생성되며 Pr(p-value)로 해석한다.
만약, 상호작용효과(교호작용효과)에 대한 유의성 차이가 없다면 ->요인1에 대한 종속변수가 요인2그룹마다 다르지 않다는 것을 의미
. 상호작용효과를 제외하고 다시 aov()를 돌려야한다.
(3) 상호작용효과를 제외한 이원배치 분산분석을 돌리는 것을2 way ANOVA
라 한다.
사후분석(Post-Hoc test, Multiple Comparison)
: 3집단 이상에서 구체적으로 어느 두 집단끼리 차이가 있는지 확인
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
4-3. Rmarkdown ANOVA 와 interactionplot (1) | 2019.02.21 |
---|---|
4-2. Rmarkdown T-test (0) | 2019.02.20 |
4-1. 2개 집단의 평균 비교 - t-test (4) | 2019.02.19 |
4. Rmarkdown - 상관계수와 산점도 matrix (0) | 2019.02.19 |
4. 상관계수 정리 (1) | 2019.02.18 |