범주형 - 범주형에 대한 분석

  1. 각 범주별 빈도 확인
  2. 카이제곱 검정 2가지
    1) 적합도 검정(GOF, goodness of Fit test) : 실제 관측된 범주별 빈도 - 관측값(Obs)들이 특정한 확률-예상값(E)과의 차이가 유의미한지 안하는지를 검정
    (1) H0 : 관측값(관측값의 도수)와 예상값(기대 관측도수)가 동일하다
    (2) H1 : 적어도 하나의 범주(집단, 수준, class)의 도수가 가정한 이론도수(기대관측도수)와 다르다.
    2) 독립성 검정 : 요인(범주) 2개가 서로 연관이 있는지 검정
    (1) H0 : 두 범주형 변수 X, Y는 독립이다. -> 연관성 없다
    (2) H1 : 두 범주형 변수 X, Y는 독립이 아니다 -> 연관성 없다.
  1. Fisher's Exact test : (교차표상에서) 각 관측값들로 구한 기대값(Expected)가 5이하로 나타난 cell이 25%이상(1/4이상)일 때 쓰는 범주1-범주2의 독립성 test
    ex> 2x2교차표에서 25%(1/4)= 1개 : cell에 대해서 expected가 5이하가 한개라도 나오면, Fisher exact test로 변환해서 수행.
    • R상에서 warning message로 카이제곱 approximation은 정확하지 않을수도 있습니다.라 는 문구가 나오면, 카이제곱이 아닌 Fisher's Exact test로 연관성(독립성)검정한다.
    • 과거의 많은 의료논문에서 cell 25%이상이 expected 5이하인데도 카이제곱 검정으로 연관성 테스트를 한 경우가 많다고 한다.
  1. Trend test : 독립변수로서 순서를 가진(3집단 이상의) 범주형 - 2집단의 범주(종속변수)에 대해, 독립변수(순서가진 3집단의 범주1)의 순위가 증가함에 따라 종속변수(2집단의 범주2)의 비율이 증가or감소하는지 경향성을 확인하는 검정
    • Score test for trend or Cochran-armitage test라고도 한다
    • H0 : 종속변수(집단2개의 범주)의 비율이 동일하다(일정하다)
    • H1 : 종속변수(집단2개의 범주)의 비율이 동일하지 않다 = 증가/감소추세가 있다.

      my) 미리 순서가진 범주형이 있고, 종속변수는 범주를 2개를 가진다. H0는 Trend가 없다이다.

카이제곱 검정

참고 블로그 : https://m.blog.naver.com/msluv1202/220869305650

  1. 적합도 검정 (GOF) :범주1개에 대한 범주별 빈도(관측도수)와 그 기대값(특정된 확률)을 비교한다.
    아래는 교차표는 아니지만, 범주1개(동전의 앞/뒤)에 대한 관측값과 기대관측도수를 나타내었고, 카이제곱 검정통계량을 아래와 같이 구한다. 이 검정통계량을 카이제곱 분포에 대입하여, 유의확률을 계산하여 H0(관측값과 예상값이 동일하다)를 기각하던지 기각하지 않던지 보면 된다.

  2. 독립성 검정 : 일반적으로 많이 사용하는 카이제곱 검정으로, 쉽게 말해서, 범주1별 빈도와 범주2별 빈도의 교차표(contingency table)로 카이제곱 검정통계량을 계산한다. - 범주가 2개인 교차표에서 각 관측값들에 대한 Expected(기대값)을 계산 하는 법
    (1) 아래와 같이 범주1(A,B,C,D) + 범주2(white, blue, no collar) + total의 교차표가 있다고 가정

    (2) 첫번째 관측값( A & white colooar)인 90에 대한 Expected를 구해보자.

  1. slow_steady 2020.09.23 13:53 신고

    안녕하세요 . 범주형 자료의 카이제곱검정의 상황에 따른 3가지 분석방법 정리해주셔서 감사합니다.
    질문이 있는데 3.trend test 는 일반 카이제곱 검정이랑 검정방법이 다르겠죠 ?
    혹시 어떤 검정방법을 써야하는지, R코드함수는 어떤것을 사용해야하는지 알려주시면 공부하는데 큰 도움 될것같습니다.
    감사합니다.

+ Recent posts