4. 상관계수 정리

2019. 2. 18. 16:47

상관계수 정의

  • 숫자형-숫자형 변수의 관계를 파악할 때 : 산점도(그래프), 상관계수(수치)
  • 숫자형-숫자형 변수간의 강도를 수치로 표현하는 방법
  • 상관계수는 인과성이 아닌 연관성만 확인가능하다.
    ( 연관성 안에 필요한 조건이 만족될때 인과성이 생길 수 있음)

상관계수 분석

  • 상관계수는 두 숫자형 변수사이의 연관성 중 직선적인 경향을 나타낸다.
    즉, 직선을 띄느냐(-1 / +1) 아니면 퍼져있느냐(-1 ~ 1)이다.
    예를 들어, 기울기가 45도 든 30도 든 60도든 산점도상의 점들이 직선을 이룬다면, +1 아니면 -1이다. 즉, 직선형태를 이룬다면 상관관계는 1 혹은 -1(음의 기울기)이다.
    직선적인 경향을 나타내는 척도이다.
  • 직선이 아니라 흩어져있다면, -1 ~ 0, 0 ~ +1 값을 가지고 , 가장 덜 직선같이 흩어져있으면 상관계수가 0이다.

    위의 그림에서 상관없음 = 0은 가장 덜 직선 같이 생겼다. 강한 양/음의 상관 관계를 가진다면 -1 혹은 +1에 가깝다.

상관계수(r) 공식 (피어슨 상관계수 - Pearson's correlation coefficent)

  1. 공분산(Covariance) : 두 숫자형 변수가 같은 방향으로 움직이는 정도, 두 변수의 단위가 다를 때, 다른 값을 가지게 되는 단점

  2. 상관계수(Correlation coefficent) : 공분산을 각각의 표준편차로 나누어준 값. 측정단위와 상관없이 두 변수간의 연관성, 직선적인 경향을 나타내줌

    1) 모집단(전체)의 상관계수 공식

    2) 표본(일부 샘플들)의 상관계수 공식


상관계수의 해석

  • 주의점 : 아웃라이어 하나때문에, 직선적인 경향이 갑자기 높아질 수도, 낮아질 수도 있으니, 아웃라이어(이상값) 처리가 중요함

상관계수의 종류

  1. 피어슨 상관계수 : 숫자형-숫자형 변수의 모수적(정규분포)의 선형관계

  2. 스피어만 순위 상관계수 : 숫자형-숫자형 변수의 비모수적(정규성x)의 단조관계

    • monotone relationship - 단순증가 / 단순감소(단조성)의 관계를 나타낸다.
    • 순서를 이용하기 때문에, 순서형 범주도 사용가능하다.
  1. 켄달의 타우 : 숫자형-숫자형 변수의 비모수적(정규성x)의 단조관계
    • 스피어만 순위 상관계수처럼, 단조성를 파악한다.
    • 산점도 상의 모든 점들을 2C1로 연결한 뒤, 양의 기울기를 가지는 개수 P 와 음의 기울기 개수 Q를 구한다.
    • r = P-Q / P+Q

+ Recent posts