4. 상관계수 정리
2019. 2. 18. 16:47
상관계수 정의
- 숫자형-숫자형 변수의 관계를 파악할 때 :
산점도(그래프)
,상관계수(수치)
- 숫자형-숫자형 변수간의 강도를 수치로 표현하는 방법
- 상관계수는 인과성이 아닌
연관성
만 확인가능하다.
( 연관성 안에 필요한 조건이 만족될때 인과성이 생길 수 있음)
상관계수 분석
- 상관계수는 두 숫자형 변수사이의 연관성 중
직선적인 경향
을 나타낸다.
즉,직선
을 띄느냐(-1
/+1
) 아니면퍼져있느냐(-1 ~ 1)
이다.
예를 들어, 기울기가 45도 든 30도 든 60도든 산점도상의 점들이 직선을 이룬다면, +1 아니면 -1이다. 즉, 직선형태를 이룬다면 상관관계는 1 혹은 -1(음의 기울기)이다.직선적인 경향
을 나타내는 척도이다. - 직선이 아니라 흩어져있다면, -1 ~ 0, 0 ~ +1 값을 가지고 , 가장 덜 직선같이 흩어져있으면 상관계수가 0이다.
위의 그림에서상관없음 = 0
은 가장 덜 직선 같이 생겼다. 강한 양/음의 상관 관계를 가진다면 -1 혹은 +1에 가깝다.
상관계수(r) 공식 (피어슨 상관계수 - Pearson's correlation coefficent)
공분산(Covariance)
: 두 숫자형 변수가 같은 방향으로 움직이는 정도, 두 변수의 단위가 다를 때, 다른 값을 가지게 되는 단점상관계수(Correlation coefficent)
: 공분산을 각각의 표준편차로 나누어준 값. 측정단위와 상관없이 두 변수간의 연관성, 직선적인 경향을 나타내줌1) 모집단(전체)의 상관계수 공식
2) 표본(일부 샘플들)의 상관계수 공식
상관계수의 해석
- 주의점 : 아웃라이어 하나때문에, 직선적인 경향이 갑자기 높아질 수도, 낮아질 수도 있으니, 아웃라이어(이상값) 처리가 중요함
상관계수의 종류
피어슨 상관계수
: 숫자형-숫자형 변수의모수적(정규분포)의 선형관계
스피어만 순위 상관계수
: 숫자형-숫자형 변수의비모수적(정규성x)의 단조관계
- monotone relationship -
단순증가 / 단순감소(단조성)
의 관계를 나타낸다. - 순서를 이용하기 때문에, 순서형 범주도 사용가능하다.
- monotone relationship -
켄달의 타우
: 숫자형-숫자형 변수의비모수적(정규성x)의 단조관계
- 스피어만 순위 상관계수처럼, 단조성를 파악한다.
- 산점도 상의 모든 점들을 2C1로 연결한 뒤, 양의 기울기를 가지는 개수 P 와 음의 기울기 개수 Q를 구한다.
- r = P-Q / P+Q
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
4-1. 2개 집단의 평균 비교 - t-test (4) | 2019.02.19 |
---|---|
4. Rmarkdown - 상관계수와 산점도 matrix (0) | 2019.02.19 |
3-6. 반복문, ifelse-binning + 빈도분석, 데이터합치기(rbind, cbind, merge) (0) | 2019.02.17 |
3-5. 확률변수 , 확률분포, 그리고 대표적 확률분포 (0) | 2019.02.17 |
3-4. Rmarkdown 후향적 코호트 연구와 Propensity Score Matching(PSM) (0) | 2019.02.16 |