오늘은 공분산(covariance)과 상관계수(correlation coefficient)에 대해서 알아보자.
▶ 공분산
공분산은 확률변수 X의 편차(평균으로부터 얼마나 떨어져 있는지)와 확률변수 Y의 편차를 곱한 것의 평균값이다.
...(공식1: 공분산)
여기서 는 각각 X와 Y의 평균값들이다.
공분산이 0보다 크면 X가 증가할 때 Y도 증가한다는 뜻이다. 공분산이 0보다 작으면 X가 증가할 때 Y는 감소한다. 공분산이 0이면 두 변수 간에는 아무런 상관 관계가 없다. 이처럼 공분산을 통해 우리는 X의 증가에 따라 Y가 증가하는지 감소하는지에 대해서 알 수 있다. 다른 말로, 공분산은 두 변수 간에 양의 상관관계가 있는지, 음의 상관관계가 있는지 정도 알려준다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다.
공분산의 문제는 확률변수의 단위 크기에 영향을 많이 받는다는 것이다. 이를 보완할 수 있는 것이 바로 상관계수다.
▶ 상관계수
상관계수는 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것이다. 즉, 공분산에 각 확률변수의 분산을 나눠주었다.
...(공식2: 상관계수)
상관계수는 양의 상관관계가 있는지 음의 상관관계가 있는지 알려줄 뿐만 아니라, 그 상관성이 얼마나 큰지도 알려준다. 1 또는 -1에 가까울 수록 상관성이 큰 것이고, 0에 가까울 수록 상관성이 작은 것이다.
상관계수의 종류에는 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수 등이 있다. (참고: https://bskyvision.com/116) 피어슨 상관계수는 선형관계의 정도를 판단하고, 스피어만 상관계수와 켄달 상관계수는 단조관계의 정도를 판단한다.
<참고자료>
[1] http://destrudo.tistory.com/15, 진지환님 티스토리글, 공분산과 상관계수
[2] https://m.blog.naver.com/yunjh7024/220819816790, 제이님 네이버블로그글, Story 5.1 선형관계의 척도: 공분산, 상관계수
'Research > 확률, 통계' 카테고리의 다른 글
확률변수(이산확률변수와 연속확률변수) (3) | 2019.03.28 |
---|---|
기술통계와 추론통계 (0) | 2019.03.28 |
모수와 표본 통계량(=모수 추정치) (2) | 2019.03.28 |
모집단(population)과 표본(sample) (0) | 2019.03.28 |
통계분석방법의 종류와 이해: 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석 (2) | 2018.12.22 |
Pearson 상관계수, Spearman 상관계수, Kendall 상관계수란? (0) | 2017.12.01 |
베이즈 정리(Bayes theorem), 북한이 10년 내에 남한에게 핵공격을 할 확률은? (2) | 2017.09.17 |
정규 분포와 정규 분포의 표준화의 의미 (8) | 2017.06.24 |