공분산과 상관계수의 이해
오늘은 공분산(covariance)과 상관계수(correlation coefficient)에 대해서 알아보자.
▶ 공분산
공분산은 확률변수 X의 편차(평균으로부터 얼마나 떨어져 있는지)와 확률변수 Y의 편차를 곱한 것의 평균값이다.
...(공식1: 공분산)
여기서 는 각각 X와 Y의 평균값들이다.
공분산이 0보다 크면 X가 증가할 때 Y도 증가한다는 뜻이다. 공분산이 0보다 작으면 X가 증가할 때 Y는 감소한다. 공분산이 0이면 두 변수 간에는 아무런 상관 관계가 없다. 이처럼 공분산을 통해 우리는 X의 증가에 따라 Y가 증가하는지 감소하는지에 대해서 알 수 있다. 다른 말로, 공분산은 두 변수 간에 양의 상관관계가 있는지, 음의 상관관계가 있는지 정도 알려준다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다.
공분산의 문제는 확률변수의 단위 크기에 영향을 많이 받는다는 것이다. 이를 보완할 수 있는 것이 바로 상관계수다.
▶ 상관계수
상관계수는 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것이다. 즉, 공분산에 각 확률변수의 분산을 나눠주었다.
...(공식2: 상관계수)
상관계수는 양의 상관관계가 있는지 음의 상관관계가 있는지 알려줄 뿐만 아니라, 그 상관성이 얼마나 큰지도 알려준다. 1 또는 -1에 가까울 수록 상관성이 큰 것이고, 0에 가까울 수록 상관성이 작은 것이다.
상관계수의 종류에는 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수 등이 있다. (참고: https://bskyvision.com/116) 피어슨 상관계수는 선형관계의 정도를 판단하고, 스피어만 상관계수와 켄달 상관계수는 단조관계의 정도를 판단한다.
<참고자료>
[1] http://destrudo.tistory.com/15, 진지환님 티스토리글, 공분산과 상관계수
[2] https://m.blog.naver.com/yunjh7024/220819816790, 제이님 네이버블로그글, Story 5.1 선형관계의 척도: 공분산, 상관계수