이산확률변수들의 공분산과 상관계수 구하기
두 개의 이산확률변수 X, Y가 있다고 가정하자. 결합확률분포(또는 결합확률질량함수)가 다음과 같이 주어졌을 때 X, Y의 공분산과 상관계수를 구해보자.
공분산 구하기
공분산은 다음과 같이 구할 수 있다.
여기서 잠깐, 공분산을 구하려면 위 공식에서 보듯이 먼저 X의 평균 과 Y의 평균 을 먼저 구해야 한다. 결합확률분포표가 주어졌을 때는 가장 오른쪽 열과 가장 아래쪽 열에 있는 주변확률분포들 을 이용해서 X와 Y의 평균을 구할 수 있다.
이제 공분산을 계속해서 구해보자. (공식 작성 프로그램이 자꾸 에러가 나서 손으로 썼다.ㅜㅜ)
부호가 마이너스이므로 음의 선형 연관성을 갖고 있다고 볼 수 있지만 그 세기가 어느 정도인지 판별하기는 어렵다. 그래서 상관계수를 구해준다. 상관계수는 -1과 1사이의 실수로 선형 연관성의 정도를 알 수 있게 해주기 때문이다.
상관계수 구하기
상관계수를 구하는 공식은 다음과 같다.
공식을 보면 X와 Y의 공분산뿐만 아니라 X와 Y의 분산 도 필요함을 알 수 있다. 따라서 각각 구하면 다음과 같다.
자 이제 다음과 같이 X와 Y의 상관계수를 구할 수 있다.
상관계수가 -0.2408이므로 X와 Y는 약한 음의 선형 연관성을 갖고 있다고 판단할 수 있다. 절대값이 1에 가까울수록 강한 선형관계를 갖고 있는 것이다. 공분산과 달리 상관계수는 값이 -1과 1사이로 표준화되었기 때문에 선형 연관성의 강도를 판단하는데 있어서 지표로 사용될 수 있다.
공분산과 상관계수를 구하는 공식과 관련해서 더 자세한 정보는 아래 링크를 참고하자. https://bskyvision.com/398
<참고자료>
[1] Johnson과 Wichern, "Applied multivariate statistical analysis(제6판)", 피어슨