두 개의 이산확률변수 X, Y가 있다고 가정하자. 결합확률분포(또는 결합확률질량함수)가 다음과 같이 주어졌을 때 X, Y의 공분산과 상관계수를 구해보자.
공분산 구하기
공분산은 다음과 같이 구할 수 있다.
여기서 잠깐, 공분산을 구하려면 위 공식에서 보듯이 먼저 X의 평균 과 Y의 평균 을 먼저 구해야 한다. 결합확률분포표가 주어졌을 때는 가장 오른쪽 열과 가장 아래쪽 열에 있는 주변확률분포들 을 이용해서 X와 Y의 평균을 구할 수 있다.
이제 공분산을 계속해서 구해보자. (공식 작성 프로그램이 자꾸 에러가 나서 손으로 썼다.ㅜㅜ)
부호가 마이너스이므로 음의 선형 연관성을 갖고 있다고 볼 수 있지만 그 세기가 어느 정도인지 판별하기는 어렵다. 그래서 상관계수를 구해준다. 상관계수는 -1과 1사이의 실수로 선형 연관성의 정도를 알 수 있게 해주기 때문이다.
상관계수 구하기
상관계수를 구하는 공식은 다음과 같다.
공식을 보면 X와 Y의 공분산뿐만 아니라 X와 Y의 분산 도 필요함을 알 수 있다. 따라서 각각 구하면 다음과 같다.
자 이제 다음과 같이 X와 Y의 상관계수를 구할 수 있다.
상관계수가 -0.2408이므로 X와 Y는 약한 음의 선형 연관성을 갖고 있다고 판단할 수 있다. 절대값이 1에 가까울수록 강한 선형관계를 갖고 있는 것이다. 공분산과 달리 상관계수는 값이 -1과 1사이로 표준화되었기 때문에 선형 연관성의 강도를 판단하는데 있어서 지표로 사용될 수 있다.
공분산과 상관계수를 구하는 공식과 관련해서 더 자세한 정보는 아래 링크를 참고하자. https://bskyvision.com/398
<참고자료>
[1] Johnson과 Wichern, "Applied multivariate statistical analysis(제6판)", 피어슨
'Research > 확률, 통계' 카테고리의 다른 글
모평균의 신뢰구간 추정하기 (31) | 2019.05.16 |
---|---|
중심극한정리(표본이 크면 표본평균은 결국 정규분포를 따르네?) (6) | 2019.05.14 |
독립 표본 t검정은 무엇인가? (MATLAB 코드 포함) (0) | 2019.04.30 |
다변량 정규분포의 확률밀도함수 (MATLAB 소스코드 포함) (2) | 2019.04.02 |
모집단과 표본집단의 평균벡터, 공분산행렬, 상관행렬 (2) | 2019.04.01 |
모평균, 모분산과 표본평균, 표본분산 그리고 표본평균의 평균, 표본평균의 분산 (0) | 2019.03.29 |
주변확률질량함수와 주변확률밀도함수 (0) | 2019.03.29 |
결합확률질량함수와 결합확률밀도함수 (5) | 2019.03.29 |