모집단과 표본집단의 평균벡터, 공분산행렬, 상관행렬

확률벡터(random vector)는 요소들이 확률변수들인 벡터이다. p개의 확률변수로 이뤄진 확률벡터는 다음과 같이 표현할 수 있다. 

 

 

이것이 모집단이라고 가정하자.

 

모집단의 평균벡터, 공분산행렬, 상관행렬

모집단 X의 평균벡터(mean vector)는 다음과 같이 표현할 수 있다. 

 

   ...(모집단의 평균벡터)

 

여기서 평균벡터 E(X)는 각 확률변수의 평균들을 담아 놓은 것을 의미한다. 모집단 X의 공분산행렬(covariance matrix)은 다음과 같이 표현할 수 있다. 

 

   ...(모집단의 공분산행렬)

 

공분산행렬에서 대각요소들은 확률변수 의 분산들이고, 대각요소를 제외하고는 두 확률변수들의 공분산들이다. 또한 확률변수 의 공분산이나 확률변수 의 공분산이나 같은 것을 의미하므로, 이다. 모집단 X의 공분산행렬을 구했다면, 모집단 X의 상관행렬(correlation matrix)을 찾는 것은 간단하다.

 

...(모집단의 상관행렬)

 

여기서 

 

 

는 확률변수 상관계수(correlation coefficient)이다. 공분산에서와 마찬가지로, 상관행렬에서도 이다. 또한 대각요소는 모두 1인 것을 확인할 수 있다. 같은 확률변수에 대해서 상관계수를 구하면 완벽한 양의 선형 연관성을 갖고 있기 때문이다.

 

표본집단의 평균벡터, 공분산행렬, 상관행렬

모집단으로부터 n개의 확률표본 을 추출했다고 가정하자. 각 확률표본은 1 x p 사이즈의 확률벡터이다: . 이때 표본평균벡터, 표본공분산행렬, 표본상관계수들을 구하는 방법에 대해 알아보자. 

 

먼저 표본평균벡터(sample mean vector)는 다음과 같이 구한다. 

 

 

그리고 표본공분산행렬(sample covariance matrix)은 다음과 같이 구한다. 

 

 

또한 표본상관행렬(sample correlation matrix)은 다음과 같다. 

 

 

여기서

 

 

는 확률표본 표본상관계수(sample correlation coefficient)이다. 

 

 

 

<참고자료>

[1] https://rfriend.tistory.com/233?category=606619, R Friend "다변량 정규분포 확률밀도함수"

[2] Johnson과 Wichern, "Applied multivariate statistical analysis, 제6판", 피어슨

댓글()