모집단과 표본집단의 평균벡터, 공분산행렬, 상관행렬 by bskyvision.com

Research/확률, 통계/ 모집단과 표본집단의 평균벡터, 공분산행렬, 상관행렬

2019-04-01 17:49:10

확률벡터(random vector)는 요소들이 확률변수들인 벡터이다. p개의 확률변수로 이뤄진 확률벡터는 다음과 같이 표현할 수 있다.

$\large X = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_p \end{bmatrix}$

이것이 모집단이라고 가정하자.

모집단의 평균벡터, 공분산행렬, 상관행렬

모집단 X의 평균벡터(mean vector)는 다음과 같이 표현할 수 있다.

$\large E(X) = \begin{bmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_p) \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{bmatrix}$ ...(모집단의 평균벡터)

여기서 평균벡터 E(X)는 각 확률변수의 평균들을 담아 놓은 것을 의미한다. 모집단 X의 공분산행렬(covariance matrix)은 다음과 같이 표현할 수 있다.

$\large \begin{align*} \Sigma(X) &= Cov(X) = E(X-\mu)(X-\mu)^T \\ &= E\left ( \begin{bmatrix} X_1 - \mu_1 \\ X_2 - \mu_2 \\ \vdots \\ X_p - \mu_p \end{bmatrix}\begin{bmatrix} X_1 - \mu_1 & X_2 - \mu_2 & \cdots & X_p - \mu_p \end{bmatrix} \right )\\ &= \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{bmatrix} \end{align*}$ ...(모집단의 공분산행렬)

공분산행렬에서 대각요소들은 확률변수 $X_1, X_2,..., X_p$ 의 분산들이고, 대각요소를 제외하고는 두 확률변수들의 공분산들이다. 또한 확률변수 $X_i$ 와 $X_k$ 의 공분산이나 확률변수 $X_k$ 와 $X_i$ 의 공분산이나 같은 것을 의미하므로, $\sigma_{ik} = \sigma_{ki}$ 이다. 모집단 X의 공분산행렬을 구했다면, 모집단 X의 상관행렬(correlation matrix)을 찾는 것은 간단하다.

$\large \rho = \begin{bmatrix} 1 & \rho_{12} & \hdots & \rho_{1p} \\ \rho_{21} & 1 & \hdots & \rho_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ \rho_{p1} & \rho_{p2} & \hdots & 1 \end{bmatrix}$ ...(모집단의 상관행렬)

여기서

$\large \rho_{ik}= \frac{\rho_{ik}}{\sqrt{\rho_{ii}}\sqrt{\rho_{kk}}}$

는 확률변수 $X_i$ 와 $X_k$ 의 상관계수(correlation coefficient)이다. 공분산에서와 마찬가지로, 상관행렬에서도 $\rho_{ik} = \rho_{ki}$ 이다. 또한 대각요소는 모두 1인 것을 확인할 수 있다. 같은 확률변수에 대해서 상관계수를 구하면 완벽한 양의 선형 연관성을 갖고 있기 때문이다.

표본집단의 평균벡터, 공분산행렬, 상관행렬

모집단으로부터 n개의 확률표본 $X_1, X_2,..., X_n$ 을 추출했다고 가정하자. 각 확률표본은 1 x p 사이즈의 확률벡터이다: $X_i = (X_{i1}, X_{i2},..., X_{ip})' \: (i=1,2,...,n)$ . 이때 표본평균벡터, 표본공분산행렬, 표본상관계수들을 구하는 방법에 대해 알아보자.

먼저 표본평균벡터(sample mean vector)는 다음과 같이 구한다.

$\large \bar{X} = \begin{bmatrix} \bar{X_1}\\ \bar{X_2}\\ \vdots\\ \bar{X_p} \end{bmatrix} = \begin{bmatrix} \frac{1}{n}\sum_{i=1}^{n}X_{i1}\\ \frac{1}{n}\sum_{i=1}^{n}X_{i2}\\ \vdots \\ \frac{1}{n}\sum_{i=1}^{n}X_{ip} \end{bmatrix}$

그리고 표본공분산행렬(sample covariance matrix)은 다음과 같이 구한다.

$\large \begin{align*} S &= \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})(X_i - \bar{X})' \\ &= \begin{bmatrix} s_{11} & s_{12} & \hdots & s_{1p}\\ s_{21} & s_{22} & \hdots & s_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ s_{p1} & s_{p2} & \hdots & s_{pp} \end{bmatrix} \end{align*}$

또한 표본상관행렬(sample correlation matrix)은 다음과 같다.

$\large R = \begin{bmatrix} 1 & r_{12} & \hdots & r_{1p} \\ r_{21} & 1 & \hdots & r_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \hdots & 1 \end{bmatrix}$

여기서

$\large r_{ik} = \frac{s_{ik}}{\sqrt{s_{ii}}\sqrt{s_{kk}}}$

는 확률표본 $X_i$ 와 $X_k$ 의 표본상관계수(sample correlation coefficient)이다.

<참고자료>

[1] https://rfriend.tistory.com/233?category=606619, R Friend "다변량 정규분포 확률밀도함수"

[2] Johnson과 Wichern, "Applied multivariate statistical analysis, 제6판", 피어슨

저작자표시 비영리 (새창열림)

'Research > 확률, 통계' 카테고리의 다른 글

중심극한정리(표본이 크면 표본평균은 결국 정규분포를 따르네?) (6)	2019.05.14
독립 표본 t검정은 무엇인가? (MATLAB 코드 포함) (0)	2019.04.30
다변량 정규분포의 확률밀도함수 (MATLAB 소스코드 포함) (4)	2019.04.02
이산확률변수들의 공분산과 상관계수 구하기 (0)	2019.04.02
모평균, 모분산과 표본평균, 표본분산 그리고 표본평균의 평균, 표본평균의 분산 (0)	2019.03.29
주변확률질량함수와 주변확률밀도함수 (0)	2019.03.29
결합확률질량함수와 결합확률밀도함수 (5)	2019.03.29
이산확률변수의 기댓값(평균), 분산, 표준편차 (2)	2019.03.28

모집단의 평균벡터, 공분산행렬, 상관행렬

표본집단의 평균벡터, 공분산행렬, 상관행렬

'Research > 확률, 통계' 카테고리의 다른 글

티스토리툴바