Research/확률, 통계

다변량 정규분포의 확률밀도함수 (MATLAB 소스코드 포함)

bskyvision.com 2019. 4. 2. 12:49

일변량 정규분포(univariate normal distribution), 즉 변수가 하나인 정규분포를 변수가 여러 개인 경우로 일반화한 것이 바로 다변량 정규분포(multivariate normal distribution)이다. 

 

그러면 일변량 정규분포부터 이변량 정규분포, 그리고 다변량 정규분포의 확률밀도함수(probability density function, PDF)들의 공식에 대해서 정리해보자.

 

일변량 정규분포의 확률밀도함수

가장 익숙한 확률변수가 하나인 경우를 먼저 살펴보자. 일변량 정규분포의 PDF의 공식은 다음과 같다. 

 

 

여기서 생각해볼만한 것은 

 

 

의 물리적 의미이다. 이것은 x에서  사이의 통계적 거리(statistical distance)의 제곱을 의미한다. 즉, x가 평균에서 가까울수록 통계적거리는 짧아지고, 에 가까워지므로 일변량 정규분포의 PDF 값은 최대에 가까워지는 것이다. 반면 x가 평균에서 멀면 통계적거리는 그만큼 길어지고, 일변량 정규분포의 PDF 값은 0에 가까워진다. 이런 이유로 정규분포의 PDF는 결국 종모양과 같은 형태의 그래프를 갖게 된다. 

 

평균이 0이고, 표준편차가 1인 일변량 정규분포의 PDF의 그래프는 다음과 같다. 

 

일변량 정규분포의 PDF

위 그래프는 MATLAB에서 다음과 같은 코드로 작성했다. 

clc, clear, close all

x = -10:0.1:10;
mu = 0; % 평균
sigma = 1; % 표준편차

y = normpdf(x, mu, sigma); % 일변량정규분포의 확률밀도함수

plot(x, y);
xlabel('x'); 
ylabel('y');
title('univariate pdf');

 

이변량 정규분포의 확률밀도함수

이제 확률변수가 두 개인 경우를 살펴보자. 확률변수들 을 담은 확률벡터 X는 다음과 같다. 

 

 

이 확률벡터의 평균벡터(mean vector)와 공분산행렬(covariance matrix)는 각각 다음과 같이 표기할 수 있다. 

 

 

 

 

이때 이변량 정규분포의 PDF는 다음과 같은 공식으로 표현할 수 있다.

 

 

여기서 $|\Sigma|$은 절대값을 나타내는 것이 아니라 $\Sigma$의 행렬식(determinant)임을 주의하자. 일변량 정규분포의 PDF에서와 같이

 

 

는 x와 사이의 통계적 거리의 제곱을 나타낸다. 이변량의 경우로 쓰인 것일뿐 의미적 차이는 없다. 

 

평균벡터가 [0; 0]이고 공분산행렬이 [0.25 0.3; 0.3 1]인 이변량 정규분포의 PDF의 그래프는 다음과 같이 그려진다.

 

이변량 정규분포의 PDF

 

위 그래프는 아래와 같은 MATLAB 코드로 구현된 것이다. 

clc, clear, close all

x1 = -5:0.1:5;
x2 = -5:0.1:5;
[X1, X2] = meshgrid(x1, x2);
X = [X1(:) X2(:)];

mu = [0 0]; % 평균벡터
sigma = [0.25 0.3; 0.3 1]; %공분산행렬

y = mvnpdf(X, mu, sigma); %다변량 pdf
y = reshape(y, length(x2), length(x1));

surf(x1, x2, y)
xlabel('x1'); 
ylabel('x2');
zlabel('y');
title('bivariate pdf');

 

다변량 정규분포의 확률밀도함수

이제 확률변수가 2개가 넘어서 p개인 다변량 정규분포를 살펴보자. p개의 확률변수들을 담은 확률벡터 X는 다음과 같다. 

 

 

이 확률벡터의 평균벡터와 공분산행렬는 각각 다음과 같이 표기할 수 있다.

 

 

 

이때 다변량 정규분포의 PDF는 다음과 같은 공식으로 표현할 수 있다. 

 

 

p차원의 정규분포는 간략히 로 나타낸다. 만약에 4차원 확률벡터 X가 정규분포를 따르면 로 표기한다. 다변량 정규분포의 PDF의 그래프는 4차원이 되기 때문에 그릴 수 없다. 3차원을 초과하는 공간은 현실적으로 표현이 불가능하기 때문이다. 

 

-----

 

어떠한 질문도 환영합니다. 설명이 부족한 부분이 있다면 질문해주세요.^^

 

 

<참고자료>

[1] https://rfriend.tistory.com/233, R Friend "다변량 정규분포 확률밀도함수"

[2] R. A. Johnson과 D. W. Wichern, "Applied multivariate statistical analysis (제6판)", 피어슨

[3] https://www.mathworks.com/help/stats/multivariate-normal-distribution.html, MATHWORKS "multivariate normal distribution"