확률질량함수와 확률밀도함수 (왜 질량과 밀도??)
확률질량함수
확률질량함수(probability mass function, PMF)는 이산확률변수의 확률분포를 나타내는 함수이다. 즉, 확률변수가 취할 수 있는 값이 유한개이거나 자연수와 같이 셀 수 있는 이산확률변수일 때, 그 불연속한 값에 대한 확률을 나타내는 함수가 바로 확률질량함수이다.
한 개의 동전을 두 번 던지는 시행에서 앞면이 나오는 횟수를 확률변수 X라고 할 때, 확률변수 X가 취할 수 있는 값은 0, 1, 2이고, 이때 각각의 확률은
이다.
확률밀도함수
연속확률변수의 경우 확률변수가 취할 수 있는 값이 연속적이며 무한하기 때문에 분포를 표현하는 것이 불가능하다. 만약 이산형처럼 특정한 확률변수 하나에 특정한 확률값에 대응된다면, 어떤 확률변수가 특정한 구간 안에 포함될 확률은 무한대가 되어 버린다. 확률변수가 취할 수 있는 값이 무한개이기 때문이다. 그렇다고 특정한 확률변수의 값에 대한 확률값을 0으로 설정할 수도 없다. 이렇게 되면 특정 구간 안에 확률변수가 포함될 확률은 어느 구간에서든 0이 되어버리기 때문이다. 연속형 확률변수의 이러한 난점을 돌파하기 위해 확률밀도함수(probability density function, PDF)가 필요하게 되었다.
연속확률변수 X의 확률밀도함수 는 다음과 같은 성질을 같는다.
즉, 확률밀도함수가 정의된 구간 내에 연속확률변수 X가 포함될 확률은 1이라는 뜻이고, 특정 구간 과 에 연속확률변수 X가 포함될 확률은 확률밀도함수를 그 구간에 대해 정적분한 것과 같다.
왜 확률질량함수, 확률밀도함수라는 이름이 붙었을까?
이산확률변수의 확률분포를 나타내는 것이 확률질량함수고, 연속확률변수의 확률을 결정하는 함수는 확률밀도함수라고 위에서 설명했었다. 그런데 여기서 왜 '질량'이란 단어와 '밀도'라는 단어가 쓰이게 되었을까?
우선 확률밀도함수 $f(x)$의 구간 x1에서 x2의 정적분을 생각해보자.
$P(x1 \leq X \leq x2) = \int_{x1}^{x2}f(x)dx$
여기서 좌변은 [확률]이다. 그리고 우변에서 $dx$는 [구간길이]다. 그러면 $f(x)$의 단위는 [확률/구간길이]를 의미한다고 볼 수 있다. 왜냐하면 [확률/구간길이] x [구간길이] = [확률]이기 때문이다. 확률을 일종의 양(질량)으로 보고, 구간길이를 일종의 부피로 본다면, [확률/구간길이]는 [질량/부피]가 되므로 '밀도'를 의미하게 된다. 밀도는 단위 부피당 질량이기 때문이다. 따라서 $f(x)$는 '확률밀도함수'가 되는 것이다.
반면 이산확률변수 X의 경우 공식1과 같이 X의 값에 따라 각각 확률(질량)을 나타낼 수 있으므로, $p(x)$를 확률질량함수라고 부르는 것이다.
<참고자료>
[1] 이홍섭, "개념원리 확률과 통계"
[2] https://m.blog.naver.com/PostView.nhn?blogId=cto_hwangga&logNo=220243040255&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F, morgin "확률질량함수와 확률밀도함수"