확률변수란
어떤 시행의 결과에 따라 변수 X가 취할 수 있는 값과 그 확률이 각각 정해질 때, 이 변수 X를 확률변수(random variable)라 부른다. 확률변수 X가 어떤 값 x를 취할 확률을 기호로 P(X=x)로 나타낸다. 확률변수는 대개 알파벳 대문자(X, Y, Z 등)로 나타내고, 확률변수가 취하는 값은 소문자(x, y, z 등)로 나타낸다.
확률변수는 사실 표본공간을 정의역으로 하고, 실수 전체의 집합을 공역으로 하는 일종의 함수다. 하지만 변수 역할도 하기 때문에 변수라는 이름이 붙여진 것이다.
한 개의 동전을 두 번 던질 때 앞면이 나오는 횟수를 확률변수 X라고 해보자. 이 시행의 표본공간 S = {(앞, 앞), (앞, 뒤), (뒤, 앞), (뒤, 뒤)}이다. 표본공간에 총 4개의 원소가 있다. 각 원소에 앞면이 나온 횟수를 대응시키면 각각 2, 1, 1, 0이다. 즉 확률변수 X는 0, 1, 2 중 하나의 값을 취하는 변수이다. 확률변수 X가 0의 값을 취할 확률은 P(X=0)=1/4이고, X가 1의 값을 취할 확률은 P(X=1)=2/4=1/2이고, X가 2의 값을 취할 확률은 P(X=2)=1/4이다. P(X=0) + P(X=1) + P(X=2) = 1이다.
또다른 확률변수를 생각해보자. 주사위를 두 번 반복하여 던질때 두 눈의 합을 확률변수 X라고 해보자. 이 시행의 표본공간 S = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}이다. 총 36개의 원소로 구성되어 있다. 표본공간의 각 원소에 두 눈금의 합을 대응시키면 2, 3, 4, 5, 6, 7, 3, 4, 5, 6, 7, 8, 4, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10, 11, 7, 8, 9, 10, 11, 12이다. 따라서 확률변수 X는 2, 3, 4,..., 12 중 하나의 값을 취하는 변수이다. 확률변수 X가 2의 값을 취할 확률부터 12의 값을 취할 확률을 모두 나열하면 다음과 같다.
P(X=2) = 1/36
P(X=3) = 2/36
P(X=4) = 3/36
P(X=5) = 4/36
P(X=6) = 5/36
P(X=7) = 6/36
P(X=8) = 5/36
P(X=9) = 4/36
P(X=10) = 3/36
P(X=11) = 2/36
P(X=12) = 1/36
당연히 모두 합치면 1이 된다.
이산확률변수와 연속확률변수
이산확률변수(discrete random variable)는 확률변수 X가 취할 수 있는 값이 유한하기 때문에 셀 수 있는 확률변수다. 위에서 예를 든 '한 개의 동전을 두 번 던질 때 앞면이 나오는 횟수'와 '한 개의 주사위를 두 번 던질 때 눈금의 합'을 확률변수들로 삼으면, 이 확률변수들은 이산확률변수다. 확률변수가 취할 수 있는 값이 3개, 11개로 유한하기 때문이다.
반면 연속확률변수(continuous random variable)는 확률변수 X가 취할 수 있는 값이 어떤 범위에 속하는 모든 실수로 무한하기 때문에 셀 수 없는 확률변수다. 귤이 100개 들어있는 상자가 있는데 그 안에 있는 귤의 무게를 확률변수로 삼으면, 이 확률변수는 연속확률변수다. 확률변수가 취할 수 있는 값이 50g이상 150g이하에서(예를 들자면) 연속적으로 존재하기 때문이다. 10g, 20g, 30g 이런 식으로 결코 딱딱 안 떨어질 것이다. 아마도 101g, 97g, 95.8g, 102.1g 이런 식으로 값이 존재할 것이다.
<참고자료>
[1] 이홍섭, "개념원리 확률과 통계"
[2] https://blog.naver.com/mykepzzang/220835327089, 존이 "확률변수"
'Research > 확률, 통계' 카테고리의 다른 글
주변확률질량함수와 주변확률밀도함수 (0) | 2019.03.29 |
---|---|
결합확률질량함수와 결합확률밀도함수 (5) | 2019.03.29 |
이산확률변수의 기댓값(평균), 분산, 표준편차 (2) | 2019.03.28 |
확률질량함수와 확률밀도함수 (왜 질량과 밀도??) (4) | 2019.03.28 |
기술통계와 추론통계 (0) | 2019.03.28 |
모수와 표본 통계량(=모수 추정치) (2) | 2019.03.28 |
모집단(population)과 표본(sample) (0) | 2019.03.28 |
공분산과 상관계수의 이해 (5) | 2019.01.08 |