중심극한정리
중심극한정리(central limit theorem, CLT)는 평균이 m, 분산이 $\sigma^2$인 임의의 모집단에서 크기가 n인 표본의 평균 $\bar{X}$의 분포는 n이 충분히 클 때, 정규분포 $N(m, \frac{\sigma^2}{n})$를 근사적으로 따른다는 것이다[3]. 표본의 크기 n이 일반적으로 30이상이면 충분히 큰 것으로 본다[4].
아래 그림은 정규분포가 아닌 여러 분포들이 표본의 크기가 커짐에 따라 정규분포에 수렴하는 것을 보여준다.
또한 모집단이 정규분포를 따르는 경우에는 표본의 크기에 관계없이 표본평균 $\bar{X}$는 정규분포 $N(m, \frac{\sigma^2}{n})$를 따른다[4].
중심극한정리 예제
중심극한정리를 이용하는 예제를 하나 풀어보자.
한 건전지 회사에서 생산한 건전지의 수명이 평균 400시간, 표준편차가 25시간(즉, 분산은 $25^2$)인 어떤 확률분포를 따른다고 가정하자. 이 건전지 100개의 표본에 대해 평균수명이 395시간에서 405시간 사이에 있을 확률을 구하라.
풀이>>
이 모집단의 모평균 $m = 400$, 모표준편차 $\sigma = 25$이다. 또한 표본의 크기 n = 100이므로 충분히 크다고 볼 수 있다. 따라서 이 모집단이 어떤 분포를 따르던 관계없이, 표본평균 $\bar{X}$은 근사적으로 정규분포 $N(m, \frac{\sigma^2}{n}) = N(400, \frac{25^2}{100})$을 따른다. 중심극한정리에 의해서 말이다.
표본의 평균수명이 395시간에서 405시간 사이에 있을 확률을 구하라고 했기 때문에, $P(395 \leq \bar{X} \leq 405)$을 구하면 된다. 표준정규분포표를 이용하기 위해 표준화를 해준 다음에 표준정규분포표를 참조해서 확률을 구해주면 다음과 같이 된다.
$\begin{align*}
P(395 \leq \bar{X} \leq 405) &= P(\frac{395-400}{25/10} \leq Z \leq \frac{405-400}{25/10})\\
&= P(-2 \leq Z \leq 2) \\
&= 2P(0 \leq Z \leq 2)\\
&= 2(0.4772) \\
&= 0.9544
\end{align*}$
생산된 건전지에서 임의로 100개를 추출했을때 그 건전지들의 평균수명이 395시간과 405시간 사이에 있을 확률이 95%가 넘는다는 뜻이다.
중심극한정리 이제 조금 감이 오나요?
<참고자료>
[1] https://blog.naver.com/antifatekr/221055745764, 설명충 "표본으로 모집단의 평균을 알 수 있는거야?-중심극한의 정리와 모평균의 구간추정"
[2] https://math7.tistory.com/64?category=471451, 나부랭이의 수학블로그 "신뢰구간 개념정리!"
[3] https://m.blog.naver.com/mykepzzang/220851280035, 존이 "[확률과 통계] 48. 중심극한정리, Central Limit Theorem"
[4] 이홍섭 "개념원리 확률과 통계"
'Research > 확률, 통계' 카테고리의 다른 글
[정보이론] 정보량과 엔트로피의 의미 (2) | 2019.10.25 |
---|---|
kullback-leibler divergence(KL 발산)의 간략한 설명 (14) | 2019.09.09 |
자료를 대표하는 숫자, 대표값: 평균, 중앙값, 최빈값 (0) | 2019.06.03 |
모평균의 신뢰구간 추정하기 (31) | 2019.05.16 |
독립 표본 t검정은 무엇인가? (MATLAB 코드 포함) (0) | 2019.04.30 |
다변량 정규분포의 확률밀도함수 (MATLAB 소스코드 포함) (2) | 2019.04.02 |
이산확률변수들의 공분산과 상관계수 구하기 (0) | 2019.04.02 |
모집단과 표본집단의 평균벡터, 공분산행렬, 상관행렬 (2) | 2019.04.01 |