중심극한정리(표본이 크면 표본평균은 결국 정규분포를 따르네?)
중심극한정리
중심극한정리(central limit theorem, CLT)는 평균이 m, 분산이 $\sigma^2$인 임의의 모집단에서 크기가 n인 표본의 평균 $\bar{X}$의 분포는 n이 충분히 클 때, 정규분포 $N(m, \frac{\sigma^2}{n})$를 근사적으로 따른다는 것이다[3]. 표본의 크기 n이 일반적으로 30이상이면 충분히 큰 것으로 본다[4].
아래 그림은 정규분포가 아닌 여러 분포들이 표본의 크기가 커짐에 따라 정규분포에 수렴하는 것을 보여준다.
또한 모집단이 정규분포를 따르는 경우에는 표본의 크기에 관계없이 표본평균 $\bar{X}$는 정규분포 $N(m, \frac{\sigma^2}{n})$를 따른다[4].
중심극한정리 예제
중심극한정리를 이용하는 예제를 하나 풀어보자.
한 건전지 회사에서 생산한 건전지의 수명이 평균 400시간, 표준편차가 25시간(즉, 분산은 $25^2$)인 어떤 확률분포를 따른다고 가정하자. 이 건전지 100개의 표본에 대해 평균수명이 395시간에서 405시간 사이에 있을 확률을 구하라.
풀이>>
이 모집단의 모평균 $m = 400$, 모표준편차 $\sigma = 25$이다. 또한 표본의 크기 n = 100이므로 충분히 크다고 볼 수 있다. 따라서 이 모집단이 어떤 분포를 따르던 관계없이, 표본평균 $\bar{X}$은 근사적으로 정규분포 $N(m, \frac{\sigma^2}{n}) = N(400, \frac{25^2}{100})$을 따른다. 중심극한정리에 의해서 말이다.
표본의 평균수명이 395시간에서 405시간 사이에 있을 확률을 구하라고 했기 때문에, $P(395 \leq \bar{X} \leq 405)$을 구하면 된다. 표준정규분포표를 이용하기 위해 표준화를 해준 다음에 표준정규분포표를 참조해서 확률을 구해주면 다음과 같이 된다.
$\begin{align*}
P(395 \leq \bar{X} \leq 405) &= P(\frac{395-400}{25/10} \leq Z \leq \frac{405-400}{25/10})\\
&= P(-2 \leq Z \leq 2) \\
&= 2P(0 \leq Z \leq 2)\\
&= 2(0.4772) \\
&= 0.9544
\end{align*}$
생산된 건전지에서 임의로 100개를 추출했을때 그 건전지들의 평균수명이 395시간과 405시간 사이에 있을 확률이 95%가 넘는다는 뜻이다.
중심극한정리 이제 조금 감이 오나요?
<참고자료>
[1] https://blog.naver.com/antifatekr/221055745764, 설명충 "표본으로 모집단의 평균을 알 수 있는거야?-중심극한의 정리와 모평균의 구간추정"
[2] https://math7.tistory.com/64?category=471451, 나부랭이의 수학블로그 "신뢰구간 개념정리!"
[3] https://m.blog.naver.com/mykepzzang/220851280035, 존이 "[확률과 통계] 48. 중심극한정리, Central Limit Theorem"
[4] 이홍섭 "개념원리 확률과 통계"