모평균의 신뢰구간 추정하기
신뢰구간 추정에 대해 '언젠가 정리해야지 정리해야지' 미루다가 드디어 정리하게 되었다. 모호했던 개념들을 제대로 잡아보자.
신뢰구간이란?
추정에는 점추정(point estimation)과 구간추정(interval estimation)이 있다. 점추정은 모수가 얼마일 것이라고 하나의 수치를 추정하는 것이다. 여기서 모수는 모평균, 모분산, 모표준변차, 모비율 등 모집단의 특성에 관한 수치들을 의미한다. 구간추정은 모수가 어느 값 a와 어느 값 b 사이, 즉 어떤 구간 내에 몇 %의 확률로 존재할 것이라고 추정하는 것이다(엄밀히 따지면 정확한 의미는 아니지만, 이렇게 받아들이는 것이 이해하기 쉽다[4]). 그 확률을 신뢰수준(confidence level) 또는 신뢰도라고 부르고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 부른다. 여기서는 모평균 $\mu$의 신뢰구간을 추정하는 것을 다루겠다.
만약 누군가가 점추정를 통해 "A후보의 지지율은 54.3%입니다"라고 말한다면, 자신감 있어 보이더라도 틀린 말이 될 수 있다. 실제 지지율이 54.9%라면 말이다. 이와 같은 점추정은 틀릴 가능성이 높다. 반면 구간추정을 통해 "A후보의 지지율은 신뢰수준 95%로 신뢰구간 51.3%~57.3% 내에 있습니다"라고 말한다면, 좀 더 안전하다. 물론 구간추정도 틀릴 수 있지만, 점추정에 비하면 틀릴 가능성이 적다.
모수가 신뢰구간 안에 포함되지 않을 확률을 보통 $\alpha$로 표현한다[2]. 자연스럽게 모수가 신뢰구간 안에 포함될 확률, 즉 신뢰수준은 $1-\alpha$로 표현된다.
만약 신뢰수준 $1-\alpha$이 0.95 즉, 95%라면 $\alpha = 0.05$이다. 이해를 위해 아래 그림을 참고하자.
그림과 같이 모수가 신뢰구간에 속하지 않을 확률이 양쪽 꼬리부분에 각각 $\frac{\alpha}{2}$만큼씩 있다.
신뢰구간을 추정할 때는 상황에 따라 다른 확률분포를 사용해야한다. 만약 모분산 $\sigma^2$을 알고 있다면, 표본의 크기와 관계없이 정규분포를 사용한다. (사실 모분산을 알고 있는 경우는 굉장히 드물지만.) 만약 모분산을 모를 때, 표본의 크기가 충분히 크면 정규분포를, 표본의 크기가 작으면 t분포를 사용한다. t분포를 사용하려면 모집단이 정규분포를 따라야한다는 한계가 있다[1]. 아래 그림에 정리를 해놓았다.
모분산을 알 때 모평균의 신뢰구간 추정
먼저 모분산을 아는 경우부터 살펴보자. 모분산을 안다는 것은 모표준편차를 안다는 것과 마찬가지다. 모평균을 $\mu$, 모분산을 $\sigma^2$, 모표준편차를 $\sigma$라고 할 때, 크기가 n인 표본의 표본평균 $\bar{X}$을 표준화하면, 다음과 같이 Z통계량이 된다.
왜냐하면 표본평균은 정규분포 $N(\mu, \frac{\sigma^2}{n})$을 따르기 때문이다.
만약 95%의 신뢰수준으로 모평균이 신뢰구간 내에 존재한다고 하면, 표준정규분포표에 의해 다음과 같이 쓸 수 있다.
이 말은 a가 -1.96, b가 1.96이라는 것이다. 마찬가지로 신뢰수준이 $1-\alpha$일때도 그에 해당하는 a와 b의 값이 존재할 것이다. a와 b를 각각 $-z_{\alpha/2}$, $z_{\alpha/2}$라고 하면,
이다. 여기서 $z_{\alpha/2}$는 표준정규분포의 오른쪽 꼬리 $\alpha/2$에 해당하는 면적을 가지는 z값을 의미한다(아래 그림 참고).
따라서, 신뢰수준 $1-\alpha$인 신뢰구간은 다음과 같이 유도해낼 수 있다.
$\alpha$에 따른 $z_{\alpha/2}$의 값은 표준정규분포표를 참조하면 알 수 있다.
모분산을 알 때 모평균의 신뢰구간 추정 예제
그럼 이제 예제를 풀면서 모분산을 알 때 모평균의 신뢰구간을 어떻게 추정하는지 제대로 이해해보자.
전국 고등학교 남학생의 평균키를 조사하는데, 모표준편차가 15cm라고 한다. 이때 100명의 남학생을 모집단에서 임의로 뽑아 키를 쟀더니 평균키가 172cm였다. 전국 고등학교 남학생의 평균키에 대한 95% 신뢰구간과 99% 신뢰구간을 추정하라.
풀이>>
1) 95% 신뢰구간
이 문제에서 모표준편차 $\sigma=15$, 표본 크기 $n=100$, 표본평균 $\bar{X}=172$, $\alpha=0.05$, $\alpha/2=0.025$이다. 이 값들을 모평균의 신뢰구간 식에 대입하자. 그러면 신뢰구간은 다음과 같다.
$z_{0.025}$는 표준정규분포표에서 1 - 0.025 =0.975에 가장 가까운 z값을 찾으면 된다.
위 표준정규분포표에서 빨간색으로 표시한 것과 같이 z = 1.96일 때 0.975에 가장 가까우므로 $z_{0.025}$에 대입한 후 정리하면 신뢰구간을 알 수 있다.
2) 99% 신뢰구간
99% 신뢰구간에서는 $\alpha=0.01$, $\alpha/2=0.005$이다. 따라서 $z_{0.005}$를 알아야하는데, 이것은 표준정규분포표에서 1 - 0.005 =0.995에 가장 가까운 z값을 찾으면 된다. 위 표준정규분포표에서 파란색으로 표시한 것과 같이 z = 2.58일 때 0.995에 가장 가깝다. 따라서 99% 신뢰구간은 다음과 같이 계산할 수 있다.
95% 신뢰구간보다 99% 신뢰구간이 좀 더 넓은 것을 확인할 수 있다.
모분산을 모를 때 모평균의 신뢰구간 추정
모분산을 모를 때는 t분포를 사용한다. t분포는 정규분포와 상당히 비슷한데 중심부는 낮아지고 양쪽 꼬리는 좀 더 높은 종 형태이다(아래 그림 참고). 자유도가 작을수록 꼬리부분이 높아지고, 자유도가 높을수록 표준정규분포에 가까워진다. 이 자유도는 표본의 크기에 따라 결정된다. (자유도 = n - 1)
모분산, 즉 모표준편차를 모르기 때문에 모표준편차 $\sigma$ 대신에 표본표준편차 $s$을 사용한다. t통계량은 다음과 같이 쓸 수 있다.
따라서 모분산을 모를 때 모평균의 신뢰구간은 다음과 같이 바뀐다.
$t_{\alpha/2}$은 t분포표를 참조하면 알 수 있다.
모분산을 모르더라도 표본의 크기가 충분히 크다면($n \geq 30$) 정규분포를 사용할 수 있다. 표본의 크기가 30이상이면 t분포는 정규분포와 비슷해지기 때문이다. 이때는 Z변량에서 모표준편차 자리에 표본표준편차를 사용한다.
모분산을 모를 때 모평균의 신뢰구간 추정 예제1
모분산을 모르고 표본의 크기가 작을 때 모평균의 신뢰구간 추정하는 예제를 먼저 풀어보자.
새롭게 개발한 자동차의 경제성을 측정하기 위해 휘발유 1리터로 주행할 수 있는 거리를 10대의 표본을 대상으로 측정했다. 측정 결과 표본평균은 17km, 표본표준편차는 0.7km였다. 이때 신형 자동차가 휘발유 1리터로 주행할 수 있는 평균거리의 95% 신뢰구간을 구하시오[5].
풀이>>
모표준편차를 모르고, 표본의 크기가 10으로 작기 때문에 t분포를 이용해야 한다. 표본평균 $\bar{X}=17$, 표본표준편차 $s = 0.7$, $n=10$, $\alpha=0.05$, $\alpha/2=0.025$이므로 신뢰구간을 다음과 같이 쓸 수 있다.
자유도 n-1 = 9일 때 $t_{0.025}$를 아래 t분포표에서 찾아보면 2.262임을 알 수 있다.
$t_{0.025}$에 2.262를 대입해서 계산하면 다음과 같이 95% 신뢰구간이 결정된다.
모분산을 모를 때 모평균의 신뢰구간 추정 예제2
이번에는 모분산을 모르지만 표본의 크기가 클 때 모평균의 신뢰구간 추정하는 예제를 풀어보자.
어느 회사에서 제품의 모평균을 추정하기 위해 표본 30개를 뽑았는데, 표본평균이 500이고 표본표준편차가 40이라고 한다. 이 제품의 모평균에 대한 90% 신뢰구간을 추정하라.
풀이>>
모표준편차를 모르지만, 표본의 크기 n=30으로 30이상이므로 정규분포를 사용해도 된다. 문제에 의하면 $\bar{X}=500$, $s=40$, $\alpha=0.1$, $\alpha/2=0.05$이다. 90% 신뢰구간은 다음과 같은 과정으로 계산할 수 있다. ($z_0.05$는 위 표준정규분표표에서 참조했더니 1.64였다. )
이 신뢰구간이 t분포를 이용해서 구해도 유사할까? 확인해볼 필요가 있다. t분포를 이용해서 구하면 다음과 같이 계산된다. (자유도 n-1 = 29일 때 $t_{0.05}$를 t분포표에서 찾으면 1.699임을 알 수 있다.)
정규분포를 이용해서 90% 신뢰구간을 구한 것과 큰 차이가 없음을 알 수 있다. 이 차이는 자유도와 직접적인 관계가 있는 표본의 크기가 커지면 커질수록 더 작아질 것이다.
최선을 다해 쓴 글 중 하나입니다. 도움이 되시길 바라며 글을 마칩니다.^^ 도움이 되셨다면 공감을 눌러주시고, 질문 또는 피드백이 있으시면 댓글 남겨주세요!
참고자료
[1] https://blog.naver.com/antifatekr/221055745764, 설명충 "표본으로 모집단의 평균을 알 수 있는거야? - 중심극한의 정리와 모평균의 구간추정"
[2] https://math7.tistory.com/64?category=471451, 나부랭이의 수학블로그 "신뢰구간 개념정리!"
[3] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-confidence-level/, minitab 18 지원 "신뢰 수준의 정의"
[4] https://www.youtube.com/watch?v=XmESERDUgsc, 수악중독 "모평균의 추정"
[5] http://www.hansung.ac.kr/web/eng-statistics/4?p_p_id=EXT_BBS&p_p_lifecycle=1&p_p_state=exclusive&p_p_mode=view&p_p_col_id=column-1&p_p_col_count=1&_EXT_BBS_struts_action=%2Fext%2Fbbs%2Fget_file&_EXT_BBS_extFileId=657274, 이상복, PhD "공학통계 제 9장 통계적 추정"
[6] https://oscarpark.tistory.com/1, Oscar sj Park "정규분포 이야기"
[7] http://blog.daum.net/kwans_kim/56, 빗줄기 "t분포표"
[8] http://contents.kocw.net/KOCW/document/2015/hanyang_erica/baekseunghyun/8-2.pdf
(본문 내 쿠팡 파트너스 링크를 통해 물건을 구입하시면, 저는 일정액의 수수료를 제공받습니다.)