2017-06-24 14:23:07

최근에 고2 수학 과외 준비를 하면서 정규 분포의 표준화가 왜 중요한지 조금이나마 이해하게 되었기 때문에 정리 차원에서 포스팅을 한다. 



▶ 정규분포


정규분포(normal distribution)는 가우시안 분포(Gaussian distribution)라고도 불린다. 평균에 가까울수록 발생할 확률이 높고 평균에서 멀어질수록 발생할 확률이 적은 현상을 나타낼 수 있다. 만약 우리나라 성인 남성 평균 키가 173cm이라면, 173cm인 사람의 수가 가장 많고, 163cm 또는 183cm인 사람의 수는 상대적으로 적을 것이다. 이런 상황에서 185cm인 남자를 만나 결혼하고 싶은 여자가 있다면 그만큼 배우자 선택 폭이 좁아진다고 볼 수 있다. 남녀 평등을 위해 또 하나의 예를 들어보자. 우리나라 여성 평균 외모 점수(만약 그런 것이 존재한다면)가 50점이라면, 당연히 50점 부근인 사람이 가장 많을 것이다. 80점 이상인 사람은 그만큼 적을 것이다. 그런데도 불구하고 어떻게든 80점 이상의 여자와 결혼하려고 한다면 그만큼 결혼확률이 낮아지는 것이다. 


이러한 현상을 잘 나타내는 분포가 바로 정규분포이다. 정규분포를 따르는 확률변수의 확률밀도함수(probability density function)의 그래프를 그리면 아래 그림1과 같은 좌우대칭인 종 모양이 된다. 



▶ 정규분포의 표준화


정규분포를 따르지만 평균과 표준편차가 각각 다른 현상들이 있을 때, 서로 비교하려면 표준화가 필요하다. 간단한 예를 들어 수학 시험과 영어 시험을 봤는데 수학 점수는 평균이 80점이고 표준편차가 20이었고, 영어 점수는 평균이 60이고 표준편차가 10였다. 이런 상황에서 자녀가 수학을 90점 맞았고, 영어를 80점 맞았다면 어떤 것을 더 칭찬해줘야 할까? (물론 결과에 상관없이 수고했다고 말해주는 것이 가장 좋겠지만.) 


우선 표면적인 점수로 보면 수학 시험을 영어보다 더 잘본 것처럼 보인다. 다만 영어는 평균이 60점이라고 생각하면 영어를 80점 맞은 것도 잘한 것 아닐까? 공정한 상대 평가를 위해 정규 분포의 표준화가 필요하다. 수학을 90점 이상 받는 것과, 영어를 80점 이상 맞는 것이 각각 상위 몇 %에 속하는 것인지 정규분포의 표준화를 이용해서 구할 수 있다. 


정규 분포의 표준화는 평균이 m이고 표준편차가 인 정규 분포를 따르는 확률변수 X를 평균이 0이고 표준편차가 1인 표준정규분포를 따르는 확률변수 Z로 바꾸는 것을 의미한다. 


...(공식1: 정규분포의 표준화)


평균과 표준편차가 서로 다른 확률변수들을 같은 평균, 같은 표준편차인 상황에서 비교하면 공정한 비교가 가능할 것이다. 


그러면 수학 점수를 확률변수 X, 영어 점수를 확률변수 Y로 놓고 각각 정규분포를 따르는 확률변수 Z로 표준화를 해보자. 


수학 점수를 90점 이상 받을 확률, P(X>=90) = P(Z>=(90-80)/20) = P(Z>=0.5) = 0.3085 => 약 상위 30%


영어 점수를 80점 이상 받을 확률, P(Y>=80) = P(Z>=(80-60)/10) = P(Z>=2) = 0.0228 => 약 상위 2%



그림 1. 표준정규분포 곡선



표준화를 해서 각각의 확률을 구해보니, 수학을 90점 이상의 점수를 받는 것은 상위 30%에 속하는 것으로 전교학생 수를 100명으로 생각하면 100명 중에서 30명은 90점 이상이라는 것이다. 반면 영어가 80점 이상인 것은 상위 2%에 속하는 것으로 100명 중에서 2명만이 영어 점수가 80점 이상이라는 것이다. 그러니 영어 시험을 매우 잘 본 것이다. 표면적으로 보이는 점수가 높다고 좋은 것이 아니다. 


실제로 2005년 11월에 내가 수능을 봤을 때 언어 영역은 93점이었고, 영어는 88점이었다. 그런데 그때 워낙 언어 영역이 역대급으로 쉽게 나와서 3등급이었던 기억이 난다. 반면 영어는 언어 영역보다 점수는 낮았지만 2등급이었다. 이처럼 표면적인 점수가 높다고 해서 무조건 시험을 잘 본 것이 아니다. 


참고로 수리 영역은 부끄럽지만 60점이었고 4등급이었다. 그 수학 점수로 공대에 가려고 했으니 선택권이 참 적었던 기억이 있다. 나는 정시 올인이었기에 가나다군 총 세군데 학교에 지원했는데, 동국대 전자공학과에 예비 13번이 된 것을 제외하고는 불합격했다. 예비 13번이니 합격한 13명이 동국대 말고 다른 곳에 가야지만 합격할 수 있는 상황이었다. 추가 1차 합격자 발표때도 내 이름은 없었다. 감사히 추가 2차 합격자 발표때 합격했었다. 그리고 그 동국대학교는 내 고향과 같은 곳이 되었다. 2006년에 입학해서 2015년에 졸업했으니 말이다. 



bskyvision의 추천글 ☞

가우시안(정규) 분포와 라플라스 분포의 차이

정규화(normalization)와 표준화(standardization), 머신러닝 성능 향상을 위한 필수 단계

[MATLAB] 표준화된 z-점수 산출하기, zscore 함수



<참고 자료>

[1] 개념원리 확률과 통계, 이홍섭