자료를 대표하는 숫자, 대표값: 평균, 중앙값, 최빈값
오늘 포스팅하는 대표값은 예전에 중국 칭화대학교의 신호처리 Lab에 석사를 지원했을 때, 면접 중에 교수님들이 내게 물어봤던 것이다.
"평균, 중앙값이 뭐죠? 또 C언어로 코딩한다면 어떻게 코딩해야할까요?"
그 당시에 나는 이 질문에 제대로 답변을 못했다. 중앙값에 대한 이해가 없었다. 당연히 중앙값에 대해서는 코드를 작성할 수도 없었다. 그리고 얼마 지나지 않아 불합격 소식을 듣게 되었다. 그 덕분(?)에 나는 지금 이 톈진대학교에 오게 되었다. 이곳에서 그간 많이 성장해왔으니 감사하게 생각하고 있다.
그만큼 대표값이라는 개념은 통계에 있어서 매우 기본 중의 기본이다. 그 당시에 나는 통계학에 있어서는 정말 기본도 몰랐던 것이다. 통계학은 어떤 전공을 막론하고 필수과목이 되어가고 있다. 혹시 나처럼 어떤 학교나 회사에 지원할 때 면접관이 물어볼 수도 있으니 잘 알아두길 권한다.
대표값
많은 숫자로 이루어진 자료가 있다고 가정하자. 이러한 자료 전체의 특징을 대표적으로 나타내는 값을 바로 대표값이라고 한다. 대표값은 자료의 중심적 성향(central tendency)을 나타내는 수치다. 대표값에는 평균(mean), 중앙값(median), 최빈값(mode) 등이 있다.
평균은 전체변량의 총합을 변량의 개수로 나눈 값을 의미한다. 중앙값은 변량을 작은 값부터 크기 순서로 나열할 때, 중앙에 위치한 값을 의미한다. 최빈값은 변량 중에서 가장 많이 나타나는 값을 말한다.
아주 간단하게 평균, 중앙값, 최빈값에 대해 정의를 내렸는데, 하나의 예를 통해 좀 더 자세하게 살펴보자.
3, 1, 6, 2, 5, 5, 2, 5, 3과 같이 9개의 숫자들로 구성된 자료가 있다고 가정하자. 이 자료의 평균, 중앙값, 최빈값을 구해보자.
1) 평균
위 자료의 평균을 구하는 것은 매우 간단하다. 수치들을 모두 더해서 수치의 갯수로 나눠주면 되기 때문이다.
$\frac{3+1+6+2+5+5+2+5+3}{9} = 3.5556$
2) 중앙값
중앙값을 구하기 위해서는 먼저 작은 숫자부터 하나씩 나열해줘야한다. 그러면 다음과 같아진다.
1, 2, 2, 3, 3, 5, 5, 5, 6
중앙값은 단순히 크기 순으로 나열했을 때 중앙에 위치하는 값이다. 따라서 중앙값은 3이 된다.
방금은 변량의 갯수가 홀수개이므로 이렇게 중앙에 있는 숫자를 찾아서 중앙값으로 삼을 수 있었다. 그런데 만약 변량이 짝수개라면 어떻게 해야할까? 중간에 위치한 두 숫자의 평균이 바로 중앙값이 된다.
작은 수부터 나열된 자료가 다음과 같다고 생각해보자(위에서 1만 제거했다).
2, 2, 3, 3, 5, 5, 5, 6
이 8개 숫자들의 중간은 3과 5의 사이라고 볼 수 있다. 따라서 이런 경우에 중앙값은 3과 5의 평균, 즉 (3 + 5)/2 = 4가 된다.
3) 최빈값
최빈값은 가장 빈도수가 큰 값이다. 3, 1, 6, 2, 5, 5, 2, 5, 3에서 1은 1회, 2는 2회, 3은 2회, 5는 3회, 6은 1회 출현하므로, 여기서 최빈값은 5가 된다.
정리하자면, 3, 1, 6, 2, 5, 5, 2, 5, 3이라는 자료에서 평균은 3.5556, 중앙값은 3, 최빈값은 5이다.
이상치가 존재할 때는 평균보단 중앙값과 최빈값
사실상 평균을 대표값으로 가장 많이 사용하긴 하지만, 자료(데이터) 내에 이상한 수치, 즉 이상치가 존재하는 경우에는 평균은 데이터를 대표하는 대표값으로써 적합하지 않을 수 있다. 1, 1, 2, 3, 5, 1, 6, 4, 100, 1, 2와 같은 데이터가 있다고 가정해보자. 평균을 구해보면, 11.4545가 나온다. 대부분이 6이하의 고만고만한 숫자들인데 평균은 10보다 큰 값이 나왔다. 100이라는 다른 변량들과는 너무나 차이가 큰 단 하나의 변량 때문이다. 이때는 평균보다는 중앙값이나 최빈값이 이 데이터의 대표값으로 좀 더 잘 어울린다고 볼 수 있다.
위 데이터를 작은 변량값부터 하나씩 나열하면, 1, 1, 1, 1, 2, 2, 3, 4, 5, 6, 100이다. 따라서 중앙값은 2가 된다. 또한 최빈값은 1이 된다. 1과 2가 11.4545보다는 이 데이터를 더 잘 대표한다고 생각되지 않는가?
중앙값과 최빈값은 평균에 비해 이상치의 영향을 덜 받는 robust한 대표값이라고 말할 수 있다.
<참고자료>
[1] http://m.blog.daum.net/rhaoslikesan/293?categoryId=33, 산을좋아한라쯔 "평균, 기댓값, 분산, 기대효용"
[2] 와쿠이 요시유키, 와쿠이 사다미 지음, "그림으로 설명하는 개념 쏙쏙 통계학", 성안당
[3] https://terms.naver.com/entry.nhn?docId=5683419&cid=47324&categoryId=47324, 네이버 지식백과, "중학수학 비주얼 개념사전 3학년 2학기, 대푯값"