[정보이론] 정보량과 엔트로피의 의미
정보이론은 신호에 존재하는 정보의 양을 측정하는 이론이다. 정보이론의 핵심은 잘 발생하지 않는 사건은 자주 발생하는 사건보다 정보량이 많다는 것이다.
정보량이란
우선 정보이론에서 '정보량'이 무엇을 뜻하는지 알 필요가 있다. 정보이론에서 정보량이란 '놀람의 정도'를 의미한다. 놀람의 정도라는 것은 모두가 알만한 정보가 아니라 새롭고 특이해서 사람들로 하여금 놀람을 일으키는 정도라고 볼 수 있다. 식상한 정보일수록 정보량이 적고, 놀라움을 주는 정보일수록 정보량이 크다.
정보량이 무엇인지 직관적으로 이해하기 위해 하나의 예를 들어보겠다. 한 대학 수업에서 교수님이 강의를 마치기 전에 아래와 같은 말 중 하나를 했다고 가정해보자.
A. 다음 시간에 봅시다.
B. 다음 시간에는 다른 교수님이 대신 수업하실 거에요.
C. 이 수업 모두에게 A학점 줄거에요. 그리고 이번 학기 더이상 수업 없습니다.
어떤 말을 들었을 때 학생들이 가장 놀랄까? 바로 C이다. 일반적이지 않고, 일어날 확률이 매우 작기 때문이다. 학생들은 매우 놀람과 함께 좋아서 난리를 칠 것이다. 반면 A는 가장 일반적이기에 학생들을 전혀 놀랍게 하지 않는다. 아주 당연하게 받아들일 것이다. B는 학생들에게 약간의 놀라움을 줄 수도 있다. 이 중 정보량이 큰 순서로 나열하면, C > B > A이다.
또 다른 예를 들어보자. 지난해 2018 러시아 월드컵에서 우리나라와 독일이 맞붙었다. 가능한 결과는 세가지였다. 한국 승, 독일 승, 무승부. 이 중에서 어떤 결과가 가장 사람들을 놀라게 할까? 바로 한국 승이다. 그 다음은 아마도 무승부일 것이다. 독일이 이기는 결과는 별로 사람들에게 놀라움을 선사하지 않는다. 우리나라가 독일을 이길 확률이 매우 적기 때문에 우리나라가 독일을 이긴 것은 정보량이 큰 정보라고 말할 수 있다. 우리나라의 승리는 실제로 전세계를 놀랍게 했다. 반면 독일이 우리나라를 이기는 것은 정보량이 작은 정보라고 말할 수 있다.
그러면 놀람의 정도를 반영하는 '정보의 양'을 수치화할 수 있을까? 놀랍게도 정보량은 다음과 같이 계산될 수 있다. 누가 만들었는지 참 신박하다. 참고로 R. V. Hartley라는 사람이 처음 제안했다.
...(공식1: 정보량)
여기서 p(x_j)는 x_j가 발생할 확률이다. 확률이므로 0이상 1이하의 어떤 실수이다. 로그의 밑 a는 어떤 정보를 측정하느냐에 따라 임의로 결정된다. 주로 2를 많이 사용한다. 또한 밑이 2일 때 정보량의 단위는 비트(bit)고, 밑이 e일 때 정보량의 단위는 nat(natural unit)이다.
왜 이런 공식을 사용할까? 이 공식이 정보량을 나타낼 수 있을까? 이해를 돕기 위해 그래프를 그려보았다.
오른쪽 그래프를 보면, P(x)가 0에 가까울 수록 정보량 I(x_j)은 무한대로 커지고, P(x)가 1에 가까울 수록 정보량은 0에 가까워짐을 확인할 수 있다. 정보량은 음수가 될 수 없다. 따라서, 위 공식1은 발생 확률이 적은 사건은 큰 정보량을 갖고, 발생 확률이 큰 사건은 작은 정보량을 갖는다는 뜻을 반영한다.
미국 통계분석사이트인 '파이브서티에이트'는 2018 러시아 월드컵에서 한국이 독일에게 승리할 확률을 5%로 예측했고, 독일이 승리할 확률은 81%로, 비길 확률은 14%로 예측했다.
(출처: http://news.chosun.com/site/data/html_dir/2018/06/23/2018062300599.html)
이를 기반으로 각 사건의 정보량을 계산해보자. 독일이 한국을 이기는 경우 정보량은 다음과 같다:
그리고 한국이 이기는 경우 정보량은 다음과 같다:
마지막으로 두 팀이 비기는 경우 정보량은 다음과 같다:
계산한 바와 같이 한국이 이기는 경우가 독일이 이기는 경우와 비기는 경우보다 훨씬 더 정보량이 많다.
즉, 매우 놀라운 사건이라는 것이다. 두 팀이 비기는 것도 독일이 한국을 이기는 것보다 정보량이 훨씬 크다. 사실 두 팀이 비기는 것도 놀라운 결과였다는 것이다.
엔트로피란
일반적으로 특정 결과와 관련된 정보량보다 가능한 모든 결과들의 평균 정보량에 더 큰 관심을 갖는다. 엔트로피가 바로 정보량의 기댓값(평균)을 의미한다. 엔트로피는 다음과 같이 계산한다.
...(공식2: 엔트로피)
여기서
는 기댓값을 구하는 함수다. 엔트로피는 평균 놀람의 정도 또는 평균 불확실성으로 생각할 수 있다. 모든 결과가 비슷한 확률로 일어날 때 엔트로피가 가장 크다.
한국과 독일이 축구경기를 했을 때 엔트로피를 계산해보자. 즉, 평균 정보량은 다음과 같이 계산된다.
비교를 위해 스웨덴 vs 멕시코 전의 엔트로피도 계산하려고 한다. 미국 통계분석사이트인 '파이브서티에이트'는 2018 러시아 월드컵에서 스웨덴이 멕시코에게 이길 확률을 36%, 멕시코가 이길 확률을 34%, 비길 확률을 30%로 잡았다. 매우 박빙의 승부로 예측한 것이다. 그러면 스웨덴과 멕시코 경기의 엔트로피는 얼마일까?
1.5809비트로 한국과 독일전의 0.8595비트보다 약 두 배가량 크다. 따라서 스웨덴 vs 멕시코 전이 한국 vs 독일 전보다 정보량이 더 큰 경기였다고 볼 수 있다. 결과가 뻔히 예상되는 사건일 수록 엔트로피가 작고, 결과 예측이 힘들수록 엔트로피가 크다.
참고자료
[1] Rodger E. Ziemer, Willian H. Tranter, "Principles of communications: systems, modulation, and noise", sixth edition, WILEY
[2] https://brunch.co.kr/@chris-song/68, 브런치 글
[3] http://untitledtblog.tistory.com/119, 티스토리 글
[4] https://ratsgo.github.io/statistics/2017/09/22/information/, 깃헙 글
[5] http://blog.naver.com/PostView.nhn?blogId=gyrbsdl18&logNo=221013188633, 네이버 블로그 글, 개인적으로 가장 유용하게 읽었다.