2017-09-17 20:56:15
반응형

베이즈 정리(Bayes theorem)는 예측과 관련된 논문을 읽다보면 단골 손님으로 등장한다. 1701년에 영국의 목사였던 베이즈에 의해 만들어진 것인데, 통계학자들을 크게 빈도주의와 베이즈주의으로 분류할 정도로 상당한 영향력을 가진 이론이다. 먼저 네이트 실버의 책 <신호와 소음>에 나오는 예제로 베이즈 정리를 이해해보자. 

 

1. 첫번째 예제

당신은 결혼한 사람이다. 그런데 출장을 마치고 집에 와보니 처음 보는 속옷이 당신 옷장 서랍 속에 들어 있다. 내 배우자가 날 속이고 바람을 피우고 있을 확률은 얼마일까?

 

여기에서 조건(E)은 당신이 문제의 그 속옷을 발견했다는 것이고, 당신이 참과 거짓을 평가하려는 가설(H)은 당신의 배우자가 바람을 피운다는 것이다. 당신은 그 확률을 구하고자 한다. 참고로 아래에서 H1은 가설이 참일 경우, H2는 가설이 거짓일 경우를 의미한다. 

 

다음 세 가지 변수의 값을 안다면 베이즈 정리에 의해 그 확률을 정확하게 계산할 수 있다. 

 

(1) 문제의 그 속옷이 당신의 배우자가 바람을 피운다는 '그 가설이 참인 조건' 아래에서 등장했을 확률을 추정할 필요가 있다. 배우자가 바람을 피우고 있는 상황에서 속옷이 발생할 확률은 우선 50%로 설정한다. 배우자가 바람을 피우고 있다고 해도 내연녀의 속옷이 집에서 발견되지 않을 확률도 꽤 높으니까.. 

=> P(E|H1)=0.5

 

(2) '그 가설이 거짓인 조건', 즉 남편이 바람을 피우는 것이 아닌데 팬티가 등장했을 확률도 추정할 필요가 있다. 이 확률은 비교적 적으니 5%로 설정하자. 예를 들어 남편이 아내 줄 선물로 팬티를 사서 빨아놨던가, 아니면 아내도 알만한 친한 여자 사람 친구가 하루 방문해서 옆방에서 자고 갔다가 깜빡하고 놔두고 간 상황 등이 있을 수도 있다. 

=> P(E|H2)=0.05

 

(3) 사전확률(prior probability)을 설정해야 한다. 즉, 당신이 그 팬티를 발견하기 전에 남편이 바람을 피울 거라고 당신이 생각한 확률이다. 결혼한 부부가 한 해 동안 바람을 피울 확률이 약 4%라는 연구 결과에 따라 4%를 사전확률로 설정한다. 

=> P(H1)=0.04

 

이 세 개의 값을 이용해 사후확률(posterior possibility)을 계산할 수 있다. 즉, 낯선 속옷이 등장한 상황에서 배우자가 바람을 피우고 있을 확률 말이다. 조건부 확률 공식을 이용하면 아래와 같은 베이즈 정리가 유도된다. 

 

 

계산 결과 약 29%의 확률을 갖는다. 낯선 속옷이 발견되었을 때 배우자가 바람을 피고 있을 확률이 생각보다 높지는 않다. 왜냐하면 사전확률, 즉 남편이 바람을 피울 확률을 작게 설정했기 때문이다. 아직 남편을 너무 의심하지는 말자. 

 

이 상황에서 며칠 후에 한 번 더 낯선 여자 속옷이 발견되었다고 해보자. 이제 사후확률이었던 29%는 남편이 바람을 피울 사전확률이 된다. 두 번째로 낯선 속옷이 발견된 상황에서 남편이 바람을 피울 확률은

 

 

이 된다. 약 80%로 상당히 높아졌다. 이제는 남편을 의심할만한 확률이다. 이처럼 새로운 증거가 나타날 때마다 계속해서 확률 추정치를 업데이트해가는 것이 베이지안적 사고 방식이다. 

 

2. 두번째 예제

좀 더 우리나라의 상황에 적합한 예제를 하나 만들어보았다. 북한이 핵실험을 진행했을 때 10년 안에 남한에 핵공격을 할 확률은 얼마나 될까? 역시 먼저 세 가지의 확률을 먼저 설정해야 한다. 

 

(1) 북한이 10년 내에 남한에 핵 공격을 시행한다는 조건에서 핵 실험을 할 확률: 핵 공격을 시행한다면 제대로 핵 무기가 제조되었는지 먼저 점검해보는 이유로 핵실험을 할 가능성이 꽤 높으므로 이 확률은 70%로 추정한다. 

=> P(E|H1) = 0.7

 

(2) 북한이 10년 내에 남한에 핵 공격을 시행하지 않는다는 조건에서 핵 실험을 할 확률: 핵 무기를 공격하기 위한 것이 아니라 방어용으로 만들었거나, 보유했음을 주변국에게 알리기 위해 핵실험을 했을 수도 있고 아니면 미국 등 다른 국가에 공격하기 위한 것일 수도 있으므로 이 확률은 50%로 추정한다. 

=> P(E|H2) = 0.5

 

(3) 북한이 10년 내에 남한에 핵 공격을 할 확률(사전 확률): 확률이 높진 않겠지만 아직 휴전 중인 남북 관계에서는 있을 수도 있는 일이므로 10%로 설정한다. 

=> P(E) = 0.1

 

준비가 다 되었으니 이제 베이즈 정리를 이용해서 사후확률, 즉 핵실험이 일어난 조건에서 북한이 10년 내에 남한에 핵 공격을 할 확률을 구해보자.

 

 

13.5%의 확률이 나왔다. 확률이 높지는 않지만 혹여나 발생했을 경우 엄청난 데이지가 예상되기 때문에 대비해야할 만한 수치다.

 

그렇다면 한 차례의 핵실험이 더 진행된다면 그 때의 핵공격 확률을 어떻게 될까? 이제 사후확률이었던 13.5%가 사전확률이 된다. 2차 핵실험이 진행된 경우에 10년 안에 남한에 핵공격을 할 확률(사후확률)을 계산하면,

 

 

17.9%의 확률이 나온다. 확률이 한결 더 높아진 것이다. 이처럼 핵실험이 계속해서 반복된다면, 북한이 남한에 핵공격할 확률은 점차 높아지는 것이다. 

 

10% => 1차 핵실험 => 13.5% => 2차 핵실험 => 17.9% => 3차 핵실험 => 23.39% => 4차 핵실험 => 30.54% => 5차 핵실험 => 38.1% => 6차 핵실험 => 46.29%

 

현재 북한이 6차 핵실험을 진행한 현재 핵공격을 자행할 확률은 46.29%에 도달했다. 물론 처음 사전확률을 10%로 꽤 높게 설정했고 다른 요소들도 충분히 다뤄야하긴 하지만... 46.29%라는 확률은 정확하지 않을 가능성이 크지만 분명한 것은 핵실험이 반복될 수록 핵공격의 가능성은 점차적으로 커진다는 사실이다. 핵공격을 대비할 분명한 정책이 필요한 시점이다.