베이즈 정리(Bayes theorem)는 예측과 관련된 논문을 읽다보면 단골 손님으로 등장한다. 1701년에 영국의 목사였던 베이즈에 의해 만들어진 것인데, 통계학자들을 크게 빈도주의와 베이즈주의으로 분류할 정도로 상당한 영향력을 가진 이론이다. 먼저 네이트 실버의 책 <신호와 소음>에 나오는 예제로 베이즈 정리를 이해해보자.
1. 첫번째 예제
당신은 결혼한 사람이다. 그런데 출장을 마치고 집에 와보니 처음 보는 속옷이 당신 옷장 서랍 속에 들어 있다. 내 배우자가 날 속이고 바람을 피우고 있을 확률은 얼마일까?
여기에서 조건(E)은 당신이 문제의 그 속옷을 발견했다는 것이고, 당신이 참과 거짓을 평가하려는 가설(H)은 당신의 배우자가 바람을 피운다는 것이다. 당신은 그 확률을 구하고자 한다. 참고로 아래에서 H1은 가설이 참일 경우, H2는 가설이 거짓일 경우를 의미한다.
다음 세 가지 변수의 값을 안다면 베이즈 정리에 의해 그 확률을 정확하게 계산할 수 있다.
(1) 문제의 그 속옷이 당신의 배우자가 바람을 피운다는 '그 가설이 참인 조건' 아래에서 등장했을 확률을 추정할 필요가 있다. 배우자가 바람을 피우고 있는 상황에서 속옷이 발생할 확률은 우선 50%로 설정한다. 배우자가 바람을 피우고 있다고 해도 내연녀의 속옷이 집에서 발견되지 않을 확률도 꽤 높으니까..
=> P(E|H1)=0.5
(2) '그 가설이 거짓인 조건', 즉 남편이 바람을 피우는 것이 아닌데 팬티가 등장했을 확률도 추정할 필요가 있다. 이 확률은 비교적 적으니 5%로 설정하자. 예를 들어 남편이 아내 줄 선물로 팬티를 사서 빨아놨던가, 아니면 아내도 알만한 친한 여자 사람 친구가 하루 방문해서 옆방에서 자고 갔다가 깜빡하고 놔두고 간 상황 등이 있을 수도 있다.
=> P(E|H2)=0.05
(3) 사전확률(prior probability)을 설정해야 한다. 즉, 당신이 그 팬티를 발견하기 전에 남편이 바람을 피울 거라고 당신이 생각한 확률이다. 결혼한 부부가 한 해 동안 바람을 피울 확률이 약 4%라는 연구 결과에 따라 4%를 사전확률로 설정한다.
=> P(H1)=0.04
이 세 개의 값을 이용해 사후확률(posterior possibility)을 계산할 수 있다. 즉, 낯선 속옷이 등장한 상황에서 배우자가 바람을 피우고 있을 확률 말이다. 조건부 확률 공식을 이용하면 아래와 같은 베이즈 정리가 유도된다.
계산 결과 약 29%의 확률을 갖는다. 낯선 속옷이 발견되었을 때 배우자가 바람을 피고 있을 확률이 생각보다 높지는 않다. 왜냐하면 사전확률, 즉 남편이 바람을 피울 확률을 작게 설정했기 때문이다. 아직 남편을 너무 의심하지는 말자.
이 상황에서 며칠 후에 한 번 더 낯선 여자 속옷이 발견되었다고 해보자. 이제 사후확률이었던 29%는 남편이 바람을 피울 사전확률이 된다. 두 번째로 낯선 속옷이 발견된 상황에서 남편이 바람을 피울 확률은
이 된다. 약 80%로 상당히 높아졌다. 이제는 남편을 의심할만한 확률이다. 이처럼 새로운 증거가 나타날 때마다 계속해서 확률 추정치를 업데이트해가는 것이 베이지안적 사고 방식이다.
2. 두번째 예제
좀 더 우리나라의 상황에 적합한 예제를 하나 만들어보았다. 북한이 핵실험을 진행했을 때 10년 안에 남한에 핵공격을 할 확률은 얼마나 될까? 역시 먼저 세 가지의 확률을 먼저 설정해야 한다.
(1) 북한이 10년 내에 남한에 핵 공격을 시행한다는 조건에서 핵 실험을 할 확률: 핵 공격을 시행한다면 제대로 핵 무기가 제조되었는지 먼저 점검해보는 이유로 핵실험을 할 가능성이 꽤 높으므로 이 확률은 70%로 추정한다.
=> P(E|H1) = 0.7
(2) 북한이 10년 내에 남한에 핵 공격을 시행하지 않는다는 조건에서 핵 실험을 할 확률: 핵 무기를 공격하기 위한 것이 아니라 방어용으로 만들었거나, 보유했음을 주변국에게 알리기 위해 핵실험을 했을 수도 있고 아니면 미국 등 다른 국가에 공격하기 위한 것일 수도 있으므로 이 확률은 50%로 추정한다.
=> P(E|H2) = 0.5
(3) 북한이 10년 내에 남한에 핵 공격을 할 확률(사전 확률): 확률이 높진 않겠지만 아직 휴전 중인 남북 관계에서는 있을 수도 있는 일이므로 10%로 설정한다.
=> P(E) = 0.1
준비가 다 되었으니 이제 베이즈 정리를 이용해서 사후확률, 즉 핵실험이 일어난 조건에서 북한이 10년 내에 남한에 핵 공격을 할 확률을 구해보자.
13.5%의 확률이 나왔다. 확률이 높지는 않지만 혹여나 발생했을 경우 엄청난 데이지가 예상되기 때문에 대비해야할 만한 수치다.
그렇다면 한 차례의 핵실험이 더 진행된다면 그 때의 핵공격 확률을 어떻게 될까? 이제 사후확률이었던 13.5%가 사전확률이 된다. 2차 핵실험이 진행된 경우에 10년 안에 남한에 핵공격을 할 확률(사후확률)을 계산하면,
17.9%의 확률이 나온다. 확률이 한결 더 높아진 것이다. 이처럼 핵실험이 계속해서 반복된다면, 북한이 남한에 핵공격할 확률은 점차 높아지는 것이다.
10% => 1차 핵실험 => 13.5% => 2차 핵실험 => 17.9% => 3차 핵실험 => 23.39% => 4차 핵실험 => 30.54% => 5차 핵실험 => 38.1% => 6차 핵실험 => 46.29%
현재 북한이 6차 핵실험을 진행한 현재 핵공격을 자행할 확률은 46.29%에 도달했다. 물론 처음 사전확률을 10%로 꽤 높게 설정했고 다른 요소들도 충분히 다뤄야하긴 하지만... 46.29%라는 확률은 정확하지 않을 가능성이 크지만 분명한 것은 핵실험이 반복될 수록 핵공격의 가능성은 점차적으로 커진다는 사실이다. 핵공격을 대비할 분명한 정책이 필요한 시점이다.
'Research > 확률, 통계' 카테고리의 다른 글
확률변수(이산확률변수와 연속확률변수) (3) | 2019.03.28 |
---|---|
기술통계와 추론통계 (0) | 2019.03.28 |
모수와 표본 통계량(=모수 추정치) (2) | 2019.03.28 |
모집단(population)과 표본(sample) (0) | 2019.03.28 |
공분산과 상관계수의 이해 (5) | 2019.01.08 |
통계분석방법의 종류와 이해: 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석 (2) | 2018.12.22 |
Pearson 상관계수, Spearman 상관계수, Kendall 상관계수란? (0) | 2017.12.01 |
정규 분포와 정규 분포의 표준화의 의미 (8) | 2017.06.24 |