kullback-leibler divergence(KL 발산)의 간략한 설명

Research/확률, 통계

bskyvision.com 2019. 9. 9. 11:43

KL 발산은 두 개의 확률분포 P, Q가 있을 때, Q에 대한 P의 상대적인 비대칭값을 나타낸다[1]. 다른 말로 표현하면, KL 발산은 두 확률분포의 다름의 정도를 나타낸다고 말할 수 있다[2]. KL 발산을 식으로 나타내면 다음과 같다.

$D_{KL}(P\parallel Q) = \sum_{i}^{\, }P(i)log{\frac{P(i)}{Q(i)}}$

Q를 사전확률분포, P를 사후확률분포로 본다면, $D_{KL}(P\parallel Q)$은 사전확률에서 사후확률로 변하면서 얻은 정보의 양으로 해석할 수 있다[2].

어떤 논문에서는 간혹 KL 발산을 KL distance, 즉 거리의 개념으로 쓰기도 하는데 $D_{KL}(P\parallel Q)$와 $D_{KL}(Q\parallel P)$는 다른 값을 갖기 때문에 엄밀히 따지면 거리의 개념은 아니다.

이번 포스팅은 간략하게 KL 발산의 개념을 이해하기 위해 발췌 정리했다. 좀 더 깊은 이해를 원하는 분들은 아래 링크들을 참고하시길 바랍니다.

<참고자료>

[1] https://blog.naver.com/sancholok/30113530188, 에이미, "Kullback-leibler(KL) divergence"

[2] https://brunch.co.kr/@chris-song/69#comment, Chris송호연, "정보 이론 2편: KL-Divergence"