두 확률 분포 의 차이를 측정하는 방법

  • Information Entropy와 유사하지만, 의 정보량을 측정하는 것이 아닌, 의 정보량을 측정한다.
  • Kullback-Leibler Divergence와 비슷하게 두 확률분포의 차이를 측정한다.
  • 로 표현되므로, Cross Entropy를 최소화 하는 것은 를 최소화 하는 것과 같다.

배우는 이유

  • KL Divergence는 기본적으로 분수의 형태를 띄고 있어 계산에서 어려움이 있다.
    • p = 0일 때, log(0)은 무한대로 발산한다.
  • 해당 함수가 미분이 쉽고 매끄러워 학습에 용이하다.