심드렁하게 저장

KL Divergence와 Cross Entropy: 개념과 차이점 본문

Artificial intelligence/AI Fundamental

KL Divergence와 Cross Entropy: 개념과 차이점

Ggoosae 2025. 2. 3. 00:43

딥러닝과 머신러닝 분야에서 자주 등장하는 개념 중 하나가 바로 KL Divergence(Kullback-Leibler Divergence)와 Cross Entropy이다. 이 둘은 확률 분포 간의 차이를 측정하는 데 사용되며, 특히 분류 문제의 손실 함수로 널리 활용된다. 이 글에서는 두 개념의 정의, 수학적 의미, 그리고 차이점을 자세히 설명한다.


Entropy

Entropy는 정보 이론에서 불확실성 또는 정보의 양을 측정하는 개념이다. Claude Shannon이 제안한 이 개념은 데이터가 얼마나 예측 불가능한지를 수학적으로 표현한다. 어떤 확률 분포 에 대한 엔트로피는 다음과 같이 정의된다:

Entropy 정의

 

엔트로피는 평균적인 정보량을 의미하고 확률 분포가 고르게 분포되어 있을수록(모든 사건이 비슷한 확률로 발생할 때) 엔트로피는 최대가 된다. 반대로 하나의 사건이 거의 확실하게 발생할 경우 엔트로피는 0에 가까워진다.

KL Divergence

KL Divergence는 두 확률 분포 간의 차이를 측정하는 비대칭적인 지표입니다. 두 확률 분포 P(실제 분포)와 Q(모델이 예측한 분포)가 있을 때, KL Divergence는 다음과 같이 정의된다:

KL Divergence 정의

  • P : 실제 데이터의 분포
  • Q: 모델이 학습을 톷해 예측한 분포
  • KL Divergence는 Q가 P와 얼마나 다른지를 측정하며, 값이 0에 가까울수록 두 분포가 비슷하다는 것을 의미

Cross Entropy

Cross Entropy는 두 확률 분포 간의 차이를 측정하는 또 다른 방법으로, 분류 문제의 손실 함수로 자주 사용된다. 두 확률 분포 P와 Q에 대해 Cross Entropy는 다음과 같이 정의된다:

Cross Entropy 정의

    • Cross Entropy는 실제 데이터(P)가 발생할 확률을 모델(Q)이 얼마나 잘 예측했는지를 평가
    • 값이 작을수록 모델이 실제 데이터를 잘 예측한 것이고, 값이 클수록 예측이 부정확하다는 의미
    • 모델의 예측이 정확할수록 Cross Entropy의 값은 작아진다.

KL Divergence와 Cross Entropy의 관계

  • KL Divergence와 Cross Entropy는 밀접한 관계가 있다고 한다.
  • 이 둘은 실제로 모델의 성능을 평가하는 과정에서 서로 보완적인 역할을 한다.구체적으로, Cross Entropy는 실제 데이터의 불확실성을 나타내는 값(엔트로피)에 모델의 예측이 얼마나 부정확한지를 나타내는 KL Divergence를 더한 값으로 볼 수 있다. 실제 데이터의 불확실성은 학습 과정에서 변하지 않는 고정된 값이므로, 모델 학습에서는 Cross Entropy를 최소화하는 것이 곧 KL Divergence를 최소화하는 것과 같은 효과를 준다.
  • 즉, 모델이 실제 데이터 분포를 더 잘 예측할수록 KL Divergence가 줄어들고, 그 결과 Cross Entropy 손실 값도 작아지게 된다. 이는 우리가 모델을 학습시킬 때 손실 함수로 Cross Entropy를 사용하는 이유이기도 하다.