정보이론 — 엔트로피와 KL 발산
Shannon 엔트로피, 상호정보량, KL 발산 — AI 손실함수의 뿌리.
메시지 한 글자의 '정보량'을 수로 잴 수 있을까? 왜 딥러닝 분류기는 '크로스 엔트로피'를 손실로 쓸까? 정보이론은 1948년 Shannon이 통신을 수학화하며 탄생했다. 지금은 AI·압축·암호의 공통 언어다.
엔트로피 H(X) = -Σ p(x) log p(x). 직관: '예측 불가능성의 평균'. 공정한 동전은 H=1 비트(완전 무작위), 10번에 9번 앞이 나오는 편향 동전은 H≈0.47 비트(더 예측 가능). 메시지가 놀라울수록 정보량이 크다.
Shannon의 통찰: '정보량 = 얼마나 놀라운가'. 확률 p인 사건의 정보량은 -log p. 확률이 0에 가까울수록 정보량이 무한대로 발산 (희귀 사건일수록 뉴스). 평균 정보량이 엔트로피.
| 양 | 정의 | 의미 |
|---|---|---|
| 엔트로피 H(X) | -Σp(x)log p(x) | 불확실성의 평균 |
| 결합 엔트로피 H(X,Y) | -Σp(x,y)log p(x,y) | 두 변수의 총 불확실성 |
| 상호정보량 I(X;Y) | H(X)+H(Y)-H(X,Y) | X를 알면 Y에 대해 얼마나 알게 되나 |
| KL 발산 D(p‖q) | Σp(x)log(p/q) | 두 분포의 '거리' (비대칭) |
| 교차 엔트로피 H(p,q) | -Σp(x)log q(x) | 예측 q로 참 p를 맞히는 비용 |
AI에서의 등장: 분류 신경망의 손실함수가 바로 교차 엔트로피 H(p, q)다. 참 라벨 p(one-hot)와 예측 확률 q를 얼마나 일치시키나. q가 p에 가까워질수록 H 최소 → 학습이 진행된다. KL 발산은 생성 모델(VAE, GAN)의 핵심 지표.
실생활 응용: ① 무손실 압축(허프만 코드, arithmetic coding) ② 딥러닝 분류 손실(cross-entropy) ③ 생성 모델 VAE(ELBO = 재구성 - KL) ④ Decision Tree 분기 기준(Information Gain) ⑤ 의사결정 이론·특성 선택.
공정한 6면 주사위 한 번 던지기의 엔트로피는? (log₂ 6 ≈ 2.585)
KL 발산 D(p‖q)는 두 확률분포 사이의 거리 함수이며 대칭이다(D(p‖q) = D(q‖p)).
딥러닝 분류기 손실함수로 흔히 쓰이는 것은?
정보량이 -log p이므로 확률이 0에 가까운 희귀 사건일수록 정보량이 크다.