topic★★★★★난이도 · 약 30분

정보이론 — 엔트로피와 KL 발산

Shannon 엔트로피, 상호정보량, KL 발산 — AI 손실함수의 뿌리.

#정보이론#엔트로피#KL#교차엔트로피#AI

왜 배우는가

메시지 한 글자의 '정보량'을 수로 잴 수 있을까? 왜 딥러닝 분류기는 '크로스 엔트로피'를 손실로 쓸까? 정보이론은 1948년 Shannon이 통신을 수학화하며 탄생했다. 지금은 AI·압축·암호의 공통 언어다.

엔트로피 H(X) = -Σ p(x) log p(x). 직관: '예측 불가능성의 평균'. 공정한 동전은 H=1 비트(완전 무작위), 10번에 9번 앞이 나오는 편향 동전은 H≈0.47 비트(더 예측 가능). 메시지가 놀라울수록 정보량이 크다.

Shannon의 통찰: '정보량 = 얼마나 놀라운가'. 확률 p인 사건의 정보량은 -log p. 확률이 0에 가까울수록 정보량이 무한대로 발산 (희귀 사건일수록 뉴스). 평균 정보량이 엔트로피.

양	정의	의미
엔트로피 H(X)	-Σp(x)log p(x)	불확실성의 평균
결합 엔트로피 H(X,Y)	-Σp(x,y)log p(x,y)	두 변수의 총 불확실성
상호정보량 I(X;Y)	H(X)+H(Y)-H(X,Y)	X를 알면 Y에 대해 얼마나 알게 되나
KL 발산 D(p‖q)	Σp(x)log(p/q)	두 분포의 '거리' (비대칭)
교차 엔트로피 H(p,q)	-Σp(x)log q(x)	예측 q로 참 p를 맞히는 비용

AI에서의 등장: 분류 신경망의 손실함수가 바로 교차 엔트로피 H(p, q)다. 참 라벨 p(one-hot)와 예측 확률 q를 얼마나 일치시키나. q가 p에 가까워질수록 H 최소 → 학습이 진행된다. KL 발산은 생성 모델(VAE, GAN)의 핵심 지표.

정보이론 5가지 얼굴 — ZIP 압축, GPT 크로스엔트로피, 결정트리 Information Gain, VAE KL, Shannon 채널용량.

실생활 응용: ① 무손실 압축(허프만 코드, arithmetic coding) ② 딥러닝 분류 손실(cross-entropy) ③ 생성 모델 VAE(ELBO = 재구성 - KL) ④ Decision Tree 분기 기준(Information Gain) ⑤ 의사결정 이론·특성 선택.

엔트로피 비교 — 공정 동전 vs 편향 동전의 H.

KL 발산 — D(P ‖ Q) 두 분포 거리 계산.

실기 드릴 4문항

edit실기 드릴 · 단답형

공정한 6면 주사위 한 번 던지기의 엔트로피는? (log₂ 6 ≈ 2.585)

check_circle실기 드릴 · OX

KL 발산 D(p‖q)는 두 확률분포 사이의 거리 함수이며 대칭이다(D(p‖q) = D(q‖p)).

edit실기 드릴 · 단답형

딥러닝 분류기 손실함수로 흔히 쓰이는 것은?

check_circle실기 드릴 · OX

정보량이 -log p이므로 확률이 0에 가까운 희귀 사건일수록 정보량이 크다.