베이지안 통계
증거로 믿음을 업데이트하는 수학 — 사전·우도·사후.
빈도주의 통계는 'p값이 얼마인가'를 말하지만, 베이지안은 '이 가설이 참일 확률'을 직접 말한다. 자율주행 센서 퓨전, AI 불확실성, 의료 진단, 스팸 필터의 공통 수학 언어. PyMC·Stan 같은 현업 라이브러리의 이론적 기반이다.
베이지안의 세계관: 확률은 '사건이 일어날 빈도'가 아니라 '우리의 믿음의 정도'이다. 새 증거가 들어오면 믿음을 업데이트한다. 의사가 환자를 보기 전 '이 연령대에서 이 병 유병률 1%'라는 사전 믿음을 갖고, 검사 결과라는 증거가 들어오면 사후확률로 갱신된다.
베이즈 정리 (매개변수 추정 버전): P(θ|D) = P(D|θ)·P(θ) / P(D). 사후 = 우도 × 사전 / 증거. 분모 P(D) = ∫ P(D|θ)P(θ)dθ (주변우도) — 계산이 어려워 MCMC가 필요한 이유.
| 개념 | 정의 | 비유 |
|---|---|---|
| 사전 P(θ) | 데이터 보기 전 믿음 | 의사의 사전 지식(유병률 1%) |
| 우도 P(D|θ) | θ가 참일 때 데이터 확률 | 검사 민감도(병 있을 때 양성 99%) |
| 사후 P(θ|D) | 데이터 본 후 갱신된 믿음 | 양성 판정 후 실제 감염 확률 |
| MCMC | 사후 직접 계산 불가 → 샘플링 | 주사위 수만 번 굴려 분포 재현 |
| 켤레 사전 | 사전·사후가 같은 분포족 | 베타-이항, 정규-정규 |
직관의 함정: 위 예제에서 양성이 나왔는데 실제 감염 확률이 16.2%뿐이다. 유병률이 낮으면 거짓양성이 많아지기 때문. 베이지안 사고는 이런 기저율 무시의 오류를 막아준다.
실생활 응용 — ① 베이지안 딥러닝(자율주행 예측 불확실성) ② A/B 테스트 '변환율 B 높을 확률' ③ 스팸 필터(나이브 베이즈) ④ 의료 진단(사후 감염 확률) ⑤ 금융 리스크 모델링.
베이즈 정리에서 P(θ|D)는 ___ 분포, P(θ)는 ___ 분포라 부른다.
빈도주의 통계는 모수 θ를 확률변수로 취급한다.
유병률 2%, 민감도 95%, 특이도 90%인 검사에서 양성일 때 실제 감염 확률은 약 몇 %인가? (소수점 첫째 자리)
MCMC는 사후분포를 직접 계산할 수 없을 때 샘플링으로 근사하는 방법이다.
베타분포 Beta(α,β)는 이항분포의 켤레사전이다. 성공 s번·실패 f번 관측 후 사후분포는?