베이즈 정리
P(A|B) = P(B|A)P(A)/P(B), 사전·사후 확률, 스팸 필터.
코로나 검사 양성인데 진짜 걸렸을 확률은? 99% 정확한 검사에서 양성이 나와도 실제 감염 확률은 50%가 안 될 수 있다. 베이즈 정리는 '새로운 증거로 믿음을 업데이트하는 수학'이다. AI, 의학, 법정 증거 판단의 핵심.
베이즈 정리는 '원인의 확률'을 구하는 도구다. 보통 확률은 '원인 → 결과'(비가 오면 우산을 가져간다). 베이즈는 반대로 '결과 → 원인'(우산을 가져갔으니 비가 올 확률은?)을 다룬다.
공식: P(A|B) = P(B|A) x P(A) / P(B). P(A) = 사전 확률(증거 전의 믿음), P(A|B) = 사후 확률(증거 후 업데이트된 믿음), P(B|A) = 우도(가설이 참일 때 증거가 나올 확률).
| 응용 분야 | 사전 확률 P(A) | 증거 B | 사후 확률 P(A | B) |
|---|---|---|---|---|
| 스팸 필터 | 이메일이 스팸일 확률 | '무료', '당첨' 단어 포함 | 스팸 단어가 있으니 스팸일 확률 | |
| 의료 진단 | 질병 유병률 | 양성 검사 결과 | 양성인데 진짜 아플 확률 | |
| 추천 시스템 | 사용자가 이 영화를 좋아할 확률 | 비슷한 영화를 봤음 | 업데이트된 선호 확률 |
의료 검사의 역설: 유병률 0.1%, 검사 정확도 99%. 양성이 나왔을 때 진짜 아플 확률은? P(병|양성) = (0.99 x 0.001) / (0.99 x 0.001 + 0.01 x 0.999) ≈ 9%. 직감과 수학이 크게 다른 대표적 사례.
실생활 응용: ① 나이브 베이즈 스팸 메일 필터 ② 의료 진단(PCR·항원검사 해석) ③ A/B 테스트 사후 확률 ④ 자율주행 센서 퓨전(카메라+LiDAR) ⑤ 넷플릭스 추천시스템.
베이즈 정리: P(A|B) = P(B|A) × P(A) / ___. 빈칸에 들어갈 확률은?
스팸 필터에서 '무료' 단어가 메일에 있어도 해당 메일이 반드시 스팸이라고 단정할 수는 없다.
유병률 1%, 민감도 90%, 특이도 95%인 검사에서 양성이 나왔을 때 실제 감염일 확률 P(감염|양성)은 약 몇 %인가? (소수점 첫째 자리 반올림)
베이즈 정리에서 사전확률이 0이면 어떤 증거가 관측되어도 사후확률은 0이다.