Ch.6 수학이 모든 학문의 언어가 된다 (대학교)
베이즈 정리
검사 양성이면 정말 병이 있을까?
병 확률 1%. 검사 정확도 95%. 양성 판정을 받았다면 실제 병일 확률은?
95% 정확한 검사인데 양성이면 거의 확실한 거 아닌가?
놀랍게도 약 16%만 진짜 병이다! 베이즈 정리가 이를 설명한다.
핵심 내용
사전 확률(처음 믿음)에 증거를 반영하면 사후 확률이 된다
직관을 배신하는 확률 — 양성 판정을 받아도 실제 병일 확률은 놀랍도록 낮다.
이 질병의 유병률은 1%, 건강할 확률은 99%다.
검사 민감도 95%, 하지만 건강한 사람도 5% 확률로 양성이 나온다(오진율).
베이즈 공식의 분모 — 질병자 양성 + 건강자 양성을 모두 합산한다.
전체 양성 비율은 5.9% — 대부분이 오진에서 비롯된다.
양성 판정 후 실제 병일 확률은 약 16.1%에 불과하다.
유병률이 낮으면 오진의 절대 수가 진양성을 압도한다 — 베이즈 정리가 직관의 함정을 교정한다.
병 확률 1%인데 양성 → 실제 병일 확률 약 16%. 왜? 건강한 99명 중 5명도 양성(오진)이기 때문!
새 증거(B)가 나오면 기존 믿음(A)을 업데이트하는 공식 — AI 추천의 핵심 원리
검사 양성이 나왔다 — 진짜 환자일 확률은 얼마일까?
전체 인구 중 실제 환자 비율 = 1%
실제 환자가 양성 나올 확률 = 99%
건강한 사람도 5%는 양성이 나온다
양성이어도 실제 환자일 확률은 약 17%뿐!
직관과 달리 양성 ≠ 확진. 사전확률(1%)이 낮으면 양성이어도 실제 확률은 훨씬 낮다
베이즈 = 증거가 쌓일수록 확률이 정확해진다. 처음 믿음 + 새 증거 → 업데이트!
'무료', '당첨' 키워드가 들어온 이메일 스팸일까, 정상 메일일까?
의사가 검사 결과를 보고 병명을 추측하듯, 키워드를 보고 스팸 여부를 판단한다
사전 확률이 낮아도 우도(likelihood)가 압도적이면 사후 확률이 역전된다 — 이것이 베이즈 정리의 핵심이다
스팸 사전 확률 30%, 스팸 메일에서 '무료' 등장 확률 70%, 정상 메일에서 '무료' 등장 확률 10%!
P(스팸)=0.3, P(무료|스팸)=0.7, P(무료|정상)=0.1 베이즈 공식: P(스팸|무료) = ?
'무료' 단어가 포함된 이메일이 스팸일 확률은?
'무료'라는 단어 하나가 스팸 확률을 얼마나 바꾸는지 베이즈로 계산해 보자.
전체 이메일 중 스팸 비율은 30%, 정상 메일은 70%다.
스팸에서 '무료'가 등장할 확률 70%, 정상 메일에서는 10%다.
베이즈 분모: 스팸·정상 양쪽에서 '무료'가 나올 확률을 합산한다.
전체 이메일 중 '무료'가 포함된 비율은 28%다.
'무료'가 포함된 메일이 스팸일 확률은 75%로 급등한다.
사전 30% → 증거 '무료' 반영 → 사후 75%: 키워드 하나로 스팸 확률이 2.5배 뛴다.
'무료' 하나만으로 75%, '당첨'까지 더하면 95% 스팸 확률! 이메일 서비스가 자동으로 스팸을 잡아내는 원리다
베이즈 = 증거가 쌓일수록 더 정확해진다! 키워드가 많을수록 판별 확률 상승.
베이즈 정리 = 새 증거가 나올 때마다 믿음을 업데이트하는 공식
베이즈 = '새 정보를 받으면 생각을 바꾼다'의 수학 버전
베이즈 정리의 핵심 아이디어는?
사전 확률이 매우 낮은 질병의 경우, 검사 양성이 나와도 실제 질병일 확률은 낮을 수 있다
베이즈 정리의 구성 요소를 확인하세요
베이즈 정리 $P(A|B) = \dfrac{P(B|A)P(A)}{P(B)}$에서 $P(A)$를 무엇이라 하는가?
조건부 확률 계산을 연습하세요
어떤 공장에서 불량품 비율이 5%이다. 검사기의 불량 탐지 정확도가 90%이고, 정상품을 불량으로 잘못 판정하는 비율이 10%일 때, 검사에서 불량 판정을 받은 제품이 실제로 불량일 확률은?
동전을 10번 던져 모두 앞면이 나왔다면, 11번째에도 앞면이 나올 확률은 0.5보다 높다
나이브 베이즈 분류기는 각 특성이 조건부 독립이라고 가정한다
베이즈 정리에서 증거를 관찰한 후 갱신된 확률 $P(A|B)$를 ___ 확률이라 한다
베이즈 정리를 이해했습니다!
비교 정리
| 항목 | 속성 | 스팸 메일 | 정상 메일 |
|---|---|---|---|
| 사전 확률 | P(\text{스팸}) = 0.3 | P(\text{정상}) = 0.7 | |
| '무료' 등장 확률 | P(\text{무료}|\text{스팸}) = 0.7 | P(\text{무료}|\text{정상}) = 0.1 | |
| '당첨' 등장 확률 | P(\text{당첨}|\text{스팸}) = 0.8 | P(\text{당첨}|\text{정상}) = 0.05 |
| 항목 | 분야 | 예시 | 베이즈 활용 |
|---|---|---|---|
| 스팸 필터 | 이메일 분류 | 단어 빈도로 확률 갱신 | |
| 의료 진단 | 검사 결과 해석 | 유병률 + 정확도 → 실제 확률 | |
| 자율주행 | 장애물 감지 | 센서 데이터 실시간 갱신 | |
| 검색엔진 | 검색 의도 파악 | 클릭 이력으로 의도 업데이트 |
퀴즈와 인터랙션으로 더 깊이 학습하세요
play_circle인터랙티브 레슨 시작