Ch.6 수학이 모든 학문의 언어가 된다 (대학교)

베이즈 정리

베이즈 정리가 '증거로 믿음을 갱신'하는 것임을 이해한다사전확률과 사후확률의 차이를 안다

검사 양성이면 정말 병이 있을까?

병 확률 1%. 검사 정확도 95%. 양성 판정을 받았다면 실제 병일 확률은?

95% 정확한 검사인데 양성이면 거의 확실한 거 아닌가?

놀랍게도 약 16%만 진짜 병이다! 베이즈 정리가 이를 설명한다.

article

핵심 내용

사전 확률(처음 믿음)에 증거를 반영하면 사후 확률이 된다

직관을 배신하는 확률 — 양성 판정을 받아도 실제 병일 확률은 놀랍도록 낮다.

P(D) = 0.01, P(D^c) = 0.99

이 질병의 유병률은 1%, 건강할 확률은 99%다.

P(+|D) = 0.95, P(+|D^c) = 0.05

검사 민감도 95%, 하지만 건강한 사람도 5% 확률로 양성이 나온다(오진율).

P(+) = P(+|D)P(D) + P(+|D^c)P(D^c)

베이즈 공식의 분모 — 질병자 양성 + 건강자 양성을 모두 합산한다.

P(+) = 0.95 × 0.01 + 0.05 × 0.99 = 0.0095 + 0.0495 = 0.059

전체 양성 비율은 5.9% — 대부분이 오진에서 비롯된다.

P(D|+) = P(+|D)P(D)/P(+) = 0.0095/0.059 ≈ 0.161

양성 판정 후 실제 병일 확률은 약 16.1%에 불과하다.

유병률이 낮으면 오진의 절대 수가 진양성을 압도한다 — 베이즈 정리가 직관의 함정을 교정한다.

병 확률 1%인데 양성 → 실제 병일 확률 약 16%. 왜? 건강한 99명 중 5명도 양성(오진)이기 때문!

P(A|B) = P(B|A) · P(A)/P(B)

새 증거(B)가 나오면 기존 믿음(A)을 업데이트하는 공식 — AI 추천의 핵심 원리

검사 양성이 나왔다 — 진짜 환자일 확률은 얼마일까?

P(질병) = 1\%

전체 인구 중 실제 환자 비율 = 1%

P(양성|질병) = 99\%

실제 환자가 양성 나올 확률 = 99%

P(양성|건강) = 5\%

건강한 사람도 5%는 양성이 나온다

P(질병|양성) ≈ 17\%

양성이어도 실제 환자일 확률은 약 17%뿐!

직관과 달리 양성 ≠ 확진. 사전확률(1%)이 낮으면 양성이어도 실제 확률은 훨씬 낮다

베이즈 = 증거가 쌓일수록 확률이 정확해진다. 처음 믿음 + 새 증거 → 업데이트!

'무료', '당첨' 키워드가 들어온 이메일 스팸일까, 정상 메일일까?

의사가 검사 결과를 보고 병명을 추측하듯, 키워드를 보고 스팸 여부를 판단한다

사전 확률이 낮아도 우도(likelihood)가 압도적이면 사후 확률이 역전된다 — 이것이 베이즈 정리의 핵심이다

스팸 사전 확률 30%, 스팸 메일에서 '무료' 등장 확률 70%, 정상 메일에서 '무료' 등장 확률 10%!

P(스팸)=0.3, P(무료|스팸)=0.7, P(무료|정상)=0.1 베이즈 공식: P(스팸|무료) = ?

'무료' 단어가 포함된 이메일이 스팸일 확률은?

'무료'라는 단어 하나가 스팸 확률을 얼마나 바꾸는지 베이즈로 계산해 보자.

P(S) = 0.30, P(S^c) = 0.70

전체 이메일 중 스팸 비율은 30%, 정상 메일은 70%다.

P(무료|S) = 0.70, P(무료|S^c) = 0.10

스팸에서 '무료'가 등장할 확률 70%, 정상 메일에서는 10%다.

P(무료) = P(무료|S)P(S) + P(무료|S^c)P(S^c)

베이즈 분모: 스팸·정상 양쪽에서 '무료'가 나올 확률을 합산한다.

P(무료) = 0.70 × 0.30 + 0.10 × 0.70 = 0.21 + 0.07 = 0.28

전체 이메일 중 '무료'가 포함된 비율은 28%다.

P(S|무료) = P(무료|S)P(S)/P(무료) = 0.21/0.28 = 0.75

'무료'가 포함된 메일이 스팸일 확률은 75%로 급등한다.

사전 30% → 증거 '무료' 반영 → 사후 75%: 키워드 하나로 스팸 확률이 2.5배 뛴다.

'무료' 하나만으로 75%, '당첨'까지 더하면 95% 스팸 확률! 이메일 서비스가 자동으로 스팸을 잡아내는 원리다

베이즈 = 증거가 쌓일수록 더 정확해진다! 키워드가 많을수록 판별 확률 상승.

베이즈 정리 = 새 증거가 나올 때마다 믿음을 업데이트하는 공식

베이즈 = '새 정보를 받으면 생각을 바꾼다'의 수학 버전

베이즈 정리의 핵심 아이디어는?

사전 확률이 매우 낮은 질병의 경우, 검사 양성이 나와도 실제 질병일 확률은 낮을 수 있다

베이즈 정리의 구성 요소를 확인하세요

베이즈 정리 $P(A|B) = \dfrac{P(B|A)P(A)}{P(B)}$에서 $P(A)$를 무엇이라 하는가?

조건부 확률 계산을 연습하세요

어떤 공장에서 불량품 비율이 5%이다. 검사기의 불량 탐지 정확도가 90%이고, 정상품을 불량으로 잘못 판정하는 비율이 10%일 때, 검사에서 불량 판정을 받은 제품이 실제로 불량일 확률은?

동전을 10번 던져 모두 앞면이 나왔다면, 11번째에도 앞면이 나올 확률은 0.5보다 높다

나이브 베이즈 분류기는 각 특성이 조건부 독립이라고 가정한다

베이즈 정리에서 증거를 관찰한 후 갱신된 확률 $P(A|B)$를 ___ 확률이라 한다

베이즈 정리를 이해했습니다!

compare_arrows

비교 정리

항목	속성	스팸 메일
사전 확률	P(\text{스팸}) = 0.3	P(\text{정상}) = 0.7
'무료' 등장 확률	P(\text{무료}\|\text{스팸}) = 0.7	P(\text{무료}\|\text{정상}) = 0.1
'당첨' 등장 확률	P(\text{당첨}\|\text{스팸}) = 0.8	P(\text{당첨}\|\text{정상}) = 0.05

항목	분야	예시
스팸 필터	이메일 분류	단어 빈도로 확률 갱신
의료 진단	검사 결과 해석	유병률 + 정확도 → 실제 확률
자율주행	장애물 감지	센서 데이터 실시간 갱신
검색엔진	검색 의도 파악	클릭 이력으로 의도 업데이트

퀴즈와 인터랙션으로 더 깊이 학습하세요

play_circle인터랙티브 레슨 시작