확률분포 심화
이항·포아송·지수·감마 분포 — 언제 어떤 분포를 쓰는가.
스팸 메일 수는 포아송, 고장까지의 수명은 지수, 여러 시도의 성공 횟수는 이항. 현실의 불확실성은 분포마다 고유한 '얼굴'을 가진다. 올바른 분포를 고르지 못하면 통계 분석 전체가 틀어진다.
고등학교에서 배운 정규분포는 '종 모양'이라는 한 가지 얼굴뿐이었다. 대학에서는 현상의 종류에 따라 다른 분포를 선택한다. 동전 던지기는 이항(Binomial), 콜센터 전화는 포아송(Poisson), 전구 수명은 지수(Exponential). 잘못된 분포를 가정하면 모든 예측이 어긋난다.
| 분포 | 모델링 대상 | 매개변수 | 기댓값 |
|---|---|---|---|
| 이항 B(n,p) | n번 시행 중 성공 횟수 | n, p | np |
| 포아송 Poi(λ) | 단위시간당 사건 발생 수 | λ | λ |
| 지수 Exp(λ) | 사건까지의 대기 시간 | λ | 1/λ |
| 감마 Γ(k,θ) | k번째 사건까지의 시간 | k, θ | kθ |
| 정규 N(μ,σ²) | 평균 주변 대칭 분포 | μ, σ | μ |
포아송 vs 지수: 동일한 현상의 두 얼굴. 포아송은 '단위시간 동안 몇 번'(이산), 지수는 '다음 사건까지 얼마나 기다리나'(연속). 편의점 손님 도착이 포아송이면, 손님 사이 간격은 지수분포.
중심극한정리(CLT): 독립인 확률변수들의 평균은 원래 분포에 관계없이 정규분포로 수렴한다. 이것이 정규분포가 '자연의 분포'로 불리는 이유다. 신약 임상시험, 품질 관리, 여론조사가 모두 CLT 위에 세워져 있다.
실생활 응용: ① 통신망 트래픽 설계(포아송) ② 반도체 수명 예측(지수·와이불) ③ A/B 테스트 통계적 검정(이항) ④ 보험료 산정(감마) ⑤ 품질 관리 6시그마(정규).
공정한 동전을 10번 던졌을 때 앞면이 정확히 6번 나올 확률을 B(10, 0.5) 이항분포로 표현하면? (식으로)
지수분포 Exp(λ)는 '무기억성'을 가진다. 즉 t초를 이미 기다렸어도 추가 대기 시간의 분포는 여전히 동일한 Exp(λ)다.
콜센터에 평균 시간당 12통 전화가 온다. 5분 동안 전화가 2통 올 확률은? (포아송, λ = 12·(5/60) = 1)
중심극한정리 덕분에 표본 평균의 분포는 원래 모분포가 무엇이든 표본크기가 충분히 크면 정규분포에 가깝다.