topic난이도

Whisper — AI 받아쓰기

OpenAI의 음성인식(STT) 모델. 음성 파일을 텍스트로 변환하며 다국어를 지원한다.

#Whisper#음성인식#STT#AI#OpenAI
왜 배우는가

회의 녹음, 강의, 인터뷰 등 음성 데이터를 텍스트로 변환해야 하는 상황이 많다. Whisper는 한국어 포함 99개 언어를 지원하는 무료 AI 모델이다.

Whisper는 OpenAI가 공개한 AI 받아쓰기 모델이다. MP3·WAV 등 음성 파일을 넣으면 텍스트로 변환해준다. 한국어, 영어 등 99개 언어를 지원하며, 로컬에서 무료로 실행할 수 있다.

용도설명
`whisper.load_model('base')`모델 로드 (tiny/base/small/medium/large)
`model.transcribe('audio.mp3')`음성 → 텍스트 변환
`result['text']`변환된 전체 텍스트
`result['segments']`타임스탬프별 구간 텍스트
`language='ko'`언어 힌트 지정 (자동 감지도 가능)

load_model로 모델을 불러오고 transcribe로 변환한다. 모델 크기가 클수록 정확하지만 느리다. base 모델이면 일상 용도로 충분하다. GPU가 있으면 large 모델도 빠르게 돌린다.

Claude Code에서 "이 회의 녹음 파일을 텍스트로 변환하고 요약해줘"라고 하면 Whisper로 STT를 수행한 뒤 결과를 정리하는 코드를 생성한다. ffmpeg 설치가 선행 조건이다.