chapter★★★★★난이도 · 약 60분
텍스트를 숫자로 — 토큰화의 세계
split·join·replace로 텍스트를 정제하고, 딕셔너리로 어휘 사전을 만들고, BPE로 서브워드 토큰화까지.
#토큰화#BPE#전처리#어휘 사전
왜 배우는가
LLM은 글자를 직접 읽지 못한다. 텍스트를 숫자로 바꾸는 토큰화 과정이 AI 파이프라인의 출발점이며, 이 과정을 이해해야 이후의 임베딩·Attention·학습 과정이 자연스럽게 이어진다.
Topics · 03
레슨 단위로 펼쳐 보기
- TOPIC · 05 · 01★★
문자열 다루기 — split, join, replace
split()으로 문자열을 토큰 리스트로 분리하고, join()으로 합치고, replace()로 전처리한다.
20min·5drillsREAD → - TOPIC · 05 · 02★★
딕셔너리 — 단어장 만들기
딕셔너리의 키-값 구조로 어휘 사전을 만들고, Counter로 단어 빈도를 측정한다.
20min·5drillsREAD → - TOPIC · 05 · 03★★
BPE 토크나이저 직접 만들기
BPE(Byte Pair Encoding)로 가장 빈번한 문자 쌍을 반복 병합하여 서브워드를 만든다.
25min·5drillsREAD →