chapter난이도 · 약 60

텍스트를 숫자로 — 토큰화의 세계

split·join·replace로 텍스트를 정제하고, 딕셔너리로 어휘 사전을 만들고, BPE로 서브워드 토큰화까지.

#토큰화#BPE#전처리#어휘 사전
왜 배우는가

LLM은 글자를 직접 읽지 못한다. 텍스트를 숫자로 바꾸는 토큰화 과정이 AI 파이프라인의 출발점이며, 이 과정을 이해해야 이후의 임베딩·Attention·학습 과정이 자연스럽게 이어진다.

Topics · 03

레슨 단위로 펼쳐 보기