통합 요약노트

Ch.3 텍스트를 숫자로 — 토큰화의 세계

문자열을 다루고, BPE 토크나이저를 직접 구현합니다.

이 챕터의 내용

split, join, replace — 텍스트 전처리의 3대 도구를 배워봅시다.

split()은 문자열을 토큰 리스트로 분리합니다

join()은 합치고, replace()는 바꿉니다

전처리 = 불필요한 문자 제거 + 형식 통일

딕셔너리 — 키와 값을 연결하는 Python의 핵심 자료구조로 어휘 사전을 만듭니다.

딕셔너리는 이름표(키)로 값을 찾는 자료구조입니다

Counter는 각 요소가 몇 번 등장했는지 셉니다

빈도가 높은 단어 = 어휘 사전에 반드시 포함

BPE 알고리즘 — 가장 자주 붙어 다니는 쌍을 반복적으로 합치는 방법입니다.

BPE는 글자부터 시작해서 자주 나오는 쌍을 반복 병합합니다

GPT-4는 약 10만 개의 BPE 토큰을 사용합니다. 처음엔 256개 바이트로 시작해서 수만 번 병합한 결과입니다.

글자들이 하나씩 합쳐져서 서브워드가 되는 과정입니다

key

🧹

원시 데이터를 모델이 처리할 수 있는 형태로 정제하는 과정

📚

모델이 인식하는 모든 토큰의 집합

📖

키-값 쌍으로 데이터를 저장하는 자료구조

🔤

빈번한 문자 쌍을 반복 병합하여 서브워드를 만드는 알고리즘

🧩

텍스트를 모델이 처리할 수 있는 최소 단위로 쪼갠 조각

퀴즈와 인터랙션으로 더 깊이 학습하세요