통합 요약노트
Ch.3 텍스트를 숫자로 — 토큰화의 세계
문자열을 다루고, BPE 토크나이저를 직접 구현합니다.
이 챕터의 내용
1
문자열 다루기 — split, join, replace
split, join, replace — 텍스트 전처리의 3대 도구를 배워봅시다.
split()은 문자열을 토큰 리스트로 분리합니다
join()은 합치고, replace()는 바꿉니다
전처리 = 불필요한 문자 제거 + 형식 통일
- split() — 문자열을 토큰 리스트로 분리
- join() — 토큰 리스트를 문자열로 합치기
- replace() — 특수문자 제거 등 텍스트 전처리
2
딕셔너리 — 단어장 만들기
딕셔너리 — 키와 값을 연결하는 Python의 핵심 자료구조로 어휘 사전을 만듭니다.
딕셔너리는 이름표(키)로 값을 찾는 자료구조입니다
Counter는 각 요소가 몇 번 등장했는지 셉니다
빈도가 높은 단어 = 어휘 사전에 반드시 포함
- 딕셔너리 — 키:값 매핑 자료구조
- Counter — 토큰 빈도 분석의 핵심 도구
- 어휘 사전 = 단어 → 정수 매핑 (LLM의 기본)
3
BPE 토크나이저 직접 만들기
BPE 알고리즘 — 가장 자주 붙어 다니는 쌍을 반복적으로 합치는 방법입니다.
BPE는 글자부터 시작해서 자주 나오는 쌍을 반복 병합합니다
GPT-4는 약 10만 개의 BPE 토큰을 사용합니다. 처음엔 256개 바이트로 시작해서 수만 번 병합한 결과입니다.
글자들이 하나씩 합쳐져서 서브워드가 되는 과정입니다
- split/join/replace — 텍스트 전처리의 3대 도구
- 딕셔너리 + Counter — 어휘 사전 구축
- BPE — 서브워드 토큰화, GPT의 핵심 알고리즘
key
핵심 용어 모음
🧹
전처리
원시 데이터를 모델이 처리할 수 있는 형태로 정제하는 과정
📚
어휘 사전
모델이 인식하는 모든 토큰의 집합
📖
딕셔너리
키-값 쌍으로 데이터를 저장하는 자료구조
🔤
BPE
빈번한 문자 쌍을 반복 병합하여 서브워드를 만드는 알고리즘
🧩
토큰
텍스트를 모델이 처리할 수 있는 최소 단위로 쪼갠 조각
퀴즈와 인터랙션으로 더 깊이 학습하세요
play_circle인터랙티브 코스 시작하기