통합 요약노트

Ch.3 텍스트를 숫자로 — 토큰화의 세계

문자열을 다루고, BPE 토크나이저를 직접 구현합니다.

이 챕터의 내용

1

문자열 다루기 — split, join, replace

split, join, replace — 텍스트 전처리의 3대 도구를 배워봅시다.

split()은 문자열을 토큰 리스트로 분리합니다

join()은 합치고, replace()는 바꿉니다

전처리 = 불필요한 문자 제거 + 형식 통일

  • split() — 문자열을 토큰 리스트로 분리
  • join() — 토큰 리스트를 문자열로 합치기
  • replace() — 특수문자 제거 등 텍스트 전처리
상세 노트 보기arrow_forward
2

딕셔너리 — 단어장 만들기

딕셔너리 — 키와 값을 연결하는 Python의 핵심 자료구조로 어휘 사전을 만듭니다.

딕셔너리는 이름표(키)로 값을 찾는 자료구조입니다

Counter는 각 요소가 몇 번 등장했는지 셉니다

빈도가 높은 단어 = 어휘 사전에 반드시 포함

  • 딕셔너리 — 키:값 매핑 자료구조
  • Counter — 토큰 빈도 분석의 핵심 도구
  • 어휘 사전 = 단어 → 정수 매핑 (LLM의 기본)
상세 노트 보기arrow_forward
3

BPE 토크나이저 직접 만들기

BPE 알고리즘 — 가장 자주 붙어 다니는 쌍을 반복적으로 합치는 방법입니다.

BPE는 글자부터 시작해서 자주 나오는 쌍을 반복 병합합니다

GPT-4는 약 10만 개의 BPE 토큰을 사용합니다. 처음엔 256개 바이트로 시작해서 수만 번 병합한 결과입니다.

글자들이 하나씩 합쳐져서 서브워드가 되는 과정입니다

  • split/join/replace — 텍스트 전처리의 3대 도구
  • 딕셔너리 + Counter — 어휘 사전 구축
  • BPE — 서브워드 토큰화, GPT의 핵심 알고리즘
상세 노트 보기arrow_forward

key

핵심 용어 모음

🧹

전처리

원시 데이터를 모델이 처리할 수 있는 형태로 정제하는 과정

📚

어휘 사전

모델이 인식하는 모든 토큰의 집합

📖

딕셔너리

키-값 쌍으로 데이터를 저장하는 자료구조

🔤

BPE

빈번한 문자 쌍을 반복 병합하여 서브워드를 만드는 알고리즘

🧩

토큰

텍스트를 모델이 처리할 수 있는 최소 단위로 쪼갠 조각

퀴즈와 인터랙션으로 더 깊이 학습하세요

play_circle인터랙티브 코스 시작하기