topic★★★★★난이도 · 약 30분
TinyLM — 세상에서 가장 작은 언어모델
토큰화 · 임베딩 · Softmax · 역전파 — 지금까지 배운 모든 것을 통합한 미니 LLM.
#TinyLM#언어모델#학습 루프#추론#GPT
왜 배우는가
토큰화, 임베딩, Softmax와 Cross-Entropy, 역전파와 경사하강법 — 이 모든 것을 조합해 진짜 언어모델을 만든다. 100줄의 코드로 GPT와 같은 구조의 모델을 만들 수 있을까?
모든 챕터의 개념이 하나의 모델에 통합됩니다
| 챕터 | TinyLM에서의 역할 |
|---|---|
| Ch2 | 데이터 준비 (text.split()) |
| Ch3 | 토큰화 ({word: id} 딕셔너리) |
| Ch4 | 임베딩 (nn.Embedding) + 행렬곱 (nn.Linear) |
| Ch5 | 소프트맥스 + 크로스 엔트로피 손실 |
| Ch6 | 역전파 (loss.backward()) + 경사하강법 (SGD) |
| Ch7 | 어텐션 구조 (TinyLM 확장 시) |
| Ch8 | PyTorch nn.Module로 모델 정의 |
'나는 고양이를 좋아한다'로 LLM을 학습합니다
TinyLM 전체 구현: 데이터 준비 → 토큰화 → 모델 정의 → 학습 → 추론.
실행 결과 (예시)
기본 원리는 동일하다 규모와 트랜스포머 구조의 깊이만 다르다
| 항목 | TinyLM | GPT-3 |
|---|---|---|
| 어휘 크기 | ~5 | 50,257 |
| 임베딩 차원 | 16 | 12,288 |
| 트랜스포머 층 | 0 | 96 |
| 파라미터 수 | ~160 | 175,000,000,000 |
| 학습 데이터 | 1문장 | 수조 토큰 |
| 학습 GPU | 없음 | 수천 대 A100 |
| 학습 비용 | 0원 | 수백만 달러 |
핵심 메시지: 구조는 완전히 동일합니다. 차이는 오직 규모뿐. TinyLM에 어텐션 층을 추가하고, 어휘 사전을 50,000개로 늘리고, 수조 개의 데이터로 학습하면 → GPT와 같은 모델이 됩니다. 여러분은 이미 LLM의 핵심 원리를 모두 이해했습니다!
순수 파이썬으로 미니 언어모델의 학습 루프를 돌려봅시다
순수 파이썬으로 미니 언어모델의 학습 루프를 구현.
TinyLM의 구조는 GPT와 완전히 동일하다 — 차이는 오직 규모뿐!
실기 드릴 2문항
edit실기 드릴 · 단답형
TinyLM에서 손실 함수로 사용하는 것은?
check_circle실기 드릴 · OX
TinyLM과 GPT-3의 기본 구조(임베딩→선형→Softmax)는 동일하다.