topic난이도 · 약 30

TinyLM — 세상에서 가장 작은 언어모델

토큰화 · 임베딩 · Softmax · 역전파 — 지금까지 배운 모든 것을 통합한 미니 LLM.

#TinyLM#언어모델#학습 루프#추론#GPT
왜 배우는가

토큰화, 임베딩, Softmax와 Cross-Entropy, 역전파와 경사하강법 — 이 모든 것을 조합해 진짜 언어모델을 만든다. 100줄의 코드로 GPT와 같은 구조의 모델을 만들 수 있을까?

모든 챕터의 개념이 하나의 모델에 통합됩니다

챕터TinyLM에서의 역할
Ch2데이터 준비 (text.split())
Ch3토큰화 ({word: id} 딕셔너리)
Ch4임베딩 (nn.Embedding) + 행렬곱 (nn.Linear)
Ch5소프트맥스 + 크로스 엔트로피 손실
Ch6역전파 (loss.backward()) + 경사하강법 (SGD)
Ch7어텐션 구조 (TinyLM 확장 시)
Ch8PyTorch nn.Module로 모델 정의
TinyLM 아키텍처 — 임베딩 → 선형 → Softmax로 다음 토큰을 예측하는 구조

'나는 고양이를 좋아한다'로 LLM을 학습합니다

TinyLM 전체 구현: 데이터 준비 → 토큰화 → 모델 정의 → 학습 → 추론.

실행 결과 (예시)

기본 원리는 동일하다 규모와 트랜스포머 구조의 깊이만 다르다

항목TinyLMGPT-3
어휘 크기~550,257
임베딩 차원1612,288
트랜스포머 층096
파라미터 수~160175,000,000,000
학습 데이터1문장수조 토큰
학습 GPU없음수천 대 A100
학습 비용0원수백만 달러

핵심 메시지: 구조는 완전히 동일합니다. 차이는 오직 규모뿐. TinyLM에 어텐션 층을 추가하고, 어휘 사전을 50,000개로 늘리고, 수조 개의 데이터로 학습하면 → GPT와 같은 모델이 됩니다. 여러분은 이미 LLM의 핵심 원리를 모두 이해했습니다!

순수 파이썬으로 미니 언어모델의 학습 루프를 돌려봅시다

순수 파이썬으로 미니 언어모델의 학습 루프를 구현.

TinyLM의 구조는 GPT와 완전히 동일하다 — 차이는 오직 규모뿐!

실기 드릴 2문항
edit실기 드릴 · 단답형

TinyLM에서 손실 함수로 사용하는 것은?

check_circle실기 드릴 · OX

TinyLM과 GPT-3의 기본 구조(임베딩→선형→Softmax)는 동일하다.