topic★★★★★난이도 · 약 15분
LLM 5단계 파이프라인
입력 → 토큰화 → 임베딩 → Transformer → 출력. "다음에 올 단어를 예측하는 기계".
#LLM#파이프라인#토큰화
왜 배우는가
ChatGPT는 어떻게 대답을 만들까? "오늘 날씨 어때?"라고 물으면 즉시 답하는 이 과정 뒤에는 5단계 파이프라인이 숨어 있다.
은 본질적으로 "다음에 올 단어를 예측하는 기계"다. 글자를 입력하면 5단계를 거쳐 다음 글자가 나온다.
| 단계 | 이름 | 설명 |
|---|---|---|
| ① | {{tokenization|토큰화}} | 문장을 작은 조각(토큰)으로 분해 → 숫자(ID)로 변환 |
| ② | {{embedding|임베딩}} | 토큰을 의미 벡터로 변환 — 비슷한 의미 = 가까운 위치 |
| ③ | {{self-attention|Self-Attention}} | 단어 간 관계 파악 — Q×K로 점수, V로 가중 합산 |
| ④ | {{transformer|Transformer}} | Attention + FFN을 수십 층 반복 → 깊은 문맥 이해 |
| ⑤ | 다음 토큰 예측 | Softmax → 확률 분포 → 가장 높은 확률의 단어 선택 |
실제 LLM은 BPE(Byte Pair Encoding) 등 더 정교한 토큰화를 사용하지만, 핵심 원리는 동일하다: 텍스트 → 조각 → 숫자.
실기 드릴 2문항
edit실기 드릴 · 단답형
LLM의 핵심 기능을 한 문장으로 표현하면?
edit실기 드릴 · 단답형
LLM 5단계 파이프라인을 순서대로 나열하면? (토큰화 → ?)