topic난이도 · 약 15

LLM 5단계 파이프라인

입력 → 토큰화 → 임베딩 → Transformer → 출력. "다음에 올 단어를 예측하는 기계".

#LLM#파이프라인#토큰화
왜 배우는가

ChatGPT는 어떻게 대답을 만들까? "오늘 날씨 어때?"라고 물으면 즉시 답하는 이 과정 뒤에는 5단계 파이프라인이 숨어 있다.

은 본질적으로 "다음에 올 단어를 예측하는 기계"다. 글자를 입력하면 5단계를 거쳐 다음 글자가 나온다.

단계이름설명
{{tokenization|토큰화}}문장을 작은 조각(토큰)으로 분해 → 숫자(ID)로 변환
{{embedding|임베딩}}토큰을 의미 벡터로 변환 — 비슷한 의미 = 가까운 위치
{{self-attention|Self-Attention}}단어 간 관계 파악 — Q×K로 점수, V로 가중 합산
{{transformer|Transformer}}Attention + FFN을 수십 층 반복 → 깊은 문맥 이해
다음 토큰 예측Softmax → 확률 분포 → 가장 높은 확률의 단어 선택
LLM 파이프라인 — 5단계를 클릭하며 탐험
토큰화 과정 — 문장이 숫자로 바뀌는 순간

실제 LLM은 BPE(Byte Pair Encoding) 등 더 정교한 토큰화를 사용하지만, 핵심 원리는 동일하다: 텍스트 → 조각 → 숫자.

실기 드릴 2문항
edit실기 드릴 · 단답형

LLM의 핵심 기능을 한 문장으로 표현하면?

edit실기 드릴 · 단답형

LLM 5단계 파이프라인을 순서대로 나열하면? (토큰화 → ?)