topic★★★★★난이도 · 약 25분
추론 최적화와 학습
Autoregressive 생성, KV Cache, Temperature, RLHF, MoE, RAG — LLM의 실전 기술.
#KV Cache#Temperature#RLHF#MoE#RAG
왜 배우는가
LLM이 한 글자씩 이어 쓰는 원리(Autoregressive), 속도를 10배 높이는 KV Cache, 창의성을 조절하는 Temperature, 인간 선호도를 반영하는 RLHF까지 — 실전에서 반드시 알아야 할 핵심 기술들.
LLM은 한 토큰씩 생성하고, 생성된 토큰을 입력에 추가하여 다시 예측하는 Autoregressive 방식으로 작동한다.
| 기술 | 핵심 | 효과 |
|---|---|---|
| Autoregressive | 한 토큰씩 생성 → 입력에 추가 → 반복 | 문장 생성의 기본 루프 |
| {{kv-cache|KV Cache}} | 이전 K/V 저장 → 새 토큰은 Q만 계산 | 추론 10배 가속 |
| {{temperature|Temperature}} | Softmax 분모 조절 | 낮으면 뻔한 답, 높으면 창의적 |
| {{rlhf|RLHF}} | 인간 평가 → 보상 모델 → LLM 교정 | '착한 AI' 만들기 |
| MoE | 전문가 8명 중 2명만 활성화 | 연산 75% 절약 |
| RAG | 외부 문서 검색 → 최신 정보 반영 | 오픈 북 시험 효과 |
Temperature가 낮으면 최고 확률 토큰에 집중(뻔한 답), 높으면 분포가 고르게 퍼져 다양하지만 엉뚱한 답이 나올 수 있다.
실기 드릴 3문항
edit실기 드릴 · 단답형
KV Cache의 핵심 이점은?
edit실기 드릴 · 단답형
Temperature를 높이면 AI의 답변은 어떻게 변하는가?
edit실기 드릴 · 단답형
RLHF의 목적은?