topic★★★★★난이도 · 약 25분

추론 최적화와 학습

Autoregressive 생성, KV Cache, Temperature, RLHF, MoE, RAG — LLM의 실전 기술.

#KV Cache#Temperature#RLHF#MoE#RAG

왜 배우는가

LLM이 한 글자씩 이어 쓰는 원리(Autoregressive), 속도를 10배 높이는 KV Cache, 창의성을 조절하는 Temperature, 인간 선호도를 반영하는 RLHF까지 — 실전에서 반드시 알아야 할 핵심 기술들.

LLM은 한 토큰씩 생성하고, 생성된 토큰을 입력에 추가하여 다시 예측하는 Autoregressive 방식으로 작동한다.

Autoregressive 생성 — 토큰을 하나씩 이어 쓰는 과정

Temperature가 낮으면 최고 확률 토큰에 집중(뻔한 답), 높으면 분포가 고르게 퍼져 다양하지만 엉뚱한 답이 나올 수 있다.

실기 드릴 3문항

edit실기 드릴 · 단답형

KV Cache의 핵심 이점은?

edit실기 드릴 · 단답형

Temperature를 높이면 AI의 답변은 어떻게 변하는가?

edit실기 드릴 · 단답형

RLHF의 목적은?