topic난이도 · 약 25

추론 최적화와 학습

Autoregressive 생성, KV Cache, Temperature, RLHF, MoE, RAG — LLM의 실전 기술.

#KV Cache#Temperature#RLHF#MoE#RAG
왜 배우는가

LLM이 한 글자씩 이어 쓰는 원리(Autoregressive), 속도를 10배 높이는 KV Cache, 창의성을 조절하는 Temperature, 인간 선호도를 반영하는 RLHF까지 — 실전에서 반드시 알아야 할 핵심 기술들.

LLM은 한 토큰씩 생성하고, 생성된 토큰을 입력에 추가하여 다시 예측하는 Autoregressive 방식으로 작동한다.

기술핵심효과
Autoregressive한 토큰씩 생성 → 입력에 추가 → 반복문장 생성의 기본 루프
{{kv-cache|KV Cache}}이전 K/V 저장 → 새 토큰은 Q만 계산추론 10배 가속
{{temperature|Temperature}}Softmax 분모 조절낮으면 뻔한 답, 높으면 창의적
{{rlhf|RLHF}}인간 평가 → 보상 모델 → LLM 교정'착한 AI' 만들기
MoE전문가 8명 중 2명만 활성화연산 75% 절약
RAG외부 문서 검색 → 최신 정보 반영오픈 북 시험 효과
Autoregressive 생성 — 토큰을 하나씩 이어 쓰는 과정

Temperature가 낮으면 최고 확률 토큰에 집중(뻔한 답), 높으면 분포가 고르게 퍼져 다양하지만 엉뚱한 답이 나올 수 있다.

실기 드릴 3문항
edit실기 드릴 · 단답형

KV Cache의 핵심 이점은?

edit실기 드릴 · 단답형

Temperature를 높이면 AI의 답변은 어떻게 변하는가?

edit실기 드릴 · 단답형

RLHF의 목적은?