topic★★★★★난이도 · 약 30분

Q, K, V — 질문하고, 검색하고, 읽다

Query=검색어, Key=색인, Value=내용 — 도서관 비유로 어텐션 공식을 이해한다.

#Q,K,V#Attention#Softmax#행렬 곱#멀티헤드

왜 배우는가

벡터, 행렬 곱셈, Softmax, 역전파 — 지금까지 배운 모든 것이 트랜스포머의 심장, '어텐션 메커니즘'에서 하나로 합쳐진다. AI가 '문맥을 이해한다'는 것은 수학적으로 어떤 뜻일까?

선형대수 + 확률 + 미적분이 트랜스포머의 심장에서 만납니다

도서관에서 책을 찾는 과정으로 이해합시다

Attention(Q, K, V) = softmax(Q × Kᵀ / √d_k) × V Query와 Key의 유사도를 행렬 곱으로 계산하고, √d_k로 스케일링 후 소프트맥스로 확률 분포를 만들고, 그 가중치로 Value를 합산합니다.

Q, K, V 공장 — 입력 벡터가 세 가지 역할(질문·색인·내용)로 변환되는 과정

어텐션 스코어 — Query와 Key의 내적으로 관련성 점수를 계산

Q, K, V 행렬로 어텐션 점수를 직접 계산해봅시다

Q, K, V 행렬로 어텐션을 처음부터 계산한다. 스케일링 → Softmax → 가중 합 3단계.

멀티헤드 어텐션	설명
여러 관점	각 헤드가 문법, 의미, 위치 등 다른 관계를 포착
GPT-3	96개 어텐션 헤드를 동시에 사용

어텐션 = 선형대수(행렬 곱) + 확률(Softmax) + 미적분(역전파)의 집대성

실기 드릴 5문항

edit실기 드릴 · 단답형

셀프 어텐션에서 Query(Q)와 Key(K)를 행렬 곱하는 이유는?

check_circle실기 드릴 · OX

어텐션의 수학적 공식에는 선형대수(행렬 곱), 확률(소프트맥스), 미적분(역전파)이 모두 사용된다.

edit실기 드릴 · 단답형

어텐션 공식에서 √d_k로 나누는 이유는 무엇인가?

edit실기 드릴 · 단답형

Attention(Q, K, V) = softmax(Q × Kᵀ / √d_k) × ___ 의 빈칸은?

check_circle실기 드릴 · OX

Q, K, V는 각각 서로 다른 가중치 행렬(W_Q, W_K, W_V)로 생성된다.