통합 요약노트
Ch.7 Attention — AI의 집중력
Q, K, V, Self-Attention — Transformer의 핵심을 파헤칩니다.
이 챕터의 내용
1
Q, K, V — 질문하고, 검색하고, 읽다
Q, K, V — AI가 '무엇을 찾을지(Q), 무엇이 관련 있는지(K), 어떤 정보를 가져올지(V)'를 행렬로 표현합니다.
선형대수 + 확률 + 미적분이 트랜스포머의 심장에서 만납니다
도서관에서 책을 찾는 과정으로 이해합시다
Q, K, V 행렬로 어텐션 점수를 직접 계산해봅시다
- Q=검색어, K=색인, V=내용 (도서관 비유)
- Attention = softmax(Q×Kᵀ/√d_k) × V
- 어텐션 = 선형대수 + 확률 + 미적분의 집대성
2
Self-Attention 직접 구현
셀프 어텐션 구현 — 6단계 코드를 한 줄씩 따라가며 행렬 크기의 변화를 추적합니다.
6단계로 어텐션을 처음부터 구현합니다
'나는 고양이를 좋아한다'로 셀프 어텐션을 계산합니다
입력이 (3, 4)이고 W_Q가 (4, 4)일 때 Q = X × W_Q의 행렬 크기는?
- 6단계로 셀프 어텐션 구현: 입력→Q,K,V→스코어→스케일→Softmax→가중합
- 핵심 차원: (토큰수, 차원) 유지, 스코어는 (토큰수, 토큰수)
- 각 토큰의 출력에 다른 토큰들의 정보가 '문맥'으로 섞임
3
어텐션 히트맵 시각화
어텐션 히트맵 — AI의 집중 패턴을 시각적으로 확인하는 도구입니다.
어텐션 가중치를 시각화해봅시다
어텐션 패턴에서 언어의 구조가 보입니다
GPT-3는 96개의 어텐션 헤드를 동시에 사용합니다
- Q(검색어) × Kᵀ(색인) → 유사도 → Softmax → 가중치 × V(내용)
- NumPy로 6단계 셀프 어텐션 직접 구현
- 히트맵으로 어텐션 패턴(문법, 의미, 참조) 시각화
- GPT-4: 128개 헤드가 각기 다른 관계를 동시 포착
key
핵심 용어 모음
🔍
Query (Q)
이 [[토큰]]이 무엇을 찾고 있는가? — 검색어
🗂️
Key (K)
이 토큰이 무엇을 제공하는가? — 색인
📖
Value (V)
이 토큰의 실제 정보는 무엇인가? — 책 내용
📝
**헤드 A**
문법 관계 (주어 ↔ 동사)
🔗
**헤드 B**
대명사 참조 ('그것' → '고양이')
📍
**헤드 C**
위치적 근접성
🚀
GPT-3
**96개의 어텐션 헤드**를 동시에 사용!
퀴즈와 인터랙션으로 더 깊이 학습하세요
play_circle인터랙티브 코스 시작하기