통합 요약노트

Ch.7 Attention — AI의 집중력

Q, K, V, Self-Attention — Transformer의 핵심을 파헤칩니다.

이 챕터의 내용

1

Q, K, V — 질문하고, 검색하고, 읽다

Q, K, V — AI가 '무엇을 찾을지(Q), 무엇이 관련 있는지(K), 어떤 정보를 가져올지(V)'를 행렬로 표현합니다.

선형대수 + 확률 + 미적분이 트랜스포머의 심장에서 만납니다

도서관에서 책을 찾는 과정으로 이해합시다

Q, K, V 행렬로 어텐션 점수를 직접 계산해봅시다

  • Q=검색어, K=색인, V=내용 (도서관 비유)
  • Attention = softmax(Q×Kᵀ/√d_k) × V
  • 어텐션 = 선형대수 + 확률 + 미적분의 집대성
상세 노트 보기arrow_forward
2

Self-Attention 직접 구현

셀프 어텐션 구현 — 6단계 코드를 한 줄씩 따라가며 행렬 크기의 변화를 추적합니다.

6단계로 어텐션을 처음부터 구현합니다

'나는 고양이를 좋아한다'로 셀프 어텐션을 계산합니다

입력이 (3, 4)이고 W_Q가 (4, 4)일 때 Q = X × W_Q의 행렬 크기는?

  • 6단계로 셀프 어텐션 구현: 입력→Q,K,V→스코어→스케일→Softmax→가중합
  • 핵심 차원: (토큰수, 차원) 유지, 스코어는 (토큰수, 토큰수)
  • 각 토큰의 출력에 다른 토큰들의 정보가 '문맥'으로 섞임
상세 노트 보기arrow_forward
3

어텐션 히트맵 시각화

어텐션 히트맵 — AI의 집중 패턴을 시각적으로 확인하는 도구입니다.

어텐션 가중치를 시각화해봅시다

어텐션 패턴에서 언어의 구조가 보입니다

GPT-3는 96개의 어텐션 헤드를 동시에 사용합니다

  • Q(검색어) × Kᵀ(색인) → 유사도 → Softmax → 가중치 × V(내용)
  • NumPy로 6단계 셀프 어텐션 직접 구현
  • 히트맵으로 어텐션 패턴(문법, 의미, 참조) 시각화
  • GPT-4: 128개 헤드가 각기 다른 관계를 동시 포착
상세 노트 보기arrow_forward

key

핵심 용어 모음

🔍

Query (Q)

이 [[토큰]]이 무엇을 찾고 있는가? — 검색어

🗂️

Key (K)

이 토큰이 무엇을 제공하는가? — 색인

📖

Value (V)

이 토큰의 실제 정보는 무엇인가? — 책 내용

📝

**헤드 A**

문법 관계 (주어 ↔ 동사)

🔗

**헤드 B**

대명사 참조 ('그것' → '고양이')

📍

**헤드 C**

위치적 근접성

🚀

GPT-3

**96개의 어텐션 헤드**를 동시에 사용!

퀴즈와 인터랙션으로 더 깊이 학습하세요

play_circle인터랙티브 코스 시작하기