통합 요약노트

Ch.7 Attention — AI의 집중력

Q, K, V, Self-Attention — Transformer의 핵심을 파헤칩니다.

이 챕터의 내용

1Q, K, V — 질문하고, 검색하고, 읽다 2Self-Attention 직접 구현 3어텐션 히트맵 시각화

Q, K, V — 질문하고, 검색하고, 읽다

Q, K, V — AI가 '무엇을 찾을지(Q), 무엇이 관련 있는지(K), 어떤 정보를 가져올지(V)'를 행렬로 표현합니다.

선형대수 + 확률 + 미적분이 트랜스포머의 심장에서 만납니다

도서관에서 책을 찾는 과정으로 이해합시다

Q, K, V 행렬로 어텐션 점수를 직접 계산해봅시다

Q=검색어, K=색인, V=내용 (도서관 비유)
Attention = softmax(Q×Kᵀ/√d_k) × V
어텐션 = 선형대수 + 확률 + 미적분의 집대성

상세 노트 보기arrow_forward

Self-Attention 직접 구현

셀프 어텐션 구현 — 6단계 코드를 한 줄씩 따라가며 행렬 크기의 변화를 추적합니다.

6단계로 어텐션을 처음부터 구현합니다

'나는 고양이를 좋아한다'로 셀프 어텐션을 계산합니다

입력이 (3, 4)이고 W_Q가 (4, 4)일 때 Q = X × W_Q의 행렬 크기는?

6단계로 셀프 어텐션 구현: 입력→Q,K,V→스코어→스케일→Softmax→가중합
핵심 차원: (토큰수, 차원) 유지, 스코어는 (토큰수, 토큰수)
각 토큰의 출력에 다른 토큰들의 정보가 '문맥'으로 섞임

상세 노트 보기arrow_forward

어텐션 히트맵 시각화

어텐션 히트맵 — AI의 집중 패턴을 시각적으로 확인하는 도구입니다.

어텐션 가중치를 시각화해봅시다

어텐션 패턴에서 언어의 구조가 보입니다

GPT-3는 96개의 어텐션 헤드를 동시에 사용합니다

Q(검색어) × Kᵀ(색인) → 유사도 → Softmax → 가중치 × V(내용)
NumPy로 6단계 셀프 어텐션 직접 구현
히트맵으로 어텐션 패턴(문법, 의미, 참조) 시각화
GPT-4: 128개 헤드가 각기 다른 관계를 동시 포착

상세 노트 보기arrow_forward

key

핵심 용어 모음

🔍

Query (Q)

이 [[토큰]]이 무엇을 찾고 있는가? — 검색어

🗂️

Key (K)

이 토큰이 무엇을 제공하는가? — 색인

📖

Value (V)

이 토큰의 실제 정보는 무엇인가? — 책 내용

📝

헤드 A

문법 관계 (주어 ↔ 동사)

🔗

헤드 B

대명사 참조 ('그것' → '고양이')

📍

헤드 C

위치적 근접성

🚀

GPT-3

**96개의 어텐션 헤드**를 동시에 사용!

퀴즈와 인터랙션으로 더 깊이 학습하세요

play_circle인터랙티브 코스 시작하기

이 챕터의 내용

Q, K, V — 질문하고, 검색하고, 읽다

Self-Attention 직접 구현

어텐션 히트맵 시각화

핵심 용어 모음

Query (Q)

Key (K)

Value (V)

**헤드 A**

**헤드 B**

**헤드 C**

GPT-3

헤드 A

헤드 B

헤드 C