topic★★★★★난이도 · 약 30분

어텐션 히트맵 시각화

어텐션 가중치를 히트맵으로 시각화하면 AI의 '시선'이 보인다.

#히트맵#시각화#멀티헤드#문법 관계

왜 배우는가

어텐션 가중치를 색깔로 표현하면 — 진한 색은 강한 주목, 연한 색은 약한 주목 — AI의 '시선'이 보인다. 'The cat sat on the mat'에서 'cat'은 어떤 단어에 주목할까?

어텐션 가중치를 시각화해봅시다

위치 인코딩 — 토큰의 순서 정보를 임베딩에 더하는 방법

어텐션 가중치를 텍스트 히트맵으로 시각화한다. 진한 블록일수록 강한 주목.

어텐션 패턴에서 언어의 구조가 보입니다

어텐션 히트맵에서 발견되는 패턴: 'The' ↔ 'the': 같은 단어 참조 (0.80) 'cat' → 'mat': 주어-장소 연결 (0.45) 'sat' → 'cat': 동사-주어 연결 (0.40) 'on' → 'mat': 전치사-목적어 연결 (0.60) → 어텐션이 문법 구조를 자동으로 학습!

GPT-3는 96개의 어텐션 헤드를 동시에 사용합니다

각 헤드가 다른 관계를 포착: 헤드 A: 문법 관계 (주어 ↔ 동사) 헤드 B: 대명사 참조 ('그것' → '고양이') 헤드 C: 위치적 근접성 (인접 토큰) 헤드 D: 구두점 패턴 (문장 경계) 이 모든 것이 행렬 곱셈 + 소프트맥스 + 역전파로 자동 학습됩니다.

히트맵 해석	설명
진한 색	강한 주목 — 두 토큰 사이의 관련성이 높음
연한 색	약한 주목 — 두 토큰 사이의 관련성이 낮음
행(row)	해당 토큰이 다른 토큰들에 배분한 주의 (합=1)

발견되는 패턴	설명
동사→주어	'sat' → 'cat' (0.40) — 문법 관계 포착
전치사→목적어	'on' → 'mat' (0.60) — 구문 구조 포착
같은 단어	'The' ↔ 'the' (0.80) — 동일 단어 참조

멀티헤드의 역할 분화	설명
헤드 A	문법 관계 (주어 ↔ 동사)
헤드 B	대명사 참조 ('그것' → '고양이')
헤드 C	위치적 근접성 (인접 토큰)
출력	각 헤드를 연결(concat) 후 W_O 행렬로 투영

어텐션 히트맵으로 AI의 '시선'을 볼 수 있다 — 문법·의미 구조를 자동 학습한다

실기 드릴 5문항

edit실기 드릴 · 단답형

'sat'이 'cat'에 높은 어텐션(0.40)을 보이는 이유는?

check_circle실기 드릴 · OX

멀티��드 어텐션에서 각 헤드는 서로 다른 종류의 관계를 학습한다.

edit실기 드릴 · 단답형

'on'이 'mat'에 높은 어텐션(0.60)을 보이는 이유는?

edit실기 드릴 · 단답형

GPT-3는 몇 개의 어텐션 헤드를 사용하는가?

check_circle실기 드릴 · OX

멀티헤드 어텐션의 출력은 각 헤드의 출력을 합산(sum)한 것이다.