Multi-Head Attention 多头注意力

为什么一个注意力头不够?多个头如何捕获不同关系?

一、单头 vs 多头注意力对比

单个注意力头只能捕获一种关系模式,而多个头可以同时关注语法、位置、指代和语义等不同维度。

单头注意力 (Single Head)

仅捕获语法关系

多头注意力 (Multi-Head)

Head 1: 语法
Head 2: 位置
Head 3: 指代
Head 4: 语义

二、Split → Attend → Concat → Project 动画

输入向量 (d_model=8) 被拆分为 h=4 个头 (d_k=2),各自独立计算注意力后拼接,最终通过 WO 线性变换。

步骤 0 / 4

三、注意力热力图

示例句子:"我 喜欢 这个 红色 的 苹果"。每个头关注不同的词间关系,悬停查看注意力分数。

注意力头数 h: 4

四、参数统计

多头注意力的关键参数一览

4
注意力头数 h
512
d_model
128
d_k = d_model / h
总参数量
与单头等价