为什么一个注意力头不够?多个头如何捕获不同关系?
单个注意力头只能捕获一种关系模式,而多个头可以同时关注语法、位置、指代和语义等不同维度。
仅捕获语法关系
输入向量 (d_model=8) 被拆分为 h=4 个头 (d_k=2),各自独立计算注意力后拼接,最终通过 WO 线性变换。
示例句子:"我 喜欢 这个 红色 的 苹果"。每个头关注不同的词间关系,悬停查看注意力分数。
多头注意力的关键参数一览