Transformer 注意力机制直觉
"鸡尾酒会"类比 -- 每个词都在倾听其他词,关注最相关的信息
点击下方句子中的任意词语,查看它作为 Query 时对其他词语的注意力分布。
就像在嘈杂的鸡尾酒会上,你会自动聚焦于与你最相关的声音。
加权聚合(Value 融合)
选择一个 Query 词后,此处将展示注意力加权后的 Value 融合过程
核心类比:字典查找 / 鸡尾酒会
Q Query(查询)
你在鸡尾酒会上的"兴趣"或"问题"。当前词想知道:谁跟我最相关?
K Key(键)
每个词的"自我介绍标签"。用来和 Query 做匹配,计算相关度。
V Value(值)
每个词携带的"实际信息"。匹配度高的词,其信息将被更多地采纳。
A Attention(注意力)
Softmax(QKT/sqrt(d)) * V -- 最终得到的是一个信息的加权混合。