Scaled Dot-Product Attention
逐步可视化 Q, K, V 的计算过程与注意力机制
1
输入嵌入矩阵 X
4 个词元 ("I", "love", "deep", "learning") 的 6 维嵌入向量,拼成 4x6 矩阵。
2
线性投影: Q, K, V
通过三组权重矩阵,将 X 分别投影为 Query, Key, Value (d_k = 3)。
X · WQ = Q | X · WK = K | X · WV = V
3
注意力分数计算
Query 与 Key 的转置相乘,得到原始注意力分数矩阵。
Scores = Q · KT
4
缩放 (Scaling)
除以 √dk 防止点积过大导致 softmax 梯度消失。
Scaled = Scores / √dk = Scores / √3 ≈ Scores / 1.732
5
Softmax 归一化
对每行执行 softmax,将分数转为概率分布(每行求和 = 1)。
Attention Weights = softmax(Scaled, dim=-1)
6
加权输出
用注意力权重对 Value 矩阵加权求和,得到最终输出。
Output = Attention Weights · V