Scaled Dot-Product Attention

逐步可视化 Q, K, V 的计算过程与注意力机制

等待开始...
1 输入嵌入矩阵 X

4 个词元 ("I", "love", "deep", "learning") 的 6 维嵌入向量,拼成 4x6 矩阵。

2 线性投影: Q, K, V

通过三组权重矩阵,将 X 分别投影为 Query, Key, Value (d_k = 3)。

X · WQ = Q  |  X · WK = K  |  X · WV = V
3 注意力分数计算

Query 与 Key 的转置相乘,得到原始注意力分数矩阵。

Scores = Q · KT
4 缩放 (Scaling)

除以 √dk 防止点积过大导致 softmax 梯度消失。

Scaled = Scores / √dk = Scores / √3 ≈ Scores / 1.732
5 Softmax 归一化

对每行执行 softmax,将分数转为概率分布(每行求和 = 1)。

Attention Weights = softmax(Scaled, dim=-1)
6 加权输出

用注意力权重对 Value 矩阵加权求和,得到最终输出。

Output = Attention Weights · V