Scaled Dot-Product Attention 逐步计算可视化

等待开始...

1 输入嵌入矩阵 X

4 个词元 ("I", "love", "deep", "learning") 的 6 维嵌入向量，拼成 4x6 矩阵。

2 线性投影: Q, K, V

通过三组权重矩阵，将 X 分别投影为 Query, Key, Value (d_k = 3)。

X · W_Q = Q | X · W_K = K | X · W_V = V

3 注意力分数计算

Query 与 Key 的转置相乘，得到原始注意力分数矩阵。

Scores = Q · K^T

4 缩放 (Scaling)

除以 √d_k 防止点积过大导致 softmax 梯度消失。

Scaled = Scores / √d_k = Scores / √3 ≈ Scores / 1.732

5 Softmax 归一化

对每行执行 softmax，将分数转为概率分布（每行求和 = 1）。

Attention Weights = softmax(Scaled, dim=-1)

6 加权输出

用注意力权重对 Value 矩阵加权求和，得到最终输出。

Output = Attention Weights · V