Transformer 矩阵乘法:逐步拆解

交互式探索 X x W = Q / K / V 的计算过程

1 认识输入矩阵

在 Transformer 的自注意力机制中,输入序列的每个词首先被转换为一个嵌入向量(embedding)。 这些向量组成输入矩阵 X,然后分别乘以三个不同的权重矩阵 WQWKWV, 得到查询(Query)、键(Key)、值(Value)三组表示。

Q = X WQ ,   K = X WK ,   V = X WV
X (输入, 4x3)
"I"
"love"
"deep"
"learning"
1.0
0.0
1.0
0.0
1.0
1.0
1.0
1.0
0.0
0.0
1.0
0.0
WQ (权重, 3x3)
1
0
1
0
1
0
1
0
0
WK (权重, 3x3)
0
1
0
1
0
1
0
1
1
WV (权重, 3x3)
1
1
0
0
0
1
1
0
1
每个词的嵌入向量是一行(如 "I" = [1.0, 0.0, 1.0])。 乘以不同权重矩阵后,同一个词会得到不同的 Query、Key、Value 表示 —— 这正是注意力机制的核心:"同一个输入,不同的角色"。