注意力掩码对比

Transformer 架构中三种核心注意力掩码的可视化对比

可见 (允许注意)
遮蔽 (禁止注意)
双向注意力 BERT
因果掩码 GPT
交叉注意力 Encoder-Decoder
自回归生成演示 (因果掩码)
速度
点击「播放」查看因果掩码如何逐步扩展
掩码类型解析

双向注意力 (Bidirectional)

每个 token 可以关注序列中的所有其他 token,包括前后方向。BERT 采用此方式进行深度语义理解,适用于文本分类、命名实体识别等需要全局上下文的任务。掩码矩阵全部为 1。

因果掩码 (Causal)

每个 token 只能关注自身及其左侧的 token,右侧未来信息被遮蔽。GPT 系列采用此方式进行自回归文本生成,确保模型在推理时不会"偷看"未来 token。掩码为下三角矩阵。

交叉注意力 (Cross-Attention)

Decoder 中的 token 可以关注 Encoder 输出的所有位置。用于 Transformer Encoder-Decoder 架构(如 T5、BART),将源序列信息融合到目标序列的每一步生成中。掩码为全 1 矩阵。