注意力掩码对比

掩码类型解析

每个 token 可以关注序列中的所有其他 token，包括前后方向。BERT 采用此方式进行深度语义理解，适用于文本分类、命名实体识别等需要全局上下文的任务。掩码矩阵全部为 1。

每个 token 只能关注自身及其左侧的 token，右侧未来信息被遮蔽。GPT 系列采用此方式进行自回归文本生成，确保模型在推理时不会"偷看"未来 token。掩码为下三角矩阵。

Decoder 中的 token 可以关注 Encoder 输出的所有位置。用于 Transformer Encoder-Decoder 架构（如 T5、BART），将源序列信息融合到目标序列的每一步生成中。掩码为全 1 矩阵。