Transformer 架构中三种核心注意力掩码的可视化对比
每个 token 可以关注序列中的所有其他 token,包括前后方向。BERT 采用此方式进行深度语义理解,适用于文本分类、命名实体识别等需要全局上下文的任务。掩码矩阵全部为 1。
每个 token 只能关注自身及其左侧的 token,右侧未来信息被遮蔽。GPT 系列采用此方式进行自回归文本生成,确保模型在推理时不会"偷看"未来 token。掩码为下三角矩阵。
Decoder 中的 token 可以关注 Encoder 输出的所有位置。用于 Transformer Encoder-Decoder 架构(如 T5、BART),将源序列信息融合到目标序列的每一步生成中。掩码为全 1 矩阵。