基于 Transformer 架构原理的交互式解读
在因果注意力(Causal Attention)中,最后一个 token 负责"汇总"前文所有信息来生成下一个词。 然而,注意力并非均匀分布——开头和结尾的内容往往获得更高的注意力权重,形成经典的 U 形曲线。 中间的内容容易被"稀释"而被模型忽略。
上图展示了最后一个 token 对前文每个位置的注意力权重分布。 可以看到两端(开头 & 结尾)的权重明显更高,中间部分相对较低。 拖动滑块增加上下文长度,观察中间部分的注意力如何进一步被稀释。
Transformer 在生成下一个词时,会对所有候选词计算 logits(原始分数),然后通过 softmax 函数转换为概率分布。 温度参数 T 控制这个概率分布的"尖锐"程度。温度越低分布越集中,温度越高分布越平坦。
Transformer 的自注意力机制中,每个位置的注意力权重之和恒为 1(softmax 归一化)。 这意味着上下文越长,每个 token 平均分到的注意力就越少。 这就是所谓的 "Lost in the Middle" 现象——长文本中间的信息最容易被遗忘。
为什么让模型"一步步思考"效果更好?从注意力机制的角度看,CoT(思维链)在问题和答案之间 插入了中间推理步骤。每个步骤都为下一步提供了近距离的上下文,使注意力不必跨越过远的距离来 获取关键信息。这就像在河流中放置"垫脚石"——每一步都让下一步走得更稳。
左侧:没有 CoT 时,答案必须"远距离"关注问题中的关键信息,注意力容易分散。
右侧:使用 CoT 后,每一步只需要关注"近距离"的前一步,信息传递更加可靠。
这就是为什么 "Let's think step by step" 能显著提升复杂推理任务的准确率。