LLM 使用技巧

基于 Transformer 架构原理的交互式解读

📐 首尾记忆效应 (Primacy-Recency Effect)

在因果注意力(Causal Attention)中,最后一个 token 负责"汇总"前文所有信息来生成下一个词。 然而,注意力并非均匀分布——开头和结尾的内容往往获得更高的注意力权重,形成经典的 U 形曲线。 中间的内容容易被"稀释"而被模型忽略。

上下文长度(句子数量) 12
首尾效应强度 0.70
Attention(last) = softmax(q_last · KT / √d_k) · V

上图展示了最后一个 token 对前文每个位置的注意力权重分布。 可以看到两端(开头 & 结尾)的权重明显更高,中间部分相对较低。 拖动滑块增加上下文长度,观察中间部分的注意力如何进一步被稀释。

把最重要的指令放在提示词的开头结尾!中间位置的内容最容易被模型忽略。 这对长提示词尤其重要——如果你有一个关键约束,宁可重复写在开头和结尾各一次。
🌡️ 温度参数 (Temperature Scaling)

Transformer 在生成下一个词时,会对所有候选词计算 logits(原始分数),然后通过 softmax 函数转换为概率分布。 温度参数 T 控制这个概率分布的"尖锐"程度。温度越低分布越集中,温度越高分布越平坦。

P(word_i) = exp(logit_i / T) / Σ exp(logit_j / T)
温度 T 1.00
默认设置
平衡的输出分布
⚖️
写代码时用低温度 (0.1-0.3),确保输出确定性高、逻辑严谨。
写创意文章时用中高温度 (0.7-1.0),让模型输出更多样化。
头脑风暴时可尝试高温度 (1.2-1.5),但注意连贯性可能下降。
温度超过 1.5 通常会导致输出不可控。
🔍 上下文窗口与注意力稀释 (Attention Dilution)

Transformer 的自注意力机制中,每个位置的注意力权重之和恒为 1(softmax 归一化)。 这意味着上下文越长,每个 token 平均分到的注意力就越少。 这就是所谓的 "Lost in the Middle" 现象——长文本中间的信息最容易被遗忘。

平均注意力 = 1/N   (N = 上下文长度)
上下文长度 N 500
上下文长度
500
平均注意力权重
0.200%
注意力热力图 — 颜色越亮表示注意力越高(U 形分布 + Lost in the Middle)
低注意力
高注意力
长文本中,把关键信息放在开头结尾,不要埋在中间!
如果必须放在中间,可以用特殊标记(如 "【重要】")来吸引模型注意力。
上下文从 1K 增长到 100K 时,平均注意力下降了 100 倍。
🔗 Chain-of-Thought 的注意力原理

为什么让模型"一步步思考"效果更好?从注意力机制的角度看,CoT(思维链)在问题和答案之间 插入了中间推理步骤。每个步骤都为下一步提供了近距离的上下文,使注意力不必跨越过远的距离来 获取关键信息。这就像在河流中放置"垫脚石"——每一步都让下一步走得更稳。

没有 CoT:直接回答

问题
答案
注意力必须远距离跳跃,容易丢失关键信息

使用 CoT:逐步推理

问题
步骤1
步骤2
步骤3
答案
每步推理都提供近距离上下文,注意力更集中
📊 注意力距离对比

左侧:没有 CoT 时,答案必须"远距离"关注问题中的关键信息,注意力容易分散。
右侧:使用 CoT 后,每一步只需要关注"近距离"的前一步,信息传递更加可靠。
这就是为什么 "Let's think step by step" 能显著提升复杂推理任务的准确率。

让模型"先想后答"——每一步推理都为下一步提供近距离的上下文。
简单任务:直接提问即可,不需要 CoT。
复杂推理:使用"请一步步分析"或"Let's think step by step"。
多步计算:要求模型"先列出已知条件,再逐步推导"。