LLM 使用技巧

基于 Transformer 架构原理的交互式解读

📐 首尾记忆效应 (Primacy-Recency Effect)

在因果注意力（Causal Attention）中，最后一个 token 负责"汇总"前文所有信息来生成下一个词。然而，注意力并非均匀分布——开头和结尾的内容往往获得更高的注意力权重，形成经典的 U 形曲线。中间的内容容易被"稀释"而被模型忽略。

上下文长度（句子数量） 12

首尾效应强度 0.70

Attention(last) = softmax(q_last · K^T / √d_k) · V

上图展示了最后一个 token 对前文每个位置的注意力权重分布。可以看到两端（开头 & 结尾）的权重明显更高，中间部分相对较低。拖动滑块增加上下文长度，观察中间部分的注意力如何进一步被稀释。

把最重要的指令放在提示词的开头或结尾！中间位置的内容最容易被模型忽略。这对长提示词尤其重要——如果你有一个关键约束，宁可重复写在开头和结尾各一次。

🌡️ 温度参数 (Temperature Scaling)

Transformer 在生成下一个词时，会对所有候选词计算 logits（原始分数），然后通过 softmax 函数转换为概率分布。 温度参数 T 控制这个概率分布的"尖锐"程度。温度越低分布越集中，温度越高分布越平坦。

P(word_i) = exp(logit_i / T) / Σ exp(logit_j / T)

温度 T 1.00

默认设置

平衡的输出分布

⚖️

写代码时用低温度 (0.1-0.3)，确保输出确定性高、逻辑严谨。
写创意文章时用中高温度 (0.7-1.0)，让模型输出更多样化。
头脑风暴时可尝试高温度 (1.2-1.5)，但注意连贯性可能下降。
温度超过 1.5 通常会导致输出不可控。

🔍 上下文窗口与注意力稀释 (Attention Dilution)

Transformer 的自注意力机制中，每个位置的注意力权重之和恒为 1（softmax 归一化）。这意味着上下文越长，每个 token 平均分到的注意力就越少。这就是所谓的 "Lost in the Middle" 现象——长文本中间的信息最容易被遗忘。

平均注意力 = 1/N (N = 上下文长度)

上下文长度 N 500

上下文长度

500

平均注意力权重

0.200%

注意力热力图 — 颜色越亮表示注意力越高（U 形分布 + Lost in the Middle）

低注意力

高注意力

长文本中，把关键信息放在开头或结尾，不要埋在中间！
如果必须放在中间，可以用特殊标记（如 "【重要】"）来吸引模型注意力。
上下文从 1K 增长到 100K 时，平均注意力下降了 100 倍。

🔗 Chain-of-Thought 的注意力原理

为什么让模型"一步步思考"效果更好？从注意力机制的角度看，CoT（思维链）在问题和答案之间插入了中间推理步骤。每个步骤都为下一步提供了近距离的上下文，使注意力不必跨越过远的距离来获取关键信息。这就像在河流中放置"垫脚石"——每一步都让下一步走得更稳。

问题

→

答案

注意力必须远距离跳跃，容易丢失关键信息

问题

→

步骤1

→

步骤2

→

步骤3

→

答案

每步推理都提供近距离上下文，注意力更集中

📊 注意力距离对比

左侧：没有 CoT 时，答案必须"远距离"关注问题中的关键信息，注意力容易分散。
右侧：使用 CoT 后，每一步只需要关注"近距离"的前一步，信息传递更加可靠。
这就是为什么 "Let's think step by step" 能显著提升复杂推理任务的准确率。

让模型"先想后答"——每一步推理都为下一步提供近距离的上下文。
简单任务：直接提问即可，不需要 CoT。
复杂推理：使用"请一步步分析"或"Let's think step by step"。
多步计算：要求模型"先列出已知条件，再逐步推导"。