Softmax 概率分布可视化

探索温度参数如何影响多分类神经网络的输出概率分布

P(y=j) = exp(z_j / T) / Σ exp(z_k / T)

温度参数控制

Temperature T = 1.0

T < 1: 分布更尖锐，模型更自信 | T = 1: 标准 Softmax | T > 1: 分布更平滑，模型更谨慎

Logits 原始输出值 (10 个类别)

分布统计

最高概率类别

最高概率值

分布熵

Top-3 概率总和

概率分布柱状图

概率分布环形图

核心洞察

标准的概率分布转换，平衡自信度与不确定性。这是神经网络训练和推理的默认配置。

概率集中于最大 logit 对应的类别。当 T → 0 时退化为 argmax，适用于推理阶段获得确定性预测。

概率分布趋于平滑均匀。Hinton 的知识蒸馏方法使用较高温度产生 soft targets，传递教师模型的 "暗知识"。

实际计算时先减去最大 logit：exp(z_j - max(z))，防止指数溢出，结果在数学上完全等价。