Softmax 概率分布可视化

探索温度参数如何影响多分类神经网络的输出概率分布

P(y=j) = exp(zj / T) / Σ exp(zk / T)
温度参数控制
Temperature T = 1.0
T < 1: 分布更尖锐,模型更自信  |  T = 1: 标准 Softmax  |  T > 1: 分布更平滑,模型更谨慎
Logits 原始输出值 (10 个类别)
分布统计
最高概率类别
-
最高概率值
-
分布熵
-
Top-3 概率总和
-
概率分布柱状图
概率分布环形图
核心洞察

T = 1.0 标准 Softmax

标准的概率分布转换,平衡自信度与不确定性。这是神经网络训练和推理的默认配置。

T < 1.0 知识蒸馏 (Hard)

概率集中于最大 logit 对应的类别。当 T → 0 时退化为 argmax, 适用于推理阶段获得确定性预测。

T > 1.0 知识蒸馏 (Soft)

概率分布趋于平滑均匀。Hinton 的知识蒸馏方法使用较高温度产生 soft targets, 传递教师模型的 "暗知识"。

数值稳定性技巧

实际计算时先减去最大 logit:exp(zj - max(z)), 防止指数溢出,结果在数学上完全等价。