探索温度参数如何影响多分类神经网络的输出概率分布
标准的概率分布转换,平衡自信度与不确定性。这是神经网络训练和推理的默认配置。
概率集中于最大 logit 对应的类别。当 T → 0 时退化为 argmax,
适用于推理阶段获得确定性预测。
概率分布趋于平滑均匀。Hinton 的知识蒸馏方法使用较高温度产生 soft targets, 传递教师模型的 "暗知识"。
实际计算时先减去最大 logit:exp(zj - max(z)),
防止指数溢出,结果在数学上完全等价。