实时观察损失下降、准确率提升和混淆矩阵的演变
交叉熵损失应平稳下降。如果震荡剧烈说明学习率过大,可尝试降低学习率观察差异。
当训练准确率远高于验证准确率时,表明模型正在记忆训练数据而非学习泛化特征。
对角线越亮表示分类越准确。非对角线的亮点揭示易混淆的类别对,是优化重点。
尝试不同学习率:小学习率收敛平稳但慢,大学习率收敛快但可能震荡甚至发散。