训练损失曲线实验
模拟训练中损失下降过程,直观看到学习率、正则化强度与收敛稳定性的关系。
学习率 lr
0.10
正则化 λ
1.0
训练轮次 epoch
120
初始损失
0.000
最终损失
0.000
如果学习率过大,曲线会出现明显震荡;如果正则过大,曲线虽稳定但最终损失会偏高。