训练网络时,loss下降后又快速上升

在训练网络时,出现网络loss缓慢下降,然后快速上升。例如经过10000次迭代,loss从4.7下降到0.9,训练集上准确率也达到0.8以上,但是在接下来的1000次迭代,loss回升到4.7附近。
我尝试改动过几个学习率,发现都存在这个问题。
这里有几个疑问。
这个现象是正常的吗?我需要保存loss低时候的模型,降低学习率finetune来解决这个问题吗?这个问题出现的原因是什么?
已邀请:

辛淼 - CaffeCN社区创始人

赞同来自:

你的数据没有问题吗 标签有没有打错 顺序有没有打乱

401晴空

赞同来自:

楼主你的问题解决了么,我这个也出现了类似的情况。但是在一次报错后出现的,程序运行到7w+次迭代报错如下: Check failed: error == cudaSuccess (4 vs. 0)  unspecified launch failure
然后利用snapshot文件重启继续训练,出现了loss增大问题,求解

要回复问题请先登录注册