学习率更新方法

我分别用一般的SGD + momentum 和 Adam的 梯度更新算法,在cifar10上做了个对比实验,发现 在训练初期,adam收敛优于SGD, 但训练后期adam比SGD差。训练时,我采用的学习率更新方法为 fixed, 并在第60000轮和第65000轮将学习率减少10倍,总共迭代70000轮。 top1 的准确率如下图:

trainvalerr.jpg

 
为啥adam在训练后期会变差,有什么优化的技巧吗? 
已邀请:

emerald

赞同来自:

sgd方法是严格收敛的,adam的收敛无法证明,理论上说当n无穷大时sgd肯定会比adam好

要回复问题请先登录注册