请问在RNN上有比较好的采用Batch Normalization的实践么?

已经看过Batch Normalized Recurrent Neural Networks这篇论文,给出的结论是负面的~
已邀请:

xinmiao

赞同来自: alex68

谢邀。
这个问题目前仍然是开放的。
目前在RNN中使用ReLU和dropout都有较好的实践,但这篇文章中在RNN中使用BN的方法,末学不才,不敢妄言大神组的工作。只说一点,RNN中的权重与CNN中的权重,建模的不是同一套东西,BN不能直接套用,尤其是在递归结构中权重shared by time的地方(hidden-to-hiddenn那块)。
这应该是一个early work, 后续还会有进一步的研究出来,了解RNN的训练难问题,请看一下这两篇文章:
1. Training Recurrent Neural Networks
    Ilya Sutskever的PhD毕业论文
2. Training Deep and Recurrent Networks with Hessian-Free Optimization
    关于鞍点理论的(这里有一些争议性)
========说的不周到的地方,请大牛看到海涵指正。=========

要回复问题请先登录注册