参数初始化的选择

初始化对于网络收敛很关键,现在我知道的初始化方式有Gaussian xavier msra,这几种初始化方式有没有适用条件?参数又该怎么选择?麻烦大神分析讲解。
已邀请:
初始化的目的就是,设置一个很接近0的的值,以方便参数update。
Gaussian 是最先想到的一种可以实现一个很接近0的方法,而且带有较强的随机性,但也具有中央分布的特性。
Xavier 可以认为是Gaussian的一种改进,动态版的Gaussian,Reasonable的初始化,线性激活下Mathematical derivation,但是ReLU下可能会break网络的nonlinearity。
so, 凯明的MSRA = Xavier/2,解决了这个问题
 
一般来说,MSRA > Xavier > Gaussian , but  MSRA > Xavier 有待更长期的考验 ,根据Stanford 231n的建议,普遍使用Xavier,尝试 MSRA。

要回复问题请先登录注册