你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
没有找到相关结果
shiorioxy
赞同来自: 十点睡七点起 、caffe 、crackhopper 、CHMIT 、yunyunxu
shuokay
赞同来自: 十点睡七点起
要回复问题请先登录或注册
2 个回复
shiorioxy
赞同来自: 十点睡七点起 、caffe 、crackhopper 、CHMIT 、yunyunxu
Gaussian 是最先想到的一种可以实现一个很接近0的方法,而且带有较强的随机性,但也具有中央分布的特性。
Xavier 可以认为是Gaussian的一种改进,动态版的Gaussian,Reasonable的初始化,线性激活下Mathematical derivation,但是ReLU下可能会break网络的nonlinearity。
so, 凯明的MSRA = Xavier/2,解决了这个问题
一般来说,MSRA > Xavier > Gaussian , but MSRA > Xavier 有待更长期的考验 ,根据Stanford 231n的建议,普遍使用Xavier,尝试 MSRA。
shuokay
赞同来自: 十点睡七点起
Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks