请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

为什么conv+bn+relu是有效的?

bn过后relu的输入值就相当于均值为0方差为1,这样不就直接dead了一般吗?这样还可以加快收敛吗?

10117
收起

正在回答

1回答

正十七 2018-08-09 23:22:31

第一,relu激活函数不是一到负数就成为dead cell的,如果是较大的负数,比如-0.5,-0.1这样子的,还是可以从dead变为active的,因为其他参数的调整,可以使输入发生变化。只有较大的梯度,将这个神经元的激活值变为比较小的负数,比如-1000,才会形成dead relu。

第二,bn在relu之前还是之后貌似结果差别不大,翻了下原始论文,猜测作者应该是先对sigmoid做了实验,把BN放在了之前,然后relu就直接follow之前的做法了。

第三,需要理解bn的作用在于通过平滑隐藏层输入的分布,帮助随机梯度下降的进行,缓解随机梯度下降梯度衰减的情况。从这个角度来说,前和后应该是都能起到作用的。

2 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信