请稍等 ...

为什么conv+bn+relu是有效的？

bn过后relu的输入值就相当于均值为0方差为1，这样不就直接dead了一般吗？这样还可以加快收敛吗？

10648

收起

提交取消

1回答

正十七 2018-08-09 23:22:31

第一，relu激活函数不是一到负数就成为dead cell的，如果是较大的负数，比如-0.5，-0.1这样子的，还是可以从dead变为active的，因为其他参数的调整，可以使输入发生变化。只有较大的梯度，将这个神经元的激活值变为比较小的负数，比如-1000，才会形成dead relu。

第二，bn在relu之前还是之后貌似结果差别不大，翻了下原始论文，猜测作者应该是先对sigmoid做了实验，把BN放在了之前，然后relu就直接follow之前的做法了。

第三，需要理解bn的作用在于通过平滑隐藏层输入的分布，帮助随机梯度下降的进行，缓解随机梯度下降梯度衰减的情况。从这个角度来说，前和后应该是都能起到作用的。

2 回复有任何疑惑可以回复我~

Sigmoid对比ReLU

登录后可查看更多问答，登录/注册

深度学习算法工程师必学，深入理解深度学习核心算法CNN RNN GAN

了解课程

问答

1.9k 9

2.0k 8

1.5k 7

1.5k 7

2.4k 7

购课补贴
联系客服咨询优惠详情

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号