采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
bn过后relu的输入值就相当于均值为0方差为1,这样不就直接dead了一般吗?这样还可以加快收敛吗?
第一,relu激活函数不是一到负数就成为dead cell的,如果是较大的负数,比如-0.5,-0.1这样子的,还是可以从dead变为active的,因为其他参数的调整,可以使输入发生变化。只有较大的梯度,将这个神经元的激活值变为比较小的负数,比如-1000,才会形成dead relu。
第二,bn在relu之前还是之后貌似结果差别不大,翻了下原始论文,猜测作者应该是先对sigmoid做了实验,把BN放在了之前,然后relu就直接follow之前的做法了。
第三,需要理解bn的作用在于通过平滑隐藏层输入的分布,帮助随机梯度下降的进行,缓解随机梯度下降梯度衰减的情况。从这个角度来说,前和后应该是都能起到作用的。
登录后可查看更多问答,登录/注册
深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN
1.5k 9
1.6k 8
1.1k 7
1.2k 7
2.0k 7