同学你好,我把另一个问题的回答贴到了这里,应该能回答你的问题。
问题: bn,激活,droupout,残差连接的顺序?
这几个的用法确实比较灵活,这里面的关键因素我觉得是bn,据我所知:
bn和激活函数的顺序可以互换: https://www.zhihu.com/question/283715823
bn和dropout一般不会同时用,因为dropout和bn都会改变方差。如果一定要用,需要在bn层后面使用dropout或者修改dropout的公式使之对方差敏感。因为bn的效果应该比较显著。
残差和bn,一般bn会用在残差块之内吧,可以参考论文《Exploring Normalization in Deep Residual Networks with Concatenated Rectified Linear Units》