采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
这节课里面讲到使用relu时要谨慎选择lr,但是,我不太懂这个激活函数和训练时候的lr的关系 谢谢老师
想对于其他的激活函数比如sigmoid,relu在大于0的时候的导数是1, 而sigmoid的倒数是f(x) (1 - f(x))是一个比1小很多的数。这样,因为relu的导数比较大,所以在更新参数的时候,我们要调小lr,从而使得每次的梯度更新不要那么激烈。
登录后可查看更多问答,登录/注册
深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN
1.5k 9
1.6k 8
1.1k 7
1.2k 7
1.9k 7