请稍等 ...

关于learning_rate

老师好，
这节课中各种降梯度的方法我都看懂了，唯一不明白的是learning_rate，为什么每种方法都会在最后更新x（参数）的时候，先乘一个learning_rate啊？学习率不应该是在多次迭代的过程中，自动更新的吗？那就不需要一开始设置一个learning rate啊。而且照您说还要把这个东西一开始设置的很小，但从公式来看，这个learning rate每次都不参与更新，并且每次都要跟更新后的梯度做乘积，那不就把自动调整好的梯度都给乘没了吗（因为learning rate是个很小的小数）？

慕瓜7596423 2018-10-29 17:14:33

源自：5-1 adagrad_adam

1319

收起

提交取消

1回答

正十七 2018-10-30 23:21:49

刚开始学习率很低是为了使得训练更加稳定，因为较大的梯度会导致训练震荡。

最朴素的方法学习率是不变的。但是有些方法会根据训练次数来对学习率进行调整，还有自适应的算法，即根据每个参数被更新的情况来设置学习率。

如果梯度乘没了，那么就代表训练收敛了，这时如果没有达到较好的效果，可以算是欠拟合。需要重新调整学习率进行训练。当然，一般情况下大家都会使用自适应调整学习率的训练方法，比如Adam。

0 回复有任何疑惑可以回复我~

提问者慕瓜7596423 #1

但learning_rate应该只是对初始的学习率的设定啊，至于学习率往后怎么变，要看他自己学习的情况而定。可依照这节课里的公式，在梯度下降的过程中，每次学到的新的学习率，都会被乘一个初始的，值非常小的（0.0001这种）的learning_rate，这不都把学好的学习率给乘没了吗

回复有任何疑惑可以回复我~ 2018-11-02 10:50:29

相似问题

关于 learning_rate(i_iter * m + i)

关于common.SessionName的问题

这个损失，一会下降一会上升，准确率也不固定

关于课程优化上的一点建议

学习率 learning_rate(i_iter * m + i) 参数为啥这么大？

登录后可查看更多问答，登录/注册

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

参与学习 2617 人
解答问题 935 个

深度学习算法工程师必学，深入理解深度学习核心算法CNN RNN GAN

了解课程

本课精华内容

问答

有些问题

1.5k 9

老师，我之前在jupyter上是可以正常运行的，后面就报警告和错误了，您看看下面的图

1.6k 8

（已放弃）win10 cuda9.2 cudnn7.2.1 tensflow_GPU 1.10.0 程序意外结束

1.1k 7

为什么0的概率就是激活函数的输出呢？

1.2k 7

激活函数和归一化的问题

2.0k 7

查看更多本课问答

意见反馈帮助中心 APP下载