请稍等 ...

关于 learning_rate(i_iter * m + i)

老师你好！我在学习本节课的时候有一个小问题：

在第一轮随机梯度下降中，最终theta下降到目标函数最小值的附近
之后进行第二轮随机梯度下降，但此时第二轮随机梯度下降刚开始的学习率相比于第一次刚开始的学习率其实已经小了很多了，这里第二轮随机梯度下降开始之前不应该重新设置学习率吗？

用公式来表达，就是学习率公式为什么不是 learning_rate(i)这样的形式呢？
第二轮开始的学习率和第一轮结束的学习率有什么关系呢？

谢谢老师！

慕少1032305 2019-09-29 11:35:07

源自：6-7 scikit-learn中的随机梯度下降法

843

收起

提交取消

1回答

liuyubobobo 回答被采纳获得+3积分 2019-09-29 17:55:12

不应该重设学习率。

这里的第一轮第二轮，不是每一轮计算出一个值，而是我们要迭代 n_iter * m 次，为了照顾到所有的样本，使得所有的样本都被参考 n_iter 次，所以，我们一轮一轮的来。

但实际上，第二轮是在第一轮的计算结果的基础上，继续优化的，所以，根据模拟退火的原则，继续减小步长：）

继续加油！：）

0 回复有任何疑惑可以回复我~

收起回答

提问者慕少1032305 #1
```
理解了！感谢老师悉心解答！
```
回复有任何疑惑可以回复我~ 2019-09-30 09:18:15

相似问题

学习率 learning_rate(i_iter * m + i) 参数为啥这么大？

关于learning_rate

为什么m个向量线性无关，可以推出m=n？

为什么2的m比方等于m，还有后面的那个

iptables配置失败

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5978 人
提交作业 297 份
解答问题 2456 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

3.3k 19

关于线性回归中归一化处理和不对归一化处理的问题

4.3k 17

数据归一化为什么有用？对归一化无法直观理解

3.8k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

2.1k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

2.0k 14

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

关于 learning_rate(i_iter * m + i)

正在回答

1回答

相似问题