老师，我想再问一下为什么要在sgd的时候加上一个constant 去控制他的下降速度，因为我们的目的不是为了取最后的那个eta么-慕课网

1回答

liuyubobobo 回答被采纳获得+3积分 2019-05-16 15:41:53

抱歉，我没有特别理解你的问题，你说的具体是哪个constant？

==========

首先，仔细看，我们的sgd的实现，没有eta了，转而使用t0，t1计算出的learning_rate代替。

首先，sgd也使用eta是可以的。但是效果不好。

这是因为批量梯度下降法可以保证一定沿着梯度下降的方向前进，所以梯度本身就会越来越趋近于0，在此时，即使eta不变，整个theta的变化也会越来越小。

但是，对于随机梯度下降法来说，由于梯度知识根据某一个样本计算出来的，所以并不能保证越来越小，可能很跳跃，为了得到较好的收敛结果，我们选择使用模拟退火的方式，让learning_rate逐渐减小：）

继续加油！：）

但是s

0 回复有任何疑惑可以回复我~

收起回答

提问者霸宋 #1

不好意思 没有说清楚。是sgd的时候 分子分母都加了一个t0，t1。learning rate t=t0/t+t1

回复有任何疑惑可以回复我~ 2019-05-16 16:16:21

liuyubobobo 回复提问者霸宋 #2
```
我补充在原答案上了：）
```
回复有任何疑惑可以回复我~ 2019-05-16 16:22:34
提问者霸宋 #3
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2019-05-27 20:14:35

老师，我想再问一下为什么要在sgd的时候加上一个constant 去控制他的下降速度，因为我们的目的不是为了取最后的那个eta么

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空