老师，小批量随机梯度下降法的学习率也是随迭代次数增大而减小吗，每次选择的样本一般是多少呢-慕课网

1回答

liuyubobobo 2018-08-24 15:15:40

梯度下降法中的学习率是一个超参，是和迭代次数独立的一个参数，而不是迭代次数的函数。学习率需要在执行算法前进行指定。可以参考我们这个课程中实现的梯度下降法训练的函数声明：

1	`def` `fit_bgd(self, X_train, y_train, eta=0.01, n_iters=1e4):`

其中，eta是学习率；n_iters是迭代次数。

对于小批量梯度下降法，每一个“小批量”是多少，可以根据自己计算环境的计算资源和样本总量而定，10%样本，5%样本，1%样本，都可以：）这也是一个超参数。随机梯度下降法和批量梯度下降法是小批量梯度下降法的两级。随机梯度下降法等于每一个批量的样本数为1；批量梯度下降法等于每一个批量的样本数为100%：）

加油！：）

0 回复有任何疑惑可以回复我~

收起回答

提问者慕用6515613 #1

老师，你在随机梯度下降法里不是讲了学习率随迭代次数增加而减小吗，采用了模拟退火的思想，小批量梯度下降法的学习率也是这样吗

回复有任何疑惑可以回复我~ 2018-08-24 15:37:12

liuyubobobo 回复提问者慕用6515613 #2

哦哦哦，我理解了。在随机梯度下降法中，我们的学习率不是给定的固定值，而是靠t0和t1和当前迭代的次数t计算出来的。对，小批量梯度下降法也可以使用同样的策略。其中t0和t1是超参数：）

回复有任何疑惑可以回复我~ 2018-08-24 15:40:34

提问者慕用6515613 回复 liuyubobobo #3
```
嗯嗯，了解了，谢谢老师
```
回复有任何疑惑可以回复我~ 2018-08-24 16:22:27

老师，小批量随机梯度下降法的学习率也是随迭代次数增大而减小吗，每次选择的样本一般是多少呢

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空