关于小批量梯度下降算法与改进之后的随机梯度下降算法-慕课网

liuyubobobo 2021-09-14 03:12:30

我不太确定你使用的数据是怎样的，我假设你的实现是正确且等价的（一些很容易犯的错误比如在一次实验中对数据做了标准化，对另一个实验没有标准化）。但是对于机器学习，有几点简单说明一下：

1）不能只比算法，也要看参数。随机梯度下降法的迭代 100 万次，整体梯度下降法之迭代一次，肯定随机梯度下降法效果更好。除了迭代次数，还有容忍的误差，等等其他参数。再有一些情况下，对于一些算法，相同的参数背后带来的影响可能是不同的。（比如我们实现的梯度下降和随机梯度下降中的 n_iters 的定义是不一样的。）

实际上，对于你说的问题，很有可能其实随机梯度下降法内部的迭代次数，比你实现的小批量梯度下降法迭代次数高。

当然，还有可能的情况很多，比如精度问题导致速记梯度下降能到达一个那个比小批量梯度下降更“精准”的位置，那么此时需要你尝试调整误差的限制：eta 或者 epsilon

2）一个非常重要的 mindset 是：一个“更好的算法”，不一定最终的 score 更高。实际上，当你学习了后面的过拟合之后，你就会明白，我们如果只想要针对现在的数据达到 100% 的准确率，我们是永远可以做到这一点的。但关键是，这不是机器学习的目的。机器学习的目的是找到“最能反映实际情况的模型”，这个模型在我们的测试数据上可能表现差一些，但是它的泛化能力强。

所以，一个更好的算法，通常是“更可信的”，而非“准确率更高的”。这一点在机器学习中非常非常重要。

不过因为线性回归背后的最优化函数非常简单，所以可能不涉及这个问题。靠调参数让二者一致的概率应该是很大的。

继续加油！：）

0 回复有任何疑惑可以回复我~

收起回答

提问者 weixin_慕村8280326 #1

老师我之后测试小批量的n_niters设置的是20，就超过了随机梯度下降算法的了，我的理解是小批量可以以更小的迭代次数就接近最低点了，如果迭代次数多了反而会影响最终的结果，而随机梯度，由于是对每一个样本进行梯度计算，就相对慢一些，所以迭代次数是偏向于比较大的数，因为这样才能使之前接近最低点的sita更加接近，老师这样理解正确吗？

回复有任何疑惑可以回复我~ 2021-09-14 09:39:37

liuyubobobo 回复提问者 weixin_慕村8280326 #2

实际上，是不是小批量梯度下降法一定优于随机梯度下降法，是有争议的，尤其是在损失函数非常复杂的情况下，会有时候随机梯度下降法反而效果更好。但是依然是，由于线性回归的损失函数非常简单，所以是的，小批量梯度下降法需要的迭代次数更少是 make sense 的：）

回复有任何疑惑可以回复我~ 2021-09-14 11:28:36

关于小批量梯度下降算法与改进之后的随机梯度下降算法

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空