请稍等 ...

对于随机梯度下降的乱序操作不太理解

for i_iter in range(n_iters):
indexes = np.random.permutation(m)
X_b_new = X_b[indexes,:]
y_new = y[indexes]
for i in range(m):
gradient = dJ_sgd(theta, X_b_new[i], y_new[i])
theta = theta - learning_rate(i_iter * m + i) * gradient
关于这段代码不太理解
随机梯度下降的这段代码中，对于乱序排序，按照视频里的说法是随机的看一遍，最后再对每个样本迭代一次，每次的顺序不同是不是为了避免陷入局部最低点？？就像是每次的起始位置发生改变是吗？？

管一三四 2018-11-09 10:34:55

源自：6-7 scikit-learn中的随机梯度下降法

939

收起

提交取消

1回答

liuyubobobo 回答被采纳获得+3积分 2018-11-09 11:25:40

每次的顺序不同，就是为了更加体现这个随机！这两重循环其实相当于随机取了 n_iters * m 次样本，计算梯度，进行梯度下降的搜索工作，同时，保证了，这个过程，每个样本的信息都用到了（都用到了n_iters次）。

为什么要随机？是的，为了避免陷入局部最低点。同时，这样做，算法性能效率也更高，因为每次梯度计算，只使用了一个样本：）

继续加油！：）

0 回复有任何疑惑可以回复我~

提问者管一三四 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2018-11-11 08:55:53

相似问题

两种梯度下降法的速度比较

该怎么理解随机梯度必然会下降这个操作？

关于小批量梯度下降算法与改进之后的随机梯度下降算法

随机梯度下降法计算性能的疑问

随机梯度下降法

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5893 人
提交作业 275 份
解答问题 2455 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

2.7k 19

关于线性回归中归一化处理和不对归一化处理的问题

3.7k 17

数据归一化为什么有用？对归一化无法直观理解

3.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

1.7k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

1.6k 14

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号