for i_iter in range(n_iters):
indexes = np.random.permutation(m)
X_b_new = X_b[indexes,:]
y_new = y[indexes]
for i in range(m):
gradient = dJ_sgd(theta, X_b_new[i], y_new[i])
theta = theta - learning_rate(i_iter * m + i) * gradient
关于这段代码不太理解
随机梯度下降的这段代码中,对于乱序排序,按照视频里的说法是随机的看一遍,最后再对每个样本迭代一次,每次的顺序不同是不是为了避免陷入局部最低点??就像是每次的起始位置发生改变是吗??
登录后可查看更多问答,登录/注册