请稍等 ...

theta=theta-etagradient这句的“gradient”的作用

1

2

3

4

5

6

7

8

9

10

11

eta=0.1
epsilon=1e-8
theta=0.0
while True:
    gradient=dJ(theta)
    last_theta=theta
    theta=theta-eta*gradient
    if(abs(J(theta)-J(last_theta))<epsilon):
        break
print(theta)
print(J(theta))

上述有一句theta=theta-eta*gradient，是为了逐步改变theta的值

在我看来，如果确认了theta的移动方向，实际上写成：theta=theta-eta，是不是也可以的？例如我知道了theta需要往右移时，我取一个正值的theta，theta需要往左移时，我取一个负值的theta

之所以要乘以gradient，是为了要确认theta移动的方向对吧？因为如果gradient（也就是导数）为正，那么说明theta下一次需要往x轴的负方向移动，如果gradient为负，那么说明theta下一次需要往x轴的正方向移动，这也是老师你在第1节说到的：导数可以代表方向，对应损失函数J增大的方向

所以乘以gradient的作用，就是为了确定正负方向

然后我还有一个问题，万一gradient的值非常大，那theta这个移动的距离不是会很大吗？对于我们获取极值来说，是不是会有影响？

weixin_慕勒6286300 2022-02-26 16:35:08

源自：6-2 模拟实现梯度下降法

769

收起

提交取消

1回答

liuyubobobo 回答被采纳获得+3积分 2022-02-27 12:29:26

1）

实际上写成：theta=theta-eta：

参考这里：https://coding.imooc.com/learn/questiondetail/259938.html

2）

万一gradient的值非常大，那theta这个移动的距离不是会很大吗？对于我们获取极值来说，是不是会有影响？

会有影响。有一种实现方式，将得到的 gradient 做一遍标准化，让 gradient 只表示方向，而其长度标准化为 1，则可以完全靠 eta 控制步长。如果出现你说的这种情况，可以考虑这样做。

继续加油！：）

0 回复有任何疑惑可以回复我~

相似问题

梯度下降法核心公式简单修改了一下,theta -= eta * gradient结果运行结果出乎意料

“步长”乘“导数”

这个地方的theta是不是该有下标

theta = theta - eta * gradient，直接求导数为0的theta 值就可以了，为啥还要一点点减呢

老师 J=（theta-2.5）**2-1 是否是对应模型 y=theta*x 的损失函数？

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5871 人
提交作业 275 份
解答问题 2452 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

2.6k 19

关于线性回归中归一化处理和不对归一化处理的问题

3.6k 17

数据归一化为什么有用？对归一化无法直观理解

3.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

1.7k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

1.5k 14

查看更多本课问答

意见反馈帮助中心 APP下载