theta = theta - eta * gradient，直接求导数为0的theta 值就可以了，为啥还要一点点减呢-慕课网

1回答

liuyubobobo 回答被采纳获得+3积分 2021-02-21 12:29:27

梯度下降法的关键就是在我们无法使用数学公式的方式直接求极值的情况，转而使用搜索的方式查找极值。

对于线性回归，由于损失函数非常简单，我们可以直接使用公式的方式求解。实际上，在上一章介绍的公式，就是线性回归使用数学公式推导得到的结果。但是，在有些情况下，我们是无法简单计算出导数为 0 时 theta 的值的。比如后需要学习的逻辑回归，比如神经网络，所以，我们需要梯度下降法。

在这一章，我是以线性回归为例，讲梯度下降法的原理。

继续加油！：）

0 回复有任何疑惑可以回复我~

liuyubobobo 回复提问者桂圆 #2

就是你的想法没有错。但是在一些情况下，导数为 0 求 theta 不那么容易，甚至求不出来（不是所有微分方程都能找到解析解的），此时就需要使用梯度下降法。

回复有任何疑惑可以回复我~ 2021-02-21 12:44:59

theta = theta - eta * gradient，直接求导数为0的theta 值就可以了，为啥还要一点点减呢