老师好,
这节课中各种降梯度的方法我都看懂了,唯一不明白的是learning_rate,为什么每种方法都会在最后更新x(参数)的时候,先乘一个learning_rate啊?学习率不应该是在多次迭代的过程中,自动更新的吗?那就不需要一开始设置一个learning rate啊。而且照您说还要把这个东西一开始设置的很小,但从公式来看,这个learning rate每次都不参与更新,并且每次都要跟更新后的梯度做乘积,那不就把自动调整好的梯度都给乘没了吗(因为learning rate是个很小的小数)?