老师,我读了其他的问题
对于随机梯度下降,我的理解是,如果使用正常梯度下降的话,是根据所有数据来计算总体的梯度,保证反方向的梯度一定是朝着J(θ)最小值方向前进的
但是对于随机梯度下降法的话,每次取一组随机的数据计算梯度,这个随机数据的某些特性可能不符合总体梯度的方向,甚至所有特性都不符合总体梯度的方向(完全朝着J(θ)最小值方向的反方向前进的),因此导致这张题上的运动规律
但是相比较来说,如果大体的数据如果符合线性回归,说明大部分的数据的特征都是符合总体梯度的方向,如果迭代的数量足够大的时候,大部分的随机数据都是朝着J(θ)最小值方向的,J(θ)总会下降到最低的点。
我这样的理解对吗?
我读了https://coding.imooc.com/learn/questiondetail/98263.html这个问题,你说的“如果深入这个问题,就会明白。其实收敛性从来不是算法的性质,而是函数的性质。” 意思是看函数是否可以用线性回归解吗?存在某些函数可以用梯度下降,但是不能用随机梯度下降的方式解决嘛?