采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
为什么与批量梯度下降相比,两者的梯度函数是不一样的,但最后却依然能够收敛到相同的结果?这背后的数学原理我不太了解。
首先,他们的函数的形式是一样的。只不过批量梯度下降法每次参考了所有样本的信息;而随机梯度下降法每次参考了一个样本的信息。
如果你的问题是,随机梯度下降法为什么会收敛?可以参考这里的讨论:https://coding.imooc.com/learn/questiondetail/98263.html
继续加油!:)
谢谢老师!的确,我需要的是收敛性的证明,以及收敛结果相等的证明(也许我有强迫症,底层数学原理一定要搞清楚)。但数学底子还是太差了,目前看关于证明SGD收敛性的论文还是很吃力,正在恶补数学。 by the way,老师的课程讲得非常棒!
感谢支持。继续加油!:)
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
2.9k 15
1.6k 15
1.4k 14