采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
梯度下降法中的学习率是一个超参,是和迭代次数独立的一个参数,而不是迭代次数的函数。学习率需要在执行算法前进行指定。可以参考我们这个课程中实现的梯度下降法训练的函数声明:
def
fit_bgd(
self
, X_train, y_train, eta
=
0.01
, n_iters
1e4
):
其中,eta是学习率;n_iters是迭代次数。
对于小批量梯度下降法,每一个“小批量”是多少,可以根据自己计算环境的计算资源和样本总量而定,10%样本,5%样本,1%样本,都可以:)这也是一个超参数。随机梯度下降法和批量梯度下降法是小批量梯度下降法的两级。随机梯度下降法等于每一个批量的样本数为1;批量梯度下降法等于每一个批量的样本数为100%:)
加油!:)
老师,你在随机梯度下降法里不是讲了学习率随迭代次数增加而减小吗,采用了模拟退火的思想,小批量梯度下降法的学习率也是这样吗
哦哦哦,我理解了。在随机梯度下降法中,我们的学习率不是给定的固定值,而是靠t0和t1和当前迭代的次数t计算出来的。对,小批量梯度下降法也可以使用同样的策略。其中t0和t1是超参数:)
嗯嗯,了解了,谢谢老师
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.6k 19
3.6k 17
3.1k 15
1.7k 15
1.5k 14
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号