采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
为什么sigmoid会导致梯度消失,而relu不会?
relu 不是不会消失,这与训练数据有很大关系。sigmod 是在数据超过正负1之后,就变成了一条水平的直线,自然也就没有了梯度;而relu 是大于0是一条斜线,小于0才是一条直线。因此,如果训练数据总保持在【-1,1】之间时,sigmoid 不会发生梯度消失。而RELU对数据的要求就更宽泛,只要数据不为负就不会出现梯度消失。对于图像,视频来说,他们的像素值都是正值,即使做一些运算基本上也是乘法运算,因此使用RELU就没问题。而到了大语言模型,由于数据有正有负,所以RELU也不适用了。所以结论是:对于不同的任务,其训练数据有很大不同,像RELU特别适合处理图像,视频类的任务;sigmoid 适合处理数据有正有度,但范围都在【-1,1】这个范围的任务;
非常感谢!
登录后可查看更多问答,登录/注册
计算机视觉--YOLO+Transfomer多场景目标检测实战
629 17
322 6
409 5
199 5
352 4
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号