请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于正则化的问题

老师您好。在学习l1,l2正则化的时候有这样一个图http://img1.sycdn.imooc.com//szimg/5c0a2cde0001c4ba15010760.jpg
菱形和圆形我能理解代表l1,l2正则化系数之和。但右上角那一圈等高线表示的是损失函数值的等高线就不太理解了。如何能保证每一类损失函数的等高线都符合这种图像呢?如果有一类损失函数的等高线图像不规则的话,那两种正则化对应的特征不是就会失效吗?

正在回答 回答被采纳积分+3

1回答

liuyubobobo 2018-12-07 16:50:42

"正则化对应的特征不是就会失效"这句话是什么意思?我没有特别理解你想表达的意思。


损失函数不一定是碗状函数,但不管损失函数是什么样子,正则化项都在起抑制损失函数的作用,让我们的最优化函数不仅仅是损失函数在其作用,而受正则化项的牵制。

0 回复 有任何疑惑可以回复我~
  • 提问者 慕九州9175731 #1
    l1中损失函数会与正则化项的等高线相交于坐标轴,是因为这是个碗状函数,也导致了l1的特征是会使某些系数值为0。但如果这个损失函数不是碗状的,而是一个不规则图形,与l1相交于某条边上而非坐标轴顶点上,那不就是没有项被置为零,也就让l1失去了稀疏化特征了吗?
    回复 有任何疑惑可以回复我~ 2018-12-07 16:56:05
  • liuyubobobo 回复 提问者 慕九州9175731 #2
    理解了。基于L1正则化做特征选择(L1-based feature selection)主要用于线性模型(线性回归,逻辑回归,线性SVM),背后的原因就是你说的。没有听说过基于神经网络+L1做特征选择的。但是如果刨除特征选择这个功能,L1用于正则化抑制过拟合,还是ok的(高斯核SVM也能用L1来抑制过拟合)。另外,即使损失函数不规则,也可以尝试一下L1做特征选择的效果。如果无效,其实就是最终求出来的theta值没有很多趋于零而已。但也可能有效。因为对于大部分参数学习的损失函数来讲,即使不是碗状的,也是平滑的,仍然有概率使得L1做特征选择很有效:)
    回复 有任何疑惑可以回复我~ 2018-12-07 17:24:24
  • 提问者 慕九州9175731 回复 liuyubobobo #3
    好的,明白了。谢谢老师!
    回复 有任何疑惑可以回复我~ 2018-12-07 18:12:23
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信