采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师您好。在学习l1,l2正则化的时候有这样一个图菱形和圆形我能理解代表l1,l2正则化系数之和。但右上角那一圈等高线表示的是损失函数值的等高线就不太理解了。如何能保证每一类损失函数的等高线都符合这种图像呢?如果有一类损失函数的等高线图像不规则的话,那两种正则化对应的特征不是就会失效吗?
"正则化对应的特征不是就会失效"这句话是什么意思?我没有特别理解你想表达的意思。
损失函数不一定是碗状函数,但不管损失函数是什么样子,正则化项都在起抑制损失函数的作用,让我们的最优化函数不仅仅是损失函数在其作用,而受正则化项的牵制。
l1中损失函数会与正则化项的等高线相交于坐标轴,是因为这是个碗状函数,也导致了l1的特征是会使某些系数值为0。但如果这个损失函数不是碗状的,而是一个不规则图形,与l1相交于某条边上而非坐标轴顶点上,那不就是没有项被置为零,也就让l1失去了稀疏化特征了吗?
理解了。基于L1正则化做特征选择(L1-based feature selection)主要用于线性模型(线性回归,逻辑回归,线性SVM),背后的原因就是你说的。没有听说过基于神经网络+L1做特征选择的。但是如果刨除特征选择这个功能,L1用于正则化抑制过拟合,还是ok的(高斯核SVM也能用L1来抑制过拟合)。另外,即使损失函数不规则,也可以尝试一下L1做特征选择的效果。如果无效,其实就是最终求出来的theta值没有很多趋于零而已。但也可能有效。因为对于大部分参数学习的损失函数来讲,即使不是碗状的,也是平滑的,仍然有概率使得L1做特征选择很有效:)
好的,明白了。谢谢老师!
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
3.0k 15
1.6k 15
1.5k 14