请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

对于多特征少样本(特征数大于样本数)的数据采用高斯核函数是不是相当于降维?

多项式原本是将数据升维使数据线性可分

那高斯核函数降维后会不会变成线性不可分呢?

正在回答

2回答

liuyubobobo 2018-02-13 02:06:12

1 可以理解成降维

2 当然可能。说的更一般一些,预测结果很差(因为soft-margin不要求线性可分)。但此时,说明:或者你的样本数据太少,需要添加样本数据;或者你的数据(或者应用场景)本身不适合使用SVM。


对于你设计的过程,确实做出了m个特征,但这m个特征是分布在怎样的一个高维空间我不确定,所以他的效果我不确定,有兴趣可以自己尝试一下:)


但是不管怎样,这个思路是和多项式核干的事情截然不同的。

多项式核的作用是挖掘特征之间的非线性关系,比如我们的数据有f1, f2, ..., fn 多个特征,那么多项式核在挖掘最终的结果和f1*f2;f3*f8*f10;f6^2等等这一类的特征之间是否有关;

你设计的方法,x*l1相当于是两个向量做点乘,然后加一做平方,让每一个样本和每一个landmark做这样的计算,考虑的还是样本和landmark之间的一种非线性关系(暂且不管这个关系到底有没有意义),而不是特征之间的非线性关系。


我们的任务不是转换成m个特征就好了,我们的任务是找到更有利我们分类任务的新的空间。

多项式核很好理解,我们之前举过例子,对于线性不可分的数据,增加多项式项,可以轻松的做到线性可分;

高斯核本质是在衡量样本和样本之间的“相似度”,在一个刻画“相似度”的空间中,让同类样本更好的聚在一起,进而线性可分。高斯核背后有很强的数学基础作支撑。并不是简单地想办法找m个特征就好了。这个课程不涉及SVM背后更多的理论知识,有兴趣可以找相关资料自学,深入理解SVM以及SVM背后的“核方法”。

1 回复 有任何疑惑可以回复我~
  • 提问者 慕运维2948618 #1
    多项式核函数那节课的推导我是看懂了,而且也合情合理,新的特征数取决于原来的特征数而不是样本。但是在高斯核函数里采用landmark的想法,样本数决定数据的维度是多少,感觉不严谨,因为在多项式核函数也可以用这种方法理解,但实际上多项式核函数并不是这么理解的。不过老师说的相似度倒提醒了我,高斯核函数是两个样本相减,然后进行高斯映射,这个过程就是寻找两个样本相似度的过程。所以,我觉得landmark这种用法只能用在高斯核函数这种求相似度的核函数上,不知道这样理解对不对?
    回复 有任何疑惑可以回复我~ 2018-02-13 11:10:05
  • liuyubobobo 回复 提问者 慕运维2948618 #2
    可以这么理解。其实高斯核本质还是要从核函数的角度去理解,它的本质是定义了一种新的“点积”形式。我们是先定义了这种新的点积形式,进而挖掘出:这种定义相当于是将样本向“无穷维”的一种映射。而不是先找到的这种映射,再推导出的高斯核。这种映射在具体数据上的离散化表示,就是landmark这种方式。很多教材不介绍landmark这种方式,我觉得也是有道理的。
    回复 有任何疑惑可以回复我~ 2018-02-13 11:24:11
提问者 慕运维2948618 2018-02-12 23:40:39

还有一个问题,那就是对于高斯核函数一个样本就是一个landmark,那对于多项式核函数不也可以这么去看?比如我任取两个样本,记为l1和l2,那不是可以这样,(x*l1 + 1)^2求出第一个特征,(x*l2 + 1)^2求出第二个特征。那一共有m个样本,那无论怎样最后此不是都是m个特征了?

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信