采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
对于特征数远远大于样本数的数据,高斯核是否相当于降维?如果是,这种降维是否类似于PCA的降维,可以解决共线性的问题呢?谢谢bobo老师
1
不能将高斯核理解成降维,高斯核本质还是将数据映射到了无穷维,可以参考这里的讨论:http://coding.imooc.com/learn/questiondetail/146193.html
2
高斯核不能和 PCA 相提并论。除了高斯核的本质并不是降维之外,二者之间最大的本质区别是:PCA 是线性的,高斯核是非线性的。
3
如果处理特征数远大于样本数的情况,核心还是要做预处理。或者在数据预处理阶段,对数据进行降维,特征选择,等等方式,让数据的维度降下来;或者增加数据量,让样本数升上去;或者二者兼有。完全靠算法本身处理这个问题并不靠谱。依然是,数据预处理是时间机器学习过程中非常重要的一步。
4
你说的共线性问题,从道理上,解决方案也应该在数据预处理上,应该尽量在数据预处理中,找到共线性的特征,将他们尽量剔除,而不是指望算法能够自动识别。不过我一般处理数据很少去看共线性问题,我老婆做一些工作需要做统计分析对此比较敏感。但机器学习很多时候只关注最终预测结果的准确率,而不去看相关,显著这些统计指标,所以可能并不 care 共线性,可以根据自己实际的需求做取舍。
继续加油!:)
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
2.9k 15
1.6k 15
1.4k 14