采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师请问,主成分分析后,的数据在进行多项式转换,这样是否成立,因为维度过多,只能降维处理,降维后,再进行多项式,就可以简化计算维度,请问这种思路有没有问题
比较开放的问题了:)
虽然可以,但感觉稍微有些奇怪。因为PCA的目的是降维,或者说是压缩特征空间;多项式的目的是产生更多的特征,以避免原有特征的一些多项式组合没有被我们考虑到。再降维以后又升维,稍微有些奇怪。尤其是PCA是将原始的特征空间转移到了另外一个特征空间,对于这个新的特征空间,原始特征空间的特征“语意”将全部丢失。感觉上,在这个基础上,再多项式,意义不大。
相反的,先多项式,再PCA,感觉合理很多:)多项式的过程基于原先的特征语意,创建出了更多可能的特征的多项式组合。但这样一来,特征多了,这么多的特征,很有可能有很高的特征压缩的空间,再对这些特征使用PCA进行降维压缩,是非常合理的:)
不过依然是,我在这里都说的是“有可能”,我认为先多项式后PCA更加符合思维逻辑。但是不排除,面对某一个数据,你先使用PCA,再进行多项式,结果训练出的模型效果更好。遇到这种情况,可能更重要的是探究一下,为什么会出现这种情况,其中在这个处理过程中哪个”新“的特征发挥了重要的作用。沿着这个逻辑深入研究一下,或许会发现我们之前没有意识到的,更重要的特征:)
这也就是我在很多问答里说的,机器学习的方法并不是万能的。在很多情况下,甚至是极其无力的。机器学习只是使用统计学的手段,应用在现阶段人类还没有彻底搞明白的事物之上,去暂时进行预测分析。很多时候,机器学习的过程并不是简单的预测出那么一个结果而已。通过机器学习的过程,对数据,甚至是对问题本身,有更深刻的理解,或许在有些时候,是机器学习工程师更重要的任务呢:)
关于机器学习的使用,其实很重要的作用是更深刻的理解我们的数据和问题,也可以参考这个问答:https://coding.imooc.com/learn/questiondetail/43808.html
加油!
老师,非常非常感谢耐心回答!真是受益匪浅
老师,我这边是入门的思考,刚才您的描述中我好像明白了什么,我之所以这样做,因为我的数据就有几万维,直接进行多项式计算机运算时间过长,这个我我没有试过,我就想先将维度降下来,降成500维,这样大约有85%信息量,然后进行多项式运算,这样就可以解决运算力不够的问题,降维后的数据如果不进行多项式,效果好像没有多项式优,老师,另外说一下,我以前没见过数学这样牛的,因为我没有学过高数,听了您的课竟然听懂了,当然公式部分还是有很多问题,跟着您学习真是长了见识了
哇!没有学习过高数竟然看这个课程看了这么多!大赞!谢谢你的认可和肯定:)不过如果继续深入和机器学习或者数据分析相关的工作,有时间最好补补数学哦:)加油!
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
3.0k 15
1.6k 15
1.5k 14