采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
主成分分析法不应该是降维吗?开始我以为PCA是通过把有线性关系或非线性关系的几个特征用一个特征表示,达到降维的目的。为什么要找样本点间距最大的那条直线呢?使样本点间距增大的方法应该有很多吧,把样本投影到x轴然后在延展x轴的方法会不会更好实现呢? 对于为啥要让样本的方差最大化,我的理解是,使方差最大化可以尽可能的保留原始数据之间的额关系,减少特征与特征之间信息的丢失?
主成分分析法不应该是降维吗?
主成分分析法就是在降维。
把样本投影到x轴然后在延展x轴的方法会不会更好实现呢?
如这一小节的介绍,更好实现不意味着“效果更好”。在计算机科学中,更好实现从来都不是目标。
为什么要找样本点间距最大的那条直线呢?
因为样本点间距最大的那条线最大程度的保留了样本之间的信息,效果最好。可以参考这里:https://coding.imooc.com/learn/questiondetail/vZnjEY7V23eP72Wd.html 和
https://coding.imooc.com/learn/questiondetail/36607.html
开始我以为PCA是通过把有线性关系或非线性关系的几个特征用一个特征表示,达到降维的目的。
这是理解主成分分析非常非常重要的一点:主成分分析不是“找几个重要特征”进行降维,不是做“特征选择”。PCA 降维后的结果,新的维度的语义会消失,就是因为这个原因。可以参考这里:https://coding.imooc.com/learn/questiondetail/mg5J7RPqlzB68Zw1.html
对于为啥要让样本的方差最大化,我的理解是,使方差最大化可以尽可能的保留原始数据之间的额关系,减少特征与特征之间信息的丢失?
完全正确。
继续加油!:)
好的老师,关于降维我还有个疑问,就是比如样本数据中有三个特征,其中特征1和特征2在二维坐标中满足类似 特征1=2*特征2+5这样的函数表达形式,而且写成这个函数关系也满足这俩个样本间的方差最大化,那我们是不是就可以把特征1的数据通过这个函数表达式来表示成特征1呢?然后特征1和特征2的数据可以合并为: 特征1+特征2=3*特征2+5 这样少了一个参数是不是也可以是降维呢? 我这样的想法似乎和PCA寻找新的正交基不太一样,但是不是也可以达到降维的目的呢? 谢谢老师!
可以。但是这个前提是你知道了”特征1=2*特征2+5“这个信息。当你知道了这个信息以后,实际上就已经知道了一个特征是冗余的。就可以将其直接剔除掉。这其实是一个挺标准的特征预处理的步骤(如果发现两个特征极度相关,就可以剔除了。)。 但是,如果你并不知道这个信息,为了获得这个信息,你就需要依次验证两个维度之间是否相关,这在高维度下是非常耗时的。而只有高维度,才有降维的必要性; 另一方面,即使维度之间两两不存在这样的相关性,PCA 依然能很好的运转。 继续加油!:)
懂了懂了,谢谢老师!:)
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
3.2k 19
4.2k 17
3.6k 15
2.0k 15
1.9k 14
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号