采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,我X_train 是(10,1000000)的数组,我把他用pca降维的时候,n_components提示要小于(m,n)的最小值,意思是主成分的选取还跟样本数量有关吗,不应该是和样本特征有关吗
是的,说白了就是:降维的结果,维度要小于等于样本数。
从数学的角度,是因为如果结果的维度大于样本数,会导致不可解(或者不收敛)。但是因为这个课程没有对 PCA 背后的数学做严格推导,所以如果你真的想了解其背后的数学原因,可以参考统计学的课本(通常本科的概率论和统计课程不会涉及 PCA,你需要参考研究生的高级统计学课本。)
你也可以直观地去理解,就是如果在一个高维空间,样本数量不足,是不能表达这个高维空间的。如果你学习过线性代数,就会明白:一个 n 维空间,至少需要 n 个向量(n 个样本)才能表达,否则我们无法确定这个 n 维空间。(这部分线性代数的知识在本科的线性代数课本中就会介绍。如果感兴趣可以学习一下,顺便一提,如果深入机器学习,线性代数的基础是需要打牢的。)
所以,如果你指定的空间的维度比样本数还大,是无法确定这个空间的。
继续加油!:)
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
3.2k 19
4.2k 17
3.7k 15
2.0k 15
1.9k 14
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号