请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于n_components的取值问题

老师,我X_train 是(10,1000000)的数组,我把他用pca降维的时候,n_components提示要小于(m,n)的最小值,意思是主成分的选取还跟样本数量有关吗,不应该是和样本特征有关吗

正在回答

1回答

是的,说白了就是:降维的结果,维度要小于等于样本数。


从数学的角度,是因为如果结果的维度大于样本数,会导致不可解(或者不收敛)。但是因为这个课程没有对 PCA 背后的数学做严格推导,所以如果你真的想了解其背后的数学原因,可以参考统计学的课本(通常本科的概率论和统计课程不会涉及 PCA,你需要参考研究生的高级统计学课本。)


你也可以直观地去理解,就是如果在一个高维空间,样本数量不足,是不能表达这个高维空间的。如果你学习过线性代数,就会明白:一个 n 维空间,至少需要 n 个向量(n 个样本)才能表达,否则我们无法确定这个 n 维空间。(这部分线性代数的知识在本科的线性代数课本中就会介绍。如果感兴趣可以学习一下,顺便一提,如果深入机器学习,线性代数的基础是需要打牢的。)


所以,如果你指定的空间的维度比样本数还大,是无法确定这个空间的。


继续加油!:)

1 回复 有任何疑惑可以回复我~

相似问题

登录后可查看更多问答,登录/注册

问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号