采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师好: 1,这里特征选择部分是否指用PCA LDA等合适的方式对数据降维。 2,这里是先做特征选择,在做特征处理(归一化、编码等),那一般顺序也是如此吗? 3.如果特征未经处理(比如存在低中高这种非数值),对特征选择的影响是什么? 谢谢
同学你好,接下来对你的问题一一解答: 1,这里特征选择部分是否指用PCA LDA等合适的方式对数据降维。 pca和lda都是线性降维,主要目的还是为了缩减特征维度。如果特征本身比较少,降维可以不使用。对监督学习来说,很多时候,在很多模型里降维对最终的指标结果影响不是很大,但会影响计算效率;而非监督学习则建议多尝试,说不准会有意外收获。 2,这里是先做特征选择,在做特征处理(归一化、编码等),那一般顺序也是如此吗? 顺序没有一个确定规则,但大多数情况是先选择特征,再处理。但也有可能在处理后,有了新特征,再接着选。是个迭代的过程。 3.如果特征未经处理(比如存在低中高这种非数值),对特征选择的影响是什么? 没有处理的特征会加大特征选择的难度,比如a特征分布是0到10000,b特征分布是0到1,因为a特征分布广,所以看起来更重要,但如果归一化后,可以在同样范围的尺度评价他们对结果的影响究竟多大。更客观一些。
登录后可查看更多问答,登录/注册
快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!
1.2k 18
985 13
892 10
825 10
1.0k 9