关于特征选取-慕课网

1回答

liuyubobobo 回答被采纳获得+3积分 2020-06-07 00:37:25

如果能够删除低效特征，还是建议做的。

这里的关键，其实不完全是低效特征的“低效”。如果抛开性能问题不谈，这要是特征太多，会导致数据维数过大，导致维度灾难。维度灾难会使得分类效果显著下降。解决方案是：增大数据量。维度越高，为了避免维度灾难，就需要越大的数据量。但是大多数时候，我们很难有无穷的数据量。

也正是因为如此，特征工程在机器学习算法的实践中是非常重要的。当然，特征工程不仅仅是删除“低效特征”，也旨在挖掘“更高效”的特征。关于特征工程更多讨论，可以参考这里：http://coding.imooc.com/learn/questiondetail/40722.html

继续加油！：）

0 回复有任何疑惑可以回复我~

收起回答

提问者慕设计1002876 #1
```
好的，谢谢老师
```
回复有任何疑惑可以回复我~ 2020-06-07 02:09:02

提问者慕设计1002876 #2

顺便再问一下，我有时候发现数据量越大，f1越低，这是什么情况？这里的数据量扩大是单单一类标签数量扩大，我想预测债券违约，违约的上市公司很少，所以只能加大履约公司的数量

回复有任何疑惑可以回复我~ 2020-06-07 02:12:21

liuyubobobo 回复提问者慕设计1002876 #3

说明基于少量数据建立的模型不够反应出真正的问题模型。当数据多了，问题的方方面面才被展现了出来。并不是数据越大，模型结果就一定越好。更准确的说法是：数据越大，模型训练出的结果越真实。基于小数据量的高准确度的模型不一定是真实的；而给予大数据量的低准确度的模型更可能是真实的。基于更大数据量做模型优化，得到的结果是更可靠的。小数据量高准确度的模型，放到真实的数据下做测试，就原形毕露了。

回复有任何疑惑可以回复我~ 2020-06-07 09:16:54

点开查看后面1条评论

关于特征选取

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空