请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于特征选取

老师,如果我使用Svm算法,选取了一篮子特征,肯定有的特征区分度强,有的区分度弱,那我有没有必要用遗传算法之类的工具,删去低效率的特征呢?或者说我保留低效的特征会不会显著降低我的分类效果?

正在回答

1回答

如果能够删除低效特征,还是建议做的。


这里的关键,其实不完全是低效特征的“低效”。如果抛开性能问题不谈,这要是特征太多,会导致数据维数过大,导致维度灾难。维度灾难会使得分类效果显著下降。解决方案是:增大数据量。维度越高,为了避免维度灾难,就需要越大的数据量。但是大多数时候,我们很难有无穷的数据量。


也正是因为如此,特征工程在机器学习算法的实践中是非常重要的。当然,特征工程不仅仅是删除“低效特征”,也旨在挖掘“更高效”的特征。关于特征工程更多讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html


继续加油!:)


0 回复 有任何疑惑可以回复我~
  • 提问者 慕设计1002876 #1
    好的,谢谢老师
    回复 有任何疑惑可以回复我~ 2020-06-07 02:09:02
  • 提问者 慕设计1002876 #2
    顺便再问一下,我有时候发现数据量越大,f1越低,这是什么情况?这里的数据量扩大是单单一类标签数量扩大,我想预测债券违约,违约的上市公司很少,所以只能加大履约公司的数量
    回复 有任何疑惑可以回复我~ 2020-06-07 02:12:21
  • liuyubobobo 回复 提问者 慕设计1002876 #3
    说明基于少量数据建立的模型不够反应出真正的问题模型。当数据多了,问题的方方面面才被展现了出来。并不是数据越大,模型结果就一定越好。更准确的说法是:数据越大,模型训练出的结果越真实。基于小数据量的高准确度的模型不一定是真实的;而给予大数据量的低准确度的模型更可能是真实的。基于更大数据量做模型优化,得到的结果是更可靠的。小数据量高准确度的模型,放到真实的数据下做测试,就原形毕露了。
    回复 有任何疑惑可以回复我~ 2020-06-07 09:16:54
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信