采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,如果我使用Svm算法,选取了一篮子特征,肯定有的特征区分度强,有的区分度弱,那我有没有必要用遗传算法之类的工具,删去低效率的特征呢?或者说我保留低效的特征会不会显著降低我的分类效果?
如果能够删除低效特征,还是建议做的。
这里的关键,其实不完全是低效特征的“低效”。如果抛开性能问题不谈,这要是特征太多,会导致数据维数过大,导致维度灾难。维度灾难会使得分类效果显著下降。解决方案是:增大数据量。维度越高,为了避免维度灾难,就需要越大的数据量。但是大多数时候,我们很难有无穷的数据量。
也正是因为如此,特征工程在机器学习算法的实践中是非常重要的。当然,特征工程不仅仅是删除“低效特征”,也旨在挖掘“更高效”的特征。关于特征工程更多讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html
继续加油!:)
好的,谢谢老师
顺便再问一下,我有时候发现数据量越大,f1越低,这是什么情况?这里的数据量扩大是单单一类标签数量扩大,我想预测债券违约,违约的上市公司很少,所以只能加大履约公司的数量
说明基于少量数据建立的模型不够反应出真正的问题模型。当数据多了,问题的方方面面才被展现了出来。并不是数据越大,模型结果就一定越好。更准确的说法是:数据越大,模型训练出的结果越真实。基于小数据量的高准确度的模型不一定是真实的;而给予大数据量的低准确度的模型更可能是真实的。基于更大数据量做模型优化,得到的结果是更可靠的。小数据量高准确度的模型,放到真实的数据下做测试,就原形毕露了。
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
2.9k 15
1.6k 15
1.4k 14