请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

平衡数据集对构建模型的影响

波波老师好

我最近构建利用平衡数据集构建了一个机器学习算法,而后采用独立数据集验证模型的性能,我发现一个问题,若独立数据集也是平衡的,则算法性能较好,若独立数据集非平衡,也算法结果特别差。这可能是什么原因造成的?

谢谢波波老师。

正在回答

插入代码

2回答

liuyubobobo 2020-06-28 09:54:47

目测对于非平衡的独立数据集,数据量大的那个分类的出错率比较高,所以导致同样的模型,如果数据集非平衡,有巨大的正确率变化。


实际用你的数据观察一下是不是如此?


如果是如此,说明你的训练数据对于其中一个分类结果不够好,最直接的方式是想办法获得这个分类的更优的数据最训练。


继续加油!:)

0 回复 有任何疑惑可以回复我~
提问者 慕雪9580269 2020-06-28 12:08:51

波波老师,我没太理解,那我碰到这种问题应该怎么办?本来用来训练的数据集就是平衡数据集,我无法预测将来的独立数据集是平衡的,还是非平衡的?

0 回复 有任何疑惑可以回复我~
  • 说明你的训练数据集中,对于某一个分类,特征的表征不够,导致对这个分类的鉴别产生了大量错误。比如你的分类任务是区分猫还是狗。辨别出猫的正确率很高,但辨别出狗的正确率很低。导致如果你的测试数据集有很多狗的照片,整体正确率就下来了。这说明你的模型对狗的辨别率很低。或者做更多的特征工程,让你的数据特征能很好地分别出狗;或者可能你的训练数据集中,关于狗的数据不够理想,导致新的数据中的狗分别不出来。寻找更多更典型的狗的数据。
    回复 有任何疑惑可以回复我~ 2020-06-28 15:17:11
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号