平衡数据集对构建模型的影响-慕课网

2回答

liuyubobobo 2020-06-28 09:54:47

目测对于非平衡的独立数据集，数据量大的那个分类的出错率比较高，所以导致同样的模型，如果数据集非平衡，有巨大的正确率变化。

实际用你的数据观察一下是不是如此？

如果是如此，说明你的训练数据对于其中一个分类结果不够好，最直接的方式是想办法获得这个分类的更优的数据最训练。

继续加油！：）

0 回复有任何疑惑可以回复我~

收起回答

提问者慕雪9580269 2020-06-28 12:08:51

波波老师，我没太理解，那我碰到这种问题应该怎么办？本来用来训练的数据集就是平衡数据集，我无法预测将来的独立数据集是平衡的，还是非平衡的？

0 回复有任何疑惑可以回复我~

收起回答

liuyubobobo #1

说明你的训练数据集中，对于某一个分类，特征的表征不够，导致对这个分类的鉴别产生了大量错误。比如你的分类任务是区分猫还是狗。辨别出猫的正确率很高，但辨别出狗的正确率很低。导致如果你的测试数据集有很多狗的照片，整体正确率就下来了。这说明你的模型对狗的辨别率很低。或者做更多的特征工程，让你的数据特征能很好地分别出狗；或者可能你的训练数据集中，关于狗的数据不够理想，导致新的数据中的狗分别不出来。寻找更多更典型的狗的数据。

回复有任何疑惑可以回复我~ 2020-06-28 15:17:11

平衡数据集对构建模型的影响

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空