交叉验证的疑惑-慕课网

1回答

liuyubobobo 2020-04-28 03:10:54

这里的关键还是要理解，我们为什么引入验证数据集？关键就是因为：如果不用验证数据集，只是用训练数据集和测试数据集，训练的结果会对测试数据集过拟合。也就是你的模型其实是不断看测试数据集的数据得到的结果，最终，这个在测试数据集上的结果就不可信了。

你可以理解成，训练数据集就是平时的作业；验证数据集就是模拟考试；测试数据集就是高考。高考的卷子的内容是不能参与到训练的，否则结果就不准确了。

划分出一个测试数据集，本质是在模拟真实的，完全没有见过的数据。只有用这个模型完全没有见过的数据，才能客观说明模型的真实效果。

你说得对，这会导致一个问题，测试数据集的划分随机。可这恰恰达到了这个测试数据集的目的：当你的模型被应用到真实的场景的时候，扔进你的模型的数据，就是这么随机的啊！

如果害怕 outlier，应该使用异常检测，把 outlier 剔除；如果觉得数据量太小，没有代表性，则应该增大数据量。

当然，你要偏说这个方法有漏洞，那也没毛病。毕竟使用一次高考来衡量不够合理。不过，从另外一个角度，其实测试数据集中的每一个测试点都是一次“高考”，最后测试数据集的准确度已经是“多次高考”平均的结果了。想让这个结果更可信，那就加大测试数据集的数量。当然，也要保证训练数据集的数量。这本质其实就是：训练一个稳固的模型，是对数据量有要求的。这也就是为什么数据非常重要，且值钱的原因。

继续加油！：）

2 回复有任何疑惑可以回复我~

收起回答

提问者慕婉清4872412 #1

那下面这种方法是对的吗....


那为什么不把原始数据直接交叉验证呢？直接将原始数据划分为训练集、验证集、测试集。十则交叉验证的话，就按6:2:2的比例将所有数据随机划分十次。这样既能通过验证集调节参数，我也相当于拥有了10个测试集，会得出10个准确率。这样我就能算出模型最终的平均准确率以及标准差。

回复有任何疑惑可以回复我~ 2020-04-28 11:47:21

liuyubobobo 回复提问者慕婉清4872412 #2

不对。训练过程中所有数据都碰了。我说那么多，重点就是一句话，测试数据集是模拟生产环境下的真实数据的，不应该参与训练过程。一点都不可以。

回复有任何疑惑可以回复我~ 2020-04-28 12:35:56

交叉验证的疑惑

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空