为什么要用交叉验证？-慕课网

1回答

liuyubobobo 2018-01-14 01:38:41

不同的随机划分得到不同的结果。

一组数据a,b,c,d，使用a,b,c做训练集，d做测试集；和使用b,c,d做训练集，a做测试集，通常结果是不同的，而且有可能非常不一样。交叉验证相当于使用多次划分数据集进行训练最终取平均的方式，一定程度消除了这种随机划分数据带来的测试结果不同的影响。LOOCV则完全消除了这种影响。

0 回复有任何疑惑可以回复我~

收起回答

神经旷野舞者 #1

老师，为什么不同的训练集和测试集的组合，训练得到的结果可能非常不一样？
是不是如果我的每种训练数据集都足够大，是不是得到的结果非常不一样的可能性就降低了？

回复有任何疑惑可以回复我~ 2018-03-06 16:43:33

liuyubobobo 回复神经旷野舞者 #2
```
对！！
```
回复有任何疑惑可以回复我~ 2018-03-07 00:43:36

神经旷野舞者回复 liuyubobobo #3

拖延了一下午上网，晚上又想了一路，好像理清楚了一些。
我的理解是，对于交叉验证，比如有噪音的斜线样本数据集，分为abcde部分，，其中e作为测试数据，可以理解为伪真实数据，感觉这样不容易理解混淆了，用这个伪真实数据测试代入模型一次的结果，就好比真实环境代入模型一次的结果。
然后，abcd循环取其中一个作为验证数据集，其余作为训练数据集，对每组都做网格搜索，得到过拟合验证数据集的模型参数。
每组模型参数得到的线性方程可能都偏离了真实斜线方程，所以我们要对所有组的参数做个平均消除可能错的斜线，我就是比较奇怪，对所有组参数做平均可以得到正确模型参数，为什么是平均会不会是其他运算？

回复有任何疑惑可以回复我~ 2018-03-07 19:17:57

点开查看后面1条评论

为什么要用交叉验证？

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空