采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师视频里讲,由于我们每一次的验证数据集都是随机地从原来数据集中切分出来的,通过之前的分析也能看出来,我们训练出来的模型可能过拟合这个验证数据集,但是我们只有一份验证数据集,一旦这一份验证数据集里有比较极端的数据,就会导致我们的相应的模型不准确,为了解决这个问题,我们有了交叉验证这个方法。
为什么有极端数据会导致我们的模型不准确,是说有极端的数据正好使得模型过拟合这个验证数据集(但是不是有测试数据集防止过拟合吗?),还是说有极端异常数据使得模型没办法拟合呢?
我的理解,验证数据是应该用于给模型调参,如果验证数据中的存在极端数据会造成模型过拟合。测试数据只用于模型最终打分情况,作为衡量模型好坏的一个标准,不参与模型调参,对模型没有修正作用。
还有模型打分这个说法?以前没听过
模型打分就是对模型作出评价。准确率,R^2,RMSE等都是。
这里的极端数据是指:模型过拟合了验证数据集,但是测试数据集中的数据正好没有检测出来这种情况。这是因为测试数据集只是全部数据集的一部分,此时,依然是:选择哪些数据作为测试数据集,就有偶然情况的影响。
可以再回顾一下交叉验证的思路:数据集中的每一份数据都将参与测试,相应最终的测试结果也会准确很多。
老师这种极端情况出现的可能性有多大,感觉碰上的可能性挺小的,我只是感觉也没依据?
测试数据集越小,碰到的可能性越大。极端情况,你的测试数据集只有一个样本,这个样本预测成功了,你的算法在测试数据集上的表现就是100%正确。但是这个100%正确显然是不可信的。
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
3.0k 15
1.6k 15
1.5k 14