老师,您好,训练子模型时,您又提到了随机取样时可能会出现“随机”的问题,我重新看了交叉验证,相对于“留一法”的分割方式,您是这样解释其它交叉验证中可能出现的“随机”问题:最佳的平均准确度对应的 k 个模型中,可能有部分模型刚好与其对应的验证数据集过拟合,导致准确度过高,进而使得此 k 个模型的平均准确度最高,如果验证数据集只是一个样本,不会出现过拟合现象。
一):对于最高平均准确率所对应的 k 个模型,在验证数据集上,其组合方式可能出现的情况,能这样理解吗?
部分模型不同程度过拟合 + 部分模型达到真正的最佳模型范围 + 部分模型不同程度欠拟合
部分模型不同程度过拟合 + 部分模型达到真正的最佳模型范围
所有模型都不同程度的过拟合
二)如果是第一种情况,k 个模型的准确率的平均值,是不是也比 k 个全部是真正的最佳模型的平均准确率高?
三)如果问题(二)成立,是不是可以说交叉验证的分割方式也不能完全避免“最佳模型”一定程度过拟合验证数据集?