softvoting 和bagging中的问题-慕课网

1回答

liuyubobobo 2022-07-20 18:07:20

我测试了一下，在最新的 sklearn 的版本中，确实是这个结果。

这里关键是 Decision Tree 的具体实现中有太多随机的元素，这么长时间 sklearn 的稳定版也已经更新了七八个版本了，并且有一次巨大的更新。（我出这个课程的时候，sklearn 是 0.xx 版，现在已经是 1.x 版本了），所以很难追溯到底是哪里的变化导致了这个区别。

我简单比较了一下，和旧版相比，新版的 Decision Tree 的具体实现添加很多新的机制，有了很多新的参数。更重要的是，一个简单的计算精度的变换，都有可能导致这个误差。具体在课程的数据的例子中，这个误差基本就是 1 个样本的分类的差别。

原理上，课程中介绍的基本概念全部适用。在这里另外要把握的几点在于：

1）对于机器学习来说，要想看到相应的实验结果，数据量越大“越好”。

2）一个非常重要的 mindset 是：这里说的“越好”，不一定是准确率越高，而是越可信。

在这个课程中，自从介绍了 overfitting，大家就应该建立起来的一个非常重要的概念是：只要你愿意，做一个模型，让这个模型在指定数据上达到 100% 的准确度，是 100% 可行的。但是，这个模型“不可信”。在机器学习界，更多说成是：无法 generalize，但我喜欢用可信不可信的说法。这就好比一个人作弊可以拿到满分，但是这个满分不可信；如果他不作弊，得到 30 分，这个分数虽然低，但是他反映了这个人的真实水平，所以是更可信的。我们后续的所有决策，应该基于这个 30 分来做，而不是基于 100 分来做。

3）一两个样本点的差距，不能太说明问题。91.2 和 91.24 差距不大，很难说 91.24 的算法就真的优于 91.2 的算法。基本他们就在一个水平上。一定要明白，机器学习的背后是统计学。统计学是以大样本，样本随机分布作为前提的，一两个样本的抖动产生偏差是很正常的。

继续加油！：）

2 回复有任何疑惑可以回复我~

收起回答

提问者 rabbit999 #1

bobo老师用心了，一不注意又把score和可信度混淆了，现在清楚很多了，十分感谢老师的解答

回复有任何疑惑可以回复我~ 2022-07-20 18:30:08

softvoting 和bagging中的问题

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空