样本数量与模型偏差和方差的关系-慕课网

1回答

liuyubobobo 回答被采纳获得+3积分 2019-05-22 02:58:37

赞一下实践精神！

首先，说结论。对于随机森林来说，公认的最佳参数选取，是每一棵树的sample树都是n（即最大值），但是，采用放回取样的方式。所以，每棵树的数据终会有重复样本。实际采集到的不同样本数是小于n的（大概是2/3左右）。这个证明太复杂了，老实讲，也超出我的能力范围了。

而n_estimators，是越多越好，但是，数量多到一定程度，也就趋于稳定了。你的第一个实验的图示证明了这一点：）

更更关键的是，影响随机森林算法泛化能力的参数，远不止这两个。可以参考scikit-learn的文档。所有前缀是max_***或者min_***的参数，都是有意义的。https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

你的叙述中，提到了outlier，在这里，有必要说一下。如果你知道你的数据中有outlier，应该在数据预处理阶段剔除，而不是想办法让算法能够在有outlier的情况下还能有良好的表现。送给算法的数据，应该是肯定没有outlier的数据。虽然我们在这个课程介绍一些算法的时候，会看到有些算法的底层设计似乎在考虑outlier的影响，但近乎一定的，所有的算法都会在没有outlier的数据上得到更好的表现。这就是我一直强调的：在机器学习的世界中，数据很重要很重要很重要，可能比大多数同学想象得都重要。很多问题的关键可能不是算法，二是数据。这也是为什么，很多“搞机器学习”的同学，每天的工作其实是在做数据清洗。因为数据清洗真的能提高机器学习算法的水平。这也是为什么，特征工程很重要很重要，可以参考这里：http://coding.imooc.com/learn/questiondetail/40722.html

最后谈一下泛化能力。泛化能力是我们训练模型的核心目的，因为，我们就是想要训练模型处理位置，但与此同时，泛化能力又是一个很虚的指标。为什么？因为我们不知道未知，怎么测试我们的模型在未知上的表现？

这也就是机器学习有的时候被称为“炼丹术”的原因。很多时候，我们在实验室中的一个次优模型，却能在生产环境下得到最好的结果。这也就是为什么，很多时候，我们分析我们的算法性能的时候，要看“趋势”，而不是一两个具体的值。真正的最优解，是在一个光谱范围里的。在一定的光谱范围中，我们很难说某一个值一定是最好的。因为，除了这些参数，数据质量，数据的代表性，等等算法无关的因素，也在影响最终算法的好坏。又说回了上面的问题：在机器学习的世界中，数据很重要很重要很重要，可能比大多数同学想象得都重要。

所以，你说f1_score不是最高的，这并不是什么问题。关键是稳定。因为最高不代表最好。我们要的是能够真实反映数据内涵的模型，而不是一个能测试出的最好结果的模型。实践表明，在大多数时候，实验室中找到的那个“能测试出的最好结果的模型”都不是泛化能力最强的模型：）

举一个例子，两个模型A和B，A得到的准确率是94%，B得到的准确率是95%。在机器学习的世界中，95%不一定是最好的。因为这个95%，可能只是因为你的测试数据的原因，恰好更高一些。但是，94%这个数字可以更好地反映出，你是用这个方法，基于这个数据，可以获得的模型的真实能力。换句话说，我可能有更高的信心，对于这个模型，在面对未知的时候，也能达到94%这么高。这是至关重要的。这就是我说的稳定的意思。

至于评价模型泛化能力的指标，任何评价模型能力的指标都可以。关键是要基于未知数据，而不是什么指标。不同的指标都会或多或少的反映模型的一个侧面。这也是为什么机器学习中包含这么多不同的指标的原因。scikit-learn中封装的就有这么多（在metrics模块下）：https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics

关于和指标相关的更多讨论，可以参考这里：http://coding.imooc.com/learn/questiondetail/42693.html

再赞一下实践精神！

继续加油！：）

2 回复有任何疑惑可以回复我~

收起回答

提问者神羅ten徵 #1

谢谢老师如此详细的解答！！

除noise=0.35外，我又分别取了noise=0.15和noise=0.5，发现当noise越小时，确实如老师所说max_samples越大效果越好；而noise较大时，max_samples大到一定程度后，效果反而变差了，这并不是由于算法造成的，而是由于数据质量造成的。并且noise越大，这个现象越明显。

这给我一个启示：当数据经过特征提取后，噪音仍然较大时，得谨慎考虑max_samples超参数的大小，若考虑不当，即使增大基分类器的个数，仍然不能使分类效果达到最优。

再次谢谢老师！

回复有任何疑惑可以回复我~ 2019-05-28 20:28:32

liuyubobobo 回复提问者神羅ten徵 #2
```
大赞实验精神！：）继续加油！：）
```
回复有任何疑惑可以回复我~ 2019-05-29 02:20:50

样本数量与模型偏差和方差的关系

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空