课程中对oob的介绍不是很详细,我有时间在课程中单独添加一篇文章来详细的描述一下oob。
简单来说,37%不是对随机森林整体而言的,而是对每一棵树而言的。如果你有m个样本,对于一棵决策树,采用放回取样的方法取样m次,即也使用m个样本构成这棵决策树,大约会有37%的样本不会在这棵树中。所以,就可以使用这37%的样本作为测试数据集得到这棵树的预测准确度。随机森林的oob的结果是所有这些树oob结果的平均。
关于oob在scikit-learn中的介绍,可以参考:https://scikit-learn.org/stable/auto_examples/ensemble/plot_ensemble_oob.html
关键:The out-of-bag (OOB) error is the average error for each zi calculated using predictions from the trees that do not contain zi in their respective bootstrap sample.
加油!:)