决策树的应用场景-慕课网

1回答

liuyubobobo 回答被采纳获得+3积分 2022-09-06 01:47:51

整体，对于“复杂的机器学习问题”（基本就意味着大多数我们现代的机器学习问题），决策树是没什么用的。原因很简单，决策树太“简单了”。

决策树的意义是：

1）

首先，非常重要的，决策树模型是“可解释的”。通过决策树，可以看到一个样本分到某个类别的过程（因为这个特征大于多少，那个特征小于多少，等等等等）。这对于统计分析，是非常重要的。

和第一点相关的，使用 decision tree 可以计算出一个特征的“重要程度”，因此 decision tree 可以作为一个“特征选择”的工具。注意，特征选择和 PCA 降维不同。虽然特征选择也降低了维度，但非常重要的，也保持了语义信息。

sklearn 的 feature_importances_ 可以返回这个特征重要程度的信息：https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.feature_importances_

这个算法我在课程中没有介绍，如果对其实现细节感兴趣，可以看类似这样教程：https://sefiks.com/2020/04/06/feature-importance-in-decision-trees/

3）

对于“复杂的机器学习问题”，决策树最重要的意义是：构成类似随机森林这样的集成学习方法。

继续加油！：）

1 回复有任何疑惑可以回复我~

收起回答

提问者黄义舜 #1

我昨天学习到第13章的时候，我拍大腿叫好啊，这个集成学习和随机森林简直是太妙了，集成学习集百家之长，随机森林让我见识了随机的威力，bobo老师我顺便问一个关于随机森林的小问题，>>将模型分为500个子模型，每个模型51%的准确率，最后进行投票，最后模型准确率能得到提升，是不是因为那1%？（按我的理解的话，假如模型只有49%的准确率，应该是越投票准确率越低把）

回复有任何疑惑可以回复我~ 2022-09-06 10:17:37

liuyubobobo 回复提问者黄义舜 #2

对的，弱分类器，还是要保证“每个”（实际应该是大部分）分类器的分类方向是正确的，不能所有的分类器分的结果都是错的。只不过是不需要所有的分类器都有那么高的准确率，但是把他们合在一起，在集成学习的模型下，也能得到最终很好的准确率。（甚至 51% 就够了。）

而实际上，我上面的叙述中，说"每个分类器的分类方向是正确的"，这个条件都太强了。我随便做一个例子，比如一个集成模型，集成了 3 课决策树。三棵决策树的分类准确率分别是：0.7, 0.49, 0.49（两棵小于 0.5），那么这个决策树的正确率是多少？这是一个很“常规”的概率问题，你可以算算看？

答案：0.7 * 0.49 * 0.51 + 0.7 * 0.49 * 0.51 + 0.49 * 0.49 * 0.3 + 0.7 * 0.49 * 0.49 = 0.59 左右。（大部分都是错的，有一个分类器比较强，也 ok，只不过此时，还不如直接去使用那个比较强的分类器）

回复有任何疑惑可以回复我~ 2022-09-09 02:38:44

提问者黄义舜回复 liuyubobobo #3

噢，这刚好也是我遇到的一个问题，我在玩泰坦尼克号竞赛的时候，集成学习整合了很多模型，似乎效果还没有单个的网格搜索之后的KNN算法好，原来是这个原因啊！

回复有任何疑惑可以回复我~ 2022-09-09 10:25:32

决策树的应用场景

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空