对集成学习的另一个想要探讨的问题-慕课网

2回答

liuyubobobo 回答被采纳获得+3积分 2022-08-14 16:42:19

1）

大体这样分类没问题。

2）

如果遇到了分类问题，是否可以直接将这个问题用这两种“公式”套一遍，跑这两种模型，选择最优的模型来使用？

可以。

但其实，在实践中，你总结的第一种方案不太被使用。主要是因为不太存在，单独的五个强分类器，每个效果都不好，但是把他们放到一个 VotingClassifier 中，效果就好了这种情况。所以对于集成学习来说，以使用随机森林为主。使用很多“弱分类器”，创建出“强分类器”，是主要的手段。

3）

有没有以确定的最优超参数+kNN等方法为基准的随机森林？

如果我没有理解错，你的问题是，我可不可以训练一堆 kNN 的弱分类器，然后集成一个强分类器？依然是，理论上，可以。但实际上，效果不好。使用决策树集成随机森林，效果是最好的。具体可以参考这里的讨论：http://coding.imooc.com/learn/questiondetail/137706.html

4）

那么在实际的数据处理过程中是不是不能以一个“公式”套在所有的数据上来跑模型

非常非常正确。随机森林是典型的“非参数学习”，所有的非参数学习算法，都不是求解一个具体的“公式”，这是和之前学习的诸如线性回归，逻辑回归，SVM 等算法的本质区别。

5）

需要把每一种模型都先跑一遍，再混合成集成模型跑一遍？带有超参数的跑一边，随机的也跑一遍？

这个问题有一些“歧义”，关键是你说的“跑一遍”到底是什么意思。

但是，整体，这里就有 bagging 或者 pasting 这类算法，和 voting 这类算法的区别了。（虽然他们都叫集成学习。）

voting 算法，是需要先把每个模型跑出来，然后用调好的最优的算法做 voting 的；

但是 bagging 和 pasting 并没有去“调”每一个子模型，只是根据参数，直接训练出来，每个子模型训练出来是什么样，就是什么样，错了也没关系。所以叫“弱分类器”。

看看·你是否能理解？

继续加油！：）

2 回复有任何疑惑可以回复我~

收起回答

提问者 Howiedu #1

谢谢bobo老师！如果从实用角度上来说，现在主流的机器学习模型就是以随机森林为主的算法，无论要预测什么数据都可以直接跑随机森林来建立较为不错的模型，那么kNN、逻辑回归等方法在将来的使用过程中还会有很大的用处吗？（Orz 因为总感觉前面的知识学了很久，突然有种可能用不到的感觉）

回复有任何疑惑可以回复我~ 2022-08-14 18:28:13

liuyubobobo 回复提问者 Howiedu #2

kNN 没什么用。单独创建逻辑回归在一些场合上有用，但很多时候效果也不好。不过逻辑回归的原理是神经网络的基础：）修正一点：不是“主流的机器学习模型就是以随机森林为主的算法”，而是如果使用集成学习的话，以随机森林为主：）

回复有任何疑惑可以回复我~ 2022-08-15 01:01:14

提问者 Howiedu 回复 liuyubobobo #3
```
谢谢老师！有很清楚的逻辑框架了！学到了很多知识，非常感谢！
```
回复有任何疑惑可以回复我~ 2022-08-15 08:53:50

小白一只726 2023-09-14 18:22:24

不太理解这里的超参数模型和非超参数模型是啥意思..

0 回复有任何疑惑可以回复我~

收起回答

小白一只726 #1

应该是想说参数学习和非参数学习吧，不管是参数学习还是非参数学习都是有超参数的

回复有任何疑惑可以回复我~ 2023-09-14 18:23:28

对集成学习的另一个想要探讨的问题

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空