bobo老师,通过对集成学习的总结和整理,我将集成学习处理分类问题分为了这样的两部分:
1、使用不同的超参数(kNN、逻辑回归、SVM)与非超参数(决策树)模型的整合模型,通过投票的方式获得最大化的预测正确。
2、使用随机操作(随机森林、adaboosting等),通过模型的不断迭代来最大化预测正确。
不知道我这样分类是否正确?
如果遇到了分类问题,是否可以直接将这个问题用这两种“公式”套一遍,跑这两种模型,选择最优的模型来使用?
随机森林算法只是以决策树为基准,那有没有以确定的最优超参数+kNN等方法为基准的随机森林?这种训练方法与其他基准的随机森林能否再进行集成学习?
问的问题有点多:)但是本质上就是这样的一个问题:
集成学习它所需要的并不是最优的算法是什么,无论我多少种算法进行组合,都可以称为集成学习。那么在实际的数据处理过程中是不是不能以一个“公式”套在所有的数据上来跑模型,而是需要把每一种模型都先跑一遍,再混合成集成模型跑一遍;带有超参数的跑一边,随机的也跑一遍?
可能是我的理解不够深入,希望老师您能给我做一下指点!感谢!