请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于决策树 bagging 与 随机森林的疑问

bobo老师好。
您之前提过,决策树,在每个节点的划分,寻找到最优的 特征 与 阈值。

问题一:
在集成学习中,由于传入决策树,所以 放回取样的bagging 、random_subspaces、 random_patches 等随机森林,是否并没有寻找最优的 特征与 阈值,而只是在随机特征中,寻找最优的阈值。

问题二:
我们通过 bagging,传入一个决策树,就可以创建一个随机森林。
随机森林,是在随机的特征子集上,取寻找最优阈值。那这个是否与random_subspaces是一致。

问题三:
随机森林,是在随机的特征子集上,取寻找最优阈值。是否存在,在某个节点通过 A特征划分,然后在之后的节点,接着通过对A特征进行划分的情况呢?

问题四:
在放回取样中,是否存在一个接口,返回 oob 具体哪些没有被取到的样本数据呢?
我在 RandomForestClassifier 做了测试,不过只找到 oob 对应的概率值。

图片描述

正在回答 回答被采纳积分+3

1回答

liuyubobobo 2019-03-21 11:09:16

是的。随机森林中每棵树寻找的都是对当前这棵树所取样的随机样本和随机特征对应的最优值,而不是全聚德最优值。我们就是使用这种方法,才可以增强整个随机森林的泛化能力。


2

一致。随机森林本身就是传入的分类其实决策树的Bagging Classifier


3

存在。决策树存在。随机森林就存在。因为随机森林就是一堆决策树。


4

不存在这个接口。我不确定为什么scikit-learn不设计这个接口。不过由于scikit-learn是开源项目。可以给他们提建议:)传送门:https://github.com/scikit-learn/scikit-learn


继续加油!:)

0 回复 有任何疑惑可以回复我~
  • 提问者 lemonlxn #1
    嗯嗯,也就是说 随机森林与random_subspaces是一致的,那与 random_patches 是否一致呢?我看了一下 随机森林,发现并没有 设置随机选取样本数量 的参数
    回复 有任何疑惑可以回复我~ 2019-03-21 11:20:20
  • liuyubobobo 回复 提问者 lemonlxn #2
    赞!没有这个参数。RandomForest中每棵树的样本数都是样本总量m。所以强烈建议使用bootstrap,让每棵树的样本有区别:)
    回复 有任何疑惑可以回复我~ 2019-03-21 11:25:53
  • 提问者 lemonlxn 回复 liuyubobobo #3
    嗯嗯,好的。对于随机取样,我这样理解吧。
    样本数据共有m个,每次取1个,取完之后放回去然后再取,一共取m次,则每个树的样本总量为m个。。
    回复 有任何疑惑可以回复我~ 2019-03-21 11:39:56
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信