请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于那个OOB会有约37%样本不会被采样到的问题

这个比例应该跟随机采样的样本占总样本的比例有关吧,如果我一次就抽样80%,那肯定会有远低于这个比例的样本不会被采样到的

正在回答

1回答

和取样比例无关。


注意,所谓的有放回取样(bootstrap),是指,对于从n个样本中取出k个元素,每取出一个元素,我们都要把这个元素放回,再取,这样取k次。也就是这k次取样,每次都是从n个样本中选取的。所以,我们每次取出的组成一棵决策树的那k个元素,是有重复的。如果总共有n个样本,每次我用80%的样本,也就是0.8n个样本组成决策树,这0.8n个样本是有重复的,而非无重复的。所以,并非有20%的样本取不到,而是大于20%的样本取不到。


这个取不到的样本数的极限值,为37%左右。n越大,越高概率的趋向于这个数值:)

1 回复 有任何疑惑可以回复我~
  • 提问者 慕村7477745 #1
    非常感谢!
    回复 有任何疑惑可以回复我~ 2018-07-20 08:47:29
  • 老师,如果每次只是取一个元素,然后再放回去,在从 n个元素,再去一个,循环下去。这样一个决策树 会有重复的。 取不到的极限值 会达到37%
    
    那可不可以做成,一次性取元素然后再放回去的算法呢?
    
    举个例子 500个元素  index 随机后,去前面400个元素,生成一颗树,在把400个 放回去。再次随机index, 再次取出400个,循环下去。这样会不会降低 37%的极限值呢?
    回复 有任何疑惑可以回复我~ 2018-08-30 19:53:01
  • 会降低。这不是放回取样本身的定义:)
    回复 有任何疑惑可以回复我~ 2018-08-30 23:35:42
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信