采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
这个比例应该跟随机采样的样本占总样本的比例有关吧,如果我一次就抽样80%,那肯定会有远低于这个比例的样本不会被采样到的
和取样比例无关。
注意,所谓的有放回取样(bootstrap),是指,对于从n个样本中取出k个元素,每取出一个元素,我们都要把这个元素放回,再取,这样取k次。也就是这k次取样,每次都是从n个样本中选取的。所以,我们每次取出的组成一棵决策树的那k个元素,是有重复的。如果总共有n个样本,每次我用80%的样本,也就是0.8n个样本组成决策树,这0.8n个样本是有重复的,而非无重复的。所以,并非有20%的样本取不到,而是大于20%的样本取不到。
这个取不到的样本数的极限值,为37%左右。n越大,越高概率的趋向于这个数值:)
非常感谢!
老师,如果每次只是取一个元素,然后再放回去,在从 n个元素,再去一个,循环下去。这样一个决策树 会有重复的。 取不到的极限值 会达到37% 那可不可以做成,一次性取元素然后再放回去的算法呢? 举个例子 500个元素 index 随机后,去前面400个元素,生成一颗树,在把400个 放回去。再次随机index, 再次取出400个,循环下去。这样会不会降低 37%的极限值呢?
会降低。这不是放回取样本身的定义:)
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
3.0k 15
1.6k 15
1.5k 14