采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,请教一下关于两层的stacking集成的问题,假设一个关于二分类的问题,第一层有4个算法,如果我用的是一层模型预测的类概率作为二层模型的训练集,那二层的训练集的维度是不是4*2啊,如果一层模型预测的是类标签的话,那维度就是4.
第二层训练集的维度是 4。 4 个 算法对每一个数据的预测概率值,成为了第二层的特征值:)
看一看这个问答,看看是否能理解?https://coding.imooc.com/learn/questiondetail/47635.html
加油!:)
老师,我明白您的意思,我的意思是用predict和predict_proba这两个预测的结果作为二层模型的训练集的区别,predict只是预测一个样本属于具体哪一个类标签,结果是一维的,所以4个算法预测出4个类标签,二层训练集的特征维度就是4,而predict_proba不是返回二维的数组吗,分别表示样本属于0或1的概率,这样4个算法的预测结果不是8列吗?
我们只统一使用预测为 1 的概率(或者预测为 0 的改概率)就好了。因为预测为 0 的概率 + 预测为 1 的概率结果为 1,是固定的,所以,这两个特征是在反应同样的信息。预测为 0 的概率并没有比预测为 1 的概率提供更多新的信息。从数学的角度来讲,就是他们是线性相关的,没有额外的信息。只是用一个就够了:)
我明白了,谢谢老师的耐心解答
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
2.9k 15
1.6k 15
1.4k 14