采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,您好。我在课后也看了看梯度增强树相关的话题。我想问一下为什么说GBDT算法可以解决特征的排序问题呢?在梯度增强树中我们下一步的模型都是在拟合上一步模型的残差,由于损失函数的巧妙性使得损失函数的导数就是上一轮的残差。但是我还是没想明白,这跟特征的重要性有什么联系呢?谢谢老师!
老师,是因为建树的原因吗,在同一棵树中,这个节点的heigh越小(i.e. 越早被选为评判标准的节点),对于整个树来说信息熵的增益越多,可以对数据集进行更好的划分。所以可以根据这个点被选作split node的个数,作为特征排序的一个方法吗?
和你的理解差不多。不过通常认为,一个节点的height越小(越早被选为评判标准的节点),对于整个树来说信息熵的增益越多,可以对数据集进行更好的划分。所以就完全可以根据一个特征在决策树构造过程中选用的早晚,来决定特征的重要程度。当然,更加精细的,可以不仅考虑早晚,还考虑你说的多少,可以把重要程度作一个加权和。(选择的早晚是权重,越早权重越大):)
好呢,谢谢老师!
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.4k 19
3.4k 17
2.9k 15
1.6k 15
1.4k 14