采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
bobo老师,决策树在解决分类问题时,通过遍历dim和value找到分裂的两组数据的最优信息熵值,信息熵是根据各个类别的比例计算出来的;但是如果是回归问题,每个样本的y值是个连续的数值,这个怎么计算信息熵呢,如何去确定那个最优的分裂呢
也有很多标准。原始的决策树论文的标准,也是最经典的标准,是最小化SSE(sum of squares error)
式子是这样的:
其实很好理解,就是划分成两部分以后,这两部分的的误差平方和(每个结果减均值的平方)最小。
继续加油!:)
对于回归树,衡量分类标准的是样本方差,分裂方法与回归树类似,只是把熵函数改成方差函数
E(D) = sum(y.hat - y.average)**2 / m
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.4k 17
2.9k 15
1.6k 15
1.4k 14