请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

决策树解决回归问题的原理

bobo老师,决策树在解决分类问题时,通过遍历dim和value找到分裂的两组数据的最优信息熵值,信息熵是根据各个类别的比例计算出来的;但是如果是回归问题,每个样本的y值是个连续的数值,这个怎么计算信息熵呢,如何去确定那个最优的分裂呢

正在回答

2回答

liuyubobobo 2019-08-03 02:06:08

也有很多标准。原始的决策树论文的标准,也是最经典的标准,是最小化SSE(sum of squares error)


式子是这样的:

//img1.sycdn.imooc.com//szimg/5d447b2e097565f005180075.jpg


其实很好理解,就是划分成两部分以后,这两部分的的误差平方和(每个结果减均值的平方)最小。


继续加油!:)

0 回复 有任何疑惑可以回复我~
慕圣6380070禅达 2020-03-03 20:33:06

对于回归树,衡量分类标准的是样本方差,分裂方法与回归树类似,只是把熵函数改成方差函数

E(D) = sum(y.hat - y.average)**2 / m

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信