关于split和try_split的两个理解！-慕课网

def try_split(X, y): best_entropy = float('inf') best_d, best_v = -1, -1 for d in range(X.shape[1]): sorted_index = np.argsort(X[:,d]) for i in range(1, len(X)): if X[sorted_index[i], d] != X[sorted_index[i-1], d]: v = (X[sorted_index[i], d] + X[sorted_index[i-1], d])/2 X_l, X_r, y_l, y_r = split(X, y, d, v) e = entropy(y_l) + entropy(y_r) if e < best_entropy: best_entropy, best_d, best_v = e, d, v return best_entropy, best_d, best_v

3回答

liuyubobobo 2019-04-08 10:09:00

整个过程是首先对某一个维度的x进行排序。排序以后，依次遍历每一个点的值，以每一个点的值作为分割点，看在这里分割，是不是最佳的分割点（信息熵最小）。使用最佳分割点分割。

关键在于，分割的依据，不是训练数据集的y，而是根据每一个位置x计算出的分割后的信息熵：）

继续加油！：）

1 回复有任何疑惑可以回复我~

收起回答

提问者爱西瓜同志 #1

波波老师，之前我没有表达清楚，我的意思是X已经完成了索引排序，但是X对应的y并不是按照（1，1，1，1，1，0，0，0，0）这样子的，而是（1，1，1，1，0，0，0，0，1，1，1，1）这样子的，就像是抛物线，随着X的增加 的，y会有一个先增后减的过程，在这种情况下，这个决策树的try_split方法是不是就没有多大意义了，因为并不能挑选出一个好的信息熵

回复有任何疑惑可以回复我~ 2019-04-08 11:58:24

liuyubobobo 回复提问者爱西瓜同志 #2
```
我修改了原答案，看能否解释你的疑问？：）
```
回复有任何疑惑可以回复我~ 2019-04-08 12:15:49

提问者爱西瓜同志回复 liuyubobobo #3

嗯嗯，分割的依据是x。波波老师，我仔细看了看自己的描述，发现还是没有明确的表达自己的想法，我做一个图示，波波老师可以看看，在回答区。

回复有任何疑惑可以回复我~ 2019-04-08 19:11:18

点开查看后面1条评论

提问者爱西瓜同志 2019-04-08 19:12:35

计算信息熵的依据应该是y吧

0 回复有任何疑惑可以回复我~

收起回答

提问者爱西瓜同志 2019-04-08 09:36:07

关于第二个理解中y由弱到强（由强到弱）的理解就是：

y可以是（1，1，1，1，1，0，0，0，0，0），（0，0，0，0，0，1，1，1，1，1）这样的

而有强到弱再到强的理解可以是（1，1，1，1，1，1，0，0，0，0，0，，1，1，1，1，1），就是这么个意思

0 回复有任何疑惑可以回复我~

收起回答

关于split和try_split的两个理解！

正在回答回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空

关于split和try_split的两个理解！

正在回答 回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

正在回答回答被采纳积分+3