关于交叉验证随机性-慕课网

1回答

liuyubobobo 2023-02-15 05:04:28

对于大部分数据，随机划分即可。

但是对于一些特殊数据，尤其是某一个 label 比较小的数据（有偏的数据），应该考虑保证在每一份中，每一个 label 的比例大致一样。这样可以避免某一份中某一个 label 一个都没有的情况。

在机器学习领域，有一个专门的名词来描述这种“划分”，被称为是 Stratified Split （听起来非常高大上，但就是我上面说的那个意思，非常好理解。）sklearn 中有专门的方法实现了这种 split，可以参考这里：https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html

继续加油！：）

1 回复有任何疑惑可以回复我~

收起回答

提问者 lemonlxn #1
```
非常感谢，谢谢老师
```
回复有任何疑惑可以回复我~ 2023-02-15 09:31:06

提问者 lemonlxn #2

我查看了一下sklearn相关文档，编写了一个分层抽样函数。

这个函数，可使抽样后的比例，与原数据比例一致。

from sklearn.model_selection import StratifiedShuffleSplit

def Stratified_Shuffle_Split(X,y,test_size=0.3,random_state=666):
    ss = StratifiedShuffleSplit(n_splits=1,test_size=test_size,random_state=random_state)
    
    for train_index, test_index in ss.split(X, y):
        X_train, X_test = X[train_index], X[test_index]#训练集对应的值
        y_train, y_test = y[train_index], y[test_index]#类别集对应的值
    return X_train, X_test, y_train, y_test

回复有任何疑惑可以回复我~ 2023-02-15 11:28:40

liuyubobobo 回复提问者 lemonlxn #3
```
大赞！感谢分享：）
```
回复有任何疑惑可以回复我~ 2023-02-15 12:32:23

关于交叉验证随机性

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空