请稍等 ...

老师，请问用网格搜索跑MNIST数据集报MemoryError是什么问题啊？

这里是代码

import numpy as np
from sklearn.datasets import fetch_mldata

#PCA对数据进行降维
minst = fetch_mldata('MNIST original')
X,y = minst['data'],minst['target']
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y)
from sklearn.decomposition import PCA
pca = PCA(0.9)
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
def PolynomialLogisticRegression(degree = 1, C = 0.1):
    return Pipeline([
        ('poly', PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression(C=C))
    ])

# 待进行网格搜索的算法    
poly_log_reg = PolynomialLogisticRegression()
 
# 准备待搜索的参数列表
C_PARM = [0.1,0.2,0.3,0.4,0.5]
param_grid = [
    {
        'poly__degree': [i for i in range(1, 11)], 
        'log_reg__C': [i for i in C_PARM]
    }
]
 
# 实例化GridSearchCV进行网格搜索
grid_search = GridSearchCV(poly_log_reg, param_grid)
grid_search.fit(X_train_reduction ,y_train)

跑了17分钟以后报MemoryError

scientist272 2018-09-12 12:20:52

源自：9-8 OvR与OvO

1566

收起

提交取消

1回答

liuyubobobo 2018-09-12 13:03:51

MNIST是一个28*28=784维的数据。使用多项式特征，你的poly_degree最多是10，也就是有784^10=

87732524600823436081182539776个特征。就算只有一个样本，有这么多特征。假设每个特征只使用8个bit，算算看，大概需要多少内存？

======

我简单估算了一下，大概要20亿个亿的GB。别说内存了，你的外存也远远不够啊：）

0 回复有任何疑惑可以回复我~

收起回答

提问者 scientist272 #1

谢谢老师！那对这种特征特别多的数据网格搜索是不是不好用啊？

回复有任何疑惑可以回复我~ 2018-09-12 20:48:50

liuyubobobo 回复提问者 scientist272 #2

是多特征的情况不应该使用多项式特征做数据预处理！降维还来不及，多项式特征是在升维：）

回复有任何疑惑可以回复我~ 2018-09-12 23:29:56

相似问题

请问老师，关于识别MNIST手写数据集的问题

使用网格搜索时jupyter报错

搜索邮费没有返回数据，线上接口搜索邮费也没有信息返回

搜索

老师，2-12节里引入处理Mnist数据集的代码项目里没有，可以发一下吗？

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5897 人
提交作业 275 份
解答问题 2455 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

2.7k 19

关于线性回归中归一化处理和不对归一化处理的问题

3.7k 17

数据归一化为什么有用？对归一化无法直观理解

3.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

1.7k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

1.6k 14

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

老师，请问用网格搜索跑MNIST数据集报MemoryError是什么问题啊？

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类

热搜

最近搜索清空

老师，请问用网格搜索跑MNIST数据集报MemoryError是什么问题啊？

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

关于线性回归中归一化处理和不对归一化处理的问题

数据归一化为什么有用？对归一化无法直观理解

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

学好具体算法和机器学习的实际应用之间有哪些距离？

关于 XGBoost

关于机器学习不同的指标

其他算法的决策边界

在三维数据上的 PCA

关于回归和分类