请稍等 ...

不同随机种子得到不同网格搜索结果的问题

请问一下，我在分割原始数据的时候采用不同的随机数种子random_state
最后网格搜索得到的最优参数weights、n_neighbors、p也不一样，那针对我的这组原始数据，到底使用哪一个网格搜索的结果生产的模型来预测？

NTeam6 2020-01-04 11:28:41

源自：4-6 网格搜索与k近邻算法中更多超参数

1409

收起

提交取消

1回答

liuyubobobo 回答被采纳获得+3积分 2020-01-05 04:01:37

首先，标准的做法应该使用交叉验证。实际上，我们调用 sklearn 的网格搜索方式 GridSearchCV，就已经使用了交叉验证的方式。GridSearchCV 中的 CV，就是 Cross Valdate，即交叉验证的意思。交叉验证将让搜索结果更稳定，关于交叉验证的原理，在这个课程后续会介绍。

另一方面，如果网格搜索的结果极度不稳定，真正的解决方案是增大数据量（当然也要保证质量）。搜索结果不稳定，说明当前的数据不足以让算法找到一个稳定可靠的模型来解释问题。遇到这种情况，解决问题的关键不在算法本身，而在数据上。毕竟，机器学习的基础，是数据。

这个课程的内容，是在假定数据已经有了的基础上，介绍机器学习算法的原理。但是在实际运用机器学习的过程中，很多时候，瓶颈是数据，而非算法。可以再回忆一下免费的午餐定理。这也是为什么，数据是值钱的。数据的作用，比大多数人想象的，要重要得多。

继续加油！：）

1 回复有任何疑惑可以回复我~

相似问题

记忆化搜索在ab剪枝中的问题

网格搜索训练出的拟合优度score，和用网格搜索得到参数训练出的拟合优度不一致？

KNN算法加入verbose和n_jobs参数后，为什么网格搜索的结果会有不同？

搜索时单个字可以搜索到结果，而词语却不行，这是怎么回事呢

随机梯度下降法的随机究竟体现在哪里？

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5989 人
提交作业 300 份
解答问题 2456 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

3.5k 19

关于线性回归中归一化处理和不对归一化处理的问题

4.6k 17

数据归一化为什么有用？对归一化无法直观理解

4.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

2.3k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

2.2k 14

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号