请稍等 ...

关于对随机种子对KNN分类器准确率的影响

老师您好，在写论文的时候用KNN算法，结论里需要给出一个预测的准确率。但其实在数据归一化、超参数网格搜索都完成之前，train_test_split时的随机种子对最后的准确率也是有影响的。
我编写程序，在完成数据归一化和超参数的网格搜索之外，对随机种子进行了从0到999的搜索，发现当随机种子取799时，预测准确率最低为，62.7%，当随机种子取910时，预测准确率最高，为96.1%。
那这个时候到底该怎么评价这个KNN分类器的准确度？
我尝试取1000个随机种子准确率的平均值：83.5%，但是此准确率是没有对应的K值和p值的，因为随机种子不同，网格搜索得到的最佳K值和p值也不同。
另外我对您讲课时用的鸢尾花数据集也在0到99间对随机种子进行了搜索，发现最高100%，最低86.8%，对应的随机种子分别是63和74。相差还是挺大的。
图片描述

图片描述

NTeam6 2020-07-03 12:09:45

源自：4-5 超参数

2400

收起

提交取消

1回答

liuyubobobo 2020-07-03 17:06:33

不应该对种子做搜索。

这个问题是这样的，划分成的测试数据集，相当于在模拟完全不知道的，没有见过的数据。所以，在划分一次以后，测试数据只能扔到一边。完全靠训练数据集得到模型，测试数据集的作用是报告结果。测试数据及不是调试模型使用的。

你的做法等同于在拟合测试数据集，关于拟合测试数据集，在课程讲交叉验证的时候会说明。

所以，正规的数据集，都直接定义好了什么是训练数据集，什么是测试数据集，比如课程中后续实验的 MNIST 数据集。可以参考这个问答：http://coding.imooc.com/learn/questiondetail/75480.html

继续加油！：）

0 回复有任何疑惑可以回复我~

相似问题

KNN归一化后准确率反而下降

多分类如何根据混淆矩阵求准确率、精准率、和召回率？

导出码率和分辨率影响的区别？

train_test_split设定随机种子对score的影响

平衡数据集对构建模型的影响

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5989 人
提交作业 300 份
解答问题 2456 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

3.5k 19

关于线性回归中归一化处理和不对归一化处理的问题

4.6k 17

数据归一化为什么有用？对归一化无法直观理解

4.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

2.3k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

2.2k 14

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号