请稍等 ...

gridsearch knn

老师好！
问题如下：

背景：
我在使用grid这种方式的时候，当n-neighbours在1—5搜索的时候，得到的分数是0.82，但是此时n=4，p=3根据您说的经验，太靠近边界了，我于是调整n范围到1—10搜索，结果得分成了0.80，此时n=6,p=1
其他条件是：固定了train-test split种子=888, p范围两次迭代保持不变，都是1—5，cv=5

问题是：

1 grid得到的是最好的参数，而它是个平均值，但是我们想要的是在测试集上最好的分数。是不是应该把在测试集上的分数作为条件拿进去遍历？反推出最好的参数

2 遍历参数的范围该如何选取？就像这个，范围大了反而变差。困惑?

其实我是至尊贾 2020-07-25 12:13:01

源自：5-9 使用scikit-learn解决回归问题

1053

收起

提交取消

1回答

liuyubobobo 2020-07-25 14:02:27

1

"在测试集上的分数作为条件拿进去遍历？反推出最好的参数" 设个是什么意思？我没有特别理解？具体说明一下你想象的操作过程是怎样的？

2

一般参数遍历的范围可以使用一个从粗到细的过程。比如对于 kNN，可以尝试k 在 10, 20, 30, 40 中先搜索尝试一下，可能结果是 10 比较好，在尝试看一下 10 周边具体那个值更好。

当然，我举得例子对应的数据规模会比较大。其实通常机器学习算法处理的训练数据集，就是要比较大。如果比较小的数据集，参数有微小的抖动，就会对结果有很大的影响。但是这很大的影响，对应因为数据规模小，所以其实只是几个数据点的变化，说明不了什么问题。

与你给出的结果，k 是 4 或者 6，p 是 1 或者 3，在我看来就是很稳定的结果了。他们整体是在一个区间里的。

继续加油！：）

0 回复有任何疑惑可以回复我~

相似问题

关于scikit-learn调用KNN

KNN模型也有模型正则化的操作吗？

为什么kNN可以用来做Regressor？

为什么knn算法的k越小模型会越复杂？

5-10 9:15 当我们数据真的和结果具有较强的线性关系的时候，线性回归算法是比KNN算法要好的，这里有点不明白？

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5985 人
提交作业 300 份
解答问题 2456 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

3.5k 19

关于线性回归中归一化处理和不对归一化处理的问题

4.5k 17

数据归一化为什么有用？对归一化无法直观理解

4.1k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

2.2k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

2.1k 14

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号