老师好!
问题如下:
背景:
我在使用grid这种方式的时候,当n-neighbours在1—5搜索的时候,得到的分数是0.82,但是此时n=4,p=3根据您说的经验,太靠近边界了,我于是调整n范围到1—10搜索,结果得分成了0.80,此时n=6,p=1
其他条件是:固定了train-test split种子=888, p范围两次迭代保持不变,都是1—5,cv=5
问题是:
1 grid得到的是最好的参数,而它是个平均值,但是我们想要的是在测试集上最好的分数。是不是应该把在测试集上的分数作为条件拿进去遍历?反推出最好的参数
2 遍历参数的范围该如何选取?就像这个,范围大了反而变差。困惑?