请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于数据集的处理问题

老师,我想问下:如果一个数据集中已经给定了训练集和测试集,并且在测试集里有很多和训练集偏差很大的数据,我们对这两个数据集进行归一标准化时,可不可以单独的在各自的数据集中进行标准化?这样做的话,相比全部用训练集的平均值和标准差标准化,得到的测试结果会不会好点?

正在回答

1回答

得到的结果有可能会更好,但关键是,这样的“好”不一定是真实的!一方面,在实际应用的时候,有可能变差;另一方面,这个号很可能只是针对你的数据而言,不具有普遍性。


在逻辑上,这样做是不对的。这是因为,你训练的模型,是基于把数据按照某一个miu和sigma进行归一化后进行的训练,这个模型内隐含着这个miu和sigma,在测试数据集上,如果改变miu和sigma,从逻辑上,这个模型就不适用了!


另外一个理解的角度,课程中介绍过,就是可以理解成,如果测试数据只有一个,那么此时,测试数据根本就无法求均值和标准差,怎么根据这一个测试数据进行标准化?无法做到。那么如果测试数据集只有两个,只根据这两个数据求均值和标准差,这么做,合理吗?感觉似乎不够合理。那三个呢?似乎也不是那么可以。问题来了,测试数据集要有多少个,这么做才合理?


这背后,其实揭示了,这种方法本身也不具有普遍性:)

3 回复 有任何疑惑可以回复我~
  • 提问者 青影wz #1
    好的,了解了,感谢波波老师!
    回复 有任何疑惑可以回复我~ 2018-11-10 15:30:52
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号