采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
在使用RandomForest对带噪声的MNIST数据集(https://csc.lsu.edu/~saikat/n-mnist/)上进行分类预测时发现,在加入高斯白噪声和降低对比度的MNIST数据集上(Reduced Contrast and AWGN),对label使用one-hot编码后分类准确率只有20%+,而不使用one-hot编码的准确率可以达到80%+,虽然知道树模型不依赖欧氏距离可以不用独热码,但是用了以后准确率下降那么多也很奇怪啊,不清楚怎么解释这个问题,求助波波老师
没有理解。MNIST本身每个特征是一个一个像素位置的灰度值,是一个数值特征(numeric),而非类别特征(category),如何使用one-hot?把每个值都当一个特征。那岂不本身28*28的特征量,变成了28*28*256?如此高的维度,必然遭遇维度灾难。
只是对label,Y值(0-9)进行one-hot编码
one-hot是基于特征数据的手段,不能对y做。
对label进行独热编码也很常见啊,尤其是用网络进行多分类的时候
补充一下,三个噪声集都也有这个现象,第三个数据集噪声最大,差异也最明显,而Decision Tree没有这个问题
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.4k 17
2.9k 15
1.6k 15
1.4k 14