请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

one-hot编码导致RandomForest预测准确率下降

在使用RandomForest对带噪声的MNIST数据集(https://csc.lsu.edu/~saikat/n-mnist/)上进行分类预测时发现,在加入高斯白噪声和降低对比度的MNIST数据集上(Reduced Contrast and AWGN),对label使用one-hot编码后分类准确率只有20%+,而不使用one-hot编码的准确率可以达到80%+,虽然知道树模型不依赖欧氏距离可以不用独热码,但是用了以后准确率下降那么多也很奇怪啊,不清楚怎么解释这个问题,求助波波老师

正在回答 回答被采纳积分+3

2回答

liuyubobobo 2018-11-02 11:18:14

没有理解。MNIST本身每个特征是一个一个像素位置的灰度值,是一个数值特征(numeric),而非类别特征(category),如何使用one-hot?把每个值都当一个特征。那岂不本身28*28的特征量,变成了28*28*256?如此高的维度,必然遭遇维度灾难。

0 回复 有任何疑惑可以回复我~
  • 提问者 fayssica #1
    只是对label,Y值(0-9)进行one-hot编码
    回复 有任何疑惑可以回复我~ 2018-11-02 12:47:33
  • liuyubobobo 回复 提问者 fayssica #2
    one-hot是基于特征数据的手段,不能对y做。
    回复 有任何疑惑可以回复我~ 2018-11-02 13:22:43
  • 提问者 fayssica 回复 liuyubobobo #3
    对label进行独热编码也很常见啊,尤其是用网络进行多分类的时候
    回复 有任何疑惑可以回复我~ 2018-11-02 13:58:07
提问者 fayssica 2018-11-02 11:01:26

补充一下,三个噪声集都也有这个现象,第三个数据集噪声最大,差异也最明显,而Decision Tree没有这个问题

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信