请稍等 ...

one-hot编码导致RandomForest预测准确率下降

在使用RandomForest对带噪声的MNIST数据集(https://csc.lsu.edu/~saikat/n-mnist/)上进行分类预测时发现，在加入高斯白噪声和降低对比度的MNIST数据集上(Reduced Contrast and AWGN)，对label使用one-hot编码后分类准确率只有20%+，而不使用one-hot编码的准确率可以达到80%+，虽然知道树模型不依赖欧氏距离可以不用独热码，但是用了以后准确率下降那么多也很奇怪啊，不清楚怎么解释这个问题，求助波波老师

fayssica 2018-11-02 10:51:05

源自：13-5 随机森林和 Extra-Trees

1727

收起

提交取消

2回答

liuyubobobo 2018-11-02 11:18:14

没有理解。MNIST本身每个特征是一个一个像素位置的灰度值，是一个数值特征（numeric），而非类别特征(category)，如何使用one-hot？把每个值都当一个特征。那岂不本身28*28的特征量，变成了28*28*256？如此高的维度，必然遭遇维度灾难。

0 回复有任何疑惑可以回复我~

收起回答

提问者 fayssica #1
```
只是对label，Y值(0-9)进行one-hot编码
```
回复有任何疑惑可以回复我~ 2018-11-02 12:47:33
liuyubobobo 回复提问者 fayssica #2
```
one-hot是基于特征数据的手段，不能对y做。
```
回复有任何疑惑可以回复我~ 2018-11-02 13:22:43
提问者 fayssica 回复 liuyubobobo #3
```
对label进行独热编码也很常见啊，尤其是用网络进行多分类的时候
```
回复有任何疑惑可以回复我~ 2018-11-02 13:58:07