请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师,国家分类可以用0,1,2,3...这样的数字表示吗?

老师您好,我是一名爬虫工程师,想分析一下我采集下来的网红数据,可是国家这样的无序分类变量不知道怎样提取特征,可以将美国直接写成0,英国写成1,加拿大写成2这样带入机器学习算法中吗?

正在回答

1回答

可以。但是不够好。


因为使用0,1,2 ... 这样的数据,默认了一种“序”的关系。更适合于比如:

危险等级,信用等级:低,中,高;

距离地铁的距离:步行可达;自行车可达;需要使用其他交通工具可达;

等等这样的分类变量。


但是,国家这样的的属性,是没有这样的“序”的,所以更好的方式是使用 one-hot 编码。在网上搜索一下 one-hot 编码自学一下,很简单的。


可以参考这个问答:http://coding.imooc.com/learn/questiondetail/134266.html


继续加油!:)

0 回复 有任何疑惑可以回复我~
  • 提问者 ZzzZHH #1
    非常感谢!
    回复 有任何疑惑可以回复我~ 2019-08-27 08:44:40
  • 提问者 ZzzZHH #2
    可是又出现新问题了,我将其中的4用One Hot表示成[0. 0. 0. 0. 1. 0.],怎么塞回原数据中?
    X=np.array([[100000,0.09,4],[200000,0.08,3]]转换成
    X=np.array([[100000,0.09,0,0,0,0,1,0],[200000,0.08,0,0,0,1,0,0]这样吗?
    辛苦老师
    回复 有任何疑惑可以回复我~ 2019-08-27 10:55:30
  • liuyubobobo 回复 提问者 ZzzZHH #3
    什么叫塞回原数据?不塞回。变换成的新的数据使你真正要使用的,用于后续预测的特征数据。这就像我们做多项式回归,做完了以后的数据是我们真正要使用的数据。
    回复 有任何疑惑可以回复我~ 2019-08-27 10:57:00
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信