采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师您好,我是一名爬虫工程师,想分析一下我采集下来的网红数据,可是国家这样的无序分类变量不知道怎样提取特征,可以将美国直接写成0,英国写成1,加拿大写成2这样带入机器学习算法中吗?
可以。但是不够好。
因为使用0,1,2 ... 这样的数据,默认了一种“序”的关系。更适合于比如:
危险等级,信用等级:低,中,高;
距离地铁的距离:步行可达;自行车可达;需要使用其他交通工具可达;
等等这样的分类变量。
但是,国家这样的的属性,是没有这样的“序”的,所以更好的方式是使用 one-hot 编码。在网上搜索一下 one-hot 编码自学一下,很简单的。
可以参考这个问答:http://coding.imooc.com/learn/questiondetail/134266.html
继续加油!:)
非常感谢!
可是又出现新问题了,我将其中的4用One Hot表示成[0. 0. 0. 0. 1. 0.],怎么塞回原数据中? X=np.array([[100000,0.09,4],[200000,0.08,3]]转换成 X=np.array([[100000,0.09,0,0,0,0,1,0],[200000,0.08,0,0,0,1,0,0]这样吗? 辛苦老师
什么叫塞回原数据?不塞回。变换成的新的数据使你真正要使用的,用于后续预测的特征数据。这就像我们做多项式回归,做完了以后的数据是我们真正要使用的数据。
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.5k 17
3.0k 15
1.6k 15
1.5k 14