采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,问您个问题,在拟合幸福指数的模型中,有个变量是出生省市,准备先用逻辑回归,我考虑如果不对省市进行one-hot转换的话,把各省市按照对应的幸福指数均值从小到大将变量从新赋值为1,2,3…这样,但又觉得这样不妥,这相当于人为把这个变量加工成显著的变量了,但转one-hot编码相当于生成了31个变量,不知道您怎么看?
应该使用one-hot。
使用1,2,3... 这样编码的方式,还有一个问题,就是相当于默认省市之间有大小关系,这和这个特征实际表达的语义不符。
比如,风险级别:低,中,高;或者距离地铁远近:步行可达;自行车可达;公交可达,等等,这类类别特征,特征可选项之间,有“序”的关系,更适合用数值编码,而不用 one-hot。
继续加油!:)
非常感谢!
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.5k 19
3.4k 17
2.9k 15
1.6k 15
1.4k 14