请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于数据转换的问题

老师,问您个问题,在拟合幸福指数的模型中,有个变量是出生省市,准备先用逻辑回归,我考虑如果不对省市进行one-hot转换的话,把各省市按照对应的幸福指数均值从小到大将变量从新赋值为1,2,3…这样,但又觉得这样不妥,这相当于人为把这个变量加工成显著的变量了,但转one-hot编码相当于生成了31个变量,不知道您怎么看?

正在回答

1回答

应该使用one-hot。


使用1,2,3... 这样编码的方式,还有一个问题,就是相当于默认省市之间有大小关系,这和这个特征实际表达的语义不符。


比如,风险级别:低,中,高;或者距离地铁远近:步行可达;自行车可达;公交可达,等等,这类类别特征,特征可选项之间,有“序”的关系,更适合用数值编码,而不用 one-hot。


继续加油!:)

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信