请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

请问如果有一千多个变量的话怎么做特征选择?

离散和连续变量都很多,而且每个离散变量有很多维,直接代入模型会跑不动,那么以怎样的顺序做特征选择呢?

正在回答 回答被采纳积分+3

1回答

David 2018-12-17 21:35:41

首先说你跑不动的问题 假使你有一千特征。就算全是离散特征,你做离散化,每一纬度特征你离散化成10维。那一共才1w特征,100w样本足以让他不会过拟合。这些特征对于lr这种浅层模型来说 也就1w个参数 不存在跑不动,如果你放到wd这种深度模型更不是问题。 再一个特征选择问题,我们要首先抽象问题,比如把特征分成user侧与item侧,甚至还会有user item的relation特征等等,首先要首选符合逻辑的特征,模型其实是刻画一个函数来表示特征与结果之间关系。我举个例子。比如我们要预测一个人的年龄段,那我们选他有几个表哥这种特征没啥用,选他爸爸妈妈多少岁这种特征肯定会好很多。

1 回复 有任何疑惑可以回复我~
  • 提问者 慕粉114911745 #1
    数值特征好处理,主要有几百个离散特征,很多离散特征都有上百维或者更多,直接离散化会生成几十万维的特征,这个比较难处理。背景是我们是用的现成的宽表,想看看哪些对预测Y标签有用,所以不太可能一个个去处理特征
    回复 有任何疑惑可以回复我~ 2018-12-17 21:40:30
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信