采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
离散和连续变量都很多,而且每个离散变量有很多维,直接代入模型会跑不动,那么以怎样的顺序做特征选择呢?
首先说你跑不动的问题 假使你有一千特征。就算全是离散特征,你做离散化,每一纬度特征你离散化成10维。那一共才1w特征,100w样本足以让他不会过拟合。这些特征对于lr这种浅层模型来说 也就1w个参数 不存在跑不动,如果你放到wd这种深度模型更不是问题。 再一个特征选择问题,我们要首先抽象问题,比如把特征分成user侧与item侧,甚至还会有user item的relation特征等等,首先要首选符合逻辑的特征,模型其实是刻画一个函数来表示特征与结果之间关系。我举个例子。比如我们要预测一个人的年龄段,那我们选他有几个表哥这种特征没啥用,选他爸爸妈妈多少岁这种特征肯定会好很多。
数值特征好处理,主要有几百个离散特征,很多离散特征都有上百维或者更多,直接离散化会生成几十万维的特征,这个比较难处理。背景是我们是用的现成的宽表,想看看哪些对预测Y标签有用,所以不太可能一个个去处理特征
登录后可查看更多问答,登录/注册
让你掌握一套完整的,能落地的个性化推荐算法体系。可用于毕设。
1.0k 7
996 6
1.0k 6
2.1k 5
896 5