请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

课程总结问题

老师你好,请问我可以这样总结本次实战课程的内容吗
在电影推荐系统中,pandas可视化数据是为了了解数据类型、数据格式和数据信息,比如说喜欢的临界值、电影的类型、电影评分平均值等。
在召回层中,需要使用特征工程处理数值类数据和分类型数据,其中数值类使用归一化和标准化,离散型数据适用mutil-hot编码,将特征工程处理后的数据传入至deepwalk算法和item2vec算法,通过两个算法生成用户和电影的embedding,最后将两者的embedding传入至lsh模型进行近似查找。
在排序层中,通过召回层后的数据进行协同过滤,生成邻接矩阵将缺失值补全用于预测用户可能喜欢电影的排序。然后使用特征工程处理原始数据用于mlp模型训练,在排序层的特征处理中添加embedding技术,将特征工程处理好的数据作为训练集传入mlp模型进行训练,将协同过滤后的数据作为测试集传入mlp模型进行训练,最后结合用户的线上特征数据,传入至mlp模型,最后返回给用户。

正在回答 回答被采纳积分+3

1回答

Daniel 2024-05-16 15:52:43

你好同学 ,总结的不错,没问题

0 回复 有任何疑惑可以回复我~
  • 提问者 Sy1023 #1
    谢谢老师,那我如果想详细总结您方便看看有什么地方需要修改吗
           对于召回层的特征工程中数值类属性,用户的评分、电影评分等数值使用归一化处理,对于电影的上线时间下线时间等使用标准化处理,对于电影的分类离散型属性适用mutil-hot编码,因为一部电影存在多个类型。
          在召回层中使用deepwalk+item2vec算法是基于dfs遍历用户潜在喜欢的电影并生成用户和电影的embedding。将embedding传入邻近查找中lsh算法中,不适用k-means是因为会出现边界效应,因为召回层只需要传出100+数据,则不需要使用精确查找的暴力破解和TD-Tree。
          在排序层中先使用协同过滤对lsh后的数据进行补全,发现潜在“喜欢”,将原始数据进行特征工程处理,使用windows功能避免出现“透视未来”问题,其余处理于召回层中的特征工程处理一样。将排序层的特征工程处理后的数据传入DNN模型作为训练集,召回层后的数据作为DNN模型的测试集完成训练。最后收集在线用户数据传入模型进行训练,最后将数据返回给用户。
           其中DNN深度学习是升级版的MLP神经网络,二者无本质区别,只是DNN的隐含层数量大于MLP的隐含层数量
    回复 有任何疑惑可以回复我~ 2024-05-16 16:06:05
  • 提问者 Sy1023 #2
    好的谢谢老师,我如果想详细理解本次课程的内容,老师方便给些建议和意见吗
    	在召回层特征工程中,对于数值类数据适用归一化(用户评分、平均评分等)和标准化(电影上线下线时间),分类属性使用mutil-hot编码(一部电影存在多个类型)
    	使用deepwalk+item2vec算法是发现潜在“喜欢”,最后生成embedding传入给lsh模型(召回层输出数据100+,使用近似查找,k-means出现边界效应)
    	在排序层中使用协同过滤对lsh传出的数据进行svd矩阵分解补全缺失值,与召回层特征处理不同的是windows避免出现“透视未来“。将补全的数据作为测试集传入DNN模型进行学习,将特征工程后的数据作为训练集传入DNN模型进行学习。
    	收集用户的在线行为,将数据传入至模型进行训练返回给用户。其中DNN模型为MLP模型升级版,二者无本质区别,只是DNN隐含层层数多
    回复 有任何疑惑可以回复我~ 2024-05-16 16:15:26
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号