课程总结问题-慕课网

1回答

Daniel 2024-05-16 15:52:43

你好同学，总结的不错，没问题

0 回复有任何疑惑可以回复我~

提问者 Sy1023 #1

谢谢老师，那我如果想详细总结您方便看看有什么地方需要修改吗
       对于召回层的特征工程中数值类属性，用户的评分、电影评分等数值使用归一化处理，对于电影的上线时间下线时间等使用标准化处理，对于电影的分类离散型属性适用mutil-hot编码，因为一部电影存在多个类型。
      在召回层中使用deepwalk+item2vec算法是基于dfs遍历用户潜在喜欢的电影并生成用户和电影的embedding。将embedding传入邻近查找中lsh算法中，不适用k-means是因为会出现边界效应，因为召回层只需要传出100+数据，则不需要使用精确查找的暴力破解和TD-Tree。
      在排序层中先使用协同过滤对lsh后的数据进行补全，发现潜在“喜欢”，将原始数据进行特征工程处理，使用windows功能避免出现“透视未来”问题，其余处理于召回层中的特征工程处理一样。将排序层的特征工程处理后的数据传入DNN模型作为训练集，召回层后的数据作为DNN模型的测试集完成训练。最后收集在线用户数据传入模型进行训练，最后将数据返回给用户。
       其中DNN深度学习是升级版的MLP神经网络，二者无本质区别，只是DNN的隐含层数量大于MLP的隐含层数量

回复有任何疑惑可以回复我~ 2024-05-16 16:06:05

提问者 Sy1023 #2

好的谢谢老师，我如果想详细理解本次课程的内容，老师方便给些建议和意见吗
	在召回层特征工程中，对于数值类数据适用归一化（用户评分、平均评分等）和标准化（电影上线下线时间），分类属性使用mutil-hot编码（一部电影存在多个类型）
	使用deepwalk+item2vec算法是发现潜在“喜欢”，最后生成embedding传入给lsh模型（召回层输出数据100+，使用近似查找，k-means出现边界效应）
	在排序层中使用协同过滤对lsh传出的数据进行svd矩阵分解补全缺失值，与召回层特征处理不同的是windows避免出现“透视未来“。将补全的数据作为测试集传入DNN模型进行学习，将特征工程后的数据作为训练集传入DNN模型进行学习。
	收集用户的在线行为，将数据传入至模型进行训练返回给用户。其中DNN模型为MLP模型升级版，二者无本质区别，只是DNN隐含层层数多

回复有任何疑惑可以回复我~ 2024-05-16 16:15:26

课程总结问题

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师您好，关于不能fit问题

老师，请问http：5001/recall 是在哪里输呀

5001/recall成功，但是5002/rank中调用recall失败

@udf自定义函数出错

Py4JJavaError

【任务】选择合适得参数找出最优

【任务】使用Spark ALS实现协同过滤

【任务】认识一下其他算法与LSH得优缺点

【任务】Node2Vec中的两种不同策略得优劣

【任务】按要求找出物品信息

热搜

最近搜索清空

课程总结问题

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师您好，关于不能fit问题

老师，请问http：5001/recall 是在哪里输呀

5001/recall成功，但是5002/rank中调用recall失败

@udf自定义函数出错

Py4JJavaError

【任务】选择合适得参数找出最优

【任务】使用Spark ALS实现协同过滤

【任务】认识一下其他算法与LSH得优缺点

【任务】Node2Vec中的两种不同策略得优劣

【任务】按要求找出物品信息

正在回答回答被采纳积分+3