老师你好,请问我可以这样总结本次实战课程的内容吗
在电影推荐系统中,pandas可视化数据是为了了解数据类型、数据格式和数据信息,比如说喜欢的临界值、电影的类型、电影评分平均值等。
在召回层中,需要使用特征工程处理数值类数据和分类型数据,其中数值类使用归一化和标准化,离散型数据适用mutil-hot编码,将特征工程处理后的数据传入至deepwalk算法和item2vec算法,通过两个算法生成用户和电影的embedding,最后将两者的embedding传入至lsh模型进行近似查找。
在排序层中,通过召回层后的数据进行协同过滤,生成邻接矩阵将缺失值补全用于预测用户可能喜欢电影的排序。然后使用特征工程处理原始数据用于mlp模型训练,在排序层的特征处理中添加embedding技术,将特征工程处理好的数据作为训练集传入mlp模型进行训练,将协同过滤后的数据作为测试集传入mlp模型进行训练,最后结合用户的线上特征数据,传入至mlp模型,最后返回给用户。