请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

相似度匹配案例

请教老师,有没有做过相似度匹配或者是推荐案例。我尝试10万*50万的数据,jieba+word2vec+余弦相似度+取top3的方案,笛卡尔积巨大,处理性能不佳。
之后作罢 采用了spark+es的方案,并行查es相似度前3,大概5分内能出结果。
机器是1台64 cores +128ram。
10万到50万数据中取每条记录的top3。
请教前者是否有合理的方案?是否是硬件资源不够?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2020-04-17 20:15:10

硬件资源应该差不多了。但是你这直说了记录数,每条记录数多少,算法复杂度多少,都不太清楚,不太好评估

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉2040365749 #1
    每条记录其实就是个文本名称 20字以内。对比表也是。算法其实就是先把文本分词,再word2vec转向量之后,做余弦计算。类似阮一峰的这篇文章。http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
    只是好像通常用于单个文章或者长文本之间匹配,我这个是大批量计算。看起来效果是余弦计算和排序时间较长。向量维度大,余弦计算量也越大。另外就是笛卡尔积要10万*50万的两两计算相似度。
    主要请教一下老师是否有见过这种案例,或者有没有好的思路。采用es 就是借助es有个相似度查询的比较快哈哈哈。
    
    我是觉得可优化点在 单条匹配50万数据计算取top3.
    回复 有任何疑惑可以回复我~ 2020-04-20 09:20:55
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号