相似度匹配案例-慕课网

1回答

Michael_PK 2020-04-17 20:15:10

硬件资源应该差不多了。但是你这直说了记录数，每条记录数多少，算法复杂度多少，都不太清楚，不太好评估

0 回复有任何疑惑可以回复我~

提问者慕粉2040365749 #1

每条记录其实就是个文本名称 20字以内。对比表也是。算法其实就是先把文本分词，再word2vec转向量之后，做余弦计算。类似阮一峰的这篇文章。http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
只是好像通常用于单个文章或者长文本之间匹配，我这个是大批量计算。看起来效果是余弦计算和排序时间较长。向量维度大，余弦计算量也越大。另外就是笛卡尔积要10万*50万的两两计算相似度。
主要请教一下老师是否有见过这种案例，或者有没有好的思路。采用es 就是借助es有个相似度查询的比较快哈哈哈。

我是觉得可优化点在 单条匹配50万数据计算取top3.

回复有任何疑惑可以回复我~ 2020-04-20 09:20:55

相似度匹配案例

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师，你用的mac电脑可以直接在上边进行开发测试，我们用的windows电脑，要如何导入spark，进行spark测试呢？

Hadoop启动失败

老师，能不能帮我看看，为啥我浏览器访问kibana是这样的

Spark并行与资源分配的问题

FAILED: SemanticException [Error 10001]: Line 1:28 Table not found 'emp'

热搜

最近搜索清空

相似度匹配案例

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师，你用的mac电脑可以直接在上边进行开发测试，我们用的windows电脑，要如何导入spark，进行spark测试呢？

Hadoop启动失败

老师，能不能帮我看看，为啥我浏览器访问kibana是这样的

Spark并行与资源分配的问题

FAILED: SemanticException [Error 10001]: Line 1:28 Table not found 'emp'

正在回答回答被采纳积分+3