切割和向量化有什么关系？切割的规则如何设定？-慕课网

1回答

tomiezhang 2024-07-01 06:05:08

切割文本主要是为了LLM上下文窗口限制，以及向量化匹配的精度(不走切割的话一大片文字，很难做到大海捞针匹配)
切不切要看放入知识库的资料的情况，如果资料比较短小就不用了，长的资料一定要切割才可以，这就像你看一本书一定是一页页看一样，有一个windw的概念。
向量化的过程在你另外一个问题里已经回答了，当然是自动实现的，借助embedding模型就可以实现，向量化的数据存入向量数据库，向量数据库就可以用坐标来做相关性的比对。

0 回复有任何疑惑可以回复我~

提问者 sdd3991 #1

关于问题2，我想再问一下，这个切割的原因就是纯碎的为了变小吗？类似于“强制换行”。还是说，一句话，为了识别方便，会根据分词器的规则进行切割，便于存取。另外，另外针对向量内容匹配识别，这个是嵌入模型的能力，还是向量数据库的能力？（举例：我提问了一个问题，从海量向量数据中，得到了相关的内容）。

回复有任何疑惑可以回复我~ 2024-07-01 11:41:49

tomiezhang 回复提问者 sdd3991 #2

切割主要是为了照顾LLM的交互窗口限制。向量内容匹配是向量数据的能力，你可以理解为先用关键字从数据库匹配出包含关键字的内容，然后再把筛出来的内容提交给大模型继续大海捞针，所以最终的结果取决于向量数据匹配的程度以及LLM的进一步理解。

回复有任何疑惑可以回复我~ 2024-07-01 12:58:43

提问者 sdd3991 回复 tomiezhang #3

回复 tomiezhang：您说的交互窗口限制，指的是咱们调用大模型API时候内容时，提交的内容长度限制吗？因为用户问的问题比较短。如：写一篇关于气象方面的论文。

回复有任何疑惑可以回复我~ 2024-07-01 13:49:46

切割和向量化有什么关系？切割的规则如何设定？