三种方式跑出来的余弦相似度不一样-慕课网

3回答

阿基米口回答被采纳获得+3积分 2025-03-08 21:16:04

你好，从你SentenceTransformer中的模型结构来，

SentenceTransformer中计算句子embedding的方式是采用所有token的均值（'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True）。
而第一种方式中：是采用cls分类token来表示整个句子的embeeding（也就是BERT架构的CLS token）（outputs.last_hidden_state[:, 0] 第一个token）。导致这两种计算方式不一样，也可以通过调整参数来保持一致

可以通过调整SentenceTransformer结构中的pooling方式，把SentenceTransformer改成cls token的方式

from sentence_transformers import SentenceTransformer, models
model_path = './data/llm_app/embedding_models/gte-large-zh/'
model = SentenceTransformer(model_path)
 
# 创建新的 Pooling 层，修改 pooling_mode_cls_token 和 pooling_mode_mean_tokens
pooling = models.Pooling(
    word_embedding_dimension=1024,  # 保持与原来一致
    pooling_mode_cls_token=True,    # 修改为 True 或 False
    pooling_mode_mean_tokens=False,  # 修改为 True 或 False
    pooling_mode_max_tokens=False,
    pooling_mode_mean_sqrt_len_tokens=False,
    pooling_mode_weightedmean_tokens=False,
    pooling_mode_lasttoken=False,
    include_prompt=True
)
model._modules['1'] = pooling

这样模型的结构就调整成cls token来计算pooling

可以试下

0 回复有任何疑惑可以回复我~

收起回答

提问者龙仔小帅_qADQ46 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2025-03-09 09:34:38

提问者龙仔小帅_qADQ46 2025-03-07 15:00:24

embeding不一样

0 回复有任何疑惑可以回复我~

收起回答

阿基米口 #1

你好，从你SentenceTransformer中的模型结构来，SentenceTransformer中计算句子embedding的方式是采用所有token的均值（'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True）。而第一种方式中：是采用cls分类token来表示整个句子的embeeding（也就是BERT架构的CLS token）（outputs.last_hidden_state[:, 0] 第一个token）。导致这两种计算方式不一样，也可以通过调整参数来保持一致，见上面最新回复的代码

回复有任何疑惑可以回复我~ 2025-03-08 21:10:04

阿基米口 2025-03-07 14:20:21

Sentence-Transformers和huggingface结果一样是正常的，huggingface中的embedding是Sentence-Transformers的封装。
我这边重复执行三个都是一样的，所以需要你这边打印一些信息来看看区别

把三个model 的结果都打印出来看看直接print就可以

1
2
3
4
model_path = './data/llm_app/embedding_models/gte-large-zh/'
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModel.from_pretrained(model_path, device_map='cpu')
print(model)
1
2
model = SentenceTransformer(model_path)
print(model)

把embeding打印出来

提供下sentence_transformers的版本

1 2	`import` `sentence_transformers` `sentence_transformers.__version__`

0 回复有任何疑惑可以回复我~

收起回答

提问者龙仔小帅_qADQ46 #1

老师您好，这个回复对话框无法上传图片，我直接新建了一个“回答”

回复有任何疑惑可以回复我~ 2025-03-07 15:01:06

阿基米口回复提问者龙仔小帅_qADQ46 #2
```
好的！
```
回复有任何疑惑可以回复我~ 2025-03-07 22:50:50

三种方式跑出来的余弦相似度不一样

正在回答

3回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

三种方式跑出来的余弦相似度不一样

用第一种方式embedding的结果聚类失败

知识图谱构建耗时过长

deepdoc 如何单独使用

热搜

最近搜索清空

三种方式跑出来的余弦相似度不一样

正在回答

3回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

三种方式跑出来的余弦相似度不一样

用第一种方式embedding的结果聚类失败

知识图谱构建耗时过长

deepdoc 如何单独使用