ik分词器中suffix.dic后缀词典，一般是怎么使用的呀-慕课网

1回答

少林码僧 2022-07-21 06:47:34

首先镇这个词已经包含在suffix.dic词典中，不管它在不在词典中，对于ik_max_word而言都是会单独将镇这个词做分词的，ik_max_word是最细粒度的分词，词库中有镇会单独拆分，没有也会单独拆分。

如果想达到你这种索引分词效果，可以这样实现:

1. tokenizer使用ik_smart

2. 在自定义词库中添加理塘和理塘镇这两个词

具体添加方法为：

1. 在config/analysis-ik下新建自定义词库custom.dic

内容如下：

理塘

理塘镇

2. config/analysis-ik/IKAnalyzer.cfg.xml配置文件中增加自己本地扩展词库的路径

修改后的配置文件如下：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<comment>IK Analyzer 扩展配置</comment>

<entry key="ext_dict">custom.dic</entry>

</properties>

上面改动位置是将

将<entry key="ext_dict"></entry>改为

<entry key="ext_dict">custom.dic</entry>

来指定本地扩展词库的位置

然后重启ES集群进行验证：

POST _analyze

{

"text": ["我到了理塘镇"],

"analyzer": "ik_smart"

}

从用户体验来分析，如果用户帖子中出现理塘镇，使用理塘搜索应该也需要能够召回，所以这里可以使用ik_max_word分词，再配合match_phrese,或者match and查询来实现会更合理一些

1 回复有任何疑惑可以回复我~

收起回答

ik分词器中suffix.dic后缀词典，一般是怎么使用的呀

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

jwt完成认证的流程能讲一下吗？

一个分片问题

问下如何获取讲解的代码呢

_doc的问题，改成doc就可以，ES8.2.3版本

如何使用redis bitmap存储商品id ？

热搜

最近搜索清空