目录
一、IK 分词器介绍
二、IK 分词器安装和使用
2.1 IK 分词器安装
2.2 IK 分词器测试
2.2.1 ik_smart 最粗粒度拆分
2.2.2 ik_max_word 最细粒度拆分
2.3 自定义分词
2.4 定义敏感词禁用
一、IK 分词器介绍
ElasticSearch 自带有分词器,但在中文方面分词效果并不理想,这时候就需要使用 IK 分词器对中文语句进行更好的分段。
二、IK 分词器安装和使用
2.1 IK 分词器安装
IK分词器下载:
https://github.com/medcl/elasticsearch-analysis-ik/releases
找到与 elasticsearch 版本对应的 ik 分词器版本
将下载的压缩包上传到服务器的对应目录下,解压并改名为 ik
# 解压压缩包
unzip elasticsearch-analysis-ik-5.6.8.zip# 重命名
mv elasticsearch ik
将 ik 目录拷贝到 elasticsearch 容器中的 plugins 目录下
docker cp ./ik tom_elasticsearch:/usr/share/elasticsearch/plugins
2.2 IK 分词器测试
2.2.1 ik_smart 最粗粒度拆分
http://192.168.47.142:9200/_analyze?analyzer=ik_smart&pretty=true&text=%E6%88%91%E6%98%AF%E5%A4%A7%E5%85%83%E5%AE%9D
2.2.2 ik_max_word 最细粒度拆分
http://192.168.47.142:9200/_analyze?analyzer=ik_max_word&pretty=true&text=%E6%88%91%E6%98%AF%E5%A4%A7%E5%85%83%E5%AE%9D
2.3 自定义分词
# 进入 elasticsearch 容器
docker exec -it tom_elasticsearch /bin/bash# 进入配置文件目录
cd /usr/share/elasticsearch/plugins/ik/config
创建自定义文件
# 创建自定义文件
vim myCustom.dic
修改 IK 分词器的配置文件
vim IKAnalyzer.cfg.xml
保存文件并重启 elasticsearch 容器
docker restart tom_elasticsearch
测试:
http://192.168.47.142:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是大元宝
2.4 定义敏感词禁用
# 进入 elasticsearch 容器
docker exec -it tom_elasticsearch /bin/bash# 进入配置文件目录
cd /usr/share/elasticsearch/plugins/ik/config
创建自定义文件
# 创建自定义文件
vim myDisabled.dic
修改 IK 分词器的配置文件
vim IKAnalyzer.cfg.xml
保存文件并重启 elasticsearch 容器
docker restart tom_elasticsearch
测试:
http://192.168.47.142:9200/_analyze?analyzer=ik_smart&pretty=true&text=宇宙