当前位置: 代码迷 >> 综合 >> 深入研究中文分词利器——Jieba
  详细解决方案

深入研究中文分词利器——Jieba

热度:79   发布时间:2023-12-12 06:48:41.0

jieba的分词

  1. jieba安装后的位置:
    在这里插入图片描述
    可以修改里面的dict.txt文本,或者把自定义的词典直接改到这个目录,当jieba初始化的时候会创建索引。jieba.load_userdict()其实也是把额外的词典放加入的默认的词典里的。

使用jieba.load_userdict()的方式:
在这里插入图片描述
在这里插入图片描述
使用前没有把“区块链分开”,使用后就分开了。
还有另一种方法是直接修改默认的词典:
在这里插入图片描述
但是需要删除缓存,则运行原来的代码,jieba会重新构建:
在这里插入图片描述
效果如下:
在这里插入图片描述
参考:
jieba加载自定义大词典(100MB)太慢的问题:
https://www.jianshu.com/p/dbaa4421b4ce

jieba词性标注

jieba的词性,比如x代表字符串:
https://blog.csdn.net/bozhanggu2239/article/details/80157305

jieba提取关键字

使用tf-idf的方法

使用text rank的方法

  相关解决方案