当前位置: 代码迷 >> 综合 >> Rasa-Jieba-Ner:在Rasa中使用Jieba分词作为实体抽取组件
  详细解决方案

Rasa-Jieba-Ner:在Rasa中使用Jieba分词作为实体抽取组件

热度:70   发布时间:2023-12-09 22:26:33.0

介绍

Rasa是一个基于深度学习的聊天机器人框架。

Jieba是国人大神开源的一个中文NLP库。

Rasa目前已经有了基于Jieba的分词组件,但是没有实体抽取组件。

本文介绍我为一个为Rasa项目实现了中文的实体抽取组件的库。

实体抽取基于Jieba分词的词性识别,可以通过指定词性,将该词性的实体识别出来。

Rasa-Jieba-Ner: 基于Jieba分词的,实体抽取 (github.com)

使用

  1. 运行build.cmd中的命令生成wheel包。
  2. 使用pip安装wheel包。
  3. 修改Rasa项目的config文件,使用本library作为实体抽取组件。

示例

language: zhpipeline:- name: rasa_jieba_ner.JiebaNerExtractorpart_of_speech: ['nr','m','n']dictionary_path: "C:/data/user_dict/corpora.txt"

其中part_of_speech和dictionary_path是可选参数,分别表示抽取实体的词性和用户字典的路径。
默认情况下,只提取词性为nr的实体,nr即人名。
注意:windows下用户词典的路径分割符要使用"/"

备注:

完整的config.yml component示例:

language: zhpipeline:- name: "JiebaTokenizer"dictionary_path: "C:/BI-OLD-DRIVER/rasa-demo/data/user_dict/corpora.txt"- name: rasa_jieba_ner.JiebaNerExtractorpart_of_speech: ['nr','m','n']dictionary_path: "C:/BI-OLD-DRIVER/rasa-demo/data/user_dict/corpora.txt"- name: CountVectorsFeaturizer- name: DIETClassifier

相关链接:

  • Rasa: Rasa · GitHub
  • Jieba: GitHub - fxsjy/jieba: 结巴中文分词
  相关解决方案