Rasa-Jieba-Ner:在Rasa中使用Jieba分词作为实体抽取组件_综合

介绍

Rasa是一个基于深度学习的聊天机器人框架。

Jieba是国人大神开源的一个中文NLP库。

Rasa目前已经有了基于Jieba的分词组件，但是没有实体抽取组件。

本文介绍我为一个为Rasa项目实现了中文的实体抽取组件的库。

实体抽取基于Jieba分词的词性识别，可以通过指定词性，将该词性的实体识别出来。

Rasa-Jieba-Ner: 基于Jieba分词的，实体抽取 (github.com)

使用

运行build.cmd中的命令生成wheel包。
使用pip安装wheel包。
修改Rasa项目的config文件，使用本library作为实体抽取组件。

示例

language: zhpipeline:- name: rasa_jieba_ner.JiebaNerExtractorpart_of_speech: ['nr','m','n']dictionary_path: "C:/data/user_dict/corpora.txt"

其中part_of_speech和dictionary_path是可选参数，分别表示抽取实体的词性和用户字典的路径。
默认情况下，只提取词性为nr的实体，nr即人名。
注意：windows下用户词典的路径分割符要使用"/"

备注：

完整的config.yml component示例：

language: zhpipeline:- name: "JiebaTokenizer"dictionary_path: "C:/BI-OLD-DRIVER/rasa-demo/data/user_dict/corpora.txt"- name: rasa_jieba_ner.JiebaNerExtractorpart_of_speech: ['nr','m','n']dictionary_path: "C:/BI-OLD-DRIVER/rasa-demo/data/user_dict/corpora.txt"- name: CountVectorsFeaturizer- name: DIETClassifier

相关链接:

Rasa: Rasa · GitHub
Jieba: GitHub - fxsjy/jieba: 结巴中文分词