Watson Explorer 入门(6)：开发和部署UIMA管道_综合

UIMA管道

内容分析工作室使用UIMA的分析文件和记录结果为一组注释。UIMA的管道是一个序列的一个或多个注释阶段，逐次运行。每个注释可以添加或修改从以前的注释阶段构建文档的更详细的分析结果。

一个内容分析工作室UIMA的管道主要包括四个阶段这些代码在数据驱动的方式设计，以便用户可以提供语言和特定领域的资源为目标域自定义管道。

这里写图片描述。

文档语言（Document language）
首先管道会识别要处理的文档使用那种语言。识别结果用于后续选择处理文档的词典和解析规则文件。
词法分析（Lexical analysis）
第二步管道会根据所提供的词典把文档解析成段落、句子和词汇（标记）。注释器接下来要分析语法属性，例如句子成分等。这个阶段的特点是，使用包含全部词汇的通用的词典和包含专业领域词汇的定制词典。这一阶段还使用字符规则词典，以便分析特殊的实体模式，比如电话号码等。还可以使用分段规则词典（Break Rules Dictionary）设置分段策略。
解析规则（Parsing rules）
这个阶段利用规则识别你所感兴趣的词汇的模式和注释，例如公司的名称。当规则在文本的某些片段发现这些模式的时候，它可以创建或者删除一个注释。这个阶段，允许创建多个注释器，每个注释器在前一个分析的结果上执行更复杂的分析。
清除（Clean up）
此最后阶段允许您删除仅在管道中临时使用的注释类型，并且在最终输出中不需要注释类型。例如，你创建一个UIMA管道识别人名。该管道使用字典注释标题，如先生或博士和常见的名字，如约翰和玛丽。管道然后使用解析规则来创建人的注释，通过确定标题的模式和给定的名称注释，代表人的名字。当你使用管道来分析沃森资源管理器内容分析中的文档时，你可能想为人们的注释类型创建一个面向面，对标题和名字的类型不感兴趣。清除阶段可以用来删除这些不需要的类型。

UIMA的管道可以包括多个阶段，如包括代码，封装成一个 PEAR 文件。