可以配置中断规则词典,指示内容分析工作室如何标记文档中的文本。
中断规则决定内容分析工作室如何在文档的词法分析中将文档拆分为段落、句子和标记。标记是文本的基本单位,如单词、标点符号、数字或一串符号。例如,中断规则可以指示是否将每一行文本视为新段落。
大多数将文档拆分为组件的规则是标准的,通常不需要配置。但是,您可能需要根据文档结构和您的首选项来配置一些规则。例如,内容分析工作室将字母的顺序如“2.5cm”默认为单个标记。但你可能想分裂成多个标记序列如“2.5”和“厘米”。您可能希望分隔数字和字母标记,以便单元可以用字典识别,也可以创建解析规则或字符规则来标识数值。
源数据创建的中断规则字典存储在一个BREAKRULES 文件中。然后,中断规则文件构建在UIMA管道在词法分析阶段的字典(DIC)文件中。
如果不配置自定义中断规则字典,内容分析工作室将使用默认的中断规则。
限制
日语、中文和韩语不支持自定义中断规则文件。