Learning Named Entity Tagger using Domain-Specific Dictionary
使用特定领域词典学习命名实体标记
深度神经模型的最新进展使我们能够构建可靠的命名实体识别(NER)系统,而无需手工制作功能。但是,这样的方法需要大量的手动标记的训练数据。人们一直在努力通过远程监督(结合外部词典)来代替人类注释,但是生成的嘈杂标签对学习有效的神经模型提出了重大挑战。在这里,我们提出了两种神经网络模型,以适应字典中嘈杂的远程监控。首先,在传统的序列标记框架下,我们提出了一种改进的模糊CRF层,以处理具有多个可能标签的标记。在确定了远程监管中嘈杂标签的性质之后,我们超越了传统框架,并提出了一种具有新的“ tie或break”方案的新颖,更有效的神经模型AutoNER。此外,我们讨论了如何优化远程监管以提高NER性能。 在三个基准数据集上进行的大量实验表明,仅使用字典而无需额外的人工,AutoNER即可达到最佳性能,并通过最新的监督基准提供具有竞争力的结果。
1 Introduction
我们将主要贡献归纳为以下几点:
?我们提出了AutoNER,这是一种新颖的神经模型,具有针对远程监督的NER任务的新的“ tie或break”方案。
?我们将传统的NER模型修改为Fuzzy-LSTM-CRF模型,该模型可作为强有力的远程监督基线。
?我们探索改善远程监管以提高NER的性能,例如合并高质量的短语以减少假阴性标签,并进行消融实验以验证有效性。
?在三个基准数据集上进行的实验表明,仅使用字典而无需额外的人工,AutoNER即可达到最佳性能,甚至在监督基准下具有竞争力。
2 Overview
在本文中,我们的目标是仅使用字典来学习命名实体标记器。每个字典条目包括:1)实体的表面名称,包括规范名称和同义词列表; 2)实体类型。考虑到词典的覆盖范围有限,我们通过添加高质量的短语作为类型未知的潜在实体来扩展现有的词典。
根据字典匹配的结果,每个令牌都属于以下三类之一:1)它属于具有一种或多种已知类型的实体提及; 2)属于未知类型的实体提及; 3)标记为非实体。
3 Neural Models
在本节中,我们介绍了针对远程监督的NER任务的两种预测模型,一种是在传统序列标记框架下,另一种是采用新的标记方案。
3.1具有改良IOBES的Fuzzy-LSTM-CRF
Modified IOBES:
我们根据三个令牌类别定义标签。
1)对于标记为一种或多种类型的令牌,将根据其在匹配实体中提及的位置用所有这些类型以及{I,B,E,S}中的一种进行标记。
2)对于类型未知的令牌,所有五个{I,O,B,E,S}标签都是可能的。同时,分配了所有可用的类型。
3)对于标记为非实体的令牌,标记为O。
Fuzzy-LSTM-CRF .
传统的CRF层会最大化唯一有效标签序列的概率。但是,在改进的IOBES方案中,一个句子可能具有多个有效的标签序列,如图1所示。因此,我们将常规CRF层扩展为模糊CRF模型。相反,它通过枚举IOBES标签和所有匹配的实体类型来最大化所有可能的标签序列的总概率。在数学上,我们将优化目标定义为
3.2 AutoNER with “Tie or Break”
为了确定远程监管的性质,我们超越了序列标签框架,并提出了一种新的标记方案“ Tie or Break”。它着重于相邻令牌之间的联系,即它们是绑在同一实体提及中还是分成两部分。因此,我们为此方案设计了一种新颖的神经模型。
“Tie or Break” Tagging Scheme.
具体地,对于每两个相邻的令牌,当两个令牌与相同实体匹配时,它们之间的连接被标记为(1)Tie。 如果至少一个标记属于一个未知类型的高质量短语为(2)未知,; (3)Break,否则。
AutoNER.
在平局或分局方案中,实体跨度和实体类型被编码为两个折叠。因此,我们将实体跨度检测和实体类型预测分为两个步骤。对于实体跨度检测,我们构建了一个二进制分类器以区分“断裂”和“领带”,而未知位置将被跳过。具体来说,如图2所示,对于第i个令牌及其先前令牌之间的预测,我们将BiLSTM的输出连接为新的特征向量ui。 ui然后被馈送到S形层中,该层估计出现Break的概率为
在获得候选实体范围之后,我们进一步确定其实体类型,包括非实体范围的None类型。如图2所示,BiLSTM的输出将重新对齐以形成一个新的特征向量,称为第i个跨度候选。 vi将进一步输入到softmax层,该层将实体类型分布估计为
值得一提的是,AutoNER没有CRF层和Viterbi解码,因此推理比Fuzzy-LSTM-CRF更有效。
3.3 Remarks on “Unknown” Entities
“未知”实体提到的不是其他类型的实体,而是我们对它们的边界不太自信和/或无法根据远程监管来识别其类型的令牌。
在我们的AutoNER模型中,这些“未知”位置具有不确定的边界和类型损失,因为(1)它们使边界标签不清楚; (2)没有类型标签。因此,它们被跳过。
4远距离监督细化
4.1语料库感知词典的剪裁
在字典匹配中,盲目使用完整字典可能会引入假阳性标签,因为存在许多超出给定语料库范围的实体,但是它们的别名可以匹配。
作为近似,我们通过排除规范名称从未出现在给定语料库中的实体,将原始词典调整为与语料库相关的子集。
4.2未知类型的高质量短语
远程监管的另一个问题是关于假阴性标签。当由于词典覆盖范围有限而使令牌范围无法与字典中的任何实体表面名称匹配时,仍然很难肯定地将其声明为非实体(即否定标签)。具体来说,词典中的某些高质量短语也可能是潜在实体。
我们利用最先进的远程监督短语挖掘方法AutoPhrase(Shang et al。,2018),将给定域中的语料库和字典作为输入。 AutoPhrase仅需要未标记的文本和高质量短语的字典。我们通过设置阈值(例如分别为0.5和0.9)来获得高质量的多字和单字词组。实际上,人们可以从同一域中查找更多未标记的文本(例如PubMed论文和Amazon笔记本电脑评论),并使用同一域特定的词典执行NER任务。
我们利用最先进的远程监督短语挖掘方法AutoPhrase(Shang et al。,2018),将给定域中的语料库和字典作为输入。 AutoPhrase仅需要未标记的文本和高质量短语的字典。我们通过设置阈值(例如分别为0.5和0.9)来获得高质量的多字和单字词组。实际上,人们可以从同一域中查找更多未标记的文本(例如PubMed论文和Amazon笔记本电脑评论),并使用同一域特定的词典执行NER任务。
我们将字典外短语视为具有“未知”类型的潜在实体,并将其合并为新的字典条目。此后,仅在此扩展词典中无法匹配的令牌范围将被标记为非实体。意识到这些高质量的短语,我们希望训练有素的NER标记器应该更加准确。
5 Experiments
5.1 Experimental Settings
? BC5CDR
? NCBI-Disease
? LaptopReview
5.2 Compared Methods
字典匹配是我们提出的远程监控生成方法。具体来说,我们将其直接应用于测试集,以获得与字典中的表面名称完全相同的实体提及。通过多数投票分配类型。通过与之比较,我们可以检查神经模型在远程监管本身上的改进。
在生物医学领域,SwellShark可以说是最好的远程监督模型,尤其是在BC5CDR和NCBI-Disease数据集上(Fries等人,2017)。它不需要人工注释的数据,但是,在构建POS标签器,设计有效的正则表达式以及特殊情况下的手动调整时,需要花费大量的专家精力进行实体跨度检测。
Distant-LSTM-CRF使用远程监督的LSTM-CRF模型,在没有带注释的训练数据的情况下,在LaptopReview数据集上实现了最佳性能。
Supervised benchmarks
5.3 NER Performance Comparison
在生物医学领域和信息技术评论领域的结果分别为:
其中在生物医学领域中将每个模型的人类的处理过程列出,分别为黄金注释,正则表达式设计+特殊情况调整,正则表达式设计,无
5.4远距离监督探索
用于词典细化的消融实验
如表4所示,使用量身定制的字典总是比使用原始字典获得更好的F1分数。通过使用量身定制的词典,AutoNER模型的精度将更高,同时召回率将得到类似的保留。
此外,在字典中合并未知类型的高质量短语会显着提高AutoNER模型的每个分数,尤其是召回率。这些结果非常符合我们的期望。
5.5 Test F1Scores vs. Size of Raw Corpus
AutoNER:测试F1 score与远程监督句子的数量。
5.6 Comparison with Gold Supervision
AutoNER:测试F1 score与人工注释文章的数量。
6 Related Work
7 Conclusion and Future Work
在本文中,我们探索了如何仅使用字典来学习有效的NER模型。我们设计了两种神经体系结构,**一种具有改进的IOBES标记方案的FuzzyLSTM-CRF模型,以及一种具有新的“Tie or Break”方案的AutoNER。**在三个基准数据集上进行的实验中,AutoNER无需额外的人工就能获得最佳的F1分数。它的性能甚至与带有完整人工注释的监督基准相比具有竞争力。此外,我们讨论了如何改进远程监控以提高NER的性能,包括合并从语料库中提取的高质量短语以及根据给定语料库定制词典,并演示其在消融实验中的有效性。
将来,我们计划在不同的语言和领域中进一步研究采用Tie or Break方案的AutoNER模型的功能和潜力。而且,所提出的框架可以进一步扩展到其他序列标记任务,例如名词短语组块。此外,除了本文的经典NER设置之外,将来进一步探索用于嵌套和多类型实体识别的远程监督方法也很有趣。