当前位置: 代码迷 >> 综合 >> Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
  详细解决方案

Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

热度:40   发布时间:2023-12-08 07:20:42.0

Abstract & Introduction & Related Work

  • 研究任务
    无标注数据NER学习
  • 已有方法和相关工作
    1. Unsupervised domain adaptation
    2. Aggregation of annotations
    3. Weak supervision
  • 面临挑战
    1. 他们的方法依赖于一个临时的机制,用于生成候选span来进行分类
  • 创新思路
    1. 提出一种弱监督学习方法来解决无标注数据的问题
    2. 使用一个隐马尔可夫模型(HMM),将带有噪声的标记功能统一为一个单一的(概率)标注
  • 实验结论

Approach

每一个标注函数以一个文档作为输入,输出一系列与NER标签相关的spans

然后,这些输出通过一个具有多个emission(每个标签功能一个)的隐马尔可夫模型(HMM)进行汇总,其参数是以无监督的方式估计的。最后,汇总的标签被用来学习一个序列标签模型。这个过程是在目标领域的文件上进行的,例如一个金融新闻的语料库
在这里插入图片描述

Labelling functions

Out-of-domain NER models

第一个标注函数的集合是一系列在标注数据数据上训练好的NER模型,本文使用了在以下几个数据集上训练好的模型
在这里插入图片描述

Gazetteers

为了方便索引,把知识库建立成一个trie树

Heuristic functions

我们整合了各种手工制作的函数,依靠正则表达式来检测各种实体的出现

一个专门识别日期、时间、钱数、百分数和心数/序数值的概率分析器(Braun等人,2017)也被纳入

Document-level relations

一个span可能属于多种不同的命名实体,但是不太可能同时属于多种命名实体,因此我们提出用span在文档中出现过的次数来为它的每个命名实体加权
在这里插入图片描述

Aggregation model

然后,这些标签函数的输出通过一个聚合模型被聚合成一个单一的标注层。由于我们无法获得目标领域的标注数据,这个模型是以完全无监督的方式估计的

Model

对于每个token i和标签 j,我们给一个prior,假设它服从狄利克雷分布
在这里插入图片描述
w在这里表示过度矩阵的参数
在这里插入图片描述
多概率emission,给出一个包含所有标签j的概率分布
在这里插入图片描述

Parameter estimation

为了保证更快的收敛,在似然函数上引入一个限制:对于每个token i ,对应的潜在标签 s 必须在至少一个标注函数上的得分不为0

Prior distributions

看不懂

Decoding

前向后向算法

Sequence labelling model

在这里插入图片描述

Evaluation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

提了7个点的f1分数,但是好像没有说是跟谁比?

后续工作会考虑聚合模型中的标注函数之间的关系,此外一些标注函数可能含有较多的噪声,可以选择一个最优的子集来进一步提高模型性能

Remark

用多个标注函数进行聚合得到标注进行无标签的弱监督学习,我认为它能work的原因是引入了大量的inductive bias,并且作者应该有不错的算法功底(因为他用到了trie树),后续使用狄利克雷分布那边我没有看懂,之后补上这部分知识回来重读

  相关解决方案