当前位置：代码迷 >> 综合 >> Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）

详细解决方案

Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）

热度：40 发布时间：2023-12-08 07:20:42.0

Abstract & Introduction & Related Work

研究任务
无标注数据NER学习
已有方法和相关工作
1. Unsupervised domain adaptation
2. Aggregation of annotations
3. Weak supervision
面临挑战
1. 他们的方法依赖于一个临时的机制，用于生成候选span来进行分类
创新思路
1. 提出一种弱监督学习方法来解决无标注数据的问题
2. 使用一个隐马尔可夫模型（HMM），将带有噪声的标记功能统一为一个单一的（概率）标注
实验结论

Approach

每一个标注函数以一个文档作为输入，输出一系列与NER标签相关的spans

然后，这些输出通过一个具有多个emission（每个标签功能一个）的隐马尔可夫模型（HMM）进行汇总，其参数是以无监督的方式估计的。最后，汇总的标签被用来学习一个序列标签模型。这个过程是在目标领域的文件上进行的，例如一个金融新闻的语料库
在这里插入图片描述

Labelling functions

Out-of-domain NER models

第一个标注函数的集合是一系列在标注数据数据上训练好的NER模型，本文使用了在以下几个数据集上训练好的模型
在这里插入图片描述

Gazetteers

为了方便索引，把知识库建立成一个trie树

Heuristic functions

我们整合了各种手工制作的函数，依靠正则表达式来检测各种实体的出现

一个专门识别日期、时间、钱数、百分数和心数/序数值的概率分析器（Braun等人，2017）也被纳入

Document-level relations

一个span可能属于多种不同的命名实体，但是不太可能同时属于多种命名实体，因此我们提出用span在文档中出现过的次数来为它的每个命名实体加权
在这里插入图片描述

Aggregation model

然后，这些标签函数的输出通过一个聚合模型被聚合成一个单一的标注层。由于我们无法获得目标领域的标注数据，这个模型是以完全无监督的方式估计的

Model

对于每个token i和标签 j，我们给一个prior，假设它服从狄利克雷分布
在这里插入图片描述
w在这里表示过度矩阵的参数

多概率emission，给出一个包含所有标签j的概率分布

Parameter estimation

为了保证更快的收敛，在似然函数上引入一个限制：对于每个token i ，对应的潜在标签 s 必须在至少一个标注函数上的得分不为0

Prior distributions

看不懂

Decoding

前向后向算法

Sequence labelling model

在这里插入图片描述

Evaluation

在这里插入图片描述

Conclusion

提了7个点的f1分数，但是好像没有说是跟谁比？

后续工作会考虑聚合模型中的标注函数之间的关系，此外一些标注函数可能含有较多的噪声，可以选择一个最优的子集来进一步提高模型性能

Remark

用多个标注函数进行聚合得到标注进行无标签的弱监督学习，我认为它能work的原因是引入了大量的inductive bias，并且作者应该有不错的算法功底（因为他用到了trie树），后续使用狄利克雷分布那边我没有看懂，之后补上这部分知识回来重读

相关解决方案