当前位置：代码迷 >> 综合 >> Raki的读paper小记：Instance-Based Learning of Span Representations: A Case Study through NER

详细解决方案

Raki的读paper小记：Instance-Based Learning of Span Representations: A Case Study through NER

热度：44 发布时间：2023-12-08 07:20:57.0

Abstract & Introduction & Related Work

研究任务
1. 基于实例的学习，使模型拥有可解释的推理过程，用于结构化预测
2. 本研究提出并研究了一种基于实例的 span 表征学习方法。
已有方法和相关工作
1. 基于实例的学习是一种机器学习方法，可以学习实施之间的相似性，在推理阶段，最相似的训练实例会被分配到新的实例
2. 最近，尽管有很高的可解释性，但这个方向还没有被探索。
面临挑战
1. 神经模型通常有一个共同的技术难题的挑战：黑箱特性
2. 基于BIO的标注，面临着不连续标签的预测问题
3. 将NER任务视为序列标注问题时，很难解决嵌套实体的问题
创新思路
1. 这是第一个研究基于实例的span表征学习的工作
2. 与token-wise预测相反，我们采用span-wise预测，它可以自然地避免这个问题，因为每个span被分配一个标签
实验结论
1. 通过对NER的实证分析，我们证明了我们基于实例的方法能够在不牺牲性能的情况下建立具有高可解释性的模型。

Instance-Based Span Classification

NER as span classification

对于一个句子，首先枚举所有可能的span，然后给它分配一个类别，span s的类别是由一个softmax函数来计算的
在这里插入图片描述
score是由标签的权重矩阵和span的特征向量内积得到的：

null类型的标签被设置成一个常量，其内积的值恒为0

在训练阶段，最小化一个负对数似然函数：在这里插入图片描述

Instance-based span model

输入经过encoder编码后，在特征空间找到与其最接近样本，并计算其特征分布，然后将概率最大的标签分配到输入样本
在这里插入图片描述
使用一个不包含自己的softmax

计算出 $s_i$ 属于 $y_i$ 的概率

损失函数：

在推理阶段，求argmax

Efficient neighbor probability computation

用整个训练集来当做负样例的计算成本太高，可以从数据集中抽取k个样本作为负样例（在一个mini-batch里面）
在这里插入图片描述

Experiments

在这里插入图片描述

Conclusion

我们提出并研究了一种基于实例的学习方法，它可以学习跨度之间的相似性。通过NER实验，我们证明了我们的方法所建立的模型(i)具有与基于分类器的span模型相竞争的性能；(ii)可解释的推理过程，即很容易理解每个训练实例对预测的贡献有多少。

Remark

首先看完model部分我就懵逼了，这篇paper真的有contribution？不就是做了个聚类？

再者，我发现了一个细节的问题，作者的argmax的下标位置是居中而不是在max下面（虽然好像也没什么问题）
在这里插入图片描述
终极总结：我读了个寂寞

相关解决方案