《Dependency Graph Enhanced Dual-transformer Structure forAspect-based Sentiment Classification》阅读笔记
1.摘要
近年来,利用图卷积神经网络实现语义依赖树来描述方面和相关的情感词之间的内在联系,但是由于依赖树的噪音和不稳定性,这种改进是有限的。
提出了一个依赖图增强的双向transformer网络(DGEDRT),它通过迭代交互的方式,将从transformer学习的平面表示和从相应的依赖图中学习的图形化表示结合起来。
思想:允许依赖图来知道transformer编码器的表示学习。
2.介绍
直接应用依赖树的两个缺点:
-
由于解析性能的不完整性和输入句子的随意性,依赖树不可避免的引入了噪音。
-
GCN在依赖书中对长距离或者断开连接的词进行建模时,存在固有的缺陷。
3.相关工作
4.模型
DGEDT由两个关键的子模块组成:transformer和 GCN。这里GCN可以被视为一个专门的transformer。
首先对输入的文本进行embedding,然后通过BI-LSTM或者是bert层提取隐藏的上下文表示。然后在方面依赖图下,将获得隐藏状态输入到提出的双向transformer结构中。
最后,通过最大池化操作将所有的方面信息聚合起来,并应用注意力模块来对齐上下文词和目标方面。这样该模型就可以通过依赖信息进行情感分类任务。
4.1 方面级编码器
经过bert或者双向的LSTM后:
对输入的方面折叠成为一个单词(总和):
4.2 双变压器结构
开发了一种双向转换结构,以相互增强的方式融合平面文本知识和依赖知识。结构如下图所示:
4.2.1双向的GCN
通过考虑中每一条边的方向来设计BiGCN。我们将与给定方面组成的词相对应的边合并到相邻矩阵中,从而得到一个方面级的相邻矩阵。然后,我们得到输入文本的基于图形的表示
合并同一个方面跨度内单词的相邻矩阵。
其中 Aadj 可以被替换为 Aadjout 和 Aadjin ,每个跨距距离给定方面的开始和结束位置。spani 表示原文中第 i 个span 。
4.2.2 BiAffine Module
假设有两个输入,S1 和 S2 ,我们引入一个双向的transformation过程来交互他们的相关特征。
S’1 是 S2 到 S1 的投影,A1 是 S2 到 S1 的临时对其矩阵。
4.2.3 整个过程
组装上述所有的子模块,构建双向transformer结构。
4.3 注意力模块
通过上述过程我们可以得到M个方面的表示,通过最大池化得到最终的方面表示。
我们通过注意力集中识别与方面相关的单词,最终的向量表示跟M个方面的表示是高度先关的,会影响实验的结果,所以我们使用一个掩码机制将方面提到的注意力值设置为0。得到掩码向量:
然后我们重新计算情绪极性概率分布P:
4.4 损失函数
5.实验
数据集:
实验结果: