这里是关于Transformer的基本介绍,其中提到对于Transformer来说self-attention模块的引入尤为重要,这里简单记录一下对于self-attention的简单理解。
首先self-attention模块的工作原理不很复杂,是说对于一个y=wx,其中w的计算是接借助xi与X中xi的补集点积得到的,这句话描述的不太清晰,但结合第四幅图基本就清晰了。
那么self=attention为什么可以工作哪?图四也给出了原因:self-attention关注的是两个矢量之间的信息传播,与RNN中的“循环”异曲同工,可以作为考虑“过去因素”的功能模块。
比如self-attention在词序列中的应用的大致展示如上图
如此简洁却功能强大的模块一定是有一些缺陷的,缺陷的罗列大致如上,其中最主要的是一份x扮演了三个重要角色,Softmax函数可能对非常大的输入值很敏感。
作者们解决的方法是使用三个kxk的矩阵(Wq, Wk, Wv)将x映射为q,k,v三个不同的向量(一般称为query,key和value矩阵),映射过程如上。其中需要注意q向量是在i下计算的,k与v向量是在j下计算的,重复此过程将xi与X中xi的补集都计算后求和即为self-attention模块的输出。
另外需要注意一处除以根号k的小细节,是为了归一化
self-attention在Transformer的实际应用中以Multi-head attention的形式出现,Multi-head attention看起来比较像是attention通过设定不同的初始矩阵Wq的集成。
这幅图介绍了Transformer模块(block)的基本构成,基本上就是self-attention加上non-linear两部分。
这部分展示了Transformer的整体结构,主要由编码器和解码器两部分组成。
这份可视化形象的解释了注意力机制的作用(可以理解为it需要根据上下文具体确定含义)
最后总结一下Tramsformer的优缺点:优点是与RNN相比,没有循环结构所以训练与推理的计算速度更快;与CNN相比Transformer对于输入的感受野更加大,考虑输入的范围更加的广。
Transformer的缺点模型过于与GPU适应性不太好;不能处理过于长的句子。解决的方法是半精度推理
RNN与Transformer的对比如上图,这里就不多阐述,之后我可能对两者进行一些试验的对比。