1.transformer的简单定义?
Transformer的本质上是一个以attention机制为模型基础的Encoder-Decoder的结构
2.NLP中,为什么cnn很少见,存在哪些问题,对应的解决思路是怎样的?
因为在单层cnn中,远距离的特征是学不到的,比如特征距离为5,卷积核大小为3,按照通常的方法步长滑动,这两者也很难产生关联。针对这个问题,有两种解决思路,一是滑动的时候去除间隔的一部分区域,二是在cnn的下一层取这一层的关联输出
2.Attention的作用?
计算相关性
3.Attention机制是怎样的?
Attention的本质可以被描述为给定一个 query,计算query 与 key 的相关性,然后根据query 与 key 的相关性去找到最合适的 value。
4.你能用生活中例子来让我理解Q、K、V吗?
Q、K、V的概念来自电影推荐,query 是某个人对电影的喜好信息(比如兴趣点、年龄、性别等)、key 是电影的类型(喜剧、年代等)、value 就是待推荐的电影,它们可以通过某种变换为一个相近的空间。
5.Multi-Head Attention相比Scaled Dot-Product Attention有什么不同?
前者是将后者做了n次,然后把结果合在一起
6.数据位置编码除了包含位置信息还有什么好处
具有鲁棒性
7.Encoder和Decoder各有什么作用?
在机器翻译中,Encoder中计算的是当前翻译和已经翻译的前文之间的关系,Decoder中计算的是当前翻译和编码的特征向量之间的关系。
8.multi-head attention和Encoder-Decoder Attention有什么不同?
后者的Q来自于解码器的上一个输出, K 和 V 则来自于与编码器的输出
9.Add&Normanize里面有什么?
主要做了两个操作,一个是残差连接,另一个就是标准化
10.decoder的输入是什么?
第一次是起始符,第二次是预测出来的第一个词,下一次就是另一个词,依此类推