【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN & Attention & Pointer Network& Recursive_综合

我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

已经有人记了笔记（很用心，强烈推荐）：https://github.com/Sakura-gh/ML-notes

本节内容综述

本节内容将介绍：Generation，Attention，Tips for Generation，Pointer Network。
第一步是 Generation ，具体来讲，是如何产生一个 structured object 。提到了 Seq 2 seq。
接下来的部分是 Attention 。提及了图片生成句子等有趣技术。
课程过半，进入 Tips for Generation 部分。提到了许多新技术，或者说容易遇到的问题、偏差，并由此介绍了相应的解决方案。
接下是 Pointer Network。Pointer Network可以有效利用输入中的人名地名等等。
最后穿插一点内容，RNN的变体，Recursive Network。

文章目录

本节内容综述
小细节

Generation

Conditional Generation

Attention

Speech Recognition
Image Caption Generation
Memory Network
Neural Turing Machine

Tips for Generation

Good & Bad Attention
Mismatch between Train and Test

Modifying Training Process?
Scheduled Sampling

Beam Search
Object level v.s. Component level

Pointer Network

Applications - Summarization
Applications - Machine Translation

Recursive Network

Application: Sentiment Analysis
Recursive Model
Recursive Neural Tensor Network
Experiment
Matrix-Vector Recursive Network
Tree LSTM
More Application

小细节

Generation

如上，我们如何让机器产生一段句子呢？这个我们已经清楚了。使用 RNN 把 word 或者说 character 一个一个产生出来。

此外，如上，还可以把图形拆分成像素，使用 RNN 生成。

但是，如上，我们应该让就近的像素对生成的像素进行影响，而非按行来。可以进行 filter + 3维记忆空间的方法。

Conditional Generation

但是，使用RNN存在一些问题，如上图，我们希望根据不同情况给出信息。

如上，一般来讲，RNN产生的话是随机的。我们可以对图片进行处理，比如用CNN获得一个向量，然后输入RNN中。可以在每个时间点都把图片输入，防止机器“忘记”自己在说什么。

对于机器翻译，同理。如上，先在Encoder中，对句子的每个成分按照时间点挨个输入。这样最后得到的向量，就包含了句子的全部信息。将这个输入到Decoder，就可以得到翻译。

这就是 Seq2seq 。

此外，在聊天机器人中，我们需要让之前的信息也输入到模型中，防止说重复的内容。

Attention

如上，我们将 $z^0$ 与各个 $h$ 进行 match 函数计算，得到各个 $h$ 对应的 $\alpha$ 。这个 match 函数中的参数也是训练出来。

之后，经过一个 softmax ，然后求和得到 $c$ ，此时， $c$ 就是Decoder input 。此外，可以得到心得 $z$ 。

之后继续进行该内容。

Speech Recognition

如上，颜色深度代表 match score 。

Image Caption Generation

如上，可以把每个区域的向量与$z_0$进行运算得到，之后，进行 weighted sum，再交给 Decoder ，以此得到输出。

如上，在产生划线词汇是，其Attention也是集中在图片的相应位置的。

此外，还有些失败的地方，我们可以通过 Attention 进行分析，为什么出错了。

此外，机器还可以看视频说话。如上。