Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset_综合

本文是deepmind出品，目的，就一个，放出个关于视频方面的训练集kinetics，一个四百个类，每个类有至少四百个clips，每个clips十秒钟，属于从youtube上剪切的视频，然后对比了几种现在存在的用于行为识别的几种框架，具体如下图：

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
其中，a，b，c，d是现有的做法，作者提出了e，唉，这种框架，感觉有点和前面没啥区别。然后，神奇的事情出现了：这个数据集上训练的模型，通过迁移学习到UCF101和HMDB51上，准确率惊人。
具体的网络：
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
做了如下几个事情：

第一：卷积核和pooling的核由二维扩展到三维。

第二：大的数据视频数据集上训练。

第三：迁移到UCF101，HMDB51，识别结果好。

实验结果
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset