(四十五):VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research
- Abstract
- 出处:ICCV 2019: 4580-4590
- 主要内容:提出多语言视频描述数据集VATEX,研究了两个任务:多语言视频字幕and视频引导机器翻译
Abstract
我们提出了一个新的大型多语言视频描述数据集VATEX,其中包含超过41,250个视频和825,000个中英文字幕。在字幕中,有超过20.6万对英汉平行翻译对。与广泛使用的MSR-VTT数据集[64]相比,VATEX是多语言的,在视频和自然语言描述方面更大、更复杂、更多样化。
我们还介绍了基于VATEX的视频和语言研究的两个任务:
(1)多语言视频字幕,旨在用一个紧凑的统一字幕模型描述不同语言的视频;
(2)视频引导机器翻译,利用视频信息作为附加的时空上下文,将源语言描述翻译成目标语言。
在VATEX数据集上的大量实验表明:
首先,统一的多语言模型不仅可以更有效地生成视频的中英文描述,而且比单语言模型的性能更好。
此外,我们还证明了时空视频上下文可以有效地用于源语言和目标语言的对齐,从而辅助机器翻译。
最后,讨论了VATEX在其他视频语言研究中的应用前景。