论文链接:https://arxiv.org/abs/1802.06454
一、图像翻译
通过从一个图像域到另一个图像域找到一些底层对应关系(例如,类似的语义)来学习映射函数,这就是图像翻译问题。翻译的原则是保留源域的预期身份(例如,文本到图像中的语义,面对动画中的人类ID),同时生成与目标域的分布匹配的样本。
二、目前技术挑战
多年的研究已经在有足够的配对的监督环境中产生了强大的翻译系统。然而,获得配对的训练数据是困难且昂贵的。因此,研究人员转向开发无监督学习方法,该方法仅依赖于不成对数据,它更具挑战性。
现有的工作建立在生成对抗网络(GAN)之上,然而,它们仅受到数据分布的整体表征的训练,而缺乏推理机制来在抽象层面推理数据。隐式训练过程和弱可控性使他们无法找到有意义的实例级对应关系,此限制通常会导致误报(例如几何或语义伪像),并进一步导致模式崩溃问题。文本-图像翻译和对象变形任务示例如下图所示:
在文本到图像的合成中,通常缺少细粒度的细节;在对象变形中,结果只显示颜色和纹理的变化,而几何变化失败。
三、论文思路
论文在上述问题的驱动下,寻求一种能够在无监督的环境下从集合级别和实例级别找到有意义的对应关系的方法。文章介绍了一种基于生成对抗网络DA-GAN的专用无监督域转换方法。它是第一个提出并解决了将样本从两个独立集合转换分解为高度结构化潜在空间中的翻译实例的任务。论文方法同时学习深度注意编码器(DAE),将注意机制[1]集成到映射函数F的学习中。使用实例级约束使映射函数能够找到对应的meaningful语义信息,从而产生正确的且引人注目的结果。
四、论文方法
DA-GAN在技术上最大的创新是 “隐空间”(latent space),这是它最核心的部分。与传统的数据训练模式需要pair data(数据对)不同,DA-GAN不需要将文本与真实的鸟一一对应,而是将原始图片分割成不同的部分(暂称该部分的样本为T),例如头部、身体、尾巴、姿势等,不同的部分分别投射到一个“隐空间”(暂称该部分的生成样本为T’),然后通过大量的图片训练,去验证T-T’对应的精确程度,也就是去不断验证该“隐空间”的好坏,从而不断迭代,确保从T-T’的过程并非随机产生,而是保持一定的规则,进而让“隐空间”的模型逐步趋于完善。这个过程就是DA-GAN系统最为核心的创新所在,也是它能够更加智能、真正具有举一反三学习能力的关键点。
上图用于说明DA-GAN流水线的姿态变形示例。给定从源域S和目标域T两个鸟类的图像,姿态变形的目标是将源姿态转换为目标姿态,同时仍然保持s的身份。(a)中显示了前馈过程,其中两个输入图像被送到DAE中,并将它们投影到一个潜在空间(用虚线框标记)。然后,G从潜在空间中取出这些高度结构化的表示(DAE(s)和DAE(t)),以生成转换后的样本,即s0 = G(DAE(s)),t0 = G(DAE(t))。 (b)中显示了上述DAE的细节(以橙色块标记)。给定图像X,定位函数floc将首先根据X的特征图(即E(X),其中E是可以以任何形式使用的编码器)预测N个关注区域的坐标。然后在X上产生并激活N个注意掩模以产生N个关注区域。最后,每个区域的功能由实例级别的表示组成。通过在S和T上操作相同的方式,可以在潜在空间中找到实例级别的对应关系。我们利用实例级别和集合级别上的约束条件进行优化,如(c)所示。(d)中列出了所有符号。
五、论文优势
其分辨率已经从其他相关技术能够达到的6464[2]升级到了256256,分辨率的提高,意味着图片每个部分所包含的细节信息更加完善,也正因为细节的丰富,才使得DA-GAN的表现在与真实世界的对比中优于同类技术。
对于DA-GAN来说,最重要的是早期的数据训练,图片越多质量越高。DA-GAN生成的众多新的图片,又可以反哺给该系统,从而让它拥有更多的学习数据。也就是说,只要基于少量的原始数据,它就可以产生更多“真实”的练习数据,大大改善某些领域真实数据缺乏的问题。利用这一优势,研究团队实现了业内首次在鸟类数据集中增加生成数据,并将系统的准确度提升了两个百分点。
下图是数据增强结果——一个姿态变换任务。图中有三组图片,每组图片的第一列是原始样本,第二列是目标样本,第三列是DA-GAN生成的鸟类。它保存了与第一列鸟类类别一致,但保留了第二列的鸟类姿态。
六、发展前景
在未来,或许,DA-GAN技术将开启一个每个人都是创造者的时代。只要你的需求输入它能够读懂,哪怕是你脑海中幻想出来的物体和场景,它都能“画”出来。而由它所描绘出来的虚拟世界,可能一点都不比文学家、艺术家创作出来的场景逊色。
它能为安防领域提供更真实的犯罪嫌疑人画像;在生活购物方面帮助人们贴合自身的情况试穿网络售卖的衣物,它也可能让已经灭绝的动植物,通过记载文字的描述重新跃然纸上,等等。它可以用于任何与图片相关的创作。
七、参考文献
[1] J. Fu, H. Zheng, and T. Mei. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4476–4484,2017.
[2] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48,ICML’16, pages 1060–1069. JMLR.org, 2016.