当前位置: 代码迷 >> 综合 >> 论文 | Free-Form Image Inpainting with Gated Convolution
  详细解决方案

论文 | Free-Form Image Inpainting with Gated Convolution

热度:51   发布时间:2023-10-21 22:06:33.0

论文 | Free-Form Image Inpainting with Gated Convolution

目录

  • 论文 | Free-Form Image Inpainting with Gated Convolution
    • Abstract
    • Introduction
    • Related Work
    • Approach
        • Gated Convolution
        • Spectral-Normalized Markovian Discriminator (SN-PatchGAN)

Abstract

本文使用 free-form mask (自由随意的mask,可以理解为一种新的mask,拥有任意的形状,既包括regular mask ,也包括irregular mask) 为引导,提出了一个图像修复系统。 gated convolutions(门控卷积),它解决了普通卷积将所有输入pixels都作为有效pixels的问题, 为所以layers每个channel 每个spatial location提供一个可学习的动态特征选择机制。SN-PatchGAN(基于patch的GAN损失),可使训练快速,稳定。

Introduction

简单介绍了image inpainting任务,目前的image inpainting概括为两种(非深度学习的方法和深度学习方法):一种是用 low-level的image features进行patch匹配,另一种是深度卷积网络的前馈生成模型。第一种方法会合成固定纹理,但在非平稳情况下会失败。第二种方法受限于Vanilla convolutions(普通卷积)将所有输入pixels都作为有效pixels,不适用于image inpainting任务。
为了解决普通卷积的问题,NVIDIA提出了Partial convolution (部分卷积),公式如下,但它将含有1个有效值像素的区域与含有9个有效值像素的区域同等对待,这也不合理(后面具体说)。论文 | Free-Form Image Inpainting with Gated Convolution
为此我们提出了gated convolutions(门控卷积)。

Related Work

  • Automatic Image Inpainting
  • Guided Image Inpainting and Synthesis
  • Feature-wise Gating

Approach

Gated Convolution

Vanilla convolutions不适合图像修复任务很好理解,对于Partial convolution也存在以下局限。

  • 启发式地将所有spatial locations分类为有效或无效。 无论上一层filter范围覆盖多少pixels,下一层的mask都将设置为1。
  • 它与其他用户的输入不兼容。 我们针对的是user-guided(作者反复强调)的图像修复系统,在该系统中,用户可以随意在mask内部提供稀疏草图作为条件。 在这种情况下,应将这些pixel位置视为有效还是无效? 如何正确更新下一层的mask?
  • Partial convolution中,无效pixel将在深层中逐渐消失,从而将所有mask值逐渐转换为1。 但是,我们的研究表明,如果我们允许网络自动学习最佳mask,即使在较深的层中,网络也会为每个空间位置分配soft mask值。
  • 每层中的所有channels共享相同的mask,这限制了灵活性。本质上,Partial convolution可以看作是难以学习的单通道特征hard-gating。

gated convolutions ,公式如下,
论文 | Free-Form Image Inpainting with Gated Convolution
?\phi?是激活函数,如ReLU, ELU 和 LeakyReLU
σ\sigmaσ是sigmoid函数,输出介于0-1之间
显而易见,gated convolutions通过conv和sigmoid来学习一种动态特征选择机制。下图中,左边是Partial convolution,右边是gated convolutions。部分卷积的输入是两个,input image和mask。而门卷积是一个,它将input image和mask concat一起,分两路经过conv卷积,一个经过sigmoid,一个经过激活层,后将两个输出相乘。
论文 | Free-Form Image Inpainting with Gated Convolution

Spectral-Normalized Markovian Discriminator (SN-PatchGAN)

由于本文针对free-form的情况(在任何位置可能有多个具有任何形状的holes),借鉴了global and local GANs 、MarkovianGANs、perceptual loss、spectral-normalized GANs,提出了一个有效的GAN loss,SN-PatchGAN(PatchGANs和SN-GANs的结合)。判别器结构如下图所示。
论文 | Free-Form Image Inpainting with Gated Convolution
其中,6个卷积层(卷积核大小为5,步幅为2)来获得局部Patches特征的统计信息。同时使用谱归一化来进一步稳定GAN的训练(可以看下SN-GANs这篇论文)。
文章是一个coarse to fine的网络结构。

  相关解决方案