当前位置: 代码迷 >> 综合 >> A Style-Based Generator Architecture for Generative Adversarial Networks(基于样式的对抗生成网络生成器体系结构)
  详细解决方案

A Style-Based Generator Architecture for Generative Adversarial Networks(基于样式的对抗生成网络生成器体系结构)

热度:43   发布时间:2023-12-28 09:25:30.0

本博客是2019 CVPR 论文 A Style-Based Generator Architecture for Generative Adversarial Networks 的翻译,由于作者水平有限,翻译过程中难免有不妥当之处,还请不吝指教,我一定及时改正。

摘要

我们借鉴样式转移文献,为生成性对抗网络提出了一种替代的生成器体系结构。 新的架构可自动学习,无监督地分离高级属性(例如,当在人脸上进行训练时的姿势和身份)以及所生成图像的随机变化(例如雀斑,头发),并实现直观,可特定缩放的合成控制。 新的生成器在传统的分发质量指标方面改进了最新技术,显示出明显更好的插值特性,还更好地消除了变化的潜在因素。 为了量化插值质量和解纠缠度,我们提出了两种适用于任何生成器体系结构的自动方法。 最后,我们介绍了一个新的,高度多样化的高质量人脸数据集。

1.介绍

通过生成方法,尤其是生成对抗网络(GAN)[22],生成的图像的分辨率和质量最近得到了快速的提高[30、45、5]。 然而,生成器继续充当黑匣子(GAN 是黑箱操作,不明白里面的情况),尽管最近有人对此做出努力[3],但是仍然缺乏对图像合成过程的各个方面的理解,例如,随机特征的起源。 此外,潜在空间的性质也知之甚少,并且通常证明的潜在空间插值[13、52、37]没有提供定量方法来比较不同生成器之间彼此的不同

受样式转换文献的启发[27],我们通过一种使用新颖方法来控制图像合成过程的方式重新设计了生成器体系结构。 我们的生成器从学习到的常数输入开始,并基于潜在代码调整每个卷积层的图像“样式”,从而直接控制不同尺度下图像特征的强度。 结合直接注入网络的噪声,网络架构的更改使得生成的图像中的随机变量(例如雀斑,头发)与高级属性(例如,姿势,身份)自动,无监督地分离,并实现了直观的特定缩放的混合和插值操作。 我们不会以任何方式修改鉴别器或损失函数,因此我们的工作与正在进行的有关GAN损失函数,正则化和超参数的讨论正交[24、45、5、40、44、36]。

我们的生成器将输入的潜在代码嵌入到一个中间的潜在空间中,这对如何在网络中表示变化因素有着深远的影响。 输入的潜在空间必须遵循训练数据的概率密度,并且我们认为这将导致一定程度的不可避免的纠缠(耦合)。 我们的中间潜在空间不受此限制,因此允许他们纠缠(耦合)。 由于先前的估计潜在空间解耦程度的方法在我们的案例中并不直接适用,因此我们提出了两个新的自动化度量标准:感知路径长度和线性可分离性,来量化生成器的这些方面。 使用这些度量,我们表明,与传统的生成器体系结构相比,我们的生成器可以接受更线性,更少耦合的不同变化因子表示。

最后,我们提出了一个新的人脸数据集(Flickr-Faces-HQ,FFHQ),与现有的高分辨率数据集(附录A)相比,该数据集具有更高的质量并涵盖了更广泛的变化。 我们已经将此数据集以及我们的源代码和预先训练的网络公开提供。 随附的视频可以在同一链接下找到

2.基于样式的生成器

传统的方法中,通过输入层,即前馈网络的第一层(图1a),将潜在代码提供给生成器。 我们完全省略了输入层,而是从一个学习到的常量开始,从而偏离了这种设计(图1b,右)。 给定一个在潜在输入空间Z中的潜在代码z,一个非线性映射网络f:Z→W首先产生w∈W(图1b,左)。 为简单起见,我们将两个空间的维数都设置为512,并且使用8层MLP实现映射f,我们将在4.1节中分析该决策。 然后,学习到的仿射变换会将w专门化为样式y=(ys,yb)y=(y_s ,y_b)y=(ys?yb?),这些样式在合成网络g的每个卷积层之后控制自适应实例规范化(AdaIN)[27、17、21、16]操作。 AdaIN操作定义为:
AdaIn(xi,y)=ys,iXi?μ(xi)σ(xi)+yb,i(1)AdaIn(x_i,y)=y_{s,i}\frac{X_i-\mu(x_i)}{\sigma(x_i)}+y_{b,i} \quad \quad(1)AdaIn(xi?,y)=ys,i?σ(xi?)Xi??μ(xi?)?+yb,i?(1)
其中每个特征图xix_ixi?分别进行归一化,然后使用样式y中的相应标量分量进行缩放和偏置。 因此,y的维数是该图层上特征图数量的两倍。

在这里插入图片描述
图片一:传统的生成器[28]仅通过输入层提供潜在代码,我们首先将输入映射到中间潜在空间W,然后该中间潜在空间W通过每个卷积层的自适应实例规范化(AdaIN)控制生成器。 在每次卷积之后添加高斯噪声,然后评估非线性。 这里的“ A”代表学到的仿射变换,“ B”将学到的每通道缩放因子应用于噪声输入。 映射网络f由8层组成,合成网络g由18层组成-每种分辨率为两层(42-10242)。 与Karras等类似,使用单独的1×1卷积将最后一层的输出转换为RGB。 [28]。 我们的生成器共有26.2M的可训练参数,而传统生成器为23.1M。

比较我们的样式转移方法,我们从向量w而不是示例图像上计算具有空间不变性质的样式y。 我们选择对y重复使用“样式”一词,因为类似的网络体系结构已经用于前馈样式传输[26],无监督的图像到图像转换[27]和域混合[22]。 与更通用的特征变换相比[35,53],AdaIN效率高且结构紧凑,特别适合我们的目的。

在这里插入图片描述
表格一:各种生成器设计的弗雷谢特起始距离(FID)(越小越好)。 在本文中,我们使用从训练集中随机绘制的50,000张图像来计算FID,并报告在训练过程中遇到的最小距离。

最后,我们通过引入显式噪声输入,为生成器提供了一种生成随机细节的直接方法。 这些是由不相关的高斯噪声组成的单通道图像,我们向合成网络的每一层提供专用的噪声图像。 如图1b所示,使用学习的按特征比例缩放因子将噪声图像广播到所有特征图,然后将其添加到相应卷积的输出中。 在3.2和3.3节中讨论了添加噪声输入的含义。

2.1 生成图像的质量

在研究生成器的性能之前,我们通过实验证明重新设计不会影响图像质量,并且实际上会大大改善图像质量。表1给出了CelebA-HQ [28]和我们新的FFHQ数据集(附录A)中各种生成器体系结构的弗雷谢特起始距离(FID)[24]。其他数据集的结果在补充材料中给出。我们的 基准配置(a) 是Karras等人的Progressive GAN设置。 [28],除非另有说明,否则我们将从中继承网络和所有超参数。我们首先通过使用上/下采样操作[58],更长的训练和调整的超参数切换到改进的基准(b) 。补充材料中包含训练设置和超参数的详细说明。然后,我们通过添加映射网络和AdaIN操作(c)进一步改进此新基线 ,并得出令人惊讶的观察结果,即该网络不再受益于将潜在代码馈入第一卷积层。因此,我们通过删除传统的输入层并从学习到的4×4×512恒定张量(d)开始图像合成,简化了架构。我们发现非常值得注意的是,即使合成网络仅通过控制AdaIN操作的样式来接收输入,它也能够产生有意义的结果。

最后,我们介绍了噪声输入(e),可以进一步改善结果,以及新颖的混合正则化(f),可以对相邻样式进行解相关,并可以对生成的图像进行更细粒度的控制(第3.1节)

我们使用两种不同的损失函数来评估我们的方法:对于CelebA-HQ,我们使用WGAN-GP [23],而FFHQ使用WGAN-GP进行配置a和非饱和损失[21],其中R1正则化[40,47,13] 配置b–f。 我们发现这些选择可以提供最佳结果。 我们的贡献不会改变损失函数

我们观察到,基于样式的生成器(e)比传统的生成器(b)显着提高了FID,几乎提高了20%,从而证实了并行工作中进行的大规模ImageNet测量[5,4]。 图2显示了使用我们的生成器从FFHQ数据集生成的一组未整理的新颖图像。 正如FID所证实的那样,平均质量很高,甚至眼镜和帽子之类的配件也能成功合成。 对于此图,我们避免使用所谓的截断技巧[38,4,31]从W的极端区域进行采样-附录B详细说明了如何在 W 而不是 Z 中执行技巧。请注意,我们的生成器仅允许将截断选择性地应用于低分辨率,因此高分辨率细节不会受到影响。
在这里插入图片描述
图片二:
我们的基于样式的生成器(配置f)使用FFHQ数据集生成的未经整理的图像集。 在这里,我们使用截断技巧的一种变体[38,4,31],其中ψ= 0.7,分辨率为 42?3224^2-32^242?322 。请参见随附的视频以获取更多结果。

本文中所有FID的计算都没有截断技巧,我们仅将其用于图2和视频中的说明性目的。 所有图像均以10242分辨率生成。

2.2 现有技术

GAN体系结构的许多工作都集中在通过使用多个鉴别器[17、43、10],多分辨率鉴别[55、51]或自我关注[57]来改善鉴别器。 生成器方面的工作主要集中在输入潜空间[4]的精确分布或通过高斯混合模型[3],聚类[44]或鼓励凸度[48]来塑造输入潜空间。

最近的条件生成器通过单独的嵌入网络将类标识符提供给生成器中的大量层[42],同时仍然通过输入层提供潜在代码。 一些作者已经考虑了将潜在代码的一部分提供到多个生成器层[8,4]。 在并行工作中,Chen等。 [5]与我们的工作类似,使用AdaIN对发生器进行“自我调制”,但不考虑中间潜伏空间或噪声输入。

3.基于样式的生成器的属性

我们的生成器体系结构可以通过对样式的比例特定修改来控制图像合成。 我们可以将映射网络和仿射变换视为一种从学习到的分布中为每种样式绘制样本的方法,而将合成网络视为一种基于样式集合生成新颖图像的方法。 每种样式的效果都定位在网络中,即,修改样式的特定子集可以预期仅影响图像的某些方面。

为了了解这种定位的原因,让我们考虑一下AdaIN运算(等式1)如何首先将每个通道归一化为零均值和单位方差,然后才根据样式应用比例和偏差。 由样式指示的新的每通道统计信息会修改要素在后续卷积操作中的相对重要性,但由于归一化,它们不依赖于原始统计信息。 因此,每个样式仅控制一个卷积,然后再被下一个AdaIN操作覆盖

3.1 风格混合

为了进一步鼓励样式进行本地化,我们采用混合正则化,即在训练过程中使用两个随机潜码而不是一个来生成给定百分比的图像。 在生成这样的图像时,我们只需在合成网络中随机选择的位置从一个潜在代码切换到另一个潜在代码(我们称为样式混合的操作)。 具体来说,我们通过映射网络运行两个潜在代码z1,z2,并让相应的w1,w2控制样式,以便w1在交叉点之前应用,w2在交叉点之后应用。 这种正则化技术可防止网络假设相邻样式相关。

表2显示了在训练期间启用混合正则化如何显着改善定位,就如在测试时混合多个潜像的场景中改进的FID,所表明的那样。图3呈现的图像的例子通过在不同尺度混合两种潜码合成。 我们可以看到样式的每个子集都控制着图像的有意义的高级属性。
在这里插入图片描述
图三:图3.从各自的潜在代码(源A和源B)生成了两组图像。 其余图像是通过从来源B复制指定的样式子集,然后从来源A提取其余样式而生成的。复制与粗略空间分辨率(42–824^2–8^24282)相对应的样式会带来高级方面,例如姿势,一般发型 ,脸部形状和来源B的眼镜,而所有颜色(眼睛,头发,灯光)和更精细的面部特征都类似于A。如果我们改为从B复制中等分辨率(162?32216^2-32^2162?322)的样式,则会继承较小比例的面部特征 ,发型,B睁开/闭上眼睛,同时保留A的姿势,一般脸型和眼镜。 最后,从B复制精美的样式(642–1024264^2– 1024^264210242)主要带来了配色方案和微观结构。

在这里插入图片描述
表格二:
FFHQ中的FID用于通过对不同百分比的训练示例启用混合正则化来进行训练的网络。 在这里,我们通过随机化1-4个潜伏点和它们之间的交叉点来对经过训练的网络进行压力测试。 混合正则化显着提高了对这些不利操作的容忍度。 标签e和f表示表1中的配置

在这里插入图片描述
图片四:
随机变化的例子。 (a)两张生成的图像。 (b)具有不同输入噪声实现方式的放大。 尽管总体外观几乎相同,但各个头发的放置方式却大不相同。 (c)超过100个不同实现的每个像素的标准偏差,突出显示图像的哪些部分受噪声影响。 主要区域是头发,轮廓和背景部分,但眼睛反射也有有趣的随机变化。 身份和姿势等全局方面不受随机变化的影响

3.2 随机变化

人像中有许多方面是随机的,例如头发,发茬,雀斑或皮肤毛孔的确切位置。 只要遵循正确的分布,这些中的任何一个都可以随机化而不会影响我们对图像的感知。

让我们考虑一下传统是生成器如何实现随机变化。 假定对网络的唯一输入是通过输入层,则网络需要发明一种方法,以便在需要时从较早的激活中生成空间变化的伪随机数。 这会消耗网络容量,并且很难隐藏生成的信号的周期性,而且并不总是成功的,正如生成的图像中常见的重复图案所证明的那样。 我们的架构通过在每次卷积后添加每像素噪声来完全避免了这些问题。

图4显示了使用我们的生成器,以不同的噪声实现,产生的相同基础图像的随机实现。 我们可以看到,噪声仅影响随机方面,而整体构成和高级方面(如身份)保持不变。 图5进一步示出了将随机变化应用于不同的层子集的效果。 由于这些效果最好在动画中看到,请查阅随附的视频,以演示如何改变一层的噪声输入以匹配的比例导致随机变化。

我们发现有趣的是,噪声的影响似乎紧密地局限在网络中。 我们假设在生成器的任何位置,都有尽快引入新内容的压力,而我们的网络创建随机变化的最简单方法是依靠所提供的噪声。 每层都有一组新的噪声,因此没有动机从较早的激活中产生随机效应,从而导致局部效应。

在这里插入图片描述
图五
噪声输入在发电机不同层的影响:(a)噪声应用于所有层。 (b)无噪音。 (c)仅在精细层中有噪声( 642–1024264^2–1024^264210242 )。 (d)仅在粗糙层中产生噪声( 42?3224^2-32^242?322 )。
我们可以看到,人为地忽略噪声会导致毫无特色的“绘画”外观。 粗糙的噪音会导致头发大规模卷曲,并出现较大的背景特征,而细小的噪音则会使头发卷曲,背景细节和皮肤毛孔更细。

3.3 将全局效应与随机性分开

前面的部分以及随附的视频演示了,虽然更改样式具有全局效果(改变姿势,身份等),但是噪音仅影响无关紧要的随机变化(梳理不同的头发,胡须等)。 此观察结果与样式转换文献一致,在文献中已确定空间不变统计量(Gram矩阵,逐通道均值,方差等)可靠地编码图像样式[19,36],而空间变化特征编码 一个特定的实例。

在我们基于样式的生成器中,样式会影响整个图像,因为完整的要素图会按相同的值缩放和偏移。 因此,可以连贯地控制诸如姿势,照明或背景样式之类的全局效果。 同时,噪声被独立地添加到每个像素,因此理想地适合于控制随机变化。 如果网络试图使用噪声来控制例如姿势,则将导致空间上不一致的决策,然后判别器将对其进行惩罚。 因此,网络无需明确指导即可学会适当地使用全球和本地渠道

4. 解耦合研究

解耦[50,46,1,6,18]有多种定义,但是一个共同的目标是由线性子空间组成的潜空间,每个子空间控制一个变化因子。 但是,Z中各因子组合的采样概率需要与训练数据中的相应密度相匹配。 如图6所示,这排除了与典型数据集和输入潜在分布完全无关的因素。
在这里插入图片描述
图片六
具有两个变化因素(图像特征,例如男性气质和头发长度)的说明性示例。 (a)缺少某些组合(例如长发男性)的示例训练集。 (b)这迫使从Z到图像特征的映射变得弯曲,从而禁止的组合在Z中消失,以防止对无效组合进行采样。 (c)从Z到W的学习映射能够“消除”很多变形

我们的生成器体系结构的主要好处是,中间潜空间W不必支持根据任何固定分布进行采样; 它的采样密度由学习的分段连续映射f(z)诱导。 该映射可以适应于“非扭曲” W,以使变化因子变得更加线性。 我们假定生成器有这样做的压力,因为基于纠缠的表示比基于纠缠的表示生成真实的图像应该更容易。 因此,我们希望在无监督的情况下,即当事先不知道变化因子时,训练会产生较少纠缠的W [9,32,45,7,25,30,6]。

不幸的是,最近提出的量化解耦度的度量[25、30、6、18]需要将输入图像映射到潜码的编码器网络。 这些度量标准不适合我们的目的,因为我们的基本GAN缺乏这样的编码器。 尽管有可能为此目的添加一个额外的网络[7、11、14],但我们希望避免将精力投入到不属于实际解决方案的组件中。 为此,我们描述了两种量化解缠结的新方法,它们都不要求编码器或已知的变化因数,因此可用于任何图像数据集和生成器。

4.1 感知路径长度

如Laine [34]所述,潜在空间矢量的插值可能会在图像中产生令人惊讶的非线性变化。 例如,两个端点中都不存在的要素可能会出现在线性插值路径的中间。 这表明潜在空间纠缠并且变化因子未正确分离。 为了量化这种效果,我们可以测量在潜在空间中执行插值时图像经历的急剧变化。 凭直觉,与高度弯曲的潜伏空间相比,弯曲较小的潜伏空间应在感知上更平滑。

作为我们度量标准的基础,我们使用基于感知的成对图像距离[59],该距离是两个VGG16 [54]嵌入之间的加权差计算得出的,权重合适,从而使度量与人类感知相似性判断相符。 如果将潜伏空间插值路径细分为线性段,则可以将该段路径的总感知长度定义为每个距离的感知差之和,如图像距离度量所报告。 感知路径长度的自然定义是无限细细分下该总和的极限,但实际上,我们使用小细分 ?=10?4\epsilon=10^-4?=10?4 对其进行近似。 因此,在所有可能的端点上,潜在空间Z中的平均感知路径长度为:
lZ=E[1?2d(G(slerp(z1,z2;t)),G(slerp(z1,z2;t+?)))](2)l_Z=E\left[\frac{1}{\epsilon^2}d(G(slerp(z_1,z_2;t)),G(slerp(z_1,z_2;t+\epsilon))) \right] \quad\quad(2)lZ?=E[?21?d(G(slerp(z1?z2?t))G(slerp(z1?z2?t+?)))](2)

其中z1,z2?P(z),t?U(0,1)z_1,z_2?P(z) ,t?U(0,1)z1?z2??P(z)t?U(01),G是生成器(即,基于样式的网络的g?f),而 d(·,·)评估结果t图像之间的感知距离。 在这里,slerp表示球面插值[52],这是在我们的标准化输入潜伏空间[56]中进行插值的最合适方法。 为了专注于面部特征而不是背景,我们在评估成对图像度量之前将生成的图像裁剪为仅包含面部。 由于度量d是平方的[59],我们除以 ?2\epsilon^2?2 。 我们通过抽取100,000个样本来计算期望值。

在这里插入图片描述
表格3:FFHQ中各种生成器体系结构的感知路径长度和可分离性得分(越低越好)。 对于传统网络,我们在Z中执行测量;对于基于样式的网络,我们在W中执行测量。 使网络抵抗样式混合似乎会使中间潜伏空间W稍微变形。 我们假设混合使得W更加难以有效地编码跨越多个尺度的变异因子。

以类似的方式计算W中的平均感知路径长度:
lW=E[1?2d(g(lerp(f(z1),f(z2);t)),g(lerp(f(z1),f(z2);t+?)))](3)l_W=E\left[\frac{1}{\epsilon^2}d(g(lerp(f(z_1),f(z_2);t)),g(lerp(f(z_1),f(z_2);t+\epsilon)))\right] \quad \quad \quad(3)lW?=E[?21?d(g(lerp(f(z1?),f(z2?);t)),g(lerp(f(z1?),f(z2?);t+?)))](3)

唯一的区别是插值发生在W空间中。 由于W中的向量没有以任何方式归一化,因此我们使用线性插值(lerp)。

表3显示,对于我们的带噪声输入的基于样式的生成器,该全路径长度明显较短,表明W在感知上比Z线性得多。然而,实际上,此测量稍微偏向于输入潜在空间Z. 如果W确实是Z的解耦且“展平”的映射,则它可能包含不在输入流形上的区域,因此,即使在从输入流形映射的点之间,生成器也很难对其进行重构,而输入潜在空间Z,根据定义,没有这样的区域。 因此,可以预料,如果将度量限制在路径端点即t∈{0,1},则在不影响 lZl_ZlZ? 的情况下,应获得较小的 KaTeX parse error: Expected 'EOF', got '#' at position 4: l_W#? 。 这确实是我们在表3中观察到的。

表4显示了映射网络如何影响路径长度。 我们看到,传统的和基于样式的生成器都受益于具有映射网络,并且附加的深度通常会改善感知路径的长度以及FID。 有趣的是,虽然传统生成器的lWl_WlW?有所改善,但lZl_ZlZ?却变得更糟,这说明了我们的说法,即输入潜在空间确实可以任意地纠缠在GAN中

在这里插入图片描述
表格四:映射网络在FFHQ中的作用。 方法名称中的数字表示映射网络的深度。 我们看到FID,可分离性和路径长度都受益于拥有映射网络,这对于基于样式的生成器架构和传统生成器架构都适用。 此外,较深的地图网络通常比浅网络的性能更好。

4.2 线性可分离性

如果潜在空间充分解开,则应该有可能找到始终对应于各个变化因素的方向向量。 我们提出了另一个度量标准,该度量标准是通过测量潜在空间点可以通过线性超平面分为两个不同的集合的程度来量化这种影响的,以便每个集合都对应于图像的特定二进制属性。

为了标记生成的图像,我们针对许多二进制属性训练辅助分类网络,例如以区分男性和女性面孔。 在我们的测试中,分类器与我们使用的鉴别器具有相同的架构(即与[28]中相同),并使用CelebA-HQ数据集进行训练,该数据集保留了原始CelebA数据集中的40个属性。 为了测量一个属性的可分离性,我们使用 z?P(z) 生成200,000张图像,并使用辅助分类网络对其进行分类。 然后,我们根据分类器的置信度对样本进行排序,并去除最低置信度的一半,从而产生100,000个标记的潜在空间向量。

我们将最终的可分离性得分计算为 exp(∑iH(Yi∣Xi)exp(\sum_iH(Y_i | X_i)exp(i?H(Yi?Xi?),其中 i 列举了40个属性。 与初始分数[49]相似,幂运算将值从对数域扩展到线性域,以便于比较。

表3和表4显示,W始终比Z具有更好的可分离性,表明耦合程度较小。此外,增加映射网络的深度可以改善W中的图像质量和可分离性,这与合成网络固有地倾向于解开输入表示的假设相符。 有趣的是,在传统生成器之前添加映射网络会导致Z的可分离性严重损失,但会改善中间潜空间W中的情况,FID也将得到改善。 这表明,当我们引入不必遵循训练数据分布的中间潜在空间时,即使是传统的生成器体系结构也能更好地发挥作用。

5.结论

基于我们的研究结果和Chen等人的并行工作。 [5],很明显,传统的GAN生成器体系结构在任何方面都不如基于样式的设计。就已建立的质量度量而言,这是正确的,并且我们进一步相信,对高级属性和随机效应的分离以及中间潜在空间的线性的研究将在增进GAN的理解和可控性方面取得丰硕成果 。

我们注意到,我们的平均路径长度度量很容易在训练过程中用作正则化函数,也许线性可分离性度量的某些变体也可以充当正则化函数。 总的来说,我们期望在训练过程中直接塑造中间潜伏空间的方法将为将来的工作提供有趣的途径。

附录:

A. FFHQ 数据集

我们已经收集了一个新的人脸数据集FlickrFaces-HQ(FFHQ),该数据集包含70,000张 102421024^210242 分辨率的高质量图像(图7)。 该数据集在年龄,种族和图像背景方面比CelebA-HQ [28]大得多,并且对眼镜,太阳镜,帽子等配件的覆盖范围也要好得多。图像是从Flickr抓取的(因此继承了 该网站的所有偏差)并自动对齐[29]并裁剪。 仅收集未经许可的图像。 各种自动过滤器被用来修剪布景,最后,Mechanical Turk允许我们删除偶发的雕像,油画或照片照片。 我们已经在https://github.com/NVlabs/ffhq-dataset上公开提供了数据集。
在这里插入图片描述

B. W上的截断技巧

如果我们考虑训练数据的分布,很明显低密度区域表示不佳,因此生成器可能很难学习。 在所有生成建模技术中,这是一个重大的开放问题。 然而,众所周知,从截断的[38,4]或以其他方式缩小[31]的采样空间中绘制潜矢量往往会改善平均图像质量,尽管会丢失一些变化。

我们可以遵循类似的策略。 首先,我们计算W的质心为:w?=Ez?P(z)[f(z)]\overline{w} = E_{z?P(z)}[f(z)]w=Ez?P(z)?[f(z)] 。 如果是FFHQ,则此点表示某种平均面孔(图8,ψ= 0)。 然后,我们可以将给定w与中心的偏差定标为w′=w?+?(w?w?)w'=\overline{w}+\phi(w-\overline{w})w=w+?(w?w),其中ψ<1。 [4]观察到,即使使用正交正则化,也只有网络的一个子集适合这种截断,即使不改变损失函数,W空间中的截断也似乎可靠地工作。

在这里插入图片描述
图片八:截断技巧的效果与样式比例ψ的关系。 当我们将ψ→0渐变时,所有面都收敛到FFHQ的“平均”面。 对于所有训练过的网络,此脸都是相似的,对其进行插值似乎永远不会造成伪像。 通过对样式应用负缩放,可以得到相应的相反或“反面”。 有趣的是,各种高级属性通常在相反的位置之间转换,包括视点,眼镜,年龄,肤色,头发长度和性别。

参考文献:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  相关解决方案