当前位置: 代码迷 >> 综合 >> 【DL笔记】Tutorial on Variational AutoEncoder——中文版(更新中)
  详细解决方案

【DL笔记】Tutorial on Variational AutoEncoder——中文版(更新中)

热度:7   发布时间:2023-12-16 22:40:25.0

这里写图片描述

摘要

近三年来,变分自编码(VAE)作为一种无监督学习复杂分布的方法受到人们关注,VAE因其基于标准函数近似(神经网络)而吸引人,并且可以通过随机梯度下降进行训练。VAE已经在许多生成复杂数据包括手写字体[1,2]、人脸图像[1,3,4]、住宅编码[5,6]、CIFAR图像[6]、物理模型场景[4]、分割[7]以及预测静态图像[8]上显现优势。本教程介绍VAE背后的灵感和数学解释,以及一些实证。没有变分贝叶斯方法假设的先验知识。
关键字:变分自编码,无监督学习,结构预测,神经网络

1 介绍

生成模型是机器学习中在一些潜在的高维空间 χ χ 中定义在数据点 X X 上处理模型分布 P ( X ) 的一个广泛领域,例如,图像可能就是一种用于创建生成模型的数据。每一个数据点(图片)都有成千上万维(像素),生成模型的工作就是捕捉像素之间的相关性,例如相邻的像素具有相似的颜色,组成实体。实际上,捕捉这些相关性依赖于我们想用模型做什么。一种简单的模型允许对 P(X) P ( X ) 进行数值表示计算。在图像的情况下,看起来像真实图像的X值应该具有高概率,而看起来像随机噪声的图像应该具有较低概率。然而,像这样的模型并不一定有用:已知一个不太可能的图像不会帮助我们合成一个可能的图像。
相反,人们更会去关心去产生那些已经在数据库中,但又与数据库中的图像不是完全一样的例子,我们可以从原始图像数据库开始,合成新的、没见过的图像。我们可以在一个视频游戏中填充一个从3D模型数据库中获取的像植物一样的作为森林;我们可以采取手写文本,并尝试产生更多的手写文本,像这样的工具实际上对图形设计者来说是有用的。我们可以形式化地设置通过未知分布的 Pgt(X) P g t ( X ) 来生成已知 X X 的分布,目标是学习一个可以从中取样的模型 P ,使 P P P g t 尽可能相似。
训练这种模型一直以来都是机器学习社区一个长期存在的问题,并且,大多数方法都存在一下三种严重缺陷之一:首先,可能需要对数据中的结构进行强假设。第二,可能会作出严重的近似,导致次优模型。第三,可能依赖于计算昂贵的推理过程,如马尔可夫链蒙特卡罗方法。近年来,一些研究成果在神经网络的训练中取得了巨大的进展,通过反向传播作为强大的函数逼近器[9]。这些进展已经产生了有前途的框架,可以使用基于反向传播的函数逼近器来生成生成模型。
其中一种受欢迎的模型就是变分自编码器[1,3],这篇教程的主角。该模型进行弱假设,训练通过反向传播迅速进行。VAE确实做了近似,但是由这种近似引入的误差对于高容量模型来说是小的,这些特点促成了它的迅速普及。
本教程旨在对VAEs进行非正式的介绍,而不是正式的关于它的科学论文。它的目的是帮助那些可能使用生成模型,但没有强大的背景在变量贝叶斯方法的人,其中的VAE是基于“最小描述长度”编码模型。本教程开始在UC伯克利和卡耐基梅隆的计算机视觉阅读组的演示,并因此偏向一个视觉观众。欢迎改进建议。

1.1 初步研究:隐变量模型

当训练生成模型时,维度之间的依赖关系越复杂,模型就越难训练。例如,产生手写字符图像的问题。简单地说,我们只关心数字0到9的建模。如果一个字符的左半边包含了数字5的左半边,那么右半边不会包含0的左半边,或者这个图片很清晰看起来不是一个数字。直观地说,这有助于模型首先决定在将一个值分配给任何特定像素之前生成哪个字符,这种决策方法成为隐变量。也就是说,在我们的模型画出任何东西之前,它首先随机地从集合0~9中采样一个数字值 z z ,然后确保所有的笔画与之匹配, z 被称为“隐含“的原因在于给定的只是一个由模型产生的字符,我们没必要知道设置那个隐变量产生字符,只需要使用像计算机视觉这样的技术来推断它。

  相关解决方案