VAE——变分自编码器的数学推导

问题考虑一个生成模型(Generative model)，可以从一个隐变量(latent variable, z)映射到一张图片(x)，用有向无环图模型(directed acyclic graphical model / Bayesian network)表示为上图表示，x的分布可以通过首先从p(z)采样得到z后再从p(x|z)采样建模。p(z) 是先验概率，意味着只需要选择一个合适的分布就可以

ffiirree

907人浏览 · 2021-03-25 10:08:21

ffiirree · 2021-03-25 10:08:21 发布

问题

考虑一个生成模型(Generative model)，可以从一个隐变量(latent variable, z)映射到一张图片(x)，用有向无环图模型(directed acyclic graphical model / Bayesian network)表示为
在这里插入图片描述
上图表示，x的分布可以通过首先从p(z)采样得到z后再从p(x|z)采样建模。

p(z) 是先验概率，意味着只需要选择一个合适的分布就可以了，一般采用单位高斯分布(unit Gaussian distribution)，因为高斯分布的熵最大。(Paper: Let the prior over the latent variables be the centered isotropic multivariate Gaussian $p (z) = N (z; 0; I)$ )
p(x|z) 用神经网络进行表示 $\theta) = decoder(z; \theta)$

此时已经对生成模型建模完毕，接下来为了进行求解，也就是要学习到参数 $θ\theta$ 。目前，唯一确定的是数据集样本x，当可以得到 $z→x^z \rightarrow \hat x$ 后，还需要确定 $x,x^,zx, \hat{x}, z$ 三者之间的对应关系，如下图
在这里插入图片描述
为题转换为：已知一个数据集中的样本x，如何确定对应的隐变量z，也就是求解p(z|x)。

因为 $\int p(x|z)p(z) dz$ 不可通过数值计算获得结果，且
$\frac{p(x|z)p(z)}{p(x)}$
同样不可数值求解，因此使用近似推断的方法进行求解。近似推断有两大方法：MCMC(马尔可夫蒙特卡洛)和VI(变分推断)法，VAE正是使用了VI得名。

概念

泛函是将自变量函数映射到数值上的函数。
变分法求解泛函极值的方法。
散度可以简单的理解为不需要对称性的距离，即不要求从P到Q的值等于从Q到P的值。
KL散度 $E_{x \sim P(x)}[\log P(x) - \log Q(x)]$ 。

VI

预设一个关于隐变量的密度函数的集合 $Q\mathcal{Q}$ ，从中找到一个函数 $Q (z)$ 使得和 $p (z ∣ x)$ 的最接近，使用KL散度来衡量
$Q∗(z)=arg⁡min⁡Q(z)∈QKL(Q(z)∣P(z∣x))Q^*(z) = \arg \min_{Q(z)\in \mathcal{Q}}KL(Q(z)|P(z|x))$

由此，变分推断将一个推断问题转化为了优化问题。

(Paper: While there is much freedom in the form $q (z ∣ x)$ , we’ll assume the true (but intractable) posterior takes on a approximate Gaussian form with an approximately diagonal covariance)

MD, CSDN的公式编辑好垃圾…先不写了

GitCode-AI社区

GitCode AI社区是一款由 GitCode 团队打造的智能助手，AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐

“零代码”跨境爆单秘籍：谷歌 MCP 服务器直连亮数据，亚马逊商品信息秒级到手！

GitCode-AI社区

开发者生态报告：GitHub、Stack Overflow 2025 年趋势预测

例如，一些大型科技公司赞助了与云计算、人工智能相关的开源项目，这些项目的成果不仅可以应用于企业内部的产品开发，还能通过开源社区的传播，吸引更多优秀的开发者参与到相关技术的研究和创新中。2024 年，印度在 GitHub 上的开发者基础增长了 28%，达到 1700 万，而到 2025 年初，这一数字已超过 1800 万，每三个月就新增 100 万开发者，成为全球增长最快的社区。多元化的开发者群体为