VAE 模型学习笔记

在概率统计理论中：生成模型是指能够在给定某些隐含参数的条件下随机生成观测数据的模型，它给观测值和标注数据序列指定一个联合概率分布。

隼灏

1062人浏览 · 2024-12-04 11:03:22

隼灏 · 2024-12-04 11:03:22 发布

参考资料

【大白话02】一文理清 VAE 变分自编码器 | 原理图解+公式推导_哔哩哔哩_bilibili

1、什么是生成模型？

在概率统计理论中：

生成模型是指能够在给定某些隐含参数的条件下随机生成观测数据的模型，它给观测值和标注数据序列指定一个联合概率分布。

2、图像分布

图像分布 是指所有可能图像的概率分布，表示一个随机变量在图像空间中的分布规律。它反映了图像数据的统计特性。

图像分布可以表示为 $p(x)$ ，其中：

$x$ 是一个图像，通常是高维张量（例如 $x\in R^{H\times W\times C}$ ，表示高 $H$ 、宽 $W$ 、通道数 $C$ 的像素值）。
$p(x)$ 是这个图像 $x$ 的概率密度或概率值。

简单来说，图像分布描述了哪些图像更常见，哪些图像不太可能出现。

3、变分自编码器（Variational Autoencoder, VAE）

变分自编码器（Variational Autoencoder, VAE）是一种生成模型，广泛用于数据生成任务，如图像生成、特征提取等。它结合了概率图模型和深度学习技术，基于变分推断实现高效的概率建模。其基本思路是：把一堆真实样本通过编码器网络变换成一个理想的数据分布，然后这个数据分布再传递给一个解码器网络，得到一堆生成样本，生成样本与真实样本足够接近的话，就训练出了一个VAE模型。

VAE 旨在学习数据的潜在表示 $z$ 并通过这种表示生成原始数据 $x$ 。

通过最大化边际似然 $p(x)$ ，VAE 同时完成生成和编码的任务。

VAE 主要由两部分组成，分别是编码器 encoder 和解码器 decoder。

3.1 编码器：

从图像 $x$ 到潜在变量 $z$ 真实的后验分布:

但由于 $p(z|x)$ 难以直接计算，VAE 使用一个简单的分布 $q(z|x)$ 来近似 $p(z|x)$ 。通过神经网络从数据 $x$ 学习到潜在表示 $z$ 的参数（均值 $\mu$ 和标准差 $\sigma$ ），即：

$q(z|x)=N(z;\mu (x),\sigma {^{2}}{(x)})$

$\mu (x)$ 是潜在变量的均值。

$\sigma ^{2}(x)$ 是潜在变量的协方差矩阵。

3.2 解码器：

VAE 的解码器部分的主要任务是将潜在空间的表示 $z$ 转换回数据空间的重构数据 $x$ ，从而模拟生成数据的过程。

解码器将潜在变量 $z$ 还原为原始数据 $x$ 的条件概率分布为 $p(x|z)$ 。

3.3 先验分布：

通常选择标准正态分布作为潜在变量 $z$ 的先验： $p(z)=N(0,I)$

3.4 重参数化技巧:

为了对 $q(z|x)$ 采样并反向传播，VAE 引入重参数化技巧，将 $z$ 的随机性外移：

3.5 证据下界（ELBO，Evidence Lower Bound）

最终的优化目标可以看作是均方误差（MSE）和KL散度。

$MSE=\left \| x-\hat{x} \right \|^{2}$

3.6 Train

GitCode-AI社区

GitCode AI社区是一款由 GitCode 团队打造的智能助手，AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐

cover

“零代码”跨境爆单秘籍：谷歌 MCP 服务器直连亮数据，亚马逊商品信息秒级到手！

GitCode-AI社区

开发者生态报告：GitHub、Stack Overflow 2025 年趋势预测

例如，一些大型科技公司赞助了与云计算、人工智能相关的开源项目，这些项目的成果不仅可以应用于企业内部的产品开发，还能通过开源社区的传播，吸引更多优秀的开发者参与到相关技术的研究和创新中。2024 年，印度在 GitHub 上的开发者基础增长了 28%，达到 1700 万，而到 2025 年初，这一数字已超过 1800 万，每三个月就新增 100 万开发者，成为全球增长最快的社区。多元化的开发者群体为

GitCode-AI社区

cover

粒子群算法(PSO)：从鸟群觅食到优化大师，一篇通神的究极指南

GitCode-AI社区

所有评论(0)

查看更多评论

隼灏

@weixin_56848903

已为社区贡献4条内容