开源文生语音扩散模型：PlayDiffusion

PlayDiffusion是一种基于扩散模型的语音编辑新方法，克服了传统自回归模型在音频修改中的局限性。该方法首先将音频编码为离散标记，掩码目标区域后利用扩散模型进行上下文感知的去噪处理，并通过BigVGAN解码器还原波形。模型采用非因果注意力机制和定制分词器提高效率，并整合说话人特征确保音色一致。训练中随机掩码音频标记，通过迭代解码逐步优化预测，最终实现高质量、连贯的语音编辑效果。该方法为动态语

Panesle

924人浏览 · 2025-06-03 14:15:00

Panesle · 2025-06-03 14:15:00 发布

PlayDiffusion 模型速览

一、引言

PlayDiffusion 论文开头指出，自回归变换器模型在从文本合成语音方面表现出色，但在修改生成音频的一部分（称为修复）或删除部分而不留下不连续伪影方面存在显著局限性。传统方法要么重新生成整个句子导致计算成本高且韵律变化，要么仅替换单词导致边界伪影，要么从中间点重新生成可能改变未编辑部分的韵律。因此，需要不同的方法来构建更通用的语音编辑工具。论文以修改句子 “The answer is out there, Neo. Go grab it!” 中的 “Neo” 为 “Trinity” 为例，说明传统自回归模型在处理这类语音编辑任务时的不足，从而引出非自回归方法的优势。

二、PlayDiffusion 模型

PlayDiffusion 是一种新颖的基于扩散模型的音频语音编辑方法，工作流程如下：

将音频序列编码到离散空间，把波形转换为更紧凑的表示形式，每个单位称为一个标记（token），该过程适用于真实语音和语音合成模型生成的音频。
当需要修改音频片段时，掩码（mask）目标部分。
使用基于更新文本的扩散模型对掩码区域进行去噪，在此过程中，保留周围上下文，确保平滑过渡和一致的说话人特征。
最终输出标记序列通过 BigVGAN 解码器模型转换回语音波形，且解码器基于从原始片段提取的说话人嵌入进行条件约束。

PlayDiffusion 模型利用非自回归扩散模型，在编辑边界更好地保持上下文，从而实现高质量、连贯的音频编辑，是音频编辑能力的重要进步，为动态、细粒度的语音修改铺平了道路。

三、训练

PlayDiffusion 的训练基于预训练的只解码器文本变换器架构，并进行了针对音频生成的关键修改：

非因果掩码：与标准只解码器 LLM（如 GPT）使用因果注意力不同，修改后的 Llama 实现采用非因果注意力头，使模型能同时利用过去、现在和未来的标记。
自定义分词器和嵌入压缩：为提高效率，尤其是对于英语语音合成，使用仅包含 10,000 个文本标记的自定义字节对编码（BPE）分词器，大幅减小嵌入表尺寸，提升计算速度且不降低音频质量。
说话人条件：模型整合来自预训练嵌入模型的说话人条件，该模型可将不同长度的波形映射到固定大小的向量，捕捉关键说话人特征，确保合成或编辑的音频片段保持一致的语音身份。

在训练过程中，类似 MaskGCT，随机掩码一定比例的音频标记。模型基于说话人嵌入、文本输入和剩余未掩码音频标记提供的上下文，学习准确预测这些掩码标记。给定不同时步的文本样本 x_t 和文本条件 C，模型损失定义为特定公式，掩码 m_{t,i} 也有明确的定义。在推理阶段，解码从完全掩码的标记序列开始，通过多个步骤（指定为 T）进行，具体步骤如下：

初步预测：在每次迭代中，模型基于当前掩码音频和文本输入生成初步预测 X̂₀。
置信度评分：标记根据模型预测获得置信度评分，新预测的（之前掩码的）标记置信度等同于其预测概率，而先前确定的标记置信度评分保持为 1。
自适应重新掩码：利用逐渐递减的时间表 γ，选择特定数量的最低置信度标记在后续迭代中重新掩码，随着迭代进行，重新掩码的标记数量逐渐减少，使模型的优化工作集中于不确定性最高的区域。

这一迭代解码过程持续到所有步骤完成，逐步完善标记预测，生成连贯、高质量的音频输出。

四、核心技术汇总

在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐