PlayDiffusion 模型速览

一、引言

PlayDiffusion 论文开头指出,自回归变换器模型在从文本合成语音方面表现出色,但在修改生成音频的一部分(称为修复)或删除部分而不留下不连续伪影方面存在显著局限性。传统方法要么重新生成整个句子导致计算成本高且韵律变化,要么仅替换单词导致边界伪影,要么从中间点重新生成可能改变未编辑部分的韵律。因此,需要不同的方法来构建更通用的语音编辑工具。论文以修改句子 “The answer is out there, Neo. Go grab it!” 中的 “Neo” 为 “Trinity” 为例,说明传统自回归模型在处理这类语音编辑任务时的不足,从而引出非自回归方法的优势。

二、PlayDiffusion 模型

PlayDiffusion 是一种新颖的基于扩散模型的音频语音编辑方法,工作流程如下:

  1. 将音频序列编码到离散空间,把波形转换为更紧凑的表示形式,每个单位称为一个标记(token),该过程适用于真实语音和语音合成模型生成的音频。

  2. 当需要修改音频片段时,掩码(mask)目标部分。

  3. 使用基于更新文本的扩散模型对掩码区域进行去噪,在此过程中,保留周围上下文,确保平滑过渡和一致的说话人特征。

  4. 最终输出标记序列通过 BigVGAN 解码器模型转换回语音波形,且解码器基于从原始片段提取的说话人嵌入进行条件约束。

PlayDiffusion 模型利用非自回归扩散模型,在编辑边界更好地保持上下文,从而实现高质量、连贯的音频编辑,是音频编辑能力的重要进步,为动态、细粒度的语音修改铺平了道路。

三、训练

PlayDiffusion 的训练基于预训练的只解码器文本变换器架构,并进行了针对音频生成的关键修改:

  1. 非因果掩码:与标准只解码器 LLM(如 GPT)使用因果注意力不同,修改后的 Llama 实现采用非因果注意力头,使模型能同时利用过去、现在和未来的标记。

  2. 自定义分词器和嵌入压缩:为提高效率,尤其是对于英语语音合成,使用仅包含 10,000 个文本标记的自定义字节对编码(BPE)分词器,大幅减小嵌入表尺寸,提升计算速度且不降低音频质量。

  3. 说话人条件:模型整合来自预训练嵌入模型的说话人条件,该模型可将不同长度的波形映射到固定大小的向量,捕捉关键说话人特征,确保合成或编辑的音频片段保持一致的语音身份。

在训练过程中,类似 MaskGCT,随机掩码一定比例的音频标记。模型基于说话人嵌入、文本输入和剩余未掩码音频标记提供的上下文,学习准确预测这些掩码标记。给定不同时步的文本样本 x_t 和文本条件 C,模型损失定义为特定公式,掩码 m_{t,i} 也有明确的定义。在推理阶段,解码从完全掩码的标记序列开始,通过多个步骤(指定为 T)进行,具体步骤如下:

  1. 初步预测:在每次迭代中,模型基于当前掩码音频和文本输入生成初步预测 X̂₀。

  2. 置信度评分:标记根据模型预测获得置信度评分,新预测的(之前掩码的)标记置信度等同于其预测概率,而先前确定的标记置信度评分保持为 1。

  3. 自适应重新掩码:利用逐渐递减的时间表 γ,选择特定数量的最低置信度标记在后续迭代中重新掩码,随着迭代进行,重新掩码的标记数量逐渐减少,使模型的优化工作集中于不确定性最高的区域。

这一迭代解码过程持续到所有步骤完成,逐步完善标记预测,生成连贯、高质量的音频输出。

四、核心技术汇总

在这里插入图片描述

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐