Seed-VC 项目使用与启动教程

1. 项目介绍

Seed-VC 是一个开源项目,提供了零样本语音转换(Zero-shot Voice Conversion)和实时语音转换功能。该项目支持语音转换和歌唱语音转换,用户无需任何训练即可克隆出与参考语音相似的音色。此外,它还支持在定制数据上进行微调,以提升特定说话人的性能,且数据需求极低,训练速度极快。

2. 项目快速启动

环境准备

  • Python 3.10
  • Windows、Mac M系列(Apple Silicon)或Linux操作系统

安装

根据您的操作系统,选择以下命令之一进行安装:

对于 Windows 和 Linux:

pip install -r requirements.txt

对于 Mac M系列:

pip install -r requirements-mac.txt

使用

项目提供了三种不同用途的模型:

  • seed-uvit-tat-xlsr-tiny:适用于实时语音转换
  • seed-uvit-whisper-small-wavenet:适用于离线语音转换
  • seed-uvit-whisper-base:适用于歌唱语音转换

以下是命令行推理的示例:

python inference.py --source <source-wav> --target <referene-wav> --output <output-dir> --diffusion-steps 25 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition False --auto-f0-adjust False --semi-tone-shift 0 --checkpoint <path-to-checkpoint> --config <path-to-config> --fp16 True

其中:

  • <source-wav>:要转换的语音文件路径
  • <referene-wav>:参考语音文件路径
  • <output-dir>:输出目录路径
  • --diffusion-steps:扩散步骤数,默认为25
  • --length-adjust:长度调整因子,默认为1.0
  • --inference-cfg-rate:推理配置率,默认为0.7
  • --f0-condition:输出音高条件标志,默认为False
  • --auto-f0-adjust:自动调整源音高标志,默认为False
  • --semi-tone-shift:半音移调,默认为0
  • --checkpoint:模型检查点路径
  • --config:模型配置路径
  • --fp16:使用float16推理,默认为True

Web界面

若要使用Web界面,运行以下命令:

python app.py

然后在浏览器中访问 http://localhost:7860/

实时语音转换GUI

若要启动实时语音转换GUI,运行以下命令:

python real-time-gui.py --checkpoint-path <path-to-checkpoint> --config-path <path-to-config>

3. 应用案例和最佳实践

  • 实时语音转换:适用于在线会议、游戏和直播场景。
  • 歌唱语音转换:适用于音乐制作和娱乐行业。

最佳实践

  • 在定制数据上进行微调,可以提升特定说话人的转换质量。
  • 使用推荐的数据集和配置进行训练,以获得最佳性能。

4. 典型生态项目

目前,Seed-VC 项目作为一个独立的工具,没有特别提及与其它开源项目的直接集成。但是,其提供的功能可以与其他语音处理项目或应用集成,以实现更广泛的语音转换和合成应用。

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐