为了帮助一位需要录制大量音频的朋友,我抓住了这个完美的时机来实践我近期研究的AI声音克隆技术。这不仅满足了我对新技术的探索欲望,同时也为他人提供了实质性的帮助。在本文末尾,您可以找到用于AI声音克隆的Windows整合包,以便您也可以尝试这项令人兴奋的技术

介绍(由科大讯飞AI助手编写)

GPT-SoVITS是一个开源的文本到语音(TTS)项目,它能够通过短短一分钟的音频文件克隆个人的声音,并支持将文本转换成汉语、英语、日语等语言的语音。

该项目具有以下特点:

  1. 快速部署:GPT-SoVITS的部署过程简便快捷,用户只需下载相关文件并解压,即可启动其Web界面进行操作。
  2. 训练速度快:项目设计了高效的训练流程,使得声音模型的训练时间大幅缩短,加快了从准备到得到结果的整个过程。
  3. 效果良好:根据作者的测试以及社区反馈,GPT-SoVITS在声音克隆方面表现出了良好的效果,生成的语音与原声相比几乎难以区分。
  4. 跨语言支持:除了对多种语言的支持,GPT-SoVITS还集成了多个辅助工具,如声音伴奏分离和中文自动语音识别(ASR),这些工具进一步提升了系统的功能性和实用性。
  5. 社区认可:自项目发布以来,由于其出色的性能和易用性,GPT-SoVITS在GitHub上迅速获得了关注和星标,反映出了社区对其的高度认可。
  6. 使用方便:用户可通过Web界面进行交互,使得操作更加直观和友好,无需过多的命令行操作知识。

总的来说,GPT-SoVITS是一个功能强大且用户体验良好的TTS项目,适合那些希望快速部署并使用个性化语音合成技术的用户和开发者。

使用流程

接下来将会介绍一次中文声音完整的声音克隆过程,在生产过程中要按照实际情况进行流程修改。

  • 音频素材的准备

    1. 音频需要口齿清晰,发音标准。
    2. 可以将多段优质音频组成一个长音频。
    3. 音频不要出现除了中文的其他语种
  • 在解压文件下启动AI克隆声音的页面

image.png

  • 创建文件夹(文件夹名称不要用中文)

    创建一个空文件放入自己的音频文件,并在空文件夹中创建asr_optdenoise_optslicer_optuvr5_opt

    image.png

    • asr_opt 存放ASR文件的文件夹。
    • denoise_opt 存放去噪后的音频文件夹。
    • slicer_opt 存放切割后的音频文件夹。
    • uvr5_opt 存放UVR5处理后的音频文件夹。
  • 使用UVR5处理原音频(如果原音频足够干净可以跳过这步)

    • 首先开启webui。

    image.png

    • 填写音频文件以及处理后的音频地址,点击转换,进行音频处理。

    image.png

    • 在生成文件夹中删除背景声,保留人声。

    image.png

    • 关闭weiui释放内存。

    image.png

  • 音频降噪(不建议使用,效果很差)

    • 填写原音频文件夹和降噪后的音频文件夹。

    image.png

  • 音频切分

    • 填写最终处理好的音频路径和切分音频后的路径。(注意作者使用的是进行UVR5后的音频文件。如果你想使用的是降噪后的音频只需将路径修改为降噪后的音频文件地址)。

    image.png

    image.png

  • 填写切分后音频的文件夹和输出ASR文件路径,进行ASR提取。

    image.png

  • 开启webui并填写ASR文件地址,进行ASR数据校对,将错误文本进行修改以及删除效果不好较短的音频,这样可以提高训练后的音频质量。

    image.png

    操作说明:

    • 如果修改文案直接将文本修改并点击Submit Text进行保存。

    • 如果删除语音,勾选右边的yes然后点击Delete Audio。

    • 上方的Previous Index和Next Index是前一页和后一页

    • 最后使用完关闭webui

      image.png

  • 训练集格式化

    • 填入模型名称,ASR文件地址和切割的音频文件夹地址,点击开启一键三连

      image.png

  • 微调训练

    • 开启SoVITS训练

      image.png

    • 开启GPT训练(打开dpo训练会使音频效果更好不过更加吃显存)

      image.png

  • 选择模型并进行音频的生成

    • 点击刷新模型路径选择自己训练的模型,并勾选启动webui。

      image.png

    • 选择对应模型列表。并且上传一段优质的切片音频,放入文案即可生成对应的音频。

      image.png

    附录

GitHub 加速计划 / gp / GPT-SoVITS
41
6
下载
GPT-SoVITS是一款革命性的语音转换与合成工具,支持零样本与少量样本的即时文本转语音,仅需5秒音频样本即可实现声音风格迁移。其特色包括跨语言支持、内置音轨分离等实用功能,让初学者也能轻松创建个性化语音模型。适用于英语、日语及中文,结合WebUI工具集,从数据预处理到模型训练全程助力。不论是AI新手还是专业人士,都能在此体验到语音技术的魅力。立即探索,开启你的声音魔法之旅!【此简介由AI生成】
最近提交(Master分支:1 个月前 )
c0b46314 * Update Req, Shell Scripts and Docs * Use half-width punctuation marks * Update install.sh 3 天前
53cac935 * ruff check --fix * ruff format --line-length 120 --target-version py39 * Change the link for G2PW Model * update pytorch version and colab 11 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐