一、训练自己的音色模型步骤

1、准备好要训练的数据,放在Data文件夹中,按照文件模板中的结构进行存放数据

在这里插入图片描述
在这里插入图片描述

2、双击打开go-webui.bat文件,等待页面跳转

在这里插入图片描述

3、页面打开后,开始训练自己的模型

(1)、人声伴奏分离。

点击打开人声伴奏分离批量处理界面(如果没有伴奏背景可以省略这一步)
在这里插入图片描述
在这里插入图片描述

(2)、音频切割。

在这里插入图片描述

(3)、识别语音中的文本。

在这里插入图片描述

(4)、文本语音校对。

在这里插入图片描述
在这里插入图片描述

(5)、提取训练前所需信息

在这里插入图片描述

(6)、开始训练模型

在这里插入图片描述

(7)、测试自己的模型

在这里插入图片描述
在这里插入图片描述

二、API调用

1、创建一个conda虚拟环境,安装requirements.txt所需要的库

如果需要使用gpu,安装的cuda和torch版本推荐:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2、安装好后,运行api.py文件,根据格式进行API调用

在这里插入图片描述

GitHub 加速计划 / gp / GPT-SoVITS
29.55 K
3.42 K
下载
GPT-SoVITS是一款革命性的语音转换与合成工具,支持零样本与少量样本的即时文本转语音,仅需5秒音频样本即可实现声音风格迁移。其特色包括跨语言支持、内置音轨分离等实用功能,让初学者也能轻松创建个性化语音模型。适用于英语、日语及中文,结合WebUI工具集,从数据预处理到模型训练全程助力。不论是AI新手还是专业人士,都能在此体验到语音技术的魅力。立即探索,开启你的声音魔法之旅!【此简介由AI生成】
最近提交(Master分支:3 个月前 )
5d126f98 在调用时使用 -a None 参数,可以让 api 监听双栈 1 个月前
eee607b7 * fix #1660 #1667 * add japanese cmudict-katakana dict 1 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐