声音克隆开源项目VoxCPM

若苗瞬

594人浏览 · 2026-04-10 22:57:26

若苗瞬 · 2026-04-10 22:57:26 发布

文章目录

（一）仓库地址
- （1.1）版本2.0
（二）安装
（三）运行

（一）仓库地址

一个无离散音频分词器的语音合成系统。
因为本身就有中文说明，所以废话暂时略过，请看源仓库。
🔗 VoxCPM仓库地址

（1.1）版本2.0

前不久才更新到2.0，对比1.5版本增加了几十种语言/方言的支持。
在应用上也更加灵活，可以精细的克隆源音频，也可以通过控制语句来描述音色。
💡 PS：想到1.0时期，稍微一长就嘶嘶叫，简直进步太大了。

（二）安装

（2.1）克隆仓库

还请先注意项目的要求和你本地环境情况。

Python ≥ 3.10 (< 3.13), PyTorch ≥ 2.5.0, CUDA ≥ 12.0

没问题的话。
C:\> git clone https://github.com/OpenBMB/VoxCPM.git

（2.2）设置环境

我不想用conda所以最近都是venv，进入你克隆的仓库目录后：
C:\VoxCPM> python -m venv venv
然后激活环境：
C:\VoxCPM> .\venv\scripts\activate

（2.3）安装依赖

留意下是否进入了虚拟环境：
(venv) C:\VoxCPM> pip install voxcpm

（2.4）切换到用N卡

反正我一直用Nvidia的卡。
先卸载CPU的Torch（先看眼确认了再折腾哦）：
(venv) C:\VoxCPM> pip uninstall torch torchaudio

然后安装CUDA版本的（我的卡是4060Ti16GB，请注意对应版本）：
(venv) C:\VoxCPM> pip install torch>=2.11.0 torchaudio --index-url https://download.pytorch.org/whl/cu126
我自己这还差个东西：
(venv) C:\VoxCPM> pip install torchcodec

（三）运行

如果只是想用它，而不是进一步的开发，就直接运行官方的界面。
PS: 可以指定端口，比如 --port 8808。

call venv\Scripts\activate.bat
python app.py
pause

然后看日志：

funasr version: 1.3.1.
Downloading Model from https://www.modelscope.cn to directory: C:\Users\Shion\.cache\modelscope\hub\models\iic\SenseVoiceSmall
WARNING:root:trust_remote_code: False
* Running on local URL:  http://0.0.0.0:8808
* To create a public link, set `share=True` in `launch()`.

没出错就打开浏览器：
官方说明都中文的，所以这里就省略介绍了，放上源音频，设置下模式，生成。
在这里插入图片描述

（3.1）下载模型

首次运行会自动下载2.0的模型（第二次就不会等那么久了），
不像1.x时代把模型放在项目目录，2.0的模型好像放在了用户目录中。
类型 C:\Users\用户名\.cache\huggingface\hub\models--openbmb--VoxCPM2\里面（这里系统是Win11）。

💡提示：如果你的网络下载不了模型，可能需要设置huggingface的访问：
set HF_ENDPOINT=https://hf-mirror.com

（3.2）生成结果

没出错的话，结果就出来了，可以试听，下载。
如果不满意就再次生成，毕竟还是有开盲盒成分的。
在这里插入图片描述

（3.3）例子

可以听听我做的这个：🔗 B站视频。
方言语速快见谅……

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于Claude Code + deepseek 生成打地鼠游戏

本文介绍了终端AI工具ClaudeCode的使用方法，该工具可直接集成开发环境，通过自然语言指令完成编程任务。首先说明如何配置环境（安装Node.js、设置DeepSeek API等），然后以开发"打地鼠"游戏为例，展示完整工作流程：1）创建需求文档PRD.md；2）基于文档自动生成代码；3）最终生成可直接运行的HTML文件。整个过程无需额外插件，支持国内用户直接使用DeepS