2026 年了,VoxCPM2 不用本地部署也能做声音克隆:在线体验完整指南
VoxCPM2 是面壁智能(OpenBMB)2026 年 4 月发布的 2B 参数语音合成模型,GitHub 星标已经超过 13k。但很多人一看到"2B 参数""本地部署需要 GPU"就劝退了。实际上现在已经有在线体验站可以免部署直接用,注册就有 15 万字免费额度,克隆次数不限,不需要装环境。
这篇文章帮你搞清楚三件事:VoxCPM2 到底是什么、在线体验和本地部署有什么区别、具体怎么用。最后把 VoxCPM2、IndexTTS2、Qwen3-TTS 三个模型做一个技术层面的横向对比。
一、VoxCPM2 是什么
1.1 基本信息
VoxCPM2 由面壁智能(OpenBMB)联合清华大学人机语音交互实验室(THUHCSI)开发,是 VoxCPM 系列的最新版本,2026 年 4 月正式开源。
| 信息 | 内容 |
|---|---|
| 发布方 | OpenBMB(面壁智能)+ THUHCSI |
| 发布时间 | 2026 年 4 月 |
| 模型参数量 | 2B |
| 骨干模型 | MiniCPM-4 |
| 训练数据 | 超过 200 万小时多语种语音数据 |
| 支持语言 | 30 种(中文、英文、日文、韩文、法文、德文、西班牙文等) |
| 中文方言 | 四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话 |
| 音频采样率 | 48kHz |
| 开源协议 | Apache-2.0(允许商用) |
1.2 版本演进
VoxCPM2 是 VoxCPM 系列的第三个主要版本:
| 版本 | 发布时间 | 参数量 | 语言数 | 采样率 | 核心升级 |
|---|---|---|---|---|---|
| VoxCPM-0.5B | 2025.09 | 0.5B | 2 | 16kHz | 基础声音克隆 |
| VoxCPM1.5 | 2025.12 | 0.6B | 2 | 44.1kHz | SFT/LoRA 微调 |
| VoxCPM2 | 2026.04 | 2B | 30 | 48kHz | Voice Design + 可控克隆 + 多语种 |
1.3 核心技术:Tokenizer-Free 架构
VoxCPM2 的技术路线和目前主流 TTS 模型有一个关键区别:它是 Tokenizer-Free 的。
大多数语音合成模型会先把语音信号离散化成 token(把连续的声音波形切成离散符号),然后用语言模型方式生成这些 token,最后再还原成声音。离散化这一步会损失信息。
VoxCPM2 跳过了离散化,直接在连续的语音表征空间里生成声音。它的架构是 扩散自回归(Diffusion Autoregressive),整个流程走的是 AudioVAE V2 的潜空间,分为四个阶段:
LocEnc → TSLM → RALM → LocDiT → 48kHz 音频输出
简单理解:VoxCPM2 不把声音切成离散符号再拼回去,而是直接在连续空间里"画"出声音,理论上能保留更多的声音细节和自然度。
1.4 四种核心能力
普通 TTS(文本转语音) 输入文本,直接生成语音。支持 30 种语言,不需要手动标注语言类型,模型自动识别。
Voice Design(声音设计) 不需要参考音频,只用文字描述就能创造新声音。比如描述"年轻女性、温柔甜美、语速稍慢",模型直接生成对应的声音。
Controllable Voice Cloning(可控声音克隆) 上传参考音频克隆音色,同时可以用文字指令控制情绪、语速、风格。
Ultimate Cloning(极致克隆) 同时提供参考音频和文字转录,模型从参考音频"接着说",最大程度还原音色、节奏、情绪。
1.5 性能数据
在 Seed-TTS-eval 基准测试上:
| 指标 | 中文 | 英文 |
|---|---|---|
| CER / WER | 0.97% | 1.84% |
| 声音相似度(SIM) | 79.5% | 75.3% |
推理速度:NVIDIA RTX 4090 上 RTF 约 0.3,使用 Nano-vLLM 加速后可降到约 0.13。显存占用约 8GB。
二、在线体验 vs 本地部署
2.1 本地部署
环境要求:
- Python ≥ 3.10(< 3.13)
- PyTorch ≥ 2.5.0
- CUDA ≥ 12.0
- 显存 ≈ 8GB(至少 RTX 3090 级别)
- 安装方式:
pip install voxcpm
快速上手代码:
from voxcpm import VoxCPM
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
# 普通 TTS
model.tts("你好,欢迎使用 VoxCPM2。", output_path="output.wav")
# 声音克隆
model.clone(
ref_audio="reference.wav",
text="这是用克隆声音生成的内容。",
output_path="cloned.wav"
)
优势: 完全掌控推理参数(cfg_value、inference_timesteps 等),支持 SFT 和 LoRA 微调(5-10 分钟音频数据即可适配特定说话人),支持流式推理,可以用 Nano-vLLM 做高吞吐部署,没有额度限制,数据完全在本地。
劣势: 需要 GPU,需要配环境,对非技术用户门槛高。
2.2 在线体验
目前有免部署的在线体验站可以直接使用 VoxCPM2,注册即送 15 万字免费额度,克隆次数不限,支持商用。
优势: 浏览器打开就能用,不需要 GPU,15 万字够做完整效果测试。
劣势: 不能调底层推理参数,不能做微调,音频需要上传到平台。
2.3 对比
| 维度 | 本地部署 | 在线体验 |
|---|---|---|
| 环境要求 | GPU + Python + CUDA 12.0 | 浏览器 |
| 上手门槛 | 高 | 低 |
| 免费额度 | 无限制 | 15 万字 |
| 微调能力 | 支持 SFT / LoRA | 不支持 |
| 推理参数 | 完全可控 | 有限 |
| 数据隐私 | 完全本地 | 上传到平台 |
| 适合谁 | 开发者、研究者 | 想快速测试效果的用户 |
三、在线体验使用流程
步骤 1:准备参考音频
如果你要做声音克隆,需要准备一段参考音频:
- 时长:10 秒以上
- 人数:单人声音
- 噪音:越少越好
- 格式:wav、mp3 都可以
步骤 2:上传音频,创建声音
上传参考音频,给声音命名。
步骤 3:短文本测试
先用 2-3 句话测试,比如:
今天天气不错,适合出去走走。你觉得我们去哪里比较好?
重点关注:音色还原度、中文断句、停顿位置、情绪表达。
步骤 4:调整文本
效果不满意先调文本再换音频:
- 长句改短
- 多加逗号控制停顿
- 用口语化表达("因此"→"所以")
- 避免大段无标点文本
文本的口语化程度对生成效果的影响比很多人以为的要大。
步骤 5:正式生成
短文本满意后再做长文本。做短剧配音、小说推文等场景可以按角色建多个声音,分别生成。
四、VoxCPM2、IndexTTS2、Qwen3-TTS 横向对比
2026 年开源 TTS 模型竞争非常激烈,这三个是目前关注度最高的。
4.1 基本信息
| 维度 | VoxCPM2 | IndexTTS2 | Qwen3-TTS |
|---|---|---|---|
| 发布方 | OpenBMB(面壁智能) | Bilibili(B 站) | 阿里云 Qwen 团队 |
| 发布时间 | 2026.04 | 2025.09(2.5 版本 2026.01) | 2026.01 |
| 参数量 | 2B | 1.5B | 1.7B / 0.6B |
| 训练数据 | 200 万+ 小时 | 10 万小时(4 语种) | 500 万+ 小时 |
| 技术路线 | Tokenizer-Free 扩散自回归 | 自回归 + 离散 token(T2S + S2M) | 离散多码本语言模型(端到端) |
| 骨干模型 | MiniCPM-4 | GPT-2 架构 + Conformer | Qwen 系列 |
| 开源协议 | Apache-2.0 | Apache-2.0 | Apache-2.0 |
4.2 能力对比
| 能力 | VoxCPM2 | IndexTTS2 | Qwen3-TTS |
|---|---|---|---|
| 声音克隆 | 可控克隆 + 极致克隆 | 零样本(5 秒参考音频) | 零样本(3 秒参考音频) |
| Voice Design | ✅ | ❌ | ✅ |
| 情绪控制 | 文字指令控制 | 音色与情绪解耦 + 情感参考音频 | 自然语言指令控制 |
| 时长控制 | 未特别强调 | ✅ 核心特色,精确控制合成时长 | 未特别强调 |
| 多语种 | 30 种语言 + 9 种中文方言 | 4 语种(中英日西) | 10 种语言 |
| 流式推理 | RTF ~0.3 | 支持 | 首包延迟 97ms |
| SFT / LoRA 微调 | ✅ | ✅ | ✅ |
| 采样率 | 48kHz | 24kHz | 24kHz |
4.3 各自的核心差异
VoxCPM2 的独特之处在于 Tokenizer-Free 架构和多语种覆盖面。30 种语言 + 9 种中文方言是三个模型里最广的。48kHz 采样率在音频质量上天花板更高。Voice Design + 可控克隆意味着你既可以用文字"创造"声音,也可以克隆的同时微调风格。
IndexTTS2 的独特之处在于时长控制——这是目前自回归 TTS 模型里少有的能精确控制合成时长的方案,对需要语音和画面精确对齐的短剧配音场景很有价值。音色与情绪解耦也值得关注,支持分别指定音色参考和情感参考。
Qwen3-TTS 的独特之处在于训练数据量(500 万+ 小时)和超低首包延迟(97ms)。双轨流式架构对实时对话、直播互动等低延迟场景很适合。Qwen 生态后续和大模型集成也会更自然。
4.4 怎么选
- 需要多语种覆盖和 Voice Design → VoxCPM2
- 做短剧配音、需要语音和画面精确对齐 → IndexTTS2
- 关注超低延迟的实时场景(直播、对话) → Qwen3-TTS
- 想对比效果 → 建议用同一段参考音频分别在三个模型上生成,实际试听比看参数表靠谱
五、常见问题
Q:VoxCPM2 声音克隆需要多长参考音频? 建议 10 秒以上清晰单人语音。参考音频越干净,克隆效果越好。
Q:VoxCPM2 支持商用吗? 模型本身 Apache-2.0 协议,允许商用。但商用时需确保声音来源有合法授权。
Q:在线体验和本地部署效果一样吗? 理论上同一个模型,但推理参数配置可能有差异,实际效果可能略有不同。
Q:本地部署难吗? 有 NVIDIA GPU(显存 ≥ 8GB)、熟悉 Python 和 CUDA 的话,pip install voxcpm 几行代码就能跑。不熟悉的话建议先用在线版测试效果。
Q:VoxCPM2 和 IndexTTS2 怎么选? 技术路线不同,各有特点。建议用同一段参考音频和文本分别生成,实际试听对比。
六、相关资源
- GitHub:github.com/OpenBMB/VoxCPM
- Hugging Face:huggingface.co/openbmb/VoxCPM2
- ModelScope:modelscope.cn/models/OpenBMB/VoxCPM2
- 官方文档:voxcpm.readthedocs.io
- Demo 音频示例:openbmb.github.io/voxcpm2-demopage
- 在线体验:voxcpm2.com
本文基于 VoxCPM2 GitHub 仓库公开信息整理,技术数据以官方发布为准。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)