2026 年了，VoxCPM2 不用本地部署也能做声音克隆：在线体验完整指南

配音鸭

971人浏览 · 2026-05-23 15:07:32

配音鸭 · 2026-05-23 15:07:32 发布

VoxCPM2 是面壁智能（OpenBMB）2026 年 4 月发布的 2B 参数语音合成模型，GitHub 星标已经超过 13k。但很多人一看到"2B 参数""本地部署需要 GPU"就劝退了。实际上现在已经有在线体验站可以免部署直接用，注册就有 15 万字免费额度，克隆次数不限，不需要装环境。

这篇文章帮你搞清楚三件事：VoxCPM2 到底是什么、在线体验和本地部署有什么区别、具体怎么用。最后把 VoxCPM2、IndexTTS2、Qwen3-TTS 三个模型做一个技术层面的横向对比。

一、VoxCPM2 是什么

1.1 基本信息

VoxCPM2 由面壁智能（OpenBMB）联合清华大学人机语音交互实验室（THUHCSI）开发，是 VoxCPM 系列的最新版本，2026 年 4 月正式开源。

信息	内容
发布方	OpenBMB（面壁智能）+ THUHCSI
发布时间	2026 年 4 月
模型参数量	2B
骨干模型	MiniCPM-4
训练数据	超过 200 万小时多语种语音数据
支持语言	30 种（中文、英文、日文、韩文、法文、德文、西班牙文等）
中文方言	四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
音频采样率	48kHz
开源协议	Apache-2.0（允许商用）

1.2 版本演进

VoxCPM2 是 VoxCPM 系列的第三个主要版本：

版本	发布时间	参数量	语言数	采样率	核心升级
VoxCPM-0.5B	2025.09	0.5B	2	16kHz	基础声音克隆
VoxCPM1.5	2025.12	0.6B	2	44.1kHz	SFT/LoRA 微调
VoxCPM2	2026.04	2B	30	48kHz	Voice Design + 可控克隆 + 多语种

1.3 核心技术：Tokenizer-Free 架构

VoxCPM2 的技术路线和目前主流 TTS 模型有一个关键区别：它是 Tokenizer-Free 的。

大多数语音合成模型会先把语音信号离散化成 token（把连续的声音波形切成离散符号），然后用语言模型方式生成这些 token，最后再还原成声音。离散化这一步会损失信息。

VoxCPM2 跳过了离散化，直接在连续的语音表征空间里生成声音。它的架构是 扩散自回归（Diffusion Autoregressive），整个流程走的是 AudioVAE V2 的潜空间，分为四个阶段：

LocEnc → TSLM → RALM → LocDiT → 48kHz 音频输出

简单理解：VoxCPM2 不把声音切成离散符号再拼回去，而是直接在连续空间里"画"出声音，理论上能保留更多的声音细节和自然度。

1.4 四种核心能力

普通 TTS（文本转语音） 输入文本，直接生成语音。支持 30 种语言，不需要手动标注语言类型，模型自动识别。

Voice Design（声音设计） 不需要参考音频，只用文字描述就能创造新声音。比如描述"年轻女性、温柔甜美、语速稍慢"，模型直接生成对应的声音。

Controllable Voice Cloning（可控声音克隆） 上传参考音频克隆音色，同时可以用文字指令控制情绪、语速、风格。

Ultimate Cloning（极致克隆） 同时提供参考音频和文字转录，模型从参考音频"接着说"，最大程度还原音色、节奏、情绪。

1.5 性能数据

在 Seed-TTS-eval 基准测试上：

指标	中文	英文
CER / WER	0.97%	1.84%
声音相似度（SIM）	79.5%	75.3%

推理速度：NVIDIA RTX 4090 上 RTF 约 0.3，使用 Nano-vLLM 加速后可降到约 0.13。显存占用约 8GB。

二、在线体验 vs 本地部署

2.1 本地部署

环境要求：

Python ≥ 3.10（< 3.13）
PyTorch ≥ 2.5.0
CUDA ≥ 12.0
显存 ≈ 8GB（至少 RTX 3090 级别）
安装方式：pip install voxcpm

快速上手代码：

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

# 普通 TTS
model.tts("你好，欢迎使用 VoxCPM2。", output_path="output.wav")

# 声音克隆
model.clone(
    ref_audio="reference.wav",
    text="这是用克隆声音生成的内容。",
    output_path="cloned.wav"
)

优势： 完全掌控推理参数（cfg_value、inference_timesteps 等），支持 SFT 和 LoRA 微调（5-10 分钟音频数据即可适配特定说话人），支持流式推理，可以用 Nano-vLLM 做高吞吐部署，没有额度限制，数据完全在本地。

劣势： 需要 GPU，需要配环境，对非技术用户门槛高。

2.2 在线体验

目前有免部署的在线体验站可以直接使用 VoxCPM2，注册即送 15 万字免费额度，克隆次数不限，支持商用。

优势： 浏览器打开就能用，不需要 GPU，15 万字够做完整效果测试。

劣势： 不能调底层推理参数，不能做微调，音频需要上传到平台。

2.3 对比

维度	本地部署	在线体验
环境要求	GPU + Python + CUDA 12.0	浏览器
上手门槛	高	低
免费额度	无限制	15 万字
微调能力	支持 SFT / LoRA	不支持
推理参数	完全可控	有限
数据隐私	完全本地	上传到平台
适合谁	开发者、研究者	想快速测试效果的用户

三、在线体验使用流程

步骤 1：准备参考音频

如果你要做声音克隆，需要准备一段参考音频：

时长：10 秒以上
人数：单人声音
噪音：越少越好
格式：wav、mp3 都可以

步骤 2：上传音频，创建声音

上传参考音频，给声音命名。

步骤 3：短文本测试

先用 2-3 句话测试，比如：

今天天气不错，适合出去走走。你觉得我们去哪里比较好？

重点关注：音色还原度、中文断句、停顿位置、情绪表达。

步骤 4：调整文本

效果不满意先调文本再换音频：

长句改短
多加逗号控制停顿
用口语化表达（"因此"→"所以"）
避免大段无标点文本

文本的口语化程度对生成效果的影响比很多人以为的要大。

步骤 5：正式生成

短文本满意后再做长文本。做短剧配音、小说推文等场景可以按角色建多个声音，分别生成。

四、VoxCPM2、IndexTTS2、Qwen3-TTS 横向对比

2026 年开源 TTS 模型竞争非常激烈，这三个是目前关注度最高的。

4.1 基本信息

维度	VoxCPM2	IndexTTS2	Qwen3-TTS
发布方	OpenBMB（面壁智能）	Bilibili（B 站）	阿里云 Qwen 团队
发布时间	2026.04	2025.09（2.5 版本 2026.01）	2026.01
参数量	2B	1.5B	1.7B / 0.6B
训练数据	200 万+ 小时	10 万小时（4 语种）	500 万+ 小时
技术路线	Tokenizer-Free 扩散自回归	自回归 + 离散 token（T2S + S2M）	离散多码本语言模型（端到端）
骨干模型	MiniCPM-4	GPT-2 架构 + Conformer	Qwen 系列
开源协议	Apache-2.0	Apache-2.0	Apache-2.0

4.2 能力对比

能力	VoxCPM2	IndexTTS2	Qwen3-TTS
声音克隆	可控克隆 + 极致克隆	零样本（5 秒参考音频）	零样本（3 秒参考音频）
Voice Design	✅	❌	✅
情绪控制	文字指令控制	音色与情绪解耦 + 情感参考音频	自然语言指令控制
时长控制	未特别强调	✅ 核心特色，精确控制合成时长	未特别强调
多语种	30 种语言 + 9 种中文方言	4 语种（中英日西）	10 种语言
流式推理	RTF ~0.3	支持	首包延迟 97ms
SFT / LoRA 微调	✅	✅	✅
采样率	48kHz	24kHz	24kHz