VoxCPM2 是面壁智能(OpenBMB)2026 年 4 月发布的 2B 参数语音合成模型,GitHub 星标已经超过 13k。但很多人一看到"2B 参数""本地部署需要 GPU"就劝退了。实际上现在已经有在线体验站可以免部署直接用,注册就有 15 万字免费额度,克隆次数不限,不需要装环境。

这篇文章帮你搞清楚三件事:VoxCPM2 到底是什么、在线体验和本地部署有什么区别、具体怎么用。最后把 VoxCPM2、IndexTTS2、Qwen3-TTS 三个模型做一个技术层面的横向对比。


一、VoxCPM2 是什么

1.1 基本信息

VoxCPM2 由面壁智能(OpenBMB)联合清华大学人机语音交互实验室(THUHCSI)开发,是 VoxCPM 系列的最新版本,2026 年 4 月正式开源。

信息 内容
发布方 OpenBMB(面壁智能)+ THUHCSI
发布时间 2026 年 4 月
模型参数量 2B
骨干模型 MiniCPM-4
训练数据 超过 200 万小时多语种语音数据
支持语言 30 种(中文、英文、日文、韩文、法文、德文、西班牙文等)
中文方言 四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
音频采样率 48kHz
开源协议 Apache-2.0(允许商用)

1.2 版本演进

VoxCPM2 是 VoxCPM 系列的第三个主要版本:

版本 发布时间 参数量 语言数 采样率 核心升级
VoxCPM-0.5B 2025.09 0.5B 2 16kHz 基础声音克隆
VoxCPM1.5 2025.12 0.6B 2 44.1kHz SFT/LoRA 微调
VoxCPM2 2026.04 2B 30 48kHz Voice Design + 可控克隆 + 多语种

1.3 核心技术:Tokenizer-Free 架构

VoxCPM2 的技术路线和目前主流 TTS 模型有一个关键区别:它是 Tokenizer-Free 的。

大多数语音合成模型会先把语音信号离散化成 token(把连续的声音波形切成离散符号),然后用语言模型方式生成这些 token,最后再还原成声音。离散化这一步会损失信息。

VoxCPM2 跳过了离散化,直接在连续的语音表征空间里生成声音。它的架构是 扩散自回归(Diffusion Autoregressive),整个流程走的是 AudioVAE V2 的潜空间,分为四个阶段:

LocEnc → TSLM → RALM → LocDiT → 48kHz 音频输出

简单理解:VoxCPM2 不把声音切成离散符号再拼回去,而是直接在连续空间里"画"出声音,理论上能保留更多的声音细节和自然度。

1.4 四种核心能力

普通 TTS(文本转语音) 输入文本,直接生成语音。支持 30 种语言,不需要手动标注语言类型,模型自动识别。

Voice Design(声音设计) 不需要参考音频,只用文字描述就能创造新声音。比如描述"年轻女性、温柔甜美、语速稍慢",模型直接生成对应的声音。

Controllable Voice Cloning(可控声音克隆) 上传参考音频克隆音色,同时可以用文字指令控制情绪、语速、风格。

Ultimate Cloning(极致克隆) 同时提供参考音频和文字转录,模型从参考音频"接着说",最大程度还原音色、节奏、情绪。

1.5 性能数据

在 Seed-TTS-eval 基准测试上:

指标 中文 英文
CER / WER 0.97% 1.84%
声音相似度(SIM) 79.5% 75.3%

推理速度:NVIDIA RTX 4090 上 RTF 约 0.3,使用 Nano-vLLM 加速后可降到约 0.13。显存占用约 8GB。


二、在线体验 vs 本地部署

2.1 本地部署

环境要求:

  • Python ≥ 3.10(< 3.13)
  • PyTorch ≥ 2.5.0
  • CUDA ≥ 12.0
  • 显存 ≈ 8GB(至少 RTX 3090 级别)
  • 安装方式:pip install voxcpm

快速上手代码:

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

# 普通 TTS
model.tts("你好,欢迎使用 VoxCPM2。", output_path="output.wav")

# 声音克隆
model.clone(
    ref_audio="reference.wav",
    text="这是用克隆声音生成的内容。",
    output_path="cloned.wav"
)

优势: 完全掌控推理参数(cfg_value、inference_timesteps 等),支持 SFT 和 LoRA 微调(5-10 分钟音频数据即可适配特定说话人),支持流式推理,可以用 Nano-vLLM 做高吞吐部署,没有额度限制,数据完全在本地。

劣势: 需要 GPU,需要配环境,对非技术用户门槛高。

2.2 在线体验

目前有免部署的在线体验站可以直接使用 VoxCPM2,注册即送 15 万字免费额度,克隆次数不限,支持商用。

优势: 浏览器打开就能用,不需要 GPU,15 万字够做完整效果测试。

劣势: 不能调底层推理参数,不能做微调,音频需要上传到平台。

2.3 对比

维度 本地部署 在线体验
环境要求 GPU + Python + CUDA 12.0 浏览器
上手门槛
免费额度 无限制 15 万字
微调能力 支持 SFT / LoRA 不支持
推理参数 完全可控 有限
数据隐私 完全本地 上传到平台
适合谁 开发者、研究者 想快速测试效果的用户

三、在线体验使用流程

步骤 1:准备参考音频

如果你要做声音克隆,需要准备一段参考音频:

  • 时长:10 秒以上
  • 人数:单人声音
  • 噪音:越少越好
  • 格式:wav、mp3 都可以

步骤 2:上传音频,创建声音

上传参考音频,给声音命名。

步骤 3:短文本测试

先用 2-3 句话测试,比如:

今天天气不错,适合出去走走。你觉得我们去哪里比较好?

重点关注:音色还原度、中文断句、停顿位置、情绪表达。

步骤 4:调整文本

效果不满意先调文本再换音频:

  • 长句改短
  • 多加逗号控制停顿
  • 用口语化表达("因此"→"所以")
  • 避免大段无标点文本

文本的口语化程度对生成效果的影响比很多人以为的要大。

步骤 5:正式生成

短文本满意后再做长文本。做短剧配音、小说推文等场景可以按角色建多个声音,分别生成。


四、VoxCPM2、IndexTTS2、Qwen3-TTS 横向对比

2026 年开源 TTS 模型竞争非常激烈,这三个是目前关注度最高的。

4.1 基本信息

维度 VoxCPM2 IndexTTS2 Qwen3-TTS
发布方 OpenBMB(面壁智能) Bilibili(B 站) 阿里云 Qwen 团队
发布时间 2026.04 2025.09(2.5 版本 2026.01) 2026.01
参数量 2B 1.5B 1.7B / 0.6B
训练数据 200 万+ 小时 10 万小时(4 语种) 500 万+ 小时
技术路线 Tokenizer-Free 扩散自回归 自回归 + 离散 token(T2S + S2M) 离散多码本语言模型(端到端)
骨干模型 MiniCPM-4 GPT-2 架构 + Conformer Qwen 系列
开源协议 Apache-2.0 Apache-2.0 Apache-2.0

4.2 能力对比

能力 VoxCPM2 IndexTTS2 Qwen3-TTS
声音克隆 可控克隆 + 极致克隆 零样本(5 秒参考音频) 零样本(3 秒参考音频)
Voice Design
情绪控制 文字指令控制 音色与情绪解耦 + 情感参考音频 自然语言指令控制
时长控制 未特别强调 ✅ 核心特色,精确控制合成时长 未特别强调
多语种 30 种语言 + 9 种中文方言 4 语种(中英日西) 10 种语言
流式推理 RTF ~0.3 支持 首包延迟 97ms
SFT / LoRA 微调
采样率 48kHz 24kHz 24kHz

4.3 各自的核心差异

VoxCPM2 的独特之处在于 Tokenizer-Free 架构和多语种覆盖面。30 种语言 + 9 种中文方言是三个模型里最广的。48kHz 采样率在音频质量上天花板更高。Voice Design + 可控克隆意味着你既可以用文字"创造"声音,也可以克隆的同时微调风格。

IndexTTS2 的独特之处在于时长控制——这是目前自回归 TTS 模型里少有的能精确控制合成时长的方案,对需要语音和画面精确对齐的短剧配音场景很有价值。音色与情绪解耦也值得关注,支持分别指定音色参考和情感参考。

Qwen3-TTS 的独特之处在于训练数据量(500 万+ 小时)和超低首包延迟(97ms)。双轨流式架构对实时对话、直播互动等低延迟场景很适合。Qwen 生态后续和大模型集成也会更自然。

4.4 怎么选

  • 需要多语种覆盖和 Voice Design → VoxCPM2
  • 做短剧配音、需要语音和画面精确对齐 → IndexTTS2
  • 关注超低延迟的实时场景(直播、对话) → Qwen3-TTS
  • 想对比效果 → 建议用同一段参考音频分别在三个模型上生成,实际试听比看参数表靠谱

五、常见问题

Q:VoxCPM2 声音克隆需要多长参考音频? 建议 10 秒以上清晰单人语音。参考音频越干净,克隆效果越好。

Q:VoxCPM2 支持商用吗? 模型本身 Apache-2.0 协议,允许商用。但商用时需确保声音来源有合法授权。

Q:在线体验和本地部署效果一样吗? 理论上同一个模型,但推理参数配置可能有差异,实际效果可能略有不同。

Q:本地部署难吗? 有 NVIDIA GPU(显存 ≥ 8GB)、熟悉 Python 和 CUDA 的话,pip install voxcpm 几行代码就能跑。不熟悉的话建议先用在线版测试效果。

Q:VoxCPM2 和 IndexTTS2 怎么选? 技术路线不同,各有特点。建议用同一段参考音频和文本分别生成,实际试听对比。


六、相关资源


本文基于 VoxCPM2 GitHub 仓库公开信息整理,技术数据以官方发布为准。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐