语音克隆模型架构对比:F5-TTS、Supertonic TTS 与 VoxFlash-TTS
本文从架构设计角度对比三个有代表性的本地可部署语音合成模型,重点分析各自在序列表示、对齐方式、推理速度和适用场景上的差异。
前言
当前开源 TTS 领域涌现出大量可本地部署的方案,但大多数对比文章停留在"效果好不好"的主观描述,缺乏对架构设计差异的分析。
本文选取三个定位各有侧重的模型:
- F5-TTS:Flow Matching + DiT,主打简洁架构和高音质
- Supertonic TTS:极轻量端侧推理,主打速度和跨平台
- VoxFlash-TTS:超压缩潜空间扩散,主打实时推理和零样本克隆
三者在序列表示、对齐策略、推理速度上的选择各不相同,恰好覆盖了当前 TTS 架构设计的几个核心权衡维度。
一、架构概览
1.1 F5-TTS
F5-TTS 由 SWivid 开发,论文标题"A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching",2024 年发布,2025 年发布 v1 改进版,目前 GitHub Stars 14000+。
核心架构:
文本输入
→ 音素序列(pypinyin 转换,中文支持)
→ 与填充 token 拼接到和语音等长(Concat,无显式对齐)
→ Diffusion Transformer(DiT)+ ConvNeXtV2 文本表示精炼
→ Flow Matching 去噪(非自回归)
→ 梅尔频谱(24kHz,约 94 帧/秒)
→ 声码器(Vocos)
→ 音频输出
关键设计选择:
- 序列表示:梅尔频谱,24kHz,约 94 fps,生成 10 秒音频需处理约 940 帧
- 文本对齐:Concat 方式——把音素序列用填充 token 填充到与语音序列等长后拼接,没有显式的时长预测或注意力对齐模块
- 生成框架:Flow Matching,比标准扩散模型训练更稳定,推理步数更少
- 推理策略:Sway Sampling,推理时动态调整采样步长,在质量和速度之间取得更好的平衡
- RTF:论文报告在 NVIDIA RTX 3090 上 NFE=16 时约 0.15;实际使用中因测试条件不同可能有差异
语言支持: 基础模型训练数据为中文和英文,官方支持这两种语言。其他语言(日语、俄语、泰语等)需要使用社区微调的变体版本,不在官方支持范围内。
1.2 Supertonic TTS
Supertonic TTS 由 Supertone Inc. 开发,定位是极致轻量的端侧 TTS。2025 年发布 v2,2026 年 4 月发布 Supertonic 3,支持 31 种语言,参数量约 99M,MIT 授权(代码),模型使用 OpenRAIL-M 授权。
核心架构:
文本输入
→ Token 编码(字符或子词 token)
→ 交叉注意力(Cross-Attention)对齐文本与音频序列
→ 压缩潜空间扩散(少步,2–5 步)
→ ONNX Runtime 推理
→ 音频输出(44.1kHz,16-bit WAV)
关键设计选择:
- 序列表示:两阶段压缩——latent encoder 将 228 维梅尔频谱压缩为 24 维潜向量(序列长度不变);传入 text-to-latent 模块前再对时间轴做进一步压缩(论文称"decouple high-resolution synthesis from low-resolution latent modeling"),具体压缩比未在论文中披露
- 文本对齐:交叉注意力(Cross-Attention)——文本 token 作为 key/value,音频帧通过注意力机制主动查询文本信息
- 模型规模:约 99M 参数,远小于同类 0.7B–2B 级系统,适合端侧部署
- 推理引擎:ONNX Runtime,跨平台,支持 CPU、GPU、WebGPU、移动端
- 极端边缘性能:在 E-ink 电纸书设备上 RTF 约 0.3x,M1 Mac 上实测 167× 实时速度
- 内置文本归一化:直接处理金融表达、电话号码、时间格式等复杂文本,无需预处理
语言支持: 31 种语言,不支持中文,当前预训练以韩语和英语为主。
保真度说明: 在极端轻量化的约束下,音质和克隆保真度相比大模型方案有一定差距,99M 参数的模型规模决定了其上限。适合对速度和跨平台优先、对音质要求相对宽松的场景。
1.3 VoxFlash-TTS
VoxFlash-TTS 的核心设计思路是从根源解决序列长度问题——把音频潜空间帧率压缩到 9Hz,比梅尔频谱(94 fps)压缩约 10 倍,比 EnCodec(75 fps)压缩约 8 倍。
核心架构:
文本输入
→ 音素编码器(ConvNeXtV2)
→ 粗粒度显式对齐
→ 扩散模型去噪(NFE=16)← 注入 speaker embedding
→ VAE 解码器(vae_decode.onnx)
→ 声码器(vocoder.onnx)
→ 24kHz 音频输出
关键设计选择:
- 序列表示:9Hz 超压缩潜空间,生成 10 秒音频仅需处理 90 个潜向量
- 文本对齐:粗粒度显式对齐——预先确定音素到潜向量的映射,复杂度低于 Cross-Attention
- 说话人建模:speaker embedding 注入扩散过程,支持零样本克隆,无需微调
- 推理引擎:四个 ONNX 文件,ONNX Runtime 推理
- 部署方式:Docker 一键启动
语言支持: 中文、英文,支持跨语言克隆。
二、核心维度对比
2.1 序列表示与计算量
三个系统在序列长度上的差异,直接决定了计算量的量级:
| 系统 | 序列表示 | 帧率 | 10s 音频序列长度 |
|---|---|---|---|
| F5-TTS | 梅尔频谱 | ~94 fps | ~940 帧 |
| Supertonic TTS | 24 维连续潜空间(时间轴有压缩) | 低于梅尔频谱(具体比例未披露) | 短于梅尔频谱 |
| VoxFlash-TTS | 超压缩潜空间 | 9 fps | 90 向量 |
Transformer 自注意力复杂度为 O(n²),F5-TTS 处理约 940 帧,VoxFlash-TTS 处理 90 向量,计算量约相差 110 倍。Supertonic TTS 的 text-to-latent 模块在时间轴压缩后的低分辨率潜空间上运行,序列长度低于梅尔频谱,但具体帧率未公开;其速度优势同时来自时间轴压缩、极小参数量(44M)和 ONNX Runtime 优化。
2.2 文本对齐策略
文本对齐是 TTS 系统中最关键的设计之一,三个系统采用了截然不同的方案:
F5-TTS:Concat(无显式对齐)
把音素序列用填充 token 填充到与语音等长后直接拼接,让模型通过 DiT 的自注意力隐式学习对齐关系。
优点:架构极简,无需额外的对齐模块;缺点:模型需要更多数据和容量来学习对齐,长句稳定性依赖模型容量。
Supertonic TTS:Cross-Attention(交叉注意力)
文本 token 作为 key 和 value,音频帧通过注意力机制主动查询对应的文本信息。
优点:对齐灵活,能捕捉复杂的文本-音频对应关系;缺点:计算开销与文本序列长度正相关,但在轻量模型中可控。
VoxFlash-TTS:粗粒度显式对齐
预先确定音素到潜向量的显式映射,不依赖注意力机制。
优点:计算复杂度最低,推理开销可预测;缺点:对齐灵活性不及 Cross-Attention,对节奏变化的表达有一定限制。
2.3 推理速度
| 系统 | RTF(消费级 GPU) | RTF(CPU) | 实时性 |
|---|---|---|---|
| F5-TTS | ~0.15 | 较慢 | GPU 可实时 |
| Supertonic TTS | 极快(GPU 不必须) | 极快(0.3x 极端边缘) | CPU 也可实时 |
| VoxFlash-TTS | 毫秒级 | 不支持(需 CUDA) | GPU 毫秒级 |
三者面向不同的硬件约束:Supertonic 追求无 GPU 可运行;VoxFlash 追求 GPU 上的极致低延迟;F5-TTS 在两者之间。
2.4 零样本克隆能力
| 系统 | 克隆方式 | 参考音频需求 | 跨语言 |
|---|---|---|---|
| F5-TTS | In-context(参考音频作为 prompt) | 3–10 秒 | 支持 |
| Supertonic TTS | 有限(当前版本主要是多说话人预设) | — | 部分支持 |
| VoxFlash-TTS | Speaker embedding 注入 | 3 秒以上 | 支持(中英互克隆) |
F5-TTS 和 VoxFlash-TTS 都支持真正的零样本克隆,Supertonic TTS 当前版本的克隆能力相对有限,以预置说话人风格为主。
2.5 部署与生态
| 系统 | 部署方式 | 硬件要求 | 跨平台 | 中文支持 |
|---|---|---|---|---|
| F5-TTS | pip / conda | GPU 推荐 | Linux/Mac/Win | ✅(中英,其他语言需社区微调版本) |
| Supertonic TTS | pip / Docker / 移动端 SDK | CPU 可用,无需 GPU | 全平台含移动端/浏览器 | ❌ |
| VoxFlash-TTS | Docker | CUDA ≥ 12.3.2 GPU | Linux(Docker) | ✅ |
Supertonic TTS 的跨平台能力最强,支持 Android、iOS、浏览器(WebGPU)、Raspberry Pi 等场景。VoxFlash-TTS 部署最简单但平台约束最严(需要 NVIDIA GPU)。
三、架构设计的核心权衡
三个系统的架构差异,本质上反映了三种不同的设计哲学:
F5-TTS:以简洁换质量
去掉时长模型、音素对齐、独立文本编码器,用 Concat 拼接让模型自己学对齐。架构极简,但对模型容量和训练数据量要求更高,换来的是较高的音质上限和良好的多语言泛化能力。
Supertonic TTS:多维度轻量化
两阶段压缩:latent encoder 将 228 维梅尔频谱降到 24 维(维度压缩),再对时间轴做进一步压缩后传入 text-to-latent 模块(低分辨率潜建模)。配合 44M 极小参数量和 ONNX Runtime 推理优化,实现了 CPU 上的实时推理。代价是音质和克隆保真度受参数量限制。
VoxFlash-TTS:以压缩换延迟
从序列长度的根源入手,9Hz 潜空间把计算量压缩到数量级更低的水平,在保持零样本克隆能力的前提下实现毫秒级推理。代价是需要 NVIDIA GPU,且极端压缩带来一定音质损失。
四、选型参考
| 场景 | 推荐方案 | 原因 |
|---|---|---|
| 实时对话,延迟极敏感,有 GPU | VoxFlash-TTS | 毫秒级推理,零样本克隆 |
| 高音质中文克隆,GPU 可用 | F5-TTS | 音质优秀,中文支持完善 |
| 无 GPU,跨平台,英文为主 | Supertonic TTS | CPU 可运行,全平台支持 |
| 移动端、浏览器端部署 | Supertonic TTS | 唯一支持移动端的方案 |
| 中英文双语零样本克隆 | F5-TTS 或 VoxFlash-TTS | 两者均原生支持中英文,按速度/音质取舍 |
五、小结
F5-TTS、Supertonic TTS 与 VoxFlash-TTS 分别代表了当前 TTS 架构在不同维度上的探索:
- F5-TTS 用 Flow Matching + DiT 的简洁架构在音质和多语言支持上取得了很好的平衡,约 94fps 的梅尔频谱表示是其计算瓶颈所在
- Supertonic TTS 用 99M 参数的极轻量模型实现了 CPU 实时推理和全平台部署,代价是音质上限和中文支持的缺失
- VoxFlash-TTS 从序列长度入手,9Hz 超压缩潜空间把推理计算量压到数量级更低的水平,以一定音质损失换取了 GPU 上的毫秒级延迟
三者没有绝对优劣,选择哪个取决于实际场景对延迟、音质、硬件、语言的具体要求。
参考资料
-
F5-TTS 论文:arxiv.org/abs/2410.06885
-
Supertonic TTS 论文:arxiv.org/abs/2503.23108
-
VoxFlash-TTS GitHub:github.com/VoxFlash/VoxFlashTTS
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)