本文从架构设计角度对比三个有代表性的本地可部署语音合成模型,重点分析各自在序列表示、对齐方式、推理速度和适用场景上的差异。


前言

当前开源 TTS 领域涌现出大量可本地部署的方案,但大多数对比文章停留在"效果好不好"的主观描述,缺乏对架构设计差异的分析。

本文选取三个定位各有侧重的模型:

  • F5-TTS:Flow Matching + DiT,主打简洁架构和高音质
  • Supertonic TTS:极轻量端侧推理,主打速度和跨平台
  • VoxFlash-TTS:超压缩潜空间扩散,主打实时推理和零样本克隆

三者在序列表示、对齐策略、推理速度上的选择各不相同,恰好覆盖了当前 TTS 架构设计的几个核心权衡维度。


一、架构概览

1.1 F5-TTS

F5-TTS 由 SWivid 开发,论文标题"A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching",2024 年发布,2025 年发布 v1 改进版,目前 GitHub Stars 14000+。

核心架构:

文本输入
  → 音素序列(pypinyin 转换,中文支持)
  → 与填充 token 拼接到和语音等长(Concat,无显式对齐)
  → Diffusion Transformer(DiT)+ ConvNeXtV2 文本表示精炼
  → Flow Matching 去噪(非自回归)
  → 梅尔频谱(24kHz,约 94 帧/秒)
  → 声码器(Vocos)
  → 音频输出

关键设计选择:

  • 序列表示:梅尔频谱,24kHz,约 94 fps,生成 10 秒音频需处理约 940 帧
  • 文本对齐:Concat 方式——把音素序列用填充 token 填充到与语音序列等长后拼接,没有显式的时长预测或注意力对齐模块
  • 生成框架:Flow Matching,比标准扩散模型训练更稳定,推理步数更少
  • 推理策略:Sway Sampling,推理时动态调整采样步长,在质量和速度之间取得更好的平衡
  • RTF:论文报告在 NVIDIA RTX 3090 上 NFE=16 时约 0.15;实际使用中因测试条件不同可能有差异

语言支持: 基础模型训练数据为中文和英文,官方支持这两种语言。其他语言(日语、俄语、泰语等)需要使用社区微调的变体版本,不在官方支持范围内。


1.2 Supertonic TTS

Supertonic TTS 由 Supertone Inc. 开发,定位是极致轻量的端侧 TTS。2025 年发布 v2,2026 年 4 月发布 Supertonic 3,支持 31 种语言,参数量约 99M,MIT 授权(代码),模型使用 OpenRAIL-M 授权。

核心架构:

文本输入
  → Token 编码(字符或子词 token)
  → 交叉注意力(Cross-Attention)对齐文本与音频序列
  → 压缩潜空间扩散(少步,2–5 步)
  → ONNX Runtime 推理
  → 音频输出(44.1kHz,16-bit WAV)

关键设计选择:

  • 序列表示:两阶段压缩——latent encoder 将 228 维梅尔频谱压缩为 24 维潜向量(序列长度不变);传入 text-to-latent 模块前再对时间轴做进一步压缩(论文称"decouple high-resolution synthesis from low-resolution latent modeling"),具体压缩比未在论文中披露
  • 文本对齐:交叉注意力(Cross-Attention)——文本 token 作为 key/value,音频帧通过注意力机制主动查询文本信息
  • 模型规模:约 99M 参数,远小于同类 0.7B–2B 级系统,适合端侧部署
  • 推理引擎:ONNX Runtime,跨平台,支持 CPU、GPU、WebGPU、移动端
  • 极端边缘性能:在 E-ink 电纸书设备上 RTF 约 0.3x,M1 Mac 上实测 167× 实时速度
  • 内置文本归一化:直接处理金融表达、电话号码、时间格式等复杂文本,无需预处理

语言支持: 31 种语言,不支持中文,当前预训练以韩语和英语为主。

保真度说明: 在极端轻量化的约束下,音质和克隆保真度相比大模型方案有一定差距,99M 参数的模型规模决定了其上限。适合对速度和跨平台优先、对音质要求相对宽松的场景。


1.3 VoxFlash-TTS

VoxFlash-TTS 的核心设计思路是从根源解决序列长度问题——把音频潜空间帧率压缩到 9Hz,比梅尔频谱(94 fps)压缩约 10 倍,比 EnCodec(75 fps)压缩约 8 倍。

核心架构:

文本输入
  → 音素编码器(ConvNeXtV2)
  → 粗粒度显式对齐
  → 扩散模型去噪(NFE=16)← 注入 speaker embedding
  → VAE 解码器(vae_decode.onnx)
  → 声码器(vocoder.onnx)
  → 24kHz 音频输出

关键设计选择:

  • 序列表示:9Hz 超压缩潜空间,生成 10 秒音频仅需处理 90 个潜向量
  • 文本对齐:粗粒度显式对齐——预先确定音素到潜向量的映射,复杂度低于 Cross-Attention
  • 说话人建模:speaker embedding 注入扩散过程,支持零样本克隆,无需微调
  • 推理引擎:四个 ONNX 文件,ONNX Runtime 推理
  • 部署方式:Docker 一键启动

语言支持: 中文、英文,支持跨语言克隆。


二、核心维度对比

2.1 序列表示与计算量

三个系统在序列长度上的差异,直接决定了计算量的量级:

系统 序列表示 帧率 10s 音频序列长度
F5-TTS 梅尔频谱 ~94 fps ~940 帧
Supertonic TTS 24 维连续潜空间(时间轴有压缩) 低于梅尔频谱(具体比例未披露) 短于梅尔频谱
VoxFlash-TTS 超压缩潜空间 9 fps 90 向量

Transformer 自注意力复杂度为 O(n²),F5-TTS 处理约 940 帧,VoxFlash-TTS 处理 90 向量,计算量约相差 110 倍。Supertonic TTS 的 text-to-latent 模块在时间轴压缩后的低分辨率潜空间上运行,序列长度低于梅尔频谱,但具体帧率未公开;其速度优势同时来自时间轴压缩、极小参数量(44M)和 ONNX Runtime 优化。

2.2 文本对齐策略

文本对齐是 TTS 系统中最关键的设计之一,三个系统采用了截然不同的方案:

F5-TTS:Concat(无显式对齐)

把音素序列用填充 token 填充到与语音等长后直接拼接,让模型通过 DiT 的自注意力隐式学习对齐关系。

优点:架构极简,无需额外的对齐模块;缺点:模型需要更多数据和容量来学习对齐,长句稳定性依赖模型容量。

Supertonic TTS:Cross-Attention(交叉注意力)

文本 token 作为 key 和 value,音频帧通过注意力机制主动查询对应的文本信息。

优点:对齐灵活,能捕捉复杂的文本-音频对应关系;缺点:计算开销与文本序列长度正相关,但在轻量模型中可控。

VoxFlash-TTS:粗粒度显式对齐

预先确定音素到潜向量的显式映射,不依赖注意力机制。

优点:计算复杂度最低,推理开销可预测;缺点:对齐灵活性不及 Cross-Attention,对节奏变化的表达有一定限制。

2.3 推理速度

系统 RTF(消费级 GPU) RTF(CPU) 实时性
F5-TTS ~0.15 较慢 GPU 可实时
Supertonic TTS 极快(GPU 不必须) 极快(0.3x 极端边缘) CPU 也可实时
VoxFlash-TTS 毫秒级 不支持(需 CUDA) GPU 毫秒级

三者面向不同的硬件约束:Supertonic 追求无 GPU 可运行;VoxFlash 追求 GPU 上的极致低延迟;F5-TTS 在两者之间。

2.4 零样本克隆能力

系统 克隆方式 参考音频需求 跨语言
F5-TTS In-context(参考音频作为 prompt) 3–10 秒 支持
Supertonic TTS 有限(当前版本主要是多说话人预设) 部分支持
VoxFlash-TTS Speaker embedding 注入 3 秒以上 支持(中英互克隆)

F5-TTS 和 VoxFlash-TTS 都支持真正的零样本克隆,Supertonic TTS 当前版本的克隆能力相对有限,以预置说话人风格为主。

2.5 部署与生态

系统 部署方式 硬件要求 跨平台 中文支持
F5-TTS pip / conda GPU 推荐 Linux/Mac/Win ✅(中英,其他语言需社区微调版本)
Supertonic TTS pip / Docker / 移动端 SDK CPU 可用,无需 GPU 全平台含移动端/浏览器
VoxFlash-TTS Docker CUDA ≥ 12.3.2 GPU Linux(Docker)

Supertonic TTS 的跨平台能力最强,支持 Android、iOS、浏览器(WebGPU)、Raspberry Pi 等场景。VoxFlash-TTS 部署最简单但平台约束最严(需要 NVIDIA GPU)。


三、架构设计的核心权衡

三个系统的架构差异,本质上反映了三种不同的设计哲学:

F5-TTS:以简洁换质量

去掉时长模型、音素对齐、独立文本编码器,用 Concat 拼接让模型自己学对齐。架构极简,但对模型容量和训练数据量要求更高,换来的是较高的音质上限和良好的多语言泛化能力。

Supertonic TTS:多维度轻量化

两阶段压缩:latent encoder 将 228 维梅尔频谱降到 24 维(维度压缩),再对时间轴做进一步压缩后传入 text-to-latent 模块(低分辨率潜建模)。配合 44M 极小参数量和 ONNX Runtime 推理优化,实现了 CPU 上的实时推理。代价是音质和克隆保真度受参数量限制。

VoxFlash-TTS:以压缩换延迟

从序列长度的根源入手,9Hz 潜空间把计算量压缩到数量级更低的水平,在保持零样本克隆能力的前提下实现毫秒级推理。代价是需要 NVIDIA GPU,且极端压缩带来一定音质损失。


四、选型参考

场景 推荐方案 原因
实时对话,延迟极敏感,有 GPU VoxFlash-TTS 毫秒级推理,零样本克隆
高音质中文克隆,GPU 可用 F5-TTS 音质优秀,中文支持完善
无 GPU,跨平台,英文为主 Supertonic TTS CPU 可运行,全平台支持
移动端、浏览器端部署 Supertonic TTS 唯一支持移动端的方案
中英文双语零样本克隆 F5-TTS 或 VoxFlash-TTS 两者均原生支持中英文,按速度/音质取舍

五、小结

F5-TTS、Supertonic TTS 与 VoxFlash-TTS 分别代表了当前 TTS 架构在不同维度上的探索:

  • F5-TTS 用 Flow Matching + DiT 的简洁架构在音质和多语言支持上取得了很好的平衡,约 94fps 的梅尔频谱表示是其计算瓶颈所在
  • Supertonic TTS 用 99M 参数的极轻量模型实现了 CPU 实时推理和全平台部署,代价是音质上限和中文支持的缺失
  • VoxFlash-TTS 从序列长度入手,9Hz 超压缩潜空间把推理计算量压到数量级更低的水平,以一定音质损失换取了 GPU 上的毫秒级延迟

三者没有绝对优劣,选择哪个取决于实际场景对延迟、音质、硬件、语言的具体要求。


参考资料

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐