本文是「语音合成技术系列」第二篇,深入对比当前主流 TTS 架构的设计思路、优缺点和适用场景。


前言

上一篇梳理了语音合成技术从共振峰合成到神经网络 TTS 的演进历史。这一篇聚焦当下:深度学习时代的主流架构具体是怎么工作的,各自解决了什么问题,又留下了什么新问题。

现代 TTS 系统通常由两部分组成:

文本 → [声学模型] → 中间表示(梅尔频谱) → [声码器] → 波形

声学模型负责把文本转换成音频的中间表示,声码器负责把中间表示还原成可播放的波形。不同架构的核心差异主要在声学模型部分。


一、Tacotron 系列:端到端的开创者

1.1 Tacotron 的核心思路

Tacotron(2017)和 Tacotron 2(2018)是 Google 提出的端到端 TTS 架构,核心贡献是把文本到梅尔频谱的转换变成一个序列到序列(Seq2Seq)的学习问题。

架构组成:

文本
  → 字符/音素编码器(Encoder)
  → 注意力机制(Attention)  ← 对齐文本和音频
  → 自回归解码器(Decoder)  → 逐帧生成梅尔频谱
  → 声码器(WaveNet / Griffin-Lim)
  → 波形

注意力机制是 Tacotron 的关键——它让模型自动学习文本和音频之间的对齐关系,不需要手工标注每个音素对应哪几帧音频。

1.2 Tacotron 2 的改进

Tacotron 2 在原版基础上做了几处改进:

  • 编码器改用卷积 + BiLSTM,特征提取更稳定
  • 注意力机制改用 Location-Sensitive Attention,减少跳词和重复
  • 声码器换用 WaveNet,音质大幅提升

Tacotron 2 + WaveNet 的组合在 2018 年的 MOS 评测中接近人类水平,引发了广泛关注。

1.3 局限性

  • 推理慢:自回归解码,必须逐帧顺序生成,无法并行
  • 注意力不稳定:长句子容易出现跳词、重复、提前结束等问题
  • WaveNet 慢:早期 WaveNet 推理极慢,实用性差

二、FastSpeech 系列:速度优先的并行方案

2.1 FastSpeech 的核心改进

FastSpeech(2019)和 FastSpeech 2(2020)是微软提出的非自回归 TTS 架构,核心思路是用显式时长建模替代 Tacotron 的注意力对齐,实现并行生成。

架构组成:

文本
  → 音素编码器(Feed-Forward Transformer)
  → 时长预测器(Duration Predictor)→ 每个音素展开对应帧数
  → 长度调节器(Length Regulator)  → 对齐音素和帧序列
  → 梅尔频谱解码器(Feed-Forward Transformer)
  → 梅尔频谱(并行输出,非自回归)
  → 声码器
  → 波形

关键点:时长预测器预测每个音素对应几帧梅尔频谱,长度调节器把音素序列展开到对应长度,然后解码器一次性并行生成所有帧。

2.2 FastSpeech 2 的进一步改进

FastSpeech 2 在时长之外,增加了**音调(Pitch)和能量(Energy)**的显式预测,让音色更自然,同时可以精确控制语速、音调。

训练时长标注问题: FastSpeech 需要音素级别的时长对齐标注,FastSpeech 2 用 Montreal Forced Aligner(MFA)自动生成对齐数据,降低了数据准备门槛。

2.3 优缺点

优点:

  • 推理速度比 Tacotron 快 30–50 倍
  • 没有注意力不稳定问题,长句子表现更稳定
  • 可精确控制语速、音调、能量

缺点:

  • 音质略低于 Tacotron 2,梅尔频谱过度平滑
  • 仍然依赖声码器(HiFi-GAN 等),两阶段流水线
  • 表达自然度不如自回归模型

2.4 适用场景

对推理速度有要求、长文本合成稳定性优先、需要精确控制语速音调的场景。工业界大量生产系统仍在使用 FastSpeech 2。


三、VITS:端到端的集大成者

3.1 VITS 的设计思路

VITS(2021,韩国科学技术院)全称 Variational Inference with adversarial learning for end-to-end Text-to-Speech,把声学模型和声码器合并成一个端到端模型,同时引入变分推断和对抗训练。

架构组成:

文本(音素)
  → 后验编码器(Posterior Encoder)← 训练时用真实音频
  → 随机时长预测器(Stochastic Duration Predictor)
  → 正则化流(Normalizing Flow)
  → 解码器(HiFi-GAN based)
  → 波形(直接输出,不经过梅尔频谱)

3.2 关键创新

变分推断(VAE): 引入隐变量 z,用变分下界(ELBO)训练,让模型能捕捉语音中的随机性(同一句话每次说出来略有不同)。

随机时长预测器: 不是预测固定时长,而是对时长建模为概率分布,生成更自然的节奏变化。

对抗训练(GAN): 引入判别器(Discriminator)直接优化感知音质,避免梅尔频谱的过度平滑问题。

端到端: 去掉了梅尔频谱这个中间表示,声学模型和声码器联合训练,减少了两阶段流水线的误差积累。

3.3 优缺点

优点:

  • 端到端,音质高,自然度好
  • 随机时长预测让语音节奏更自然
  • 推理速度比 Tacotron 快,比扩散模型快
  • 开源实现完善,社区活跃

缺点:

  • 训练复杂度较高,VAE + GAN 的联合训练需要调参经验
  • 零样本克隆能力有限,需要针对每个说话人训练
  • 情感和风格控制不如后来的扩散模型方案

3.4 适用场景

音质和速度平衡要求高、已知说话人集合固定、需要多说话人支持的场景。VITS 是目前开源 TTS 项目中使用最广泛的基础架构之一,Bert-VITS2、GPT-SoVITS 等流行项目均基于此演化而来。


四、扩散模型:音质的新上限

4.1 扩散模型的基本原理

扩散模型(Diffusion Model)来自图像生成领域,2022 年前后被引入 TTS。

基本思路分两步:

前向过程(加噪): 对真实数据逐步添加高斯噪声,经过 T 步后变成纯噪声。

逆向过程(去噪): 训练神经网络学习逐步去除噪声,从纯噪声恢复数据。

推理时,从随机噪声出发,经过 T 步去噪,生成目标数据。

4.2 TTS 中的扩散模型

应用到 TTS 中,扩散模型可以在梅尔频谱空间或潜空间上进行扩散:

代表架构:

Grad-TTS(2021): 在梅尔频谱上应用扩散,把文本编码作为去噪的条件,是 TTS 扩散模型的早期代表。

DiffSpeech(2022): 改进扩散调度策略,提升生成速度和质量。

NaturalSpeech 2(2023,微软): 在潜空间而非梅尔频谱上进行扩散,引入 RVQ(残差向量量化)编解码器,结合 Diffusion 和 LLM,实现高质量零样本克隆。

Seed-TTS(2024,字节跳动): 大规模扩散模型,在音质、克隆相似度、自然度上达到了接近人类的水平。

4.3 Flow Matching

Flow Matching 是扩散模型的一个变体,用更简单的概率流替代逐步加噪的马尔可夫链,训练更稳定,推理步数更少。

CosyVoice 2(阿里,2024)使用 Flow Matching 作为生成框架,在推理速度和音质上取得了很好的平衡。

4.4 优缺点

优点:

  • 音质和自然度目前最高
  • 零样本克隆能力强,少量参考音频即可
  • 训练稳定,不依赖 GAN 的对抗训练
  • 情感、风格可控性好

缺点:

  • 推理慢:多步去噪是核心瓶颈,步数越多质量越高,但速度越慢
  • 计算资源需求高,通常需要较强的 GPU
  • 序列长度问题:音频 token 密度高时,计算复杂度随序列长度超线性增长

4.5 适用场景

对音质和克隆相似度要求最高、计算资源充足、延迟不敏感的场景。目前商业 TTS 服务(ElevenLabs、字节跳动等)的顶层模型大多基于此类架构。


五、声码器:被忽视的另一半

声码器负责把梅尔频谱转换为波形,对最终音质影响很大,经常被忽视。

声码器 特点 速度
Griffin-Lim 基于信号处理,无需训练 快,但音质差
WaveNet 自回归,音质极好 极慢
WaveRNN WaveNet 的轻量版 中等
WaveGlow 基于 Flow,可并行 较快
MelGAN GAN based,并行
HiFi-GAN GAN based,高质量并行 快,音质好
BigVGAN HiFi-GAN 的扩展版 快,泛化性更好

目前工程实践中 HiFi-GANBigVGAN 是最常用的选择,在速度和音质之间取得了很好的平衡。


六、架构横向对比

架构 生成方式 音质 推理速度 克隆能力 训练难度 代表系统
Tacotron 2 自回归 Google TTS
FastSpeech 2 非自回归 工业界广泛使用
VITS 端到端 VAE+GAN Bert-VITS2、GPT-SoVITS
扩散模型 多步去噪 极好 强(零样本) Seed-TTS、CosyVoice 2

七、如何选择

优先考虑推理速度 → FastSpeech 2 或轻量化扩散模型

优先考虑音质和克隆效果 → 扩散模型(Seed-TTS、CosyVoice 2)

音质和速度平衡 → VITS 系列

本地部署、资源有限 → FastSpeech 2 或专为端侧优化的方案

需要精确控制语速音调 → FastSpeech 2

需要情感和风格控制 → 扩散模型或 LLM+TTS


八、小结

从 Tacotron 到扩散模型,TTS 架构的演进核心是在音质、速度、可控性三者之间不断寻找新的平衡点:

  • Tacotron 解决了端到端学习,但推理太慢
  • FastSpeech 解决了速度,但音质有折扣
  • VITS 用端到端对抗训练提升了音质和速度的平衡
  • 扩散模型把音质推到了新高度,但推理速度成了新瓶颈

推理速度问题是当前最活跃的研究方向之一。下一篇将深入介绍语音克隆的实现原理——零样本克隆是如何做到的,speaker embedding 在其中扮演什么角色。


系列文章导航

  • 第一篇:语音合成技术发展简史
  • 第二篇:主流 TTS 架构对比(本文)
  • 第三篇:语音克隆是怎么实现的(即将发布)
  • 第四篇:TTS 推理速度为什么这么慢(即将发布)
  • 第五篇:本地部署 TTS 方案横向对比(即将发布)
  • 第六篇:VoxFlash-TTS 部署实践(即将发布)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐