主流 TTS 架构对比：Tacotron、FastSpeech、VITS 与扩散模型

chenying998179

265人浏览 · 2026-05-27 19:05:44

chenying998179 · 2026-05-27 19:05:44 发布

本文是「语音合成技术系列」第二篇，深入对比当前主流 TTS 架构的设计思路、优缺点和适用场景。

前言

上一篇梳理了语音合成技术从共振峰合成到神经网络 TTS 的演进历史。这一篇聚焦当下：深度学习时代的主流架构具体是怎么工作的，各自解决了什么问题，又留下了什么新问题。

现代 TTS 系统通常由两部分组成：

文本 → [声学模型] → 中间表示（梅尔频谱） → [声码器] → 波形

声学模型负责把文本转换成音频的中间表示，声码器负责把中间表示还原成可播放的波形。不同架构的核心差异主要在声学模型部分。

一、Tacotron 系列：端到端的开创者

1.1 Tacotron 的核心思路

Tacotron（2017）和 Tacotron 2（2018）是 Google 提出的端到端 TTS 架构，核心贡献是把文本到梅尔频谱的转换变成一个序列到序列（Seq2Seq）的学习问题。

架构组成：

文本
  → 字符/音素编码器（Encoder）
  → 注意力机制（Attention）  ← 对齐文本和音频
  → 自回归解码器（Decoder）  → 逐帧生成梅尔频谱
  → 声码器（WaveNet / Griffin-Lim）
  → 波形

注意力机制是 Tacotron 的关键——它让模型自动学习文本和音频之间的对齐关系，不需要手工标注每个音素对应哪几帧音频。

1.2 Tacotron 2 的改进

Tacotron 2 在原版基础上做了几处改进：

编码器改用卷积 + BiLSTM，特征提取更稳定
注意力机制改用 Location-Sensitive Attention，减少跳词和重复
声码器换用 WaveNet，音质大幅提升

Tacotron 2 + WaveNet 的组合在 2018 年的 MOS 评测中接近人类水平，引发了广泛关注。

1.3 局限性

推理慢：自回归解码，必须逐帧顺序生成，无法并行
注意力不稳定：长句子容易出现跳词、重复、提前结束等问题
WaveNet 慢：早期 WaveNet 推理极慢，实用性差

二、FastSpeech 系列：速度优先的并行方案

2.1 FastSpeech 的核心改进

FastSpeech（2019）和 FastSpeech 2（2020）是微软提出的非自回归 TTS 架构，核心思路是用显式时长建模替代 Tacotron 的注意力对齐，实现并行生成。

架构组成：

文本
  → 音素编码器（Feed-Forward Transformer）
  → 时长预测器（Duration Predictor）→ 每个音素展开对应帧数
  → 长度调节器（Length Regulator）  → 对齐音素和帧序列
  → 梅尔频谱解码器（Feed-Forward Transformer）
  → 梅尔频谱（并行输出，非自回归）
  → 声码器
  → 波形

关键点：时长预测器预测每个音素对应几帧梅尔频谱，长度调节器把音素序列展开到对应长度，然后解码器一次性并行生成所有帧。

2.2 FastSpeech 2 的进一步改进

FastSpeech 2 在时长之外，增加了**音调（Pitch）和能量（Energy）**的显式预测，让音色更自然，同时可以精确控制语速、音调。

训练时长标注问题： FastSpeech 需要音素级别的时长对齐标注，FastSpeech 2 用 Montreal Forced Aligner（MFA）自动生成对齐数据，降低了数据准备门槛。

2.3 优缺点

优点：

推理速度比 Tacotron 快 30–50 倍
没有注意力不稳定问题，长句子表现更稳定
可精确控制语速、音调、能量

缺点：

音质略低于 Tacotron 2，梅尔频谱过度平滑
仍然依赖声码器（HiFi-GAN 等），两阶段流水线
表达自然度不如自回归模型

2.4 适用场景

对推理速度有要求、长文本合成稳定性优先、需要精确控制语速音调的场景。工业界大量生产系统仍在使用 FastSpeech 2。

三、VITS：端到端的集大成者

3.1 VITS 的设计思路

VITS（2021，韩国科学技术院）全称 Variational Inference with adversarial learning for end-to-end Text-to-Speech，把声学模型和声码器合并成一个端到端模型，同时引入变分推断和对抗训练。

架构组成：

文本（音素）
  → 后验编码器（Posterior Encoder）← 训练时用真实音频
  → 随机时长预测器（Stochastic Duration Predictor）
  → 正则化流（Normalizing Flow）
  → 解码器（HiFi-GAN based）
  → 波形（直接输出，不经过梅尔频谱）

3.2 关键创新

变分推断（VAE）： 引入隐变量 z，用变分下界（ELBO）训练，让模型能捕捉语音中的随机性（同一句话每次说出来略有不同）。

随机时长预测器： 不是预测固定时长，而是对时长建模为概率分布，生成更自然的节奏变化。

对抗训练（GAN）： 引入判别器（Discriminator）直接优化感知音质，避免梅尔频谱的过度平滑问题。

端到端： 去掉了梅尔频谱这个中间表示，声学模型和声码器联合训练，减少了两阶段流水线的误差积累。

3.3 优缺点

优点：

端到端，音质高，自然度好
随机时长预测让语音节奏更自然
推理速度比 Tacotron 快，比扩散模型快
开源实现完善，社区活跃

缺点：

训练复杂度较高，VAE + GAN 的联合训练需要调参经验
零样本克隆能力有限，需要针对每个说话人训练
情感和风格控制不如后来的扩散模型方案

3.4 适用场景

音质和速度平衡要求高、已知说话人集合固定、需要多说话人支持的场景。VITS 是目前开源 TTS 项目中使用最广泛的基础架构之一，Bert-VITS2、GPT-SoVITS 等流行项目均基于此演化而来。

四、扩散模型：音质的新上限

4.1 扩散模型的基本原理

扩散模型（Diffusion Model）来自图像生成领域，2022 年前后被引入 TTS。

基本思路分两步：

前向过程（加噪）： 对真实数据逐步添加高斯噪声，经过 T 步后变成纯噪声。

逆向过程（去噪）： 训练神经网络学习逐步去除噪声，从纯噪声恢复数据。

推理时，从随机噪声出发，经过 T 步去噪，生成目标数据。

4.2 TTS 中的扩散模型

应用到 TTS 中，扩散模型可以在梅尔频谱空间或潜空间上进行扩散：

代表架构：

Grad-TTS（2021）： 在梅尔频谱上应用扩散，把文本编码作为去噪的条件，是 TTS 扩散模型的早期代表。

DiffSpeech（2022）： 改进扩散调度策略，提升生成速度和质量。

NaturalSpeech 2（2023，微软）： 在潜空间而非梅尔频谱上进行扩散，引入 RVQ（残差向量量化）编解码器，结合 Diffusion 和 LLM，实现高质量零样本克隆。

Seed-TTS（2024，字节跳动）： 大规模扩散模型，在音质、克隆相似度、自然度上达到了接近人类的水平。

4.3 Flow Matching

Flow Matching 是扩散模型的一个变体，用更简单的概率流替代逐步加噪的马尔可夫链，训练更稳定，推理步数更少。

CosyVoice 2（阿里，2024）使用 Flow Matching 作为生成框架，在推理速度和音质上取得了很好的平衡。

4.4 优缺点

优点：

音质和自然度目前最高
零样本克隆能力强，少量参考音频即可
训练稳定，不依赖 GAN 的对抗训练
情感、风格可控性好

缺点：

推理慢：多步去噪是核心瓶颈，步数越多质量越高，但速度越慢
计算资源需求高，通常需要较强的 GPU
序列长度问题：音频 token 密度高时，计算复杂度随序列长度超线性增长

4.5 适用场景

对音质和克隆相似度要求最高、计算资源充足、延迟不敏感的场景。目前商业 TTS 服务（ElevenLabs、字节跳动等）的顶层模型大多基于此类架构。

五、声码器：被忽视的另一半

声码器负责把梅尔频谱转换为波形，对最终音质影响很大，经常被忽视。

声码器	特点	速度
Griffin-Lim	基于信号处理，无需训练	快，但音质差
WaveNet	自回归，音质极好	极慢
WaveRNN	WaveNet 的轻量版	中等
WaveGlow	基于 Flow，可并行	较快
MelGAN	GAN based，并行	快
HiFi-GAN	GAN based，高质量并行	快，音质好
BigVGAN	HiFi-GAN 的扩展版	快，泛化性更好

目前工程实践中 HiFi-GAN 和 BigVGAN 是最常用的选择，在速度和音质之间取得了很好的平衡。

六、架构横向对比

架构	生成方式	音质	推理速度	克隆能力	训练难度	代表系统
Tacotron 2	自回归	好	慢	弱	中	Google TTS
FastSpeech 2	非自回归	良	快	弱	低	工业界广泛使用
VITS	端到端 VAE+GAN	好	中	中	高	Bert-VITS2、GPT-SoVITS
扩散模型	多步去噪	极好	慢	强（零样本）	中	Seed-TTS、CosyVoice 2