语音合成技术发展简史：从拼接合成到神经网络 TTS

chenying998179

60人浏览 · 2026-05-27 18:50:43

chenying998179 · 2026-05-27 18:50:43 发布

本文是「语音合成技术系列」第一篇，梳理语音合成技术从早期到现在的演进脉络。

前言

语音合成（Text-to-Speech，TTS）是让机器开口说话的技术。这件事听起来简单，实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。

从上世纪五十年代第一台能发出声音的机器，到今天用几秒参考音频就能克隆任何人声音的系统，TTS 技术经历了漫长的演进。这篇文章按时间线梳理这段历史，重点放在每个阶段的核心思路和局限性。

一、早期探索：规则驱动（1950s–1980s）

1.1 从物理模拟开始

最早的语音合成尝试来自对人类发声机制的物理模拟。人类发音本质上是气流经过声带、口腔、鼻腔等共鸣腔的振动过程。早期研究者试图用电路来模拟这套物理系统。

1939 年，贝尔实验室的 Homer Dudley 发明了 Vocoder（声码器），能够分析和重新合成人声，这是语音合成领域最早的里程碑之一。

1.2 共振峰合成

1950–1980 年代，主流方案是共振峰合成（Formant Synthesis）。

人声的音色由共振峰决定——声道在特定频率上形成的共鸣峰值。共振峰合成的思路是：用数学模型模拟声道的共振特性，通过控制共振峰的频率和带宽来生成语音。

代表系统：

PAT（1958，英国）
MITalk（1970s，MIT）
DECtalk（1984，DEC）—— 著名物理学家霍金使用的正是基于这类技术的语音合成器

优点： 计算量小，可在低端硬件上运行，参数可精确控制。

缺点： 音质机械感强，听起来明显不像真人，参数调整需要大量语言学专家经验。

二、拼接合成：用真实录音拼出语音（1980s–2000s）

2.1 基本思路

共振峰合成的瓶颈在于音质——毕竟是数学模型模拟出来的，不是真实人声。研究者很快想到：既然模拟不够真实，为什么不直接用真实录音？

拼接合成（Concatenative Synthesis）的核心思路是：

让配音演员录制大量语音片段，覆盖各种音节、音素组合
建立一个庞大的语音片段数据库
合成时，从数据库中搜索并拼接合适的片段

2.2 单元选取合成

拼接合成发展到顶峰是单元选取合成（Unit Selection Synthesis），代表系统是卡内基梅隆大学的 Festival 和贝尔实验室的系统。

核心改进是用搜索算法自动选取最合适的语音片段，同时优化两个目标：

目标代价：选出的片段和目标音素尽量匹配
拼接代价：相邻片段之间的过渡尽量自然

2.3 统计参数合成（HMM-TTS）

2000 年代，基于隐马尔可夫模型的统计参数合成（HMM-TTS）成为主流，代表系统是日本名古屋工业大学开发的 HTS。

思路转变：不再存储和拼接真实录音片段，而是用统计模型学习语音的参数分布，合成时从模型中生成参数，再用声码器还原波形。

优点： 数据量需求大幅下降，可以灵活控制语速、音调、说话风格。

缺点： 音质比单元选取合成更差，过度平滑导致语音听起来模糊，缺乏自然度。

三、深度学习时代的开端（2016–2018）

3.1 WaveNet：一切改变的起点

2016 年，DeepMind 发布了 WaveNet，这是 TTS 领域的分水岭。

WaveNet 是一个自回归波形生成模型——直接在原始音频波形的层面建模，逐个采样点生成音频。它用因果卷积捕捉长距离依赖，生成的音频质量远超此前所有方案，听起来几乎和真人无异。

问题： 自回归意味着必须逐个采样点顺序生成，24kHz 的音频每秒有 24000 个采样点。WaveNet 原版推理极慢，完全无法实用。

此后研究者花了大量精力解决 WaveNet 的推理速度问题，衍生出 Parallel WaveNet、WaveRNN、WaveGlow 等方案。

3.2 Tacotron：端到端的第一步

2017 年，Google 发布 Tacotron，2018 年发布 Tacotron 2。

Tacotron 的思路是端到端：输入文本，直接输出梅尔频谱图（Mel Spectrogram），再用神经声码器（如 WaveNet）转换为波形。

整个流程只需要文本和对应录音的配对数据，不再需要手工标注音素、声调等语言学特征。

Tacotron 2 + WaveNet 的组合在当时的音质评测中创下新高，接近人类水平。

局限： 推理速度仍然是问题，Tacotron 的注意力机制在长句子上容易失稳，偶尔会跳词或重复。

四、并行生成与工程落地（2019–2021）

4.1 FastSpeech：速度优先

Tacotron 系列的瓶颈是自回归——必须逐帧顺序生成梅尔频谱，无法并行。

2019 年，微软发布 FastSpeech，2020 年发布 FastSpeech 2。

核心改进：非自回归并行生成。用显式的时长预测器（Duration Predictor）预测每个音素对应几帧频谱，然后一次性并行生成所有帧，推理速度提升数十倍。

代价是音质略低于 Tacotron，以及需要对齐标注数据（后来的改进版本解决了这个问题）。

FastSpeech 2 是工程落地最广泛的 TTS 架构之一，直到今天仍有大量生产系统在使用。

4.2 VITS：端到端的完善

2021 年，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）将声学模型和声码器合并为一个端到端模型，同时引入变分推断和对抗训练。

VITS 在音质和推理速度之间取得了很好的平衡，成为此后大量开源 TTS 项目的基础架构。

五、扩散模型与零样本克隆（2022 至今）

5.1 扩散模型进入 TTS

2022 年前后，扩散模型（Diffusion Model）在图像生成领域大放异彩，随即被引入 TTS。

扩散模型的核心思路：在数据上逐步加噪，然后训练模型学习逆向去噪过程。相比 GAN，扩散模型训练更稳定，生成质量更高。

代表工作：

Grad-TTS（2021）
DiffSpeech（2022）
NaturalSpeech 2（2023，微软）

扩散模型带来了音质的显著提升，尤其是自然度和情感表达方面。

新的瓶颈： 扩散模型需要多步迭代去噪，推理速度比 FastSpeech 慢得多，成为新的工程挑战。

5.2 零样本语音克隆

这一阶段最重要的突破之一是零样本语音克隆（Zero-shot Voice Cloning）——只需要几秒参考音频，不需要任何微调，就能合成目标说话人的声音。

技术路径通常是：提取参考音频的说话人特征（speaker embedding），注入到 TTS 模型的生成过程中，引导输出向目标音色靠拢。

代表工作：

YourTTS（2022）
Vall-E（2023，微软）—— 用 3 秒音频实现高度相似的零样本克隆
Seed-TTS（2024，字节跳动）
CosyVoice 2（2024，阿里）

5.3 大语言模型与 TTS 的结合

2023 年起，部分研究开始将大语言模型（LLM）引入 TTS，把语音生成建模为语言模型的序列预测问题。

代表方向：

用 LLM 生成语音 token，再用声码器解码
将情感、风格、说话方式等信息通过自然语言指令控制

这个方向目前仍在快速发展中，情感可控性和跨语言能力是主要研究焦点。

六、各阶段对比总结

时代	代表技术	音质	推理速度	数据需求	克隆能力
规则驱动	共振峰合成	差	快	无	无
拼接合成	单元选取	中等	中等	大量录音	无
统计参数	HMM-TTS	较差	中等	中等	无
深度学习初期	Tacotron / WaveNet	好	慢	中等	无
并行生成	FastSpeech / VITS	好	快	中等	有限
扩散模型	NaturalSpeech / Seed-TTS	极好	慢	中等	零样本
LLM+TTS	Vall-E / CosyVoice	极好	中等	大	零样本

七、小结

语音合成技术的演进，本质上是在音质、推理速度、数据需求、可控性这几个维度上反复权衡的过程。

每一次技术突破都解决了前一代的核心瓶颈，同时带来新的挑战：

拼接合成解决了音质问题，但需要海量录音数据
深度学习解决了数据依赖，但带来了推理速度问题
并行生成解决了速度，但牺牲了部分音质
扩散模型再次提升音质，推理速度又成了新瓶颈
零样本克隆解决了说话人依赖，但计算成本更高

目前这个领域仍在快速发展，推理速度的优化、情感可控性的提升、多语言支持的完善，是当下最活跃的研究方向。

下一篇将介绍当前主流 TTS 架构的技术细节和对比：Tacotron、FastSpeech、VITS、扩散模型，各自的优缺点和适用场景。

系列文章导航

第一篇：语音合成技术发展简史（本文）
第二篇：主流 TTS 架构对比（即将发布）
第三篇：语音克隆是怎么实现的（即将发布）
第四篇：TTS 推理速度为什么这么慢（即将发布）
第五篇：本地部署 TTS 方案横向对比（即将发布）
第六篇：VoxFlash-TTS 部署实践（即将发布）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

# AI 应用架构设计：从百万到亿级用户的扩展之路

随着 AI 应用的爆发式增长，如何设计一套既能支撑海量用户，又能控制运维复杂度的架构，成为每一位技术负责人必须面对的课题。轻量高效型：面向百万级用户，以最低成本快速落地分布式高性能型：面向千万至亿级用户，支撑高并发和海量向量检索无论你的产品处于哪个阶段，都能从中找到适合的架构参考。维度百万级方案千万/亿级方案Redis主从集群（≥12 节点）PostgreSQL主从Citus 分片 / TiDB向

AtomGit开源社区

PyTorch 深度学习框架核心能力与实战评测

深度学习框架选型面临灵活性与稳定性的权衡。本文通过实测分析PyTorch在动态图效率、梯度精度、分布式训练等维度的表现，发现动态图在开发效率与性能损耗间取得较好平衡，多卡训练加速比可达7.2倍。研究验证了PyTorch在显存优化、模型迁移和部署转换方面的能力，其丰富的生态组件和社区支持为从科研到生产提供了全链路解决方案。建议采用"研发用动态，部署转静态"的双模策略，并注意环境配置的兼容性问题，以充