语音合成技术发展简史:从拼接合成到神经网络 TTS
本文是「语音合成技术系列」第一篇,梳理语音合成技术从早期到现在的演进脉络。
前言
语音合成(Text-to-Speech,TTS)是让机器开口说话的技术。这件事听起来简单,实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。
从上世纪五十年代第一台能发出声音的机器,到今天用几秒参考音频就能克隆任何人声音的系统,TTS 技术经历了漫长的演进。这篇文章按时间线梳理这段历史,重点放在每个阶段的核心思路和局限性。
一、早期探索:规则驱动(1950s–1980s)
1.1 从物理模拟开始
最早的语音合成尝试来自对人类发声机制的物理模拟。人类发音本质上是气流经过声带、口腔、鼻腔等共鸣腔的振动过程。早期研究者试图用电路来模拟这套物理系统。
1939 年,贝尔实验室的 Homer Dudley 发明了 Vocoder(声码器),能够分析和重新合成人声,这是语音合成领域最早的里程碑之一。
1.2 共振峰合成
1950–1980 年代,主流方案是共振峰合成(Formant Synthesis)。
人声的音色由共振峰决定——声道在特定频率上形成的共鸣峰值。共振峰合成的思路是:用数学模型模拟声道的共振特性,通过控制共振峰的频率和带宽来生成语音。
代表系统:
- PAT(1958,英国)
- MITalk(1970s,MIT)
- DECtalk(1984,DEC)—— 著名物理学家霍金使用的正是基于这类技术的语音合成器
优点: 计算量小,可在低端硬件上运行,参数可精确控制。
缺点: 音质机械感强,听起来明显不像真人,参数调整需要大量语言学专家经验。
二、拼接合成:用真实录音拼出语音(1980s–2000s)
2.1 基本思路
共振峰合成的瓶颈在于音质——毕竟是数学模型模拟出来的,不是真实人声。研究者很快想到:既然模拟不够真实,为什么不直接用真实录音?
拼接合成(Concatenative Synthesis)的核心思路是:
- 让配音演员录制大量语音片段,覆盖各种音节、音素组合
- 建立一个庞大的语音片段数据库
- 合成时,从数据库中搜索并拼接合适的片段
2.2 单元选取合成
拼接合成发展到顶峰是单元选取合成(Unit Selection Synthesis),代表系统是卡内基梅隆大学的 Festival 和贝尔实验室的系统。
核心改进是用搜索算法自动选取最合适的语音片段,同时优化两个目标:
- 目标代价:选出的片段和目标音素尽量匹配
- 拼接代价:相邻片段之间的过渡尽量自然
2.3 统计参数合成(HMM-TTS)
2000 年代,基于隐马尔可夫模型的统计参数合成(HMM-TTS)成为主流,代表系统是日本名古屋工业大学开发的 HTS。
思路转变:不再存储和拼接真实录音片段,而是用统计模型学习语音的参数分布,合成时从模型中生成参数,再用声码器还原波形。
优点: 数据量需求大幅下降,可以灵活控制语速、音调、说话风格。
缺点: 音质比单元选取合成更差,过度平滑导致语音听起来模糊,缺乏自然度。
三、深度学习时代的开端(2016–2018)
3.1 WaveNet:一切改变的起点
2016 年,DeepMind 发布了 WaveNet,这是 TTS 领域的分水岭。
WaveNet 是一个自回归波形生成模型——直接在原始音频波形的层面建模,逐个采样点生成音频。它用因果卷积捕捉长距离依赖,生成的音频质量远超此前所有方案,听起来几乎和真人无异。
问题: 自回归意味着必须逐个采样点顺序生成,24kHz 的音频每秒有 24000 个采样点。WaveNet 原版推理极慢,完全无法实用。
此后研究者花了大量精力解决 WaveNet 的推理速度问题,衍生出 Parallel WaveNet、WaveRNN、WaveGlow 等方案。
3.2 Tacotron:端到端的第一步
2017 年,Google 发布 Tacotron,2018 年发布 Tacotron 2。
Tacotron 的思路是端到端:输入文本,直接输出梅尔频谱图(Mel Spectrogram),再用神经声码器(如 WaveNet)转换为波形。
整个流程只需要文本和对应录音的配对数据,不再需要手工标注音素、声调等语言学特征。
Tacotron 2 + WaveNet 的组合在当时的音质评测中创下新高,接近人类水平。
局限: 推理速度仍然是问题,Tacotron 的注意力机制在长句子上容易失稳,偶尔会跳词或重复。
四、并行生成与工程落地(2019–2021)
4.1 FastSpeech:速度优先
Tacotron 系列的瓶颈是自回归——必须逐帧顺序生成梅尔频谱,无法并行。
2019 年,微软发布 FastSpeech,2020 年发布 FastSpeech 2。
核心改进:非自回归并行生成。用显式的时长预测器(Duration Predictor)预测每个音素对应几帧频谱,然后一次性并行生成所有帧,推理速度提升数十倍。
代价是音质略低于 Tacotron,以及需要对齐标注数据(后来的改进版本解决了这个问题)。
FastSpeech 2 是工程落地最广泛的 TTS 架构之一,直到今天仍有大量生产系统在使用。
4.2 VITS:端到端的完善
2021 年,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)将声学模型和声码器合并为一个端到端模型,同时引入变分推断和对抗训练。
VITS 在音质和推理速度之间取得了很好的平衡,成为此后大量开源 TTS 项目的基础架构。
五、扩散模型与零样本克隆(2022 至今)
5.1 扩散模型进入 TTS
2022 年前后,扩散模型(Diffusion Model)在图像生成领域大放异彩,随即被引入 TTS。
扩散模型的核心思路:在数据上逐步加噪,然后训练模型学习逆向去噪过程。相比 GAN,扩散模型训练更稳定,生成质量更高。
代表工作:
- Grad-TTS(2021)
- DiffSpeech(2022)
- NaturalSpeech 2(2023,微软)
扩散模型带来了音质的显著提升,尤其是自然度和情感表达方面。
新的瓶颈: 扩散模型需要多步迭代去噪,推理速度比 FastSpeech 慢得多,成为新的工程挑战。
5.2 零样本语音克隆
这一阶段最重要的突破之一是零样本语音克隆(Zero-shot Voice Cloning)——只需要几秒参考音频,不需要任何微调,就能合成目标说话人的声音。
技术路径通常是:提取参考音频的说话人特征(speaker embedding),注入到 TTS 模型的生成过程中,引导输出向目标音色靠拢。
代表工作:
- YourTTS(2022)
- Vall-E(2023,微软)—— 用 3 秒音频实现高度相似的零样本克隆
- Seed-TTS(2024,字节跳动)
- CosyVoice 2(2024,阿里)
5.3 大语言模型与 TTS 的结合
2023 年起,部分研究开始将大语言模型(LLM)引入 TTS,把语音生成建模为语言模型的序列预测问题。
代表方向:
- 用 LLM 生成语音 token,再用声码器解码
- 将情感、风格、说话方式等信息通过自然语言指令控制
这个方向目前仍在快速发展中,情感可控性和跨语言能力是主要研究焦点。
六、各阶段对比总结
| 时代 | 代表技术 | 音质 | 推理速度 | 数据需求 | 克隆能力 |
|---|---|---|---|---|---|
| 规则驱动 | 共振峰合成 | 差 | 快 | 无 | 无 |
| 拼接合成 | 单元选取 | 中等 | 中等 | 大量录音 | 无 |
| 统计参数 | HMM-TTS | 较差 | 中等 | 中等 | 无 |
| 深度学习初期 | Tacotron / WaveNet | 好 | 慢 | 中等 | 无 |
| 并行生成 | FastSpeech / VITS | 好 | 快 | 中等 | 有限 |
| 扩散模型 | NaturalSpeech / Seed-TTS | 极好 | 慢 | 中等 | 零样本 |
| LLM+TTS | Vall-E / CosyVoice | 极好 | 中等 | 大 | 零样本 |
七、小结
语音合成技术的演进,本质上是在音质、推理速度、数据需求、可控性这几个维度上反复权衡的过程。
每一次技术突破都解决了前一代的核心瓶颈,同时带来新的挑战:
- 拼接合成解决了音质问题,但需要海量录音数据
- 深度学习解决了数据依赖,但带来了推理速度问题
- 并行生成解决了速度,但牺牲了部分音质
- 扩散模型再次提升音质,推理速度又成了新瓶颈
- 零样本克隆解决了说话人依赖,但计算成本更高
目前这个领域仍在快速发展,推理速度的优化、情感可控性的提升、多语言支持的完善,是当下最活跃的研究方向。
下一篇将介绍当前主流 TTS 架构的技术细节和对比:Tacotron、FastSpeech、VITS、扩散模型,各自的优缺点和适用场景。
系列文章导航
- 第一篇:语音合成技术发展简史(本文)
- 第二篇:主流 TTS 架构对比(即将发布)
- 第三篇:语音克隆是怎么实现的(即将发布)
- 第四篇:TTS 推理速度为什么这么慢(即将发布)
- 第五篇:本地部署 TTS 方案横向对比(即将发布)
- 第六篇:VoxFlash-TTS 部署实践(即将发布)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)