TTS：开源语音合成库，支持1100+语言

fanyuchen120

263人浏览 · 2026-06-06 12:29:29

fanyuchen120 · 2026-06-06 12:29:29 发布

文章目录

TTS：开源语音合成库，支持1100+语言

TTS：开源语音合成库，支持1100+语言

Coqui TTS 是一个开源的文本转语音生成库，目前在 GitHub 上已经获得了 45,470 个 Star。

正文顶部截图

README区域截图

这个项目源自 Mozilla 的 TTS 项目，由 Coqui.ai 团队继续开发和维护。它提供了一整套工具链，覆盖模型训练、微调和语音合成的完整流程。

TTS 内置了超过 1100 种语言的预训练模型，用户可以直接调用生成语音，也可以基于自有数据进行微调。支持的模型架构覆盖了传统 pipeline 和端到端方案，包括 Tacotron、Glow-TTS、VITS 等谱图模型，以及 XTTS、Bark、Tortoise 等端到端模型。

XTTSv2 是该项目的重点功能之一，支持 16 种语言的语音克隆，流式合成的延迟控制在 200 毫秒以内。项目还集成了约 1100 个 Fairseq 模型，进一步扩展了语言覆盖范围。

在声码器方面，TTS 提供了 MelGAN、HiFiGAN、WaveRNN、WaveGrad、ParallelWaveGAN 等多种实现，用户可以在生成速度和音质之间进行权衡选择。

项目同时支持语音转换功能，通过 FreeVC 等模型可以将一段语音的音色迁移到另一段语音上。

TTS 提供了 Python API 和命令行工具两种使用方式。

Python API 的调用方式非常简洁：

import torch
from TTS.api import TTS

device = "cuda" if torch.cuda.is_available() else "cpu"
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)

# 语音合成到文件
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav")