TTS:开源语音合成库,支持1100+语言

Coqui TTS 是一个开源的文本转语音生成库,目前在 GitHub 上已经获得了 45,470 个 Star。

正文顶部截图

README区域截图

这个项目源自 Mozilla 的 TTS 项目,由 Coqui.ai 团队继续开发和维护。它提供了一整套工具链,覆盖模型训练、微调和语音合成的完整流程。

TTS 内置了超过 1100 种语言的预训练模型,用户可以直接调用生成语音,也可以基于自有数据进行微调。支持的模型架构覆盖了传统 pipeline 和端到端方案,包括 Tacotron、Glow-TTS、VITS 等谱图模型,以及 XTTS、Bark、Tortoise 等端到端模型。

XTTSv2 是该项目的重点功能之一,支持 16 种语言的语音克隆,流式合成的延迟控制在 200 毫秒以内。项目还集成了约 1100 个 Fairseq 模型,进一步扩展了语言覆盖范围。

在声码器方面,TTS 提供了 MelGAN、HiFiGAN、WaveRNN、WaveGrad、ParallelWaveGAN 等多种实现,用户可以在生成速度和音质之间进行权衡选择。

项目同时支持语音转换功能,通过 FreeVC 等模型可以将一段语音的音色迁移到另一段语音上。

TTS 提供了 Python API 和命令行工具两种使用方式。

Python API 的调用方式非常简洁:

import torch
from TTS.api import TTS

device = "cuda" if torch.cuda.is_available() else "cpu"
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)

# 语音合成到文件
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav")

对于需要语音克隆的场景,只需提供一段参考音频和目标语言参数即可。

命令行工具同样直接。安装后执行 tts --list_models 查看可用模型,然后通过 --model_name 参数指定模型进行合成。

安装 TTS 最便捷的方式是通过 PyPI:

pip install TTS

如果需要进行开发或模型训练,可以克隆仓库后使用 pip 的 editable 模式安装。项目还提供了 Docker 镜像,适合不想配置本地环境的用户。

TTS 的代码结构清晰,分为模型定义、训练脚本和工具函数等模块。对于训练自定义模型的用户,项目提供了完整的训练日志、TensorBoard 可视化以及数据集分析工具。

整体而言,TTS 是一个功能完整、模型选择丰富的语音合成工具,适合有语音生成和语音克隆需求的开发者使用。

,TTS 是一个功能完整、模型选择丰富的语音合成工具,适合有语音生成和语音克隆需求的开发者使用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐