PilotTTS - 情感语音合成利器，支持方言与多情绪控制一键整合包下载

昨日之日2006

391人浏览 · 2026-06-04 16:21:00

昨日之日2006 · 2026-06-04 16:21:00 发布

PilotTTS 是高德（你没看错，就是高德地图）开源的一款基于大语言模型（LLM）的开源语音合成系统（Text-to-Speech，TTS）。它就像一个“聪明语音演员”，能把文字变成自然、富有感情的人声。不同于很多复杂的商业TTS，PilotTTS故意采用简洁模块化设计，全部使用开源组件，通过精心设计的数据处理流程，达到了很强的效果。

主要特点

高相似度与准确性：说话人声音相似度极高（0.862），文字内容准确率也很棒。
情感与表达控制：支持11种情绪（如开心、悲伤、生气、惊讶等）和笑声、呼吸、哭声等自然发音。
方言支持：能处理14种中文方言，还支持普通话转方言。
全开源数据管道：从互联网音频中提炼高质量训练数据，成本低、效果好。

应用领域

智能语音助手
有声书/播客生成
虚拟主播、游戏角色配音
教育工具（方言教学、多语种朗读）
无障碍辅助（为视障人士朗读）
影视后期配音等

使用教程：（建议N卡，显存8G起，支持50系显卡）

包含主程序和模型文件（pretrained_models文件夹），解压主程序后，将模型移动到主程序目录下即可。

支持语音克隆和指令合成两种模式
语音克隆：上传参考音频，输入合成文本
指令合成：上传参考音频，输入合成文本（支持在合成文本中插入副语言标签），支持情感关键词，支持方言（后期版本支持）

情感关键词包括 happy（开心）sad（悲伤）angry（愤怒）surprise（惊讶）fear（恐惧） disgust（厌恶）serious（严肃）concern（关切）blue（忧郁）disdain（轻蔑）neutral（中性/平静）psychology（心理活动）unknown（不指定情感）
副语言标签包括 <|LAUGH|> 笑声 <|BREATH|> 呼吸声 <|COUGH|> 咳嗽 <|CRY|> 哭泣声 <|LAUGH_SPAN|>...<|/LAUGH_SPAN|> 包裹笑声文本