Dots.tts - 超自然语音合成利器，轻松实现真人级中文/多语配音一键整合包下载

昨日之日2006

392人浏览 · 2026-06-10 15:48:07

昨日之日2006 · 2026-06-10 15:48:07 发布

dots.tts 是一个开源的文本转语音（TTS）AI模型，由 rednote-hilab（小红书）团队开发。简单说，它能把文字变成自然、清晰的人声，而且效果很强。

dots.tts 是目前开源里比较顶尖的“自然声音克隆机”，在多项评分下，dots.tts超越了前几代主流TTS模型，比如IndexTTS2、Qwen3-TTS等，中文/英文词错误率（WER）很低，声音相似度很高、多语言平均相似度最高（83.9）、语音克隆、自然度和情感表达都很强。特别适合想做出高质量、像真人说话的语音产品的开发者或爱好者。

主要特点

全连续、无离散 token：不像很多老模型那样把声音切成“碎片”处理，它全程用连续的音频信号处理，声音更自然、连贯，少了很多“机器味”。
参数 2B（20亿）：基于 Qwen2.5 等大模型架构，结合了语义编码器、LLM（大语言模型）和流匹配（flow-matching）技术。
高音质：支持 48kHz 高采样率，听起来更清晰细腻。
零样本/少样本语音克隆：只需几秒钟的参考音频（甚至不需要对应文字），就能模仿出很像的说话人声音，支持“延续克隆”（带文字参考）和纯音色克隆。
多语言强：在 24 种语言上表现优秀，尤其在中文、英文和粤语等场景领先，开源模型里说话人相似度（SIM）最高。
情感与稳定性好：生成稳定、自然，能表达一定情感，适合复杂句子。

应用领域

语音助手与对话系统：做更自然的 AI 语音交互（支持低延迟流式输出）。
内容创作：有声书、视频配音、播客、短视频自动配音。
个性化语音：游戏角色配音、虚拟主播、个性化语音克隆（比如帮老人“复刻”声音）。
多语言翻译与国际化：跨语言语音合成、语言学习工具。
无障碍辅助：文本朗读、辅助阅读工具。
研究与开发：TTS 研究者可以基于它继续改进或微调。

使用教程：（建议N卡，显存6G起，支持50系显卡）

包含两个版本
迅雷云盘为官方原版，支持单次语音克隆。只需要上传参考音频，输入参考音频文本（可选），输入合成文本内容，生成即可。
百度网盘和夸克网盘为二次开发版，支持单次和批量生成两种模式，支持音色管理。批量支持一次上传多个txt文档批量生成。

下载地址：点此下载

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 模型部署自动化脚本开发

而自动化脚本开发通过代码化、流程化的方式，显著提升了模型部署的效率和可靠性，成为企业实现AI规模化落地的核心工具。例如，使用Docker容器化技术封装模型依赖，结合Kubernetes编排工具，实现跨平台的标准化部署，避免因环境差异导致的运行失败。例如，当模型性能通过验证后，脚本自动将流量切换至新版本，完成零干预升级。例如，利用Terraform管理不同云平台的资源，结合Ansible同步配置，确

AtomGit开源社区

大湾区医疗健康EMBA实测解析与科学选型指南

师资团队国际化程度极高，外籍教师占比约50%，100%博士学历，汇聚哈佛、剑桥、斯坦福、哥伦比亚等全球顶级高校学者，覆盖战略管理、资本运作、市场营销、宏观经济、组织变革等全领域，兼具学术深度与企业实战经验。二是数字化转型，助力传统医疗企业落地AI医疗、智能设备研发等科技升级；依托港科大顶尖的AI、数据科学科研实力，精准匹配当下智慧医疗、医疗数字化转型的行业趋势，同时完善的跨境课程与全球游学体系，完

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、