dots.tts 是一个开源的文本转语音(TTS)AI模型,由 rednote-hilab(小红书) 团队开发。简单说,它能把文字变成自然、清晰的人声,而且效果很强。

dots.tts 是目前开源里比较顶尖的“自然声音克隆机”,在多项评分下,dots.tts超越了前几代主流TTS模型,比如IndexTTS2Qwen3-TTS等,中文/英文词错误率(WER)很低,声音相似度很高、多语言平均相似度最高(83.9)、语音克隆、自然度和情感表达都很强。特别适合想做出高质量、像真人说话的语音产品的开发者或爱好者。



主要特点

全连续、无离散 token:不像很多老模型那样把声音切成“碎片”处理,它全程用连续的音频信号处理,声音更自然、连贯,少了很多“机器味”。
参数 2B(20亿):基于 Qwen2.5 等大模型架构,结合了语义编码器、LLM(大语言模型)和流匹配(flow-matching)技术。
高音质:支持 48kHz 高采样率,听起来更清晰细腻。
零样本/少样本语音克隆:只需几秒钟的参考音频(甚至不需要对应文字),就能模仿出很像的说话人声音,支持“延续克隆”(带文字参考)和纯音色克隆。
多语言强:在 24 种语言上表现优秀,尤其在中文、英文和粤语等场景领先,开源模型里说话人相似度(SIM)最高。
情感与稳定性好:生成稳定、自然,能表达一定情感,适合复杂句子。



应用领域

语音助手与对话系统:做更自然的 AI 语音交互(支持低延迟流式输出)。
内容创作:有声书、视频配音、播客、短视频自动配音。
个性化语音:游戏角色配音、虚拟主播、个性化语音克隆(比如帮老人“复刻”声音)。
多语言翻译与国际化:跨语言语音合成、语言学习工具。
无障碍辅助:文本朗读、辅助阅读工具。
研究与开发:TTS 研究者可以基于它继续改进或微调。




使用教程:(建议N卡,显存6G起,支持50系显卡)

包含两个版本
迅雷云盘为官方原版,支持单次语音克隆。只需要上传参考音频,输入参考音频文本(可选),输入合成文本内容,生成即可。
百度网盘和夸克网盘为二次开发版,支持单次和批量生成两种模式,支持音色管理。批量支持一次上传多个txt文档批量生成。

下载地址:点此下载

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐