31种语言的端侧TTS,树莓派也能跑,网页、电子书、树莓派,都能本地开口了
一个99兆级别的TTS项目,居然把网页、电子书和树莓派都串起来了。
我一开始看 Supertonic 3,只以为它又是一个“开源TTS模型更新”。但看完 README 里的几个 demo,我觉得它更像是在回答另一个问题:TTS 到底能不能从云端服务,真正长进设备里?
这个问题挺关键。因为很多语音合成项目的 demo 很好听,但你真要把它放进浏览器插件、移动端应用、阅读器、树莓派这种设备里,立刻就会碰到模型太大、部署太重、延迟不稳、平台适配麻烦这些问题。
Supertonic 3 最打动我的地方,不只是“能发声”,而是它把几个现实问题一起往前推了一步:模型只有 99M 级别,走 ONNX Runtime,目标是本地实时合成,还给了非常多平台的示例。

它不是只做一个漂亮音色
很多人聊 TTS,会第一时间问:音色炸不炸?自然不自然?这个当然重要,但我觉得 Supertonic 3 的看点不止在音色。
它更像是把“能不能用起来”放到了很前面。
README 里有几个很直接的演示:树莓派上跑、电子书飞行模式下读内容、Chrome 扩展把网页内容读出来。这些演示的意义是,它不是只在一台强电脑上跑个样片,而是把 TTS 放进更接近真实产品的环境里。
你想一下,如果一个 TTS 引擎能在阅读器里离线读书,能在浏览器里直接读网页,能在树莓派这种小设备上跑起来,它解决的就不只是“生成一段音频”,而是隐私、低延迟、离线可用和端侧部署的问题。
99M 这件事,比看起来更重要
Supertonic 3 是一个 99M 参数级别的开源权重模型。这个数字在大模型语境里不算大,但放在端侧 TTS 里,反而是一个很有价值的信号。
因为端侧项目最怕的不是参数少,而是落地成本高。模型越大,冷启动越慢,内存压力越大,移动端、电纸书、树莓派这类设备越难受。Supertonic 3 选择把体积压下来,再配合 ONNX Runtime 和多平台示例,本质上是在降低开发者把它塞进应用里的门槛。
这也是为什么我会更关注它的 demo,而不是只看一段精修过的音频样例。端侧语音合成真正难的地方,是你能不能稳定地把它放进产品链路里。

平台覆盖很狠
Supertonic 3 给的接入示例非常多,包括 Python、Node.js、Browser、Java、C++、C#、Go、Swift、iOS、Rust、Flutter。
这对于开发者很实在。因为你做一个语音能力,最后往往不是只在一个 Python demo 里跑通就完事了。你可能要塞进网页,要做移动端,要嵌到桌面工具,要放进一个小硬件里。平台示例越齐,真正试错的成本就越低。
尤其是 Browser、iOS、Flutter、Rust 这些方向,说明它不是只服务后端实验环境,而是认真考虑了端侧应用和跨平台应用。
31种语言,但中文还没来
语言支持上,Supertonic 3 覆盖了 31 种语言,包括英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、土耳其语、越南语等。
这里要把边界说清楚:它目前不支持中文。
这个缺点对中文用户来说确实有点遗憾。如果你现在要找一个中文端侧 TTS 主力方案,那 Supertonic 3 不是今天就能直接替你解决问题的项目。
但我仍然觉得它值得单独写,是因为它支持日语。
之前我一直很推 sherpa-onnx。这个项目在端侧语音生态里很强,ASR、TTS、KWS 等方向都很实用。但如果只看端侧 TTS,日语一直是一个明显缺口。Supertonic 3 这次把日语支持补上了,刚好补到了我之前觉得不太舒服的地方。
所以它的价值不是“替代 sherpa-onnx”,而是给端侧多语种 TTS 多了一块很重要的拼图。

它适合什么人
如果你做的是英文、日语、多语言阅读、浏览器插件、移动端应用、树莓派项目、离线朗读工具,Supertonic 3 很值得你去看一眼。
特别是那些不想把用户文本发到云端的场景,本地 TTS 的意义会更大。阅读器、浏览器插件、辅助阅读、离线内容消费,这些都不是炫技场景,而是真实会遇到网络、隐私和延迟限制的场景。
当然,如果你的核心需求是中文,那现在还需要等等。一个项目有明显短板,不影响它有明显亮点。真正值得关注的,是它把端侧 TTS 往“可用、可集成、可跨平台”这个方向推了一步。
我对 Supertonic 3 的判断就是这样:它不完美,但很有产品味。它不是又一个只会在 demo 页面里唱歌的 TTS,而是开始认真回答“声音能不能留在设备里”这个问题。
这件事,比单纯多一个模型,有意思得多。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)