github地址:https://huggingface.co/spaces/Supertone/supertonic-3

在这里插入图片描述

Supertonic 项目 README 总结

仓库:supertone-inc/supertonic
一句话:基于 ONNX 的本地、多语言、极速 TTS,无需云端 API。(支持声音与克隆、 自然文本处理、简单部署、多语言 / 平台支持)


1. 项目定位

维度 说明
运行方式 完全本地推理,无网络依赖
推理引擎 ONNX Runtime(浏览器支持 WebGPU/WASM)
最新版本 Supertonic 3(约 99M 参数)
许可证 示例代码 MIT;模型 OpenRAIL-M

2. 核心亮点

  • 极快:桌面 / 浏览器 / 手机 / 边缘设备均可实时合成;整页网页转语音可在约 1 秒内完成
  • 31 种语言:指定语言码,或使用 lang="na" 做语言无关处理
  • 轻量:约 99M 参数,远小于常见 0.7B–2B 级开源 TTS
  • 边缘友好:树莓派、e-reader 等可运行,不强制 GPU
  • 音质:直接输出 44.1kHz、16-bit WAV
  • 表情标签:10 个内联标签(如 <laugh><breath><sigh>),无需参考音频
  • 多平台 SDK:Python、Node.js、Browser、Java、C++、C#、Go、Swift、iOS、Rust、Flutter

3. 支持语言(31)

语言 代码 语言 代码
阿拉伯语 ar 保加利亚语 bg
克罗地亚语 hr 捷克语 cs
丹麦语 da 荷兰语 nl
英语 en 爱沙尼亚语 et
芬兰语 fi 法语 fr
德语 de 希腊语 el
印地语 hi 匈牙利语 hu
印尼语 id 意大利语 it
日语 ja 韩语 ko
拉脱维亚语 lv 立陶宛语 lt
波兰语 pl 葡萄牙语 pt
罗马尼亚语 ro 俄语 ru
斯洛伐克语 sk 斯洛文尼亚语 sl
西班牙语 es 瑞典语 sv
土耳其语 tr 乌克兰语 uk
越南语 vi

不确定文本语言时,使用 lang="na" 即可。


4. 快速上手

4.1 Python(推荐)

pip install supertonic
from supertonic import TTS

# 首次运行会从 Hugging Face 自动下载模型
tts = TTS(auto_download=True)

style = tts.get_voice_style(voice_name="M1")

text = "Supertonic is a lightning fast, on-device TTS system."

wav, duration = tts.synthesize(
    text=text,
    lang="en",              # 语言代码,如 "en"、"ko",或 "na" 表示语言无关
    voice_style=style,      # 音色风格对象
    total_steps=8,          # 质量:5(低)~ 12(高),默认 8
    speed=1.05,             # 语速:0.7(慢)~ 2.0(快)
)

tts.save_audio(wav, "output.wav")
print(f"Generated {duration[0]:.2f}s of audio")

4.2 本地 HTTP 服务(Python SDK v1.3.1+)

pip install 'supertonic[serve]'
supertonic serve --host 127.0.0.1 --port 7788
端点 说明
POST /v1/tts 原生接口
POST /v1/audio/speech OpenAI 兼容接口
http://127.0.0.1:7788/docs 交互式 OpenAPI 文档

4.3 从仓库运行

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

# 需要 Git LFS
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets

cd py
uv sync
uv run example_onnx.py

5. 技术细节

  • 运行时:ONNX Runtime(跨平台)
  • 浏览器:onnxruntime-web(客户端推理)
  • 批处理:支持 batch inference
  • 输出格式:44.1kHz 16-bit WAV

6. 版本对比

版本 参数量 语言数 表情标签 状态 权重
Supertonic 3 ~99M 31 ✅ 10 个 🟢 最新 HF: supertonic-3
Supertonic 2 ~66M 5 稳定 HF: supertonic-2
Supertonic 1 ~66M 1 (en) 遗留 HF: supertonic

相对 v2 的改进:

  • 重复 / 跳读失败更少
  • 说话人相似度提升
  • 语言从 5 种扩展到 31 种
  • ONNX 接口与 v2 兼容,便于迁移

7. 性能要点

  • 朗读准确度:在 Minimax-MLS-test 基准上,与 VoxCPM2 等更大模型相比仍具竞争力
  • 资源占用:CPU 即可较快推理,内存明显低于 GPU 大模型方案
  • 模型体积:约 99M 参数,下载更小、冷启动更快、内存占用更低

8. 声音与克隆

能力 说明
仓库内置 固定音色本地 TTS,无官方克隆管线
自定义音色 通过 Voice Builder 从短录音生成 Supertonic 2/3 的 JSON 配置
托管服务 Supertone Play / API(700+ 商用预设音色)

9. 自然文本处理

对以下复杂文本,README 声称无需 phoneme 预处理即可正确朗读:

类别 示例 挑战
金融表达 $5.2M$450K 小数、缩写单位、货币符号
电话号码 (212) 555-0142 ext. 402 区号、连字符、分机缩写
技术单位 2.3h30kph 小数 + 缩写单位

10. 多语言 / 平台支持

语言 / 平台 路径 说明
Python py/ ONNX Runtime 推理
Node.js nodejs/ 服务端 JavaScript
Browser web/ WebGPU / WASM 推理
Java java/ 跨平台 JVM
C++ cpp/ 高性能 C++
C# csharp/ .NET 生态
Go go/ Go 实现
Swift swift/ macOS 应用
iOS ios/ 原生 iOS
Rust rust/ 内存安全系统语言
Flutter flutter/ 跨平台应用

11. 相关链接

资源 链接
GitHub 仓库 https://github.com/supertone-inc/supertonic
Hugging Face 模型 https://huggingface.co/Supertone/supertonic-3
在线 Demo https://huggingface.co/spaces/Supertone/supertonic-3
音频样例 https://supertonic3.github.io/
Voice Builder https://voicebuilder.supertonic.ai/
PyPI 包 pip install supertonic
Python 文档 https://supertone-inc.github.io/supertonic-py/

12. 近期更新(README 摘录)

日期 更新
2026.05.18 Python SDK v1.3.1 新增 supertonic serve 本地 HTTP 服务
2026.05.18 Voice Builder 支持 Supertonic 3
2026.04.29 Supertonic 3 发布:31 语言、准确度与稳定性提升
2026.01.22 Voice Builder 上线
2026.01.06 Supertonic 2 发布(5 语言)
2025.12.10 PyPI 包 supertonic 上线;新增 6 种音色
2025.11.24 新增 Flutter SDK

13. 许可证

内容 许可证
示例代码 MIT
模型权重 OpenRAIL-M
训练框架 PyTorch BSD 3-Clause(未随项目分发)

14. 学术引用

  • SupertonicTTS 主架构:arXiv:2503.23108
  • Length-Aware RoPE(LARoPE):arXiv:2509.11084
  • Self-Purifying Flow Matching:arXiv:2509.19091

文档整理自 supertonic README,截至 2026-05。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐