supertonic !这个韩国团队把AI语音塞进你的电脑,不联网也能用
·
github地址:https://huggingface.co/spaces/Supertone/supertonic-3

Supertonic 项目 README 总结
仓库:supertone-inc/supertonic
一句话:基于 ONNX 的本地、多语言、极速 TTS,无需云端 API。(支持声音与克隆、 自然文本处理、简单部署、多语言 / 平台支持)
1. 项目定位
| 维度 | 说明 |
|---|---|
| 运行方式 | 完全本地推理,无网络依赖 |
| 推理引擎 | ONNX Runtime(浏览器支持 WebGPU/WASM) |
| 最新版本 | Supertonic 3(约 99M 参数) |
| 许可证 | 示例代码 MIT;模型 OpenRAIL-M |
2. 核心亮点
- 极快:桌面 / 浏览器 / 手机 / 边缘设备均可实时合成;整页网页转语音可在约 1 秒内完成
- 31 种语言:指定语言码,或使用
lang="na"做语言无关处理 - 轻量:约 99M 参数,远小于常见 0.7B–2B 级开源 TTS
- 边缘友好:树莓派、e-reader 等可运行,不强制 GPU
- 音质:直接输出 44.1kHz、16-bit WAV
- 表情标签:10 个内联标签(如
<laugh>、<breath>、<sigh>),无需参考音频 - 多平台 SDK:Python、Node.js、Browser、Java、C++、C#、Go、Swift、iOS、Rust、Flutter
3. 支持语言(31)
| 语言 | 代码 | 语言 | 代码 |
|---|---|---|---|
| 阿拉伯语 | ar |
保加利亚语 | bg |
| 克罗地亚语 | hr |
捷克语 | cs |
| 丹麦语 | da |
荷兰语 | nl |
| 英语 | en |
爱沙尼亚语 | et |
| 芬兰语 | fi |
法语 | fr |
| 德语 | de |
希腊语 | el |
| 印地语 | hi |
匈牙利语 | hu |
| 印尼语 | id |
意大利语 | it |
| 日语 | ja |
韩语 | ko |
| 拉脱维亚语 | lv |
立陶宛语 | lt |
| 波兰语 | pl |
葡萄牙语 | pt |
| 罗马尼亚语 | ro |
俄语 | ru |
| 斯洛伐克语 | sk |
斯洛文尼亚语 | sl |
| 西班牙语 | es |
瑞典语 | sv |
| 土耳其语 | tr |
乌克兰语 | uk |
| 越南语 | vi |
不确定文本语言时,使用
lang="na"即可。
4. 快速上手
4.1 Python(推荐)
pip install supertonic
from supertonic import TTS
# 首次运行会从 Hugging Face 自动下载模型
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "Supertonic is a lightning fast, on-device TTS system."
wav, duration = tts.synthesize(
text=text,
lang="en", # 语言代码,如 "en"、"ko",或 "na" 表示语言无关
voice_style=style, # 音色风格对象
total_steps=8, # 质量:5(低)~ 12(高),默认 8
speed=1.05, # 语速:0.7(慢)~ 2.0(快)
)
tts.save_audio(wav, "output.wav")
print(f"Generated {duration[0]:.2f}s of audio")
4.2 本地 HTTP 服务(Python SDK v1.3.1+)
pip install 'supertonic[serve]'
supertonic serve --host 127.0.0.1 --port 7788
| 端点 | 说明 |
|---|---|
POST /v1/tts |
原生接口 |
POST /v1/audio/speech |
OpenAI 兼容接口 |
http://127.0.0.1:7788/docs |
交互式 OpenAPI 文档 |
4.3 从仓库运行
git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
# 需要 Git LFS
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets
cd py
uv sync
uv run example_onnx.py
5. 技术细节
- 运行时:ONNX Runtime(跨平台)
- 浏览器:onnxruntime-web(客户端推理)
- 批处理:支持 batch inference
- 输出格式:44.1kHz 16-bit WAV
6. 版本对比
| 版本 | 参数量 | 语言数 | 表情标签 | 状态 | 权重 |
|---|---|---|---|---|---|
| Supertonic 3 | ~99M | 31 | ✅ 10 个 | 🟢 最新 | HF: supertonic-3 |
| Supertonic 2 | ~66M | 5 | — | 稳定 | HF: supertonic-2 |
| Supertonic 1 | ~66M | 1 (en) | — | 遗留 | HF: supertonic |
相对 v2 的改进:
- 重复 / 跳读失败更少
- 说话人相似度提升
- 语言从 5 种扩展到 31 种
- ONNX 接口与 v2 兼容,便于迁移
7. 性能要点
- 朗读准确度:在 Minimax-MLS-test 基准上,与 VoxCPM2 等更大模型相比仍具竞争力
- 资源占用:CPU 即可较快推理,内存明显低于 GPU 大模型方案
- 模型体积:约 99M 参数,下载更小、冷启动更快、内存占用更低
8. 声音与克隆
| 能力 | 说明 |
|---|---|
| 仓库内置 | 固定音色本地 TTS,无官方克隆管线 |
| 自定义音色 | 通过 Voice Builder 从短录音生成 Supertonic 2/3 的 JSON 配置 |
| 托管服务 | Supertone Play / API(700+ 商用预设音色) |
9. 自然文本处理
对以下复杂文本,README 声称无需 phoneme 预处理即可正确朗读:
| 类别 | 示例 | 挑战 |
|---|---|---|
| 金融表达 | $5.2M、$450K |
小数、缩写单位、货币符号 |
| 电话号码 | (212) 555-0142 ext. 402 |
区号、连字符、分机缩写 |
| 技术单位 | 2.3h、30kph |
小数 + 缩写单位 |
10. 多语言 / 平台支持
| 语言 / 平台 | 路径 | 说明 |
|---|---|---|
| Python | py/ |
ONNX Runtime 推理 |
| Node.js | nodejs/ |
服务端 JavaScript |
| Browser | web/ |
WebGPU / WASM 推理 |
| Java | java/ |
跨平台 JVM |
| C++ | cpp/ |
高性能 C++ |
| C# | csharp/ |
.NET 生态 |
| Go | go/ |
Go 实现 |
| Swift | swift/ |
macOS 应用 |
| iOS | ios/ |
原生 iOS |
| Rust | rust/ |
内存安全系统语言 |
| Flutter | flutter/ |
跨平台应用 |
11. 相关链接
| 资源 | 链接 |
|---|---|
| GitHub 仓库 | https://github.com/supertone-inc/supertonic |
| Hugging Face 模型 | https://huggingface.co/Supertone/supertonic-3 |
| 在线 Demo | https://huggingface.co/spaces/Supertone/supertonic-3 |
| 音频样例 | https://supertonic3.github.io/ |
| Voice Builder | https://voicebuilder.supertonic.ai/ |
| PyPI 包 | pip install supertonic |
| Python 文档 | https://supertone-inc.github.io/supertonic-py/ |
12. 近期更新(README 摘录)
| 日期 | 更新 |
|---|---|
| 2026.05.18 | Python SDK v1.3.1 新增 supertonic serve 本地 HTTP 服务 |
| 2026.05.18 | Voice Builder 支持 Supertonic 3 |
| 2026.04.29 | Supertonic 3 发布:31 语言、准确度与稳定性提升 |
| 2026.01.22 | Voice Builder 上线 |
| 2026.01.06 | Supertonic 2 发布(5 语言) |
| 2025.12.10 | PyPI 包 supertonic 上线;新增 6 种音色 |
| 2025.11.24 | 新增 Flutter SDK |
13. 许可证
| 内容 | 许可证 |
|---|---|
| 示例代码 | MIT |
| 模型权重 | OpenRAIL-M |
| 训练框架 PyTorch | BSD 3-Clause(未随项目分发) |
14. 学术引用
- SupertonicTTS 主架构:arXiv:2503.23108
- Length-Aware RoPE(LARoPE):arXiv:2509.11084
- Self-Purifying Flow Matching:arXiv:2509.19091
文档整理自 supertonic README,截至 2026-05。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)