supertonic ！这个韩国团队把AI语音塞进你的电脑，不联网也能用

谢白羽

331人浏览 · 2026-05-19 15:28:36

谢白羽 · 2026-05-19 15:28:36 发布

github地址：https://huggingface.co/spaces/Supertone/supertonic-3

在这里插入图片描述

Supertonic 项目 README 总结

仓库：supertone-inc/supertonic
一句话：基于 ONNX 的本地、多语言、极速 TTS，无需云端 API。（支持声音与克隆、自然文本处理、简单部署、多语言 / 平台支持）

1. 项目定位

维度	说明
运行方式	完全本地推理，无网络依赖
推理引擎	ONNX Runtime（浏览器支持 WebGPU/WASM）
最新版本	Supertonic 3（约 99M 参数）
许可证	示例代码 MIT；模型 OpenRAIL-M

2. 核心亮点

极快：桌面 / 浏览器 / 手机 / 边缘设备均可实时合成；整页网页转语音可在约 1 秒内完成
31 种语言：指定语言码，或使用 lang="na" 做语言无关处理
轻量：约 99M 参数，远小于常见 0.7B–2B 级开源 TTS
边缘友好：树莓派、e-reader 等可运行，不强制 GPU
音质：直接输出 44.1kHz、16-bit WAV
表情标签：10 个内联标签（如 <laugh>、<breath>、<sigh>），无需参考音频
多平台 SDK：Python、Node.js、Browser、Java、C++、C#、Go、Swift、iOS、Rust、Flutter

3. 支持语言（31）

语言	代码	语言	代码
阿拉伯语	`ar`	保加利亚语	`bg`
克罗地亚语	`hr`	捷克语	`cs`
丹麦语	`da`	荷兰语	`nl`
英语	`en`	爱沙尼亚语	`et`
芬兰语	`fi`	法语	`fr`
德语	`de`	希腊语	`el`
印地语	`hi`	匈牙利语	`hu`
印尼语	`id`	意大利语	`it`
日语	`ja`	韩语	`ko`
拉脱维亚语	`lv`	立陶宛语	`lt`
波兰语	`pl`	葡萄牙语	`pt`
罗马尼亚语	`ro`	俄语	`ru`
斯洛伐克语	`sk`	斯洛文尼亚语	`sl`
西班牙语	`es`	瑞典语	`sv`
土耳其语	`tr`	乌克兰语	`uk`
越南语	`vi`

不确定文本语言时，使用 lang="na" 即可。

4. 快速上手

4.1 Python（推荐）

pip install supertonic

from supertonic import TTS

# 首次运行会从 Hugging Face 自动下载模型
tts = TTS(auto_download=True)

style = tts.get_voice_style(voice_name="M1")

text = "Supertonic is a lightning fast, on-device TTS system."

wav, duration = tts.synthesize(
    text=text,
    lang="en",              # 语言代码，如 "en"、"ko"，或 "na" 表示语言无关
    voice_style=style,      # 音色风格对象
    total_steps=8,          # 质量：5（低）~ 12（高），默认 8
    speed=1.05,             # 语速：0.7（慢）~ 2.0（快）
)

tts.save_audio(wav, "output.wav")
print(f"Generated {duration[0]:.2f}s of audio")

4.2 本地 HTTP 服务（Python SDK v1.3.1+）

pip install 'supertonic[serve]'
supertonic serve --host 127.0.0.1 --port 7788

端点	说明
`POST /v1/tts`	原生接口
`POST /v1/audio/speech`	OpenAI 兼容接口
`http://127.0.0.1:7788/docs`	交互式 OpenAPI 文档

4.3 从仓库运行

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

# 需要 Git LFS
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets

cd py
uv sync
uv run example_onnx.py

5. 技术细节

运行时：ONNX Runtime（跨平台）
浏览器：onnxruntime-web（客户端推理）
批处理：支持 batch inference
输出格式：44.1kHz 16-bit WAV

6. 版本对比

版本	参数量	语言数	表情标签	状态	权重
Supertonic 3	~99M	31	✅ 10 个	🟢 最新	HF: supertonic-3
Supertonic 2	~66M	5	—	稳定	HF: supertonic-2
Supertonic 1	~66M	1 (en)	—	遗留	HF: supertonic

相对 v2 的改进：

重复 / 跳读失败更少
说话人相似度提升
语言从 5 种扩展到 31 种
ONNX 接口与 v2 兼容，便于迁移

7. 性能要点

朗读准确度：在 Minimax-MLS-test 基准上，与 VoxCPM2 等更大模型相比仍具竞争力
资源占用：CPU 即可较快推理，内存明显低于 GPU 大模型方案
模型体积：约 99M 参数，下载更小、冷启动更快、内存占用更低

8. 声音与克隆

能力	说明
仓库内置	固定音色本地 TTS，无官方克隆管线
自定义音色	通过 Voice Builder 从短录音生成 Supertonic 2/3 的 JSON 配置
托管服务	Supertone Play / API（700+ 商用预设音色）

9. 自然文本处理

对以下复杂文本，README 声称无需 phoneme 预处理即可正确朗读：

类别	示例	挑战
金融表达	`$5.2M`、`$450K`	小数、缩写单位、货币符号
电话号码	`(212) 555-0142 ext. 402`	区号、连字符、分机缩写
技术单位	`2.3h`、`30kph`	小数 + 缩写单位

10. 多语言 / 平台支持

语言 / 平台	路径	说明
Python	`py/`	ONNX Runtime 推理
Node.js	`nodejs/`	服务端 JavaScript
Browser	`web/`	WebGPU / WASM 推理
Java	`java/`	跨平台 JVM
C++	`cpp/`	高性能 C++
C#	`csharp/`	.NET 生态
Go	`go/`	Go 实现
Swift	`swift/`	macOS 应用
iOS	`ios/`	原生 iOS
Rust	`rust/`	内存安全系统语言
Flutter	`flutter/`	跨平台应用

11. 相关链接

资源	链接
GitHub 仓库	https://github.com/supertone-inc/supertonic
Hugging Face 模型	https://huggingface.co/Supertone/supertonic-3
在线 Demo	https://huggingface.co/spaces/Supertone/supertonic-3
音频样例	https://supertonic3.github.io/
Voice Builder	https://voicebuilder.supertonic.ai/
PyPI 包	`pip install supertonic`
Python 文档	https://supertone-inc.github.io/supertonic-py/

12. 近期更新（README 摘录）

日期	更新
2026.05.18	Python SDK v1.3.1 新增 `supertonic serve` 本地 HTTP 服务
2026.05.18	Voice Builder 支持 Supertonic 3
2026.04.29	Supertonic 3 发布：31 语言、准确度与稳定性提升
2026.01.22	Voice Builder 上线
2026.01.06	Supertonic 2 发布（5 语言）
2025.12.10	PyPI 包 `supertonic` 上线；新增 6 种音色
2025.11.24	新增 Flutter SDK

13. 许可证

内容	许可证
示例代码	MIT
模型权重	OpenRAIL-M
训练框架 PyTorch	BSD 3-Clause（未随项目分发）

14. 学术引用

SupertonicTTS 主架构：arXiv:2503.23108
Length-Aware RoPE（LARoPE）：arXiv:2509.11084
Self-Purifying Flow Matching：arXiv:2509.19091

文档整理自 supertonic README，截至 2026-05。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大学毕业论文纯人工去AI痕迹、降AIGC率全套方法

目前高校AIGC检测核心判定标准为文本句式机械化、表达模板化、逻辑过于规整、内容缺乏主观思考与研究细节。绝大多数AI生成内容存在高度同质化问题，仅依靠同义词替换无法有效降低AI检测率。本文整理适用于本科、专科毕业论文的，全程无需任何改写工具，修改后文本更贴近学生原创写作风格，可有效规避各大平台AI查重。