免费开源!3 秒克隆声音、100%本地运行,AI 配音进入原生桌面时代
GitHub 已突破23,000+ Star,这个项目正在悄悄改变AI语音赛道的格局。
先说结论
如果你还在为ElevenLabs 的订阅费发愁,或者担心声音数据被上传到云端——Voicebox来了。
完全免费、完全开源、完全本地运行。声音克隆、语音输入、AI配音,一个应用全包了。
先认识一下ElevenLabs
ElevenLabs 是目前全球最火的AI 语音平台,成立于 2022 年,总部在美国,估值已超过 30 亿美元。
它能做什么?简单说:上传几秒钟的音频,AI 就能克隆这个人的声音,然后用这个声音朗读任意文字。音质效果在业内属于顶尖水准,支持 30 多种语言,大量播客主、有声书作者、短视频创作者都在用它做配音。
但它有几个明显的问题:
•贵:免费版每月只有约1 万字符的额度,超出就要付费,专业版每月订阅费$22 起
•隐私存疑:声音数据全部上传到云端服务器处理,数据归属和安全性一直是用户担忧的问题
•依赖网络:断网或服务器故障,直接停工
正是这些痛点,给了Voicebox 机会。

它到底是什么?
Voicebox是一款开源的本地AI 语音工作室,由开发者 jamiepine 构建,项目地址在GitHub(jamiepine/voicebox)。
官方定位非常直白:ElevenLabs + WisprFlow 的免费开源替代品,合二为一,跑在你自己的机器上。
•ElevenLabs 做语音输出(TTS/声音克隆)
•WisprFlow 做语音输入(语音转文字/听写)
•Voicebox 全都要,还加了本地大模型,数据一个字节都不出你的电脑
核心亮点拆解

3秒克隆任意声音
只需要几秒钟的参考音频,Voicebox 就能克隆该声音并用它来生成任意内容。底层支持7 种 TTS 引擎,可以按需切换:
|
引擎 |
特点 |
|
Qwen3-TTS |
阿里开源,高质量多语言克隆,支持"慢速朗读""低声说话"等指令控制 |
|
Chatterbox Multilingual |
支持 23 种语言,覆盖阿拉伯语、日语、印地语、斯瓦希里语等 |
|
Chatterbox Turbo |
快速轻量,支持 [laugh]、[sigh]、[gasp] 等情感标签 |
|
Kokoro |
仅 82M 参数,CPU 即可飞速推理,内置 50 个预设音色 |
|
TADA(HumeAI) |
可生成 700 秒以上连贯音频 |
不想克隆自己的声音?直接用内置的 50+ 预设音色也完全没问题。
100% 本地运行,隐私零泄露
这是Voicebox 最核心的竞争力。
所有模型、所有声音数据、所有录音捕获,全部留在你的本地机器上,永远不会上传到任何服务器。
对于内容创作者、播客主播、企业用户来说,这一点尤为重要。

跨平台支持,配置友好
|
平台 |
加速后端 |
|
macOS 苹果芯片 |
MLX / Metal,速度提升 4-5 倍 |
|
Windows(NVIDIA) |
CUDA |
|
Linux(AMD) |
ROCm |
|
任意设备 |
CPU(慢一点,但能跑) |
直接到官网voicebox.sh 下载安装包,macOS / Windows 均有一键安装版本。
全局听写热键,说话替代打字
按住快捷键,开口说话,松开——文字自动粘贴到你当前聚焦的任何输入框。
macOS 上已经做到了无障碍级别的精准注入,不会误操作剪贴板。这个功能对效率党和有打字障碍的用户来说,几乎是刚需级别的体验。
让AI Agent 开口说话
这个功能相当超前。
Voicebox 内置了MCP 服务器,任何支持MCP 协议的AI 编程助手(比如Claude Code、Cursor)都可以调用voicebox.speak 工具,让AI 用你克隆的声音说话:
// AI 任务完成后,用克隆的"Morgan"声音播报结果
await voicebox.speak({
text: "部署完成。",
profile: "Morgan",
});
调试代码时,AI 完成任务会主动开口告诉你——这个体验,目前市面上几乎找不到第二家。
故事编辑器 + 音频后处理
内置多音轨时间线编辑器,可以混合多个声音角色,制作对话、播客、叙事内容。
后处理效果支持:混响、延迟、合唱、变调、压缩、高/低通滤波……还附带"机器人声"、"广播声"、"回声房间"等预设方案。

技术栈一览(给开发者)
•桌面框架:Tauri(Rust),性能远超Electron
•前端:React + TypeScript + Tailwind CSS
•后端:Python FastAPI
•推理:MLX(苹果芯片)/ PyTorch(其他平台)
•数据库:SQLite
•完全开源,MIT 许可证
怎么上手?
普通用户:直接去voicebox.sh 下载对应平台的安装包,一键安装。
开发者:bash
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
just setup # 初始化Python 环境,安装依赖
just dev # 启动后端 + 桌面应用
写在最后
AI 语音领域过去一直是云服务的天下——贵、慢、隐私存疑。
Voicebox 用一个开源项目,把这三个问题一次性解决掉了。
23,000+ GitHub Star 不会说谎。这款工具值得每一个关注AI 效率工具的人亲手试一试。
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技
动画详解transformer 在线视频教程


AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)