Voicebox 是一个本地运行的开源语音克隆与合成工作室(类似 ElevenLabs 的免费本地替代品),支持语音克隆、TTS、多轨故事编辑、音频后期处理等,全程离线且隐私安全。

最简单的方法:使用预构建安装程序(推荐新手)

  1. 打开浏览器,访问官方下载页面或 GitHub Releases:

    • 推荐直接去:https://voicebox.sh (官方下载页)
    • 或者 GitHub Releases:https://github.com/jamiepine/voicebox/releases
  2. 下载 Windows 版本:

    • 优先选择 voicebox_xxx_x64-setup.exe(安装向导版,更友好)
    • 或者 voicebox_xxx_x64_en-US.msi(MSI 安装包)
  3. 双击下载的文件进行安装:

    • 一直点击 Next / 安装 即可(和普通软件一样)。
    • 安装完成后,桌面或开始菜单会出现 Voicebox 图标。
  4. 第一次启动:

    • 打开软件后,如果有 NVIDIA 显卡,它会自动下载 CUDA 支持(可能需要几分钟,耐心等待)。
    • 无需手动安装 Python、CUDA 等依赖,安装程序已打包好。
  5. 开始使用:

    • 创建语音配置文件(上传几秒音频或用麦克风录制即可克隆声音)。
    • 输入文本,选择引擎(Qwen3-TTS、Chatterbox 等),生成语音。
    • 支持添加表情标签(如 [laugh])、后期效果(变调、混响等)、多轨故事编辑器。

如果想从源代码运行(适合开发者或想最新版本)

  1. 安装必要工具(Win11 下用 PowerShell 或命令提示符):

    • Git:从 https://git-scm.com 下载安装。
    • Bun(推荐):在 PowerShell 中运行:
      powershell -c "irm bun.sh/install.ps1 | iex"
      
    • Rust:访问 https://rustup.rs/ 下载安装(默认安装即可)。
    • Python 3.11+:从 https://python.org 下载安装(勾选 Add to PATH)。
  2. 克隆仓库:

    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox
    
  3. 安装 just(任务运行器):

    cargo install just
    
  4. 执行设置:

    just setup
    

    (会自动创建 Python 虚拟环境并安装依赖,如果有 NVIDIA 显卡会自动配置 CUDA)。

  5. 启动程序:

    just dev
    

    (同时启动后端和桌面应用)。

注意事项(Win11 常见问题)

  • GPU 加速:NVIDIA 显卡会自动使用 CUDA(更快);其他显卡(AMD/Intel)会回落到 DirectML 或 CPU(速度较慢)。
  • 第一次模型下载:启动后克隆声音或生成时会自动下载模型(几 GB),请保持网络畅通。
  • 安装失败或卡住:尝试用 setup.exe 而不是 MSI;或者删除 %AppData%\voicebox 或缓存文件夹后重试。
  • 硬件需求:现代 CPU + 8GB+ 内存即可运行,推荐有独立显卡(至少 6GB VRAM 更好)。
  • 防火墙/杀毒软件:首次启动可能被拦截,允许通过即可。
  • 更新:直接从 Releases 下载新版本覆盖安装,或关注 GitHub 更新。

基本使用流程

  • 克隆声音:上传 10 秒以上清晰音频 → 创建 Profile → 保存。
  • 生成语音:选择 Profile → 输入文字 → Generate(支持长文本自动分段)。
  • 故事编辑器:像 DAW 一样拖拽多轨,制作对话或播客。
  • API 使用:软件运行后,可通过 http://localhost:17493 调用 REST API 集成到其他工具。

zdl.im

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐