前言:算力能力mps的能力只是略微大于cpu。生成克隆音频需要的时间略微稍长。

一、准备工作

1. 系统与硬件要求

• 系统:macOS 12+(推荐 Ventura/Sonoma)

• 芯片:Apple Silicon(M1/M2/M3),不支持Intel

• 内存:至少 16GB(推荐32GB)

• 磁盘:至少 20GB 可用空间(模型+环境)

2. 安装必备工具

打开「终端」执行:

# 安装Homebrew(如未安装)

/bin/bash -c “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”

# 安装依赖

brew install git python@3.11 ffmpeg

二、安装 ComfyUI(Mac 桌面版)

1. 下载安装包

• 访问官网:https://docs.comfy.org/installation/desktop/macos

• 下载 ComfyUI Desktop for macOS(.dmg)

图片

2. 安装与初始化

1. 双击 .dmg,将 ComfyUI 拖入「应用程序」

图片

2. 从 Launchpad 启动 ComfyUI

3. 首次启动:

◦ 选择 MPS(Metal) 加速(Mac默认)

◦ 安装路径默认即可(全英文)

◦ 等待自动安装 Python、PyTorch 等依赖

图片

3. 启动成功

浏览器自动打开:http://127.0.0.1:8188

图片

三、安装 F5-TTS 插件(ComfyUI)

方法1:通过 ComfyUI Manager(推荐)

1. 打开 ComfyUI → 右侧 Manager

2. 搜索:F5-TTS 或 ComfyUI-F5-TTS

3. 找到 AIFSH/F5-TTS-ComfyUI → 点击 Install

4. 安装完成后 重启 ComfyUI

方法2:手动安装(终端)

# 进入ComfyUI custom_nodes目录

cd ~/Library/Application\ Support/ComfyUI/custom_nodes

# 克隆插件

git clone https://github.com/AIFSH/F5-TTS-ComfyUI.git

# 进入目录安装依赖

cd F5-TTS-ComfyUI

pip install -r requirements.txt

# 重启ComfyUI

3. 下载模型(关键)

• 自动下载:首次使用会自动下载(约 2GB)

• 手动下载(国内):

1. 下载模型:https://huggingface.co/SWivid/F5-TTS

2. 放入:ComfyUI/models/AIFSH/F5-TTS/

四、语音克隆使用教程

1. 准备参考音频

• 格式:WAV,24kHz,单声道

• 时长:3–15秒(人声清晰、无杂音)

• 内容:正常说话(中文/英文均可)

2. 加载工作流

1. ComfyUI → 菜单 Load → 搜索 F5-TTS

2. 选择 F5-TTS Voice Clone 工作流

图片

3. 配置节点

• F5-TTS 节点:

◦ ref_audio:选择你的参考WAV

◦ ref_text:参考音频的文字内容

◦ gen_text:你想生成的文字

• Audio Output:输出路径(默认即可)

4. 生成语音

• 点击右上角 Queue Prompt(▶️)

• 等待生成(约10–30秒)

• 点击 Preview 播放、Save 保存

五、常见问题

1. 模型下载失败

• 终端执行:

export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download SWivid/F5-TTS --local-dir ~/Library/Application\ Support/ComfyUI/models/AIFSH/F5-TTS/

2. 报错 No module named f5_tts

• 重新安装依赖:

cd ~/Library/Application\ Support/ComfyUI/custom_nodes/F5-TTS-ComfyUI

pip install -r requirements.txt

3. 生成失败(声音奇怪)

• 检查参考音频:3–15秒、清晰无杂音、单声道

• 重启 ComfyUI

• 确认模型完整(F5-TTS 文件夹有 model.pt)

六、总结

1. 安装 ComfyUI Desktop(MPS加速)

2. 通过 Manager 安装 F5-TTS 插件

3. 准备 3–15秒 清晰WAV参考音频

4. 加载工作流 → 配置节点 → 生成语音

可能出现的bug就是ffmpeg是系统安装的,comfyui桌面版有可能找不到ffmpeg的库依赖。以及各种版本问题。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐