Wan2.1 作为阿里通义万相开源的图生视频模型,在 ComfyUI 中可实现静态图到动态视频的高质量转换。Mac 32GB 内存机型可流畅运行,单条 5 秒 480P 视频生成约 30 分钟;若追求更快速度,可参考 CUDA 加速方案(Windows/Linux 平台)。以下为完整部署与实操教程。

一、环境与硬件准备(Mac 32GB 专属)

1. 硬件与系统要求

  • 设备:MacBook Pro/Mac Studio(32GB 统一内存,M1/M2/M3 均可)

  • 系统:macOS 13.0+(Ventura 及以上)

  • 存储:预留 **30GB+** 空间(模型 + 依赖 + 生成视频)

  • 核心:Wan2.1 图生视频(I2V)优先选14B FP8 量化版,适配 Mac 内存上限

2. 软件依赖安装

(1)安装 Homebrew(包管理器)

打开终端执行:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"(2)安装 Python 与 Git
brew install python@3.11 git
(3)克隆 ComfyUI 仓库
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
(4)创建虚拟环境并安装依赖
python3.11 -m venv venv
source venv/bin/activate  # 激活虚拟环境
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install -r requirements.txt
pip install imageio-ffmpeg  # 视频编码依赖

二、Wan2.1 模型下载与文件放置

1. 核心模型清单(Mac 32GB 推荐)

|
模型类型
|
文件名
|
下载地址
|
目标文件夹
|
| — | — | — | — |
|
图生视频扩散模型(FP8)
|
wan2.1-i2v-14b-fp8-e4m3fn.safetensors
|
HuggingFace
|
ComfyUI/models/diffusion_models/
|
|
文本编码器(FP8)
|
umt5_xxl_fp8_e4m3fn_scaled.safetensors
|
同上
|
ComfyUI/models/text_encoders/
|
|
VAE 模型
|
wan_2.1_vae.safetensors
|
同上
|
ComfyUI/models/vae/
|
|
CLIP 视觉模型
|
clip_vision_h.safetensors
|
同上
|
ComfyUI/models/clip_vision/
|

2. 模型放置规范

下载后按以下目录结构放置,ComfyUI 启动时自动识别:

ComfyUI/└── models/    ├── diffusion_models/    │   └── wan2.1-i2v-14b-fp8-e4m3fn.safetensors    ├── text_encoders/    │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors    ├── vae/    │   └── wan_2.1_vae.safetensors    └── clip_vision/        └── clip_vision_h.safetensors

三、ComfyUI 启动与工作流搭建

1. 启动 ComfyUI(Mac MPS 加速)

终端执行(激活虚拟环境后):

python main.py --force-mps --medvram
  • --force-mps

    :强制使用 Mac GPU 加速(MPS)

  • --medvram

    :中显存模式,适配 32GB 内存,避免溢出启动成功后,浏览器访问 http://127.0.0.1:8188/ 进入界面。

2. 图生视频核心工作流(拖拽搭建)

(1)基础节点连接(必选)

图片

图片

  1. Load Image

    :上传静态图(推荐 512×512/480P,适配模型)

  2. CLIPVisionLoader

    :选择clip_vision_h.safetensors,连接 Load Image 输出

  3. CheckpointLoaderSimple

    :选择wan2.1-i2v-14b-fp8-e4m3fn.safetensors

  4. CLIPTextEncode

    (正向提示词):输入运动描述(如 “镜头缓慢平移,画面轻微动态,自然流畅”)

  5. CLIPTextEncode

    (负向提示词):输入 “模糊,抖动,失真,低质量,重复帧”

  6. VAELoader

    :选择wan_2.1_vae.safetensors

  7. KSampler

    :核心生成节点,参数如下(适配 Mac 32GB)

  • Sampler:euler

  • Scheduler:normal

  • Steps:30(平衡速度与质量)

  • CFG Scale:7.5

  • Denoise:0.85

  1. VAE Decode

    :连接 KSampler 输出与 VAELoader

  2. SaveVideo

    :设置 FPS=16,总帧数 = 81(生成 5 秒视频)

(2)工作流连接逻辑

Load Image → CLIPVisionLoader → KSampler( conditioning )CheckpointLoaderSimple → KSampler( model )正向 / 负向 CLIPTextEncode → KSampler( positive/negative )KSampler → VAE Decode → SaveVideo

四、生成实操与时长控制(Mac 32GB 实测)

1. 生成参数设置(10 分钟出片关键)

  • 分辨率:480P(720×480),Mac 32GB 最优选择

  • 视频时长:5 秒(81 帧,FPS=16)

  • 模型精度:FP8 量化版(大幅降低内存占用,Mac 专属)

  • 采样步数:30 步(减少至 25 步可缩至 8 分钟,质量略有下降)

2. 启动生成与时长参考

  1. 点击 ComfyUI 右上角Queue Prompt启动

  2. Mac 32GB 实测

    :5 秒 480P 视频生成耗时9-11 分钟(符合 10 分钟预期)

  3. 生成完成后,视频自动保存至 ComfyUI/output/ 文件夹

五、CUDA 加速方案(Windows/Linux,速度翻倍)

Mac 不支持 CUDA,但 Windows/Linux 可通过 NVIDIA 显卡实现 CUDA 加速,5 秒视频仅需 3-5 分钟,配置如下:

1. 硬件要求

  • GPU:NVIDIA RTX 3090/4070Ti+(16GB + 显存

  • CUDA:12.1+(对应显卡驱动)

  • 内存:16GB+

2. 启动命令(CUDA 加速)

python main.py --cuda --highvram
  • --cuda

    :启用 CUDA 加速

  • --highvram

    :高显存模式,适配 16GB + 显卡

3. 模型选择(CUDA)

优先用FP16 原版 14B 模型(wan2.1-i2v-14b-fp16.safetensors),质量更高、速度更快。

六、常见问题与优化(Mac 专属)

  1. 内存溢出(OOM)
  • 解决方案:降低分辨率至 480P、减少帧数至 61(3.75 秒)、启用--medvram
  1. 生成速度慢
  • 优化:关闭其他占用内存软件、使用 FP8 模型、降低采样步数至 25
  1. 视频模糊 / 抖动
  • 优化:提升 CFG Scale 至 8.0、增加 Denoise 至 0.9、细化正向提示词(如 “稳定镜头,平滑运动”)

七、总结

Mac 32GB 机型通过 ComfyUI+Wan2.1 FP8 模型,可稳定实现10 分钟生成 5 秒 480P 图生视频,满足个人创作与教程演示需求;若追求极致速度,可切换至 Windows/Linux 平台使用 CUDA 加速,效率提升 2-3 倍。本教程全程无复杂代码,拖拽工作流即可完成,新手也能快速上手。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐