第一步:获取核心工作流文件

InfiniteTalk 运行在 ComfyUI 里,工作流文件是核心。推荐用社区已经调好的版本。这里有几个获取路径:

  • 社区整合资源:推荐这个网盘 ​​https://pan.quark.cn/s/4ac8f9e32423?pwd=JKb6​​,包含模型和工作流
  • 另一个整合包:​​https://pan.quark.cn/s/ef8c64027412​​(网盘中找 ​​infiniteTalk工作流模型和示例文件夹​​)
  • FP8轻量化版:约 33GB,B站 UP 主提供的 ​​242-InfiniteTalk对口型FP8版​
  • 官方工作流:可去 InfiniteTalk 官方 Hugging Face 仓库找(详见下方链接)

下载后是一个 ​​.json​​ 文件(或者压缩包,解压获得),先放着,后面会拖进 ComfyUI。


第二步:安装/更新必要插件

确保这些插件已安装,否则工作流会显示红字报错。

必需插件列表:

插件名称

安装方式

说明

ComfyUI-Manager

新版自带 / 去 GitHub clone

管理节点必备

ComfyUI-WanVideoWrapper

Manager搜 / clone

InfiniteTalk的核心驱动

ComfyUI-VideoHelperSuite

Manager搜

视频辅助工具

ComfyUI-Impact-Pack

Manager搜

高效工作流管理

安装步骤:

  1. 打开 ComfyUI,点击右侧的 “Manager” 按钮。
  2. 进入 “Install Custom Nodes”,依次搜索上面列出的插件,点击 install。
  3. 安装完成后,务必重启 ComfyUI

如果之前已安装 ​​ComfyUI-WanVideoWrapper​​,请更新到最新版。InfiniteTalk 的代码已合并至新版 WanVideoWrapper 中,更新后 MultiTalk 节点的名称会变成 MultiTalk / Infinite MultiTalk


第三步:下载并放置关键模型文件

InfiniteTalk 需要下载 6 个模型文件,大小加起来约 40GB。下面是完整清单:

模型

大小

存放路径

Image-to-Video Diffusion Model

~16 GB

​ComfyUI/models/diffusion_models/​

Audio-to-Video Diffusion Model (InfiniteTalk Single)

~2.6 GB

同上

Text Encoder

~6.5 GB

​ComfyUI/models/text_encoders/​

Clip Vision Model

~1.2 GB

​ComfyUI/models/clip_vision/​

VAE

~0.25 GB

​ComfyUI/models/vae/​

Melband Row Former / wav2vec2

~0.5 GB

​diffusion_models/​​ (自动下载)

获取方式:

  • 官方 Hugging Face 仓库:​​https://huggingface.co/MeiGen-AI/InfiniteTalk​
  • 仓库中找 ​​ComfyUI​​ 文件夹,里面包含 ​​InfiniteTalk Single​​ 和 ​​InfiniteTalk Multi​​ 两个 ​​.safetensors​​ 文件
  • 也可以从第一步的网盘链接直接下载,包含完整的模型文件。

放置技巧:

  • 模型文件直接放进对应文件夹即可,如果文件夹不存在就手动新建
  • 也可在 ​​diffusion_models​​ 文件夹里单独建一个子文件夹来整理模型
  • 注意:用网盘下载时,有些链接提供的是 FP8 量化版(约 33GB),适合 8G 显存用户

首次运行时,​​wav2vec2​​ 音频编码器可能会自动下载,耐心等待即可。


第四步:导入与准备工作流

  1. 将下载的 ​​.json​​ 工作流文件直接拖入 ComfyUI 界面
  2. 如果有节点变红,点击 “Install All Missing Nodes” 自动安装缺失的节点。
  3. 在工作流中找到 InfiniteTalk / MultiTalk 模型加载节点,选择之前下载的 ​​InfiniteTalk Single​​ 模型文件。
  4. 设置参数:
  • 分辨率:480×480512×512(8G 显存推荐)
  • 帧数:先设 81 帧(约 10 秒,8fps)做测试
  • 采样步数:20–30
  • CFG:5–7

第五步:生成视频与参数调优

  1. 上传参考图片:在 ​​Load Image​​ 节点中,上传动物角色图片。
  2. 上传驱动音频:在 ​​Load Audio​​ 节点中,上传想要动物主播说的音频(建议人声分离,用纯净干声)。
  3. 点击右侧 “Queue Prompt” 按钮,开始生成。首次生成会稍慢,后续会快一些。
  4. 保存输出:视频会保存在 ​​ComfyUI/output/​​ 文件夹。

生成时间参考(参考值):RTX 3090 上约 1 秒视频需要 33 秒生成,9 秒视频约 5 分钟。你的 RTX 5060 8G 可能会稍慢一些,但可以正常跑。


第六步:RTX 5060 8G 显存优化技巧

显存是这张卡的瓶颈,下面这几个设置非常关键

1. 启动参数优化(最重要) 在启动脚本(​​run_nvidia_gpu.bat​​)中,找到 ​​main.py​​ 那行,在后面加上:

python main.py --lowvram --reserve-vram 1 --fp16-unet
  • ​--lowvram​​:让显存使用更智能
  • ​--reserve-vram 1​​:预留 1GB 显存给系统
  • ​--fp16-unet​​:降低 UNet 精度,省显存

2. 分辨率与帧数控制

  • 先跑低分辨率 480×480 测试,稳定后再尝试 512×512
  • 首先生成 49 帧(约 6 秒),确认跑通后再逐步加长到 81 帧(约 10 秒)。

3. 使用量化模型

  • 建议用网盘链接中的 FP8 量化版模型(约 33GB),能显著降低显存占用。

4. 关闭无关程序 生成时关闭浏览器、Chrome 等占用显存的应用,尽可能把资源留给 ComfyUI。


第七步:常见问题与解决方法

问题现象

可能原因

解决方法

工作流导入后显示红字节点

缺少插件

点“Install All Missing Nodes”安装,然后重启

报 "Missing Models"

模型路径不对

检查 ​​models/diffusion_models/​​ 下是否有模型文件

​CUDA out of Memory​

显存不足

降低分辨率、减少单次输出帧数,或者使用 FP8 量化模型

音频对口型不同步

音频质量不佳

使用人声分离工具(如 UVR5)提取纯净干声

模型下载不下来

网络问题

用国内云盘资源下载,或更换 Hugging Face 镜像源

导入工作流时找不到路径

ComfyUI 版本问题

检查 ​​C:\Users\你的用户名\Documents\ComfyUI\models​​​ 下是否有模型。如果没有,可以复制 ​​extra_model_paths.yaml.example​​ 并重命名,编辑路径指向正确位置


结语

这套流程提供了从安装、下载模型到配置生成的一整套方案。如果过程中有报错拿不准,随时把错误信息发给我,我来帮你排查。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐