ComfyUI集成InfiniteTalk工作流,实现宠物主播视频生成
第一步:获取核心工作流文件
InfiniteTalk 运行在 ComfyUI 里,工作流文件是核心。推荐用社区已经调好的版本。这里有几个获取路径:
- 社区整合资源:推荐这个网盘
https://pan.quark.cn/s/4ac8f9e32423?pwd=JKb6,包含模型和工作流 - 另一个整合包:
https://pan.quark.cn/s/ef8c64027412(网盘中找 infiniteTalk工作流模型和示例文件夹) - FP8轻量化版:约 33GB,B站 UP 主提供的
242-InfiniteTalk对口型FP8版 - 官方工作流:可去 InfiniteTalk 官方 Hugging Face 仓库找(详见下方链接)
下载后是一个 .json 文件(或者压缩包,解压获得),先放着,后面会拖进 ComfyUI。
第二步:安装/更新必要插件
确保这些插件已安装,否则工作流会显示红字报错。
必需插件列表:
|
插件名称 |
安装方式 |
说明 |
|
ComfyUI-Manager |
新版自带 / 去 GitHub clone |
管理节点必备 |
|
ComfyUI-WanVideoWrapper |
Manager搜 / clone |
InfiniteTalk的核心驱动 |
|
ComfyUI-VideoHelperSuite |
Manager搜 |
视频辅助工具 |
|
ComfyUI-Impact-Pack |
Manager搜 |
高效工作流管理 |
安装步骤:
- 打开 ComfyUI,点击右侧的 “Manager” 按钮。
- 进入 “Install Custom Nodes”,依次搜索上面列出的插件,点击 install。
- 安装完成后,务必重启 ComfyUI。
如果之前已安装
ComfyUI-WanVideoWrapper,请更新到最新版。InfiniteTalk 的代码已合并至新版 WanVideoWrapper 中,更新后 MultiTalk 节点的名称会变成 MultiTalk / Infinite MultiTalk。
第三步:下载并放置关键模型文件
InfiniteTalk 需要下载 6 个模型文件,大小加起来约 40GB。下面是完整清单:
|
模型 |
大小 |
存放路径 |
|
Image-to-Video Diffusion Model |
~16 GB |
|
|
Audio-to-Video Diffusion Model (InfiniteTalk Single) |
~2.6 GB |
同上 |
|
Text Encoder |
~6.5 GB |
|
|
Clip Vision Model |
~1.2 GB |
|
|
VAE |
~0.25 GB |
|
|
Melband Row Former / wav2vec2 |
~0.5 GB |
|
获取方式:
- 官方 Hugging Face 仓库:
https://huggingface.co/MeiGen-AI/InfiniteTalk - 仓库中找
ComfyUI 文件夹,里面包含 InfiniteTalk Single 和 InfiniteTalk Multi 两个 .safetensors 文件 - 也可以从第一步的网盘链接直接下载,包含完整的模型文件。
放置技巧:
- 模型文件直接放进对应文件夹即可,如果文件夹不存在就手动新建
- 也可在
diffusion_models 文件夹里单独建一个子文件夹来整理模型 - 注意:用网盘下载时,有些链接提供的是 FP8 量化版(约 33GB),适合 8G 显存用户
首次运行时,
wav2vec2 音频编码器可能会自动下载,耐心等待即可。
第四步:导入与准备工作流
- 将下载的
.json 工作流文件直接拖入 ComfyUI 界面。 - 如果有节点变红,点击 “Install All Missing Nodes” 自动安装缺失的节点。
- 在工作流中找到 InfiniteTalk / MultiTalk 模型加载节点,选择之前下载的
InfiniteTalk Single 模型文件。 - 设置参数:
- 分辨率:480×480 或 512×512(8G 显存推荐)
- 帧数:先设 81 帧(约 10 秒,8fps)做测试
- 采样步数:20–30
- CFG:5–7
第五步:生成视频与参数调优
- 上传参考图片:在
Load Image 节点中,上传动物角色图片。 - 上传驱动音频:在
Load Audio 节点中,上传想要动物主播说的音频(建议人声分离,用纯净干声)。 - 点击右侧 “Queue Prompt” 按钮,开始生成。首次生成会稍慢,后续会快一些。
- 保存输出:视频会保存在
ComfyUI/output/ 文件夹。
生成时间参考(参考值):RTX 3090 上约 1 秒视频需要 33 秒生成,9 秒视频约 5 分钟。你的 RTX 5060 8G 可能会稍慢一些,但可以正常跑。
第六步:RTX 5060 8G 显存优化技巧
显存是这张卡的瓶颈,下面这几个设置非常关键:
1. 启动参数优化(最重要) 在启动脚本(run_nvidia_gpu.bat)中,找到 main.py 那行,在后面加上:
python main.py --lowvram --reserve-vram 1 --fp16-unet
-
--lowvram:让显存使用更智能 -
--reserve-vram 1:预留 1GB 显存给系统 -
--fp16-unet:降低 UNet 精度,省显存
2. 分辨率与帧数控制
- 先跑低分辨率 480×480 测试,稳定后再尝试 512×512。
- 首先生成 49 帧(约 6 秒),确认跑通后再逐步加长到 81 帧(约 10 秒)。
3. 使用量化模型
- 建议用网盘链接中的 FP8 量化版模型(约 33GB),能显著降低显存占用。
4. 关闭无关程序 生成时关闭浏览器、Chrome 等占用显存的应用,尽可能把资源留给 ComfyUI。
第七步:常见问题与解决方法
|
问题现象 |
可能原因 |
解决方法 |
|
工作流导入后显示红字节点 |
缺少插件 |
点“Install All Missing Nodes”安装,然后重启 |
|
报 "Missing Models" |
模型路径不对 |
检查 |
|
|
显存不足 |
降低分辨率、减少单次输出帧数,或者使用 FP8 量化模型 |
|
音频对口型不同步 |
音频质量不佳 |
使用人声分离工具(如 UVR5)提取纯净干声 |
|
模型下载不下来 |
网络问题 |
用国内云盘资源下载,或更换 Hugging Face 镜像源 |
|
导入工作流时找不到路径 |
ComfyUI 版本问题 |
检查 |
结语
这套流程提供了从安装、下载模型到配置生成的一整套方案。如果过程中有报错拿不准,随时把错误信息发给我,我来帮你排查。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)