最近在尝试各种途径的生图、视频的工具,无时无刻不在感叹AI的强大。

但发现,gpt-image2 有强大的理解能力,但是如果只调用hermes agent+api的话,无法让他很好地参考给定图像,这需要他自己去做图像理解,识别等工作。那么有没有一种方法能够让我们直接使用参考图呢。

实际上,这样的项目还蛮多的,但是不是闭源就是门槛高,ComfyUI的出现让这件事情有了新的转机。

一、什么是ComfyUI

ComfyUI 是一个基于节点式工作流的用户界面框架,主要用于构建和管理复杂的交互式流程。它广泛应用于图像生成、数据处理、自动化任务等领域,尤其适合需要模块化设计和可视化编排的场景。

https://github.com/Comfy-Org/ComfyUI.githttps://github.com/Comfy-Org/ComfyUI.git基于ComfyUI,我们可以使用其云端提供的服务,也可以直接部署在本地,当然要满足硬件条件,最好有一张较强的显卡。

我的显卡时4060,16GB现存。以此为例。

 二、安装 ComfyUI

2.1 前置依赖

  - Python 3.11+(推荐从 python.org 安装,勾选 Add to PATH)
  - Git
  - NVIDIA 驱动 最新版(Game Ready 或 Studio 都行)
  - CUDA Toolkit 不需要单独装,PyTorch 自带

  本次安装均以D:\Projects\ComfyUI路径为例

  2.2 安装 ComfyUI

  cd D:\AI  # 选一个空间充足的盘
  git clone https://github.com/comfyanonymous/ComfyUI.git

# 访问失败的化直接下载Zip,解压到对应路径就好

在接下来的安装过程之中,很容易就会触发访问失败的错误,所以大家直接下载zip,解压就好,如果要求的目录没有,那么久自己创建


  cd ComfyUI
  python -m venv venv
  .\venv\Scripts\activate
  pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
  pip install -r requirements.txt

  验证 GPU 可用:

 python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"

返回【True 你的显卡信号】  说明没有问题

2.3 启动

  python main.py --listen 0.0.0.0 --port 8188
http://127.0.0.1:8188

这里需要注意,如果你按照引导方位0.0.0.0的话,迎接你的将是无法打开网页/。

  浏览器打开

http://127.0.0.1:8188

  cd D:\Projects\ComfyUI
  .\venv\Scripts\activate
  python main.py --listen 0.0.0.0 --port 8188

成功!


结束了?还早呢!!现在只安装了壳子,别忘了我们的目标欸!本地!


三、 安装 ComfyUI Manager

  先关掉 ComfyUI,然后在 PowerShell 中执行:

cd D:\Projects\ComfyUI\custom_nodes
  git clone https://github.com/ltdrdata/ComfyUI-Manager.git

# 又失败了,直接下载zip

  然后重新启动 ComfyUI:

  cd D:\Projects\ComfyUI
  .\venv\Scripts\activate
  python main.py --listen 0.0.0.0 --port 8188

稍等片刻安装完成,刷新浏览器,应该出现 Manager 按钮。

在这个过程可能会出现
FETCH ComfyRegistry Data: 40/145
FETCH ComfyRegistry Data: 45/145
FETCH ComfyRegistry Data: 50/145
FETCH ComfyRegistry Data: 55/145
FETCH ComfyRegistry Data: 60/145
不冲突, 我们可以继续

四、下载基础模型

RealVisXL V5.0为例:

去hugging face上找到他,尝试clone

注意!只需要下载RealVisXL_V5.0_fp16.safetensors就可以,所以其实不需要clone,直接在huggingface上找下下载按钮就好。当然如果你的网络畅通且至少有100个GB的空间的话,当我没说


 我还是习惯https,执行第一条指令会引导更新一下git


  下载后放到:
  D:\Projects\ComfyUI\models\checkpoints\

注意!!!只需要下载RealVisXL_V5.0_fp16.safetensors就可以,当然如果你的网络畅通且至少有100个GB的空间的话,当我没说-----=重复唠叨

五、安装面部一致性节点

5.1 安装自定义节点

PowerShell 中执行:

  cd D:\Projects\ComfyUI\custom_nodes

  # IP-Adapter Plus(面部特征注入)
  git clone https://github.com/cubiq/ComfyUI_IPAdapter_plus.git

  # InstantID(单图面部一致性)
  git clone https://github.com/cubiq/ComfyUI_InstantID.git、

5.2 装依赖:

  cd D:\Projects\ComfyUI
  .\venv\Scripts\activate
  pip install insightface onnxruntime-gpu

六、下载面部模型

  需要下载很多文件,并放到对应目录,一定要齐全,这一步可以使用本机的agent协助:

  6.1 InsightFace 人脸检测模型

  从 https://huggingface.co/MonsterMMORPG/tools/tree/main下载 antelopev2.zip,解压后放到:

  D:\Projects\ComfyUI\models\insightface\models\antelopev2\

  目录下应该有 5 个 .onnx 文件。

 6.2 IP-Adapter FaceID 模型

  从 https://huggingface.co/h94/IP-Adapter-FaceID 下载:
  - ip-adapter-faceid-plusv2_sdxl.bin
  - ip-adapter-faceid-plusv2_sdxl_lora.safetensors

  分别放到:
  D:\Projects\ComfyUI\models\ipadapter\ip-adapter-faceid-plusv2_sdxl.bin
  D:\Projects\ComfyUI\models\loras\ip-adapter-faceid-plusv2_sdxl_lora.safetensors

6.3 CLIP Vision 模型

  从 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K下载
  open_clip_pytorch_model.safetensors,放到:

  D:\Projects\ComfyUI\models\clip_vision\CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors

这里应该是官方做了更新:

还有就是记得重命名

在这里我们需要改一个文件名,问就是不改的话会报错(如果你保存的时候记得重命名,那也当我没说)

cd D:\Projects\ComfyUI\models\clip_vision
  ren open_clip_model.safetensors CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors

6.4 InstantID ControlNet 模型

  从 https://huggingface.co/InstantX/InstantID/tree/main 下载 diffusion_pytorch_model.safetensors,放到:

  D:\Projects\ComfyUI\models\controlnet\instantid\diffusion_pytorch_model.safetensors

这里也是,路径有变动,大家找一下


下载完成后,先不要着急往下滑,让我们休息一下,喝杯茶,真不容易~~


七、 检查一下,检查一下

现在重启 ComfyUI 让它加载新节点:

  cd D:\Projects\ComfyUI
  .\venv\Scripts\activate
  python main.py --listen 0.0.0.0 --port 8188

 启动后确认终端没有报错(特别是 insightface IPAdapter  相关的)

  八、交给Agent!

把我们的诉求交给Agent(我这里以Claude Code为例),比如我让他构建一个年轻男性靠在赛博感的墙上的工作流:~

是啊,我一行代码都没有动过。。。他甚至连正反向提示词都写好了。

这代表着什么,这就意味着我们可以让代理根据我们的需求去生成对应的图转图、文转图工作流,但需要注意不同模型适用的场景不甚相同。

九、ComfyUI还能做什么

如果ComfyUI和Agent链接起来,那么就可以自动生成工作流

那么,视频也可以

那么,有这样的项目吗

那就是

⚡ Pixelle-Video - AI 全自动短视频引擎

AIDC-AI/Pixelle-Video: 🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Enginehttps://github.com/AIDC-AI/Pixelle-Video我们下次再介绍这个

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐