下载: 

Comfyui 教程

7.12 第十二阶段:高级扩展节点(15个节点)

序号

节点类型

功能说明

216

Load GGUF Model

加载GGUF量化模型

217

UnetLoaderGGUF

GGUF UNet加载

218

DualClipLoaderGGUF

GGUF双CLIP加载

219

Load Flux Model

加载Flux模型

220

Flux Guidance

Flux引导控制

221

Load SD3 Model

加载SD3模型

222

SD3 Text Encoder

SD3文本编码

223

Load WAN Model

加载Wan视频模型

224

WAN Video Sampler

Wan视频采样

225

Load CogVideo Model

加载CogVideo模型

226

CogVideo Sampler

CogVideo采样

227

Load Hunyuan Model

加载混元模型

228

Hunyuan Sampler

混元采样

229

Load Kolors Model

加载可图模型

230

Kolors Text Encode

可图中文编码

我来为您整理这15个GGUF与新一代生成模型节点的详细文档,保持与原文档一致的格式风格:

7.12.207   Load GGUF Model

节点外观

节点介绍

属性

说明

核心作用

加载GGUF格式量化模型,大幅降低显存占用,支持消费级GPU运行大模型

model_path

GGUF模型文件路径,支持Q4/Q5/Q8等多种量化精度

clip_path

配套CLIP文本编码器(Flux/SD3等模型需要)

vae_path

配套VAE/AE编码器(Flux等模型需要)

输出

GGUF_MODEL(量化模型实例,含UNet/CLIP/VAE组件)

GGUF优势

相比FP16模型,Q4量化显存占用降低60-75%,速度提升20-40%

使用场景

低显存运行Flux/SD3等大模型、边缘部署、批量推理、速度优先场景

7.12.208    UnetLoaderGGUF

节点外观

节点介绍

属性

说明

核心作用

专门加载GGUF格式的UNet/DiT扩散模型权重

unet_name

GGUF量化UNet模型文件

weight_dtype

运行时权重类型:default(跟随量化)/fp16/bf16/fp32

输出

GGUF_UNET(UNet模型实例,可接入采样器)

与Load GGUF Model的区别

仅加载UNet部分,需配合独立CLIP和VAE使用;更灵活但配置复杂

使用场景

自定义模型组合、UNet单独升级、多CLIP实验、精细化配置

7.12.209  DualClipLoaderGGUF

节点外观

节点介绍

属性

说明

核心作用

加载双CLIP架构的文本编码器(CLIP-L + T5-XXL),用于Flux/SD3系列模型

clip_name1

主CLIP模型(clip_l/clip_g)

clip_name2

辅助文本模型(T5-XXL,支持FP16/FP8/GGUF量化)

type

架构类型:flux(Flux系列)/sd3(SD3系列)/sd3.5(SD3.5系列)

输出

DUAL_CLIP(双文本编码器实例,接入Conditioning)

使用场景

Flux模型文本编码、SD3系列文本理解、长文本处理、多语言支持

7.12.210  Load Flux Model

节点外观

节点介绍

属性

说明

核心作用

加载Black Forest Labs Flux系列扩散模型(当前开源SOTA文生图模型)

model_name

Flux模型变体:dev(开发版,质量最高)/schnell(快速版,4步生成)/fill(图像修复)/canny(边缘控制)/depth(深度控制)

weight_dtype

权重精度:default(原始)/fp8_e4m3fn(8位量化,省显存)/fp16

输出

FLUX_MODEL(完整Flux模型管道)

显存需求

dev FP16: 24GB+ / dev Q4: 8-12GB / schnell: 16GB+

使用场景

高质量文生图、图像修复(Inpainting)、边缘/深度控制生成、快速原型

7.12.211  Flux Guidance

节点外观

节点介绍

属性

说明

核心作用

Flux特有的引导增强节点,替代传统CFG机制,控制文本遵循度

model

Flux模型实例

conditioning

文本条件(来自双CLIP编码器)

guidance

引导强度(1.0-10.0,推荐3.0-4.0),越高越遵循文本但可能过曝

输出

CONDITIONING(增强后的条件,接入Flux采样器)

与CFG的区别

Flux使用直接引导而非Classifier-Free Guidance,无需负提示词

使用场景

Flux模型采样前处理、文本强度控制、无负提示生成、风格平衡

7.12.212  Load SD3 Model

节点外观

节点介绍

属性

说明

核心作用

加载Stability AI SD3/SD3.5系列多模态扩散模型

model_name

SD3变体:medium(20亿参数)/large(80亿参数)/sd3.5_large(改进版)/sd3.5_medium

text_encoder_dtype

文本编码器精度:fp16(标准)/fp8(省显存)/bf16

输出

SD3_MODEL(完整SD3模型管道,含MM-DiT架构)

架构特点

MM-DiT(Multimodal Diffusion Transformer),三CLIP文本编码器,原生多比例

使用场景

高质量文生图、字体渲染、多比例生成、复杂构图、专业设计

7.12.213  SD3 Text Encoder

节点外观

节点介绍

属性

说明

核心作用

SD3特有的三CLIP文本编码器,融合CLIP-L + CLIP-G + T5-XXL的文本理解

model

SD3模型实例(提供编码器配置)

clip_l/clip_g/t5xxl

三个文本编码器的独立输入(可单独使用或组合)

text

主文本提示词

输出

CONDITIONING(三编码器融合后的增强文本条件)

与DualClipLoaderGGUF的区别

这是SD3原生集成编码器,DualClipLoaderGGUF是通用双编码器加载器

使用场景

SD3系列模型文本编码、长文本理解、复杂语义解析、字体/排版生成

7.12.214  Load WAN Model

节点外观

节点介绍

属性

说明

核心作用

加载阿里巴巴WAN 2.1视频生成模型(当前开源SOTA视频生成模型)

model_name

WAN变体:t2v_14B(文生视频14B)/i2v_14B(图生视频14B)/fun_inp(视频修复)/Q4量化版

vae_path

配套VAE模型(WAN使用专用因果VAE)

输出

WAN_MODEL(WAN视频生成模型实例)

显存需求

14B FP16: 16-24GB / 14B Q4: 8-12GB / BF16: 需支持BF16的GPU

使用场景

高质量文生视频、图生视频、视频修复(Inpainting)、视频扩展、运动控制

7.12.215  WAN Video Sampler

节点外观

节点介绍

属性

说明

核心作用

WAN视频生成的核心采样器,在潜空间生成时序连贯的视频帧序列

model

WAN模型实例

positive/negative

正/负向文本条件

latent_image

起始潜空间图像(图生视频时传入,文生视频时传Empty Latent)

frames

生成帧数(81帧≈3秒,支持自定义)

cfg

CFG强度(WAN推荐4-6,低于传统SD)

输出

VIDEO_LATENT(视频潜空间数据,需VAE Decode解码)

使用场景

文生视频采样、图生视频采样、视频修复、视频风格迁移

7.12.216 . Load CogVideo Model

节点外观

节点介绍

属性

说明

核心作用

加载智谱AI CogVideo系列视频生成模型(中文理解优秀的开源视频模型)

model_name

CogVideo变体:5b_t2v(文生视频5B)/5b_i2v(图生视频5B)/2b(轻量版)/1.5系列(改进版)

dtype

模型精度:bf16(推荐,需支持BF16)/fp16/fp32

输出

COGVIDEO_MODEL(CogVideo模型实例)

显存需求

5B: 12-16GB / 2B: 6-8GB

使用场景

中文语义视频生成、图生视频、长视频生成、教育/演示视频、中文内容创作

7.12.217  CogVideo Sampler

节点外观

节点介绍

属性

说明

核心作用

CogVideo视频生成的核心采样器,支持文生视频和图生视频

model

CogVideo模型实例

num_frames

生成帧数(49帧≈6秒@8fps,支持更长序列)

fps

输出帧率(CogVideo原生8fps,可后期插帧)

输出

VIDEO_LATENT(视频潜空间数据)

与WAN Video Sampler的区别

CogVideo帧率较低(8fps)但序列更长,中文理解更好;WAN帧率更高(30fps),运动更流畅

使用场景

中文视频生成、长叙事视频、教育内容、图生视频扩展、风格化视频

7.12.218  Load Hunyuan Model

节点外观

节点介绍

属性

说明

核心作用

加载腾讯混元(Hunyuan)视频生成模型(多模态理解强的国产视频模型)

model_name

混元变体:t2v_720p(文生视频720P)/i2v_720p(图生视频720P)/t2v_540p(540P轻量版)

text_encoder_path

多模态LLaVA文本编码器(增强视觉-语言理解)

输出

HUNYUAN_MODEL(混元视频生成模型实例)

显存需求

720P: 16-24GB / 540P: 8-12GB

使用场景

高质量视频生成、多模态视频理解、中文场景视频、广告/营销视频、720P高清输出

7.12.219  Hunyuan Sampler

节点外观

节点介绍

属性

说明

核心作用

混元视频生成的核心采样器,支持高分辨率长视频生成

model

混元模型实例

prompt

文本提示(支持多模态理解,可描述复杂场景和动作)

image

参考图像(图生视频时传入)

video_length

视频帧数(129帧≈5秒@24fps,支持更长)

width/height

输出分辨率(支持720P/540P)

输出

VIDEO_LATENT(视频潜空间数据)

使用场景

高清视频生成、长视频叙事、多模态视频、商业视频制作、高分辨率输出

7.12.220  Load Kolors Model

节点外观

节点介绍

属性

说明

核心作用

加载快手可图(Kolors)图像生成模型(中文理解极强的国产文生图模型)

model_name

Kolors变体:基础版/inpainting(修复)/IP-Adapter(风格参考)/ControlNet(控制)

text_encoder_path

ChatGLM3文本编码器(千亿参数级中文理解,支持复杂中文描述)

输出

KOLORS_MODEL(可图模型实例)

显存需求

基础版: 16-20GB / 量化版: 8-12GB

使用场景

中文文生图、中国风图像、复杂中文语义理解、广告设计、插画创作、中文排版

7.12.221  Kolors Text Encode

节点外观

节点介绍

属性

说明

核心作用

使用ChatGLM3编码中文提示词,生成高质量文本条件

model

可图模型实例(提供ChatGLM3编码器)

prompt

中文正向提示词(可图核心优势:深度中文语义理解)

negative_prompt

中文负向提示词(支持中文负面描述)

输出

CONDITIONING(ChatGLM3编码的文本条件,接入Kolors采样器)

与CLIP Text Encode的区别

Kolors使用ChatGLM3替代CLIP,对中文古诗词、成语、文化概念理解更深

使用场景

中文图像生成、中国风创作、古诗词可视化、复杂中文描述、文化特定内容

完整串联:Flux + GGUF低显存文生图工作流

完整串联:WAN 2.1 文生视频工作流

完整串联:可图(Kolors) 中文文生图工作流

完整串联:SD3.5 + 三CLIP文本编码工作流

一句话总结

这15个节点是ComfyUI的"新一代引擎"——从Load GGUF Model/UnetLoaderGGUF的量化模型加载、DualClipLoaderGGUF的双编码器架构,到Load Flux Model/Flux Guidance的SOTA文生图、Load SD3 Model/SD3 Text Encoder的三CLIP多模态生成,再到Load WAN Model/WAN Video Sampler的当前最强开源视频生成、Load CogVideo Model/CogVideo Sampler的中文友好视频、Load Hunyuan Model/Hunyuan Sampler的高清长视频,以及Load Kolors Model/Kolors Text Encode的千亿参数中文图像生成,覆盖了2024-2025年最前沿的AI生成模型生态。掌握它们,你就能在消费级硬件上运行百亿参数大模型,实现媲美商业产品的图像/视频生成质量,并深度支持中文创作场景。

总计:230个节点

阶段

节点数

核心能力

基础生成核心

15

文生图/图生图

ControlNet控制

20

精准结构控制

图像预处理与编辑

15

图像处理

视频生成核心

20

图生视频/文生视频

视频处理与优化

25

插帧/超分/调色

深度与姿态视频

15

视频分析控制

换脸与角色一致性

20

人物一致性

音频生成与处理

30

音乐/音效/语音

音频后期与效果

20

专业音频后期

批量处理与自动化

20

规模化生产

实用工具与调试

15

工作流优化

高级扩展节点

15

最新模型支持

总计

230

全类型影视制作

与109节点的对比

维度

109节点

230节点

适用时长

10分钟短片

120分钟电影

模型覆盖

SD1.5/SDXL/Flux基础

  1. SD3/Wan/CogVideo/Hunyuan/Kolors

视频能力

基础生成+插帧

  1. 稳定/调色/跟踪/自动化

音频能力

基础生成

  1. 完整后期效果/测量

批量能力

简单列表/循环

  1. 条件分支/路由/监控

调试能力

基础预览

  1. 性能监控/日志/对比

扩展性

固定工作流

  1. 动态路由/条件执行

一句话总结

230个节点 = ComfyUI 实际可用的全栈节点类型,严格基于现有节点包和官方功能,覆盖从基础生成到电影级后期、从单张图片到120分钟成片的全流程。掌握这些节点,你就能在 ComfyUI 内完成任何类型、任何风格、任何时长的AI影视制作。

  1. 其他常用节点使用说明

8.1 

  1. 经典工作流

9.1 文生图

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐