Comfyui 教程-28

放大的EZ

183人浏览 · 2026-06-12 10:32:15

放大的EZ · 2026-06-12 10:32:15 发布

下载：

7.12 第十二阶段：高级扩展节点（15个节点）

序号	节点类型	功能说明
216	Load GGUF Model	加载GGUF量化模型
217	UnetLoaderGGUF	GGUF UNet加载
218	DualClipLoaderGGUF	GGUF双CLIP加载
219	Load Flux Model	加载Flux模型
220	Flux Guidance	Flux引导控制
221	Load SD3 Model	加载SD3模型
222	SD3 Text Encoder	SD3文本编码
223	Load WAN Model	加载Wan视频模型
224	WAN Video Sampler	Wan视频采样
225	Load CogVideo Model	加载CogVideo模型
226	CogVideo Sampler	CogVideo采样
227	Load Hunyuan Model	加载混元模型
228	Hunyuan Sampler	混元采样
229	Load Kolors Model	加载可图模型
230	Kolors Text Encode	可图中文编码

我来为您整理这15个GGUF与新一代生成模型节点的详细文档，保持与原文档一致的格式风格：

7.12.207 Load GGUF Model

节点外观

节点介绍

属性	说明
核心作用	加载GGUF格式量化模型，大幅降低显存占用，支持消费级GPU运行大模型
model_path	GGUF模型文件路径，支持Q4/Q5/Q8等多种量化精度
clip_path	配套CLIP文本编码器（Flux/SD3等模型需要）
vae_path	配套VAE/AE编码器（Flux等模型需要）
输出	GGUF_MODEL（量化模型实例，含UNet/CLIP/VAE组件）
GGUF优势	相比FP16模型，Q4量化显存占用降低60-75%，速度提升20-40%
使用场景	低显存运行Flux/SD3等大模型、边缘部署、批量推理、速度优先场景

7.12.208 UnetLoaderGGUF

节点外观

节点介绍

属性	说明
核心作用	专门加载GGUF格式的UNet/DiT扩散模型权重
unet_name	GGUF量化UNet模型文件
weight_dtype	运行时权重类型：default(跟随量化)/fp16/bf16/fp32
输出	GGUF_UNET（UNet模型实例，可接入采样器）
与Load GGUF Model的区别	仅加载UNet部分，需配合独立CLIP和VAE使用；更灵活但配置复杂
使用场景	自定义模型组合、UNet单独升级、多CLIP实验、精细化配置

7.12.209 DualClipLoaderGGUF

节点外观

节点介绍

属性	说明
核心作用	加载双CLIP架构的文本编码器（CLIP-L + T5-XXL），用于Flux/SD3系列模型
clip_name1	主CLIP模型（clip_l/clip_g）
clip_name2	辅助文本模型（T5-XXL，支持FP16/FP8/GGUF量化）
type	架构类型：flux(Flux系列)/sd3(SD3系列)/sd3.5(SD3.5系列)
输出	DUAL_CLIP（双文本编码器实例，接入Conditioning）
使用场景	Flux模型文本编码、SD3系列文本理解、长文本处理、多语言支持

7.12.210 Load Flux Model

节点外观

节点介绍

属性	说明
核心作用	加载Black Forest Labs Flux系列扩散模型（当前开源SOTA文生图模型）
model_name	Flux模型变体：dev(开发版，质量最高)/schnell(快速版，4步生成)/fill(图像修复)/canny(边缘控制)/depth(深度控制)
weight_dtype	权重精度：default(原始)/fp8_e4m3fn(8位量化，省显存)/fp16
输出	FLUX_MODEL（完整Flux模型管道）
显存需求	dev FP16: 24GB+ / dev Q4: 8-12GB / schnell: 16GB+
使用场景	高质量文生图、图像修复(Inpainting)、边缘/深度控制生成、快速原型

7.12.211 Flux Guidance

节点外观

节点介绍

属性	说明
核心作用	Flux特有的引导增强节点，替代传统CFG机制，控制文本遵循度
model	Flux模型实例
conditioning	文本条件（来自双CLIP编码器）
guidance	引导强度（1.0-10.0，推荐3.0-4.0），越高越遵循文本但可能过曝
输出	CONDITIONING（增强后的条件，接入Flux采样器）
与CFG的区别	Flux使用直接引导而非Classifier-Free Guidance，无需负提示词
使用场景	Flux模型采样前处理、文本强度控制、无负提示生成、风格平衡

7.12.212 Load SD3 Model

节点外观

节点介绍

属性	说明
核心作用	加载Stability AI SD3/SD3.5系列多模态扩散模型
model_name	SD3变体：medium(20亿参数)/large(80亿参数)/sd3.5_large(改进版)/sd3.5_medium
text_encoder_dtype	文本编码器精度：fp16(标准)/fp8(省显存)/bf16
输出	SD3_MODEL（完整SD3模型管道，含MM-DiT架构）
架构特点	MM-DiT(Multimodal Diffusion Transformer)，三CLIP文本编码器，原生多比例
使用场景	高质量文生图、字体渲染、多比例生成、复杂构图、专业设计

7.12.213 SD3 Text Encoder

节点外观

节点介绍

属性	说明
核心作用	SD3特有的三CLIP文本编码器，融合CLIP-L + CLIP-G + T5-XXL的文本理解
model	SD3模型实例（提供编码器配置）
clip_l/clip_g/t5xxl	三个文本编码器的独立输入（可单独使用或组合）
text	主文本提示词
输出	CONDITIONING（三编码器融合后的增强文本条件）
与DualClipLoaderGGUF的区别	这是SD3原生集成编码器，DualClipLoaderGGUF是通用双编码器加载器
使用场景	SD3系列模型文本编码、长文本理解、复杂语义解析、字体/排版生成

7.12.214 Load WAN Model

节点外观

节点介绍

属性	说明
核心作用	加载阿里巴巴WAN 2.1视频生成模型（当前开源SOTA视频生成模型）
model_name	WAN变体：t2v_14B(文生视频14B)/i2v_14B(图生视频14B)/fun_inp(视频修复)/Q4量化版
vae_path	配套VAE模型（WAN使用专用因果VAE）
输出	WAN_MODEL（WAN视频生成模型实例）
显存需求	14B FP16: 16-24GB / 14B Q4: 8-12GB / BF16: 需支持BF16的GPU
使用场景	高质量文生视频、图生视频、视频修复(Inpainting)、视频扩展、运动控制

7.12.215 WAN Video Sampler

节点外观

节点介绍

属性	说明
核心作用	WAN视频生成的核心采样器，在潜空间生成时序连贯的视频帧序列
model	WAN模型实例
positive/negative	正/负向文本条件
latent_image	起始潜空间图像（图生视频时传入，文生视频时传Empty Latent）
frames	生成帧数（81帧≈3秒，支持自定义）
cfg	CFG强度（WAN推荐4-6，低于传统SD）
输出	VIDEO_LATENT（视频潜空间数据，需VAE Decode解码）
使用场景	文生视频采样、图生视频采样、视频修复、视频风格迁移

7.12.216 . Load CogVideo Model

节点外观

节点介绍

属性	说明
核心作用	加载智谱AI CogVideo系列视频生成模型（中文理解优秀的开源视频模型）
model_name	CogVideo变体：5b_t2v(文生视频5B)/5b_i2v(图生视频5B)/2b(轻量版)/1.5系列(改进版)
dtype	模型精度：bf16(推荐，需支持BF16)/fp16/fp32
输出	COGVIDEO_MODEL（CogVideo模型实例）
显存需求	5B: 12-16GB / 2B: 6-8GB
使用场景	中文语义视频生成、图生视频、长视频生成、教育/演示视频、中文内容创作

7.12.217 CogVideo Sampler

节点外观

节点介绍

属性	说明
核心作用	CogVideo视频生成的核心采样器，支持文生视频和图生视频
model	CogVideo模型实例
num_frames	生成帧数（49帧≈6秒@8fps，支持更长序列）
fps	输出帧率（CogVideo原生8fps，可后期插帧）
输出	VIDEO_LATENT（视频潜空间数据）
与WAN Video Sampler的区别	CogVideo帧率较低(8fps)但序列更长，中文理解更好；WAN帧率更高(30fps)，运动更流畅
使用场景	中文视频生成、长叙事视频、教育内容、图生视频扩展、风格化视频

7.12.218 Load Hunyuan Model

节点外观

节点介绍

属性	说明
核心作用	加载腾讯混元(Hunyuan)视频生成模型（多模态理解强的国产视频模型）
model_name	混元变体：t2v_720p(文生视频720P)/i2v_720p(图生视频720P)/t2v_540p(540P轻量版)
text_encoder_path	多模态LLaVA文本编码器（增强视觉-语言理解）
输出	HUNYUAN_MODEL（混元视频生成模型实例）
显存需求	720P: 16-24GB / 540P: 8-12GB
使用场景	高质量视频生成、多模态视频理解、中文场景视频、广告/营销视频、720P高清输出

7.12.219 Hunyuan Sampler

节点外观

节点介绍

属性	说明
核心作用	混元视频生成的核心采样器，支持高分辨率长视频生成
model	混元模型实例
prompt	文本提示（支持多模态理解，可描述复杂场景和动作）
image	参考图像（图生视频时传入）
video_length	视频帧数（129帧≈5秒@24fps，支持更长）
width/height	输出分辨率（支持720P/540P）
输出	VIDEO_LATENT（视频潜空间数据）
使用场景	高清视频生成、长视频叙事、多模态视频、商业视频制作、高分辨率输出

7.12.220 Load Kolors Model

节点外观

节点介绍

属性	说明
核心作用	加载快手可图(Kolors)图像生成模型（中文理解极强的国产文生图模型）
model_name	Kolors变体：基础版/inpainting(修复)/IP-Adapter(风格参考)/ControlNet(控制)
text_encoder_path	ChatGLM3文本编码器（千亿参数级中文理解，支持复杂中文描述）
输出	KOLORS_MODEL（可图模型实例）
显存需求	基础版: 16-20GB / 量化版: 8-12GB
使用场景	中文文生图、中国风图像、复杂中文语义理解、广告设计、插画创作、中文排版

7.12.221 Kolors Text Encode

节点外观

节点介绍

属性	说明
核心作用	使用ChatGLM3编码中文提示词，生成高质量文本条件
model	可图模型实例（提供ChatGLM3编码器）
prompt	中文正向提示词（可图核心优势：深度中文语义理解）
negative_prompt	中文负向提示词（支持中文负面描述）
输出	CONDITIONING（ChatGLM3编码的文本条件，接入Kolors采样器）
与CLIP Text Encode的区别	Kolors使用ChatGLM3替代CLIP，对中文古诗词、成语、文化概念理解更深
使用场景	中文图像生成、中国风创作、古诗词可视化、复杂中文描述、文化特定内容

完整串联：Flux + GGUF低显存文生图工作流

完整串联：WAN 2.1 文生视频工作流

完整串联：可图(Kolors) 中文文生图工作流

完整串联：SD3.5 + 三CLIP文本编码工作流

一句话总结

这15个节点是ComfyUI的"新一代引擎"——从Load GGUF Model/UnetLoaderGGUF的量化模型加载、DualClipLoaderGGUF的双编码器架构，到Load Flux Model/Flux Guidance的SOTA文生图、Load SD3 Model/SD3 Text Encoder的三CLIP多模态生成，再到Load WAN Model/WAN Video Sampler的当前最强开源视频生成、Load CogVideo Model/CogVideo Sampler的中文友好视频、Load Hunyuan Model/Hunyuan Sampler的高清长视频，以及Load Kolors Model/Kolors Text Encode的千亿参数中文图像生成，覆盖了2024-2025年最前沿的AI生成模型生态。掌握它们，你就能在消费级硬件上运行百亿参数大模型，实现媲美商业产品的图像/视频生成质量，并深度支持中文创作场景。

总计：230个节点

阶段	节点数	核心能力
基础生成核心	15	文生图/图生图
ControlNet控制	20	精准结构控制
图像预处理与编辑	15	图像处理
视频生成核心	20	图生视频/文生视频
视频处理与优化	25	插帧/超分/调色
深度与姿态视频	15	视频分析控制
换脸与角色一致性	20	人物一致性
音频生成与处理	30	音乐/音效/语音
音频后期与效果	20	专业音频后期
批量处理与自动化	20	规模化生产
实用工具与调试	15	工作流优化
高级扩展节点	15	最新模型支持
总计	230	全类型影视制作

与109节点的对比

维度	109节点	230节点
适用时长	10分钟短片	120分钟电影
模型覆盖	SD1.5/SDXL/Flux基础	SD3/Wan/CogVideo/Hunyuan/Kolors
视频能力	基础生成+插帧	稳定/调色/跟踪/自动化
音频能力	基础生成	完整后期效果/测量
批量能力	简单列表/循环	条件分支/路由/监控
调试能力	基础预览	性能监控/日志/对比
扩展性	固定工作流	动态路由/条件执行