Comfyui 教程-28
下载:
7.12 第十二阶段:高级扩展节点(15个节点)
|
序号 |
节点类型 |
功能说明 |
|
216 |
Load GGUF Model |
加载GGUF量化模型 |
|
217 |
UnetLoaderGGUF |
GGUF UNet加载 |
|
218 |
DualClipLoaderGGUF |
GGUF双CLIP加载 |
|
219 |
Load Flux Model |
加载Flux模型 |
|
220 |
Flux Guidance |
Flux引导控制 |
|
221 |
Load SD3 Model |
加载SD3模型 |
|
222 |
SD3 Text Encoder |
SD3文本编码 |
|
223 |
Load WAN Model |
加载Wan视频模型 |
|
224 |
WAN Video Sampler |
Wan视频采样 |
|
225 |
Load CogVideo Model |
加载CogVideo模型 |
|
226 |
CogVideo Sampler |
CogVideo采样 |
|
227 |
Load Hunyuan Model |
加载混元模型 |
|
228 |
Hunyuan Sampler |
混元采样 |
|
229 |
Load Kolors Model |
加载可图模型 |
|
230 |
Kolors Text Encode |
可图中文编码 |
我来为您整理这15个GGUF与新一代生成模型节点的详细文档,保持与原文档一致的格式风格:
7.12.207 Load GGUF Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载GGUF格式量化模型,大幅降低显存占用,支持消费级GPU运行大模型 |
|
model_path |
GGUF模型文件路径,支持Q4/Q5/Q8等多种量化精度 |
|
clip_path |
配套CLIP文本编码器(Flux/SD3等模型需要) |
|
vae_path |
配套VAE/AE编码器(Flux等模型需要) |
|
输出 |
GGUF_MODEL(量化模型实例,含UNet/CLIP/VAE组件) |
|
GGUF优势 |
相比FP16模型,Q4量化显存占用降低60-75%,速度提升20-40% |
|
使用场景 |
低显存运行Flux/SD3等大模型、边缘部署、批量推理、速度优先场景 |
7.12.208 UnetLoaderGGUF
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
专门加载GGUF格式的UNet/DiT扩散模型权重 |
|
unet_name |
GGUF量化UNet模型文件 |
|
weight_dtype |
运行时权重类型:default(跟随量化)/fp16/bf16/fp32 |
|
输出 |
GGUF_UNET(UNet模型实例,可接入采样器) |
|
与Load GGUF Model的区别 |
仅加载UNet部分,需配合独立CLIP和VAE使用;更灵活但配置复杂 |
|
使用场景 |
自定义模型组合、UNet单独升级、多CLIP实验、精细化配置 |
7.12.209 DualClipLoaderGGUF
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载双CLIP架构的文本编码器(CLIP-L + T5-XXL),用于Flux/SD3系列模型 |
|
clip_name1 |
主CLIP模型(clip_l/clip_g) |
|
clip_name2 |
辅助文本模型(T5-XXL,支持FP16/FP8/GGUF量化) |
|
type |
架构类型:flux(Flux系列)/sd3(SD3系列)/sd3.5(SD3.5系列) |
|
输出 |
DUAL_CLIP(双文本编码器实例,接入Conditioning) |
|
使用场景 |
Flux模型文本编码、SD3系列文本理解、长文本处理、多语言支持 |
7.12.210 Load Flux Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载Black Forest Labs Flux系列扩散模型(当前开源SOTA文生图模型) |
|
model_name |
Flux模型变体:dev(开发版,质量最高)/schnell(快速版,4步生成)/fill(图像修复)/canny(边缘控制)/depth(深度控制) |
|
weight_dtype |
权重精度:default(原始)/fp8_e4m3fn(8位量化,省显存)/fp16 |
|
输出 |
FLUX_MODEL(完整Flux模型管道) |
|
显存需求 |
dev FP16: 24GB+ / dev Q4: 8-12GB / schnell: 16GB+ |
|
使用场景 |
高质量文生图、图像修复(Inpainting)、边缘/深度控制生成、快速原型 |
7.12.211 Flux Guidance
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
Flux特有的引导增强节点,替代传统CFG机制,控制文本遵循度 |
|
model |
Flux模型实例 |
|
conditioning |
文本条件(来自双CLIP编码器) |
|
guidance |
引导强度(1.0-10.0,推荐3.0-4.0),越高越遵循文本但可能过曝 |
|
输出 |
CONDITIONING(增强后的条件,接入Flux采样器) |
|
与CFG的区别 |
Flux使用直接引导而非Classifier-Free Guidance,无需负提示词 |
|
使用场景 |
Flux模型采样前处理、文本强度控制、无负提示生成、风格平衡 |
7.12.212 Load SD3 Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载Stability AI SD3/SD3.5系列多模态扩散模型 |
|
model_name |
SD3变体:medium(20亿参数)/large(80亿参数)/sd3.5_large(改进版)/sd3.5_medium |
|
text_encoder_dtype |
文本编码器精度:fp16(标准)/fp8(省显存)/bf16 |
|
输出 |
SD3_MODEL(完整SD3模型管道,含MM-DiT架构) |
|
架构特点 |
MM-DiT(Multimodal Diffusion Transformer),三CLIP文本编码器,原生多比例 |
|
使用场景 |
高质量文生图、字体渲染、多比例生成、复杂构图、专业设计 |
7.12.213 SD3 Text Encoder
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
SD3特有的三CLIP文本编码器,融合CLIP-L + CLIP-G + T5-XXL的文本理解 |
|
model |
SD3模型实例(提供编码器配置) |
|
clip_l/clip_g/t5xxl |
三个文本编码器的独立输入(可单独使用或组合) |
|
text |
主文本提示词 |
|
输出 |
CONDITIONING(三编码器融合后的增强文本条件) |
|
与DualClipLoaderGGUF的区别 |
这是SD3原生集成编码器,DualClipLoaderGGUF是通用双编码器加载器 |
|
使用场景 |
SD3系列模型文本编码、长文本理解、复杂语义解析、字体/排版生成 |
7.12.214 Load WAN Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载阿里巴巴WAN 2.1视频生成模型(当前开源SOTA视频生成模型) |
|
model_name |
WAN变体:t2v_14B(文生视频14B)/i2v_14B(图生视频14B)/fun_inp(视频修复)/Q4量化版 |
|
vae_path |
配套VAE模型(WAN使用专用因果VAE) |
|
输出 |
WAN_MODEL(WAN视频生成模型实例) |
|
显存需求 |
14B FP16: 16-24GB / 14B Q4: 8-12GB / BF16: 需支持BF16的GPU |
|
使用场景 |
高质量文生视频、图生视频、视频修复(Inpainting)、视频扩展、运动控制 |
7.12.215 WAN Video Sampler
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
WAN视频生成的核心采样器,在潜空间生成时序连贯的视频帧序列 |
|
model |
WAN模型实例 |
|
positive/negative |
正/负向文本条件 |
|
latent_image |
起始潜空间图像(图生视频时传入,文生视频时传Empty Latent) |
|
frames |
生成帧数(81帧≈3秒,支持自定义) |
|
cfg |
CFG强度(WAN推荐4-6,低于传统SD) |
|
输出 |
VIDEO_LATENT(视频潜空间数据,需VAE Decode解码) |
|
使用场景 |
文生视频采样、图生视频采样、视频修复、视频风格迁移 |
7.12.216 . Load CogVideo Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载智谱AI CogVideo系列视频生成模型(中文理解优秀的开源视频模型) |
|
model_name |
CogVideo变体:5b_t2v(文生视频5B)/5b_i2v(图生视频5B)/2b(轻量版)/1.5系列(改进版) |
|
dtype |
模型精度:bf16(推荐,需支持BF16)/fp16/fp32 |
|
输出 |
COGVIDEO_MODEL(CogVideo模型实例) |
|
显存需求 |
5B: 12-16GB / 2B: 6-8GB |
|
使用场景 |
中文语义视频生成、图生视频、长视频生成、教育/演示视频、中文内容创作 |
7.12.217 CogVideo Sampler
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
CogVideo视频生成的核心采样器,支持文生视频和图生视频 |
|
model |
CogVideo模型实例 |
|
num_frames |
生成帧数(49帧≈6秒@8fps,支持更长序列) |
|
fps |
输出帧率(CogVideo原生8fps,可后期插帧) |
|
输出 |
VIDEO_LATENT(视频潜空间数据) |
|
与WAN Video Sampler的区别 |
CogVideo帧率较低(8fps)但序列更长,中文理解更好;WAN帧率更高(30fps),运动更流畅 |
|
使用场景 |
中文视频生成、长叙事视频、教育内容、图生视频扩展、风格化视频 |
7.12.218 Load Hunyuan Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载腾讯混元(Hunyuan)视频生成模型(多模态理解强的国产视频模型) |
|
model_name |
混元变体:t2v_720p(文生视频720P)/i2v_720p(图生视频720P)/t2v_540p(540P轻量版) |
|
text_encoder_path |
多模态LLaVA文本编码器(增强视觉-语言理解) |
|
输出 |
HUNYUAN_MODEL(混元视频生成模型实例) |
|
显存需求 |
720P: 16-24GB / 540P: 8-12GB |
|
使用场景 |
高质量视频生成、多模态视频理解、中文场景视频、广告/营销视频、720P高清输出 |
7.12.219 Hunyuan Sampler
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
混元视频生成的核心采样器,支持高分辨率长视频生成 |
|
model |
混元模型实例 |
|
prompt |
文本提示(支持多模态理解,可描述复杂场景和动作) |
|
image |
参考图像(图生视频时传入) |
|
video_length |
视频帧数(129帧≈5秒@24fps,支持更长) |
|
width/height |
输出分辨率(支持720P/540P) |
|
输出 |
VIDEO_LATENT(视频潜空间数据) |
|
使用场景 |
高清视频生成、长视频叙事、多模态视频、商业视频制作、高分辨率输出 |
7.12.220 Load Kolors Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载快手可图(Kolors)图像生成模型(中文理解极强的国产文生图模型) |
|
model_name |
Kolors变体:基础版/inpainting(修复)/IP-Adapter(风格参考)/ControlNet(控制) |
|
text_encoder_path |
ChatGLM3文本编码器(千亿参数级中文理解,支持复杂中文描述) |
|
输出 |
KOLORS_MODEL(可图模型实例) |
|
显存需求 |
基础版: 16-20GB / 量化版: 8-12GB |
|
使用场景 |
中文文生图、中国风图像、复杂中文语义理解、广告设计、插画创作、中文排版 |
7.12.221 Kolors Text Encode
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
使用ChatGLM3编码中文提示词,生成高质量文本条件 |
|
model |
可图模型实例(提供ChatGLM3编码器) |
|
prompt |
中文正向提示词(可图核心优势:深度中文语义理解) |
|
negative_prompt |
中文负向提示词(支持中文负面描述) |
|
输出 |
CONDITIONING(ChatGLM3编码的文本条件,接入Kolors采样器) |
|
与CLIP Text Encode的区别 |
Kolors使用ChatGLM3替代CLIP,对中文古诗词、成语、文化概念理解更深 |
|
使用场景 |
中文图像生成、中国风创作、古诗词可视化、复杂中文描述、文化特定内容 |
完整串联:Flux + GGUF低显存文生图工作流

完整串联:WAN 2.1 文生视频工作流

完整串联:可图(Kolors) 中文文生图工作流

完整串联:SD3.5 + 三CLIP文本编码工作流

一句话总结
这15个节点是ComfyUI的"新一代引擎"——从Load GGUF Model/UnetLoaderGGUF的量化模型加载、DualClipLoaderGGUF的双编码器架构,到Load Flux Model/Flux Guidance的SOTA文生图、Load SD3 Model/SD3 Text Encoder的三CLIP多模态生成,再到Load WAN Model/WAN Video Sampler的当前最强开源视频生成、Load CogVideo Model/CogVideo Sampler的中文友好视频、Load Hunyuan Model/Hunyuan Sampler的高清长视频,以及Load Kolors Model/Kolors Text Encode的千亿参数中文图像生成,覆盖了2024-2025年最前沿的AI生成模型生态。掌握它们,你就能在消费级硬件上运行百亿参数大模型,实现媲美商业产品的图像/视频生成质量,并深度支持中文创作场景。
总计:230个节点
|
阶段 |
节点数 |
核心能力 |
|
基础生成核心 |
15 |
文生图/图生图 |
|
ControlNet控制 |
20 |
精准结构控制 |
|
图像预处理与编辑 |
15 |
图像处理 |
|
视频生成核心 |
20 |
图生视频/文生视频 |
|
视频处理与优化 |
25 |
插帧/超分/调色 |
|
深度与姿态视频 |
15 |
视频分析控制 |
|
换脸与角色一致性 |
20 |
人物一致性 |
|
音频生成与处理 |
30 |
音乐/音效/语音 |
|
音频后期与效果 |
20 |
专业音频后期 |
|
批量处理与自动化 |
20 |
规模化生产 |
|
实用工具与调试 |
15 |
工作流优化 |
|
高级扩展节点 |
15 |
最新模型支持 |
|
总计 |
230 |
全类型影视制作 |
与109节点的对比
|
维度 |
109节点 |
230节点 |
|
适用时长 |
10分钟短片 |
120分钟电影 |
|
模型覆盖 |
SD1.5/SDXL/Flux基础 |
|
|
视频能力 |
基础生成+插帧 |
|
|
音频能力 |
基础生成 |
|
|
批量能力 |
简单列表/循环 |
|
|
调试能力 |
基础预览 |
|
|
扩展性 |
固定工作流 |
|
一句话总结
230个节点 = ComfyUI 实际可用的全栈节点类型,严格基于现有节点包和官方功能,覆盖从基础生成到电影级后期、从单张图片到120分钟成片的全流程。掌握这些节点,你就能在 ComfyUI 内完成任何类型、任何风格、任何时长的AI影视制作。
8.1
9.1 文生图

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)