Comfyui 教程-19

放大的EZ

227人浏览 · 2026-06-11 10:06:46

放大的EZ · 2026-06-11 10:06:46 发布

6. 十分钟视频节点预估

从一个剧本到最终 10 分钟高质量短视频，在 ComfyUI 中需要数十个节点，按阶段组织。以下是完整节点清单和工作流架构：

6.1 整体流程概览

6.2 各阶段节点详细清单

6.2.1 第一阶段：剧本解析与分镜（5–10 节点）

节点	功能	说明
Load Text / String	加载剧本文本	输入完整剧本
Text Split	按场景/镜头分割	将剧本拆分为独立镜头描述
Prompt Builder	构建图像提示词	每段转译为 AI 绘画提示词
Negative Prompt	负面提示词模板	统一质量排除项
Save Prompt	保存提示词序列	批量管理分镜提示

小计：5–8 节点

6.2.2 第二阶段：分镜图像生成（每镜 8–12 节点，× 分镜数）

假设 10 分钟视频约 30–60 个分镜（每镜 10–20 秒）

节点	功能	说明
Load Checkpoint	加载底模（如 Flux Dev）	统一画风
Load LoRA (×2–3)	加载风格/人物 LoRA	保持角色一致性
Load Embedding	加载质量增强/负面 Embedding	EasyNegative 等
CLIP Text Encode (×2)	编码正负提示词	分镜提示词输入
KSampler	图像采样生成	每镜生成 1 张关键帧
VAE Decode	解码潜空间图像
Upscale Image	4× 放大（RealESRGAN）	关键帧高分辨率
Save Image	保存分镜图	命名序列管理
IP-Adapter Apply (可选)	人物一致性参考	用前镜角色参考后镜
ControlNet Apply (可选)	姿态/深度控制	复杂动作场景

单镜节点：8–12 个

全部分镜：240–720 节点（按 30–60 镜计）

优化策略：使用批量生成节点、共享模型加载节点，可减少重复节点数。

6.2.3 第三阶段：视频生成（每镜 10–15 节点，× 分镜数）

节点	功能	说明
Load Image	加载分镜关键帧	图生视频输入
Load Video Model	加载视频生成模型	Wan 2.1 / CogVideoX I2V
Video KSampler	视频采样生成	8–24 帧，2–4 秒/段
VAE Decode Video	解码视频潜空间
Frame Interpolation (RIFE)	插帧至目标帧率	8fps → 24/30fps
Video Upscale (可选)	视频超分	如需更高分辨率
Save Video	保存视频片段	序列命名
Load ControlNet (可选)	姿态/深度控制	复杂动作
DWPose Video (可选)	姿态序列提取	参考视频驱动
Depth Anything Video (可选)	深度序列控制	空间层次

单镜节点：10–15 个

全部分镜：300–900 节点

优化策略：相同 ControlNet 条件可复用，减少重复加载。

6.2.4 第四阶段：音频生成（15–25 节点）

节点	功能	说明
Load Text	加载音频描述/歌词	剧本音频需求
MusicGen Loader	加载 MusicGen 模型	背景音乐生成
MusicGen Generate	生成背景音乐	按场景情绪生成
AudioLDM Loader (可选)	加载 AudioLDM	音效生成
AudioLDM Generate	生成环境音效	脚步声、风声等
RVC Loader	加载声音转换模型	如需特定音色
RVC Convert	转换语音音色	旁白/对白统一音色
VoiceFixer	语音增强修复	去噪、增强清晰度
Demucs Separate (可选)	音源分离	如需分轨处理
Load Audio	加载参考音频	音效素材
Audio Mix	多轨混音	BGM + 音效 + 语音
Audio Super-Resolution (可选)	音频升采样	提升音质
Save Audio	保存最终音轨	.wav / .flac

小计：15–25 节点

6.2.5 第五阶段：后期合成与优化（20–35 节点）

节点	功能	说明
Load Video (×N)	加载所有视频片段	分镜序列
Video Concatenate	视频片段拼接	按时间线组合
Load Audio	加载最终音轨
Audio Video Composite	音视频合成	对齐时间轴
Deflicker	去闪烁处理	消除帧间亮度跳动
Temporal Kit	时序一致性优化	色彩/风格统一
RIFE Interpolate	全局插帧	统一帧率
Video Upscale (BasicVSR++)	最终视频超分	4K 输出
Color Grading	色彩分级	统一影调
Add Subtitles (可选)	添加字幕	Whisper 识别结果
Export Final	编码输出	H.265/ProRes，最高画质

小计：20–35 节点

6.3 节点总数统计

阶段	节点数范围	说明
剧本解析与分镜	5–10	一次性
分镜图像生成	240–720	30–60 镜，可批量优化
视频生成	300–900	30–60 镜，可批量优化
音频生成	15–25	一次性
后期合成	20–35	一次性
总计	580–1690	未优化全量
优化后	200–500	复用模型加载、批量处理

6.4 优化策略（减少节点数）

策略	效果	实现方式
模型共享	减少 30–50%	同一 Checkpoint/LoRA 用单一加载节点，多分支引用
批量生成节点	减少 40–60%	用 Batch Prompt / Loop 节点批量处理分镜
工作流分组/子图	减少 20–30%	将重复结构封装为子工作流
外部预处理	减少 20%	剧本解析、提示词构建在外部完成
模板复用	减少 30%	保存标准节点组，新项目直接加载

优化后典型节点数：

配置	节点数	适用场景
极简工作流	80–150	快速原型、概念验证
标准工作流	200–350	中等质量、批量生产
专业工作流	400–600	高质量、精细控制
电影级工作流	800+	逐帧精修、多版本对比

6.5 10 分钟视频关键参数

参数	数值	说明
分辨率	1920×1080 或 3840×2160	4K 输出需超分
帧率	24fps（电影）/ 30fps（标准）	插帧后
总帧数	14,400（24fps）/ 18,000（30fps）	10 分钟
分镜数	30–60 个	每镜 10–20 秒
每镜生成帧数	原始 48–96 帧（2–4 秒）	插帧前
音频采样率	48kHz / 24bit	专业音质
预估渲染时间	24–72 小时（单卡 4090）	全工作流

6.6 、推荐工作流架构（优化后约 300 节点）

子图内部：

批量图像生成子图：共享模型加载 → 批量 KSampler → 批量 Upscale → 输出序列
批量视频生成子图：共享视频模型 → 批量 I2V → 批量插帧 → 输出片段
音频生成子图：MusicGen + AudioLDM + RVC + 混音
后期合成子图：拼接 → 音视频合成 → 去闪烁 → 超分 → 输出

一句话总结

10 分钟高质量短视频的 ComfyUI 工作流，全量展开约 600–1700 个节点，但经过模型共享、批量处理和子图封装优化后，可控制在 200–500 个节点。 核心瓶颈不在节点数量，而在显存管理、批量调度和迭代效率——建议将工作流拆分为标准化子图，配合外部脚本自动化分镜和提示词管理，才能实现可持续的规模化生产。