Comfyui 教程-19
6. 十分钟视频节点预估
从一个剧本到最终 10 分钟高质量短视频,在 ComfyUI 中需要数十个节点,按阶段组织。以下是完整节点清单和工作流架构:
6.1 整体流程概览

6.2 各阶段节点详细清单
6.2.1 第一阶段:剧本解析与分镜(5–10 节点)
|
节点 |
功能 |
说明 |
|
Load Text / String |
加载剧本文本 |
输入完整剧本 |
|
Text Split |
按场景/镜头分割 |
将剧本拆分为独立镜头描述 |
|
Prompt Builder |
构建图像提示词 |
每段转译为 AI 绘画提示词 |
|
Negative Prompt |
负面提示词模板 |
统一质量排除项 |
|
Save Prompt |
保存提示词序列 |
批量管理分镜提示 |
小计:5–8 节点
6.2.2 第二阶段:分镜图像生成(每镜 8–12 节点,× 分镜数)
假设 10 分钟视频约 30–60 个分镜(每镜 10–20 秒)
|
节点 |
功能 |
说明 |
|
Load Checkpoint |
加载底模(如 Flux Dev) |
统一画风 |
|
Load LoRA (×2–3) |
加载风格/人物 LoRA |
保持角色一致性 |
|
Load Embedding |
加载质量增强/负面 Embedding |
EasyNegative 等 |
|
CLIP Text Encode (×2) |
编码正负提示词 |
分镜提示词输入 |
|
KSampler |
图像采样生成 |
每镜生成 1 张关键帧 |
|
VAE Decode |
解码潜空间图像 |
|
|
Upscale Image |
4× 放大(RealESRGAN) |
关键帧高分辨率 |
|
Save Image |
保存分镜图 |
命名序列管理 |
|
IP-Adapter Apply (可选) |
人物一致性参考 |
用前镜角色参考后镜 |
|
ControlNet Apply (可选) |
姿态/深度控制 |
复杂动作场景 |
单镜节点:8–12 个
全部分镜:240–720 节点(按 30–60 镜计)
优化策略:使用批量生成节点、共享模型加载节点,可减少重复节点数。
6.2.3 第三阶段:视频生成(每镜 10–15 节点,× 分镜数)
|
节点 |
功能 |
说明 |
|
Load Image |
加载分镜关键帧 |
图生视频输入 |
|
Load Video Model |
加载视频生成模型 |
Wan 2.1 / CogVideoX I2V |
|
Video KSampler |
视频采样生成 |
8–24 帧,2–4 秒/段 |
|
VAE Decode Video |
解码视频潜空间 |
|
|
Frame Interpolation (RIFE) |
插帧至目标帧率 |
8fps → 24/30fps |
|
Video Upscale (可选) |
视频超分 |
如需更高分辨率 |
|
Save Video |
保存视频片段 |
序列命名 |
|
Load ControlNet (可选) |
姿态/深度控制 |
复杂动作 |
|
DWPose Video (可选) |
姿态序列提取 |
参考视频驱动 |
|
Depth Anything Video (可选) |
深度序列控制 |
空间层次 |
单镜节点:10–15 个
全部分镜:300–900 节点
优化策略:相同 ControlNet 条件可复用,减少重复加载。
6.2.4 第四阶段:音频生成(15–25 节点)
|
节点 |
功能 |
说明 |
|
Load Text |
加载音频描述/歌词 |
剧本音频需求 |
|
MusicGen Loader |
加载 MusicGen 模型 |
背景音乐生成 |
|
MusicGen Generate |
生成背景音乐 |
按场景情绪生成 |
|
AudioLDM Loader (可选) |
加载 AudioLDM |
音效生成 |
|
AudioLDM Generate |
生成环境音效 |
脚步声、风声等 |
|
RVC Loader |
加载声音转换模型 |
如需特定音色 |
|
RVC Convert |
转换语音音色 |
旁白/对白统一音色 |
|
VoiceFixer |
语音增强修复 |
去噪、增强清晰度 |
|
Demucs Separate (可选) |
音源分离 |
如需分轨处理 |
|
Load Audio |
加载参考音频 |
音效素材 |
|
Audio Mix |
多轨混音 |
BGM + 音效 + 语音 |
|
Audio Super-Resolution (可选) |
音频升采样 |
提升音质 |
|
Save Audio |
保存最终音轨 |
.wav / .flac |
小计:15–25 节点
6.2.5 第五阶段:后期合成与优化(20–35 节点)
|
节点 |
功能 |
说明 |
|
Load Video (×N) |
加载所有视频片段 |
分镜序列 |
|
Video Concatenate |
视频片段拼接 |
按时间线组合 |
|
Load Audio |
加载最终音轨 |
|
|
Audio Video Composite |
音视频合成 |
对齐时间轴 |
|
Deflicker |
去闪烁处理 |
消除帧间亮度跳动 |
|
Temporal Kit |
时序一致性优化 |
色彩/风格统一 |
|
RIFE Interpolate |
全局插帧 |
统一帧率 |
|
Video Upscale (BasicVSR++) |
最终视频超分 |
4K 输出 |
|
Color Grading |
色彩分级 |
统一影调 |
|
Add Subtitles (可选) |
添加字幕 |
Whisper 识别结果 |
|
Export Final |
编码输出 |
H.265/ProRes,最高画质 |
小计:20–35 节点
6.3 节点总数统计
|
阶段 |
节点数范围 |
说明 |
|
剧本解析与分镜 |
5–10 |
一次性 |
|
分镜图像生成 |
240–720 |
30–60 镜,可批量优化 |
|
视频生成 |
300–900 |
30–60 镜,可批量优化 |
|
音频生成 |
15–25 |
一次性 |
|
后期合成 |
20–35 |
一次性 |
|
总计 |
580–1690 |
未优化全量 |
|
优化后 |
200–500 |
复用模型加载、批量处理 |
6.4 优化策略(减少节点数)
|
策略 |
效果 |
实现方式 |
|
模型共享 |
减少 30–50% |
同一 Checkpoint/LoRA 用单一加载节点,多分支引用 |
|
批量生成节点 |
减少 40–60% |
用 Batch Prompt / Loop 节点批量处理分镜 |
|
工作流分组/子图 |
减少 20–30% |
将重复结构封装为子工作流 |
|
外部预处理 |
减少 20% |
剧本解析、提示词构建在外部完成 |
|
模板复用 |
减少 30% |
保存标准节点组,新项目直接加载 |
优化后典型节点数:
|
配置 |
节点数 |
适用场景 |
|
极简工作流 |
80–150 |
快速原型、概念验证 |
|
标准工作流 |
200–350 |
中等质量、批量生产 |
|
专业工作流 |
400–600 |
高质量、精细控制 |
|
电影级工作流 |
800+ |
逐帧精修、多版本对比 |
6.5 10 分钟视频关键参数
|
参数 |
数值 |
说明 |
|
分辨率 |
1920×1080 或 3840×2160 |
4K 输出需超分 |
|
帧率 |
24fps(电影)/ 30fps(标准) |
插帧后 |
|
总帧数 |
14,400(24fps)/ 18,000(30fps) |
10 分钟 |
|
分镜数 |
30–60 个 |
每镜 10–20 秒 |
|
每镜生成帧数 |
原始 48–96 帧(2–4 秒) |
插帧前 |
|
音频采样率 |
48kHz / 24bit |
专业音质 |
|
预估渲染时间 |
24–72 小时(单卡 4090) |
全工作流 |
6.6 、推荐工作流架构(优化后约 300 节点)

子图内部:
- 批量图像生成子图:共享模型加载 → 批量 KSampler → 批量 Upscale → 输出序列
- 批量视频生成子图:共享视频模型 → 批量 I2V → 批量插帧 → 输出片段
- 音频生成子图:MusicGen + AudioLDM + RVC + 混音
- 后期合成子图:拼接 → 音视频合成 → 去闪烁 → 超分 → 输出
一句话总结
10 分钟高质量短视频的 ComfyUI 工作流,全量展开约 600–1700 个节点,但经过模型共享、批量处理和子图封装优化后,可控制在 200–500 个节点。 核心瓶颈不在节点数量,而在显存管理、批量调度和迭代效率——建议将工作流拆分为标准化子图,配合外部脚本自动化分镜和提示词管理,才能实现可持续的规模化生产。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)