6. 十分钟视频节点预估

从一个剧本到最终 10 分钟高质量短视频,在 ComfyUI 中需要数十个节点,按阶段组织。以下是完整节点清单和工作流架构:

6.1  整体流程概览

6.2 各阶段节点详细清单

6.2.1 第一阶段:剧本解析与分镜(5–10 节点)

节点

功能

说明

Load Text / String

加载剧本文本

输入完整剧本

Text Split

按场景/镜头分割

将剧本拆分为独立镜头描述

Prompt Builder

构建图像提示词

每段转译为 AI 绘画提示词

Negative Prompt

负面提示词模板

统一质量排除项

Save Prompt

保存提示词序列

批量管理分镜提示

小计:5–8 节点

6.2.2 第二阶段:分镜图像生成(每镜 8–12 节点,× 分镜数)

假设 10 分钟视频约 30–60 个分镜(每镜 10–20 秒)

节点

功能

说明

Load Checkpoint

加载底模(如 Flux Dev)

统一画风

Load LoRA (×2–3)

加载风格/人物 LoRA

保持角色一致性

Load Embedding

加载质量增强/负面 Embedding

EasyNegative 等

CLIP Text Encode (×2)

编码正负提示词

分镜提示词输入

KSampler

图像采样生成

每镜生成 1 张关键帧

VAE Decode

解码潜空间图像

Upscale Image

4× 放大(RealESRGAN)

关键帧高分辨率

Save Image

保存分镜图

命名序列管理

IP-Adapter Apply (可选)

人物一致性参考

用前镜角色参考后镜

ControlNet Apply (可选)

姿态/深度控制

复杂动作场景

单镜节点:8–12 个

全部分镜:240–720 节点(按 30–60 镜计)

优化策略:使用批量生成节点、共享模型加载节点,可减少重复节点数。

6.2.3 第三阶段:视频生成(每镜 10–15 节点,× 分镜数)

节点

功能

说明

Load Image

加载分镜关键帧

图生视频输入

Load Video Model

加载视频生成模型

Wan 2.1 / CogVideoX I2V

Video KSampler

视频采样生成

8–24 帧,2–4 秒/段

VAE Decode Video

解码视频潜空间

Frame Interpolation (RIFE)

插帧至目标帧率

8fps → 24/30fps

Video Upscale (可选)

视频超分

如需更高分辨率

Save Video

保存视频片段

序列命名

Load ControlNet (可选)

姿态/深度控制

复杂动作

DWPose Video (可选)

姿态序列提取

参考视频驱动

Depth Anything Video (可选)

深度序列控制

空间层次

单镜节点:10–15 个

全部分镜:300–900 节点

优化策略:相同 ControlNet 条件可复用,减少重复加载。

6.2.4 第四阶段:音频生成(15–25 节点)

节点

功能

说明

Load Text

加载音频描述/歌词

剧本音频需求

MusicGen Loader

加载 MusicGen 模型

背景音乐生成

MusicGen Generate

生成背景音乐

按场景情绪生成

AudioLDM Loader (可选)

加载 AudioLDM

音效生成

AudioLDM Generate

生成环境音效

脚步声、风声等

RVC Loader

加载声音转换模型

如需特定音色

RVC Convert

转换语音音色

旁白/对白统一音色

VoiceFixer

语音增强修复

去噪、增强清晰度

Demucs Separate (可选)

音源分离

如需分轨处理

Load Audio

加载参考音频

音效素材

Audio Mix

多轨混音

BGM + 音效 + 语音

Audio Super-Resolution (可选)

音频升采样

提升音质

Save Audio

保存最终音轨

.wav / .flac

小计:15–25 节点

6.2.5 第五阶段:后期合成与优化(20–35 节点)

节点

功能

说明

Load Video (×N)

加载所有视频片段

分镜序列

Video Concatenate

视频片段拼接

按时间线组合

Load Audio

加载最终音轨

Audio Video Composite

音视频合成

对齐时间轴

Deflicker

去闪烁处理

消除帧间亮度跳动

Temporal Kit

时序一致性优化

色彩/风格统一

RIFE Interpolate

全局插帧

统一帧率

Video Upscale (BasicVSR++)

最终视频超分

4K 输出

Color Grading

色彩分级

统一影调

Add Subtitles (可选)

添加字幕

Whisper 识别结果

Export Final

编码输出

H.265/ProRes,最高画质

小计:20–35 节点

6.3  节点总数统计

阶段

节点数范围

说明

剧本解析与分镜

5–10

一次性

分镜图像生成

240–720

30–60 镜,可批量优化

视频生成

300–900

30–60 镜,可批量优化

音频生成

15–25

一次性

后期合成

20–35

一次性

总计

580–1690

未优化全量

优化后

200–500

复用模型加载、批量处理

6.4 优化策略(减少节点数)

策略

效果

实现方式

模型共享

减少 30–50%

同一 Checkpoint/LoRA 用单一加载节点,多分支引用

批量生成节点

减少 40–60%

用 Batch Prompt / Loop 节点批量处理分镜

工作流分组/子图

减少 20–30%

将重复结构封装为子工作流

外部预处理

减少 20%

剧本解析、提示词构建在外部完成

模板复用

减少 30%

保存标准节点组,新项目直接加载

优化后典型节点数

配置

节点数

适用场景

极简工作流

80–150

快速原型、概念验证

标准工作流

200–350

中等质量、批量生产

专业工作流

400–600

高质量、精细控制

电影级工作流

800+

逐帧精修、多版本对比

6.5 10 分钟视频关键参数

参数

数值

说明

分辨率

1920×1080 或 3840×2160

4K 输出需超分

帧率

24fps(电影)/ 30fps(标准)

插帧后

总帧数

14,400(24fps)/ 18,000(30fps)

10 分钟

分镜数

30–60 个

每镜 10–20 秒

每镜生成帧数

原始 48–96 帧(2–4 秒)

插帧前

音频采样率

48kHz / 24bit

专业音质

预估渲染时间

24–72 小时(单卡 4090)

全工作流

6.6 、推荐工作流架构(优化后约 300 节点)

子图内部

  1. 批量图像生成子图:共享模型加载 → 批量 KSampler → 批量 Upscale → 输出序列
  2. 批量视频生成子图:共享视频模型 → 批量 I2V → 批量插帧 → 输出片段
  3. 音频生成子图:MusicGen + AudioLDM + RVC + 混音
  4. 后期合成子图:拼接 → 音视频合成 → 去闪烁 → 超分 → 输出

一句话总结

10 分钟高质量短视频的 ComfyUI 工作流,全量展开约 600–1700 个节点,但经过模型共享、批量处理和子图封装优化后,可控制在 200–500 个节点。 核心瓶颈不在节点数量,而在显存管理、批量调度和迭代效率——建议将工作流拆分为标准化子图,配合外部脚本自动化分镜和提示词管理,才能实现可持续的规模化生产。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐