AI 短视频自动流水线搭建实战：ComfyUI + FLUX + HyperFrames 从配置到出片

Tiana33

231人浏览 · 2026-06-07 19:18:57

Tiana33 · 2026-06-07 19:18:57 发布

环境说明

组件	规格
GPU	AMD Radeon RX 7900 XTX（24GB VRAM）
OS	Ubuntu 24.04 + ROCm 7.2.4
生图引擎	ComfyUI（Flux1.dev-fp8 / Flux2-Klein-4B）
视频编译	HyperFrames（Headless Chrome + GSAP）
TTS	IndexTTS（本地 GPU 推理）
分辨率	1080×1920（竖屏 9:16）

目标

输入一个故事关键词（如"猴子捞月"），30 分钟内全自动输出一条 2 分钟绘本风格短视频，包含：

水彩风格插画序列
中文配音（可切换英文）
自动字幕（毫秒级声画对齐）
Ken Burns 推镜头特效

全文不涉及云端 API 调用，全部基于本地开源模型，单次运行成本 = 电费。

一、流水线架构总览

整个流水线分为 5 个模块，数据依次传递，无人工介入：

选题配置 → 分镜生成 → 批量生图 → TTS 配音 → 视频编译

1.1 选题配置层

在 config.json 中定义故事参数：

{
  "story": "猴子捞月",
  "style": "watercolor picture book, hand-drawn lines, soft colors",
  "voice": "female_gentle",
  "output": "output/monkey_moon.mp4",
  "lang": "zh"
}

1.2 分镜生成层

AI 自动搜索该故事的背景资料并拆解为 13 个分镜，每个分镜包含：

画面描述（英文，供生图模型使用）
旁白文本（中文，供 TTS 使用）
镜头时长（秒）

1.3 批量生图层

ComfyUI 接收分镜描述，调用 FLUX 模型批量渲染水彩风格插画。关键参数：

模型：Flux1.dev-fp8 / Flux2-Klein-4B
分辨率：1024×1024（后续裁剪为竖屏比例）
步数：20（FLUX）/ 4（Klein 蒸馏）
CFG：3.5

1.4 TTS 配音层

IndexTTS 接收旁白文本，生成中文女声朗诵音频。系统自动读取每段音频的结束时间戳，为后续字幕对齐提供精确时间轴。

1.5 视频编译层

HyperFrames 启动 Headless Chrome，将图片、音频、字幕、动画参数编译为最终 MP4。包含：

图片 Ken Burns 缩放（8% 慢推）
字幕逐字时间轴对齐
CSS 封面标题渲染（避免 AI 生图错字）

二、核心实现

2.1 Pipeline 启动命令

python3 pipeline.py --config config.json

2.2 后台执行链路

解析配置文件，加载故事主题
调用 LLM 生成分镜脚本（13 镜头，含中英文双语描述）
逐镜头向 ComfyUI API 发送生图请求（批处理）
所有图片生成完成后，启动 IndexTTS 生成配音
读取配音时间戳，生成字幕 JSON
调用 HyperFrames，在 Headless Chrome 中渲染最终视频
输出 MP4 到指定目录

2.3 流程耗时分布（实测，FLUX fp8 / 20步）

阶段	耗时
分镜生成	~2 min
13 张生图	~12 min
TTS 配音	~3 min
HyperFrames 编译	~10 min
总计	~27 min

三、踩坑记录与解决方案

3.1 问题一：全局风格词污染所有分镜

现象： 全局提示词中写了"深蓝月夜森林、温暖圆月、古老石井"，AI 把这三个元素塞进每一个分镜，导致第一幕猴群在林间玩耍时画面里也多了一口井。

原因： ComfyUI 的 CLIP Text Encode 会将全局提示词与分镜提示词叠加。全局词中的具象元素会无差别渗透。

解法： 全局提示词仅控制美术风格：

watercolor picture book, hand-drawn lines, soft colors, warm lighting

具体道具（月亮、水井）只写在对应分镜的局部提示词中。

3.2 问题二：动作描述歧义

现象： 提示词写 hanging，AI 生成的猴子全是正抓着树枝站着。

原因： FLUX 对 hanging 的理解偏向"悬挂着某物"，而非猴子以脚倒挂的物理姿态。

解法： 将动作描述扩展为精确的物理结构：

three cute brown monkeys hanging upside down by feet, head pointing downwards

3.3 问题三：角色重复出现

现象： AI 在同一个画面中生成两只一模一样的老猴子，左右对称排列。

原因： 偶数构图触发 AI 的原生对称偏好。

解法： 为每个分镜设置独立随机种子（seed），并将老猴位置从井沿改为草地，打破对称布局。

--seed 12841  # 每个分镜使用不同 seed

四、视频质量优化

4.1 封面标题渲染

AI 生图的中文渲染能力普遍较弱（FLUX 中文乱码、Ideogram 虽好但需联网）。解决方案是将封面制图分为两层：

生图层：提示词中加入 top half of the image has open clean deep blue night sky for text overlay，让 AI 在上半部分留出空白排版区
渲染层：在 HTML/CSS 中用 96px 字体渲染标题，带文本阴影，保证中文清晰