三个版本,三次飞跃——剧本智能导入、提示词管理系统、Veo 全系列适配,让 AI 动画创作从「能用」走向「好用」。


GitHub: https://github.com/twwch/AIComicBuilder

版本概览

版本 主题 核心能力
v0.2.0 剧本导入 Pipeline 上传小说/剧本,AI 自动拆集建角
v0.2.1 提示词管理系统 12 个提示词插槽,全局/项目级自定义,版本历史
v0.2.2 Veo 模型适配 & AI 优化 Google Veo 2.0/3.0/3.1 全系列支持,一键 AI 润色

一、剧本导入 Pipeline:四步流水线,全程可视化(v0.2.0)

这是 v0.2.0 最大的新功能。打开项目,点击「上传剧本」,支持 TXT、DOCX、PDF、Markdown 四种格式,拖拽上传,最大 20MB。

在这里插入图片描述

上传后,AI 自动执行四个步骤:

Step 1-2:文本解析 + 角色提取

AI 从全文中提取所有角色,统计出现频次,自动判断主角/配角。每个角色生成电影级视觉描述——体态、面部、发型、服装、武器、色彩调色板,直接可用于 AI 图像生成。角色卡片支持切换主角/配角身份。

在这里插入图片描述

Step 3:智能分集

AI 根据故事结构自动拆分为多集,每集生成标题、描述、关键词和详细创意构思,并展示该集出场角色。分集结果可编辑标题、删除不需要的集。

在这里插入图片描述

Step 4:一键创建

批量创建所有分集和角色,自动建立角色-分集关联关系。全流程日志记录,随时回看历史导入过程。


二、提示词管理系统:精细控制 AI 的每一个环节(v0.2.1)

这是 v0.2.1 的核心更新。AI Comic Builder 的生成流水线涉及 12 个不同的 AI 提示词(剧本生成、角色提取、分镜拆分、画面描述、视频提示词……),之前这些提示词硬编码在代码中,用户无法调整。

现在,每一个提示词都可以自定义

在这里插入图片描述

12 个提示词插槽

系统将所有 AI 提示词分为 5 大类:

类别 提示词 用途
剧本 script_generate / script_parse / script_split 生成剧本、解析结构、智能分集
角色 character_extract / import_character_extract / character_image 角色提取、视觉描述、四视图生成
分镜 shot_split 剧本拆分为单个镜头
画面 frame_generate_first / frame_generate_last / scene_frame_generate 首帧/尾帧/场景参考帧生成
视频 video_generate / ref_video_prompt_generate 视频提示词生成

每个提示词被拆解为多个可编辑插槽(Slot),比如 script_generate 包含 role_definition(角色定义)、language_rules(语言规则)、output_format(输出格式)、visual_style_section(视觉风格)等 7 个插槽。你可以只修改其中一个,其余保持默认。

三级优先级解析

项目级覆盖 > 全局级覆盖 > 代码默认值
  • 全局提示词:在设置页面统一管理,对所有项目生效
  • 项目提示词:在项目内单独覆盖,只影响当前项目
  • 代码默认:内置的精调提示词,开箱即用

两种编辑模式

  • 插槽模式:逐个修改每个插槽的内容,适合微调
  • 高级模式:直接编写完整提示词全文,适合深度定制

在这里插入图片描述

版本历史 & 预设

  • 每次修改自动记录版本,支持一键回滚到任意历史版本
  • 支持保存为预设模板,方便在不同项目间复用
  • 实时预览功能,修改后立即查看最终解析结果

导航入口

全局导航栏新增提示词管理图标,一键进入全局提示词设置页。项目内也有独立的提示词管理入口。

在这里插入图片描述


三、Veo 模型全系列适配(v0.2.2)

Google Veo 是目前最强大的视频生成模型之一。v0.2.2 实现了 Veo 2.0 / 3.0 / 3.1 的全系列适配。

三种生成模式

模式 输入 说明
关键帧模式 首帧 + 尾帧(可选) 标准 image-to-video,Veo 3.1+ 支持双帧
参考图模式 场景参考图 以参考图为基础生成视频
角色参考模式 角色参考图 + 场景帧 Veo 3.1+ 独占,最多 3 张参考图

版本差异自动适配

  • Veo 2.0:支持首帧 + 尾帧,时长 4/6/8 秒自动匹配
  • Veo 3.0:仅支持首帧(尾帧自动禁用)
  • Veo 3.1+:完整支持所有模式,包括角色参考图

系统自动检测模型版本,智能选择最佳生成策略。异步轮询处理长时间生成任务(最长 10 分钟),安全过滤器检测与错误报告。


四、AI 一键优化:让每段描述都更专业(v0.2.2)

分镜编辑器中的每个文本字段现在都有一个 ✨ 按钮——AI 优化

在这里插入图片描述

点击后弹出对话框,可以添加自定义优化指令。AI 会根据字段类型使用不同的优化策略:

字段 优化方向
场景描述 补充电影级细节——灯光类型、色彩分级、空间层次、氛围渲染
首帧描述 明确构图——取景框架、三分法、灯光、机位角度
尾帧描述 强调与首帧的动态对比——位置变化、表情、灯光、构图转换
运动脚本 规范为分段格式(“0-2s: … 2-4s: …”),四层描述(肢体、环境、镜头、氛围)
视频提示词 精炼为 40-70 字散文体,精准的物理运动描述(方向、速度、距离)

AI 自动保持原文语言(中文→中文,英文→英文),只输出优化后的文本。


五、分集连续生成 & 视频合并(v0.2.1)

分集衔接

在分镜生成时勾选「接续上一集」,系统会自动:

  1. 查找上一集的最后一个镜头
  2. 提取上一集的尾帧画面
  3. 将其复制为当前集的首帧

这样相邻两集在视觉上无缝衔接,不会出现画风断裂。

在这里插入图片描述

视频合并

分集列表新增「合并视频」模式:

  1. 点击「合并视频」进入多选模式
  2. 勾选 2 个以上已生成视频的分集
  3. 点击「合并选中」
  4. FFmpeg 按分集顺序自动拼接
  5. 预览合并结果,支持下载

六、更多改进

剧本自动保存

编辑剧本时不再需要手动保存。文本编辑后 1.5 秒自动存储,切出编辑器时也会触发保存。

项目级角色管理

主角和配角分区展示,每个角色卡片支持编辑、生成四视图、删除。角色在项目内共享,跨集复用。

在这里插入图片描述

生成流水线深度优化

  • 分镜生成:按 SCENE 标记自动拆分,并发调用 AI,解决长剧本 JSON 截断问题
  • 视频提示词:同时传入首帧和尾帧,AI 能精准描述过渡动作
  • 角色一致性:Gemini 生成画面时参考图标注角色名,强制服装一致
  • 批量并发:30 个 shot 同时生成提示词,速度大幅提升
  • 角色隔离:统一使用 episode_characters 关联表,只查本集角色

在这里插入图片描述

Markdown 文件导入

导入 Pipeline 新增 .md / .markdown 格式支持,方便直接导入 Markdown 格式的剧本或大纲。


技术架构亮点

系统 技术方案
提示词存储 prompt_templates + prompt_versions + prompt_presets 三表
提示词解析 三级优先级(项目 > 全局 > 默认),插槽级别粒度
状态管理 Zustand store,脏检测 + 自动保存
Veo 适配 Google GenAI SDK,版本自动检测,异步轮询
视频合并 FFmpeg 命令行调用,按分集顺序拼接
分集衔接 文件级帧复制,ULID 命名避免冲突
国际化 全部 UI 文本使用 next-intl,支持中/英/日/韩

升级方式

git pull
pnpm install
pnpm dev

数据库迁移在启动时自动执行。

Docker 用户:

docker pull twwch/aicomicbuilder:latest
docker compose up -d

下一步计划

  • 分集内角色解析后自动关联
  • 导入 Pipeline 支持断点续传
  • 更多视频模型适配(Sora、Runway)
  • 音频/配音集成

AI Comic Builder 是一个开源项目,欢迎 Star 和贡献:

GitHub: https://github.com/twwch/AIComicBuilder

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐