作者:冰河
星球:http://m6z.cn/6aeFbs
博客:https://binghe.site
文章汇总:https://binghe.site/md/all/all.html
源码获取地址:https://t.zsxq.com/0dhvFs5oR

沉淀,成长,突破,帮助他人,成就自我。

大家好,我是冰河~~

在完成《智能代码审查系统》项目后,冰河又要带着大家搞新项目了,这也是 冰河技术 知识星球继《智能代码审查系统》、《智能知识库系统》、《AI优化-智能化机器学习平台》、《基于AI的智能成语挑战赛》、《多轮AI智能对话系统》、《一站式AI智能平台》、《AI智能客服系统》、《AI智能问答系统》、《高性能Redis组件》、《实战AI大模型》、《手写高性能脱敏组件》、《手写线程池》、《手写高性能SQL引擎》、《手写高性能Polaris网关》《手写高性能RPC》《Seckill秒杀系统》《分布式IM即时通讯系统》、《手写高性能熔断组件》、《手写高性能监控组件》、《简易商城脚手架》等诸多项目后,又一个带着大家从零开始手写的AI大模型项目。

说实话,这次的AI项目与以往不太一样,这次我要带大家实现一个企业级的AI全链路短剧生成平台,且听我慢慢道来。

星球其他项目与专栏,大家可移步到冰河的个人站点:https://binghe.site 进行查看。

没错,这次冰河带着大家手撸的项目叫做《AI全链路短剧生成平台》,这是一个基于多套AI Agent和 20+ AI大模型的企业级AI全链路短剧生成平台。

一、项目背景

哈哈,这个项目的背景其实也比较简单,随着AI的爆火,AI短剧也是火的一塌糊涂。抖音、西瓜视频、视频号、快手、优酷、红果视频等等,这些视频内容平台,上线了越来越多的AI短剧。其实,如果是纯人工基于AI做短剧还是比较繁琐的,要创作故事线,定人物,写大纲,设定剧本,生成分镜,生成配音,合成视频,出片等等。这一套下来,费神费力,没有专业的背景团队,根本撑不下来。

其实,我在很早前就在想:如果我自己写一套AI全链路短剧生成平台,输入一句提示,那这个AI全链路短剧生成平台全自动完成小说创作 → 故事线 → 大纲 → 剧本 → 分镜 → 图片 → 配音 → 视频 → 成片的完整流水线。输入一句话,出去吃个饭,逛个街,回来一看,成片已出,直接发布抖音、快手、优酷、小红书、视频号、红果视频等等。那我也能拍AI短剧了,还能比别人快,效率高,而且全程不用我自己干预。岂不爽哉?这样,我也能玩AI短剧了,并且我自己还能当导演、监制和制片人了。这一套下来,我甚至比一个短剧制作团队效率都高。

说干就干,有个想法后,我就开始着手调研和准备这个AI全链路短剧生成平台项目。经过一段时间的调研、设计、开发、测试、踩坑、修修补补、再测试、验证成片效果等等。总算是把这个项目完整跑通了,输入一句提示:全自动完成小说创作 → 故事线 → 大纲 → 剧本 → 分镜 → 图片 → 配音 → 视频 → 成片的完整流水线。于是乎,这个AI链路短剧生成平台就此诞生。

二、情景再现

小哥哥,小姐姐们:别再对着空白文档发呆了。这个AI全链路短剧平台能把你脑子里的“外卖小哥大战外星人”或者“霸道总裁爱上退休机甲师”,一路变成小说、剧本、分镜图、配音、最终导出一部带BGM和字幕的成片。你只管泡茶,剩下的交给AI全链路短剧生成平台。

想象一下:你晚上十点刷手机,突然灵光一闪——“如果唐僧是个脱口秀演员,去西天取经路上每到一个国家就开专场,那得有多炸?”

以前的流程是:打开Word → 写两章 → 卡文 → 刷B站 → 放弃。

现在的流程是:打开AI全链路短剧生成平台→ 输入这个脑洞 → 点一下“开始” → 睡觉 → 第二天早上收到一部15分钟的高质量短剧。

这不是科幻。 这玩意儿真的能跑通从零到成片的每一个环节。而且它不是简单调用一个AI写写画画——它背后是一整套多智能体协作系统,相当于你雇了一个编剧团队、一个分镜师团队、一个后期制作团队,然后它们自己开晨会、自己分工、自己检查,累了还能自动重试。

三、核心流水线

你不用每一步都亲自按,整个链条是全自动跑的,像工厂传送带一样:

画质足够

画质不足

失败

成功

AI写小说工厂

🏗️ 搭世界

🎭 捏人

📝 写大纲

📚 一章章写正文

💡 一句话脑洞 / 📁 写好的小说文件

🎯 从小说里抽故事主线

✂️ 自动切成每集大纲

🎬 AI导演审一遍

🧑‍🎤 提取角色长相/道具/场景
生成元素图片

📖 写剧本 500-800字/集

🎞️ 拆成一个个镜头
给每个镜头写AI画图提示词

🎨 生成分镜图

🔍 自动检查画质

🎥 生成视频片段
每个10-15秒

✨ 超分辨率抢救

✅ 生成是否成功?

🔄 自动重试:
换参数/改提示词/降画质保底

🎬 拼接视频:
加转场·烧字幕·混BGM
压配音轨·盖水印·贴片头尾

🎉 叮——你的短剧已出锅,请查收

中间你可以完全不管。如果你非得管,也可以随时暂停、跳过某一步、或者从断掉的地方重新跑。

四、核心模块布局

4.1 小说生成

你不是让一个AI帮你写小说,你是让7个不同职位的AI一起开会、吵架、修改、最终交稿。这7个角色是:

  • 世界架构师:告诉你这个世界有几块大陆、有什么超能力规则、货币叫啥。
  • 角色设计师:给每个主角写小传,包括“口头禅”“最怕的东西”“手机里存了什么歌”。
  • 情节架构师:拉出一条从第1章到第100章的主线,分好卷。
  • 章节规划师:细化到每一章讲啥、哪里埋钩子、第几章回收。
  • 小说写手:真正一章章写正文,而且是一边写一边推送到你前端,看着像真人打字。
  • 总编审:读完觉得不行就直接打回去,让写手重写。
  • 质检官:从7个维度打分——角色有没有行为不一致、伏笔有没有漏掉、爽点密度够不够、文笔像不像人写的……

为了不让长篇故事崩掉,系统维护了四层记忆

  • 固定记忆:世界观、基础设定,铁打的。
  • 角色记忆:张三爱喝冰美式,李四闻不了榴莲。
  • 短期记忆:上一章发生了什么。
  • 中长期记忆:50章前埋的伏笔,现在该提了。

还加了伏笔追踪功能:系统自动记录“第3章埋了这个梗,计划第27章揭晓”,到点了会提醒Agent别忘。

角色状态快照就更细了:每个角色当前位置、生命值、情绪值、背包里有什么、知道什么秘密……全给你记着。

最绝的是对话风格分化:系统级强制要求大模型输出时,让A角色每句带“咱就是说”,B角色每句结尾加“嗷”,C角色说话前先“咳”。效果立竿见影,不会串味。

顺带省钱:自研压缩格式,跟大模型来回通信时省30-60%的token。省下的钱干点啥,它不香吗?

4.2 全自动流水线:一次启动,挂机等收片

  • 11个步骤的状态全部存进Redis。就算你把Java服务重启了,启动后它会问Redis“我上次跑到哪了”,然后继续,不丢进度。
  • 你可以随时叫停、跳过某个环节(比如跳过AI写小说,直接用自己的小说)、或者强制重跑某一步。
  • 批量生产:一次提交20个项目,后台用Semaphore控制并发,榨干你的CPU和API额度。

4.3 视频生成:三次重试,比甲方还有耐心

视频生成API经常翻车——同样的提示词,十次里有两次画外星人像土豆。

AI全链路短剧生成平台做了三级自动重试

  1. 同样参数再试一次(可能是网络波动)。
  2. 让AI自己改写提示词再试(“要不换个说法?”)。
  3. 降低分辨率再试(1080p不行就720p,总比失败了强)。

还支持首尾帧衔接:前一个片段的最后一帧,作为下一个片段的第一帧,这样两个镜头接起来不会“嗖”地一下跳变。

最后用FFmpeg合成:转场特效、硬字幕烧录、混合BGM、叠加AI配音的音轨、盖水印、加片头片尾——全都自动化。

五、核心架构:产能无上限

5.1 技术架构

☁️ 云 OSS (S3 兼容)

⚙️ Spring Boot 3.3 主服务 (JDK 21)

🖥️ Vue 3 前端 (Nginx)

数据与缓存层

业务逻辑与适配层

接入与安全层

REST API

WebSocket (STOMP)

HTTP

🐍 Python FastAPI 微服务

任务处理引擎
图片超分 · 宫格图分割 · FFmpeg 视频合成 · 文档导出

核心技术栈
Vite + TypeScript + Pinia + Element Plus
UnoCSS + WebSocket STOMP + 响应式布局

21+ REST
Controller

3 套 Agent
系统(12角色)

AI 统一
Provider

Security
JWT + RBAC

Service
Layer

Tool
Registry

10+ 厂商
模型适配器

MyBatis-Plus
+ MySQL 8.0 (30表)

Redis 7+
分布式锁/状态/缓存

对象存储
图片 · 视频 · 配音 · 素材 · 导出文件

5.2 部署架构

看下面这张部署图,你就明白为什么了:

🗄️ 数据 / 处理 / 存储层

☕ Java 服务集群

🌐 接入层

HTTP

HTTP

HTTP

Nginx / SLB / CDN
负载均衡

Node 1
Spring Boot 3.3
JDK 21 虚拟线程
并发流水线 ×50+

Node 2
Spring Boot 3.3
JDK 21 虚拟线程
并发流水线 ×50+

Node N
Spring Boot 3.3
JDK 21 虚拟线程
并发流水线 ×50+

MySQL 8.0

Redis Cluster

🐍 Python 处理池

云 OSS S3

为什么能水平扩展?

  • Java服务完全无状态:流水线进度存在Redis里,任何一台节点都可以从Redis里认领任务继续跑。你加100台新机器,它们自己会抢活干。
  • JDK 21虚拟线程:传统线程池开几千个就到头了,虚拟线程可以开几十万个。单节点同时跑上千条流水线,跟玩儿一样。
  • Redis分布式锁:保证多节点抢任务、扣额度时不打架。
  • Python合成节点独立:视频合成这种CPU/GPU重活,单独扩,不影响AI生成。
  • 分镜级并发:一部剧30个分镜,同时调30路API生成图片,不用等上一个完成再下一个。

产能公式就是乘法:

产出速度 = 节点数量 × 单节点并发流水线数 × 模型API并发上限

只要云厂商不限流,你就可以无限加机器,无限提速。

实际参考值:

集群规模 单节点并发 单次批量产出 适合谁
1台(8C16G) 10-20条 10-20部/批 个人UP主
5台 10-20条 50-100部/批 小内容工作室
10台 10-20条 100-200部/批 中型MCN
N台 可调 理论无上限 工厂级批量生产

扩容不需要改任何代码,docker compose scale 或者 kubectl scale 一行命令完事。

六、技术栈选型

层级 选型 一句话理由
后端框架 Spring Boot 3.3 / JDK 21 虚拟线程,抗造
数据库 MySQL 8.0(可换TiDB/PolarDB) 30张表结构清晰,以后数据量大直接换分布式
ORM MyBatis-Plus 3.5 几乎不用手写SQL
缓存/协调 Redis 7+ 分布式锁+状态持久化+任务队列,三合一
认证 Spring Security + JWT + Redis Token能主动失效,支持4级角色权限
前端 Vue 3 + TypeScript + Vite Pinia状态管理,WebSocket实时推进度
UI Element Plus + UnoCSS 写样式快得像打字
Python服务 FastAPI + FFmpeg + NumPy 专门干重体力活:视频合成、图片超分
对象存储 AWS S3 / 阿里云 OSS / 腾讯云 COS S3兼容,一套代码跑所有云
容器化 Docker + docker-compose / K8s 一键部署,集群编排
文档导出 Apache POI + 自定义样式 支持TXT和带目录的DOCX,导出失败自动降级

七、支持20+AI大模型

在管理后台,你可以给每个功能模块独立绑定模型,运行时热切换,不用重启服务。

7.1 文本类(写小说、写剧本、Agent对话)

厂商 模型
通义千问 qwen-max、qwen-plus、qwen2.5-72b
DeepSeek deepseek-chat、deepseek-reasoner
豆包 doubao-seed系列
智谱 glm-4.5 / 4.6 / 4.7 / 5.x
OpenAI gpt-4o、gpt-4.1、gpt-5
Gemini gemini-2.5-pro、gemini-3.0-pro、gemini-2.5-flash、gemini-3.0-flash
Anthropic claude-opus-4-5/4-6/4-7、claude-sonnet-4-5/4-6
XAI grok-3、grok-4
其他 任意OpenAI兼容接口

7.2 图片类

厂商 模型
Gemini gemini-2.5-flash-image、gemini-3-pro-image
火山引擎 doubao-seedream-4-5
可灵 kling-image-o1
Vidu viduq1、viduq2
RunningHub nanobanana(没错,就叫小香蕉)

7.3 视频类

厂商 模型 时长
火山引擎 doubao-seedance-1-5-pro 2-12s
可灵 kling-v2-6(PRO) 5-10s
Vidu viduq3-pro 1-16s
万象 wan2.6-t2v/i2v 2-15s
Gemini veo-3.1 4-8s
Sora sora-2 (RunningHub/Apimart) 10-25s

7.4 TTS配音

  • 火山引擎:多音色、情感控制,能让反派说话带阴笑。

八、多智能体系统

8.1 第一组:小说生成(7个Agent)

NovelMainAgent(制片主任)
├── WorldArchitect(搭世界观)
├── CharacterDesigner(捏人设)
├── PlotArchitect(拉大纲)
├── ChapterPlanner(拆章概)
├── NovelWriter(写正文)
├── Editor(审稿)
└── QualityInspector(七维质检)

8.2 第二组:大纲故事线(3个Agent)

MainAgent(组长)
├── StorylineExtractor(故事线生成器)
├── OutlineGenerator(分集大纲生成器)
└── DirectorProxy(AI导演,负责审核)

8.3 第三组:分镜(2个Agent)

MainAgent(组长)
├── SegmentSplitter(片段拆分)
└── ShotPromptGenerator(镜头提示词生成)

所有Agent共享同一个底层框架:WebSocket实时通信、Tool调用、消息队列、断点恢复、日志追踪。你可以看到它们在后台聊天的记录(如果开调试模式的话)。

九、22个功能模块

模块 一句话解释
用户与认证 登录、JWT、4级权限(超管/管理员/创作者/查看者)
项目管理 增删改查项目,删除时会自动清理16张关联表
小说管理 上传已有小说,支持分章批量导入
AI小说生成 一键启动7Agent写小说
故事线管理 从小说里自动抽主线,你也可以手动改
大纲管理 分集大纲,同时自动抽角色/道具/场景清单
大纲故事线Agent 三个Agent对话生成大纲,你可以围观
资产管理 管理角色/道具/场景,批量生成它们的图片,提示词还能自动润色
剧本管理 自动生成500-800字短剧剧本
分镜管理 生成分镜图、切宫格图、批量超分
分镜Agent 片段师+分镜师协作,WebSocket实时看进度
图片生成 支持5+厂商,文生图/图生图,自动质检和超分
视频生成 支持7+厂商,三级自动重试,首尾帧衔接,多版本管理
视频合成 FFmpeg拼片、转场、字幕、BGM、配音、水印
AI配音 TTS多厂商,每个角色可单独配置音色,自动逐句配音
AI模型配置 管理多厂商模型,为每个功能绑定不同模型,热切换,测连通性
Prompt模板 存在数据库,支持用户自定义覆盖
素材库 BGM、片头片尾模板、水印图片,全局共享
小说导出 TXT或带目录的DOCX
生产监控 实时产量、各模型调用次数统计、流水线状态看板
全自动流水线 一键11步,批量提交,可配置审核节点,断点续跑
系统设置 全局配置、日志查看

十、企业级功能:别人有的它有,别人没有的它也有

能力 实现方式
分布式锁 Redis SETNX,用于扣配额、抢Agent会话
流水线状态持久化 Redis + MySQL双写,服务重启不丢进度
Agent内存管理 30分钟无活动自动回收,防OOM
配额管控 每日自动重置,分布式锁防并发超限
异步任务池 自定义ThreadPoolTaskExecutor,视频轮询用独立Scheduler
多租户隔离 项目级数据隔离,角色级功能隔离
智能重试 视频生成三级重试:原参数→AI润色Prompt→降分辨率
非阻塞轮询 轮询视频生成状态不占用业务线程
OkHttp连接池 共享HTTP客户端,避免连接池泄漏
优雅降级 DOCX导出失败自动降为TXT

十一、代码布局

story-video/
├── story-video-server/              # Spring Boot 3 主服务 — 整个项目的扛把子
│   └── src/main/java/io/binghe/ai/video/
│       ├── config/                 # 配置中心:Security让你别乱翻,CORS允许谁串门,Async异步干活,WebSocket实时唠嗑
│       ├── controller/             # 21个REST接口,前端喊什么我们应什么,一个萝卜一个坑
│       ├── entity/                 # 30张表对应的“模具”,数据库长啥样代码里就长啥样
│       ├── mapper/                 # MyBatis-Plus的搬运工,SQL?不存在的,它替你写
│       ├── service/                # 核心业务逻辑 + 流水线引擎,所有骚操作都在这儿
│       │   └── pipeline/           # 流水线状态机 + Redis持久化 — 跑断腿也不丢进度,重启照样接上
│       ├── agent/                  # 多智能体大本营,12个AI同事各司其职
│       │   ├── core/               # 基础框架:BaseAgent、会话管理、工具箱注册,Agent们的“娘胎”
│       │   ├── novel/              # 小说生成Agent(7个)— 世界架构师、角色设计师、写手… 一个编剧组全在这儿
│       │   ├── outline/            # 大纲故事线Agent(3个)— 故事师、大纲师、导演,帮你把小说理出头绪
│       │   └── storyboard/         # 分镜Agent(2个)— 片段师拆剧本,分镜师写提示词,配合默契
│       ├── ai/                     # AI提供商抽象层 — 换模型像换电池,厂商随便切,代码不用动
│       │   ├── provider/           # 文本/图片/视频的具体实现,每家厂商的“方言翻译官”
│       │   ├── model/              # 请求/响应封装,跟AI聊天时的“标准话术”
│       │   └── retry/              # 重试模板 — 一次不行就两次,两次不行降级,比销售还有韧性
│       ├── security/               # JWT + RBAC — 给每个人贴个“工牌”,谁该看什么一目了然
│       └── common/                 # 统一返回、异常、错误码 — 出事了也整整齐齐,不甩一锅乱码
├── python-service/                 # Python FastAPI微服务 — 干重活、累活、FFmpeg那种体力活
│   ├── main.py                     # 入口,一启动就等着Java大哥派活
│   ├── routers/                    # 图片/视频路由,不同的请求走不同的门
│   ├── services/                   # 图片超分、视频合成 — 把模糊变清晰,把片段拼成大片
│   └── utils/                      # FFmpeg工具封装,命令行? 不存在的,优雅调用
├── frontend/                       # Vue 3 前端 — 你点的每一个按钮,背后都是一场猛操作
│   └── src/
│       ├── views/                  # 页面组件 — 项目页、小说页、分镜页、视频页… 你看到啥就在这儿
│       ├── components/             # 可复用组件 — 按钮、弹窗、表格,哪儿需要哪儿搬
│       ├── api/                    # 与后端1:1对应的API封装 — 前端喊话的“传声筒”
│       ├── stores/                 # Pinia状态管理 — 数据存哪儿、怎么共享,全都归它管
│       ├── composables/            # WebSocket STOMP钩子 — 实时推送进度,让你盯着屏幕不焦虑
│       └── types/                  # TypeScript类型定义 — 给JS穿上“盔甲”,少出幺蛾子
└── doc/                            # 文档目录 — 写代码的人不想写但必须写的说明书

十二、本节总结

最后再啰嗦一句:AI全链路短剧生成平台不是那种“demo很酷,生产没法用”的项目。它从一开始就冲着企业级水平扩展、多租户隔离、断点续跑、智能重试这些硬指标去的。你现在拿它一天跑10部短剧,明天业务起来了,加几台机器就能一天跑100部,不用重构,不用求研发改代码。

接下来,就跟着冰河一起从零开始手撸企业级AI全链路短剧生成平台吧。

好了,今天就到这儿吧,我是冰河,我们下期见~~

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐