《AI全链路短剧生成平台》开篇:我要带你从零开始手撸一个企业级AI全链路短剧生成平台
作者:冰河
星球:http://m6z.cn/6aeFbs
博客:https://binghe.site
文章汇总:https://binghe.site/md/all/all.html
源码获取地址:https://t.zsxq.com/0dhvFs5oR
沉淀,成长,突破,帮助他人,成就自我。
大家好,我是冰河~~
在完成《智能代码审查系统》项目后,冰河又要带着大家搞新项目了,这也是 冰河技术 知识星球继《智能代码审查系统》、《智能知识库系统》、《AI优化-智能化机器学习平台》、《基于AI的智能成语挑战赛》、《多轮AI智能对话系统》、《一站式AI智能平台》、《AI智能客服系统》、《AI智能问答系统》、《高性能Redis组件》、《实战AI大模型》、《手写高性能脱敏组件》、《手写线程池》、《手写高性能SQL引擎》、《手写高性能Polaris网关》、《手写高性能RPC》、 《Seckill秒杀系统》 和《分布式IM即时通讯系统》、《手写高性能熔断组件》、《手写高性能监控组件》、《简易商城脚手架》等诸多项目后,又一个带着大家从零开始手写的AI大模型项目。
说实话,这次的AI项目与以往不太一样,这次我要带大家实现一个企业级的AI全链路短剧生成平台,且听我慢慢道来。
星球其他项目与专栏,大家可移步到冰河的个人站点:https://binghe.site 进行查看。
没错,这次冰河带着大家手撸的项目叫做《AI全链路短剧生成平台》,这是一个基于多套AI Agent和 20+ AI大模型的企业级AI全链路短剧生成平台。
一、项目背景
哈哈,这个项目的背景其实也比较简单,随着AI的爆火,AI短剧也是火的一塌糊涂。抖音、西瓜视频、视频号、快手、优酷、红果视频等等,这些视频内容平台,上线了越来越多的AI短剧。其实,如果是纯人工基于AI做短剧还是比较繁琐的,要创作故事线,定人物,写大纲,设定剧本,生成分镜,生成配音,合成视频,出片等等。这一套下来,费神费力,没有专业的背景团队,根本撑不下来。
其实,我在很早前就在想:如果我自己写一套AI全链路短剧生成平台,输入一句提示,那这个AI全链路短剧生成平台全自动完成小说创作 → 故事线 → 大纲 → 剧本 → 分镜 → 图片 → 配音 → 视频 → 成片的完整流水线。输入一句话,出去吃个饭,逛个街,回来一看,成片已出,直接发布抖音、快手、优酷、小红书、视频号、红果视频等等。那我也能拍AI短剧了,还能比别人快,效率高,而且全程不用我自己干预。岂不爽哉?这样,我也能玩AI短剧了,并且我自己还能当导演、监制和制片人了。这一套下来,我甚至比一个短剧制作团队效率都高。
说干就干,有个想法后,我就开始着手调研和准备这个AI全链路短剧生成平台项目。经过一段时间的调研、设计、开发、测试、踩坑、修修补补、再测试、验证成片效果等等。总算是把这个项目完整跑通了,输入一句提示:全自动完成小说创作 → 故事线 → 大纲 → 剧本 → 分镜 → 图片 → 配音 → 视频 → 成片的完整流水线。于是乎,这个AI链路短剧生成平台就此诞生。
二、情景再现
小哥哥,小姐姐们:别再对着空白文档发呆了。这个AI全链路短剧平台能把你脑子里的“外卖小哥大战外星人”或者“霸道总裁爱上退休机甲师”,一路变成小说、剧本、分镜图、配音、最终导出一部带BGM和字幕的成片。你只管泡茶,剩下的交给AI全链路短剧生成平台。
想象一下:你晚上十点刷手机,突然灵光一闪——“如果唐僧是个脱口秀演员,去西天取经路上每到一个国家就开专场,那得有多炸?”
以前的流程是:打开Word → 写两章 → 卡文 → 刷B站 → 放弃。
现在的流程是:打开AI全链路短剧生成平台→ 输入这个脑洞 → 点一下“开始” → 睡觉 → 第二天早上收到一部15分钟的高质量短剧。
这不是科幻。 这玩意儿真的能跑通从零到成片的每一个环节。而且它不是简单调用一个AI写写画画——它背后是一整套多智能体协作系统,相当于你雇了一个编剧团队、一个分镜师团队、一个后期制作团队,然后它们自己开晨会、自己分工、自己检查,累了还能自动重试。
三、核心流水线
你不用每一步都亲自按,整个链条是全自动跑的,像工厂传送带一样:
中间你可以完全不管。如果你非得管,也可以随时暂停、跳过某一步、或者从断掉的地方重新跑。
四、核心模块布局
4.1 小说生成
你不是让一个AI帮你写小说,你是让7个不同职位的AI一起开会、吵架、修改、最终交稿。这7个角色是:
- 世界架构师:告诉你这个世界有几块大陆、有什么超能力规则、货币叫啥。
- 角色设计师:给每个主角写小传,包括“口头禅”“最怕的东西”“手机里存了什么歌”。
- 情节架构师:拉出一条从第1章到第100章的主线,分好卷。
- 章节规划师:细化到每一章讲啥、哪里埋钩子、第几章回收。
- 小说写手:真正一章章写正文,而且是一边写一边推送到你前端,看着像真人打字。
- 总编审:读完觉得不行就直接打回去,让写手重写。
- 质检官:从7个维度打分——角色有没有行为不一致、伏笔有没有漏掉、爽点密度够不够、文笔像不像人写的……
为了不让长篇故事崩掉,系统维护了四层记忆:
- 固定记忆:世界观、基础设定,铁打的。
- 角色记忆:张三爱喝冰美式,李四闻不了榴莲。
- 短期记忆:上一章发生了什么。
- 中长期记忆:50章前埋的伏笔,现在该提了。
还加了伏笔追踪功能:系统自动记录“第3章埋了这个梗,计划第27章揭晓”,到点了会提醒Agent别忘。
角色状态快照就更细了:每个角色当前位置、生命值、情绪值、背包里有什么、知道什么秘密……全给你记着。
最绝的是对话风格分化:系统级强制要求大模型输出时,让A角色每句带“咱就是说”,B角色每句结尾加“嗷”,C角色说话前先“咳”。效果立竿见影,不会串味。
顺带省钱:自研压缩格式,跟大模型来回通信时省30-60%的token。省下的钱干点啥,它不香吗?
4.2 全自动流水线:一次启动,挂机等收片
- 11个步骤的状态全部存进Redis。就算你把Java服务重启了,启动后它会问Redis“我上次跑到哪了”,然后继续,不丢进度。
- 你可以随时叫停、跳过某个环节(比如跳过AI写小说,直接用自己的小说)、或者强制重跑某一步。
- 批量生产:一次提交20个项目,后台用Semaphore控制并发,榨干你的CPU和API额度。
4.3 视频生成:三次重试,比甲方还有耐心
视频生成API经常翻车——同样的提示词,十次里有两次画外星人像土豆。
AI全链路短剧生成平台做了三级自动重试:
- 同样参数再试一次(可能是网络波动)。
- 让AI自己改写提示词再试(“要不换个说法?”)。
- 降低分辨率再试(1080p不行就720p,总比失败了强)。
还支持首尾帧衔接:前一个片段的最后一帧,作为下一个片段的第一帧,这样两个镜头接起来不会“嗖”地一下跳变。
最后用FFmpeg合成:转场特效、硬字幕烧录、混合BGM、叠加AI配音的音轨、盖水印、加片头片尾——全都自动化。
五、核心架构:产能无上限
5.1 技术架构
5.2 部署架构
看下面这张部署图,你就明白为什么了:
为什么能水平扩展?
- Java服务完全无状态:流水线进度存在Redis里,任何一台节点都可以从Redis里认领任务继续跑。你加100台新机器,它们自己会抢活干。
- JDK 21虚拟线程:传统线程池开几千个就到头了,虚拟线程可以开几十万个。单节点同时跑上千条流水线,跟玩儿一样。
- Redis分布式锁:保证多节点抢任务、扣额度时不打架。
- Python合成节点独立:视频合成这种CPU/GPU重活,单独扩,不影响AI生成。
- 分镜级并发:一部剧30个分镜,同时调30路API生成图片,不用等上一个完成再下一个。
产能公式就是乘法:
产出速度 = 节点数量 × 单节点并发流水线数 × 模型API并发上限
只要云厂商不限流,你就可以无限加机器,无限提速。
实际参考值:
| 集群规模 | 单节点并发 | 单次批量产出 | 适合谁 |
|---|---|---|---|
| 1台(8C16G) | 10-20条 | 10-20部/批 | 个人UP主 |
| 5台 | 10-20条 | 50-100部/批 | 小内容工作室 |
| 10台 | 10-20条 | 100-200部/批 | 中型MCN |
| N台 | 可调 | 理论无上限 | 工厂级批量生产 |
扩容不需要改任何代码,docker compose scale 或者 kubectl scale 一行命令完事。
六、技术栈选型
| 层级 | 选型 | 一句话理由 |
|---|---|---|
| 后端框架 | Spring Boot 3.3 / JDK 21 | 虚拟线程,抗造 |
| 数据库 | MySQL 8.0(可换TiDB/PolarDB) | 30张表结构清晰,以后数据量大直接换分布式 |
| ORM | MyBatis-Plus 3.5 | 几乎不用手写SQL |
| 缓存/协调 | Redis 7+ | 分布式锁+状态持久化+任务队列,三合一 |
| 认证 | Spring Security + JWT + Redis | Token能主动失效,支持4级角色权限 |
| 前端 | Vue 3 + TypeScript + Vite | Pinia状态管理,WebSocket实时推进度 |
| UI | Element Plus + UnoCSS | 写样式快得像打字 |
| Python服务 | FastAPI + FFmpeg + NumPy | 专门干重体力活:视频合成、图片超分 |
| 对象存储 | AWS S3 / 阿里云 OSS / 腾讯云 COS | S3兼容,一套代码跑所有云 |
| 容器化 | Docker + docker-compose / K8s | 一键部署,集群编排 |
| 文档导出 | Apache POI + 自定义样式 | 支持TXT和带目录的DOCX,导出失败自动降级 |
七、支持20+AI大模型
在管理后台,你可以给每个功能模块独立绑定模型,运行时热切换,不用重启服务。
7.1 文本类(写小说、写剧本、Agent对话)
| 厂商 | 模型 |
|---|---|
| 通义千问 | qwen-max、qwen-plus、qwen2.5-72b |
| DeepSeek | deepseek-chat、deepseek-reasoner |
| 豆包 | doubao-seed系列 |
| 智谱 | glm-4.5 / 4.6 / 4.7 / 5.x |
| OpenAI | gpt-4o、gpt-4.1、gpt-5 |
| Gemini | gemini-2.5-pro、gemini-3.0-pro、gemini-2.5-flash、gemini-3.0-flash |
| Anthropic | claude-opus-4-5/4-6/4-7、claude-sonnet-4-5/4-6 |
| XAI | grok-3、grok-4 |
| 其他 | 任意OpenAI兼容接口 |
7.2 图片类
| 厂商 | 模型 |
|---|---|
| Gemini | gemini-2.5-flash-image、gemini-3-pro-image |
| 火山引擎 | doubao-seedream-4-5 |
| 可灵 | kling-image-o1 |
| Vidu | viduq1、viduq2 |
| RunningHub | nanobanana(没错,就叫小香蕉) |
7.3 视频类
| 厂商 | 模型 | 时长 |
|---|---|---|
| 火山引擎 | doubao-seedance-1-5-pro | 2-12s |
| 可灵 | kling-v2-6(PRO) | 5-10s |
| Vidu | viduq3-pro | 1-16s |
| 万象 | wan2.6-t2v/i2v | 2-15s |
| Gemini | veo-3.1 | 4-8s |
| Sora | sora-2 (RunningHub/Apimart) | 10-25s |
7.4 TTS配音
- 火山引擎:多音色、情感控制,能让反派说话带阴笑。
八、多智能体系统
8.1 第一组:小说生成(7个Agent)
NovelMainAgent(制片主任)
├── WorldArchitect(搭世界观)
├── CharacterDesigner(捏人设)
├── PlotArchitect(拉大纲)
├── ChapterPlanner(拆章概)
├── NovelWriter(写正文)
├── Editor(审稿)
└── QualityInspector(七维质检)
8.2 第二组:大纲故事线(3个Agent)
MainAgent(组长)
├── StorylineExtractor(故事线生成器)
├── OutlineGenerator(分集大纲生成器)
└── DirectorProxy(AI导演,负责审核)
8.3 第三组:分镜(2个Agent)
MainAgent(组长)
├── SegmentSplitter(片段拆分)
└── ShotPromptGenerator(镜头提示词生成)
所有Agent共享同一个底层框架:WebSocket实时通信、Tool调用、消息队列、断点恢复、日志追踪。你可以看到它们在后台聊天的记录(如果开调试模式的话)。
九、22个功能模块
| 模块 | 一句话解释 |
|---|---|
| 用户与认证 | 登录、JWT、4级权限(超管/管理员/创作者/查看者) |
| 项目管理 | 增删改查项目,删除时会自动清理16张关联表 |
| 小说管理 | 上传已有小说,支持分章批量导入 |
| AI小说生成 | 一键启动7Agent写小说 |
| 故事线管理 | 从小说里自动抽主线,你也可以手动改 |
| 大纲管理 | 分集大纲,同时自动抽角色/道具/场景清单 |
| 大纲故事线Agent | 三个Agent对话生成大纲,你可以围观 |
| 资产管理 | 管理角色/道具/场景,批量生成它们的图片,提示词还能自动润色 |
| 剧本管理 | 自动生成500-800字短剧剧本 |
| 分镜管理 | 生成分镜图、切宫格图、批量超分 |
| 分镜Agent | 片段师+分镜师协作,WebSocket实时看进度 |
| 图片生成 | 支持5+厂商,文生图/图生图,自动质检和超分 |
| 视频生成 | 支持7+厂商,三级自动重试,首尾帧衔接,多版本管理 |
| 视频合成 | FFmpeg拼片、转场、字幕、BGM、配音、水印 |
| AI配音 | TTS多厂商,每个角色可单独配置音色,自动逐句配音 |
| AI模型配置 | 管理多厂商模型,为每个功能绑定不同模型,热切换,测连通性 |
| Prompt模板 | 存在数据库,支持用户自定义覆盖 |
| 素材库 | BGM、片头片尾模板、水印图片,全局共享 |
| 小说导出 | TXT或带目录的DOCX |
| 生产监控 | 实时产量、各模型调用次数统计、流水线状态看板 |
| 全自动流水线 | 一键11步,批量提交,可配置审核节点,断点续跑 |
| 系统设置 | 全局配置、日志查看 |
十、企业级功能:别人有的它有,别人没有的它也有
| 能力 | 实现方式 |
|---|---|
| 分布式锁 | Redis SETNX,用于扣配额、抢Agent会话 |
| 流水线状态持久化 | Redis + MySQL双写,服务重启不丢进度 |
| Agent内存管理 | 30分钟无活动自动回收,防OOM |
| 配额管控 | 每日自动重置,分布式锁防并发超限 |
| 异步任务池 | 自定义ThreadPoolTaskExecutor,视频轮询用独立Scheduler |
| 多租户隔离 | 项目级数据隔离,角色级功能隔离 |
| 智能重试 | 视频生成三级重试:原参数→AI润色Prompt→降分辨率 |
| 非阻塞轮询 | 轮询视频生成状态不占用业务线程 |
| OkHttp连接池 | 共享HTTP客户端,避免连接池泄漏 |
| 优雅降级 | DOCX导出失败自动降为TXT |
十一、代码布局
story-video/
├── story-video-server/ # Spring Boot 3 主服务 — 整个项目的扛把子
│ └── src/main/java/io/binghe/ai/video/
│ ├── config/ # 配置中心:Security让你别乱翻,CORS允许谁串门,Async异步干活,WebSocket实时唠嗑
│ ├── controller/ # 21个REST接口,前端喊什么我们应什么,一个萝卜一个坑
│ ├── entity/ # 30张表对应的“模具”,数据库长啥样代码里就长啥样
│ ├── mapper/ # MyBatis-Plus的搬运工,SQL?不存在的,它替你写
│ ├── service/ # 核心业务逻辑 + 流水线引擎,所有骚操作都在这儿
│ │ └── pipeline/ # 流水线状态机 + Redis持久化 — 跑断腿也不丢进度,重启照样接上
│ ├── agent/ # 多智能体大本营,12个AI同事各司其职
│ │ ├── core/ # 基础框架:BaseAgent、会话管理、工具箱注册,Agent们的“娘胎”
│ │ ├── novel/ # 小说生成Agent(7个)— 世界架构师、角色设计师、写手… 一个编剧组全在这儿
│ │ ├── outline/ # 大纲故事线Agent(3个)— 故事师、大纲师、导演,帮你把小说理出头绪
│ │ └── storyboard/ # 分镜Agent(2个)— 片段师拆剧本,分镜师写提示词,配合默契
│ ├── ai/ # AI提供商抽象层 — 换模型像换电池,厂商随便切,代码不用动
│ │ ├── provider/ # 文本/图片/视频的具体实现,每家厂商的“方言翻译官”
│ │ ├── model/ # 请求/响应封装,跟AI聊天时的“标准话术”
│ │ └── retry/ # 重试模板 — 一次不行就两次,两次不行降级,比销售还有韧性
│ ├── security/ # JWT + RBAC — 给每个人贴个“工牌”,谁该看什么一目了然
│ └── common/ # 统一返回、异常、错误码 — 出事了也整整齐齐,不甩一锅乱码
├── python-service/ # Python FastAPI微服务 — 干重活、累活、FFmpeg那种体力活
│ ├── main.py # 入口,一启动就等着Java大哥派活
│ ├── routers/ # 图片/视频路由,不同的请求走不同的门
│ ├── services/ # 图片超分、视频合成 — 把模糊变清晰,把片段拼成大片
│ └── utils/ # FFmpeg工具封装,命令行? 不存在的,优雅调用
├── frontend/ # Vue 3 前端 — 你点的每一个按钮,背后都是一场猛操作
│ └── src/
│ ├── views/ # 页面组件 — 项目页、小说页、分镜页、视频页… 你看到啥就在这儿
│ ├── components/ # 可复用组件 — 按钮、弹窗、表格,哪儿需要哪儿搬
│ ├── api/ # 与后端1:1对应的API封装 — 前端喊话的“传声筒”
│ ├── stores/ # Pinia状态管理 — 数据存哪儿、怎么共享,全都归它管
│ ├── composables/ # WebSocket STOMP钩子 — 实时推送进度,让你盯着屏幕不焦虑
│ └── types/ # TypeScript类型定义 — 给JS穿上“盔甲”,少出幺蛾子
└── doc/ # 文档目录 — 写代码的人不想写但必须写的说明书
十二、本节总结
最后再啰嗦一句:AI全链路短剧生成平台不是那种“demo很酷,生产没法用”的项目。它从一开始就冲着企业级水平扩展、多租户隔离、断点续跑、智能重试这些硬指标去的。你现在拿它一天跑10部短剧,明天业务起来了,加几台机器就能一天跑100部,不用重构,不用求研发改代码。
接下来,就跟着冰河一起从零开始手撸企业级AI全链路短剧生成平台吧。
好了,今天就到这儿吧,我是冰河,我们下期见~~
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)