AI短剧/漫剧制作教程:从零到一的完整创作指南
无需专业剪辑技术,不用复杂软件操作,一个人就能搞定剧本、分镜、角色设计、动画生成、配乐全流程。这篇教程带你手把手入门。
一、写在前面:为什么现在人人都能做AI漫剧?
2026年是AI漫剧“十倍速增长”的一年,全年市场规模预计突破220亿元。传统漫剧制作需要多人协作、耗时8-12小时才能完成一集,而现在——借助OpenClaw、可灵、即梦等工具的组合——单集制作时间压缩至30分钟,零美术基础也能量产高质量漫剧。
但哪些工具是刚需、哪些是智商税?从剧本到成片到底要走几步?这篇教程将围绕“剧本→分镜→角色定妆→图片生成→首尾帧动画→配乐”六个环节,给你一份完整的技术路线图。
二、第一步:剧本创作(DeepSeek/Kimi + 结构化指令)
一部AI漫剧的灵魂是故事本身。用AI写剧本的关键在于——结构化输入。
2.1 剧本的核心要素
一个好的AI漫剧剧本必须包含:
- 场景描述:时间、地点、环境氛围
- 角色描述:姓名、性格、当前状态
- 情感/情绪:角色的心理状态和情绪转变
- 动作/旁白/台词:视觉化叙述
2.2 实战操作(以DeepSeek为例)
Step 1:头脑风暴,生成故事框架
用自然语言给AI一个初始概念。例如:
“我想创作一个古风悬疑故事,女主是失忆的捉妖师,开局被困在一座会吞噬记忆的妖楼里。”
DeepSeek会引导你深入设定世界观、角色性格和核心矛盾。
Step 2:向AI下达结构化指令
一个完整的剧本生成指令应该包含角色设定、场景描述、情感标注、台词对白四大模块。示例指令:
“请为我的故事生成前三幕的完整剧本:
第一幕:〖场景〗深夜,破败的妖楼顶层,四周漂浮着发光的符咒符文。〖角色〗女主清音(捉妖师),20出头,蓝白道袍,手持铜铃法器,表情警惕而迷茫。〖情绪〗她刚从梦中惊醒,发现记忆正在一点点消失,焦虑中夹杂着愤怒。〖对白〗清音(低声自语):‘这座楼在吸走我的记忆……我必须在天亮前逃出去。’
第二幕:〖场景〗楼梯转角,一只披着红袍的纸偶人突然出现。〖角色〗纸偶人,脸部是空白的纸面具,似乎在笑。〖情绪〗诡谲而危险的压迫感。”
2.3 实操技巧
- 长文本处理能力至关重要:DeepSeek的高效长文本处理能力,使其在构建世界观时展现出显著优势
- 情绪线索要贯穿全文:在每段对白旁明确标注“焦虑”“愤怒”“怀疑”等情绪词,为后续镜头运镜和配音提供依据
- 生成后用人工微调:AI生成的剧本需要你亲自掌控整体节奏和剧情走向
三、第二步:分镜脚本(结构化指令 + AI分镜工具)
分镜脚本是剧本到画面的“翻译器”。一个标准的分镜脚本指令应包含:景别、画面描述和角色对白/旁白。
3.1 分镜脚本模板格式
| 镜号 | 景别 | 运镜 | 画面描述 | 音效推荐 | 旁白/台词 | 时长(s) |
|---|---|---|---|---|---|---|
| 1 | 全景 | 缓慢推近 | 妖楼顶层,符咒漂浮在空中,夜风中符纸沙沙作响 | 风声、符纸摩擦声 | (无对白) | 3 |
| 2 | 中景 | 固定 | 清音从地上坐起,揉着太阳穴环顾四周 | 心跳声渐入 | 旁白:“这是哪里?为什么我会在这里?” | 4 |
| 3 | 特写 | 推进 | 清音的手腕上浮现出半透明的咒文纹路 | 诡异的弦乐 | 清音:“我的记忆……在消失?” | 3 |
| 4 | 远景 | 从左至右平移 | 纸偶人从阴影中走出,红袍飘动 | 纸人阴笑(音效)、弦乐骤升 | 纸偶人:“欢迎来到忘川楼,捉妖师大人。” | 5 |
| 5 | 中景 | 快速上升 | 清音瞬间起身,铜铃法器在手心亮起蓝光 | 铃铛声 + 鼓点 | 清音:“少装神弄鬼!给我让开——” | 4 |
3.2 工具推荐
- DeepSeek生成分镜文本:直接给出上述结构化描述,AI会帮你逐镜生成
- OpenClaw + Seed2.0 Skills:可实现“剧本→分镜设计→素材匹配→视频合成”全流程自动化
- FilmAction:30分钟完成从创意到带配音的成片,支持赛博、国风、手绘等20+风格
- WorkRally(腾讯视频) :工业级平台,覆盖从剧本解析、分镜生成到资产管理全链条
3.3 实操技巧
- 一支1-2分钟的短片大约需要8-15个分镜,不要贪多
- 分层生成比一次性输出更可靠:先用高质量生图模型定格关键帧,然后将这张图作为“首帧参考”,输入到视频生成模型中让画面动起来
四、第三步:角色定妆图(即梦/可灵/Seedream 4.0)
角色一致性是AI漫剧创作中最大的挑战——如何在10个不同场景里让主角“不换脸”,直接决定作品的整体质感。
4.1 需要生成的四个标准视角
| 视角 | 用途 | 生成要点 |
|---|---|---|
| 正面半身特写 | 角色展示、表情传递 | 面部细节丰富,发型、瞳孔色、首饰必须精准 |
| 正面全身照 | 站立场景、入镜画面 | 服装款式、腰带配饰、鞋子风格完整展示 |
| 侧面全身照 | 行走、奔跑动作参考 | 身材比例、衣物质感、头发飘动方向 |
| 反面全身照(背面全身照) | 背影镜头、转身动画起止帧 | 背后装饰、发型轮廓、披风/裙摆细节 |
4.2 实战操作:从“抽卡”到“可控”
方法一:基准照片法(即梦/参考图模式)
- 用基础提示词生成满意的主角形象样图
古风仙侠动漫男主,面部棱角分明,眼神锐利温柔不刺人,气质温文尔雅知书达礼,清冷高雅。身穿唐代古风服饰,主白色素雅干净,高雅不奢华,简约精致修饰。画面为人物三视图:正面全身照、侧面全身照、背面全身照,最左侧单独放大头部细节展示,人物下方配有服装细节与配饰介绍展示图,整体构图工整专业,高清线稿+上色,仙侠氛围感,干净高级
线条利落,少年感清冷
- 选择“生成超清图像”并保存为参考图
- 在后续生成中导入参考图(同样重复使用相同的基础描述词)
- 让AI算法强制参考已有特征向量进行渲染
方法二:身份卡法(Seedream 4.0/Gemini)
在每轮生成提示词中固定一个“身份标题”模板:
【角色身份卡】
角色名:清音
面部特征:鹅蛋脸、细长的丹凤眼(黑色瞳孔)、浅褐色皮肤、左耳有一枚小银环、深棕色及腰长发(半束发,两缕碎发垂在脸颊旁)
服装:蓝白渐变道袍,腰间系红绳,手腕绑铜铃法器
硬性否定:“没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色”
将此身份卡附加到每一张角色图的提示词中,AI的“爱自由发挥”倾向会被硬性约束。
4.3 实操技巧
- 先批量生成四个标准视角,再以此为锚点去扩展后续分镜图
- 不要试图一次性生成完美视频:先用高质量生图模型完成全部角色视觉锚点,再输入视频生成模型中让它动起来
- 即梦用户特别要注意用“左边”“右边”等方位词标注多角色位置,可明显提高生成精度
五、第四步:图片/素材生成(即梦/可灵/Midjourney)
当剧本、分镜、角色风格都已明确后,正式进入素材生成阶段。
5.1 工具选择与分工
- 即梦:动漫风格、角色一致性出色,与剪映生态无缝联动
- 可灵(Kling) :快手出品,真人角色一致性极致出色,图生视频能力行业公认第一梯队
- Midjourney/Stable Diffusion:可配合LoRA训练,适合需要高度定制化风格的进阶创作者
5.2 分镜图生成提示词公式
一个高质量的分镜图生成提示词应包含七要素:
【风格 / 画风】 + 【场景描述】 + 【角色动作 / 表情】 + 【视角与构图】 + 【光影与质感】 + 【情绪氛围】 + 【画面比例】
实战示例 —— 对应之前分镜脚本的第5镜“快速上升”:
提示词:国风漫画风格,水墨质感,古风玄幻。女主角清音,穿着蓝白渐变道袍,手腕上的铜铃法器亮起蓝光,瞬间起身,眼神从迷茫转为坚定。镜头是半仰视的中景,从下向上推,画面构图是倾斜的动态捕捉。光影:法器蓝光打在女主脸上,背景是破败的黑暗楼阁,有红纸符咒漂浮。情绪:从压制到爆发的转折。16:9 横屏。
5.3 实操技巧
- 批量生成时要重复用同一组基础描述词(如“古风水墨风格、女主清音、蓝白道袍、黑色丹凤眼、左耳银环”),减少参数波动
- 一张图生成多次:从不同结果中挑选出构图动态最符合脚本意图的一张
- 有些AI生成的图像可以直接用Photoshop或排版工具添加对话框和与脚本对白配套的文字气泡
六、第五步:首尾帧控制(图生视频 + 可灵/海螺/Wan2.1)
首尾帧是让静态漫画“活起来”的关键。通俗来说,你上传两张图片——一张作为首帧(视频开头),一张作为尾帧(视频结尾),AI会自动生成中间过渡的所有帧序列,输出一个流畅的连贯视频。
6.1 主流首尾帧工具对比
| 工具 | 核心优势 | 适合场景 |
|---|---|---|
| 可灵AI 2.1 | 首尾帧领域“天花板级”模型,影像理解与自然过渡业界顶尖 | 角色变身、分镜展示、商业质量要求高的项目 |
| 海螺AI | 最强复杂指令遵循 + 极限物理动态 + 大幅度运镜 | 打斗追逐等高动态画面 |
| 通义Wan2.1 | 百亿参数大模型,仅尾帧功能,变身转场丝滑 | 5~10秒快速动作 / 变身桥段 |
| PixVerse | 支持最多7张多关键帧生成,最长30秒连贯视频 | 复杂叙事(多动作步骤) |
6.2 实战操作:以可灵2.1为例
Step 1:生成两张恰当且视觉连贯的首尾帧图片
有多种方法获取首尾帧图片素材:相同提示词抽多张卡(适合角色原位展示)、修改提示词(适合人物物品的移动/消失)、使用FLUX或图像编辑模型对图片做局部编辑。
Step 2:编写首尾帧提示词
不要只写“让图a变到图b”,要详细描述你想要的过渡。
万能首尾帧提示词模板:
[主体动作描述/变化逻辑] + [运镜方式 + 速率] + [光影/情绪变化] + [时长(建议3~6秒)] + [否定排除项]
实战示例(从首帧“清音静坐”到尾帧“清音法器亮起”的过渡):
提示词:画面之中,女主清音静坐(首帧),法器铜铃亮起蓝光并自手腕漂浮起来。镜头从人物正面快速推近到特写,光蓝焰在画面右侧,最终定格在手握亮光铜铃的画面(尾帧),时长5秒。不要出现其他角色,脸部保持稳定不变形。
Step 3:生成长视频——可灵2.1让多分镜自然串联成一个完整视频,场景之间的衔接极为细腻自然。
6.3 进阶技巧:多帧融合(超过10秒的长视频)
大多数单次视频生成时长只有3-10秒。要制作超过10秒的长视频,需要使用“多片段拼接+首尾帧接力”的方法:
- 首帧输入素材 → 生成ClipA(0-5秒) → 提取ClipA的末帧作为片段B的首帧 → 设计片段C的首帧/末帧 → 让AI模型“填空”
通过这种“切片接力”方式,可生成任意长度、物理连贯的长叙事作品。
七、第六步:配音与配乐
7.1 配音(让角色“发声”)
工具推荐:MiniMax语音合成、剪映AI配音、ElevenLabs。
操作方法:用剧本中的台词逐一生成各角色的专属配音。以MiniMax为例:
- 用自然语言定制专属音色,输入诸如“年轻男性,玩世不恭,日漫男主音色”的描述,系统会根据描述生成对应的音色选项
- 按角色逐一注册命名音色,如“清音_冷静女捉妖师”“纸偶人_阴森反派”
- 对选中文本添加“紧张”“嘲讽”“愤怒”等情绪标签,插入停顿和换气符号,让配音更具“活人感”
配音实操小技巧:数据显示,通过优化配音情感与音色设计后,漫剧观众的留存率能提升70%。
7.2 配乐(BGM)
来源方式:
- AI音乐生成工具(如BGM猫、MiniMax音乐创作、可灵AI版权音乐库)——完全原创、无版权问题
- 无版权音乐素材库(如猴子音悦、剪映内置素材库)——即拿即用
- 商用音乐许可平台——适合用于商业变现
按情绪风格匹配:
- 热血/战斗:鼓点重、节奏快(如“日系风格,热血少年,有气势”)
- 悬疑/诡异:低音弦乐、无声段落、心跳音
- 温馨/治愈:轻柔钢琴、吉他、中慢速
- 情感爆发点:交响乐、高音、渐加强
音量平衡原则:音效 ≈ 对白音量 × 0.3 ≈ 配乐音量 × 0.5(即对白最清晰,配乐最低,音效居中度)。
7.3 结尾声明:版权与商用注意事项
- 商用前务必核实工具的授权协议: 很多AI生图/生视频/配音工具的个人免费版不允许商用盈利
- 音乐素材采用AI生成版时建议保留下载记录和版权授权说明书
- 已经发布到短视频平台的作品: 建议在简介或角标注明“本作品由AIGC辅助制作”字样,规避有些视频平台的特殊内容审查
八、快速成片技术路线速查表
| 创作环节 | 推荐工具 | 一句话指南 |
|---|---|---|
| 剧本 & 分镜写作 | DeepSeek / Kimi | 用“剧本+分镜”模板提交结构化指令 |
| 角色定妆/图片生成 | 即梦 / Midjourney / Seedream 4.0 | 一张精确完整的“身份卡”保你几十张图不换脸 |
| 图生视频/首尾帧 | 可灵 / 海螺 / Wan2.1 | 一组高相似度的首帧+尾帧图 = 一个流畅动作 |
| 配音 | MiniMax / 剪映AI配音 | 给每个角色个性化定制音色,活用情绪标签 |
| 配乐 | BGM猫 / 可灵音乐库 / 剪映BGM | 按剧情情绪匹配旋律风格,手动平衡音量 |
| 一体化交付 | OpenClaw + Seed2.0 / FilmAction | 全流程自动化,你只需要输入自然语言 |
环境配置选项对比
| 部署方式 | 核心优势 | 适用场景 |
|---|---|---|
| 本地/个人版 | 数据隐私可控、操作便捷 | 个人创意测试、敏感素材处理 |
| 云端/生产版 | 7×24小时稳定运行、算力充足 | 自媒体批量产出的制作者与小型工作室 |
九、结语:从“抽卡”到“工业化”
做一个优秀的AI漫剧创作者,底层的核心价值观依旧是“讲一个好故事”。技术让成本门槛降低,但没有抹杀你对创意、节奏、情绪的敏锐度。
与其被海量的工具和版本迭代搞晕,不如先从这篇教程的流程逐步尝试——做一个单人5分钟的小故事开始。用DeepSeek写出高效精细的剧本,用即梦生成首张完美的角色定妆图,再用可灵或海螺的“首尾帧”给出第一个3秒镜头。
AI漫剧创作始于好奇心,成于系统化的流程与不断优化。
✨ 附录:一句话复用的角色身份卡模板(纯文字范例)
(可直接复制修改)
『角色身份卡』
角色名:(例:清音)
面部精细识别:鹅蛋形脸/细长的丹凤眼/黑色瞳孔/高挑鼻梁/浅褐色皮肤/左耳佩戴一枚小银环
发型:深棕色及腰长发/半束发/两缕碎发垂在脸颊旁
服装识别:传统国风道袍/浅蓝至白色渐变/腰间系红绳/手腕上有编织铜铃法器
姿态标识:站姿挺拔/眼神坚定
一致性威胁对抗否定词:没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色 (非常必要!)
风格标签例:国风水墨漫画风格/16:9 横屏比例/冷色调月光/水墨笔触
> 每一张图或分镜都连带复制粘帖此身卡,可明显减少AI的任意发挥。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)