AI短剧/漫剧制作教程：从零到一的完整创作指南

极梦网络无忧

2038人浏览 · 2026-05-06 02:05:47

极梦网络无忧 · 2026-05-06 02:05:47 发布

无需专业剪辑技术，不用复杂软件操作，一个人就能搞定剧本、分镜、角色设计、动画生成、配乐全流程。这篇教程带你手把手入门。

一、写在前面：为什么现在人人都能做AI漫剧？

2026年是AI漫剧“十倍速增长”的一年，全年市场规模预计突破220亿元。传统漫剧制作需要多人协作、耗时8-12小时才能完成一集，而现在——借助OpenClaw、可灵、即梦等工具的组合——单集制作时间压缩至30分钟，零美术基础也能量产高质量漫剧。

但哪些工具是刚需、哪些是智商税？从剧本到成片到底要走几步？这篇教程将围绕“剧本→分镜→角色定妆→图片生成→首尾帧动画→配乐”六个环节，给你一份完整的技术路线图。

二、第一步：剧本创作（DeepSeek/Kimi + 结构化指令）

一部AI漫剧的灵魂是故事本身。用AI写剧本的关键在于——结构化输入。

2.1 剧本的核心要素

一个好的AI漫剧剧本必须包含：

场景描述：时间、地点、环境氛围
角色描述：姓名、性格、当前状态
情感/情绪：角色的心理状态和情绪转变
动作/旁白/台词：视觉化叙述

2.2 实战操作（以DeepSeek为例）

Step 1：头脑风暴，生成故事框架

用自然语言给AI一个初始概念。例如：

“我想创作一个古风悬疑故事，女主是失忆的捉妖师，开局被困在一座会吞噬记忆的妖楼里。”

DeepSeek会引导你深入设定世界观、角色性格和核心矛盾。

Step 2：向AI下达结构化指令

一个完整的剧本生成指令应该包含角色设定、场景描述、情感标注、台词对白四大模块。示例指令：

“请为我的故事生成前三幕的完整剧本：
第一幕：〖场景〗深夜，破败的妖楼顶层，四周漂浮着发光的符咒符文。〖角色〗女主清音（捉妖师），20出头，蓝白道袍，手持铜铃法器，表情警惕而迷茫。〖情绪〗她刚从梦中惊醒，发现记忆正在一点点消失，焦虑中夹杂着愤怒。〖对白〗清音（低声自语）：‘这座楼在吸走我的记忆……我必须在天亮前逃出去。’
第二幕：〖场景〗楼梯转角，一只披着红袍的纸偶人突然出现。〖角色〗纸偶人，脸部是空白的纸面具，似乎在笑。〖情绪〗诡谲而危险的压迫感。”

2.3 实操技巧

长文本处理能力至关重要：DeepSeek的高效长文本处理能力，使其在构建世界观时展现出显著优势
情绪线索要贯穿全文：在每段对白旁明确标注“焦虑”“愤怒”“怀疑”等情绪词，为后续镜头运镜和配音提供依据
生成后用人工微调：AI生成的剧本需要你亲自掌控整体节奏和剧情走向

三、第二步：分镜脚本（结构化指令 + AI分镜工具）

分镜脚本是剧本到画面的“翻译器”。一个标准的分镜脚本指令应包含：景别、画面描述和角色对白/旁白。

3.1 分镜脚本模板格式

镜号	景别	运镜	画面描述	音效推荐	旁白/台词	时长(s)
1	全景	缓慢推近	妖楼顶层，符咒漂浮在空中，夜风中符纸沙沙作响	风声、符纸摩擦声	（无对白）	3
2	中景	固定	清音从地上坐起，揉着太阳穴环顾四周	心跳声渐入	旁白：“这是哪里？为什么我会在这里？”	4
3	特写	推进	清音的手腕上浮现出半透明的咒文纹路	诡异的弦乐	清音：“我的记忆……在消失？”	3
4	远景	从左至右平移	纸偶人从阴影中走出，红袍飘动	纸人阴笑（音效）、弦乐骤升	纸偶人：“欢迎来到忘川楼，捉妖师大人。”	5
5	中景	快速上升	清音瞬间起身，铜铃法器在手心亮起蓝光	铃铛声 + 鼓点	清音：“少装神弄鬼！给我让开——”	4

3.2 工具推荐

DeepSeek生成分镜文本：直接给出上述结构化描述，AI会帮你逐镜生成
OpenClaw + Seed2.0 Skills：可实现“剧本→分镜设计→素材匹配→视频合成”全流程自动化
FilmAction：30分钟完成从创意到带配音的成片，支持赛博、国风、手绘等20+风格
WorkRally（腾讯视频） ：工业级平台，覆盖从剧本解析、分镜生成到资产管理全链条

3.3 实操技巧

一支1-2分钟的短片大约需要8-15个分镜，不要贪多
分层生成比一次性输出更可靠：先用高质量生图模型定格关键帧，然后将这张图作为“首帧参考”，输入到视频生成模型中让画面动起来

四、第三步：角色定妆图（即梦/可灵/Seedream 4.0）

角色一致性是AI漫剧创作中最大的挑战——如何在10个不同场景里让主角“不换脸”，直接决定作品的整体质感。

4.1 需要生成的四个标准视角

视角	用途	生成要点
正面半身特写	角色展示、表情传递	面部细节丰富，发型、瞳孔色、首饰必须精准
正面全身照	站立场景、入镜画面	服装款式、腰带配饰、鞋子风格完整展示
侧面全身照	行走、奔跑动作参考	身材比例、衣物质感、头发飘动方向
反面全身照（背面全身照）	背影镜头、转身动画起止帧	背后装饰、发型轮廓、披风/裙摆细节

4.2 实战操作：从“抽卡”到“可控”

方法一：基准照片法（即梦/参考图模式）

用基础提示词生成满意的主角形象样图

古风仙侠动漫男主，面部棱角分明，眼神锐利温柔不刺人，气质温文尔雅知书达礼，清冷高雅。身穿唐代古风服饰，主白色素雅干净，高雅不奢华，简约精致修饰。画面为人物三视图：正面全身照、侧面全身照、背面全身照，最左侧单独放大头部细节展示，人物下方配有服装细节与配饰介绍展示图，整体构图工整专业，高清线稿+上色，仙侠氛围感，干净高级
线条利落，少年感清冷

选择“生成超清图像”并保存为参考图
在后续生成中导入参考图（同样重复使用相同的基础描述词）
让AI算法强制参考已有特征向量进行渲染

方法二：身份卡法（Seedream 4.0/Gemini）

在每轮生成提示词中固定一个“身份标题”模板：

【角色身份卡】
角色名：清音
面部特征：鹅蛋脸、细长的丹凤眼（黑色瞳孔）、浅褐色皮肤、左耳有一枚小银环、深棕色及腰长发（半束发，两缕碎发垂在脸颊旁）
服装：蓝白渐变道袍，腰间系红绳，手腕绑铜铃法器
硬性否定：“没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色”

将此身份卡附加到每一张角色图的提示词中，AI的“爱自由发挥”倾向会被硬性约束。

4.3 实操技巧

先批量生成四个标准视角，再以此为锚点去扩展后续分镜图
不要试图一次性生成完美视频：先用高质量生图模型完成全部角色视觉锚点，再输入视频生成模型中让它动起来
即梦用户特别要注意用“左边”“右边”等方位词标注多角色位置，可明显提高生成精度

五、第四步：图片/素材生成（即梦/可灵/Midjourney）

当剧本、分镜、角色风格都已明确后，正式进入素材生成阶段。

5.1 工具选择与分工

即梦：动漫风格、角色一致性出色，与剪映生态无缝联动
可灵（Kling） ：快手出品，真人角色一致性极致出色，图生视频能力行业公认第一梯队
Midjourney/Stable Diffusion：可配合LoRA训练，适合需要高度定制化风格的进阶创作者

5.2 分镜图生成提示词公式

一个高质量的分镜图生成提示词应包含七要素：

【风格 / 画风】 + 【场景描述】 + 【角色动作 / 表情】 + 【视角与构图】 + 【光影与质感】 + 【情绪氛围】 + 【画面比例】

实战示例 —— 对应之前分镜脚本的第5镜“快速上升”：
提示词：国风漫画风格，水墨质感，古风玄幻。女主角清音，穿着蓝白渐变道袍，手腕上的铜铃法器亮起蓝光，瞬间起身，眼神从迷茫转为坚定。镜头是半仰视的中景，从下向上推，画面构图是倾斜的动态捕捉。光影：法器蓝光打在女主脸上，背景是破败的黑暗楼阁，有红纸符咒漂浮。情绪：从压制到爆发的转折。16:9 横屏。

5.3 实操技巧

批量生成时要重复用同一组基础描述词（如“古风水墨风格、女主清音、蓝白道袍、黑色丹凤眼、左耳银环”），减少参数波动
一张图生成多次：从不同结果中挑选出构图动态最符合脚本意图的一张
有些AI生成的图像可以直接用Photoshop或排版工具添加对话框和与脚本对白配套的文字气泡

六、第五步：首尾帧控制（图生视频 + 可灵/海螺/Wan2.1）

首尾帧是让静态漫画“活起来”的关键。通俗来说，你上传两张图片——一张作为首帧（视频开头），一张作为尾帧（视频结尾），AI会自动生成中间过渡的所有帧序列，输出一个流畅的连贯视频。

6.1 主流首尾帧工具对比

工具	核心优势	适合场景
可灵AI 2.1	首尾帧领域“天花板级”模型，影像理解与自然过渡业界顶尖	角色变身、分镜展示、商业质量要求高的项目
海螺AI	最强复杂指令遵循 + 极限物理动态 + 大幅度运镜	打斗追逐等高动态画面
通义Wan2.1	百亿参数大模型，仅尾帧功能，变身转场丝滑	5~10秒快速动作 / 变身桥段
PixVerse	支持最多7张多关键帧生成，最长30秒连贯视频	复杂叙事（多动作步骤）

6.2 实战操作：以可灵2.1为例

Step 1：生成两张恰当且视觉连贯的首尾帧图片

有多种方法获取首尾帧图片素材：相同提示词抽多张卡（适合角色原位展示）、修改提示词（适合人物物品的移动/消失）、使用FLUX或图像编辑模型对图片做局部编辑。

Step 2：编写首尾帧提示词

不要只写“让图a变到图b”，要详细描述你想要的过渡。

万能首尾帧提示词模板：

[主体动作描述/变化逻辑] + [运镜方式 + 速率] + [光影/情绪变化] + [时长（建议3~6秒）] + [否定排除项]

实战示例（从首帧“清音静坐”到尾帧“清音法器亮起”的过渡）：
提示词：画面之中，女主清音静坐（首帧），法器铜铃亮起蓝光并自手腕漂浮起来。镜头从人物正面快速推近到特写，光蓝焰在画面右侧，最终定格在手握亮光铜铃的画面（尾帧），时长5秒。不要出现其他角色，脸部保持稳定不变形。

Step 3：生成长视频——可灵2.1让多分镜自然串联成一个完整视频，场景之间的衔接极为细腻自然。

6.3 进阶技巧：多帧融合（超过10秒的长视频）

大多数单次视频生成时长只有3-10秒。要制作超过10秒的长视频，需要使用“多片段拼接+首尾帧接力”的方法：

首帧输入素材 → 生成ClipA（0-5秒） → 提取ClipA的末帧作为片段B的首帧 → 设计片段C的首帧/末帧 → 让AI模型“填空”

通过这种“切片接力”方式，可生成任意长度、物理连贯的长叙事作品。

七、第六步：配音与配乐

7.1 配音（让角色“发声”）

工具推荐：MiniMax语音合成、剪映AI配音、ElevenLabs。

操作方法：用剧本中的台词逐一生成各角色的专属配音。以MiniMax为例：

用自然语言定制专属音色，输入诸如“年轻男性，玩世不恭，日漫男主音色”的描述，系统会根据描述生成对应的音色选项
按角色逐一注册命名音色，如“清音_冷静女捉妖师”“纸偶人_阴森反派”
对选中文本添加“紧张”“嘲讽”“愤怒”等情绪标签，插入停顿和换气符号，让配音更具“活人感”

配音实操小技巧：数据显示，通过优化配音情感与音色设计后，漫剧观众的留存率能提升70%。

7.2 配乐（BGM）

来源方式：

AI音乐生成工具（如BGM猫、MiniMax音乐创作、可灵AI版权音乐库）——完全原创、无版权问题
无版权音乐素材库（如猴子音悦、剪映内置素材库）——即拿即用
商用音乐许可平台——适合用于商业变现

按情绪风格匹配：

热血/战斗：鼓点重、节奏快（如“日系风格，热血少年，有气势”）
悬疑/诡异：低音弦乐、无声段落、心跳音
温馨/治愈：轻柔钢琴、吉他、中慢速
情感爆发点：交响乐、高音、渐加强

音量平衡原则：音效 ≈ 对白音量 × 0.3 ≈ 配乐音量 × 0.5（即对白最清晰，配乐最低，音效居中度）。

7.3 结尾声明：版权与商用注意事项

商用前务必核实工具的授权协议： 很多AI生图/生视频/配音工具的个人免费版不允许商用盈利
音乐素材采用AI生成版时建议保留下载记录和版权授权说明书
已经发布到短视频平台的作品： 建议在简介或角标注明“本作品由AIGC辅助制作”字样，规避有些视频平台的特殊内容审查

八、快速成片技术路线速查表

创作环节	推荐工具	一句话指南
剧本 & 分镜写作	DeepSeek / Kimi	用“剧本+分镜”模板提交结构化指令
角色定妆/图片生成	即梦 / Midjourney / Seedream 4.0	一张精确完整的“身份卡”保你几十张图不换脸
图生视频/首尾帧	可灵 / 海螺 / Wan2.1	一组高相似度的首帧+尾帧图 = 一个流畅动作
配音	MiniMax / 剪映AI配音	给每个角色个性化定制音色，活用情绪标签
配乐	BGM猫 / 可灵音乐库 / 剪映BGM	按剧情情绪匹配旋律风格，手动平衡音量
一体化交付	OpenClaw + Seed2.0 / FilmAction	全流程自动化，你只需要输入自然语言

环境配置选项对比

部署方式	核心优势	适用场景
本地/个人版	数据隐私可控、操作便捷	个人创意测试、敏感素材处理
云端/生产版	7×24小时稳定运行、算力充足	自媒体批量产出的制作者与小型工作室

九、结语：从“抽卡”到“工业化”

做一个优秀的AI漫剧创作者，底层的核心价值观依旧是“讲一个好故事”。技术让成本门槛降低，但没有抹杀你对创意、节奏、情绪的敏锐度。

与其被海量的工具和版本迭代搞晕，不如先从这篇教程的流程逐步尝试——做一个单人5分钟的小故事开始。用DeepSeek写出高效精细的剧本，用即梦生成首张完美的角色定妆图，再用可灵或海螺的“首尾帧”给出第一个3秒镜头。

AI漫剧创作始于好奇心，成于系统化的流程与不断优化。

✨ 附录：一句话复用的角色身份卡模板（纯文字范例）

（可直接复制修改）

『角色身份卡』

角色名：（例：清音）  
面部精细识别：鹅蛋形脸/细长的丹凤眼/黑色瞳孔/高挑鼻梁/浅褐色皮肤/左耳佩戴一枚小银环  
发型：深棕色及腰长发/半束发/两缕碎发垂在脸颊旁  
服装识别：传统国风道袍/浅蓝至白色渐变/腰间系红绳/手腕上有编织铜铃法器  
姿态标识：站姿挺拔/眼神坚定  
一致性威胁对抗否定词：没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色 （非常必要！）  
风格标签例：国风水墨漫画风格/16:9 横屏比例/冷色调月光/水墨笔触

> 每一张图或分镜都连带复制粘帖此身卡，可明显减少AI的任意发挥。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

TCP 三次握手与四次挥手

本文深入解析了TCP协议中的三次握手与四次挥手机制，从报文结构、状态机转换到实战抓包分析。三次握手通过SYN、SYN-ACK、ACK报文建立双向连接，确保双方收发能力正常；四次挥手通过FIN、ACK报文独立关闭双向通道。文章还探讨了关键问题：为什么需要三次握手而非两次/四次、随机初始序列号的作用、SYN Flood攻击与防御、CLOSE_WAIT泄漏以及TIME_WAIT状态持续2MSL的原因。通

AtomGit开源社区

Agent Skills 完全指南：AI 编程助手的标准化“能力包”

本文介绍了AI编程助手（如Claude Code）中的Agent Skills机制，这是一种标准化、可复用的"能力包"系统。Skills不同于一次性指令，而是将复杂工作流程（如代码审查、自动部署）封装为可共享的操作手册。文章对比了Skills与Commands、Agents、Hooks的区别，详细解析了Skill的文件结构（SKILL.md为核心）和工作流程，并提供了Spring Boot自动部署