无需专业剪辑技术,不用复杂软件操作,一个人就能搞定剧本、分镜、角色设计、动画生成、配乐全流程。这篇教程带你手把手入门。

一、写在前面:为什么现在人人都能做AI漫剧?

2026年是AI漫剧“十倍速增长”的一年,全年市场规模预计突破220亿元。传统漫剧制作需要多人协作、耗时8-12小时才能完成一集,而现在——借助OpenClaw、可灵、即梦等工具的组合——单集制作时间压缩至30分钟,零美术基础也能量产高质量漫剧。

但哪些工具是刚需、哪些是智商税?从剧本到成片到底要走几步?这篇教程将围绕“剧本→分镜→角色定妆→图片生成→首尾帧动画→配乐”六个环节,给你一份完整的技术路线图。

二、第一步:剧本创作(DeepSeek/Kimi + 结构化指令)

一部AI漫剧的灵魂是故事本身。用AI写剧本的关键在于——结构化输入

2.1 剧本的核心要素

一个好的AI漫剧剧本必须包含:

  • 场景描述:时间、地点、环境氛围
  • 角色描述:姓名、性格、当前状态
  • 情感/情绪:角色的心理状态和情绪转变
  • 动作/旁白/台词:视觉化叙述

2.2 实战操作(以DeepSeek为例)

Step 1:头脑风暴,生成故事框架

用自然语言给AI一个初始概念。例如:

“我想创作一个古风悬疑故事,女主是失忆的捉妖师,开局被困在一座会吞噬记忆的妖楼里。”

DeepSeek会引导你深入设定世界观、角色性格和核心矛盾。

Step 2:向AI下达结构化指令

一个完整的剧本生成指令应该包含角色设定、场景描述、情感标注、台词对白四大模块。示例指令:

“请为我的故事生成前三幕的完整剧本:
第一幕:〖场景〗深夜,破败的妖楼顶层,四周漂浮着发光的符咒符文。〖角色〗女主清音(捉妖师),20出头,蓝白道袍,手持铜铃法器,表情警惕而迷茫。〖情绪〗她刚从梦中惊醒,发现记忆正在一点点消失,焦虑中夹杂着愤怒。〖对白〗清音(低声自语):‘这座楼在吸走我的记忆……我必须在天亮前逃出去。’
第二幕:〖场景〗楼梯转角,一只披着红袍的纸偶人突然出现。〖角色〗纸偶人,脸部是空白的纸面具,似乎在笑。〖情绪〗诡谲而危险的压迫感。”

2.3 实操技巧

  • 长文本处理能力至关重要:DeepSeek的高效长文本处理能力,使其在构建世界观时展现出显著优势
  • 情绪线索要贯穿全文:在每段对白旁明确标注“焦虑”“愤怒”“怀疑”等情绪词,为后续镜头运镜和配音提供依据
  • 生成后用人工微调:AI生成的剧本需要你亲自掌控整体节奏和剧情走向

三、第二步:分镜脚本(结构化指令 + AI分镜工具)

分镜脚本是剧本到画面的“翻译器”。一个标准的分镜脚本指令应包含:景别、画面描述和角色对白/旁白

3.1 分镜脚本模板格式

镜号 景别 运镜 画面描述 音效推荐 旁白/台词 时长(s)
1 全景 缓慢推近 妖楼顶层,符咒漂浮在空中,夜风中符纸沙沙作响 风声、符纸摩擦声 (无对白) 3
2 中景 固定 清音从地上坐起,揉着太阳穴环顾四周 心跳声渐入 旁白:“这是哪里?为什么我会在这里?” 4
3 特写 推进 清音的手腕上浮现出半透明的咒文纹路 诡异的弦乐 清音:“我的记忆……在消失?” 3
4 远景 从左至右平移 纸偶人从阴影中走出,红袍飘动 纸人阴笑(音效)、弦乐骤升 纸偶人:“欢迎来到忘川楼,捉妖师大人。” 5
5 中景 快速上升 清音瞬间起身,铜铃法器在手心亮起蓝光 铃铛声 + 鼓点 清音:“少装神弄鬼!给我让开——” 4

3.2 工具推荐

  • DeepSeek生成分镜文本:直接给出上述结构化描述,AI会帮你逐镜生成
  • OpenClaw + Seed2.0 Skills:可实现“剧本→分镜设计→素材匹配→视频合成”全流程自动化
  • FilmAction:30分钟完成从创意到带配音的成片,支持赛博、国风、手绘等20+风格
  • WorkRally(腾讯视频) :工业级平台,覆盖从剧本解析、分镜生成到资产管理全链条

3.3 实操技巧

  • 一支1-2分钟的短片大约需要8-15个分镜,不要贪多
  • 分层生成比一次性输出更可靠:先用高质量生图模型定格关键帧,然后将这张图作为“首帧参考”,输入到视频生成模型中让画面动起来

四、第三步:角色定妆图(即梦/可灵/Seedream 4.0)

角色一致性是AI漫剧创作中最大的挑战——如何在10个不同场景里让主角“不换脸”,直接决定作品的整体质感。

4.1 需要生成的四个标准视角

视角 用途 生成要点
正面半身特写 角色展示、表情传递 面部细节丰富,发型、瞳孔色、首饰必须精准
正面全身照 站立场景、入镜画面 服装款式、腰带配饰、鞋子风格完整展示
侧面全身照 行走、奔跑动作参考 身材比例、衣物质感、头发飘动方向
反面全身照(背面全身照) 背影镜头、转身动画起止帧 背后装饰、发型轮廓、披风/裙摆细节

4.2 实战操作:从“抽卡”到“可控”

方法一:基准照片法(即梦/参考图模式)

  1. 用基础提示词生成满意的主角形象样图

古风仙侠动漫男主,面部棱角分明,眼神锐利温柔不刺人,气质温文尔雅知书达礼,清冷高雅。身穿唐代古风服饰,主白色素雅干净,高雅不奢华,简约精致修饰。画面为人物三视图:正面全身照、侧面全身照、背面全身照,最左侧单独放大头部细节展示,人物下方配有服装细节与配饰介绍展示图,整体构图工整专业,高清线稿+上色,仙侠氛围感,干净高级
线条利落,少年感清冷

  1. 选择“生成超清图像”并保存为参考图
  2. 在后续生成中导入参考图(同样重复使用相同的基础描述词)
  3. 让AI算法强制参考已有特征向量进行渲染

方法二:身份卡法(Seedream 4.0/Gemini)

在每轮生成提示词中固定一个“身份标题”模板:

【角色身份卡】
角色名:清音
面部特征:鹅蛋脸、细长的丹凤眼(黑色瞳孔)、浅褐色皮肤、左耳有一枚小银环、深棕色及腰长发(半束发,两缕碎发垂在脸颊旁)
服装:蓝白渐变道袍,腰间系红绳,手腕绑铜铃法器
硬性否定:“没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色”

将此身份卡附加到每一张角色图的提示词中,AI的“爱自由发挥”倾向会被硬性约束。

4.3 实操技巧

  • 先批量生成四个标准视角,再以此为锚点去扩展后续分镜图
  • 不要试图一次性生成完美视频:先用高质量生图模型完成全部角色视觉锚点,再输入视频生成模型中让它动起来
  • 即梦用户特别要注意用“左边”“右边”等方位词标注多角色位置,可明显提高生成精度

五、第四步:图片/素材生成(即梦/可灵/Midjourney)

当剧本、分镜、角色风格都已明确后,正式进入素材生成阶段。

5.1 工具选择与分工

  • 即梦:动漫风格、角色一致性出色,与剪映生态无缝联动
  • 可灵(Kling) :快手出品,真人角色一致性极致出色,图生视频能力行业公认第一梯队
  • Midjourney/Stable Diffusion:可配合LoRA训练,适合需要高度定制化风格的进阶创作者

5.2 分镜图生成提示词公式

一个高质量的分镜图生成提示词应包含七要素

【风格 / 画风】 + 【场景描述】 + 【角色动作 / 表情】 + 【视角与构图】 + 【光影与质感】 + 【情绪氛围】 + 【画面比例】

实战示例 —— 对应之前分镜脚本的第5镜“快速上升”:
提示词国风漫画风格,水墨质感,古风玄幻。女主角清音,穿着蓝白渐变道袍,手腕上的铜铃法器亮起蓝光,瞬间起身,眼神从迷茫转为坚定。镜头是半仰视的中景,从下向上推,画面构图是倾斜的动态捕捉。光影:法器蓝光打在女主脸上,背景是破败的黑暗楼阁,有红纸符咒漂浮。情绪:从压制到爆发的转折。16:9 横屏。

5.3 实操技巧

  • 批量生成时要重复用同一组基础描述词(如“古风水墨风格、女主清音、蓝白道袍、黑色丹凤眼、左耳银环”),减少参数波动
  • 一张图生成多次:从不同结果中挑选出构图动态最符合脚本意图的一张
  • 有些AI生成的图像可以直接用Photoshop或排版工具添加对话框和与脚本对白配套的文字气泡

六、第五步:首尾帧控制(图生视频 + 可灵/海螺/Wan2.1)

首尾帧是让静态漫画“活起来”的关键。通俗来说,你上传两张图片——一张作为首帧(视频开头),一张作为尾帧(视频结尾),AI会自动生成中间过渡的所有帧序列,输出一个流畅的连贯视频。

6.1 主流首尾帧工具对比

工具 核心优势 适合场景
可灵AI 2.1 首尾帧领域“天花板级”模型,影像理解与自然过渡业界顶尖 角色变身、分镜展示、商业质量要求高的项目
海螺AI 最强复杂指令遵循 + 极限物理动态 + 大幅度运镜 打斗追逐等高动态画面
通义Wan2.1 百亿参数大模型,仅尾帧功能,变身转场丝滑 5~10秒快速动作 / 变身桥段
PixVerse 支持最多7张多关键帧生成,最长30秒连贯视频 复杂叙事(多动作步骤)

6.2 实战操作:以可灵2.1为例

Step 1:生成两张恰当且视觉连贯的首尾帧图片

有多种方法获取首尾帧图片素材:相同提示词抽多张卡(适合角色原位展示)、修改提示词(适合人物物品的移动/消失)、使用FLUX或图像编辑模型对图片做局部编辑。

Step 2:编写首尾帧提示词

不要只写“让图a变到图b”,要详细描述你想要的过渡。

万能首尾帧提示词模板

[主体动作描述/变化逻辑] + [运镜方式 + 速率] + [光影/情绪变化] + [时长(建议3~6秒)] + [否定排除项]

实战示例(从首帧“清音静坐”到尾帧“清音法器亮起”的过渡):
提示词画面之中,女主清音静坐(首帧),法器铜铃亮起蓝光并自手腕漂浮起来。镜头从人物正面快速推近到特写,光蓝焰在画面右侧,最终定格在手握亮光铜铃的画面(尾帧),时长5秒。不要出现其他角色,脸部保持稳定不变形。

Step 3:生成长视频——可灵2.1让多分镜自然串联成一个完整视频,场景之间的衔接极为细腻自然。

6.3 进阶技巧:多帧融合(超过10秒的长视频)

大多数单次视频生成时长只有3-10秒。要制作超过10秒的长视频,需要使用“多片段拼接+首尾帧接力”的方法:

  • 首帧输入素材 → 生成ClipA(0-5秒) → 提取ClipA的末帧作为片段B的首帧 → 设计片段C的首帧/末帧 → 让AI模型“填空”

通过这种“切片接力”方式,可生成任意长度、物理连贯的长叙事作品。

七、第六步:配音与配乐

7.1 配音(让角色“发声”)

工具推荐:MiniMax语音合成、剪映AI配音、ElevenLabs。

操作方法:用剧本中的台词逐一生成各角色的专属配音。以MiniMax为例:

  • 用自然语言定制专属音色,输入诸如“年轻男性,玩世不恭,日漫男主音色”的描述,系统会根据描述生成对应的音色选项
  • 按角色逐一注册命名音色,如“清音_冷静女捉妖师”“纸偶人_阴森反派”
  • 对选中文本添加“紧张”“嘲讽”“愤怒”等情绪标签,插入停顿和换气符号,让配音更具“活人感”

配音实操小技巧:数据显示,通过优化配音情感与音色设计后,漫剧观众的留存率能提升70%。

7.2 配乐(BGM)

来源方式

  • AI音乐生成工具(如BGM猫、MiniMax音乐创作、可灵AI版权音乐库)——完全原创、无版权问题
  • 无版权音乐素材库(如猴子音悦、剪映内置素材库)——即拿即用
  • 商用音乐许可平台——适合用于商业变现

按情绪风格匹配

  • 热血/战斗:鼓点重、节奏快(如“日系风格,热血少年,有气势”)
  • 悬疑/诡异:低音弦乐、无声段落、心跳音
  • 温馨/治愈:轻柔钢琴、吉他、中慢速
  • 情感爆发点:交响乐、高音、渐加强

音量平衡原则:音效 ≈ 对白音量 × 0.3 ≈ 配乐音量 × 0.5(即对白最清晰,配乐最低,音效居中度)。

7.3 结尾声明:版权与商用注意事项

  • 商用前务必核实工具的授权协议: 很多AI生图/生视频/配音工具的个人免费版不允许商用盈利
  • 音乐素材采用AI生成版时建议保留下载记录和版权授权说明书
  • 已经发布到短视频平台的作品: 建议在简介或角标注明“本作品由AIGC辅助制作”字样,规避有些视频平台的特殊内容审查

八、快速成片技术路线速查表

创作环节 推荐工具 一句话指南
剧本 & 分镜写作 DeepSeek / Kimi 用“剧本+分镜”模板提交结构化指令
角色定妆/图片生成 即梦 / Midjourney / Seedream 4.0 一张精确完整的“身份卡”保你几十张图不换脸
图生视频/首尾帧 可灵 / 海螺 / Wan2.1 一组高相似度的首帧+尾帧图 = 一个流畅动作
配音 MiniMax / 剪映AI配音 给每个角色个性化定制音色,活用情绪标签
配乐 BGM猫 / 可灵音乐库 / 剪映BGM 按剧情情绪匹配旋律风格,手动平衡音量
一体化交付 OpenClaw + Seed2.0 / FilmAction 全流程自动化,你只需要输入自然语言

环境配置选项对比

部署方式 核心优势 适用场景
本地/个人版 数据隐私可控、操作便捷 个人创意测试、敏感素材处理
云端/生产版 7×24小时稳定运行、算力充足 自媒体批量产出的制作者与小型工作室

九、结语:从“抽卡”到“工业化”

做一个优秀的AI漫剧创作者,底层的核心价值观依旧是“讲一个好故事”。技术让成本门槛降低,但没有抹杀你对创意、节奏、情绪的敏锐度。

与其被海量的工具和版本迭代搞晕,不如先从这篇教程的流程逐步尝试——做一个单人5分钟的小故事开始。用DeepSeek写出高效精细的剧本,用即梦生成首张完美的角色定妆图,再用可灵或海螺的“首尾帧”给出第一个3秒镜头。

AI漫剧创作始于好奇心,成于系统化的流程与不断优化

✨ 附录:一句话复用的角色身份卡模板(纯文字范例)

(可直接复制修改)

『角色身份卡』

角色名:(例:清音)  
面部精细识别:鹅蛋形脸/细长的丹凤眼/黑色瞳孔/高挑鼻梁/浅褐色皮肤/左耳佩戴一枚小银环  
发型:深棕色及腰长发/半束发/两缕碎发垂在脸颊旁  
服装识别:传统国风道袍/浅蓝至白色渐变/腰间系红绳/手腕上有编织铜铃法器  
姿态标识:站姿挺拔/眼神坚定  
一致性威胁对抗否定词:没有变形、没有雀斑、不要改变面部轮廓、不要改变瞳孔颜色 (非常必要!)  
风格标签例:国风水墨漫画风格/16:9 横屏比例/冷色调月光/水墨笔触

> 每一张图或分镜都连带复制粘帖此身卡,可明显减少AI的任意发挥。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐