前几天可灵融资的新闻出来以后,群里又炸了一轮——AI视频生成越来越成熟,但有个问题一直没人解决:你拿什么去喂AI视频?

大部分人的小说原文,直接扔给AI视频工具,出来的东西惨不忍睹。因为AI视频需要的是"分镜级"的描述——镜号、时长、景别、运镜、画面内容——这些你让一个写小说的人凭空写,他写不出来。

所以我自己搭了一个工具。核心逻辑很简单:用LLM把小说文本转成结构化的剧本格式,再从剧本格式拆解为九列专业分镜表,最后把每一镜的描述编译成AI绘画提示词。

花了点时间调Prompt,效果出乎意料地好。分享一下核心思路和完整Prompt。

一、整体架构

输入:小说原文(300-3000字)
  │
  ▼
【Layer 1】文本→剧本转换器
  │  Prompt:专业编剧模式
  │  输出:标准剧本格式(场景/对白/动作已分色标注)
  ▼
【Layer 2】剧本→分镜拆解器
  │  Prompt:AI导演分镜模式
  │  输出:九列分镜表(镜号/时长/景别/运镜/画面/场景/声音/备注/叙事)
  ▼
【Layer 3】分镜→提示词编译器
  │  Prompt:AI绘画提示词专家模式
  │  输出:中英双语提示词(适配Midjourney/SD/FLUX)
  ▼
输出:可直接用于拍摄/AI生成的完整分镜包

三层之间用结构化JSON传递数据,每一层的输出都是下一层的输入。这样设计的好处是:每一层都可以单独替换模型。

二、核心Prompt(Layer 1)

# System Prompt: 小说→剧本转换
你是一个专业影视编剧。
任务:将用户提供的小说文本转化为标准剧本格式。

输出规则:
- 每段前标注类型标签:[场景] [对白] [动作] [旁白]
- 场景标注包含:内外景 + 时间 + 地点
- 对白标注包含:角色名 + 语气提示
- 动作描写保留原文细节,但改用进行时
- 删除冗余的心理描写,转换为可拍摄的动作指示

示例输入:
"阿嫲走的那天,天上下着小雨。我站在病房门口,看着她躺在床上,呼吸越来越弱。想说什么,喉咙像被堵住了。"

示例输出:
[场景] 内景·病房·白天 · 阴雨天气
[动作] 病房门半掩。雨水在玻璃窗上蜿蜒流下。
[动作] 阿嫲躺在床上,胸口缓慢起伏。呼吸声越来越轻。
[动作] 我站在门口,手扶着门框。嘴巴张了一下,没发出声音。
[对白] 我(低声,哽咽):"阿嫲……"
[动作] 阿嫲的手指动了一下,没有睁开眼。

三、核心Prompt(Layer 2)

# System Prompt: 剧本→九列分镜
你是一个电影导演兼分镜师。
任务:将标准剧本格式拆解为专业九列分镜表。

九列定义为:
① 镜号(顺序编号)
② 时长(秒数,建议3-8秒/镜)
③ 摄影角度(平视/俯拍/仰拍/过肩/推/拉/跟/摇)
④ 景别(远景/全景/中景/近景/特写/大特写)
⑤ 画面内容(对剧本动作的视觉化描述,包含构图建议)
⑥ 场景(室内/室外 + 具体环境)
⑦ 声音(对白/音效/BGM/留白)
⑧ 备注(特殊要求/转场方式/视觉参考)
⑨ 叙事功能(建立情绪/推进剧情/展示细节/制造悬念)

输出格式:JSON数组,每镜一个对象
每个字段不超过50字,画面内容不超过100字。

四、效果实测

拿一篇3000字的短篇小说做测试。原文讲的是一个潮汕游子回乡参加奶奶葬礼的故事。

[输入] 小说原文(3000字)→ [输出1] 标准剧本格式(约600字)→ [输出2] 九列分镜表(16镜/约2000字)→ [输出3] AI提示词(中英双语/16组)

全部跑完耗时:约23秒(DeepSeek API,连续调用3次)。

九列分镜表的每一列都有内容,不是糊弄人的占位符。我把其中一镜的提示词扔进Midjourney,出来的画面基本还原了小说里的场景描述。

五、一些思考

这个工具我封装成了一个桌面应用,内置了DeepSeek引擎,也支持接入OpenAI和Claude的API Key。

但说实话,技术实现不是最难的。最难的是想明白一个问题:AI应该替人干活,还是替人想活?

我的答案是前者。工具把剧本、分镜、提示词这些"脏活累活"干完,创作者只需要做一件事——讲好你的故事。

评论区扣"分镜",我把体验入口发你。

需要完整代码或工具体验的,评论区扣"分镜"

也欢迎技术同好交流Prompt优化思路

本文由人类撰写,代码示例经实际测试可运行。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐