Gemini Omni 视频提示词指南封面

Google AI 发了一份 Gemini Omni 视频提示词指南:真正重要的不是写长,而是会导演

Google AI 在 X 上发布了一篇 Gemini Omni 视频提示词指南。

这篇文章很短,但信号很明确:视频生成的提示词,正在从“把画面描述得更细”,转向“像导演一样控制知识、文字、镜头和编辑”。

Gemini Omni 是 Google 上周介绍的新模型,目标是“从任意输入创造任意内容”,首先从视频开始。Google AI 表示,Gemini Omni Flash 已经可以在 Gemini App、Flow by Google、Google Flow Music,以及 YouTube Shorts 和 Create 中体验。

这份指南给了 5 个方向。下面是我整理后的中文版本。

1. 不要过度解释世界,直接调用现实知识

Google AI 的第一个建议是:不要把世界背景解释得过碎。

Gemini Omni 继承了 Gemini 对历史、科学、文化的理解,所以提示词可以直接使用文化符号、历史时期、科学术语和现实场景,而不是把每个细节都拆开写。

比如下面这种提示词:

视频展示字母表中的物品。每个字母都对应一个不常见的物品,物品放在桌子上。比如 C 是水豚,D 是迪斯科球,L 是熔岩灯。26 个字母必须全部出现,每次只出现一个物品和一个对应的字幕条。字幕条像黑色马克笔写在纸条上,放在画面左下角。快速切换,大约每个物品 9 帧,24FPS。最后一帧是一张写着 “THE END” 的纸条。整段视频配平静、顺滑的音乐。

这个提示词看起来长,但真正关键的不是“多写”,而是把约束写清楚:26 个字母、每次一个物品、字幕风格、帧数节奏、结尾画面和音乐情绪。

Gemini Omni 现实知识示例

同一类写法也可以更短:

宇航员在火星上的第一人称视角。

一颗弹珠在连锁反应轨道上快速滚动,连续、顺滑的镜头。

2. 把文字当成画面的一部分,而不是后期贴片

第二个重点是文字渲染。

Google AI 强调,Gemini Omni 不只是能在视频里生成文字,还能把文字自然地融入画面:字体、位置、动画、节奏,甚至双重曝光这类复杂视觉效果,都可以直接写进提示词。

示例提示词:

逐词显示,每次屏幕上只出现一个词:did, you, know, that, this, model, can, do, pretty, good, text!? 每个词都用不同的动画风格出现,节奏要精准,像一支快节奏展示短片。

这个例子说明一件事:视频提示词里的“文字”不再只是内容信息,它本身就是运动设计。

Gemini Omni 文字渲染示例

另一个更适合内容创作者的方向,是让文字跟随物理环境:

在真实环境中叠加运动跟踪的极简文字评论。这些文字代表主体的即时内心独白,语气冷静、略荒诞、带一点人生思考,类似“冒出来的念头”。文字使用干净的白色小写无衬线字体,比如 Helvetica 或 Inter。文字悬浮在 3D 空间里,并用极细的白色引导线连接到被评论的对象。

如果你想做短视频包装、产品演示、人物内心 OS,这类提示词比单纯写“加字幕”有效得多。

3. 像摄影师一样写镜头语言

第三个建议非常实用:把提示词写成镜头指导。

Google AI 提到,Gemini Omni 对明确的摄影术语、机位、运动方式和画面风格响应很好。

可以直接使用这些词:

  • 镜头与角度:one continuous shot、oner、static、locked off、fixed angle
  • 镜头运动:push in、punch in、pan left、dolly zoom
  • 摄影风格:natural smartphone zoom、vintage film camera、grainy webcam style

中文写提示词时,也可以保留这些英文摄影术语。很多模型对专业英文术语的理解更稳定。

真正的变化在这里:你不是在告诉模型“画面里有什么”,而是在告诉模型“摄像机怎么拍”。

4. 用迭代编辑,而不是每次重写

第四个建议,是我认为最接近真实视频工作流的一点。

Google AI 说,好的视频是在编辑里做出来的。使用 Gemini Omni 时,不需要为了修一个错误重写整段提示词。你可以只提出局部修改,比如换背景、换字幕、换镜头角度,同时保留视频的核心结构。

示例:

把小提琴转移到一个新环境中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让小提琴变成隐形。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

改变镜头角度,让它从小提琴手肩膀后方看过去。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个能力的价值,不只是“能改”。更重要的是,模型能尽量保留原视频的结构、人物、动作和视觉连续性。

这意味着视频生成正在接近一个更可控的流程:先生成,再局部修,再保留有效部分继续改。

5. 直接改动作、节奏和情绪

最后一个建议,是在不中断角色连续性的情况下,修改主体动作。

你可以直接要求:

让角色踮脚走路。

加快节奏。

让角色跳到空中。

这类提示词看似简单,但背后考验的是模型对角色一致性、动作连续性和场景关系的保持能力。

如果一个模型能稳定做到这一点,视频生成就不只是“一次性抽卡”,而是能进入可反复调整的创作流程。

这份指南真正想说什么

这篇文章表面上是在讲 5 个提示词技巧。

但更大的变化是:视频提示词正在变成一种“导演语言”。

以前我们写提示词,重点是描述画面:

画面里有什么、是什么风格、光线怎样、角色穿什么。

现在更重要的是控制过程:

镜头怎么运动,文字怎么出现,动作怎么变化,哪一部分要保留,哪一部分要修改。

这也是 Gemini Omni 这类视频模型最值得关注的地方。它不是只在追求单帧好看,而是在把生成、编辑、镜头控制和文字渲染放进同一个工作流里。

可以怎么试

如果你想自己测试,可以从 Google AI 这篇指南里的提示词开始,不要急着写复杂大段。

更稳的做法是:

  1. 先写清楚场景和主体。
  2. 再加入镜头术语。
  3. 然后加入节奏、字幕、动作变化。
  4. 生成后只改一个局部,不要整段推翻。

原文提到的提示词指南入口在这里:

https://deepmind.google/models/gemini-omni/prompt-guide/

原始 X 文章:

https://x.com/GoogleAI/status/2059381218660270435

如果只记住一句话,就是:

视频提示词不是越长越好,而是越像导演指令越好。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐