我们测试了一下 gemini omni:它更像一个会听需求的视频模型

最近我们简单体验了一下 gemini omni,重点不是看它宣传里说了什么,而是想验证一个问题:

如果把它当成一个 AI 视频模型来用,它在真实创作流程里到底能不能帮上忙?

体验 gemini omni
在这里插入图片描述

测试前的预期

在测试之前,我们对这类视频模型其实比较谨慎。

过去很多 AI 视频工具都能生成“看起来很惊艳”的片段,但一旦进入实际使用场景,就容易遇到几个问题:

  • 画面不稳定:人物、物体或背景在不同镜头里变化明显
  • 风格不连续:同一个 prompt 多次生成,结果像来自不同项目
  • 修改成本高:想改一个小细节,往往需要重新生成整段视频
  • 可控性有限:模型能生成内容,但不一定理解具体修改意图

所以这次测试,我们没有只看单次生成效果,而是更关注它在“反复调整”里的表现。

我们主要测试了什么

这次体验主要围绕几个常见视频需求展开。

1. 文本生成视频

我们先用较简单的文字描述,让模型生成基础视频片段。

比如指定场景、主体、镜头氛围和画面风格,观察它是否能把文字里的重点转化成稳定的视频画面。

初步感受是,gemini omni 对整体场景的理解比较直接,不只是把关键词堆在画面里,而是会尝试组织一个更完整的视觉结果。
在这里插入图片描述

2. 图片或参考素材驱动视频

第二类测试是用参考图或已有视觉方向来引导视频生成。

这类能力对实际内容生产更重要,因为很多时候我们不是从零开始,而是已经有产品图、人物图、品牌视觉或参考风格。

在这类测试中,我们更关心它是否能保留核心视觉特征,而不是每次都生成一个“看起来不错但和原素材关系不大”的结果。
在这里插入图片描述

3. 自然语言视频编辑

这是我们最感兴趣的部分。

传统视频编辑里,一个小修改可能涉及重新剪辑、调色、遮罩、跟踪甚至重做素材。而 AI 视频模型如果真的能通过自然语言完成局部调整,实际价值会明显更高。

我们尝试过类似这样的修改方向:

  • 调整背景氛围
  • 改变画面光线
  • 保持主体不变,只改变风格
  • 让镜头更稳定
  • 让整体更像产品展示片,而不是随机生成片段

从初步测试看,gemini omni 的优势不只在“生成”,而在于它更适合被当成一个可以反复沟通的视频模型。
在这里插入图片描述

比较明显的优点

画面整体感更强

相比一些只追求单帧惊艳的工具,gemini omni 给人的感觉是更重视视频整体逻辑。

尤其是在人物、背景、光线和镜头运动同时出现时,它生成的结果不会那么容易显得割裂。

修改方式更接近真实工作流

如果一个模型只能一次性生成,那它更像灵感工具。

但如果它能理解“保留这个,修改那个”,它才更接近真正的生产工具。

这也是我们觉得 gemini omni 值得继续测试的原因。

对多模态输入比较友好

文本、图片、视频这些输入如果能被统一理解,会让视频创作流程简单很多。

实际工作里,创作者经常需要把一个产品图、一个参考风格、一段文字脚本结合起来。模型如果能同时理解这些信息,就能减少很多来回转换工具的步骤。

还需要继续观察的地方

目前我们不会把这次体验直接包装成“完全替代传统视频制作”。

原因很简单:视频生成模型仍然需要在更多复杂场景里验证,包括长视频一致性、复杂动作、精确镜头控制、品牌规范适配等。

我们接下来会继续观察几个问题:

  • 多次修改后,画面一致性能否保持
  • 对产品细节的还原是否稳定
  • 中文 prompt 的理解是否足够准确
  • 不同风格之间切换时是否会过度变化
  • 是否适合营销短片、产品介绍、社媒内容等真实场景

适合谁先尝试

如果你只是偶尔生成一两个娱乐视频,可能任何 AI 视频工具都能带来新鲜感。

但如果你有比较具体的视频需求,比如产品展示、短视频脚本视觉化、广告素材探索、社媒内容测试,那么 gemini omni 更值得关注。

它目前更像是一个可以帮你快速验证视频创意的工具:先把想法跑出来,再根据结果继续调整方向。

测试入口

如果你也想做类似测试,可以从这里开始:

体验 gemini omni

建议不要一开始就写很复杂的 prompt。可以先从简单场景开始,再逐步增加主体、镜头、风格和修改要求,这样更容易判断模型到底在哪些环节表现稳定。

小结

这次初步体验下来,gemini omni 给我们的印象不是“又一个会生成视频的工具”,而是一个更强调理解和编辑的视频模型。

它最值得继续测试的地方,是能否把文本、图片、视频等不同输入放到同一个创作逻辑里,并通过自然语言不断调整结果。

如果后续稳定性和可控性继续提升,它可能会在 AI 视频创作流程里占据一个很实用的位置。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐