gemini omni上线！这就是 AI 视频的“Nano Banana “时刻

thedreamofgirls

485人浏览 · 2026-05-20 11:14:01

thedreamofgirls · 2026-05-20 11:14:01 发布

我们测试了一下 gemini omni：它更像一个会听需求的视频模型

最近我们简单体验了一下 gemini omni，重点不是看它宣传里说了什么，而是想验证一个问题：

如果把它当成一个 AI 视频模型来用，它在真实创作流程里到底能不能帮上忙？

体验 gemini omni
在这里插入图片描述

测试前的预期

在测试之前，我们对这类视频模型其实比较谨慎。

过去很多 AI 视频工具都能生成“看起来很惊艳”的片段，但一旦进入实际使用场景，就容易遇到几个问题：

画面不稳定：人物、物体或背景在不同镜头里变化明显
风格不连续：同一个 prompt 多次生成，结果像来自不同项目
修改成本高：想改一个小细节，往往需要重新生成整段视频
可控性有限：模型能生成内容，但不一定理解具体修改意图

所以这次测试，我们没有只看单次生成效果，而是更关注它在“反复调整”里的表现。

我们主要测试了什么

这次体验主要围绕几个常见视频需求展开。

1. 文本生成视频

我们先用较简单的文字描述，让模型生成基础视频片段。

比如指定场景、主体、镜头氛围和画面风格，观察它是否能把文字里的重点转化成稳定的视频画面。

初步感受是，gemini omni 对整体场景的理解比较直接，不只是把关键词堆在画面里，而是会尝试组织一个更完整的视觉结果。
在这里插入图片描述

2. 图片或参考素材驱动视频

第二类测试是用参考图或已有视觉方向来引导视频生成。

这类能力对实际内容生产更重要，因为很多时候我们不是从零开始，而是已经有产品图、人物图、品牌视觉或参考风格。

在这类测试中，我们更关心它是否能保留核心视觉特征，而不是每次都生成一个“看起来不错但和原素材关系不大”的结果。
在这里插入图片描述

3. 自然语言视频编辑

这是我们最感兴趣的部分。

传统视频编辑里，一个小修改可能涉及重新剪辑、调色、遮罩、跟踪甚至重做素材。而 AI 视频模型如果真的能通过自然语言完成局部调整，实际价值会明显更高。

我们尝试过类似这样的修改方向：

调整背景氛围
改变画面光线
保持主体不变，只改变风格
让镜头更稳定
让整体更像产品展示片，而不是随机生成片段

从初步测试看，gemini omni 的优势不只在“生成”，而在于它更适合被当成一个可以反复沟通的视频模型。
在这里插入图片描述

比较明显的优点

画面整体感更强

相比一些只追求单帧惊艳的工具，gemini omni 给人的感觉是更重视视频整体逻辑。

尤其是在人物、背景、光线和镜头运动同时出现时，它生成的结果不会那么容易显得割裂。

修改方式更接近真实工作流

如果一个模型只能一次性生成，那它更像灵感工具。

但如果它能理解“保留这个，修改那个”，它才更接近真正的生产工具。

这也是我们觉得 gemini omni 值得继续测试的原因。

对多模态输入比较友好

文本、图片、视频这些输入如果能被统一理解，会让视频创作流程简单很多。

实际工作里，创作者经常需要把一个产品图、一个参考风格、一段文字脚本结合起来。模型如果能同时理解这些信息，就能减少很多来回转换工具的步骤。

还需要继续观察的地方

目前我们不会把这次体验直接包装成“完全替代传统视频制作”。

原因很简单：视频生成模型仍然需要在更多复杂场景里验证，包括长视频一致性、复杂动作、精确镜头控制、品牌规范适配等。

我们接下来会继续观察几个问题：

多次修改后，画面一致性能否保持
对产品细节的还原是否稳定
中文 prompt 的理解是否足够准确
不同风格之间切换时是否会过度变化
是否适合营销短片、产品介绍、社媒内容等真实场景

适合谁先尝试

如果你只是偶尔生成一两个娱乐视频，可能任何 AI 视频工具都能带来新鲜感。

但如果你有比较具体的视频需求，比如产品展示、短视频脚本视觉化、广告素材探索、社媒内容测试，那么 gemini omni 更值得关注。

它目前更像是一个可以帮你快速验证视频创意的工具：先把想法跑出来，再根据结果继续调整方向。

测试入口

如果你也想做类似测试，可以从这里开始：

体验 gemini omni

建议不要一开始就写很复杂的 prompt。可以先从简单场景开始，再逐步增加主体、镜头、风格和修改要求，这样更容易判断模型到底在哪些环节表现稳定。

小结

这次初步体验下来，gemini omni 给我们的印象不是“又一个会生成视频的工具”，而是一个更强调理解和编辑的视频模型。

它最值得继续测试的地方，是能否把文本、图片、视频等不同输入放到同一个创作逻辑里，并通过自然语言不断调整结果。

如果后续稳定性和可控性继续提升，它可能会在 AI 视频创作流程里占据一个很实用的位置。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

PP-OCRv5 ONNX部署但使用OnnxOCR

AtomGit开源社区

【kubernetes v1.21】（kubelet 4）Kubelet Volume Manager、Container Manager 与 Plugin System

Part 4: Kubelet Volume Manager、Container Manager 与 Plugin System 超深度分析

AtomGit开源社区

部署Wan 2.2文生视频并通过拼接生成长视频的实践

AtomGit开源社区

所有评论(0)

查看更多评论

thedreamofgirls

@thedreamofgirls

已为社区贡献6条内容

gemini omni上线！这就是 AI 视频的“Nano Banana “时刻

thedreamofgirls

我们测试了一下 gemini omni：它更像一个会听需求的视频模型

测试前的预期

我们主要测试了什么

1. 文本生成视频

2. 图片或参考素材驱动视频

3. 自然语言视频编辑

比较明显的优点

画面整体感更强

修改方式更接近真实工作流

对多模态输入比较友好

还需要继续观察的地方

适合谁先尝试

测试入口

小结

所有评论(0)

温馨提示：您尚未绑定手机号

thedreamofgirls