何恺明谢赛宁参与，Google新工作证明，图像生成器天生就是理解大师！

马拉AI

411人浏览 · 2026-04-28 15:31:14

马拉AI · 2026-04-28 15:31:14 发布

论文信息：

论文标题: Image Generators are Generalist Vision Learners
发表单位: Google (Nano Banana Pro团队)
论文链接: https://arxiv.org/pdf/2604.20329v1
项目主页: vision-banana.github.io

一、为什么说这是视觉界的“GPT时刻”？

一直以来，视觉领域存在着“生成”与“理解”两条泾渭分明的技术路线。我们总怀疑：一个靠概率蒙像素的生成器，真的懂物理结构吗？

展示 Nano Banana Pro 经过指令微调后，如何从隐藏的视觉能力中生成精确的可视化结果（Vision Banana）

但这篇论文给出了肯定的答案。作者认为，图像生成模型的预训练过程，本质上等同于LLM的生成式预训练——模型在构建画面的过程中，必须深刻理解光影、几何、语义和空间关系。为了唤醒这种“沉睡”的理解力，Google团队基于顶级的生成模型 Nano Banana Pro (NBP)，通过极轻量的指令微调（Instruction Tuning），直接让它摇身一变，成为了全能的视觉理解专家——Vision Banana。

二、核心魔法：RGB即一切，指令即任务

Vision Banana最巧妙的地方在于“统一接口”。它没有引入任何复杂的任务头，而是将所有视觉任务的输出映射为RGB图像。

以深度估计为例，为了把连续物理距离编码成RGB颜色，作者设计了一个巧妙的双射映射。

标量距离 d 与 RGB 颜色值之间的映射关系可视化，展示如何通过功率变换弯曲度量深度

三、性能表现：正面硬刚专用模型

数据最能说明问题。在指令微调后，Vision Banana在多个标准基准上实现了“跨级”超越：

1. 2D语义理解：精准到“猫的胡须”

在语义分割和指代分割上，Vision Banana表现惊人。它不仅能理解复杂的文本指令，还能处理极其细微的边缘。

展示 Vision Banana 的语义分割细节（如猫的胡须）或其对自然语言提示（指代分割）的理解能力

2. 3D场景理解：无需内参的“黑科技”

最惊艳的是单目深度估计。它甚至不需要相机内参，完全依赖预训练中学到的物体尺寸先验，就能预测绝对物理距离。

Vision Banana 的深度估计结果及对应的 3D 场景重建展示

为了验证泛化能力，作者甚至直接用手机拍了张金阁寺的照片进行实测：

野外测试案例，手机拍摄的金阁寺照片与 Google 地图实测距离的对比，误差极小

四、提问

这篇论文解决了什么痛点？

它解决了视觉模型“碎片化”的问题。以前我们需要不同的模型做不同的事，现在证明了一个强大的生成模型通过微调就能成为“全能战士”。

为什么它能做到“无需相机内参”预测深度？

因为它学习的是“语义级别的三维关系”。它对物体尺寸的先验知识极强，通过RGB颜色编码的方式，直接把语义理解转化成了度量空间。

普通人/学生能复现吗？

目前基座模型 NBP 尚未开源，复现门槛极高。但这种“生成即理解”的思路完全可以借鉴到现有的开源大模型（如SD系列）中。

五、总结：范式的转移

由于采用了极轻量的指令微调，Vision Banana在进化为“理解大师”的同时，并没有丢掉作为“画师”的本职工作。

Vision Banana 与基座模型 Nano Banana Pro 的文生图效果对比，证明生成能力未受影响

评价：
这项研究可能会像 GPT 对 NLP 的影响一样，带来 CV 领域的范式转移。它告诉我们，通向 AGI 的路径可能比预想的更统一：生成即理解。虽然目前复现门槛较高，但它为构建统一的视觉基础模型指明了新方向。

为了给方便大家更好的复现，我给大家准备了完整版的技术资料、代码和复现路径，如有需要点击链接自取！

本文仅代表个人理解及观点，不构成任何论文审核或者项目落地推荐意见。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度解析：企业如何通过 AI Agent Harness Engineering 提升利润率与人效倍数

2024年以来，AI Agent已经从技术概念变成企业降本增效的核心抓手，但Gartner最新数据显示：82%的企业AI Agent项目停留在POC阶段，仅13%的企业真正从AI Agent落地中获得了超过预期的利润率提升。核心痛点在于企业普遍缺乏对AI Agent的统一治理、编排、度量和安全管控能力，零散的Agent应用不仅无法形成合力，还会带来幻觉风险、数据泄露、重复建设等额外成本。

AtomGit开源社区

我用Trae在7天内做了一个外卖调度AI Agent

我用Trae在7天内做了一个外卖调度AI Agent美团校园AI Hackathon 2026 · 赛道四（配送分配优化）参赛项目复盘关键词：多智能体架构 · 自适应进化 · LLM熔断器 · Spec驱动开发 · 10秒硬时限

AtomGit开源社区

知识库问答的置信度评估

系统基于给定知识库内容生成的回答，与知识库事实匹配、符合用户真实意图、准确可用的概率，取值范围为0到1，得分越高代表回答越可信。和普通LLM生成置信度的核心区别是：KBQA的置信度有明确的「事实基准」——也就是给定的知识库内容，而不是依赖大模型本身的参数知识，所以评估结果的客观性和可解释性要强得多。我是资深AI工程师，专注于大模型落地、KBQA系统搭建，曾主导多个金融、政务领域的KBQA项目落地，