模型代号:Gemini 3 Pro Image Preview

发布日期:2025年11月20日

一、概述:模型定位与核心架构

Nano Banana Pro(内部代号 Gemini 3 Pro Image Preview)是 Google DeepMind 于 2025 年 11 月发布的最新一代图像生成与编辑模型。它复用 Gemini 3 Pro 的 Transformer 骨干,在词表中增加视觉 token,并接入图像解码器,从而实现了“文本+图像 → 图像”的多模态生成能力。

与传统扩散模型(如 Stable Diffusion、Midjourney、DALL-E)不同,Nano Banana Pro 的最核心特征是:它是一个自回归图像生成模型,而非扩散模型。

这一架构差异带来了一个关键特性:底层永远是整图 token 重绘,但通过多层约束机制,用户体验可以达到接近“局部修改”的效果。

以下图表简要概括其核心特点:

架构类型

自回归 Transformer(非扩散模型)

最高输出分辨率

4K(3840×2160)

多图参考

最多 14 张输入图像

文本渲染

支持海报、招牌、图表中的精确文字生成

可复现性

不支持 seed 参数(每次生成皆为概率采样)

水印

所有生成/编辑图像均嵌入 SynthID 水印

二、底层架构:Gemini 3 Pro Image 自回归生成机制

理解 Nano Banana Pro 的生图逻辑,首先需要理解它在架构层面与传统扩散模型的根本区别。

2.1 传统扩散模型的生成逻辑

扩散模型(Stable Diffusion、Midjourney、DALL-E 2/3)的核心原理是:

  1. 从高斯噪声开始,通过 U-Net 网络逐步去噪
  2. 每一步去噪都依赖文本嵌入的引导
  3. 最终通过 VAE 解码器转换为像素图像
  4. 图生图时:先给原图加噪,再从这个“有噪版原图”开始去噪生成新图

2.2 Nano Banana Pro 的自回归生成逻辑

Nano Banana Pro 的生成流程完全不同。它像 LLM 生成文本一样生成图像:

  1. 多模态输入解析:Gemini 3 同时摄入文本 prompt 和最多 14 张参考图,理解整体任务
  2. 结构化推理(内部蓝图):模型先在内部“想清楚”:画面布局、人物身份、光照、保留/修改的区域
  3. 原图视觉 token 编码:通过类似 VQ-VAE 的离散化机制,将原图压缩为视觉 token 序列
  4. 自回归 Token 预测:在 Gemini 3 注意力机制下,从左到右、从上到下逐一预测输出图的每个视觉 token
  5. 解码与升采样:输出 token 通过 16 位色深解码器还原为原生 2K 图像,再智能升采样至 4K

关键区别:即便你只让它“改领带颜色”,模型内部仍然要把整张图压缩成 token,然后从头到尾重新预测一遍输出 token 序列。没有“只动一小块像素、其余不动”的物理路径。

三、图生图(img2img)完整工作流程

以下是一次完整图生图的五个阶段:

3.1 阶段一:多模态输入解析

Gemini 3 Pro 同时接收文本描述和最多 14 张参考图像,理解你要做什么。从第一步就是多模态的,而非像扩散模型那样先用 CLIP 编码文本、再单独处理图像。

3.2 阶段二:结构化推理(内部蓝图)

这是 Nano Banana Pro 最独特的能力。模型会在内部“想清楚”以下内容,形成不可见的“创作蓝图”:

  • 画面布局:主体在哪里,背景是什么
  • 光照与影调:光源方向、色温、对比度
  • 保留区域 vs 修改区域:哪些 token 需要复制原图,哪些需要重新生成
  • 主体一致性:人物/产品在不同角度、不同光照下的特征保持

3.3 阶段三:原图视觉 Token 编码

原图通过类似 VQ-VAE(Vector Quantized Variational Autoencoder)的离散化机制,被压缩为视觉 token 序列。每个 token 代表图像中的一个小区域的内容。

3.4 阶段四:自回归 Token 预测

这是生成的核心环节。在 Gemini 3 的注意力机制下,模型从左到右、从上到下逐一预测输出图的每个视觉 token。

每个 token 生成时都能“看到”完整的 prompt token 和原图 token,但每一步采样都是从概率分布中随机取样(受 temperature 和 top-k 控制)。这就是它不支持 seed 固定复现的原因。

3.5 阶段五:解码与升采样

输出 token 序列通过 16 位色深解码器还原为原生 2K 图像,再智能升采样至 4K。整个过程只需一次 token → pixel 转换,不像扩散模型需要反复 VAE 编解码。

四、四层约束机制详解:为什么“重绘”却能“像局部修改”?

这是 Nano Banana Pro 工程团队的真正功夫所在。在自回归生成流程上叠加了四层硬约束,让模型在重绘时“主动选择”复现原图未编辑区域的 token。

4.1 第一层:Mask 硬约束(像素级)

这是最强力的约束层,也是实现 pixel-perfect 的最核心技术手段。

原理:

  • 用户提供一张与原图同尺寸的黑白 mask 图
  • 白色区域:允许 AI 生成新 token
  • 黑色区域:强制输出 token 必须复制原图对应位置的 token
  • 在自回归生成时,相当于给模型加了一条“硬复制规则”,不可违反

结果:黑色区域的 token 完全等于原图 token,输出像素与原图完全一致。

4.2 第二层:Bounding Box 区域定位(矩形级)

更轻便的方案,不需要手动绘制 mask。

原理:

  • 支持坐标归一化到 0–1000 范围的 bounding box 参数
  • 用户只需指定矩形区域,如 [200, 150, 600, 700]
  • 系统自动将 BBox 转换为内部 mask 约束

适用场景:已知矩形区域的编辑,如替换产品包装上的某个区域。

4.3 第三层:Gemini 3 语义化定位(对象级)

这是最“魔法”的一层,用户只需自然语言指令。

原理:

  • 用户输入:“把背景换成沙滩”
  • Gemini 3 推理骨干自动识别“背景”是图中哪些 token
  • 生成隐式 mask,对识别到的区域应用约束
  • 属于 mask-free 编辑模式

适用场景:覆盖大多数日常编辑场景,最常用的模式。

4.4 第四层:训练数据“未提及即保留”偏置(全局)

这是加载在模型权重中的隐性规则,推理时自动生效,无需用户额外配置。

原理:

  • 海量“原图-编辑图”配对训练数据
  • 模型学到隐性规则:除非 prompt 明确要求改,否则其他区域要尽量逐 token 复制原图
  • 这一偏置固化在权重中,推理时自动生效

4.5 四层约束机制对比总结

约束机制

控制粒度

用户成本

适用场景

Mask 硬约束

像素级

需绘制 mask

精准修复/抠图替换

Bounding Box

矩形区域

仅传坐标

已知矩形区域的编辑

语义化定位

语义对象

仅文本指令

大多数日常编辑

训练偏置

全局

无需配置

所有场景默认生效

四层约束并非互斥,而是叠加生效。最严格组合:Mask + Bounding Box + 语义指令,可将 pixel-perfect 体验推到极致。

五、与扩散模型(Stable Diffusion)的本质区别

对比维度

Nano Banana Pro

Stable Diffusion

架构类型

自回归 Transformer

扩散模型(U-Net + VAE)

生成原理

token → token 逐个预测

加噪 → 去噪逐步还原

图生图方式

整图 token 重绘 + 约束复制

原图加噪 → 从噪声版重新去噪

未编辑区域

约束到位可 pixel-perfect

总有轻微漂移(VAE 误差累积)

多轮编辑

5–10 轮无明显质量损失

反复 inpainting 会越来越糊

可复现性

不支持 seed

支持 fixed seed

文本渲染

精确,商业可用

往往乱码

多图参考

最多 14 张

通过 ControlNet/IP-Adapter 实现,复杂度高

主体一致性

内置支持,多角度不变脸

需额外手段(LoRA、IP-Adapter)

六、多轮编辑为什么不会漂移?

这是 Nano Banana Pro 相比 Stable Diffusion 的一个重要优势。原因有三点:

  1. 自回归架构只需一次 token → pixel 转换,不像扩散模型需反复 VAE 编解码,因此不会累积重编码误差
  2. Mask 硬约束让未编辑区域逐 token 复制原图,多次迭代几乎不引入新随机性
  3. 对比:传统 Stable Diffusion 反复 inpainting 几次就会“糊”,而 Nano Banana Pro 可支撑 5–10 轮迭代编辑而无明显质量损失

七、实践指南

7.1 生图模式(Text-to-Image)

从零生成图像时,流程如下:

  1. 输入文本 prompt(推荐使用叙事性描述,而非关键词堆砌)
  2. Gemini 3 推理骨干用“世界知识”理解场景
  3. 内部构建创作蓝图(布局、光照、物体关系)
  4. 自回归生成视觉 token 序列
  5. 解码为 2K 图像,升采样至 4K

7.2 图生图模式(Image-to-Image)

基于现有图像进行编辑时,推荐按以下策略选择约束层:

编辑场景

推荐约束

示例 Prompt

换背景

语义化定位

“把背景换成海边日落”

产品包装局部修改

Bounding Box

“把这个区域的文字改为限时优惠”

精确修复/抠图替换

Mask 硬约束

“在白色区域生成新产品图”

换衣服保持脸部

语义化定位 + 训练偏置

“把上衣改成蓝色衬衫,保持脸部和发型不变”

7.3 写 Prompt 的核心原则

  • 描述场景,而非堆砌关键词 — Nano Banana Pro 有极强的语言理解能力
  • 明确告诉模型什么不要改 —“保持脸部、姿态、光照、镜头角度不变”
  • 重要元素(文字、logo、产品标签)可能无法完全精确复制 —建议在传统工具中处理这些元素
  • 如果保留效果不理想,停止用 AI,转用传统编辑器处理那部分

八、总结:机制与体验的分离

理解 Nano Banana Pro 的关键在于意识到:底层机制和用户体验是两回事。

视角

真实情况

用户感受

底层架构

整图 token 重绘

看起来像局部修改

未编辑区域

重新生成的 token

几乎等于原图像素

编辑边界

自回归连续生成

自然过渡无 artifact

编辑指令

通过约束传入

自动匹配光影/视角

一句话总结:Nano Banana Pro 并没有发明新范式,而是在 Gemini 3 自回归骨干上,通过约束工程的全栈协同,把整图重绘包装成了接近真局部修改的产品体验。

九、参考资料

  • Google DeepMind — Gemini 3 Pro Image 官方文档: deepmind.google/models/gemini-image/pro/
  • 温拓智能—深度解析 Nano Banana Pro 图片生成原理: blog.wentuo.ai
  • YingTu — Nano Banana Inpaint 完整指南: yingtu.ai
  • Higgsfield — Nano Banana Pro Inpaint: higgsfield.ai

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐