语义生成后训练--统一理解生成模型

M宝可梦

402人浏览 · 2026-05-19 16:31:52

M宝可梦 · 2026-05-19 16:31:52 发布

最近，我们发布了论文 Semantic Generative Tuning for Unified Multimodal Models。这项工作关注一个正在快速发展的方向：统一多模态模型，即在同一个框架中同时支持视觉理解、图像生成和图像编辑。论文已发布在 arXiv，作者来自上海交通大学和 Tencent ARC Lab。

论文链接：论文

代码链接：代码

项目链接：项目页

统一多模态模型的目标很直接：让一个模型既能“看懂图像”，也能“生成图像”。然而，现有训练范式中仍存在一个关键矛盾。视觉理解通常依赖稀疏的文本监督，例如 VQA 问答数据；视觉生成则主要依赖密集的像素级目标，例如图像重建或视觉 token 重建。这种监督信号的不一致会导致理解和生成在表示空间中相互割裂，模型虽然结构上统一了，但能力之间并没有真正形成协同。

为什么不是像素重建？

一个自然的想法是：既然要连接理解和生成，那是否可以让模型重建原图？已有工作也尝试使用像素级重建作为代理任务。但我们的实验发现，像素级重建并不是最优选择。原因在于，像素重建会迫使模型关注大量纹理、噪声和低层细节，而这些信息并不总是对语义理解有帮助。

因此，我们提出了一个核心问题：

对于统一多模态模型，什么样的视觉生成代理任务最适合连接理解与生成？

为回答这个问题，我们系统评估了不同层级的视觉任务，包括低层任务如边缘检测，中层任务如深度估计和图像修复，以及高层任务如目标检测和图像分割。实验结果显示，高层语义任务，尤其是图像分割，能够更有效地促进视觉理解与图像生成之间的协同。

SGT：从像素空间转向语义空间

基于这一发现，我们提出 Semantic Generative Tuning，简称 SGT。

SGT 的核心思想是：
将图像分割作为生成式后训练目标，让模型在语义结构层面对齐视觉理解与视觉生成。

与像素级重建不同，分割任务天然强调物体、区域、边界和空间结构。它保留了对理解最有价值的高层视觉语义，同时减少了对无关纹理细节的过度关注。因此，SGT 可以作为稀疏文本监督和密集视觉监督之间的中间桥梁，帮助统一多模态模型建立更加一致的表示空间。

实验结果：理解和生成同时受益

我们在两类主流统一多模态模型上验证了 SGT，包括 BAGEL 和 OmniGen2。实验涵盖视觉感知、空间推理、幻觉鲁棒性、通用 VQA、数学与知识推理，以及图像生成和图像编辑等多类任务。

在 BAGEL 上，加入 SGT 后，模型在 CV-Bench 上从 73.21 提升到 79.23，在 GenEval 上从 78.21 提升到 80.95，在 GEdit-Bench-En 上从 6.52 提升到 6.94。对于 OmniGen2，SGT 同样带来了稳定提升，例如 MMVP 从 65.00 提升到 68.33，GenEval 从 76.58 提升到 78.86。

更重要的是，SGT 在不同架构上都能取得收益。这说明它并不是依赖某个特定模型设计的技巧，而是一种更通用的语义级后训练范式。

为什么 SGT 有效？

我们进一步从表示空间和注意力机制两个角度分析了 SGT 的作用机制。

首先，SGT 能够提升视觉特征的线性可分性。例如，在区分外观相近但结构不同的类别时，经过分割监督训练后的模型能够形成更加清晰的特征簇。其次，SGT 会让模型在理解阶段更加关注视觉 token，减少对语言先验的过度依赖，从而缓解多模态模型常见的幻觉问题。最后，在生成阶段，SGT 会增强模型对关键文本 token 的关注，例如物体、颜色和空间关系，使生成结果更好地遵循复杂提示词。

这表明，SGT 的收益并不只是来自更多数据或更长训练，而是来自一种更合适的语义监督信号。

数据配方与可扩展性

在最终训练中，我们使用来自 SAM 数据集的 190k 分割样本，并结合 LLaVA-OneVision 风格的视觉理解指令数据。实验显示，当 batch 中分割数据与 VQA 数据的比例为 2:1 时，模型取得较优表现。同时，随着分割样本从 2k 扩展到 100k，模型性能持续提升，说明 SGT 具有良好的数据扩展性。