最近,我们发布了论文 Semantic Generative Tuning for Unified Multimodal Models。这项工作关注一个正在快速发展的方向:统一多模态模型,即在同一个框架中同时支持视觉理解、图像生成和图像编辑。论文已发布在 arXiv,作者来自上海交通大学和 Tencent ARC Lab。

论文链接:论文

代码链接:代码

项目链接:项目页

统一多模态模型的目标很直接:让一个模型既能“看懂图像”,也能“生成图像”。然而,现有训练范式中仍存在一个关键矛盾。视觉理解通常依赖稀疏的文本监督,例如 VQA 问答数据;视觉生成则主要依赖密集的像素级目标,例如图像重建或视觉 token 重建。这种监督信号的不一致会导致理解和生成在表示空间中相互割裂,模型虽然结构上统一了,但能力之间并没有真正形成协同。

为什么不是像素重建?

一个自然的想法是:既然要连接理解和生成,那是否可以让模型重建原图?已有工作也尝试使用像素级重建作为代理任务。但我们的实验发现,像素级重建并不是最优选择。原因在于,像素重建会迫使模型关注大量纹理、噪声和低层细节,而这些信息并不总是对语义理解有帮助。

因此,我们提出了一个核心问题:

对于统一多模态模型,什么样的视觉生成代理任务最适合连接理解与生成?

为回答这个问题,我们系统评估了不同层级的视觉任务,包括低层任务如边缘检测,中层任务如深度估计和图像修复,以及高层任务如目标检测和图像分割。实验结果显示,高层语义任务,尤其是图像分割,能够更有效地促进视觉理解与图像生成之间的协同。

SGT:从像素空间转向语义空间

基于这一发现,我们提出 Semantic Generative Tuning,简称 SGT

SGT 的核心思想是:
将图像分割作为生成式后训练目标,让模型在语义结构层面对齐视觉理解与视觉生成。

与像素级重建不同,分割任务天然强调物体、区域、边界和空间结构。它保留了对理解最有价值的高层视觉语义,同时减少了对无关纹理细节的过度关注。因此,SGT 可以作为稀疏文本监督和密集视觉监督之间的中间桥梁,帮助统一多模态模型建立更加一致的表示空间。

实验结果:理解和生成同时受益

我们在两类主流统一多模态模型上验证了 SGT,包括 BAGEL 和 OmniGen2。实验涵盖视觉感知、空间推理、幻觉鲁棒性、通用 VQA、数学与知识推理,以及图像生成和图像编辑等多类任务。

在 BAGEL 上,加入 SGT 后,模型在 CV-Bench 上从 73.21 提升到 79.23,在 GenEval 上从 78.21 提升到 80.95,在 GEdit-Bench-En 上从 6.52 提升到 6.94。对于 OmniGen2,SGT 同样带来了稳定提升,例如 MMVP 从 65.00 提升到 68.33,GenEval 从 76.58 提升到 78.86。

更重要的是,SGT 在不同架构上都能取得收益。这说明它并不是依赖某个特定模型设计的技巧,而是一种更通用的语义级后训练范式。

为什么 SGT 有效?

我们进一步从表示空间和注意力机制两个角度分析了 SGT 的作用机制。

首先,SGT 能够提升视觉特征的线性可分性。例如,在区分外观相近但结构不同的类别时,经过分割监督训练后的模型能够形成更加清晰的特征簇。其次,SGT 会让模型在理解阶段更加关注视觉 token,减少对语言先验的过度依赖,从而缓解多模态模型常见的幻觉问题。最后,在生成阶段,SGT 会增强模型对关键文本 token 的关注,例如物体、颜色和空间关系,使生成结果更好地遵循复杂提示词。

这表明,SGT 的收益并不只是来自更多数据或更长训练,而是来自一种更合适的语义监督信号。

数据配方与可扩展性

在最终训练中,我们使用来自 SAM 数据集的 190k 分割样本,并结合 LLaVA-OneVision 风格的视觉理解指令数据。实验显示,当 batch 中分割数据与 VQA 数据的比例为 2:1 时,模型取得较优表现。同时,随着分割样本从 2k 扩展到 100k,模型性能持续提升,说明 SGT 具有良好的数据扩展性。

这项工作的意义

我们认为,SGT 提供了一个简单但重要的启示:

统一多模态模型的关键,不只是把理解和生成放进同一个架构,而是找到合适的中间监督信号,让两种能力在语义层面真正对齐。

从这个角度看,图像分割并不只是一个传统视觉任务,而可以成为连接视觉理解和视觉生成的语义桥梁。SGT 也说明,在未来的统一多模态模型训练中,语义结构、空间布局和高层视觉代理任务可能会扮演越来越重要的角色。

当然,SGT 也不是万能的。论文中也指出,仅依赖分割监督并不能直接提升符号密集型任务、复杂知识推理或数学推理能力。更理想的方向,是将 SGT 与理解数据、生成数据以及后续强化学习训练结合,构建更完整的统一多模态后训练流程。

项目资源

我们已经公开论文、项目主页和代码,欢迎大家关注、试用和引用这项工作。项目主页显示,SGT 是针对统一多模态模型生成式后训练的系统研究,并提供了论文、代码和引用信息。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐