旨在解决当前多模态大语言模型(MLLMs)在迈向“通用人工智能”(AGI)过程中面临的评估标准缺失和能力定义模糊的问题。

以下是对该论文内容的详细介绍:

1. 研究背景与动机

  • 从单模态到多模态的演进: 大型语言模型(LLMs)如ChatGPT和LLaMA已经在自然语言处理领域展现了通用智能的雏形。然而,人类智能本质上是多模态的(视觉、听觉、文本等协同工作)。当前的多模态大模型(MLLMs)虽然发展迅速,但大多仍依赖语言智能作为核心,其他模态往往只是辅助,尚未实现真正的多模态协同共生。
  • 现有评估的局限性: 现有的基准测试(Benchmarks)通常侧重于特定的任务(如图像描述、视觉问答)或单一的模态组合,缺乏对模型“通用性”(Generalist capability)的全面评估。这导致难以衡量模型是否真正具备了跨模态、跨任务、跨格式的通用处理能力。
  • 目标: 论文提出需要一个新的评估框架,能够全面衡量多模态通用智能的水平,并推动下一代多模态基础模型的发展。

2. 主要贡献

论文提出了两个核心成果:

  1. General-Level(通用等级体系): 一个用于定义和分级多模态通用智能的理论框架。它不再仅仅关注单一任务的表现,而是从技能的广度、模态的多样性、格式的复杂性以及能力的深度等多个维度来界定什么是真正的“多模态通用专家”。
  2. General-Bench(通用基准测试): 基于上述理论构建的大规模多模态基准测试数据集。
    • 规模巨大: 包含超过 700个任务325,800个实例
    • 覆盖广泛: 涵盖了更广泛的技能谱系、模态类型(不仅限于图文,还包括音频、视频等)、数据格式和能力要求。
    • 综合性: 旨在测试模型在理解、生成、编辑甚至跨模态推理等方面的综合表现。

3. 方法框架与评估体系

  • 理想智能模式: 论文指出,理想的智能模式应当是所有模态和任务之间的协同增效(Synergy),而不是像当前大多数模型那样,仅仅将非文本模态作为语言模型的输入插件(即“语言智能主导”模式)。
  • 评估维度: General-Bench 的设计考虑了多个维度,包括但不限于:
    • 模态丰富度: 测试模型处理单一模态、双模态及多模态混合输入的能力。
    • 任务多样性: 从简单的感知任务到复杂的推理、创作和编辑任务。
    • 细粒度理解: 不仅测试粗粒度的场景识别,还涉及像素级的视觉建模和细粒度的语义理解。
  • 对比分析: 论文通过该基准测试了对比了现有的100多个最先进(SOTA)的多模态大模型,揭示了它们在不同能力维度上的排名和短板。

4. 实验结果与发现

通过对大量主流模型(如GPT-4o, Gemini-1.5, Claude-3.5, Qwen2-VL, InternVL等)的评估,论文得出了一些关键发现:

  • 能力差距明显: 尽管某些模型在特定任务上表现优异,但在全面的通用性测试中,没有任何模型能够完美覆盖所有维度的能力。
  • “伪通用”现象: 许多被称为“通用”的模型实际上仍然严重依赖语言先验知识,在处理非文本模态的深度理解或复杂跨模态生成时表现不佳。
  • 具体表现差异:
    • 部分顶尖模型(如GPT-4o系列、Gemini-1.5-Pro)在图像理解、情感检测、图表分类等任务上表现较好,但在幻觉检测、复杂图像编辑等方面仍有提升空间。
    • 一些开源模型(如InternVL, Qwen2-VL)在特定参数规模下展现了惊人的竞争力,但在极端复杂任务上与闭源顶尖模型仍有差距。
    • 某些专用模型或早期多模态模型在General-Bench上的得分极低,甚至在某些任务上得分为0,突显了基准测试的区分度。

5. 结论与展望

  • 通往AGI的挑战: 评估结果揭示了当前技术在实现真正的人工智能(AGI)方面仍面临巨大挑战。目前的模型距离实现全模态、全任务的无缝协同还有很长的路要走。
  • 基础设施价值: 作者期望 General-LevelGeneral-Bench 能为未来的研究提供坚实的基础设施,加速下一代多模态基础模型的研发。
  • 资源开放: 项目页面、排行榜和基准数据集已对外公开,供社区使用和参考,以促进该领域的透明度和进步。

总结: 这篇论文不仅发布了一个超大规模的数据集,更重要的是提出了一套重新定义“多模态通用智能”的标准。它指出了当前多模态模型“重语言、轻多模态协同”的弊端,并通过详实的实验数据证明了现有模型距离真正的通用智能还有显著差距,为后续研究指明了方向。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐