这篇论文《Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes》主要解决的是视觉语言模型在“以自我为中心的多视角场景”中的3D空间推理能力不足的问题。以下是论文的问题定义与解决方法的核心解析:


在这里插入图片描述

一、论文提出的问题

1. 现有空间推理基准的局限性

  • 大多数现有的空间推理数据集(如VSI-Bench)基于单张图像室内静态场景的视频
  • 这些数据不符合真实世界中具身智能体(如自动驾驶汽车、机器人)的感知方式——后者依赖的是多视角、以自我为中心、动态变化的场景
  • 现有基准缺乏对“多视角空间语义一致性”和“随时间变化的动态空间推理”的评估

2. 现有VLM在空间推理上的不足

  • 即使是SOTA模型(如GPT-4o、Gemini-1.5-Pro)在复杂多视角3D空间任务上表现远低于人类水平
  • 模型难以构建统一的空间世界模型,尤其是在缺乏显式3D坐标和视角变换能力的情况下。

二、论文提出的解决方案

在这里插入图片描述

1. 提出新基准:Ego3D-Bench

  • 从三个公开数据集(nuScenes、Waymo、Argoverse)中构建了8,600+个QA对
  • 包含5类任务
    • 绝对距离估计(ego-centric / object-centric)
    • 相对距离比较
    • 定位(从对象的视角)
    • 运动推理(ego / object)
    • 行程时间估计
  • 每类任务都分为多选问答绝对数值估计两种形式。
  • 数据构建过程中大量依赖人工标注,确保质量与多样性。

2. 提出增强方法:Ego3D-VLM

  • 是一个即插即用的后训练框架,不改变原VLM结构。
  • 核心思想:生成文本形式的“认知地图”,而不是点云或BEV图像。
具体步骤:
  1. 使用REC模型(如Grounding-DINO)定位目标对象的2D边界框。
  2. 使用深度估计模型(如Depth-Anything-V2)获取每个目标的距离信息。
  3. 将2D点转换为3D点(相机坐标系 → 全局坐标系)。
  4. 构建“文本认知地图”,包含:
    • 目标的3D坐标
    • 视角(如front-view、left-view)
    • 对象描述
  5. 将认知地图与原始多视角图像一起输入VLM进行最终问答。

3. 实验结果

  • Ego3D-VLM在多个VLM上(GPT-4o、Qwen2.5、InternVL3等)实现了:
    • 平均12%的准确率提升(多选问答)
    • 56%的RMSE下降(绝对距离估计)
  • 显著缩小了VLM与人类之间的空间推理差距。

三、论文的贡献总结

贡献 说明
新基准 首个面向“以自我为中心的多视角动态场景”的3D空间推理基准
新方法 提出轻量、高效的“文本认知地图”增强方法,避免点云/ BEV的高计算成本
实验全面 评测16个SOTA VLM,包括闭源、开源、3D专用模型
可插拔性 Ego3D-VLM可无缝集成到任意VLM中,无需重新训练

数据集开源地址

https://huggingface.co/datasets/vbdai/Ego3D-Bench

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐