前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站

这篇论文《ViewSpatial-Bench: Benchmark and Models for Multi-Viewpoint Spatial Reasoning in VLMs》由浙江大学等机构的研究者完成,主要聚焦于视觉语言模型(VLMs)在多视角空间推理任务中的能力不足。下面我为你系统解析这篇论文解决的问题、提出的方法以及核心贡献。
在这里插入图片描述


一、解决的问题

核心问题:

当前的视觉语言模型在“多视角空间定位与推理”任务上表现很差,尤其是当需要从一个非自我中心视角(如从另一个人或物体的视角)进行空间判断时。

具体表现包括:

  1. 视角泛化能力缺失
    VLMs 在“相机视角”(egocentric)的空间推理上表现尚可,但在“人类视角”(allocentric)或“第三方视角”任务上表现显著下降。

  2. 缺乏跨视角的空间理解
    模型无法灵活地在不同实体(人、物体)之间进行空间参考系的转换,而这是人类日常互动中自然而然的能力。

  3. 训练数据缺乏三维空间标注
    现有的大规模图像-文本对数据缺乏精确的3D空间关系标注,导致模型无法学习到真实的三维空间结构。

  4. 现有评估基准不足
    已有基准(如EmbSpatial-Bench、VSI-Bench等)大多只评估单一视角或二维空间关系,缺乏对多视角、三维空间推理的系统性评估。


二、提出的解决方案

1. 构建了首个多视角空间定位评估基准:ViewSpatial-Bench

  • 包含 5,712 个问答对,来源包括 ScanNetMS-COCO 数据集。
  • 涵盖 5 种任务类型,分为两类视角:
    • 相机视角
      • Cam-Rel. Dir.(物体间相对方向)
      • Cam-Obj. Ori.(物体朝向)
    • 人类/物体视角
      • Per-Obj. Ori.(从目标物体的视角判断朝向)
      • Per-Rel. Dir.(从一个人视角判断另一个人位置)
      • Per-Sec. Sim.(站在物体A看向物体B,判断物体C的位置)
        在这里插入图片描述

2. 设计了自动化的3D空间标注流水线

  • 利用 ScanNet 的3D重建数据MS-COCO 的2D关键点,自动生成:
    • 物体之间的方向关系(基于角度映射)
    • 头部与身体朝向的偏移(用于判断视线方向)
  • 使用 Orient-Anything-Large 模型计算旋转角度,并通过规则系统(如22.5°~67.5°为“front-right”)标准化为离散方向标签。

3. 训练了多视角空间模型(MVSM)

  • 基于 Qwen2.5-VL-3B 进行微调,使用自动生成的 约43K 条空间关系数据
  • 多视角微调策略:让模型同时学习相机和人类视角的空间推理,提升跨视角统一表示能力。

4. 跨任务与跨数据集验证

  • VSI-Bench 和自建的 VSI-App(包含25室内+25室外场景)上进行迁移学习实验,验证模型在真实人机交互场景中的泛化能力。

三、主要实验结果

模型 相机视角准确率 人类视角准确率 总体准确率
GPT-4o 34.98% 34.98%
Qwen2.5-VL (3B) ~33.2% ~35.7% 35.85%
MVSM (ours) 82.09%
  • MVSM相比于Qwen2.5-VL(3B)提升了46.24个百分点,尤其在人视角物体朝向任务中提升超过50%。
  • 在VSI-App上,MVSM在室内场景提升20%,室外场景提升4%,说明室内结构化环境更适配训练分布。

四、核心贡献总结

贡献 说明
新基准 ViewSpatial-Bench:首个系统评估多视角空间定位的基准,涵盖5类任务、5712个样本
自动化标注流水线 可扩展、高效生成3D空间关系数据,支持多视角训练
新模型 MVSM:通过多视角微调,显著提升跨视角空间推理能力
实证发现 当前VLMs在视角转换任务上普遍存在系统性缺陷,且训练数据中缺乏3D空间信息是主因

五、局限性与未来方向(论文自评)

  • 人类视角任务依赖人工标注:Per-Rel. Dir. 任务无法全自动,存在扩展性问题。
  • 环境覆盖有限:相机任务主要来自室内ScanNet,户外泛化能力仍需提升。
  • 静态场景为主:未涉及动态空间推理(如物体或观察者移动),未来可扩展到时序与运动任务。

开源地址

https://github.com/ZJU-REAL/ViewSpatial-Bench

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐