ViewSpatial-Bench论文精读
·
这篇论文《ViewSpatial-Bench: Benchmark and Models for Multi-Viewpoint Spatial Reasoning in VLMs》由浙江大学等机构的研究者完成,主要聚焦于视觉语言模型(VLMs)在多视角空间推理任务中的能力不足。下面我为你系统解析这篇论文解决的问题、提出的方法以及核心贡献。
一、解决的问题
核心问题:
当前的视觉语言模型在“多视角空间定位与推理”任务上表现很差,尤其是当需要从一个非自我中心视角(如从另一个人或物体的视角)进行空间判断时。
具体表现包括:
-
视角泛化能力缺失:
VLMs 在“相机视角”(egocentric)的空间推理上表现尚可,但在“人类视角”(allocentric)或“第三方视角”任务上表现显著下降。 -
缺乏跨视角的空间理解:
模型无法灵活地在不同实体(人、物体)之间进行空间参考系的转换,而这是人类日常互动中自然而然的能力。 -
训练数据缺乏三维空间标注:
现有的大规模图像-文本对数据缺乏精确的3D空间关系标注,导致模型无法学习到真实的三维空间结构。 -
现有评估基准不足:
已有基准(如EmbSpatial-Bench、VSI-Bench等)大多只评估单一视角或二维空间关系,缺乏对多视角、三维空间推理的系统性评估。
二、提出的解决方案
1. 构建了首个多视角空间定位评估基准:ViewSpatial-Bench
- 包含 5,712 个问答对,来源包括 ScanNet 和 MS-COCO 数据集。
- 涵盖 5 种任务类型,分为两类视角:
- 相机视角:
- Cam-Rel. Dir.(物体间相对方向)
- Cam-Obj. Ori.(物体朝向)
- 人类/物体视角:
- Per-Obj. Ori.(从目标物体的视角判断朝向)
- Per-Rel. Dir.(从一个人视角判断另一个人位置)
- Per-Sec. Sim.(站在物体A看向物体B,判断物体C的位置)

- 相机视角:
2. 设计了自动化的3D空间标注流水线
- 利用 ScanNet 的3D重建数据 和 MS-COCO 的2D关键点,自动生成:
- 物体之间的方向关系(基于角度映射)
- 头部与身体朝向的偏移(用于判断视线方向)
- 使用 Orient-Anything-Large 模型计算旋转角度,并通过规则系统(如22.5°~67.5°为“front-right”)标准化为离散方向标签。
3. 训练了多视角空间模型(MVSM)
- 基于 Qwen2.5-VL-3B 进行微调,使用自动生成的 约43K 条空间关系数据。
- 多视角微调策略:让模型同时学习相机和人类视角的空间推理,提升跨视角统一表示能力。
4. 跨任务与跨数据集验证
- 在 VSI-Bench 和自建的 VSI-App(包含25室内+25室外场景)上进行迁移学习实验,验证模型在真实人机交互场景中的泛化能力。
三、主要实验结果
| 模型 | 相机视角准确率 | 人类视角准确率 | 总体准确率 |
|---|---|---|---|
| GPT-4o | 34.98% | — | 34.98% |
| Qwen2.5-VL (3B) | ~33.2% | ~35.7% | 35.85% |
| MVSM (ours) | — | — | 82.09% |
- MVSM相比于Qwen2.5-VL(3B)提升了46.24个百分点,尤其在人视角物体朝向任务中提升超过50%。
- 在VSI-App上,MVSM在室内场景提升20%,室外场景提升4%,说明室内结构化环境更适配训练分布。
四、核心贡献总结
| 贡献 | 说明 |
|---|---|
| 新基准 | ViewSpatial-Bench:首个系统评估多视角空间定位的基准,涵盖5类任务、5712个样本 |
| 自动化标注流水线 | 可扩展、高效生成3D空间关系数据,支持多视角训练 |
| 新模型 | MVSM:通过多视角微调,显著提升跨视角空间推理能力 |
| 实证发现 | 当前VLMs在视角转换任务上普遍存在系统性缺陷,且训练数据中缺乏3D空间信息是主因 |
五、局限性与未来方向(论文自评)
- 人类视角任务依赖人工标注:Per-Rel. Dir. 任务无法全自动,存在扩展性问题。
- 环境覆盖有限:相机任务主要来自室内ScanNet,户外泛化能力仍需提升。
- 静态场景为主:未涉及动态空间推理(如物体或观察者移动),未来可扩展到时序与运动任务。
开源地址
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)