从准确率到错误机制——VLM 空间推理 Failure Taxonomy 与案例分析

清空mega

489人浏览 · 2026-06-11 08:23:11

清空mega · 2026-06-11 08:23:11 发布

1. 为什么要做第六阶段？

在前五个阶段中，SRG-CD 已经完成了从数据构建到 VLM 诊断的完整实验链路：

Stage 1: Caption-level SRG-Bench v0.1
Stage 2: OWL-ViT BBox-SRG construction
Stage 3: Geometry v2 spatial diagnosis
Stage 4: Qwen2.5-VL spatial reasoning diagnosis
Stage 5: SRG-aware prompt ablation
Stage 5.5: Balanced SRG conflict verification

到第五阶段为止，我们已经不只是得到了几个 accuracy，而是发现了几个关键现象：

1. Dataset label、geometry evidence 和 VLM response 之间存在系统性不一致。
2. Qwen2.5-VL 在普通 caption 判断上表现较强，但在结构化反事实任务上明显下降。
3. wrong_srg_conflict 对 prompt 极其敏感。
4. CoT-style relation comparison 可以显著激活模型的关系冲突判断能力。
5. Balanced conflict evaluation 证明 CoT 的提升不是 yes-bias。

但是，仅有这些实验结果还不够。

如果我们想把项目做成一个真正有研究味的工作，就不能只停留在：

模型准确率是多少？

而要进一步回答：

模型到底错在哪里？
是数据集标签错？
是视觉 grounding 错？
是关系方向错？
是主体-客体绑定错？
是 prompt 表达导致不稳定？
还是 CoT 也无法修复某些结构冲突？

所以第六阶段的目标是：构建 SRG-CD 的 Failure Taxonomy，把 VLM 空间推理错误从一个模糊的“答错了”，拆解成多个可解释的错误机制。

这一步非常关键。

因为它标志着 SRG-CD 从一个“实验 pipeline”升级成一个“诊断框架”。

2. Stage 6 的核心目标

第六阶段主要做三件事：

1. 汇总前面所有阶段的诊断结果；
2. 构建 failure taxonomy；
3. 导出 representative cases，用于报告、博客和后续论文式分析。

输入文件主要包括：

data/srg_bench_v01/vlm_eval_subset_100.jsonl

results/vlm/qwen_vl_eval_subset_100.jsonl
results/vlm/qwen_vl_prompt_ablation_subset_100.jsonl
results/vlm/qwen_vl_srg_conflict_balanced_eval_200.jsonl

输出文件包括：

results/tables/srg_cd_failure_taxonomy_v2.csv
results/tables/srg_cd_failure_taxonomy_v2_summary.csv
results/tables/srg_cd_representative_cases_v2.csv
report/failure_taxonomy_case_study_v2.md

这一步不需要 GPU，因为它不再重新跑 Qwen2.5-VL，而是读取已经生成的 JSONL 和 CSV 结果进行统计分析。

3. Failure Taxonomy 设计

我们将错误划分成 8 类：

A. Dataset-Geometry Disagreement
B. Visual Grounding Failure
C. Structured SRG Checking Failure
D. Relation Flip Failure
E. Object Swap / Role Binding Failure
F. Prompt Sensitivity
G. Naive Conflict Failure but CoT Success
H. CoT Conflict Failure

这 8 类错误分别对应 SRG-CD 中不同层次的问题。

它们不是随便分的，而是对应整个 pipeline 中可能出错的关键环节：

数据标签层
视觉几何层
VLM 图文判断层
反事实关系层
主体-客体绑定层
prompt 表达层
结构冲突比较层

下面逐一解释。

4. Type A：Dataset-Geometry Disagreement

定义

Type A 表示：

dataset label != geometry-derived visual label

也就是说，VSR 原始标签和 BBox-SRG / Geometry v2 得到的视觉几何证据不一致。

例如某个样本：

Caption:
The bed is right of the potted plant.

Dataset label:
False

BBox-SRG / Geometry v2:
caption_relation = right_of
bbox_relation = right_of
visual label = True

这说明，按照数据集标签，这句话是 False；但按照 bbox 几何关系，这句话是 True。

结果

第六阶段统计得到：

A. Dataset-Geometry Disagreement = 47

也就是说，在 100 条 VLM 评测子集中，有 47 条存在 dataset label 与 geometry evidence 不一致。

解释

这是一项非常重要的发现。

它说明传统 benchmark label 并不总是可以直接作为 VLM 空间推理的唯一评价标准。

如果一个模型回答和 dataset label 不一致，我们不能立刻说模型错了。因为它可能和图像中的几何证据一致。

这也是 SRG-CD 项目的核心价值之一：

SRG-CD 不只诊断模型错误，也诊断数据集标签与视觉几何证据之间的不一致。

换句话说，SRG-CD 可以同时作为：

VLM evaluation tool
dataset diagnosis tool
spatial relation consistency analyzer

5. Type B：Visual Grounding Failure

定义

Type B 表示：

VLM original caption prediction != geometry-derived visual label

也就是说，在 original caption 判断中，Qwen2.5-VL 的回答与 BBox-SRG / Geometry v2 给出的视觉几何标签不一致。

例如：

Caption:
The sandwich is right of the hot dog.

Geometry label:
True

VLM prediction:
False

这类错误说明模型没有和显式几何证据对齐。

结果

第六阶段统计得到：

B. Visual Grounding Failure = 40

其中按关系类型划分：

containment : 11
distance    : 13
horizontal  : 6
vertical    : 10

解释

这个结果说明，Qwen2.5-VL 在普通 caption 判断中虽然整体表现不错，但和几何证据相比，仍然存在大量 grounding failure。

尤其是 distance 和 containment 关系错误较多。

这也符合前面 Geometry v2 和 VLM evaluation 的观察：距离关系和包含关系比简单的 left/right、above/below 更难。

Type B 的意义在于，它把“caption 判断错误”进一步解释成：

模型的视觉 grounding 与几何证据不一致。

这比单纯说“模型答错了”更有诊断价值。

6. Type C：Structured SRG Checking Failure

定义

Type C 表示：

VLM structured_srg_check prediction != geometry-derived visual label

也就是说，当我们把空间关系显式写成：

Subject: A
Relation: r
Object: B

之后，模型仍然无法和 geometry label 对齐。

结果

第六阶段统计得到：

C. Structured SRG Checking Failure = 50

按关系类型分布：

containment : 13
distance    : 12
horizontal  : 12
vertical    : 13

解释

这个结果非常关键。

很多人可能会以为，只要把自然语言 caption 改成结构化三元组，模型就会更容易理解。

但结果说明，并不是这样。

在 structured_srg_check 中，失败数量甚至达到 50 条。

这说明：

显式 SRO/SRG 输入不等于模型一定能完成视觉空间 grounding。

模型可能能读懂三元组形式，但它仍然需要把三元组中的 subject 和 object 对应到图像实体上，再判断空间关系是否成立。

这一步仍然存在困难。

因此，Type C 说明了 SRG-CD 中一个非常重要的观点：

结构化表达可以提高诊断可解释性，但不能保证 VLM 的视觉空间判断一定更准确。

7. Type D：Relation Flip Failure

定义

Type D 表示模型在 relation flip 反事实任务上失败。

relation flip 是指将空间关系方向反转，例如：

left_of  -> right_of
right_of -> left_of
above    -> below
inside   -> outside
near     -> far_from

例如原始 caption 是：

The bed is right of the potted plant.

relation flip 后变成：

The bed is left of the potted plant.

模型需要判断反转后的 relation 是否成立。

结果

第六阶段统计得到：

D. Relation Flip Failure = 42

按关系类型划分：

containment : 8
distance    : 11
horizontal  : 12
vertical    : 11

解释

Type D 对应第四阶段中 relation_flip accuracy 只有 58%。

42 条失败说明 Qwen2.5-VL 对空间关系方向反转并不稳定。

这类错误说明模型不一定真正理解：

A 在 B 左边

和：

A 在 B 右边

之间的互斥关系。

这对于空间推理来说非常重要。

因为空间关系不是普通语义分类，而是具有方向性、相对性和互斥性。

Type D 的存在说明：

VLM 对空间关系方向的反事实敏感性不足。

8. Type E：Object Swap / Role Binding Failure

定义

Type E 表示模型在 object swap 任务上失败。

object swap 是指交换 subject 和 object，并同时调整关系方向。

例如：

Original:
The bed is right of the potted plant.

Object swap:
The potted plant is left of the bed.

这个任务比 relation flip 更难。

因为它不仅要求模型理解空间方向，还要求模型正确绑定：

subject identity
object identity
relation direction
role reversal

结果

第六阶段统计得到：

E. Object Swap / Role Binding Failure = 48

按关系类型划分：

containment : 17
distance    : 15
horizontal  : 10
vertical    : 6

解释

Type E 是第六阶段最有研究价值的错误类型之一。

48 条失败说明，Qwen2.5-VL 在 object-role binding 上非常不稳定。

它可能能判断图像中两个物体的位置，但不一定能稳定处理：

谁是 subject？
谁是 object？
关系方向是否随着角色交换而改变？

这正是 VLM 空间推理中的一个核心弱点。

从结果看，containment 和 distance 的 object swap failure 最多，分别是 17 和 15。

这说明：

包含关系和距离关系中的主体-客体绑定更加困难。

可以写成论文式结论：

Object-role binding remains a major weakness in VLM spatial reasoning, especially for containment and distance relations.

9. Type F：Prompt Sensitivity

定义

Type F 表示同一个样本、同一个任务，在不同 prompt 下产生不同预测。

我们比较了四种 prompt：

baseline
cot
srg_text
srg_json

如果四种 prompt 的 prediction 不一致，就记为 prompt sensitivity。

结果

第六阶段统计得到：

F. Prompt Sensitivity = 178

按任务划分：

original              : 44
structured_srg_check  : 37
wrong_srg_conflict    : 97

按关系类型划分：

containment : 35
distance    : 43
horizontal  : 58
vertical    : 42

解释

Type F 是第五阶段 prompt ablation 的直接延伸。

它说明 Qwen2.5-VL 的空间关系判断高度依赖 prompt 表达形式。

尤其是 wrong_srg_conflict 的 prompt sensitivity 达到 97。

这说明结构冲突判断不是一个稳定的“模型固有能力”，而是很大程度上取决于 prompt 是否把任务拆解清楚。

这个发现非常重要，因为它提醒我们：

如果只用单一 prompt 评测 VLM 空间推理，很可能得到片面的结论。

SRG-CD 的价值就在于可以进一步区分：

模型真的不会？
还是 prompt 没有激活对应能力？

Type F 证明了 prompt ablation 在 VLM 空间推理评测中是必要的。

10. Type G：Naive Conflict Failure but CoT Success

定义

Type G 表示在 balanced SRG conflict evaluation 中：

baseline prompt 失败
CoT relation-comparison prompt 成功

也就是说，naive prompt 没能判断 proposed SRG 和 caption SRG 是否冲突，但 CoT prompt 通过显式关系比较修复了这个错误。

结果

第六阶段统计得到：

G. Naive Conflict Failure but CoT Success = 96

按关系类型分布：

containment : 23
distance    : 25
horizontal  : 24
vertical    : 24

这个分布非常均衡。

解释

Type G 是第五阶段和第六阶段之间最重要的连接点。

在第五阶段，我们发现 CoT prompt 在 balanced conflict evaluation 中达到 98.5% accuracy。

第六阶段进一步说明，这种提升不是个别样本，而是广泛存在于不同关系类型中。

96 个样本都属于：

baseline 错，CoT 对

这说明 naive prompt 的失败并不一定代表模型完全没有关系冲突判断能力。

更准确地说：

模型需要显式 relation-level decomposition 才能稳定执行 SRG conflict 判断。

这也说明，VLM 的空间推理能力可以被拆成两个层次：

1. visual grounding ability
2. symbolic relation comparison ability

CoT prompt 主要激活的是第二个能力。

11. Type H：CoT Conflict Failure

定义

Type H 表示即使使用 CoT relation-comparison prompt，模型仍然在 balanced SRG conflict evaluation 中失败。

结果

第六阶段统计得到：

H. CoT Conflict Failure = 3

具体分布：

containment : 2
vertical    : 1

代表性失败包括：

sandwich under umbrella  vs  sandwich over umbrella
tv inside truck          vs  tv outside truck
teddy bear outside car   vs  teddy bear inside car

解释

Type H 的数量很少，但很重要。

它说明 CoT prompt 虽然极大提升了 SRG conflict 判断，但并不是万能的。

剩余失败主要集中在 containment 和 vertical 关系上，说明这些关系即使在显式三元组比较下也可能出现不稳定。

这类样本很适合作为后续人工案例分析对象。

12. Stage 6 最终统计

第六阶段最终 failure taxonomy 如下：

A. Dataset-Geometry Disagreement                : 47
B. Visual Grounding Failure                     : 40
C. Structured SRG Checking Failure              : 50
D. Relation Flip Failure                        : 42
E. Object Swap / Role Binding Failure           : 48
F. Prompt Sensitivity                           : 178
G. Naive Conflict Failure but CoT Success       : 96
H. CoT Conflict Failure                         : 3

Total failure records: 504

这组结果说明，SRG-CD 不再只是报告某个任务的 accuracy，而是能把错误拆成多个可解释维度。

13. 从 Accuracy 到 Failure Mechanism

传统 VLM evaluation 往往只给出一个总准确率。

例如：

original caption accuracy = 81%
relation_flip accuracy = 58%
object_swap accuracy = 52%

但这种结果只能告诉我们模型“答对了多少”，不能告诉我们模型“为什么错”。

SRG-CD 的阶段六进一步回答了：

1. 有多少样本是 dataset label 与 geometry evidence 不一致？
2. 有多少错误来自视觉 grounding？
3. 有多少错误来自 structured SRG checking？
4. 有多少错误来自 relation flip？
5. 有多少错误来自 object-role binding？
6. 有多少判断对 prompt 高度敏感？
7. 有多少 naive prompt 错误可以被 CoT 修复？
8. CoT 仍然在哪些关系上失败？

这就是从 accuracy-level evaluation 到 mechanism-level diagnosis 的升级。

14. 阶段六对 SRG-CD 的意义

阶段六让 SRG-CD 的研究定位更加清晰。

它不只是：

测试 VLM 是否能判断空间 caption

而是：

构建一个结构化诊断框架，
把 VLM 空间推理错误拆成数据、视觉、关系、角色、prompt 和结构冲突多个层次。

这使得 SRG-CD 具有更强的可解释性。

例如，如果模型在某条样本上答错，我们可以进一步追问：

是 dataset label 和 geometry evidence 本身冲突？
是模型没有看懂图像？
是模型不理解显式 SRG？
是模型对 relation flip 不敏感？
是模型混淆了 subject/object？
还是 prompt 表达没有激活关系比较能力？

这比单纯说“Qwen2.5-VL 错了”更有研究价值。

15. 当前项目进度

截至阶段六，SRG-CD 已经完成：

Stage 1: Caption-level SRG-Bench v0.1             ✅
Stage 2: OWL-ViT BBox-SRG construction           ✅
Stage 3: Geometry v2 diagnosis                   ✅
Stage 4: Qwen2.5-VL spatial diagnosis            ✅
Stage 5: SRG-aware prompt ablation               ✅
Stage 5.5: Balanced SRG conflict verification    ✅
Stage 6: Failure taxonomy and case study         ✅

目前项目已经形成完整闭环：

数据构建
↓
空间关系图
↓
视觉检测
↓
几何诊断
↓
VLM 推理
↓
prompt 消融
↓
balanced conflict 验证
↓
failure taxonomy

16. 下一步计划

阶段六之后，开始做最终整理。

推荐进入：

Stage 7: Final Report and Research Packaging

主要任务包括：

1. 写完整 final report；
2. 更新 README；
3. 整理核心结果表；
4. 生成 pipeline 图和 case study 图；
5. 准备答辩或面试讲稿。

最终报告可以按如下结构组织：

1. Abstract
2. Introduction
3. Dataset Construction
4. BBox-SRG Construction
5. Geometry v2 Diagnosis
6. VLM Diagnosis Protocol
7. Dataset-label vs Visual-label Evaluation
8. Prompt Ablation
9. Balanced Conflict Verification
10. Failure Taxonomy
11. Limitations
12. Conclusion

17. 总结

阶段六完成了 SRG-CD 中最关键的一步：从结果统计走向错误机制分析。

我们构建了 8 类 failure taxonomy：

Dataset-Geometry Disagreement
Visual Grounding Failure
Structured SRG Checking Failure
Relation Flip Failure
Object Swap / Role Binding Failure
Prompt Sensitivity
Naive Conflict Failure but CoT Success
CoT Conflict Failure

最终统计得到 504 条 failure records。

其中，Dataset-Geometry Disagreement 达到 47 条，说明数据集标签与几何证据之间存在显著不一致；Object Swap / Role Binding Failure 达到 48 条，说明主体-客体绑定是 VLM 空间推理中的重要弱点；Prompt Sensitivity 达到 178 条，说明模型判断高度依赖 prompt 表达形式；Naive Conflict Failure but CoT Success 达到 96 条，说明显式关系比较可以大规模修复 naive prompt 的结构冲突判断失败。

因此，阶段六的核心结论是：

VLM 空间推理错误不能被简单归结为“模型答错了”。
它可能来自数据标签与几何证据不一致、视觉 grounding 失败、关系方向反事实不敏感、主体-客体绑定不稳定、prompt 表达敏感，以及结构冲突比较未被激活。

SRG-CD 的价值在于，它提供了一种显式空间关系图驱动的结构化诊断框架，可以把 VLM 的空间推理可靠性问题拆解到更细粒度、更可解释的错误机制层面。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 代码审查与质量保障 — 主流 AI 应用方向深度调研

AtomGit开源社区

yolov5 train.py参数解释

• --exist-ok：如果保存的目录已经存在，不会自动新建带编号的文件夹（如 exp1），而是直接覆盖，常用于重跑某个实验。• --sync-bn：同步批归一化，只有多卡分布式训练（DDP 模式）时有效，能让 BN 统计跨 GPU 同步，提升精度。• --cache-images：将图片缓存在内存或磁盘，减少反复读图的 IO 时间，加快训练，但会占用更多系统内存。• --image-weigh