从准确率到错误机制——VLM 空间推理 Failure Taxonomy 与案例分析
1. 为什么要做第六阶段?
在前五个阶段中,SRG-CD 已经完成了从数据构建到 VLM 诊断的完整实验链路:
Stage 1: Caption-level SRG-Bench v0.1
Stage 2: OWL-ViT BBox-SRG construction
Stage 3: Geometry v2 spatial diagnosis
Stage 4: Qwen2.5-VL spatial reasoning diagnosis
Stage 5: SRG-aware prompt ablation
Stage 5.5: Balanced SRG conflict verification
到第五阶段为止,我们已经不只是得到了几个 accuracy,而是发现了几个关键现象:
1. Dataset label、geometry evidence 和 VLM response 之间存在系统性不一致。
2. Qwen2.5-VL 在普通 caption 判断上表现较强,但在结构化反事实任务上明显下降。
3. wrong_srg_conflict 对 prompt 极其敏感。
4. CoT-style relation comparison 可以显著激活模型的关系冲突判断能力。
5. Balanced conflict evaluation 证明 CoT 的提升不是 yes-bias。
但是,仅有这些实验结果还不够。
如果我们想把项目做成一个真正有研究味的工作,就不能只停留在:
模型准确率是多少?
而要进一步回答:
模型到底错在哪里?
是数据集标签错?
是视觉 grounding 错?
是关系方向错?
是主体-客体绑定错?
是 prompt 表达导致不稳定?
还是 CoT 也无法修复某些结构冲突?
所以第六阶段的目标是:构建 SRG-CD 的 Failure Taxonomy,把 VLM 空间推理错误从一个模糊的“答错了”,拆解成多个可解释的错误机制。
这一步非常关键。
因为它标志着 SRG-CD 从一个“实验 pipeline”升级成一个“诊断框架”。
2. Stage 6 的核心目标
第六阶段主要做三件事:
1. 汇总前面所有阶段的诊断结果;
2. 构建 failure taxonomy;
3. 导出 representative cases,用于报告、博客和后续论文式分析。
输入文件主要包括:
data/srg_bench_v01/vlm_eval_subset_100.jsonl
results/vlm/qwen_vl_eval_subset_100.jsonl
results/vlm/qwen_vl_prompt_ablation_subset_100.jsonl
results/vlm/qwen_vl_srg_conflict_balanced_eval_200.jsonl
输出文件包括:
results/tables/srg_cd_failure_taxonomy_v2.csv
results/tables/srg_cd_failure_taxonomy_v2_summary.csv
results/tables/srg_cd_representative_cases_v2.csv
report/failure_taxonomy_case_study_v2.md
这一步不需要 GPU,因为它不再重新跑 Qwen2.5-VL,而是读取已经生成的 JSONL 和 CSV 结果进行统计分析。
3. Failure Taxonomy 设计
我们将错误划分成 8 类:
A. Dataset-Geometry Disagreement
B. Visual Grounding Failure
C. Structured SRG Checking Failure
D. Relation Flip Failure
E. Object Swap / Role Binding Failure
F. Prompt Sensitivity
G. Naive Conflict Failure but CoT Success
H. CoT Conflict Failure
这 8 类错误分别对应 SRG-CD 中不同层次的问题。
它们不是随便分的,而是对应整个 pipeline 中可能出错的关键环节:
数据标签层
视觉几何层
VLM 图文判断层
反事实关系层
主体-客体绑定层
prompt 表达层
结构冲突比较层
下面逐一解释。
4. Type A:Dataset-Geometry Disagreement
定义
Type A 表示:
dataset label != geometry-derived visual label
也就是说,VSR 原始标签和 BBox-SRG / Geometry v2 得到的视觉几何证据不一致。
例如某个样本:
Caption:
The bed is right of the potted plant.
Dataset label:
False
BBox-SRG / Geometry v2:
caption_relation = right_of
bbox_relation = right_of
visual label = True
这说明,按照数据集标签,这句话是 False;但按照 bbox 几何关系,这句话是 True。
结果
第六阶段统计得到:
A. Dataset-Geometry Disagreement = 47
也就是说,在 100 条 VLM 评测子集中,有 47 条存在 dataset label 与 geometry evidence 不一致。
解释
这是一项非常重要的发现。
它说明传统 benchmark label 并不总是可以直接作为 VLM 空间推理的唯一评价标准。
如果一个模型回答和 dataset label 不一致,我们不能立刻说模型错了。因为它可能和图像中的几何证据一致。
这也是 SRG-CD 项目的核心价值之一:
SRG-CD 不只诊断模型错误,也诊断数据集标签与视觉几何证据之间的不一致。
换句话说,SRG-CD 可以同时作为:
VLM evaluation tool
dataset diagnosis tool
spatial relation consistency analyzer
5. Type B:Visual Grounding Failure
定义
Type B 表示:
VLM original caption prediction != geometry-derived visual label
也就是说,在 original caption 判断中,Qwen2.5-VL 的回答与 BBox-SRG / Geometry v2 给出的视觉几何标签不一致。
例如:
Caption:
The sandwich is right of the hot dog.
Geometry label:
True
VLM prediction:
False
这类错误说明模型没有和显式几何证据对齐。
结果
第六阶段统计得到:
B. Visual Grounding Failure = 40
其中按关系类型划分:
containment : 11
distance : 13
horizontal : 6
vertical : 10
解释
这个结果说明,Qwen2.5-VL 在普通 caption 判断中虽然整体表现不错,但和几何证据相比,仍然存在大量 grounding failure。
尤其是 distance 和 containment 关系错误较多。
这也符合前面 Geometry v2 和 VLM evaluation 的观察:距离关系和包含关系比简单的 left/right、above/below 更难。
Type B 的意义在于,它把“caption 判断错误”进一步解释成:
模型的视觉 grounding 与几何证据不一致。
这比单纯说“模型答错了”更有诊断价值。
6. Type C:Structured SRG Checking Failure
定义
Type C 表示:
VLM structured_srg_check prediction != geometry-derived visual label
也就是说,当我们把空间关系显式写成:
Subject: A
Relation: r
Object: B
之后,模型仍然无法和 geometry label 对齐。
结果
第六阶段统计得到:
C. Structured SRG Checking Failure = 50
按关系类型分布:
containment : 13
distance : 12
horizontal : 12
vertical : 13
解释
这个结果非常关键。
很多人可能会以为,只要把自然语言 caption 改成结构化三元组,模型就会更容易理解。
但结果说明,并不是这样。
在 structured_srg_check 中,失败数量甚至达到 50 条。
这说明:
显式 SRO/SRG 输入不等于模型一定能完成视觉空间 grounding。
模型可能能读懂三元组形式,但它仍然需要把三元组中的 subject 和 object 对应到图像实体上,再判断空间关系是否成立。
这一步仍然存在困难。
因此,Type C 说明了 SRG-CD 中一个非常重要的观点:
结构化表达可以提高诊断可解释性,但不能保证 VLM 的视觉空间判断一定更准确。
7. Type D:Relation Flip Failure
定义
Type D 表示模型在 relation flip 反事实任务上失败。
relation flip 是指将空间关系方向反转,例如:
left_of -> right_of
right_of -> left_of
above -> below
inside -> outside
near -> far_from
例如原始 caption 是:
The bed is right of the potted plant.
relation flip 后变成:
The bed is left of the potted plant.
模型需要判断反转后的 relation 是否成立。
结果
第六阶段统计得到:
D. Relation Flip Failure = 42
按关系类型划分:
containment : 8
distance : 11
horizontal : 12
vertical : 11
解释
Type D 对应第四阶段中 relation_flip accuracy 只有 58%。
42 条失败说明 Qwen2.5-VL 对空间关系方向反转并不稳定。
这类错误说明模型不一定真正理解:
A 在 B 左边
和:
A 在 B 右边
之间的互斥关系。
这对于空间推理来说非常重要。
因为空间关系不是普通语义分类,而是具有方向性、相对性和互斥性。
Type D 的存在说明:
VLM 对空间关系方向的反事实敏感性不足。
8. Type E:Object Swap / Role Binding Failure
定义
Type E 表示模型在 object swap 任务上失败。
object swap 是指交换 subject 和 object,并同时调整关系方向。
例如:
Original:
The bed is right of the potted plant.
Object swap:
The potted plant is left of the bed.
这个任务比 relation flip 更难。
因为它不仅要求模型理解空间方向,还要求模型正确绑定:
subject identity
object identity
relation direction
role reversal
结果
第六阶段统计得到:
E. Object Swap / Role Binding Failure = 48
按关系类型划分:
containment : 17
distance : 15
horizontal : 10
vertical : 6
解释
Type E 是第六阶段最有研究价值的错误类型之一。
48 条失败说明,Qwen2.5-VL 在 object-role binding 上非常不稳定。
它可能能判断图像中两个物体的位置,但不一定能稳定处理:
谁是 subject?
谁是 object?
关系方向是否随着角色交换而改变?
这正是 VLM 空间推理中的一个核心弱点。
从结果看,containment 和 distance 的 object swap failure 最多,分别是 17 和 15。
这说明:
包含关系和距离关系中的主体-客体绑定更加困难。
可以写成论文式结论:
Object-role binding remains a major weakness in VLM spatial reasoning, especially for containment and distance relations.
9. Type F:Prompt Sensitivity
定义
Type F 表示同一个样本、同一个任务,在不同 prompt 下产生不同预测。
我们比较了四种 prompt:
baseline
cot
srg_text
srg_json
如果四种 prompt 的 prediction 不一致,就记为 prompt sensitivity。
结果
第六阶段统计得到:
F. Prompt Sensitivity = 178
按任务划分:
original : 44
structured_srg_check : 37
wrong_srg_conflict : 97
按关系类型划分:
containment : 35
distance : 43
horizontal : 58
vertical : 42
解释
Type F 是第五阶段 prompt ablation 的直接延伸。
它说明 Qwen2.5-VL 的空间关系判断高度依赖 prompt 表达形式。
尤其是 wrong_srg_conflict 的 prompt sensitivity 达到 97。
这说明结构冲突判断不是一个稳定的“模型固有能力”,而是很大程度上取决于 prompt 是否把任务拆解清楚。
这个发现非常重要,因为它提醒我们:
如果只用单一 prompt 评测 VLM 空间推理,很可能得到片面的结论。
SRG-CD 的价值就在于可以进一步区分:
模型真的不会?
还是 prompt 没有激活对应能力?
Type F 证明了 prompt ablation 在 VLM 空间推理评测中是必要的。
10. Type G:Naive Conflict Failure but CoT Success
定义
Type G 表示在 balanced SRG conflict evaluation 中:
baseline prompt 失败
CoT relation-comparison prompt 成功
也就是说,naive prompt 没能判断 proposed SRG 和 caption SRG 是否冲突,但 CoT prompt 通过显式关系比较修复了这个错误。
结果
第六阶段统计得到:
G. Naive Conflict Failure but CoT Success = 96
按关系类型分布:
containment : 23
distance : 25
horizontal : 24
vertical : 24
这个分布非常均衡。
解释
Type G 是第五阶段和第六阶段之间最重要的连接点。
在第五阶段,我们发现 CoT prompt 在 balanced conflict evaluation 中达到 98.5% accuracy。
第六阶段进一步说明,这种提升不是个别样本,而是广泛存在于不同关系类型中。
96 个样本都属于:
baseline 错,CoT 对
这说明 naive prompt 的失败并不一定代表模型完全没有关系冲突判断能力。
更准确地说:
模型需要显式 relation-level decomposition 才能稳定执行 SRG conflict 判断。
这也说明,VLM 的空间推理能力可以被拆成两个层次:
1. visual grounding ability
2. symbolic relation comparison ability
CoT prompt 主要激活的是第二个能力。
11. Type H:CoT Conflict Failure
定义
Type H 表示即使使用 CoT relation-comparison prompt,模型仍然在 balanced SRG conflict evaluation 中失败。
结果
第六阶段统计得到:
H. CoT Conflict Failure = 3
具体分布:
containment : 2
vertical : 1
代表性失败包括:
sandwich under umbrella vs sandwich over umbrella
tv inside truck vs tv outside truck
teddy bear outside car vs teddy bear inside car
解释
Type H 的数量很少,但很重要。
它说明 CoT prompt 虽然极大提升了 SRG conflict 判断,但并不是万能的。
剩余失败主要集中在 containment 和 vertical 关系上,说明这些关系即使在显式三元组比较下也可能出现不稳定。
这类样本很适合作为后续人工案例分析对象。
12. Stage 6 最终统计
第六阶段最终 failure taxonomy 如下:
A. Dataset-Geometry Disagreement : 47
B. Visual Grounding Failure : 40
C. Structured SRG Checking Failure : 50
D. Relation Flip Failure : 42
E. Object Swap / Role Binding Failure : 48
F. Prompt Sensitivity : 178
G. Naive Conflict Failure but CoT Success : 96
H. CoT Conflict Failure : 3
Total failure records: 504
这组结果说明,SRG-CD 不再只是报告某个任务的 accuracy,而是能把错误拆成多个可解释维度。
13. 从 Accuracy 到 Failure Mechanism
传统 VLM evaluation 往往只给出一个总准确率。
例如:
original caption accuracy = 81%
relation_flip accuracy = 58%
object_swap accuracy = 52%
但这种结果只能告诉我们模型“答对了多少”,不能告诉我们模型“为什么错”。
SRG-CD 的阶段六进一步回答了:
1. 有多少样本是 dataset label 与 geometry evidence 不一致?
2. 有多少错误来自视觉 grounding?
3. 有多少错误来自 structured SRG checking?
4. 有多少错误来自 relation flip?
5. 有多少错误来自 object-role binding?
6. 有多少判断对 prompt 高度敏感?
7. 有多少 naive prompt 错误可以被 CoT 修复?
8. CoT 仍然在哪些关系上失败?
这就是从 accuracy-level evaluation 到 mechanism-level diagnosis 的升级。
14. 阶段六对 SRG-CD 的意义
阶段六让 SRG-CD 的研究定位更加清晰。
它不只是:
测试 VLM 是否能判断空间 caption
而是:
构建一个结构化诊断框架,
把 VLM 空间推理错误拆成数据、视觉、关系、角色、prompt 和结构冲突多个层次。
这使得 SRG-CD 具有更强的可解释性。
例如,如果模型在某条样本上答错,我们可以进一步追问:
是 dataset label 和 geometry evidence 本身冲突?
是模型没有看懂图像?
是模型不理解显式 SRG?
是模型对 relation flip 不敏感?
是模型混淆了 subject/object?
还是 prompt 表达没有激活关系比较能力?
这比单纯说“Qwen2.5-VL 错了”更有研究价值。
15. 当前项目进度
截至阶段六,SRG-CD 已经完成:
Stage 1: Caption-level SRG-Bench v0.1 ✅
Stage 2: OWL-ViT BBox-SRG construction ✅
Stage 3: Geometry v2 diagnosis ✅
Stage 4: Qwen2.5-VL spatial diagnosis ✅
Stage 5: SRG-aware prompt ablation ✅
Stage 5.5: Balanced SRG conflict verification ✅
Stage 6: Failure taxonomy and case study ✅
目前项目已经形成完整闭环:
数据构建
↓
空间关系图
↓
视觉检测
↓
几何诊断
↓
VLM 推理
↓
prompt 消融
↓
balanced conflict 验证
↓
failure taxonomy
16. 下一步计划
阶段六之后,开始做最终整理。
推荐进入:
Stage 7: Final Report and Research Packaging
主要任务包括:
1. 写完整 final report;
2. 更新 README;
3. 整理核心结果表;
4. 生成 pipeline 图和 case study 图;
5. 准备答辩或面试讲稿。
最终报告可以按如下结构组织:
1. Abstract
2. Introduction
3. Dataset Construction
4. BBox-SRG Construction
5. Geometry v2 Diagnosis
6. VLM Diagnosis Protocol
7. Dataset-label vs Visual-label Evaluation
8. Prompt Ablation
9. Balanced Conflict Verification
10. Failure Taxonomy
11. Limitations
12. Conclusion
17. 总结
阶段六完成了 SRG-CD 中最关键的一步:从结果统计走向错误机制分析。
我们构建了 8 类 failure taxonomy:
Dataset-Geometry Disagreement
Visual Grounding Failure
Structured SRG Checking Failure
Relation Flip Failure
Object Swap / Role Binding Failure
Prompt Sensitivity
Naive Conflict Failure but CoT Success
CoT Conflict Failure
最终统计得到 504 条 failure records。
其中,Dataset-Geometry Disagreement 达到 47 条,说明数据集标签与几何证据之间存在显著不一致;Object Swap / Role Binding Failure 达到 48 条,说明主体-客体绑定是 VLM 空间推理中的重要弱点;Prompt Sensitivity 达到 178 条,说明模型判断高度依赖 prompt 表达形式;Naive Conflict Failure but CoT Success 达到 96 条,说明显式关系比较可以大规模修复 naive prompt 的结构冲突判断失败。
因此,阶段六的核心结论是:
VLM 空间推理错误不能被简单归结为“模型答错了”。
它可能来自数据标签与几何证据不一致、视觉 grounding 失败、关系方向反事实不敏感、主体-客体绑定不稳定、prompt 表达敏感,以及结构冲突比较未被激活。
SRG-CD 的价值在于,它提供了一种显式空间关系图驱动的结构化诊断框架,可以把 VLM 的空间推理可靠性问题拆解到更细粒度、更可解释的错误机制层面。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)