1. 为什么要做第五阶段?

在前四个阶段中,我们已经完成了 SRG-CD 的主要实验链路:

Stage 1: Caption-level SRG-Bench v0.1
Stage 2: OWL-ViT BBox-SRG 构建
Stage 3: Geometry v2 空间关系诊断
Stage 4: Qwen2.5-VL 空间推理诊断

第四阶段中,我们将 100 条均衡 VLM 评测样本输入 Qwen2.5-VL-7B-Instruct,测试了五类任务:

1. original caption
2. relation_flip
3. object_swap
4. structured_srg_check
5. wrong_srg_conflict

结果发现,Qwen2.5-VL 在普通 caption 判断上表现较好,但在结构化反事实任务上明显下降。

尤其是 wrong_srg_conflict,模型几乎接近随机水平。

这带来了一个关键问题:

模型是真的不具备空间关系冲突判断能力,
还是我们的 prompt 没有把任务表达清楚?

因此,第五阶段的目标不是继续换模型,而是做一个更像研究论文中的 ablation study

在同一个模型、同一批数据上,只改变 prompt 形式,
观察 Qwen2.5-VL 的空间关系诊断能力是否发生变化。

这一步非常重要。

因为如果不同 prompt 之间结果差异很大,就说明 VLM 的空间推理诊断并不是一个稳定属性,而是强烈依赖任务表达方式。


2. 第五阶段研究问题

第五阶段主要回答三个问题:

Q1: SRG-aware prompt 是否能提升 VLM 的空间关系诊断能力?

Q2: 显式关系比较式 prompt 是否能激活模型的 SRG conflict 判断能力?

Q3: 如果 wrong_srg_conflict 性能提升,是否只是因为样本标签不均衡导致的 yes-bias?

其中 Q3 是最关键的严谨性问题。

因为在第四阶段和第五阶段初始设置中,wrong_srg_conflict 任务中的 proposed SRG 都是故意构造的错误关系,因此:

expected_conflict = True

也就是说,如果模型一直回答 yes,也可能获得很高准确率。

所以我们进一步做了 Stage 5.5,构造了一个 conflict / no-conflict 正负均衡的数据集,专门验证模型是不是存在 yes-bias。


3. Prompt Ablation 实验设计

第五阶段中,我们设计了 4 种 prompt 模式:

1. baseline
2. cot
3. srg_text
4. srg_json

3.1 Baseline Prompt

Baseline 是最普通的自然语言判断形式。

例如:

Does the image support this statement?

Statement: "The bed is right of the potted plant."

Return only JSON:
{"answer": "yes" or "no"}

这种形式最接近普通图文一致性判断。


3.2 CoT-style Prompt

CoT prompt 不要求模型输出长推理,而是显式提示模型先比较 subject 和 object 的空间位置,再给出最终 yes/no。

例如:

Caption says:
subject = bed
relation = right_of
object = potted plant

Proposed graph says:
subject = bed
relation = left_of
object = potted plant

Decide whether the two relations describe conflicting spatial structures.

这个 prompt 的核心不是让模型“自由思考”,而是把任务拆成结构化关系比较。


3.3 SRG-text Prompt

SRG-text prompt 将空间关系表达为三元组:

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, left_of, potted plant)

它比自然语言更结构化,但仍然保持文本形式。


3.4 SRG-JSON Prompt

SRG-JSON prompt 将空间关系表达为图结构:

{
  "nodes": [
    {"id": "subject", "name": "bed", "role": "subject"},
    {"id": "object", "name": "potted plant", "role": "object"}
  ],
  "edges": [
    {"source": "subject", "target": "object", "relation": "right_of"}
  ]
}

这种形式最接近显式 Spatial Relation Graph。

它可以测试模型是否真的能理解图结构表达。


4. 实验任务

本阶段主要选择 3 个任务做 prompt ablation:

1. original
2. structured_srg_check
3. wrong_srg_conflict

没有继续测试 relation_flip 和 object_swap,是因为第五阶段的重点不是所有反事实任务,而是分析 SRG-aware prompt 对结构化空间诊断的影响。

三个任务的定位如下:

original:
普通 caption 判断,测试模型自然语言图文一致性能力。

structured_srg_check:
显式 subject-relation-object 空间关系判断,测试模型是否能处理结构化 SRG 表达。

wrong_srg_conflict:
判断 proposed SRG 是否与 caption relation 冲突,测试模型的结构冲突识别能力。

5. Dataset-label 与 Visual-label 双评价

延续第四阶段的设计,本阶段仍然使用两套评价标准。

第一套是 dataset-label evaluation:

以 VSR 原始 label 或构造任务的 expected label 作为标准。

第二套是 visual-label evaluation:

以 BBox-SRG / Geometry v2 计算出的视觉几何关系作为标准。

这两套评价回答的问题不同。

Dataset-label 关注:

模型是否复现数据集标签?

Visual-label 关注:

模型是否符合显式几何证据?

这一点非常关键。

因为前面阶段已经发现,dataset label、geometry evidence 和 VLM response 三者并不总是一致。


6. Stage 5 实验结果:Prompt Ablation

在 100 条 VLM 子集上,我们进行了完整 prompt ablation。

每条样本执行:

3 个任务 × 4 种 prompt = 12 次 VLM 推理

总计:

100 条 × 12 = 1200 次 Qwen2.5-VL 推理

所有任务的解析率均为 100%。


7. Dataset-label Evaluation 结果

7.1 Original Caption

baseline   81%
cot        79%
srg_text   63%
srg_json   69%

在 original caption 判断中,baseline 最好。

这说明对于普通自然语言 caption,Qwen2.5-VL 原本的图文匹配能力已经较强。

强行改成 SRG-text 或 SRG-JSON 后,效果反而下降。

这说明:

SRG-aware prompt 并不是对所有任务都有帮助。

对于自然语言 caption 判断,普通自然语言 prompt 仍然最稳定。


7.2 Structured SRG Check

baseline   68%
cot        65%
srg_text   64%
srg_json   65%

在 dataset-label 下,structured_srg_check 不同 prompt 差异不大。

baseline 仍然略高。

这说明,如果以原始数据集标签作为评价标准,结构化 prompt 并没有明显带来提升。

可能原因是:dataset label 本身未必完全符合图像几何关系,因此更结构化的 prompt 不一定更接近 dataset label。


7.3 Wrong SRG Conflict

baseline    1%
cot        97%
srg_text   48%
srg_json   10%

这是第五阶段最重要的发现。

在 wrong_srg_conflict 任务上,baseline 几乎完全失败,只有 1%。

但是 CoT prompt 达到 97%。

这说明模型并不是完全不会判断 SRG conflict,而是 naive prompt 没有把任务表达成模型容易处理的形式。

当 prompt 明确拆解为:

Caption says:
subject = ...
relation = ...
object = ...

Proposed graph says:
subject = ...
relation = ...
object = ...

Are these two relations conflicting?

模型就能很好地完成关系冲突判断。

这表明 Qwen2.5-VL 具备较强的显式关系比较能力,但这种能力需要通过合适的 prompt 激活。


8. Visual-label Evaluation 结果

8.1 Original Caption

baseline   60%
cot        60%
srg_text   50%
srg_json   60%

在 visual-label 下,original 任务中 baseline、cot、srg_json 都是 60%,srg_text 稍低。

这说明在几何标签标准下,普通 caption 判断并没有因为 prompt 结构化而显著提升。


8.2 Structured SRG Check

baseline   49%
cot        50%
srg_text   49%
srg_json   56%

在 visual-label 下,SRG-JSON prompt 得到最高结果,为 56%。

虽然提升不算巨大,但它说明:

显式图结构表达可能有助于模型更接近 BBox-SRG / Geometry v2 的视觉几何判断。

这和 dataset-label 下的结果不同。

这也再次说明,dataset-label 和 visual-label 评价目标并不完全一致。


8.3 Wrong SRG Conflict

baseline    1%
cot        97%
srg_text   48%
srg_json   10%

与 dataset-label 一样,visual-label 下 wrong_srg_conflict 仍然是 CoT prompt 最强。

这说明 CoT prompt 对结构冲突判断的提升非常稳定。

但此时仍然存在一个问题:

wrong_srg_conflict 当前是否只有 conflict=True?
如果是,那么 97% 会不会只是因为模型倾向回答 yes?

因此我们进一步做了 Stage 5.5。


9. Stage 5.5:Balanced SRG Conflict Evaluation

为了验证 CoT 的提升不是 yes-bias,我们重新构造了一个正负均衡的 SRG conflict 数据集。

对于每条原始样本,我们构造两条记录:

9.1 No-conflict 样本

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, right_of, potted plant)

expected_conflict = False

9.2 Conflict 样本

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, left_of, potted plant)

expected_conflict = True

这样,对于 100 条原始样本,最终得到:

100 条 no_conflict
100 条 conflict

总计 200 条。

关系类型也保持均衡:

containment : 50
distance    : 50
horizontal  : 50
vertical    : 50

这一步的意义是:如果 CoT prompt 只是 yes-bias,那么它会在 no_conflict 样本上大量出错。

如果它真的理解冲突关系,那么它应该同时正确识别 conflict=True 和 conflict=False。


10. Balanced Conflict 结果

完整 200 条结果如下:

baseline   acc=50.5%   TP=  1   TN=100   FP=0   FN=99
cot        acc=98.5%   TP= 97   TN=100   FP=0   FN= 3
srg_text   acc=74.0%   TP= 48   TN=100   FP=0   FN=52
srg_json   acc=55.0%   TP= 10   TN=100   FP=0   FN=90

这组结果非常关键。

Baseline

Baseline 的准确率是 50.5%。

它几乎总是回答 no:

TP = 1
TN = 100
FN = 99

这说明 naive prompt 下,模型基本不愿意判断 proposed SRG 与 caption SRG 存在冲突。

它不是随机错,而是存在明显的 no-bias。


CoT Prompt

CoT prompt 的准确率达到 98.5%。

更重要的是:

TP = 97
TN = 100
FP = 0
FN = 3

这说明 CoT 不仅能识别 97 条 conflict=True 样本,还能正确识别全部 100 条 no_conflict=False 样本。

因此可以排除 yes-bias。

这意味着:

CoT prompt 的提升不是因为样本标签不均衡,
而是因为显式关系比较确实帮助模型完成了 SRG conflict 判断。

这是第五阶段最强的结论。


SRG-text Prompt

SRG-text 的准确率是 74%。

TP = 48
TN = 100
FN = 52

它能正确判断所有 no_conflict 样本,但只能识别 48 条 conflict 样本。

说明三元组形式比 baseline 好,但仍然不足以稳定激活模型的冲突判断能力。


SRG-JSON Prompt

SRG-JSON 的准确率是 55%。

TP = 10
TN = 100
FN = 90

这个结果有点意外。

虽然 SRG-JSON 是最结构化的表达方式,但模型并没有很好地利用 JSON 图结构。

这说明:

结构化表达不等于模型一定能理解。

对于 Qwen2.5-VL 来说,显式自然语言分步比较比 JSON 图结构更有效。


11. 第五阶段核心发现

第五阶段可以总结为四个关键发现。

发现一:Prompt 对空间诊断结果影响巨大

同一个模型、同一批数据、同一个任务,只是 prompt 形式不同,结果就从 1% 变化到 97%。

这说明:

VLM 空间推理评测不是 prompt-invariant 的。

如果不做 prompt ablation,只报告一个 prompt 下的准确率,很容易得出片面的结论。


发现二:普通 caption 判断中 baseline 最稳定

对于 original caption,baseline 是 dataset-label 下最强的 prompt:

baseline = 81%
cot      = 79%
srg_text = 63%
srg_json = 69%

这说明自然语言图文匹配仍然是 VLM 的强项。

SRG prompt 不一定适合所有任务。


发现三:SRG-JSON 对 visual structured checking 有一定帮助,但提升有限

在 visual-label 的 structured_srg_check 中:

srg_json = 56%
baseline = 49%

这说明显式图结构对视觉几何对齐有一定帮助。

但提升幅度有限,说明 Qwen2.5-VL 对 JSON graph 的结构理解并不稳定。


发现四:CoT-style relation comparison 能显著激活冲突判断能力

在 balanced SRG conflict evaluation 中:

cot = 98.5%

并且:

TP = 97
TN = 100
FP = 0
FN = 3

这说明 CoT prompt 不是简单 yes-bias,而是真的帮助模型完成了 relation-level conflict comparison。


12. 需要谨慎解释的地方

虽然 CoT 在 balanced conflict 任务中达到 98.5%,但不能把它简单解释成:

Qwen2.5-VL 的视觉空间推理能力达到 98.5%。

这是不严谨的。

因为 balanced conflict 任务本质上比较的是两个显式关系三元组:

(subject, relation_1, object)
(subject, relation_2, object)

它更接近:

symbolic relation consistency checking

而不是纯视觉空间推理。

所以更准确的表述是:

Qwen2.5-VL 在显式关系三元组比较任务中具有很强的结构冲突识别能力,
但这种能力需要 CoT-style relation decomposition 才能被稳定激活。

这也是本阶段最重要的研究结论。


13. 对 SRG-CD 项目的意义

第五阶段让 SRG-CD 项目从普通 VLM 评测进一步升级为 prompt-sensitive diagnostic framework。

也就是说,我们不只是问:

模型答对了吗?

而是在问:

模型在什么 prompt 表达下能答对?
它是依赖自然语言理解,还是依赖结构关系比较?
它对 JSON graph 是否敏感?
它的失败是视觉 grounding 失败,还是任务表达失败?

这让 SRG-CD 的诊断能力更细了。

现在我们可以区分三种能力:

1. Visual grounding ability
   模型是否能看出图像中的 subject 和 object 位置关系。

2. Symbolic relation comparison ability
   模型是否能比较两个关系三元组是否冲突。

3. Graph-structured prompt following ability
   模型是否能理解 SRG-text / SRG-JSON 形式的结构化输入。

这比单纯报告 accuracy 更有研究价值。


14. 阶段五后的项目进度

到第五阶段结束后,SRG-CD 已经完成:

Stage 1: Caption-level SRG-Bench v0.1             ✅
Stage 2: OWL-ViT BBox-SRG construction           ✅
Stage 3: Geometry v2 diagnosis                   ✅
Stage 4: Qwen2.5-VL spatial diagnosis            ✅
Stage 5: SRG-aware prompt ablation               ✅
Stage 5.5: Balanced SRG conflict verification    ✅

目前项目已经形成了一个较完整的研究闭环:

数据构建
↓
显式空间关系图
↓
视觉检测与几何证据
↓
VLM 空间推理诊断
↓
Prompt 消融
↓
均衡冲突验证

15. 总结

第五阶段的实验表明,Qwen2.5-VL 的空间关系诊断能力高度依赖 prompt 表达形式。

在普通 caption 判断中,自然语言 baseline prompt 仍然最稳定;但在 SRG conflict 判断中,naive prompt 几乎完全失败,而显式关系比较式 CoT prompt 能将准确率提升到 97%。

为了排除 yes-bias,我们进一步构造了 balanced SRG conflict evaluation set,其中包含 100 条 conflict 样本和 100 条 no-conflict 样本。结果显示,CoT prompt 在该均衡设置下仍达到 98.5% accuracy,并取得 TP=97、TN=100、FP=0、FN=3 的结果。

这说明 CoT 的提升并不是由标签不均衡导致的,而是因为它将任务显式分解为 relation-level comparison,从而激活了模型的结构冲突识别能力。

最终,第五阶段得到的核心结论是:

VLM 在 naive prompt 下的空间关系冲突判断失败,
不一定意味着模型完全缺乏关系比较能力;
更可能说明该能力需要通过显式结构化 prompt 和任务分解来激活。

同时,SRG-JSON 的效果并不稳定,也说明:

更结构化的输入形式并不必然带来更强的 VLM 诊断能力。
模型是否能利用结构化图表达,本身就是一个需要实验验证的问题。

这正是 SRG-CD 项目的价值所在:它不仅评测 VLM 是否答对,还进一步诊断模型在空间关系理解、结构图表示、反事实冲突识别和 prompt 敏感性方面的可靠性。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐