SRG-aware Prompting 消融实验与均衡冲突验证
1. 为什么要做第五阶段?
在前四个阶段中,我们已经完成了 SRG-CD 的主要实验链路:
Stage 1: Caption-level SRG-Bench v0.1
Stage 2: OWL-ViT BBox-SRG 构建
Stage 3: Geometry v2 空间关系诊断
Stage 4: Qwen2.5-VL 空间推理诊断
第四阶段中,我们将 100 条均衡 VLM 评测样本输入 Qwen2.5-VL-7B-Instruct,测试了五类任务:
1. original caption
2. relation_flip
3. object_swap
4. structured_srg_check
5. wrong_srg_conflict
结果发现,Qwen2.5-VL 在普通 caption 判断上表现较好,但在结构化反事实任务上明显下降。
尤其是 wrong_srg_conflict,模型几乎接近随机水平。
这带来了一个关键问题:
模型是真的不具备空间关系冲突判断能力,
还是我们的 prompt 没有把任务表达清楚?
因此,第五阶段的目标不是继续换模型,而是做一个更像研究论文中的 ablation study:
在同一个模型、同一批数据上,只改变 prompt 形式,
观察 Qwen2.5-VL 的空间关系诊断能力是否发生变化。
这一步非常重要。
因为如果不同 prompt 之间结果差异很大,就说明 VLM 的空间推理诊断并不是一个稳定属性,而是强烈依赖任务表达方式。
2. 第五阶段研究问题
第五阶段主要回答三个问题:
Q1: SRG-aware prompt 是否能提升 VLM 的空间关系诊断能力?
Q2: 显式关系比较式 prompt 是否能激活模型的 SRG conflict 判断能力?
Q3: 如果 wrong_srg_conflict 性能提升,是否只是因为样本标签不均衡导致的 yes-bias?
其中 Q3 是最关键的严谨性问题。
因为在第四阶段和第五阶段初始设置中,wrong_srg_conflict 任务中的 proposed SRG 都是故意构造的错误关系,因此:
expected_conflict = True
也就是说,如果模型一直回答 yes,也可能获得很高准确率。
所以我们进一步做了 Stage 5.5,构造了一个 conflict / no-conflict 正负均衡的数据集,专门验证模型是不是存在 yes-bias。
3. Prompt Ablation 实验设计
第五阶段中,我们设计了 4 种 prompt 模式:
1. baseline
2. cot
3. srg_text
4. srg_json
3.1 Baseline Prompt
Baseline 是最普通的自然语言判断形式。
例如:
Does the image support this statement?
Statement: "The bed is right of the potted plant."
Return only JSON:
{"answer": "yes" or "no"}
这种形式最接近普通图文一致性判断。
3.2 CoT-style Prompt
CoT prompt 不要求模型输出长推理,而是显式提示模型先比较 subject 和 object 的空间位置,再给出最终 yes/no。
例如:
Caption says:
subject = bed
relation = right_of
object = potted plant
Proposed graph says:
subject = bed
relation = left_of
object = potted plant
Decide whether the two relations describe conflicting spatial structures.
这个 prompt 的核心不是让模型“自由思考”,而是把任务拆成结构化关系比较。
3.3 SRG-text Prompt
SRG-text prompt 将空间关系表达为三元组:
Caption SRG:
(bed, right_of, potted plant)
Proposed SRG:
(bed, left_of, potted plant)
它比自然语言更结构化,但仍然保持文本形式。
3.4 SRG-JSON Prompt
SRG-JSON prompt 将空间关系表达为图结构:
{
"nodes": [
{"id": "subject", "name": "bed", "role": "subject"},
{"id": "object", "name": "potted plant", "role": "object"}
],
"edges": [
{"source": "subject", "target": "object", "relation": "right_of"}
]
}
这种形式最接近显式 Spatial Relation Graph。
它可以测试模型是否真的能理解图结构表达。
4. 实验任务
本阶段主要选择 3 个任务做 prompt ablation:
1. original
2. structured_srg_check
3. wrong_srg_conflict
没有继续测试 relation_flip 和 object_swap,是因为第五阶段的重点不是所有反事实任务,而是分析 SRG-aware prompt 对结构化空间诊断的影响。
三个任务的定位如下:
original:
普通 caption 判断,测试模型自然语言图文一致性能力。
structured_srg_check:
显式 subject-relation-object 空间关系判断,测试模型是否能处理结构化 SRG 表达。
wrong_srg_conflict:
判断 proposed SRG 是否与 caption relation 冲突,测试模型的结构冲突识别能力。
5. Dataset-label 与 Visual-label 双评价
延续第四阶段的设计,本阶段仍然使用两套评价标准。
第一套是 dataset-label evaluation:
以 VSR 原始 label 或构造任务的 expected label 作为标准。
第二套是 visual-label evaluation:
以 BBox-SRG / Geometry v2 计算出的视觉几何关系作为标准。
这两套评价回答的问题不同。
Dataset-label 关注:
模型是否复现数据集标签?
Visual-label 关注:
模型是否符合显式几何证据?
这一点非常关键。
因为前面阶段已经发现,dataset label、geometry evidence 和 VLM response 三者并不总是一致。
6. Stage 5 实验结果:Prompt Ablation
在 100 条 VLM 子集上,我们进行了完整 prompt ablation。
每条样本执行:
3 个任务 × 4 种 prompt = 12 次 VLM 推理
总计:
100 条 × 12 = 1200 次 Qwen2.5-VL 推理
所有任务的解析率均为 100%。
7. Dataset-label Evaluation 结果
7.1 Original Caption
baseline 81%
cot 79%
srg_text 63%
srg_json 69%
在 original caption 判断中,baseline 最好。
这说明对于普通自然语言 caption,Qwen2.5-VL 原本的图文匹配能力已经较强。
强行改成 SRG-text 或 SRG-JSON 后,效果反而下降。
这说明:
SRG-aware prompt 并不是对所有任务都有帮助。
对于自然语言 caption 判断,普通自然语言 prompt 仍然最稳定。
7.2 Structured SRG Check
baseline 68%
cot 65%
srg_text 64%
srg_json 65%
在 dataset-label 下,structured_srg_check 不同 prompt 差异不大。
baseline 仍然略高。
这说明,如果以原始数据集标签作为评价标准,结构化 prompt 并没有明显带来提升。
可能原因是:dataset label 本身未必完全符合图像几何关系,因此更结构化的 prompt 不一定更接近 dataset label。
7.3 Wrong SRG Conflict
baseline 1%
cot 97%
srg_text 48%
srg_json 10%
这是第五阶段最重要的发现。
在 wrong_srg_conflict 任务上,baseline 几乎完全失败,只有 1%。
但是 CoT prompt 达到 97%。
这说明模型并不是完全不会判断 SRG conflict,而是 naive prompt 没有把任务表达成模型容易处理的形式。
当 prompt 明确拆解为:
Caption says:
subject = ...
relation = ...
object = ...
Proposed graph says:
subject = ...
relation = ...
object = ...
Are these two relations conflicting?
模型就能很好地完成关系冲突判断。
这表明 Qwen2.5-VL 具备较强的显式关系比较能力,但这种能力需要通过合适的 prompt 激活。
8. Visual-label Evaluation 结果
8.1 Original Caption
baseline 60%
cot 60%
srg_text 50%
srg_json 60%
在 visual-label 下,original 任务中 baseline、cot、srg_json 都是 60%,srg_text 稍低。
这说明在几何标签标准下,普通 caption 判断并没有因为 prompt 结构化而显著提升。
8.2 Structured SRG Check
baseline 49%
cot 50%
srg_text 49%
srg_json 56%
在 visual-label 下,SRG-JSON prompt 得到最高结果,为 56%。
虽然提升不算巨大,但它说明:
显式图结构表达可能有助于模型更接近 BBox-SRG / Geometry v2 的视觉几何判断。
这和 dataset-label 下的结果不同。
这也再次说明,dataset-label 和 visual-label 评价目标并不完全一致。
8.3 Wrong SRG Conflict
baseline 1%
cot 97%
srg_text 48%
srg_json 10%
与 dataset-label 一样,visual-label 下 wrong_srg_conflict 仍然是 CoT prompt 最强。
这说明 CoT prompt 对结构冲突判断的提升非常稳定。
但此时仍然存在一个问题:
wrong_srg_conflict 当前是否只有 conflict=True?
如果是,那么 97% 会不会只是因为模型倾向回答 yes?
因此我们进一步做了 Stage 5.5。
9. Stage 5.5:Balanced SRG Conflict Evaluation
为了验证 CoT 的提升不是 yes-bias,我们重新构造了一个正负均衡的 SRG conflict 数据集。
对于每条原始样本,我们构造两条记录:
9.1 No-conflict 样本
Caption SRG:
(bed, right_of, potted plant)
Proposed SRG:
(bed, right_of, potted plant)
expected_conflict = False
9.2 Conflict 样本
Caption SRG:
(bed, right_of, potted plant)
Proposed SRG:
(bed, left_of, potted plant)
expected_conflict = True
这样,对于 100 条原始样本,最终得到:
100 条 no_conflict
100 条 conflict
总计 200 条。
关系类型也保持均衡:
containment : 50
distance : 50
horizontal : 50
vertical : 50
这一步的意义是:如果 CoT prompt 只是 yes-bias,那么它会在 no_conflict 样本上大量出错。
如果它真的理解冲突关系,那么它应该同时正确识别 conflict=True 和 conflict=False。
10. Balanced Conflict 结果
完整 200 条结果如下:
baseline acc=50.5% TP= 1 TN=100 FP=0 FN=99
cot acc=98.5% TP= 97 TN=100 FP=0 FN= 3
srg_text acc=74.0% TP= 48 TN=100 FP=0 FN=52
srg_json acc=55.0% TP= 10 TN=100 FP=0 FN=90
这组结果非常关键。
Baseline
Baseline 的准确率是 50.5%。
它几乎总是回答 no:
TP = 1
TN = 100
FN = 99
这说明 naive prompt 下,模型基本不愿意判断 proposed SRG 与 caption SRG 存在冲突。
它不是随机错,而是存在明显的 no-bias。
CoT Prompt
CoT prompt 的准确率达到 98.5%。
更重要的是:
TP = 97
TN = 100
FP = 0
FN = 3
这说明 CoT 不仅能识别 97 条 conflict=True 样本,还能正确识别全部 100 条 no_conflict=False 样本。
因此可以排除 yes-bias。
这意味着:
CoT prompt 的提升不是因为样本标签不均衡,
而是因为显式关系比较确实帮助模型完成了 SRG conflict 判断。
这是第五阶段最强的结论。
SRG-text Prompt
SRG-text 的准确率是 74%。
TP = 48
TN = 100
FN = 52
它能正确判断所有 no_conflict 样本,但只能识别 48 条 conflict 样本。
说明三元组形式比 baseline 好,但仍然不足以稳定激活模型的冲突判断能力。
SRG-JSON Prompt
SRG-JSON 的准确率是 55%。
TP = 10
TN = 100
FN = 90
这个结果有点意外。
虽然 SRG-JSON 是最结构化的表达方式,但模型并没有很好地利用 JSON 图结构。
这说明:
结构化表达不等于模型一定能理解。
对于 Qwen2.5-VL 来说,显式自然语言分步比较比 JSON 图结构更有效。
11. 第五阶段核心发现
第五阶段可以总结为四个关键发现。
发现一:Prompt 对空间诊断结果影响巨大
同一个模型、同一批数据、同一个任务,只是 prompt 形式不同,结果就从 1% 变化到 97%。
这说明:
VLM 空间推理评测不是 prompt-invariant 的。
如果不做 prompt ablation,只报告一个 prompt 下的准确率,很容易得出片面的结论。
发现二:普通 caption 判断中 baseline 最稳定
对于 original caption,baseline 是 dataset-label 下最强的 prompt:
baseline = 81%
cot = 79%
srg_text = 63%
srg_json = 69%
这说明自然语言图文匹配仍然是 VLM 的强项。
SRG prompt 不一定适合所有任务。
发现三:SRG-JSON 对 visual structured checking 有一定帮助,但提升有限
在 visual-label 的 structured_srg_check 中:
srg_json = 56%
baseline = 49%
这说明显式图结构对视觉几何对齐有一定帮助。
但提升幅度有限,说明 Qwen2.5-VL 对 JSON graph 的结构理解并不稳定。
发现四:CoT-style relation comparison 能显著激活冲突判断能力
在 balanced SRG conflict evaluation 中:
cot = 98.5%
并且:
TP = 97
TN = 100
FP = 0
FN = 3
这说明 CoT prompt 不是简单 yes-bias,而是真的帮助模型完成了 relation-level conflict comparison。
12. 需要谨慎解释的地方
虽然 CoT 在 balanced conflict 任务中达到 98.5%,但不能把它简单解释成:
Qwen2.5-VL 的视觉空间推理能力达到 98.5%。
这是不严谨的。
因为 balanced conflict 任务本质上比较的是两个显式关系三元组:
(subject, relation_1, object)
(subject, relation_2, object)
它更接近:
symbolic relation consistency checking
而不是纯视觉空间推理。
所以更准确的表述是:
Qwen2.5-VL 在显式关系三元组比较任务中具有很强的结构冲突识别能力,
但这种能力需要 CoT-style relation decomposition 才能被稳定激活。
这也是本阶段最重要的研究结论。
13. 对 SRG-CD 项目的意义
第五阶段让 SRG-CD 项目从普通 VLM 评测进一步升级为 prompt-sensitive diagnostic framework。
也就是说,我们不只是问:
模型答对了吗?
而是在问:
模型在什么 prompt 表达下能答对?
它是依赖自然语言理解,还是依赖结构关系比较?
它对 JSON graph 是否敏感?
它的失败是视觉 grounding 失败,还是任务表达失败?
这让 SRG-CD 的诊断能力更细了。
现在我们可以区分三种能力:
1. Visual grounding ability
模型是否能看出图像中的 subject 和 object 位置关系。
2. Symbolic relation comparison ability
模型是否能比较两个关系三元组是否冲突。
3. Graph-structured prompt following ability
模型是否能理解 SRG-text / SRG-JSON 形式的结构化输入。
这比单纯报告 accuracy 更有研究价值。
14. 阶段五后的项目进度
到第五阶段结束后,SRG-CD 已经完成:
Stage 1: Caption-level SRG-Bench v0.1 ✅
Stage 2: OWL-ViT BBox-SRG construction ✅
Stage 3: Geometry v2 diagnosis ✅
Stage 4: Qwen2.5-VL spatial diagnosis ✅
Stage 5: SRG-aware prompt ablation ✅
Stage 5.5: Balanced SRG conflict verification ✅
目前项目已经形成了一个较完整的研究闭环:
数据构建
↓
显式空间关系图
↓
视觉检测与几何证据
↓
VLM 空间推理诊断
↓
Prompt 消融
↓
均衡冲突验证
15. 总结
第五阶段的实验表明,Qwen2.5-VL 的空间关系诊断能力高度依赖 prompt 表达形式。
在普通 caption 判断中,自然语言 baseline prompt 仍然最稳定;但在 SRG conflict 判断中,naive prompt 几乎完全失败,而显式关系比较式 CoT prompt 能将准确率提升到 97%。
为了排除 yes-bias,我们进一步构造了 balanced SRG conflict evaluation set,其中包含 100 条 conflict 样本和 100 条 no-conflict 样本。结果显示,CoT prompt 在该均衡设置下仍达到 98.5% accuracy,并取得 TP=97、TN=100、FP=0、FN=3 的结果。
这说明 CoT 的提升并不是由标签不均衡导致的,而是因为它将任务显式分解为 relation-level comparison,从而激活了模型的结构冲突识别能力。
最终,第五阶段得到的核心结论是:
VLM 在 naive prompt 下的空间关系冲突判断失败,
不一定意味着模型完全缺乏关系比较能力;
更可能说明该能力需要通过显式结构化 prompt 和任务分解来激活。
同时,SRG-JSON 的效果并不稳定,也说明:
更结构化的输入形式并不必然带来更强的 VLM 诊断能力。
模型是否能利用结构化图表达,本身就是一个需要实验验证的问题。
这正是 SRG-CD 项目的价值所在:它不仅评测 VLM 是否答对,还进一步诊断模型在空间关系理解、结构图表示、反事实冲突识别和 prompt 敏感性方面的可靠性。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)