SRG-aware Prompting 消融实验与均衡冲突验证

清空mega

435人浏览 · 2026-06-11 08:11:08

清空mega · 2026-06-11 08:11:08 发布

1. 为什么要做第五阶段？

在前四个阶段中，我们已经完成了 SRG-CD 的主要实验链路：

Stage 1: Caption-level SRG-Bench v0.1
Stage 2: OWL-ViT BBox-SRG 构建
Stage 3: Geometry v2 空间关系诊断
Stage 4: Qwen2.5-VL 空间推理诊断

第四阶段中，我们将 100 条均衡 VLM 评测样本输入 Qwen2.5-VL-7B-Instruct，测试了五类任务：

1. original caption
2. relation_flip
3. object_swap
4. structured_srg_check
5. wrong_srg_conflict

结果发现，Qwen2.5-VL 在普通 caption 判断上表现较好，但在结构化反事实任务上明显下降。

尤其是 wrong_srg_conflict，模型几乎接近随机水平。

这带来了一个关键问题：

模型是真的不具备空间关系冲突判断能力，
还是我们的 prompt 没有把任务表达清楚？

因此，第五阶段的目标不是继续换模型，而是做一个更像研究论文中的 ablation study：

在同一个模型、同一批数据上，只改变 prompt 形式，
观察 Qwen2.5-VL 的空间关系诊断能力是否发生变化。

这一步非常重要。

因为如果不同 prompt 之间结果差异很大，就说明 VLM 的空间推理诊断并不是一个稳定属性，而是强烈依赖任务表达方式。

2. 第五阶段研究问题

第五阶段主要回答三个问题：

Q1: SRG-aware prompt 是否能提升 VLM 的空间关系诊断能力？

Q2: 显式关系比较式 prompt 是否能激活模型的 SRG conflict 判断能力？

Q3: 如果 wrong_srg_conflict 性能提升，是否只是因为样本标签不均衡导致的 yes-bias？

其中 Q3 是最关键的严谨性问题。

因为在第四阶段和第五阶段初始设置中，wrong_srg_conflict 任务中的 proposed SRG 都是故意构造的错误关系，因此：

expected_conflict = True

也就是说，如果模型一直回答 yes，也可能获得很高准确率。

所以我们进一步做了 Stage 5.5，构造了一个 conflict / no-conflict 正负均衡的数据集，专门验证模型是不是存在 yes-bias。

3. Prompt Ablation 实验设计

第五阶段中，我们设计了 4 种 prompt 模式：

1. baseline
2. cot
3. srg_text
4. srg_json

3.1 Baseline Prompt

Baseline 是最普通的自然语言判断形式。

例如：

Does the image support this statement?

Statement: "The bed is right of the potted plant."

Return only JSON:
{"answer": "yes" or "no"}

这种形式最接近普通图文一致性判断。

3.2 CoT-style Prompt

CoT prompt 不要求模型输出长推理，而是显式提示模型先比较 subject 和 object 的空间位置，再给出最终 yes/no。

例如：

Caption says:
subject = bed
relation = right_of
object = potted plant

Proposed graph says:
subject = bed
relation = left_of
object = potted plant

Decide whether the two relations describe conflicting spatial structures.

这个 prompt 的核心不是让模型“自由思考”，而是把任务拆成结构化关系比较。

3.3 SRG-text Prompt

SRG-text prompt 将空间关系表达为三元组：

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, left_of, potted plant)

它比自然语言更结构化，但仍然保持文本形式。

3.4 SRG-JSON Prompt

SRG-JSON prompt 将空间关系表达为图结构：

{
  "nodes": [
    {"id": "subject", "name": "bed", "role": "subject"},
    {"id": "object", "name": "potted plant", "role": "object"}
  ],
  "edges": [
    {"source": "subject", "target": "object", "relation": "right_of"}
  ]
}

这种形式最接近显式 Spatial Relation Graph。

它可以测试模型是否真的能理解图结构表达。

4. 实验任务

本阶段主要选择 3 个任务做 prompt ablation：

1. original
2. structured_srg_check
3. wrong_srg_conflict

没有继续测试 relation_flip 和 object_swap，是因为第五阶段的重点不是所有反事实任务，而是分析 SRG-aware prompt 对结构化空间诊断的影响。

三个任务的定位如下：

original:
普通 caption 判断，测试模型自然语言图文一致性能力。

structured_srg_check:
显式 subject-relation-object 空间关系判断，测试模型是否能处理结构化 SRG 表达。

wrong_srg_conflict:
判断 proposed SRG 是否与 caption relation 冲突，测试模型的结构冲突识别能力。

5. Dataset-label 与 Visual-label 双评价

延续第四阶段的设计，本阶段仍然使用两套评价标准。

第一套是 dataset-label evaluation：

以 VSR 原始 label 或构造任务的 expected label 作为标准。

第二套是 visual-label evaluation：

以 BBox-SRG / Geometry v2 计算出的视觉几何关系作为标准。

这两套评价回答的问题不同。

Dataset-label 关注：

模型是否复现数据集标签？

Visual-label 关注：

模型是否符合显式几何证据？

这一点非常关键。

因为前面阶段已经发现，dataset label、geometry evidence 和 VLM response 三者并不总是一致。

6. Stage 5 实验结果：Prompt Ablation

在 100 条 VLM 子集上，我们进行了完整 prompt ablation。

每条样本执行：

3 个任务 × 4 种 prompt = 12 次 VLM 推理

总计：

100 条 × 12 = 1200 次 Qwen2.5-VL 推理

所有任务的解析率均为 100%。

7. Dataset-label Evaluation 结果

7.1 Original Caption

baseline   81%
cot        79%
srg_text   63%
srg_json   69%

在 original caption 判断中，baseline 最好。

这说明对于普通自然语言 caption，Qwen2.5-VL 原本的图文匹配能力已经较强。

强行改成 SRG-text 或 SRG-JSON 后，效果反而下降。

这说明：

SRG-aware prompt 并不是对所有任务都有帮助。

对于自然语言 caption 判断，普通自然语言 prompt 仍然最稳定。

7.2 Structured SRG Check

baseline   68%
cot        65%
srg_text   64%
srg_json   65%

在 dataset-label 下，structured_srg_check 不同 prompt 差异不大。

baseline 仍然略高。

这说明，如果以原始数据集标签作为评价标准，结构化 prompt 并没有明显带来提升。

可能原因是：dataset label 本身未必完全符合图像几何关系，因此更结构化的 prompt 不一定更接近 dataset label。

7.3 Wrong SRG Conflict

baseline    1%
cot        97%
srg_text   48%
srg_json   10%

这是第五阶段最重要的发现。

在 wrong_srg_conflict 任务上，baseline 几乎完全失败，只有 1%。

但是 CoT prompt 达到 97%。

这说明模型并不是完全不会判断 SRG conflict，而是 naive prompt 没有把任务表达成模型容易处理的形式。

当 prompt 明确拆解为：

Caption says:
subject = ...
relation = ...
object = ...

Proposed graph says:
subject = ...
relation = ...
object = ...

Are these two relations conflicting?

模型就能很好地完成关系冲突判断。

这表明 Qwen2.5-VL 具备较强的显式关系比较能力，但这种能力需要通过合适的 prompt 激活。

8. Visual-label Evaluation 结果

8.1 Original Caption

baseline   60%
cot        60%
srg_text   50%
srg_json   60%

在 visual-label 下，original 任务中 baseline、cot、srg_json 都是 60%，srg_text 稍低。

这说明在几何标签标准下，普通 caption 判断并没有因为 prompt 结构化而显著提升。

8.2 Structured SRG Check

baseline   49%
cot        50%
srg_text   49%
srg_json   56%

在 visual-label 下，SRG-JSON prompt 得到最高结果，为 56%。

虽然提升不算巨大，但它说明：

显式图结构表达可能有助于模型更接近 BBox-SRG / Geometry v2 的视觉几何判断。

这和 dataset-label 下的结果不同。

这也再次说明，dataset-label 和 visual-label 评价目标并不完全一致。

8.3 Wrong SRG Conflict

baseline    1%
cot        97%
srg_text   48%
srg_json   10%

与 dataset-label 一样，visual-label 下 wrong_srg_conflict 仍然是 CoT prompt 最强。

这说明 CoT prompt 对结构冲突判断的提升非常稳定。

但此时仍然存在一个问题：

wrong_srg_conflict 当前是否只有 conflict=True？
如果是，那么 97% 会不会只是因为模型倾向回答 yes？

因此我们进一步做了 Stage 5.5。

9. Stage 5.5：Balanced SRG Conflict Evaluation

为了验证 CoT 的提升不是 yes-bias，我们重新构造了一个正负均衡的 SRG conflict 数据集。

对于每条原始样本，我们构造两条记录：

9.1 No-conflict 样本

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, right_of, potted plant)

expected_conflict = False

9.2 Conflict 样本

Caption SRG:
(bed, right_of, potted plant)

Proposed SRG:
(bed, left_of, potted plant)

expected_conflict = True

这样，对于 100 条原始样本，最终得到：

100 条 no_conflict
100 条 conflict

总计 200 条。

关系类型也保持均衡：

containment : 50
distance    : 50
horizontal  : 50
vertical    : 50

这一步的意义是：如果 CoT prompt 只是 yes-bias，那么它会在 no_conflict 样本上大量出错。

如果它真的理解冲突关系，那么它应该同时正确识别 conflict=True 和 conflict=False。

10. Balanced Conflict 结果

完整 200 条结果如下：

baseline   acc=50.5%   TP=  1   TN=100   FP=0   FN=99
cot        acc=98.5%   TP= 97   TN=100   FP=0   FN= 3
srg_text   acc=74.0%   TP= 48   TN=100   FP=0   FN=52
srg_json   acc=55.0%   TP= 10   TN=100   FP=0   FN=90

这组结果非常关键。

Baseline

Baseline 的准确率是 50.5%。

它几乎总是回答 no：

TP = 1
TN = 100
FN = 99

这说明 naive prompt 下，模型基本不愿意判断 proposed SRG 与 caption SRG 存在冲突。

它不是随机错，而是存在明显的 no-bias。

CoT Prompt

CoT prompt 的准确率达到 98.5%。

更重要的是：

TP = 97
TN = 100
FP = 0
FN = 3

这说明 CoT 不仅能识别 97 条 conflict=True 样本，还能正确识别全部 100 条 no_conflict=False 样本。

因此可以排除 yes-bias。

这意味着：

CoT prompt 的提升不是因为样本标签不均衡，
而是因为显式关系比较确实帮助模型完成了 SRG conflict 判断。

这是第五阶段最强的结论。

SRG-text Prompt

SRG-text 的准确率是 74%。

TP = 48
TN = 100
FN = 52

它能正确判断所有 no_conflict 样本，但只能识别 48 条 conflict 样本。

说明三元组形式比 baseline 好，但仍然不足以稳定激活模型的冲突判断能力。

SRG-JSON Prompt

SRG-JSON 的准确率是 55%。

TP = 10
TN = 100
FN = 90

这个结果有点意外。

虽然 SRG-JSON 是最结构化的表达方式，但模型并没有很好地利用 JSON 图结构。

这说明：

结构化表达不等于模型一定能理解。

对于 Qwen2.5-VL 来说，显式自然语言分步比较比 JSON 图结构更有效。

11. 第五阶段核心发现

第五阶段可以总结为四个关键发现。

发现一：Prompt 对空间诊断结果影响巨大

同一个模型、同一批数据、同一个任务，只是 prompt 形式不同，结果就从 1% 变化到 97%。

这说明：

VLM 空间推理评测不是 prompt-invariant 的。

如果不做 prompt ablation，只报告一个 prompt 下的准确率，很容易得出片面的结论。

发现二：普通 caption 判断中 baseline 最稳定

对于 original caption，baseline 是 dataset-label 下最强的 prompt：

baseline = 81%
cot      = 79%
srg_text = 63%
srg_json = 69%

这说明自然语言图文匹配仍然是 VLM 的强项。

SRG prompt 不一定适合所有任务。

发现三：SRG-JSON 对 visual structured checking 有一定帮助，但提升有限

在 visual-label 的 structured_srg_check 中：

srg_json = 56%
baseline = 49%

这说明显式图结构对视觉几何对齐有一定帮助。

但提升幅度有限，说明 Qwen2.5-VL 对 JSON graph 的结构理解并不稳定。

发现四：CoT-style relation comparison 能显著激活冲突判断能力

在 balanced SRG conflict evaluation 中：

cot = 98.5%

并且：

TP = 97
TN = 100
FP = 0
FN = 3

这说明 CoT prompt 不是简单 yes-bias，而是真的帮助模型完成了 relation-level conflict comparison。

12. 需要谨慎解释的地方

虽然 CoT 在 balanced conflict 任务中达到 98.5%，但不能把它简单解释成：

Qwen2.5-VL 的视觉空间推理能力达到 98.5%。

这是不严谨的。

因为 balanced conflict 任务本质上比较的是两个显式关系三元组：

(subject, relation_1, object)
(subject, relation_2, object)

它更接近：

symbolic relation consistency checking

而不是纯视觉空间推理。

所以更准确的表述是：

Qwen2.5-VL 在显式关系三元组比较任务中具有很强的结构冲突识别能力，
但这种能力需要 CoT-style relation decomposition 才能被稳定激活。

这也是本阶段最重要的研究结论。

13. 对 SRG-CD 项目的意义

第五阶段让 SRG-CD 项目从普通 VLM 评测进一步升级为 prompt-sensitive diagnostic framework。

也就是说，我们不只是问：

模型答对了吗？

而是在问：

模型在什么 prompt 表达下能答对？
它是依赖自然语言理解，还是依赖结构关系比较？
它对 JSON graph 是否敏感？
它的失败是视觉 grounding 失败，还是任务表达失败？

这让 SRG-CD 的诊断能力更细了。

现在我们可以区分三种能力：

1. Visual grounding ability
   模型是否能看出图像中的 subject 和 object 位置关系。

2. Symbolic relation comparison ability
   模型是否能比较两个关系三元组是否冲突。

3. Graph-structured prompt following ability
   模型是否能理解 SRG-text / SRG-JSON 形式的结构化输入。

这比单纯报告 accuracy 更有研究价值。

14. 阶段五后的项目进度

到第五阶段结束后，SRG-CD 已经完成：

Stage 1: Caption-level SRG-Bench v0.1             ✅
Stage 2: OWL-ViT BBox-SRG construction           ✅
Stage 3: Geometry v2 diagnosis                   ✅
Stage 4: Qwen2.5-VL spatial diagnosis            ✅
Stage 5: SRG-aware prompt ablation               ✅
Stage 5.5: Balanced SRG conflict verification    ✅

目前项目已经形成了一个较完整的研究闭环：

数据构建
↓
显式空间关系图
↓
视觉检测与几何证据
↓
VLM 空间推理诊断
↓
Prompt 消融
↓
均衡冲突验证

15. 总结

第五阶段的实验表明，Qwen2.5-VL 的空间关系诊断能力高度依赖 prompt 表达形式。

在普通 caption 判断中，自然语言 baseline prompt 仍然最稳定；但在 SRG conflict 判断中，naive prompt 几乎完全失败，而显式关系比较式 CoT prompt 能将准确率提升到 97%。

为了排除 yes-bias，我们进一步构造了 balanced SRG conflict evaluation set，其中包含 100 条 conflict 样本和 100 条 no-conflict 样本。结果显示，CoT prompt 在该均衡设置下仍达到 98.5% accuracy，并取得 TP=97、TN=100、FP=0、FN=3 的结果。

这说明 CoT 的提升并不是由标签不均衡导致的，而是因为它将任务显式分解为 relation-level comparison，从而激活了模型的结构冲突识别能力。

最终，第五阶段得到的核心结论是：

VLM 在 naive prompt 下的空间关系冲突判断失败，
不一定意味着模型完全缺乏关系比较能力；
更可能说明该能力需要通过显式结构化 prompt 和任务分解来激活。

同时，SRG-JSON 的效果并不稳定，也说明：

更结构化的输入形式并不必然带来更强的 VLM 诊断能力。
模型是否能利用结构化图表达，本身就是一个需要实验验证的问题。

这正是 SRG-CD 项目的价值所在：它不仅评测 VLM 是否答对，还进一步诊断模型在空间关系理解、结构图表示、反事实冲突识别和 prompt 敏感性方面的可靠性。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 代码审查与质量保障 — 主流 AI 应用方向深度调研

AtomGit开源社区

yolov5 train.py参数解释

• --exist-ok：如果保存的目录已经存在，不会自动新建带编号的文件夹（如 exp1），而是直接覆盖，常用于重跑某个实验。• --sync-bn：同步批归一化，只有多卡分布式训练（DDP 模式）时有效，能让 BN 统计跨 GPU 同步，提升精度。• --cache-images：将图片缓存在内存或磁盘，减少反复读图的 IO 时间，加快训练，但会占用更多系统内存。• --image-weigh