阿里:显式视觉前提验证机制

📖标题:Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
🌐来源:arXiv, 2603.16253v1
🌟摘要
视觉语言过程奖励模型(VL-PRM)越来越多地用于对中间推理步骤进行评分,并在测试时间缩放下对候选人进行重新排名,但它们通常充当黑箱法官:一个低的步骤分数可能反映了一个真正的推理错误,或者仅仅是验证者自己对图像的误解。这种感知和推理之间的纠缠导致了系统性的误报(奖励幻觉视觉前提)和假阴性(惩罚正确的接地语句),破坏了重新排序和错误定位。我们引入了显式视觉前提验证(EVPV),这是一个轻量级的验证接口,它根据一个步骤所依赖的视觉前提的可靠性来决定步骤评分。具体来说,该策略被提示生成一个分步视觉检查表,使其所需的视觉事实显式化,而约束提取器则从输入图像中独立推导出结构化视觉约束。EVPV将检查表声明与这些约束进行匹配,以计算标量视觉可靠性信号,并通过可靠性门控校准PRM步骤奖励:当可靠性低时减弱对视觉依赖步骤的奖励而当可靠性高时保留对视觉依赖步骤的奖励,在VisualProcessBench和六个多模态推理基准测试上的实验表明,EVPV提高了步骤-水平验证并在强基线上持续提高Best-of-N重新排序的准确性。此外,将受控腐败注入提取的约束会产生单调性能下降,提供因果证据表明,收益来自约束保真度和明确的前提验证,而不是偶然的即时效应。相关代码在https://github.com/Qwen-Applications/EVPV-PRM。
🛎️文章简介
🔸研究问题:如何解决多模态过程奖励模型因感知与推理错误纠缠,导致对幻觉视觉前提误判或对正确描述漏判的问题?
🔸主要贡献:论文提出了显式视觉前提验证(EVPV)机制,通过解耦感知不确定性与逻辑评估,显著提升了多模态推理的步骤验证可靠性及重排序准确率。
📝重点思路
🔸策略生成视觉清单:提示策略模型在每一步推理时显式声明其所依赖的具体视觉事实,形成可被独立验证的“视觉清单”。
🔸独立提取结构化约束:利用约束提取器从输入图像中独立推导结构化的视觉事实(如数值、几何关系、组合结构),作为验证的黄金标准。
🔸一致性计算可靠性信号:将视觉清单中的主张与提取的结构化约束进行匹配,计算标量的视觉可靠性得分,敏感地捕捉 catastrophic 的感知错误。
🔸可靠性门控校准奖励:基于可靠性得分对步骤奖励进行动态 gating,当视觉前提不可靠时衰减奖励至中性,可靠时保留原始逻辑评分,从而分离感知与推理误差。
🔎分析总结
🔸在 VisualProcessBench 上,EVPV 相比现有最强多模态过程奖励模型基线,取得了更高的步骤级 Macro-F1 分数,证明了其更强的步骤判别能力。
🔸在六个多模态推理基准测试中,EVPV consistently 提升了 Best-of-N 重排序的准确率,且在不同规模的政策模型上均表现出稳定的性能增益。
🔸通过对提取约束注入可控噪声的实验发现,随着噪声比例增加,模型性能呈单调下降趋势,因果性地证明了性能提升源于约束 fidelity 而非提示工程效应。
🔸消融实验表明,移除结构化事实或破坏实体对齐会导致性能显著下降,证实了结构化证据和精确匹配对于可靠验证的必要性。
💡个人观点
论文将“黑盒”式的多模态评判转化为透明的“前提检查”过程。它没有试图训练一个更强大的端到端判别器,而是设计了一个轻量级的接口,强制模型显式化其视觉假设并进行独立验证。
🧩附录

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)