人工智能顶会CVPR论文分享 | DyFo:免训练动态聚焦,让多模态大模型像人类一样精准看懂细节
在多模态大模型快速发展的今天,细粒度视觉理解始终是一道难题。复杂场景中的无关信息干扰、高分辨率图像的细节丢失,常常导致模型产生幻觉,大模型难以精准捕捉关键内容。北京大学、北京科技大学与腾讯联合团队提出的DyFo(Dynamic Focus),通过模拟人类视觉搜索的动态聚焦机制,让模型在不需额外训练的情况下精准筛选关键视觉区域、主动过滤无关内容,在细粒度视觉理解任务上大幅提升性能的同时显著降低幻觉率。该研究发表于CVPR 2025。
本推文由黄忠祥撰写,审核为龚裕涛和王一鸣。
论文链接:https://arxiv.org/abs/2504.14920
代码链接:https://github.com/PKU-ICST-MIPL/DyFo_CVPR2025
一、研究背景
多模态大模型(LMM)虽在通用多模态任务中展现出优异性能,但在细粒度视觉理解场景中仍存在难以回避的核心瓶颈,主要体现在三方面。
其一,主流分辨率方案各有技术局限:固定分辨率模型(如 LLaVA-1.5)通过图像缩放适配输入,导致大量细节丢失,小目标难以识别;动态分辨率模型(如 Qwen2-VL)虽以分块处理支持高分辨率输入,但真实场景中无关物体占比高,针对局部细节的问答任务中,整图输入会引入海量干扰信息,反而降低推理效率与准确性。
其二,视觉幻觉问题频发:已有研究证实,输入中无关内容的增加会显著加剧多模态大模型的幻觉现象,当模型需从冗余信息中筛选关键内容时,对目标存在性、属性、空间关系等核心问题的判断误差大幅上升,单纯提升分辨率与输入容量不仅无法解决问题,还可能进一步恶化幻觉。
其三,现有优化方案存在落地限制:部分方法依赖训练阶段的区域标注框或掩码,推理时需用户提供空间提示,实用性极低;以SEAL为代表的方案虽尝试融合视觉搜索与多模态模型,但需修改模型词表、额外训练定位模块、采集大量标注数据并进行全流程微调,部署成本高、泛化性差。
针对上述行业痛点,研究团队从人类视觉认知机制中汲取灵感:人类能在复杂场景中快速锁定目标,核心在于动态调整关注焦点、高效过滤无关信息、仅聚焦任务相关区域的视觉搜索机制。受此启发,团队提出DyFo框架,无需训练即可实现动态聚焦,大幅提升多模态大模型在高分辨率图像细粒度问答任务中的性能,效果如图1所示。

图1 多种不同多模态模型在回答高分辨图像细粒度问题时的表现:(a)原生多模态模型;(b)搭载SEAL的多模态模型;(c)搭载DyFo的多模态模型
二、核心贡献
研究团队提出了完全免训练的动态聚焦视觉搜索方法DyFo,其在技术和应用层面的核心贡献可概括为以下三点。
其一,提出了业内首个免训练动态聚焦解决方案。DyFo无需额外数据收集、模型微调或词汇表扩展,即可直接适配固定分辨率和动态分辨率两类主流多模态大模型。它真正做到了即插即用,大幅降低了应用门槛。
其二,提出了基于MCTS的协作范式创新。DyFo将蒙特卡洛树搜索引入视觉搜索任务,构建了一个让多模态大模型与高性能视觉专家高效协作的框架。在这一框架中,模型的文本输出引导视觉专家检索相关图像区域,视觉专家的图像输出反过来指导模型调整文本关注点。这种双向迭代机制,既发挥了多模态大模型的语义理解优势,又利用了视觉专家的精准定位专长,而整个过程无需任何训练成本。
其三,获得了全面领先的性能表现。在视觉幻觉评估基准POPE和高分辨率细粒度视觉基准V* Bench上,DyFo均显著优于现有方法,有效降低幻觉率的同时大幅提升细粒度视觉任务的准确率。
三、方法设计
如图2所示,DyFo的完整框架由两大核心组件构成,分别是聚焦调整器和聚焦树搜索。通过这两部分的协同运作,模型能够在文本与视觉的双向迭代中逐步逼近目标区域,实现对关键视觉内容的精准聚焦。

图2 DyFo模块结构(左侧为输入输出、中间为聚焦调整器、右侧为聚焦树搜索)
3.1 聚焦调整器
聚焦调整器的设计初衷是为了将多模态大模型在语义理解上的优势与视觉专家在精准定位上的专长结合起来,让两者在互动中互相增强。
每一次迭代包含两个步骤。首先,多模态大模型根据当前关注的区域和任务指令,提炼出更精准的语义线索(比如将“找到那个人”细化为“找那个在自行车上的人”),然后,视觉专家依据这个精准的语义线索,在当前区域内筛选出更相关的子区域,完成聚焦调整。这一过程允许外部动作指令动态引导文本和视觉两方面的更新。
为了让这个迭代过程更贴近人类视觉行为,研究团队设计了专门的动作指令空间,具体包括如下几方面。
语义聚焦:这个动作用于根据语义信息锁定与查询相关的视觉目标,模拟人类视觉中的目标搜索行为,让模型能够依据语义线索精准匹配目标。
语义发散:这个动作用于适当扩大当前聚焦区域。有时候过于精准的聚焦可能导致关键信息丢失,比如专注于局部细节时可能忽略整体上下文。语义发散模拟的是人类总览全图的行为,确保模型不会因过度聚焦而错失全局线索。
这两类动作协同作用,让模型既能精准定位目标,又能兼顾场景上下文。
3.2 聚焦树搜索
有了聚焦调整器提供的交互机制,下一个问题是如何高效地在复杂视觉空间中搜索最有价值的聚焦区域。DyFo的解决方案是引入蒙特卡洛树搜索,构建一棵聚焦树。在这棵树中,每个节点代表一个聚焦状态,每条边代表一次聚焦动作。通过树搜索算法,模型能够在探索(访问尚未充分探索的区域)和利用(访问已知的高价值区域)之间找到平衡,逐步逼近最优聚焦区域。聚焦树搜索的核心过程分为选择、扩展、回溯三个阶段,最终通过多粒度投票机制生成任务答案,各阶段的核心逻辑如下。
(1)选择阶段:算法从根节点(即初始图像)出发,在树的每一层迭代选择下一个子节点。选择依据同时考虑节点的历史价值和访问次数,确保搜索不会过早陷入局部最优。
(2)扩展阶段:当到达叶节点且搜索次数未达上限时,算法尝试新的聚焦动作,生成新子节点加入树中。
(3)回溯阶段:到达终止节点后,沿着搜索路径反向传播奖励值,更新路径上每个节点的价值。
在回溯过程中,奖励函数的设计至关重要,直接决定了聚焦的精准度和效率。为了让模型精准过滤无关内容,同时避免引入主观偏差,DyFo采用语义一致性和有效区域占比两个指标共同构成奖励函数。语义一致性代表当前聚焦区域是否与语义线索匹配,只有匹配的区域才被认为是有效聚焦;有效区域占比是代表在保证语义一致的前提下,聚焦区域越小(即定位越精准),奖励越高。这引导模型在保证准确的同时追求更高效率。
最后是多粒度投票阶段。当聚焦树构建完成后,模型采用多节点加权投票的策略得到最终答案。每个节点给出自己的预测结果,节点的权重就是它获得的奖励值。这种投票机制确保模型不会因过度关注某个局部细节而丢失可能存在于其他区域的全局线索。
图3提供了DyFo的工作流程示例,通过此图能够直观了解其工作原理。

图3 DyFo模块工作流程示例
四、实验与分析
为了全面验证DyFo方法的有效性、普适性和高效性,研究团队在视觉幻觉评估基准 POPE 和高分辨率细粒度视觉基准V Bench两大主流基准上开展了系统的评估实验,选择LLaVA-1.5(固定分辨率)和Qwen2-VL(动态分辨率)两款主流模型作为基础模型,与业内各类先进优化方法进行全面的性能对比,同时设计了消融实验验证各模块的核心作用,辅以案例分析直观展示方法的优势。
4.1 核心实验结果
(1)在POPE基准上的性能评估
POPE 是视觉幻觉评估领域的核心基准,研究团队围绕该基准开展了两类对比实验,分别验证DyFo对基础模型的性能提升效果,以及与业内先进方法的横向竞争力,实验均基于MSCOCO、A-OKVQA、GQA三大数据集,覆盖Random(随机)、Popular(热门)、Adversarial(对抗)三种采样策略。
在基础模型性能优化的实验中(见表 1),DyFo在所有实验场景下均表现优异,显著提升了LLaVA-1.5和Qwen2-VL两大模型的准确率、精确率、召回率、F1分数等核心指标。以MSCOCO数据集的随机采样场景为例,原生Qwen2-VL 模型准确率为 90.07%,搭载DyFo后准确率提升至 92.13%,实现明显性能突破;即便在最具挑战性的对抗采样策略下,Qwen2-VL+DyFo仍能保持86.77% 的高准确率,展现出极强的抗干扰能力。
在与业内其他先进优化方法的横向对比实验中(见表 2),搭载DyFo的 Qwen2-VL(DyFo-Q)与LLaVA-1.5(DyFo-L)同样表现亮眼,在三种采样策略下的准确率、F1分数等核心指标上均实现全面领先。其中DyFo-Q在随机采样下以92.13%的准确率、91.71%的F1分数领跑所有对比模型,即便在对抗采样的高干扰场景下,仍以86.77%的准确率、86.81%的F1分数保持绝对优势,充分印证了其相较于现有方法,拥有更卓越的视觉信息筛选与无关干扰过滤能力。
表1 在POPE基准下,原生多模态模型与搭载了DyFo模块的多模态模型在三种不同数据集下采用Random、Popular、Adversarial三种策略获得的不同性能

表2 在POPE-COCO数据集上,搭载DyFo的多模态模型与多种主流多模态模型横向数据比较

(2)在V* Bench基准上的性能评估
V Bench是高分辨率细粒度视觉理解的核心基准,该基准的任务难度极高,大多数模型在该基准上的性能接近随机猜测水平,能有效验证模型的细粒度视觉理解能力。如表3所示,在这个大多数模型性能接近随机猜测的挑战性基准上,Qwen2-VL+DyFo整体准确率达81.15%,超越了专门为视觉搜索进行架构调整和模型微调的SEAL(75.39%)。即使是基础性能相对有限的LLaVA-1.5,优化后整体准确率也提升了10.48个百分点,充分体现方法的普适性。
表3 在V* Bench基准下,搭载了DyFo的多模态大模型与多种主流大模型在材料识别以及空间识别中的能力对比

4.2 消融实验
(1)动作空间有效性
实验针对语义聚焦、语义发散两类动作开展单独与组合测试,结果见表4。单独使用语义聚焦或语义发散策略,都会导致模型的性能出现明显下降,而将两类动作结合使用时,模型在属性识别(Attribute)和空间识别(Spatial)两项指标上均达到最优性能。这一结果充分证明,语义聚焦与语义发散的协同作用,是模型实现精准聚焦的关键,两类动作缺一不可。
表4 两种聚焦策略的消融实验

(2)视觉专家的互补性
实验对比了单独使用视觉专家、单独使用多模态大模型、二者结合(DyFo)三种模式的性能,表5中的结果说明DyFo通过融合多模态大模型的语义理解能力与视觉专家的精准定位能力,其性能显著超越单独使用任一模型的效果,在准确率和F1分数上均实现大幅提升,真正实现了双向增强效果,充分验证了视觉专家模块与多模态大模型的互补性。
表5 视觉专家模块消融实验

(3)搜索效率优势
实验从空间设计和搜索算法两个维度,对比了DyFo与传统方法的搜索效率,以搜索长度为核心指标(数值越小,效率越高),结果见表6。在空间设计上,与传统的均匀分割策略(搜索长度4.90)相比,DyFo的动态聚焦搜索空间所需搜索长度仅为 3.20,步骤减少约34.7%;在搜索算法上,DyFo采用的 MCTS 算法(搜索长度 3.20)效率远超A(4.33)、BFS(5.65)、DFS(6.15)等传统算法。这一结果充分证明了DyFo在搜索效率上的显著优势,能以更少的步骤实现精准聚焦。
表6 不同分割策略以及搜索方法效率对比

4.3 案例分析
如图4所示,在POPE低分辨率案例中,棒球棒和墙壁偏居画面一隅、部分遮挡,原生 LLaVA-1.5 和 Qwen2-VL 模型面对画面中的大量视觉内容,难以精准聚焦到目标物体,均错误判断这些物体不存在;而搭载DyFo的模型通过动态聚焦机制,逐步锁定目标物体所在的小区域,成功过滤了无关信息的干扰,最终给出了正确的判断。

图4 在POPE基准下,搭载DyFo多模态模型与原生多模态模型的响应对比
如图5所示,在V* Bench高分辨率案例中,手套(需判断橡胶材质)和鸽子占图不足1/50,意味着近98%的视觉输入是无关干扰信息。原生LLaVA-1.5和Qwen2-VL模型在这种低信噪比的场景下,出现了明显的视觉幻觉:将橡胶手套误判为棉质,将鸽子误判为马/狗;而搭载DyFo的模型通过动态聚焦机制,最大程度减少了无关内容的干扰,精准保留了关键目标的信息,最终实现了对物体材质和种类的正确识别。

图5 在V*Bench基准下,搭载DyFo多模态模型与原生多模态模型的响应对比
五、总结与展望
DyFo作为一款完全免训练的动态聚焦视觉搜索方法,从人类视觉认知机制出发,通过聚焦调整器和聚焦树搜索的创新设计,实现了多模态大模型与视觉专家的高效协作。它直击当前细粒度视觉理解中存在的无关信息干扰和视觉幻觉频发两大痛点,并展现出了通用性强、性能优异和效率突出三大核心优势。
这项研究的意义不仅在于提出了一个高性能方法,更在于它展示了一种新可能。具体而言,未来多模态大模型的进步,或许不再仅仅依赖模型更大、数据更多、训练更久。通过引入高效搜索与协作机制,模型也可以像人类一样理解图片后回答。DyFo模块的提出为多模态融合、细粒度视觉分析等领域提供了重要借鉴,也为资源受限场景下的智能交互、工业精密质检等实际应用打开了新空间。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)