CVPR 2025 | ROD-MLLM：迈向更可靠的多模态大型语言模型中的目标检测

雷阵雨yy

391人浏览 · 2026-03-15 16:38:45

雷阵雨yy · 2026-03-15 16:38:45 发布

论文信息

论文题目：ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models
论文作者：Heng Yin，Yuqiang Ren，Ke Yan，Shouhong Ding，Yongtao Hao
发表单位：Tongji University，YouTu Lab,Tencent
发表会议：CVPR2025

论文主要贡献

现有 MLLM（多模态大语言模型）仅能定位图像中已存在的单个目标，无法处理多目标与不存在目标场景，易产生错误匹配。我们提出ROD-MLLM模型，用于自由语言下的可靠目标检测：
1.提出基于查询的定位机制提取低层目标特征，将全局与区域视觉信息对齐到文本空间，由大型语言模型完成高层理解与最终定位决策；
2.设计自动化数据标注流程，构建ROD 数据集，解决训练数据稀缺问题；
3.实验表明，模型在指代、定位、语言目标检测等任务上达 SOTA，在 D³ 基准上较现有 MLLMs 提升13.7 AP，超越多数专用检测模型。

论文创新点

（1）提出了ROD-MLLM，这是一种能够执行基于语言的目标检测的多模态大型语言模型。它能基于自由形式的语言描述实现统一的目标定位，并能拒绝不存在的目标。
（2）设计了一个用于基于语言的检测的自动化标注流水线，并构建了包含超过50万个对象描述-图像对的ROD数据集。该数据集能够有效提升对自由对象描述的检测能力，缓解了通用多语言大模型只能执行REC任务的不足。
（3）我们在与目标定位和生成相关的各种基准上进行了实验，包括基于语言的目标检测、REC和区域描述生成。我们的结果表明，与其他多模态大语言模型（MLLMs）相比，我们在这些任务上的性能更优。

方法

在这里插入图片描述

1.低级定位

基于查询的定位

B = L(I, O_query , O_common)
从用户查询中提取物体表达式，用N-gram（把句子按连续 N 个词切片，用来自动提取关键词的简单方法）提取所提及的物体，形成查询目标集O_query；补充 COCO 中的通用常见物体集O_common，增强通用场景感知；输入低级定位器（OVD），输出候选框集合B。

优点：只框出与查询相关的物体，大幅减少无效候选框；避开检测器不擅长复杂句子理解的缺点；不新增训练开销，兼容任意 OVD 检测器。

多粒度视觉输入

全局图像特征：用 CLIP 视觉编码器得到多层图像特征；取倒数第二层特征，通过两层 MLP（多层感知机）投影器映射到文本空间；得到全局图像嵌入，用于让 LLM 理解整张图的整体内容。

区域视觉特征：从多层视觉特征中，选取第 12、18、L-1 层构建三层特征金字塔，并取平均；用ROI Align（8×8）根据候选框坐标，从特征图中抠出每个区域的视觉特征；把每个区域特征分成 2×2 个小块，每个块通过一层 MLP 变成一个文本令牌；用多个令牌表示一个区域，让 LLM 获得更细粒度的局部信息。

2.高级理解

以 Vicuna-7B 作为主干 LLM，完成复杂语义理解、目标筛选与不存在目标拒绝。

3.数据标注流程：全自动标注流水线

在这里插入图片描述
基于检测数据集（带框与类别）构建：生成对象的详细描述；将描述分解为几个必须满足的条件；给每个描述配正样本（原图）+ 负样本（随机同类别图），让 MLLM 逐条件判断目标是否满足每条规则，最终得到描述匹配 / 不匹配的目标框集合（基于COT的条件判断）。

基于定位数据集（带实体框的图像标题）构建：用 LLM 把标题中的实体扩展为丰富描述短语，生成语义相近但实际不存在的目标描述，让模型学会拒绝不存在 / 不匹配的查询。

合并成为ROD数据集。

实验分析

自由文本目标检测 在这里插入图片描述 OmniLabel：AP-d 25.3，超同规模 MLLM +9.7 AP，长文本 / 否定描述优势明显；
D³：Full AP 29.7，超现有 MLLM +13.7 AP，同时超越多数专用检测模型；
对存在目标与不存在目标描述均表现最优。

基础指代表达理解（REC）
在这里插入图片描述
RefCOCOg 上 CIDEr 113.8，超 SOTA +6.5。

Acc@0.5 达90.2~93.0，超过 Shikra、Ferret、Groma 等主流 MLLM，保持顶尖水平。

广义指代表达理解（GREC）
在这里插入图片描述
Pr 与 N-acc（无目标拒绝准确率）大幅领先专用模型，test-A/B 集分别提升 10.8% / 20.7%。

消融实验
在这里插入图片描述
ROD 数据集：显著涨点，混合数据最优；
低层定位器：OWLv2 / Grounding DINO 通用，不依赖特定模型；
候选框提取：基于查询的物体框性能更好。

定性结果
在这里插入图片描述能正确处理：否定语义、复杂描述、无目标场景；
不强行输出框，比 OWLv2、Griffon、Groma 更可靠。

个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

NLP - Transformer原理解析

AtomGit开源社区

机器视觉在人工智能领域的应用 —— 基于智能医学工程视角的分析

应用说明：机器视觉结合深度学习模型，对 CT、MRI、X 光、病理切片、眼底照相等影像进行自动分析，实现病灶检测、分割、良恶性判断、疾病分期等功能，辅助放射科医生提升诊断效率，减少漏诊误诊。典型案例：奥林巴斯的 AI 辅助内镜系统，可在肠镜检查中实时识别息肉，提示医生避免漏检；应用说明：在注射器、人工关节、手术器械等医疗器械的生产过程中，机器视觉用于产品表面缺陷检测、尺寸测量，例如一次性注射器的密