说到实时目标检测,YOLO绝对是老大哥,速度快、效果好,业界用了好多年。不过这两年,基于DETR(DEtection TRansformer)的新方法越来越猛,追赶势头很凶。 尤其是DEIM这个框架出来后,实时DETR训练更快、效果更稳,已经能和YOLO掰掰手腕了! 今天要聊的DEIMv2,更是狠角色——Intellindust AI Lab和厦门大学的研究团队,直接把当下最强的视觉基础模型DINOv3给接进来了。从大模型到小模型,搞了一整套新检测器,效果相当惊艳。

  • 论文标题: Real-Time Object Detection Meets DINOv3

  • 作者: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen

  • 机构: Intellindust AI Lab, 厦门大学

  • 项目主页: https://intellindust-ai-lab.github.io/projects/DEIMv2

  • 代码与模型: https://github.com/Intellindust-AI-Lab/DEIMv2

DEIMv2:全场景适配的模型解决方案

DEIMv2 的核心目标是在准确率与效率之间的权衡上不断突破。为此,它提供了一个包含 8 种不同模型规模的模型家族,以适配多样化的部署场景:

高性能模型(S、M、L、X)::面向以 GPU 为主的系统设计,在这些场景中,最高精度是首要目标。

超轻量模型(Nano、Pico、Femto、Atto):面向移动端和边缘设备等资源受限环境,在保证可用性能的同时,更加注重计算效率和低资源消耗。

高性能系列(适合GPU服务器):

  • DEIMv2-X:旗舰型号,极致性能

  • DEIMv2-L:均衡型,性能与效率兼备

  • DEIMv2-M:轻量高效,性价比之选

  • DEIMv2-S:基础版本,依旧强悍

轻量级系列(适合移动端/边缘设备):

  • DEIMv2-Nano:保持性能的轻量化

  • DEIMv2-Pico:显著压缩,性能不减

  • DEIMv2-Femto:极致压缩,适合资源紧张环境

  • DEIMv2-Atto:仅0.49M参数,已知最小DETR检测器

这种精细的分级策略让开发者能够根据实际场景选择最合适的模型,不再需要为适配硬件而牺牲性能。

核心方法:关键创新

DEIMv2 的关键创新在于:能够高效地将 DINOv3 提供的强大单尺度语义特征,适配并转换为目标检测所需的多尺度特征表示。这一点通过其提出的全新 Spatial Tuning Adapter(空间调优适配器)得以实现,使模型在保持高效的同时具备出色的检测性能。

挑战与解决方案:空间调优适配器(STA)

DEIMv2 的架构正是其实现卓越性能与良好可扩展性的关键所在。整体上,它遵循了现代 DETR(Detection Transformer)的设计范式,由 主干网络(backbone)、 编码器(encoder)和 解码器(decoder)组成。但真正让 DEIMv2 脱颖而出的,是其各个组件,尤其是 主干网络的精心设计。

对于基于 ViT 的 DEIMv2 变体,其主干架构展示了 DINOv3 模型如何与提出的  Spatial Tuning Adapter(STA,空间调优适配器)相结合,从而生成适用于目标检测的多尺度特征。

在目标检测中使用基于 Vision Transformer(ViT)的模型(如 DINOv3)面临的主要挑战在于:它们天然只产生单尺度特征图。而目标检测需要多尺度特征来同时检测大小各异的目标。DEIMv2 通过 Spatial Tuning Adapter(STA)优雅地解决了这一问题。

1. 并行处理     STA 是一个轻量级的卷积神经网络(CNN),与主 DINOv3 主干并行运行。DINOv3 擅长捕获丰富的全局语义信息(“图像里有什么”),而 STA 则专注于提取细粒度的多尺度空间细节(“目标具体在哪里”)。

2. 特征融合     STA 从 DINOv3 主干的不同层提取特征,对其进行尺度调整,并通过 Bi-Fusion算子与自身生成的细节特征图进行融合。该过程有效地将 DINOv3 强大的单尺度输出,转化为检测大目标和小目标都必需的丰富多尺度特征。

3. 参数高效性     这种并行设计非常高效,使 DEIMv2 能够充分利用预训练基础模型的强大能力,而无需对其进行大规模修改或重新训练,从而节省参数量和计算开销。

统一且高效的设计

除了STA,DEIMv2还进行了一系列优化:

针对超轻量模型

:对于Nano到Atto这些模型,作者没有使用ViT,而是选择了对移动端更友好的HGNetv2作为骨干,并对其进行了精细的深度和宽度剪枝,以满足极致的资源限制。

简化的解码器

:采用了更高效的SwishFFN和RMSNorm,并共享了位置编码,进一步降低计算量。

增强的Dense O2O

:引入了Copy-Blend数据增强,在不增加背景干扰的情况下,为模型提供了更强的监督信号。

SOTA性能:全方位超越!

DEIMv2的性能表现只能用“惊艳”来形容,它在COCO数据集上建立了一系列新的SOTA纪录。

来看几个关键数据:

DEIMv2-X: 作为最大的型号,它用50.3M的参数量,达到了57.8 AP的惊人精度,远超之前需要60M+参数才能达到56.5 AP的同级模型。

DEIMv2-S: 这是第一个参数量低于10M(9.71M)却突破50 AP大关的模型 ,精度高达50.9 AP!这在轻量级检测器中是一个里程碑。

DEIMv2-Pico:在超轻量级对决中,Pico版本用仅仅1.5M的参数量,就取得了 38.5 AP的成绩,与参数量比它大50%的YOLOv10-Nano打成平手,展示了极致的参数效率。

下面的表格更详细地展示了DEIMv2家族与其他SOTA实时检测器(包括各种YOLO)的性能对比,优势非常明显。

总结

DEIMv2的突破性进展,标志着基于DETR架构的实时检测器在与YOLO系列的长期竞争中,实现了从"跟跑"到"并跑"乃至"领跑"的关键跨越。该工作不仅充分验证了视觉基础模型(以DINOv3为代表)在实时检测任务中的强大表征能力,更通过创新的尺度感知适配器(STA)机制与系统化的多尺度优化策略,为计算资源受限场景下高效利用大规模预训练模型提供了可复用的技术范式。 目前,DEIMv2全系列模型及配套代码均已开源发布,预计将对实时目标检测研究社区产生显著的推动作用。关于YOLO与DETR技术路线的未来演进之争,各位更看好哪一方?诚邀在评论区分享您的观点。

可查看主页

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐