【CVPR】 DETRs Beat YOLOs on Real-time Object Detection

论文期刊:CVPR
论文作者:Yian Zhao​ , Wenyu Lv​ , Shangliang Xu , Jinman Wei , Guanzhong Wang , Qingqing Dang , Yi Liu , Jie Chen​
发布年份:2024
论文代码: https://zhao-yian.github.io/RTDETR.

论文主要贡献

实时目标检测是计算机视觉领域的核心研究方向,广泛应用于自动驾驶、视频监控和物体跟踪等场景。长期以来,YOLO系列框架因其在速度与精度间的合理权衡而占据主导地位。然而,YOLO依赖非极大值抑制(NMS)进行后处理,这不仅引入超参数敏感性,还导致推理速度不稳定。近年来,基于Transformer的端到端检测器(DETR)通过消除NMS简化了流程,但高计算成本阻碍了其实时应用。本文介绍的RT-DETR(Real-Time DEtection TRansformer)首次将DETR扩展到实时场景,在速度和精度上均超越了先进YOLO模型。
在这里插入图片描述


论文主要创新点

首个实时端到端检测器:在消除NMS负面影响的同时,实现超越YOLO的精度与速度。

高效混合编码器设计:通过解耦尺度内交互和跨尺度融合,显著降低计算瓶颈。

不确定性最小化查询选择:优化初始查询质量,提升检测精度。(分类分数和位置置信度)

灵活速度调优机制:支持通过调整解码器层数适配不同场景,无需重新训练。

方法

整体架构

##RT-DETR由三部分组成:骨干网络(如ResNet)、高效混合编码器以及Transformer解码器(含辅助预测头)。其工作流程如下:骨干网络提取多尺度特征{S₃, S₄, S₅};混合编码器通过尺度内交互和跨尺度融合生成图像特征序列;查询选择模块筛选高质量特征作为解码器初始查询;解码器迭代优化查询并输出预测结果。

在这里插入图片描述

##Efficient Hybrid Encoder
传统DETR编码器因处理多尺度特征序列过长成为计算瓶颈。RT-DETR的混合编码器从以下两方面优化:

AIFI
AIFI仅对高层特征S5应用单尺度Transformer编码器进行尺度内交互。由于S5包含丰富语义信息,此举能有效捕获概念实体间的关联,同时避免低层特征交互的冗余。实验表明,仅对S5交互比全尺度交互延迟降低35%,精度提高0.4% AP。

CCFF
CCFF采用CNN结构实现跨尺度融合,其核心为融合块(Fusion Block)。该块通过1×1卷积调整通道数,并利用RepConv模块进行特征融合,最终通过逐元素相加输出。
在这里插入图片描述

编码器变体消融实验(图3)验证了混合设计的有效性:解耦尺度内交互(变体D)比同步处理(变体C)精度提高0.8%,延迟降低8%。

在这里插入图片描述

Uncertainty-minimal Query Selection
传统查询选择仅依赖分类分数,忽略定位质量,导致低质特征被选为初始查询。RT-DETR提出不确定性最小化方法,将特征不确定性定义为定位分布P与分类分布C的差异(公式:𝒰(𝒳̂) = ‖𝑃(𝒳̂) – 𝐶(𝒳̂)‖),并通过损失函数优化该不确定性。如图6所示,该方法显著提升高质量特征比例(分类和IoU分数均>0.5的特征数量增加120%),使检测精度提高0.8% AP。

在这里插入图片描述

实验分析

性能对比
在COCO val2017数据集上,RT-DETR与YOLO系列和DETR变体进行对比(表2)。RT-DETR-R50达到53.1% AP和108 FPS(T4 GPU),RT-DETR-R101达到54.3% AP和74 FPS,均优于同类规模YOLO模型(如YOLOv8-L精度52.9% AP,速度71 FPS)。与DETR相比,RT-DETR-R50精度超越DINO-Deformable-DETR-R50达2.2% AP,速度提升21倍。

NMS分析
研究团队建立了端到端速度基准,量化NMS对YOLO的影响。如图2和表1所示,NMS执行时间随置信度阈值降低或IoU阈值增加而上升,且不合理的阈值会导致误检或漏检。RT-DETR无需NMS,从根本上避免了此类问题。
在这里插入图片描述

消融实验
编码器设计:混合编码器(变体E)比基线延迟降低24%,精度提高1.5% AP(表3)。

解码器调优:减少解码器层数可灵活平衡速度与精度(表5)。例如,使用5层替代6层仅损失0.1% AP,但延迟降低0.5 ms。

总结

RT-DETR成功将DETR框架推向实时检测场景,通过高效混合编码器和不确定性最小化查询选择,在速度与精度上实现突破。其消除NMS依赖、支持动态速度调优的特性,提升了实际应用便利性。尽管在小目标检测上仍存挑战,但RT-DETR为实时检测提供了新范式,未来可通过知识蒸馏等技术进一步优化。这项工作证明了Transformer架构在实时任务中的潜力,为超越YOLO的技术路径开辟了方向。

个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐