YOLOv26

网络结构

在这里插入图片描述

YOLO26核心总结

YOLO26 的核心进步可以概括为以下四个维度:
1. 架构的“极简化”与“去瓶颈”
  • 无 NMS 推理(NMS-free):这是 YOLO26 最显著的改进之一。传统 YOLO 模型依赖 NMS 后处理来消除重复框,这会增加延迟。YOLO26 通过重新设计预测头,实现了端到端的直接预测,消除了这一计算瓶颈,显著提升了推理速度,尤其是在 CPU 上性能提升高达 43%。
  • 移除 DFL 损失:为了更适应硬件加速(如 TensorRT、CoreML),YOLO26 简化了边界框回归逻辑,放弃了复杂的分布预测,使模型更加轻量且易于导出到各类边缘平台。
2. 训练技术的创新
  • MuSGD 优化器:结合了 SGD 的泛化能力和 Muon 优化器(常用于大语言模型训练)的稳定特性,使视觉模型的训练收敛更快、更稳定。
  • ProgLoss 与 STAL:通过动态调整损失权重(ProgLoss)和专门针对微小目标的标签分配策略(STAL),显著增强了对小物体和遮挡物体的识别精度。
3. 强大的全能型多任务支持

YOLO26 不再仅仅是一个检测器,它是一个多任务统一框架。这意味着使用同一个主干网络(Backbone),就可以同时完成:

  • 基础任务:物体检测、图像分类。
  • 高级任务:实例分割、人体姿态关键点提取。
  • 特殊任务:面向旋转物体的定向检测(OBB),这在无人机航拍和遥感领域非常有用。
4. 极致的边缘部署性能
  • 硬件友好:论文重点对比了在低功耗设备(如 NVIDIA Jetson 系列)上的表现,证明其在保持高精度的同时(COCO mAP 可达 57.5%),延迟极低。
  • 量化韧性:模型在 INT8 或 FP16 量化后,精度损失极小,非常适合在智能摄像头、机器人和移动端应用中大规模部署。

应用场景:适用于无人机、机器人、智能制造等资源受限的边缘设备实时视觉任务。

在这里插入图片描述

在这里插入图片描述

这张图是评估 YOLO26 核心竞争力的关键指标图,主要展示了该模型在 精度(Accuracy)延迟(Latency) 之间的权衡关系。分为两个子图(a 和 b),分别从不同角度论证了 YOLO26 相比于以往版本及其他主流检测器的优越性:

(a) 精度 vs. 推理延迟 (Precision vs. Inference Latency)

该图展示了在 NVIDIA T4 GPU 上,使用 TensorRT10 (FP16) 加速时的性能表现。

对比对象:涵盖了 YOLO 全系列(从经典的 YOLOv5 到最新的 YOLOv11、v12、v13)以及其他高性能检测器如 PP-YOLOE+、DAMO-YOLO 和 RTMDet。

核心观察:YOLO26 的曲线(深蓝色实线)处于所有曲线的最左上方。

  • 左方代表更低的推理延迟(速度更快)。
  • 上方代表更高的 COCO mAP (50-95) 精度。

具体表现:YOLO26 在相同精度下拥有更短的处理时间。例如,YOLO26x 的精度达到了约 57.5% mAP,而其延迟仍保持在极具竞争力的水平。

(b) 精度 vs. 端到端延迟 (Precision vs. End-to-End Latency)

这一部分是 YOLO26 的“杀手锏”,重点展示了其端到端(NMS-free)架构的优势。

  • 对比对象:主要针对同样支持端到端检测的 YOLOv10 和 RT-DETR 系列(RT-DETR v1-v4)。
  • 核心观察
    • 消除后处理开销:传统模型需要经过非极大值抑制(NMS)这一环节,这在推理流程中会产生额外的波动和延迟。
    • 流水线效率:图表显示,在考虑了从图像输入到最终结果输出的整个流程时,YOLO26 显著优于 RT-DETR 等基于 Transformer 的模型。
  • 性能跨越:YOLO26 在低延迟区间(如 2-4ms)提供了远超以往版本的精度,证明了其在实时边缘计算场景下的实用价值。

检测COCO

模型 尺寸 (像素) mAPval 50-95 mAPval 50-95(e2e) 速度 CPU ONNX (毫秒) 速度 T4 TensorRT10 (毫秒) 参数 (M) FLOPs (B)
YOLO26n 640 40.9 40.1 38.9 ± 0.7 1.7 ± 0.0 2.4 5.4
YOLO26s 640 48.6 47.8 87.2 ± 0.9 2.5 ± 0.0 9.5 20.7
YOLO26m 640 53.1 52.5 220.0 ± 1.4 4.7 ± 0.1 20.4 68.2
YOLO26l 640 55.0 54.4 286.2 ± 2.0 6.2 ± 0.2 24.8 86.4
YOLO26x 640 57.5 56.9 525.8 ± 4.0 11.8 ± 0.2 55.7 193.9

YOLOv26与YOLOv11对比

一、架构差异与创新

从YOLO11到YOLO26的飞跃涉及模型架构和底层训练方案的根本性转变。尽管YOLO11为目标检测和多任务学习建立了坚实的基础,但YOLO26彻底改革了边缘计算的部署流程。

二、端到端NMS-Free设计

YOLO26 最显著的升级之一是其原生端到端架构。与依赖 非极大值抑制 (NMS) 后处理来过滤重叠边界框的 YOLO11 不同,YOLO26 完全消除了这一步骤。这一概念最初由 YOLOv10 首创,显著降低了延迟可变性,并简化了跨不同边缘设备的部署逻辑。

**什么是非极大值抑制(NMS)😗*在同一目标周围的多个重叠预测框中,只保留得分最高的那一个,并剔除其余冗余的框。

img

1. 为什么需要 NMS?

在目标检测过程中(如 YOLOv8 或 YOLOv11 等早期版本),算法通常会在同一个物体附近生成大量候选框。

  • 多框冗余:模型可能会对同一个苹果识别出 5 个位置稍微偏离的框。
  • 置信度差异:这些框的置信度(Confidence Score)各不相同。
  • 结果混乱:如果不处理,最终输出的图像会布满密密麻麻的重叠框。

2. NMS 的工作逻辑

NMS 的执行通常遵循以下算法步骤:

  • 排序:将所有预测框按置信度分数从高到低排序。
  • 选择:选出分数最高的框,将其作为“确定保留”的目标。
  • 计算 IoU(交并比):计算该高分框与剩余所有框的重叠程度(IoU)。
  • 剔除:如果某个剩余框与高分框的 IoU 大于设定的阈值(说明两者大概率在指代同一个物体),则将其删除。
  • 循环:在剩下的框中重复上述过程,直到所有框都被处理完毕。

3. NMS 的缺点与 YOLO26 的改进

虽然 NMS 非常有效,但它也存在一些明显的局限性,这也是为什么 YOLO26 致力于实现 无 NMS(NMS-free) 推理的原因:

  • 计算延迟:NMS 是一个顺序执行的过程,难以在硬件上并行加速,会增加推理延迟。
  • 超参数敏感:需要人工设置 IoU 阈值。如果阈值太高,重叠框去不掉;如果太低,密集排列的不同物体(如并排的行人)可能会被错误地过滤掉。
  • 部署困难:在将模型导出到 TensorRT、CoreML 等硬件加速平台时,NMS 往往需要专门的插件或复杂的逻辑处理,增加了部署成本。

YOLO26 的突破: YOLO26 通过架构创新实现了端到端(End-to-End)直接预测,模型生成的预测框天生就是非冗余的。这种设计省去了 NMS 环节,使得 CPU 推理速度提升了多达 43%,并简化了从模型到硬件的导出流程。

三、DFL移除以提升边缘效率

在这里插入图片描述

YOLO11 利用分布焦点损失 (DFL) 来优化边界框估计。然而,DFL 依赖于复杂的 softmax 操作,这些操作通常在低功耗边缘加速器上支持不佳。YOLO26 成功移除了 DFL 而不牺牲精度。这种架构简化显著提高了与嵌入式系统的兼容性,并使 YOLO26 相比其前身实现了高达43% 更快的 CPU 推理速度

1、什么是 DFL (Distribution Focal Loss)?

DFL 是一种用于优化目标检测中边界框回归(Bounding Box Regression)的损失函数。

  • 传统方式:早期的模型通常直接预测框的坐标(如中心点 x , y x, y x,y 和宽高 w , h w, h w,h),这被称为简单回归。
  • DFL 方式:它不直接预测一个具体的数值,而是预测数值的概率分布
  • 作用:它能让模型更精确地定位物体的边缘,尤其是在物体边界模糊或背景复杂的情况下,通过概率分布来表达位置的不确定性。

2、YOLO26 为什么要移除 DFL?

论文提到,虽然 DFL 在之前的版本(如 YOLOv8、YOLOv11)中提升了准确度,但它也带来了副作用:

计算开销:预测概率分布需要更多的计算资源,这在边缘设备(如手机、嵌入式芯片)上会拖慢速度。

导出困难:在将模型转换成生产格式(如 ONNX、TensorRT、TFLite)时,DFL 的复杂逻辑往往会导致转换失败或运行效率低下。

架构简化:YOLO26 证明了通过其他创新(如 ProgLossSTAL 策略),即便不使用 DFL,也能获得相同甚至更高的精度,同时让模型更加轻量化。

四、MuSGD 优化器

在这里插入图片描述

训练稳定性和速度至关重要。YOLO26 引入了 MuSGD 优化器,这是一种随机梯度下降(SGD)和 Muon 的混合优化器,深受面壁智能 Kimi K2 的大型语言模型(LLM)训练创新启发。该优化器将语言模型训练的稳定性带入计算机视觉领域,与笨重的 Transformer 替代方案相比,可确保更快的收敛速度并减少训练期间的内存占用。

1、MuSGD 的名字来源于其结合的两种技术:

  • SGD (Stochastic Gradient Descent):经典的随机梯度下降算法,以其优秀的泛化能力(即在未见过的数据上表现更好)和架构简单著称。
  • Muon:这是一种最初在大语言模型 (LLM) 训练(例如 Kimi K2)中使用的优化技术,它利用了梯度的曲率信息和动量行为,能够显著加快收敛速度。

2. 核心优势

在 YOLO26 的训练过程中,MuSGD 发挥了以下作用:

  • 训练稳定性:通过引入 Muon 的特性,它能够有效地平滑训练过程中的梯度波动,避免模型在学习后期出现不稳定的振荡。
  • 更快的收敛速度:实证结果显示,MuSGD 允许模型在更少的训练轮数(Epochs)内达到理想的精度,从而降低了计算成本和时间成本。
  • 可靠的平台期表现:在训练接近完成时,它能帮助模型更稳定地落在局部最优解,获得更可靠的最终权重。

3. 跨领域融合的意义

MuSGD 的出现反映了当前深度学习领域的一个重要趋势:跨领域技术迁移。 以往的目标检测器(如 YOLOv8 到 v13)大多使用标准的 SGD 或 AdamW 优化器。YOLO26 通过从自然语言处理 (NLP) 领域借鉴优化策略,证明了为 LLM 设计的加速技术同样可以大幅提升计算机视觉模型的训练效率。

简而言之: MuSGD 就像是给传统的“老兵”SGD 装备了现代化的“加速器”Muon,让 YOLO26 既能学得快,又能学得扎实。

五、ProgLoss 和 STAL

在这里插入图片描述

对于从事航空影像或无人机应用的研究人员,检测微小特征一直是一个历史性挑战。YOLO26 引入了 ProgLoss 结合 STAL(尺度目标注意力损失),在小目标识别方面比 YOLO11 有显著改进。

ProgLossSTAL 是 YOLO26 为了解决目标检测中两个核心痛点——训练不稳定性小目标识别困难——而引入的创新技术。

1. ProgLoss (Progressive Loss Balancing,渐进式损失平衡)

在训练深度学习模型时,通常会有多个损失函数(如分类损失、定位损失等)同时起作用。

  • 核心痛点:在训练后期,一些“容易学习”的样本或主导类别的损失可能会掩盖掉那些“难学”或稀有类别的信号,导致模型陷入局部最优。
  • 解决方案:ProgLoss 会在训练过程中动态调整不同损失组件的权重。它能防止模型在后期过度拟合主导目标,确保模型对各类目标的学习更加均衡,从而提高整体的泛化能力。
  • 优势:相比于 YOLOv8 或 YOLOv11 等早期版本,ProgLoss 提供了更强的训练稳定性,减少了由于损失权重失衡导致的训练震荡。

2. STAL (Small-Target-Aware Label Assignment,小目标感知标签分配)

小目标(如远处的车辆、航拍图中的行人)一直是目标检测的难点,因为它们像素少、特征模糊。

  • 核心痛点:传统的标签分配策略(Label Assignment)往往更倾向于中大型目标,小目标在训练中分到的“关注度”不足,容易导致漏检。
  • 解决方案:STAL 明确地提高小目标的分配优先级。它通过优化标签分配逻辑,确保即便是极小或被部分遮挡的实例,也能在训练阶段获得足够的正样本监督信号。
  • 应用场景:这项技术让 YOLO26 在无人机视角(UAV imagery)或密集杂乱的场景下表现出色,大幅提升了对小尺寸目标的召回率。

两者结合的效果

在 YOLO26 架构中,这两项技术相辅相成:

  • STAL 负责在训练之初就帮模型“找准”小目标。
  • ProgLoss 负责在整个训练过程中“稳住”学习节奏,防止模型在关注小目标时丢失了对其他目标的平衡感。

与以往版本的对比:

  • YOLOv8/v11:通常依赖数据增强(如 Mosaic 增强)来提升小目标性能,缺乏针对性的内部损失平衡机制。
  • YOLOv12/v13:尝试通过引入复杂的注意力机制(Attention)来增强特征提取,但这增加了计算开销。
  • YOLO26:通过 ProgLoss 和 STAL 这种更“轻量化”的方法,在不增加额外推理负担的情况下,达到了相同甚至更好的效果。

性能与指标比较

模型 尺寸 (像素) mAPval 50-95 速度 CPU ONNX (毫秒) 速度 T4 TensorRT10 (毫秒) 参数 (M) FLOPs (B)
YOLO26n 640 40.9 38.9 1.7 2.4 5.4
YOLO26s 640 48.6 87.2 2.5 9.5 20.7
YOLO26m 640 53.1 220.0 4.7 20.4 68.2
YOLO26l 640 55.0 286.2 6.2 24.8 86.4
YOLO26x 640 57.5 525.8 11.8 55.7 193.9
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
     | 53.4         | **238.6**            | **6.2**                   | 25.3     | 86.9      |

| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐