第二天YOLO目标检测
YOLOv26
网络结构

YOLO26核心总结
YOLO26 的核心进步可以概括为以下四个维度:
1. 架构的“极简化”与“去瓶颈”
- 无 NMS 推理(NMS-free):这是 YOLO26 最显著的改进之一。传统 YOLO 模型依赖 NMS 后处理来消除重复框,这会增加延迟。YOLO26 通过重新设计预测头,实现了端到端的直接预测,消除了这一计算瓶颈,显著提升了推理速度,尤其是在 CPU 上性能提升高达 43%。
- 移除 DFL 损失:为了更适应硬件加速(如 TensorRT、CoreML),YOLO26 简化了边界框回归逻辑,放弃了复杂的分布预测,使模型更加轻量且易于导出到各类边缘平台。
2. 训练技术的创新
- MuSGD 优化器:结合了 SGD 的泛化能力和 Muon 优化器(常用于大语言模型训练)的稳定特性,使视觉模型的训练收敛更快、更稳定。
- ProgLoss 与 STAL:通过动态调整损失权重(ProgLoss)和专门针对微小目标的标签分配策略(STAL),显著增强了对小物体和遮挡物体的识别精度。
3. 强大的全能型多任务支持
YOLO26 不再仅仅是一个检测器,它是一个多任务统一框架。这意味着使用同一个主干网络(Backbone),就可以同时完成:
- 基础任务:物体检测、图像分类。
- 高级任务:实例分割、人体姿态关键点提取。
- 特殊任务:面向旋转物体的定向检测(OBB),这在无人机航拍和遥感领域非常有用。
4. 极致的边缘部署性能
- 硬件友好:论文重点对比了在低功耗设备(如 NVIDIA Jetson 系列)上的表现,证明其在保持高精度的同时(COCO mAP 可达 57.5%),延迟极低。
- 量化韧性:模型在 INT8 或 FP16 量化后,精度损失极小,非常适合在智能摄像头、机器人和移动端应用中大规模部署。
应用场景:适用于无人机、机器人、智能制造等资源受限的边缘设备实时视觉任务。


这张图是评估 YOLO26 核心竞争力的关键指标图,主要展示了该模型在 精度(Accuracy) 与 延迟(Latency) 之间的权衡关系。分为两个子图(a 和 b),分别从不同角度论证了 YOLO26 相比于以往版本及其他主流检测器的优越性:
(a) 精度 vs. 推理延迟 (Precision vs. Inference Latency)
该图展示了在 NVIDIA T4 GPU 上,使用 TensorRT10 (FP16) 加速时的性能表现。
对比对象:涵盖了 YOLO 全系列(从经典的 YOLOv5 到最新的 YOLOv11、v12、v13)以及其他高性能检测器如 PP-YOLOE+、DAMO-YOLO 和 RTMDet。
核心观察:YOLO26 的曲线(深蓝色实线)处于所有曲线的最左上方。
- 左方代表更低的推理延迟(速度更快)。
- 上方代表更高的 COCO mAP (50-95) 精度。
具体表现:YOLO26 在相同精度下拥有更短的处理时间。例如,YOLO26x 的精度达到了约 57.5% mAP,而其延迟仍保持在极具竞争力的水平。
(b) 精度 vs. 端到端延迟 (Precision vs. End-to-End Latency)
这一部分是 YOLO26 的“杀手锏”,重点展示了其端到端(NMS-free)架构的优势。
- 对比对象:主要针对同样支持端到端检测的 YOLOv10 和 RT-DETR 系列(RT-DETR v1-v4)。
- 核心观察:
- 消除后处理开销:传统模型需要经过非极大值抑制(NMS)这一环节,这在推理流程中会产生额外的波动和延迟。
- 流水线效率:图表显示,在考虑了从图像输入到最终结果输出的整个流程时,YOLO26 显著优于 RT-DETR 等基于 Transformer 的模型。
- 性能跨越:YOLO26 在低延迟区间(如 2-4ms)提供了远超以往版本的精度,证明了其在实时边缘计算场景下的实用价值。
检测COCO
| 模型 | 尺寸 (像素) | mAPval 50-95 | mAPval 50-95(e2e) | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 40.1 | 38.9 ± 0.7 | 1.7 ± 0.0 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 47.8 | 87.2 ± 0.9 | 2.5 ± 0.0 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 52.5 | 220.0 ± 1.4 | 4.7 ± 0.1 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 54.4 | 286.2 ± 2.0 | 6.2 ± 0.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 56.9 | 525.8 ± 4.0 | 11.8 ± 0.2 | 55.7 | 193.9 |
YOLOv26与YOLOv11对比
一、架构差异与创新
从YOLO11到YOLO26的飞跃涉及模型架构和底层训练方案的根本性转变。尽管YOLO11为目标检测和多任务学习建立了坚实的基础,但YOLO26彻底改革了边缘计算的部署流程。
二、端到端NMS-Free设计
YOLO26 最显著的升级之一是其原生端到端架构。与依赖 非极大值抑制 (NMS) 后处理来过滤重叠边界框的 YOLO11 不同,YOLO26 完全消除了这一步骤。这一概念最初由 YOLOv10 首创,显著降低了延迟可变性,并简化了跨不同边缘设备的部署逻辑。
**什么是非极大值抑制(NMS)😗*在同一目标周围的多个重叠预测框中,只保留得分最高的那一个,并剔除其余冗余的框。

1. 为什么需要 NMS?
在目标检测过程中(如 YOLOv8 或 YOLOv11 等早期版本),算法通常会在同一个物体附近生成大量候选框。
- 多框冗余:模型可能会对同一个苹果识别出 5 个位置稍微偏离的框。
- 置信度差异:这些框的置信度(Confidence Score)各不相同。
- 结果混乱:如果不处理,最终输出的图像会布满密密麻麻的重叠框。
2. NMS 的工作逻辑
NMS 的执行通常遵循以下算法步骤:
- 排序:将所有预测框按置信度分数从高到低排序。
- 选择:选出分数最高的框,将其作为“确定保留”的目标。
- 计算 IoU(交并比):计算该高分框与剩余所有框的重叠程度(IoU)。
- 剔除:如果某个剩余框与高分框的 IoU 大于设定的阈值(说明两者大概率在指代同一个物体),则将其删除。
- 循环:在剩下的框中重复上述过程,直到所有框都被处理完毕。
3. NMS 的缺点与 YOLO26 的改进
虽然 NMS 非常有效,但它也存在一些明显的局限性,这也是为什么 YOLO26 致力于实现 无 NMS(NMS-free) 推理的原因:
- 计算延迟:NMS 是一个顺序执行的过程,难以在硬件上并行加速,会增加推理延迟。
- 超参数敏感:需要人工设置 IoU 阈值。如果阈值太高,重叠框去不掉;如果太低,密集排列的不同物体(如并排的行人)可能会被错误地过滤掉。
- 部署困难:在将模型导出到 TensorRT、CoreML 等硬件加速平台时,NMS 往往需要专门的插件或复杂的逻辑处理,增加了部署成本。
YOLO26 的突破: YOLO26 通过架构创新实现了端到端(End-to-End)直接预测,模型生成的预测框天生就是非冗余的。这种设计省去了 NMS 环节,使得 CPU 推理速度提升了多达 43%,并简化了从模型到硬件的导出流程。
三、DFL移除以提升边缘效率

YOLO11 利用分布焦点损失 (DFL) 来优化边界框估计。然而,DFL 依赖于复杂的 softmax 操作,这些操作通常在低功耗边缘加速器上支持不佳。YOLO26 成功移除了 DFL 而不牺牲精度。这种架构简化显著提高了与嵌入式系统的兼容性,并使 YOLO26 相比其前身实现了高达43% 更快的 CPU 推理速度。
1、什么是 DFL (Distribution Focal Loss)?
DFL 是一种用于优化目标检测中边界框回归(Bounding Box Regression)的损失函数。
- 传统方式:早期的模型通常直接预测框的坐标(如中心点 x , y x, y x,y 和宽高 w , h w, h w,h),这被称为简单回归。
- DFL 方式:它不直接预测一个具体的数值,而是预测数值的概率分布。
- 作用:它能让模型更精确地定位物体的边缘,尤其是在物体边界模糊或背景复杂的情况下,通过概率分布来表达位置的不确定性。
2、YOLO26 为什么要移除 DFL?
论文提到,虽然 DFL 在之前的版本(如 YOLOv8、YOLOv11)中提升了准确度,但它也带来了副作用:
计算开销:预测概率分布需要更多的计算资源,这在边缘设备(如手机、嵌入式芯片)上会拖慢速度。
导出困难:在将模型转换成生产格式(如 ONNX、TensorRT、TFLite)时,DFL 的复杂逻辑往往会导致转换失败或运行效率低下。
架构简化:YOLO26 证明了通过其他创新(如 ProgLoss 和 STAL 策略),即便不使用 DFL,也能获得相同甚至更高的精度,同时让模型更加轻量化。
四、MuSGD 优化器

训练稳定性和速度至关重要。YOLO26 引入了 MuSGD 优化器,这是一种随机梯度下降(SGD)和 Muon 的混合优化器,深受面壁智能 Kimi K2 的大型语言模型(LLM)训练创新启发。该优化器将语言模型训练的稳定性带入计算机视觉领域,与笨重的 Transformer 替代方案相比,可确保更快的收敛速度并减少训练期间的内存占用。
1、MuSGD 的名字来源于其结合的两种技术:
- SGD (Stochastic Gradient Descent):经典的随机梯度下降算法,以其优秀的泛化能力(即在未见过的数据上表现更好)和架构简单著称。
- Muon:这是一种最初在大语言模型 (LLM) 训练(例如 Kimi K2)中使用的优化技术,它利用了梯度的曲率信息和动量行为,能够显著加快收敛速度。
2. 核心优势
在 YOLO26 的训练过程中,MuSGD 发挥了以下作用:
- 训练稳定性:通过引入 Muon 的特性,它能够有效地平滑训练过程中的梯度波动,避免模型在学习后期出现不稳定的振荡。
- 更快的收敛速度:实证结果显示,MuSGD 允许模型在更少的训练轮数(Epochs)内达到理想的精度,从而降低了计算成本和时间成本。
- 可靠的平台期表现:在训练接近完成时,它能帮助模型更稳定地落在局部最优解,获得更可靠的最终权重。
3. 跨领域融合的意义
MuSGD 的出现反映了当前深度学习领域的一个重要趋势:跨领域技术迁移。 以往的目标检测器(如 YOLOv8 到 v13)大多使用标准的 SGD 或 AdamW 优化器。YOLO26 通过从自然语言处理 (NLP) 领域借鉴优化策略,证明了为 LLM 设计的加速技术同样可以大幅提升计算机视觉模型的训练效率。
简而言之: MuSGD 就像是给传统的“老兵”SGD 装备了现代化的“加速器”Muon,让 YOLO26 既能学得快,又能学得扎实。
五、ProgLoss 和 STAL

对于从事航空影像或无人机应用的研究人员,检测微小特征一直是一个历史性挑战。YOLO26 引入了 ProgLoss 结合 STAL(尺度目标注意力损失),在小目标识别方面比 YOLO11 有显著改进。
ProgLoss 和 STAL 是 YOLO26 为了解决目标检测中两个核心痛点——训练不稳定性和小目标识别困难——而引入的创新技术。
1. ProgLoss (Progressive Loss Balancing,渐进式损失平衡)
在训练深度学习模型时,通常会有多个损失函数(如分类损失、定位损失等)同时起作用。
- 核心痛点:在训练后期,一些“容易学习”的样本或主导类别的损失可能会掩盖掉那些“难学”或稀有类别的信号,导致模型陷入局部最优。
- 解决方案:ProgLoss 会在训练过程中动态调整不同损失组件的权重。它能防止模型在后期过度拟合主导目标,确保模型对各类目标的学习更加均衡,从而提高整体的泛化能力。
- 优势:相比于 YOLOv8 或 YOLOv11 等早期版本,ProgLoss 提供了更强的训练稳定性,减少了由于损失权重失衡导致的训练震荡。
2. STAL (Small-Target-Aware Label Assignment,小目标感知标签分配)
小目标(如远处的车辆、航拍图中的行人)一直是目标检测的难点,因为它们像素少、特征模糊。
- 核心痛点:传统的标签分配策略(Label Assignment)往往更倾向于中大型目标,小目标在训练中分到的“关注度”不足,容易导致漏检。
- 解决方案:STAL 明确地提高小目标的分配优先级。它通过优化标签分配逻辑,确保即便是极小或被部分遮挡的实例,也能在训练阶段获得足够的正样本监督信号。
- 应用场景:这项技术让 YOLO26 在无人机视角(UAV imagery)或密集杂乱的场景下表现出色,大幅提升了对小尺寸目标的召回率。
两者结合的效果
在 YOLO26 架构中,这两项技术相辅相成:
- STAL 负责在训练之初就帮模型“找准”小目标。
- ProgLoss 负责在整个训练过程中“稳住”学习节奏,防止模型在关注小目标时丢失了对其他目标的平衡感。
与以往版本的对比:
- YOLOv8/v11:通常依赖数据增强(如 Mosaic 增强)来提升小目标性能,缺乏针对性的内部损失平衡机制。
- YOLOv12/v13:尝试通过引入复杂的注意力机制(Attention)来增强特征提取,但这增加了计算开销。
- YOLO26:通过 ProgLoss 和 STAL 这种更“轻量化”的方法,在不增加额外推理负担的情况下,达到了相同甚至更好的效果。
性能与指标比较
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| 53.4 | **238.6** | **6.2** | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)