【2026】Ultralytics YOLO演进:YOLO26、YOLO11、YOLOv8和YOLOv5目标检测器综述
Ultralytics YOLO Evolution: An Overview of YOLO26, YOLO11, YOLOv8 and YOLOv5
论文信息
英文名称:Ultralytics YOLO Evolution: An Overview of YOLO26, YOLO11, YOLOv8 and YOLOv5 Object Detectors for Computer Vision and Pattern Recognition
中文名称:Ultralytics YOLO演进:YOLO26、YOLO11、YOLOv8和YOLOv5目标检测器综述
论文链接:https://arxiv.org/abs/2510.09653
作者:Ranjan Sapkota, Manoj Karkee(美国华盛顿州立大学)
发表时间:2025年10月6日(v1),2025年10月15日(v2修订)
摘要分析
本论文对Ultralytics YOLO系列目标检测器进行了全面综述,重点关注架构演进、性能基准测试、部署视角和未来挑战。综述从最新版本YOLO26(又称YOLOv26)开始,介绍其关键创新,包括:移除分布焦点损失(DFL)、原生无NMS推理、渐进式损失平衡(ProgLoss)、小目标感知标签分配(STAL)以及用于稳定训练的MuSGD优化器。
研究追溯了从YOLO11、YOLOv8到YOLOv5的演进路径。YOLO11引入混合任务分配和效率导向模块;YOLOv8通过解耦检测头和无锚框预测实现进步;YOLOv5建立了现代YOLO开发所依赖的模块化PyTorch基础。
在MS COCO数据集上的基准测试提供了YOLOv5、YOLOv8、YOLO11和YOLO26的详细定量比较,同时与YOLOv12、YOLOv13、RT-DETR和DEIM进行了跨代际对比。精度、召回率、F1分数、平均精度均值(mAP)和推理速度等指标被分析以突出精度与效率之间的权衡。
此外还讨论了部署和应用视角,涵盖导出格式、量化策略以及机器人在农业、监控和制造业等领域的实际应用。最后,论文识别了当前挑战和未来方向,包括密集场景限制、混合CNN-Transformer集成、开放词汇检测和边缘感知训练方法。
YOLO家族演进历程
YOLOv5:模块化PyTorch基础
YOLOv5由Ultralytics于2020年发布,建立了现代YOLO开发的模块化PyTorch基础。其主要贡献包括:
架构特点:
- CSPDarknet风格的骨干网络
- PANet颈部结构实现多尺度特征融合
- 集成化的数据增强策略(Mosaic、MixUp等)
- 完善的训练和部署工具链
变体体系:提供n/s/m/l/x五档规模变体,平衡不同场景下的精度与效率需求
部署生态:支持ONNX、TensorRT、CoreML等多种导出格式,便于跨平台部署
YOLOv8:解耦头与无锚框革新
YOLOv8于2023年发布,引入多项关键改进:
解耦检测头:将分类和定位任务解耦为独立分支,提升了两项任务的学习效率
无锚框预测:采用无锚框设计简化后处理流程,降低了对预定义锚框的依赖
C2F模块:引入Cross Stage Partial with Flow(C2F)模块,增强特征传递效率
任务对齐:引入任务对齐学习(Task Alignment Learning)机制,改善分类与定位的一致性
YOLO11:混合任务分配
YOLO11进一步优化,在保持实时性的同时提升精度:
混合任务分配:结合分类和定位信号进行标签分配,增强训练效果
C3K2模块:用更高效的C3K2模块替代C2F,保持性能同时降低计算开销
SPPF模块增强:改进的空间金字塔池化快速版增强多尺度特征捕获
C2PSA注意力:引入跨阶段部分空间注意力机制,提升特征选择能力
YOLO26:架构简化与性能突破
YOLO26于2025年9月发布,代表了YOLO系列的重大突破:
DFL移除:移除分布焦点损失简化边界框回归,拓宽硬件兼容性
原生无NMS:实现端到端无NMS推理,消除后处理瓶颈
ProgLoss:渐进式损失平衡稳定训练过程
STAL:小目标感知标签分配增强小目标检测
MuSGD优化器:结合SGD和Muon特性,加速收敛并提升训练稳定性
关键技术创新深度解析
1. 分布焦点损失(DFL)的移除
传统YOLO版本使用DFL进行边界框回归,该方法通过将连续边界框坐标转换为离散分布来辅助学习。然而DFL存在以下问题:
- 导出复杂性:DFL操作难以在某些部署框架中高效实现
- 训练-推理不一致:训练时的分布学习与推理时的直接回归存在差异
- 硬件适配困难:特殊操作限制了量化等优化技术的应用
YOLO26通过重新设计的边界框编码直接回归方案完全移除DFL,实现了训练和推理的完全一致性,同时显著简化了模型导出流程。
2. 原生无NMS推理
非极大值抑制(NMS)是目标检测后处理的必要步骤,用于去除重叠检测框。然而NMS引入了额外延迟且难以并行化。
YOLO26采用一对一标签分配策略,训练时每个真实目标仅分配一个正样本,消除了对NMS的需求。这一设计使推理管道更为简洁,延迟可预测性显著提升。
3. 渐进式损失平衡(ProgLoss)
深度神经网络的训练面临多任务损失平衡难题。不同任务(分类、定位、置信度等)的损失梯度尺度差异显著,影响收敛效率。
ProgLoss采用渐进式调整策略,在训练不同阶段自适应调整各损失项权重。训练初期侧重分类任务建立语义理解,中后期逐步强化定位精度,实现了更稳定的训练过程和更好的最终性能。
4. 小目标感知标签分配(STAL)
小目标检测是目标检测领域的长期挑战。由于像素面积小,小目标特征信息有限,容易被忽略或误检。
STAL通过专门设计的分配策略增强小目标的学习:
- 降低小目标匹配的IoU阈值
- 增加小目标候选框数量
- 引入尺度感知的损失加权机制
实验表明,STAL在COCO数据集的小目标子集上实现了显著mAP提升。
5. MuSGD优化器
MuSGD是结合SGD稳定性和Muon优化器动量优势的新型优化器。传统SGD虽然泛化性能好但收敛较慢,而自适应优化器如Adam虽然收敛快但泛化能力稍弱。
MuSGD的设计理念:
- 保持SGD的简单性和泛化优势
- 引入动量机制加速收敛
- 针对视觉任务特性优化梯度估计
训练实验显示,MuSGD在保持良好泛化性能的同时,将收敛速度提升约30%。
基准测试性能对比
COCO数据集综合对比
| 模型 | mAP 50-95 | mAP 50 | mAP 75 | 参数量(M) | FLOPs(G) |
|---|---|---|---|---|---|
| YOLOv5n | 34.3 | 52.0 | 37.4 | 2.5 | 7.7 |
| YOLOv8n | 37.3 | 55.6 | 40.1 | 3.2 | 8.7 |
| YOLO11n | 39.5 | 58.2 | 42.5 | 2.6 | 6.5 |
| YOLO26n | 41.5 | 60.1 | 45.2 | 2.4 | 6.2 |
推理速度对比(T4 GPU / TensorRT)
| 模型 | FPS | 延迟(ms) |
|---|---|---|
| YOLOv5s | 380 | 2.6 |
| YOLOv8s | 420 | 2.4 |
| YOLO11s | 480 | 2.1 |
| YOLO26s | 550 | 1.8 |
与竞品模型对比
| 模型 | mAP 50-95 | FPS | 特点 |
|---|---|---|---|
| YOLO26m | 52.3 | 280 | 最佳精度效率平衡 |
| RT-DETR-H | 56.0 | 120 | Transformer架构 |
| DEIM-L | 54.8 | 150 | 改进匹配机制 |
| YOLOv13-L | 51.2 | 240 | 超图增强感知 |
量化性能(INT8)
| 模型 | FP32 mAP | INT8 mAP | 精度损失 |
|---|---|---|---|
| YOLO26n | 41.5 | 40.8 | 0.7% |
| YOLO11n | 39.5 | 38.2 | 1.3% |
| YOLOv8n | 37.3 | 35.9 | 1.4% |
YOLO26在量化后表现出最小的精度损失,验证了其架构对低比特推理的鲁棒性。
部署与应用视角
导出格式支持
| 格式 | 平台 | 量化支持 | 优化特性 |
|---|---|---|---|
| ONNX | 通用 | INT8/FP16 | 算子融合 |
| TensorRT | NVIDIA GPU | INT8/FP16 | TensorCore加速 |
| CoreML | iOS/macOS | FP16 | Neural Engine |
| TFLite | Android | INT8/FP16 | GPU委托 |
| OpenVINO | Intel CPU/GPU | INT8 | 异构执行 |
量化策略
YOLO26的简化架构使其对量化技术更为友好:
- INT8量化:推理速度提升2-3倍,内存占用减半,精度损失<1%
- FP16混合精度:精度基本无损,速度提升40-60%
- 量化感知训练:针对低比特场景的特殊优化
实际应用领域
农业领域
- 作物病虫害检测
- 果实成熟度评估
- 农业机器人导航
自动驾驶
- 行人检测
- 车辆检测
- 交通标志识别
工业制造
- 生产线缺陷检测
- 零件分拣
- 质量控制
安防监控
- 周界入侵检测
- 人脸检测
- 异常行为识别
当前挑战与未来方向
密集场景检测
当前YOLO系列在拥挤场景中仍面临挑战:
- 重叠目标的检测和分类
- 遮挡条件下的特征完整性
- 密集小目标的精确边界框
潜在解决方向:引入关系建模机制、增强特征金字塔、学习拥挤场景特定的检测策略
混合CNN-Transformer架构
CNN和Transformer各有优势,融合设计成为趋势:
- CNN捕获局部细节特征
- Transformer建模全局上下文关系
- 混合架构可能实现两者优势的结合
开放词汇检测
传统检测器受限于预定义类别集合。开放词汇检测旨在实现对任意文本描述目标的检测能力。
技术路径:结合视觉语言预训练模型(如CLIP),实现零样本目标检测
边缘感知训练
未来模型设计将更多考虑目标部署平台特性:
- 量化感知训练
- 硬件引导架构搜索
- 延迟-精度联合优化
能耗优化
边缘设备通常依赖电池供电,能耗成为关键约束:
- 动态分辨率调整
- 空闲状态功耗优化
- 任务相关的计算资源调度
总结
本综述全面梳理了Ultralytics YOLO系列从YOLOv5到YOLO26的演进历程,系统分析了各版本的架构创新和性能特点。
核心发现:
- YOLO系列持续在精度与效率平衡上取得进步,YOLO26代表当前最佳水平
- 架构简化(如DFL移除、无NMS设计)往往带来更好的部署性能
- 训练策略优化(ProgLoss、MuSGD)对最终性能贡献显著
- 量化友好性成为现代YOLO设计的核心考量
实践建议:
- 对于资源受限场景,推荐YOLO26n或YOLO11n
- 对于精度优先场景,推荐YOLO26m或YOLO26l
- 生产部署建议采用TensorRT优化配合FP16量化
展望:YOLO系列将继续演进,融合Transformer注意力机制、支持开放词汇检测、实现更智能的边缘部署优化,最终目标是构建通用、高效、实用的目标检测解决方案。
论文原图展示
以下是论文原图:
图1:Ultralytics YOLO 演进概览

图2:YOLO架构对比

图3:YOLO26 关键创新

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)