一.引言

截止2026年5月22日,YOLO主流迭代模型有YOLO、YOLOv2...YOLO11和YOLO26,一共12个模型版本。

  1. YOLO (You Only Look Once) 是一种流行的目标检测和图像分割模型,由Joseph Redmon 和Ali Farhadi在华盛顿大学开发。YOLO于2015年发布,因其高速度和高准确度而广受欢迎。
  2. YOLOv2 于2016年发布,通过引入批量归一化、锚框 (anchor boxes) 和维度聚类改进了原始模型。
  3. YOLOv3 于2018年发布,通过更高效的骨干网络、多个锚框和空间金字塔池化进一步提升了模型性能。
  4. YOLOv4 于2020年发布,引入了诸如Mosaic 数据增强、新的无锚检测头和新的损失函数等创新。
  5. YOLOv5 由Ultralytics于2026年发布,进一步提高了模型性能,并增加了超参数优化、集成实验跟踪以及自动导出到流行格式等新功能。
  6. YOLOv6 由美团于2022年开源,并应用于该公司的许多自动配送机器人中。
  7. YOLOv7 增加了额外的任务,如COCO关键点数据集上的姿态估计。
  8. YOLOv8 由Ultralytics于2023年发布,引入了新特性和改进,增强了性能、灵活性和效率,支持全方位的视觉 AI 任务。
  9. YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
  10. YOLOv10 由清华大学研究人员使用 Ultralytics Python 软件包创建,通过引入端到端检测头,消除了非极大值抑制 (NMS) 的需求,提供了实时的目标检测进展。
  11. YOLO11:由Ultralytics于2024年9月发布,YOLO11 在多项任务中展现了卓越的性能,包括目标检测、分割、姿态估计、跟踪和分类,支持在各种 AI 应用和领域中部署。
  12. YOLO26:由Ultralytics于2026年发布,针对边缘部署进行了优化,支持端到端、无需 NMS 的推理。

这些模型由不同的组织开发,其中公认最权威的发布者为Ultralytics(公司),Ultralytics可以说是视觉人工智能领域的标杆

二.YOLO模型改进方向概述

除了主流迭代模型,还有各类改进的YOLO模型,这些模型改进方向大致可以归纳几个主要类别:

  • Backbone 改进(特征提取网络)
  • Neck 改进(特征融合网络)
  • Head 改进(检测头)
  • 损失函数改进

在以下内容中,仅介绍常见的改进。

2.1.Backbone改进(特征提取网络)

主要目的是提升特征提取能力,使网络能更好地理解图像内容。

2.1.1.轻量化改进

在YOLO的Backbone中进行改进时,轻量化改进网络是指在保持较高检测精度的前提下,通过设计更高效的卷积结构,显著减少网络的参数量、计算量(FLOPs)和模型大小,从而提升推理速度、降低内存占用,使其能在资源受限平台上实时运行。

如 YOLOv4 使用 CSPDarknet53、YOLOv5/YOLOv8 使用 CSPNet 或改进的 Darknet 模块。

2.1.2.模型缩放(网络缩放)

通过系统性地调整网络深度、宽度(以及分辨率)这三个维度,从一个基础的小模型“缩放”出一系列不同大小、不同精度/速度的模型家族,如 YOLOv5系列:

模型

depth_multiple

width_multiple

效果

YOLOv5n

0.33

0.25

最浅 + 最窄

YOLOv5s

0.33

0.50

浅 + 标准宽

YOLOv5m

0.67

0.75

中深 + 中宽

YOLOv5l

1.00

1.00

基准深度 + 基准宽度

YOLOv5x

1.33

1.25

更深 + 更宽

depth_multiple:  缩放深度 → 控制模块重复次数;

width_multiple:  缩放宽度 → 控制卷积核通道数。

增加层数(纵向)→ 提升抽象能力和感受野,利于大目标;

增加通道数(横向)→ 提升特征丰富度,利于小目标。

增大两者都是提升YOLO Backbone容量的有效手段,但会降低推理速度和增大资源开销。

2.1.3.注意力机制

在没有注意力机制的普通网络中,卷积核的权重是训练好后固定不变的。无论输入图片是什么,同一个卷积核都以同样的方式提取特征。

而加上了注意力机制,网络会根据输入特征图本身的内容,动态生成一个权重图,然后用这个权重图去加权原来的特征图。

常见的注意力机制可以按“关注什么维度”分为三类:

类型

关注维度

作用

代表机制

通道注意力

哪个特征

自动学习哪些特征通道更有用。比如,在识别狗时,毛发的通道权重变高。

SE

ECA

空间注意力

哪里

自动学习输入图像上哪个位置更重要。比如,忽略背景天空,只关注地面上的车辆。

CBAM

自注意力

像素间关系

捕捉图像中任意两个像素之间的依赖关系。即使两个目标离得很远,也能建立联系。

Transformer

2.2.Neck改进(特征融合网络)

Neck 主要用于多尺度特征融合,改善检测小目标或多尺度目标的能力。常见策略:

  • FPN(Feature Pyramid Network):金字塔式多尺度特征融合。
  • PAN(Path Aggregation Network):增加自底向上的特征传递,提高定位精度。
  • BiFPN(Bidirectional FPN):双向信息流,提升特征融合效率。
  • SPP(Spatial Pyramid Pooling)/SPPF:池化不同尺寸的感受野,提高对目标尺度适应能力。

2.3.Head 改进(检测头)

Head 决定了预测框和类别的生成方式。改进方向:

  1. Anchor 改进
  1. 使用不同大小和比例的 anchors(YOLOv2、YOLOv3)
  2. 无锚框方法(YOLOv8 anchor-free)

  1. 轻量化或解耦检测头
  1.  分类与回归分开,提高训练稳定性
  2.  YOLOv7 引入 ELAN 结构优化 head

2.4.损失函数改进

目标是提升训练的收敛速度和检测精度。

  1. IoU 损失系列

IoU Loss → GIoU → DIoU → CIoU → EIoU

  1. 分类损失
  1. Focal Loss 减少正负样本不平衡
  2. BCE(Binary Cross-Entropy)或 BCEWithLogits

三.本公司模型改进

3.1.DySnakeConv

由于道路资产中包含路灯杆等细长物体,本公司模型加入了蛇形卷积(DySnakeConv)加强学习。

3.2.SCSA注意力模块

针对道路资产目标在复杂场景下易受背景干扰、特征表达不足的问题,在网络中引入 SCSA 注意力模块。该模块通过协同建模空间注意力与通道注意力,自适应增强目标区域的有效特征,突出关键结构信息,抑制无关背景噪声。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐