从 YOLOv1 到 YOLOv26 的 YOLO 家族综述 A Review of YOLO Family from YOLOv1 to YOLO26
原文地址,本文仅作翻译学习使用,如遇侵权,请联系本人删除
Original content. This article is only for translation learning purposes. If there is any infringement, please contact me to delete it.
A Review of YOLO Family from YOLOv1 to YOLO26
目录
摘要
目标检测技术构成了从自主系统到医学影像等广泛应用领域实时性能的基础。本研究分析了YOLO系列(该领域的基准方法)从最初的版本到当前YOLOv26模型的广泛架构演进。本文按时间顺序考察了主干网络(backbone)、颈部(neck)和检测头(head)组件中的结构变革。综述聚焦于关键技术里程碑,包括从基于锚框(anchor-based)到无锚框(anchor-free)系统的转变、注意力机制的集成以及损失函数的优化。此外,通过评估文献密度、数据标注工具和广泛的应用范围,本研究全面详细地考察了目标检测架构的演进逻辑和现代模型的技术框架。
关键词: 目标检测;分割;You Only Look Once;深度学习;YOLO;YOLOv12;YOLOv26
1. 引言
目标检测是当代计算机视觉系统的基础要素,特别是在需要实时性能的应用中,如自动驾驶车辆[1–3]、无人机[4–6]、安防系统[7,8]、机器人应用[9,10]和增强现实[11]。随着时间推移,人们提出了许多实时目标检测方法,根据其检测流程通常分为两个主要范式:两阶段检测器和单阶段检测器。
在两阶段模型中,检测器首先生成区域提议(region proposals),然后对这些区域进行分类和位置精修。这些方法的主要代表是基于区域的卷积神经网络(R-CNN)[12]、Fast R-CNN[13]和Faster R-CNN[14]。R-CNN每幅图像处理约2,000个区域提议,将每个提议单独输入CNN进行特征提取和分类[15]。尽管精度很高,但为每个候选区域运行CNN速度很慢且计算成本高昂。相比之下,Fast R-CNN通过将图像一次性输入CNN生成共享的特征图,然后使用感兴趣区域(RoI)池化从该特征图中提取所有候选区域。虽然Fast R-CNN因为CNN只运行一次而显著快于R-CNN,但它仍然依赖选择性搜索算法(Selective Search),这仍然是主要的计算瓶颈。
Faster R-CNN通过使用区域提议网络(RPN)代替选择性搜索(这是Fast R-CNN的主要瓶颈),使网络能够直接生成区域提议。通过这种方式,该方法在速度和精度上都提供了显著改进。然而,由于架构复杂且存在区域提议阶段,模型的推理速度往往仍不足以满足实时需求。
为克服这些限制,单阶段目标检测方法应运而生。这些方法完全消除了区域提议步骤,在单一阶段内完成分类和定位。在单阶段方法中,YOLO(You Only Look Once)家族因其在速度和精度之间的平衡而成为最有效和最广泛使用的方法之一。YOLO将检测公式化为单一回归问题,通过统一的前向传播实现实时推理。随着时间推移,YOLO家族通过架构优化、更强大的主干网络、改进的特征融合机制和优化的训练策略,逐步演进到更先进的框架[16]。图1展示了从YOLOv1到YOLOv26的YOLO家族时间演进。
图1. 从YOLOv1到YOLOv26的YOLO家族时间演进。
在文献中,有各种综述研究考察了YOLO家族多年来的演进。Vijayakumar等人[17]进行的评估涵盖了从YOLO第一个版本到YOLOv8的开发过程,但主要概述了高层差异,缺乏深入的架构或组件级分析。然而,该研究未包含YOLOv8之后发布的较新版本,因此排除了与YOLO家族当前版本相关的开发进展。Jiang等人[18]仅聚焦于YOLOv2到YOLOv5,分析了引用统计和网络搜索频率等趋势,但该研究未深入探讨架构结构、模块变化或设计动机等技术方面。同样,Terven等人[19]和Hussain[20]的工作提供了从YOLOv1到YOLOv8的概述,但主要仍是对现有特征的描述性汇编。此外,这些研究均未涵盖从YOLOv8到YOLOv26的较新版本,在全面的架构和优化导向评估方面留下了明显空白。在本综述中,我们通过考察YOLO的所有版本——从YOLOv1到最新的YOLOv26——来弥补这一空白,包括其架构设计原则、核心组件、特征融合策略、损失函数、优势和局限性。
2. 背景
2.1 数据标注工具
数据标注是核心步骤,需要确定每个物体的位置和类别,以便模型能够正确识别图像中的物体。在此过程中,使用标注工具以矩形边界框的形式标记图像中的物体,并为每个框分配相关类别。YOLO以单行文本格式表示每个物体;包含物体的类别ID、边界框中心坐标以及框的归一化宽度和高度值。标注完成后,为每张图像创建同名.txt文件,包含描述该图像中所有物体的行[21]。然后将数据集分割为训练子集和验证子集,以符合YOLO期望的标准结构。准确一致的标注直接影响模型性能;因此,框必须完全涵盖物体,类别标签必须一致使用,特别是小物体需要仔细标注[22]。在这方面,许多现代标注工具已被开发出来,以简化和加速数据标注过程。表1提供了文献中常用的数据标注平台的来源和关键特性总结。
表1. 用于基于YOLO的目标检测的常用数据标注平台
表格
| 参考文献 | 标注平台 | 规格/关键特性 |
|---|---|---|
| [23] | LabelImg | 基于桌面、开源工具。轻量且易于使用。快速的手动边界框标注。 |
| [24] | LabelMe | 基于网页、支持桌面。支持多边形和边界框标注。 |
| [25] | CVAT | 基于网页的企业级工具,由Intel开发。支持视频标注、插值和自动标注。 |
| [26] | Roboflow | 基于云的平台。强大的自动标注、增强工具和数据集版本控制。 |
| [27] | Label Studio | 基于网页且集成代码。高度灵活,可为多模态数据集定制模板。 |
| [28] | Supervisely | 工业级平台。为大型团队提供高级协作和项目管理。 |
| [29] | VoTT | 基于桌面。简洁的用户界面,适用于离线环境下的快速边界框标注。 |
表1显示,标注平台根据其预期用途而有所不同。LabelImg和VoTT因其简单的结构足以满足个人或小规模项目需求,而Roboflow和Supervisely则因其自动标注和基于云的管理功能更适合大型数据集。CVAT因其高级视频标注功能和基于网页的工作流程,在学术和企业项目中经常被优先选用。另一方面,LabelMe和LabelStudio因其多格式输出支持和灵活的标注选项,在不同数据类型的研究项目中具有优势。
2.2 基准数据集
文献中已有许多预先标注好的基准数据集。这些数据集能够在相同数据上评估不同架构,确保以公平、可重复和客观的方式比较模型性能。由于它们提供不同的分辨率、物体密度和场景多样性,因此在测量新方法的泛化能力方面也经常被优先选用。表2总结了基本基准数据集。
表2. 基于YOLO的目标检测中广泛使用的基准数据集,按领域分类
表格
| 类别 | 参考文献 | 数据集 | 描述 |
|---|---|---|---|
| 通用目标检测 | [30] | PASCAL VOC | 20个类别,10k图像。在自然场景中捕捉的通用物体类别。 |
| [31] | COCO | 91个类别,328k+标注图像。具有密集、多实例物体分布的复杂自然场景。 | |
| [32] | OID | 600+类别,920万图像。涵盖自然、人造和上下文元素的广泛物体类别。 | |
| [33] | Objects365 | 365个类别,600k+图像。在多样环境中捕捉的大规模通用物体。 | |
| 自动驾驶 | [34] | BDD100K | 10个类别,100k图像。在不同环境、时间和地理条件下的驾驶场景。 |
| 航拍 | [35] | VisDrone | 10个类别,10k+图像。包含小而密集物体的无人机拍摄的城市和郊区场景。 |
| [36] | UAVDT | 14种属性,80k+视频帧。专注于车辆和交通场景的基于无人机的监控序列。 | |
| 以人为中心 | [37] | CrowdHuman | 1个类别(人),15k图像。具有广泛遮挡的高度拥挤行人场景。 |
| [38] | WIDER FACE | 1个类别(脸),32k图像/393k张脸。在尺度、姿态和遮挡方面具有显著变化性的面部。 | |
| 医学 | [39] | DeepLesion | 1个类别(病变区域),32k+ CT切片。包含多器官病变的临床收集CT扫描。 |
表2显示,基准数据集提供了适应不同问题领域的广泛多样性。通用目标检测、自动驾驶、航拍和无人机影像,以及以人或健康为中心的数据集在分辨率、物体密度、类别数量和场景复杂性方面存在显著差异。这种多样性使得能够评估模型在广泛条件下的性能一致性,而非局限于单一场景。
特别是,包含大量类别、密集或小物体或严重遮挡的数据集为评估模型的泛化能力和在挑战性场景中区分物体的能力提供了严格的测试环境。因此,全面的基准数据集在准确识别潜在的过拟合或欠拟合问题以及实现模型间公平、可重复和客观比较方面发挥着关键作用。
2.3 数据增强技术
为提高基于深度学习的目标检测框架的鲁棒性,数据增强技术被用于系统性地改变图像的色度和几何特性,确保在多变的真实环境中具有更好的泛化能力。在现有文献中,色调、饱和度和曝光(亮度)变化是最普遍的基于颜色的增强策略。
具体而言,色调偏移随机调整图像的光谱以考虑不同照明源引起的光谱变化,这对室外场景分析至关重要。饱和度修改改变颜色的强度,以复制各种大气条件和传感器配置的效果。此外,亮度调整调节场景的全局照明,模拟极端光照条件(如深阴影或高曝光),从而增强模型的稳定性。图2提供了这些基于颜色的增强技术的视觉表示。
图2. 基于颜色的增强技术。
关于基于几何变换的数据增强技术,最常用的是旋转、缩放和剪切。旋转过程通过在特定角度范围内随机旋转图像来代表物体可能出现在不同方向的现实场景;因此,它增强了对倾斜相机角度或移动平台的鲁棒性。缩放通过随机放大或缩小来模拟不同距离,促进对小和大物体的准确检测。剪切在图像中创建线性变形,以模拟倾斜相机位置或离轴视角引起的畸变。这些变换的代表性视觉效果也在图3中提供。
图3. 几何增强技术,包括旋转、缩放和剪切变换。
数据增强中采用的另一种方法是基于补丁(patch-based)的方法。Mixup通过以特定比例混合两幅图像及其对应标签生成中间样本,从而平滑决策边界并为模型提供额外的抗过拟合泛化能力。CutMix基于从一幅图像裁剪随机矩形区域并粘贴到另一幅图像上的原理;这特别有助于对物体存在遮挡的复杂场景进行真实建模。Copy-Paste方法通过从一幅图像提取由分割掩码定义的物体并将其粘贴到另一幅图像中。这种方法通过人工增加稀有类别的数量来减少类别不平衡,并使模型能够更好地学习不同情境中的物体。这些变换的代表性视觉效果也在图4中提供。
图4. 基于补丁的增强策略:Mixup、CutMix和Copy-Paste技术。
2.4 性能评估指标
只有当一致应用文献中广泛接受的这些指标时,目标检测模型才能在精度、速度和计算成本方面进行公平比较。因此,交并比(IoU)、平均精度(AP)、平均精度均值(mAP)、每秒帧数(FPS)和浮点运算次数(FLOPs)等基本性能指标在目标检测研究中起着关键作用。IoU衡量预测边界框与真实边界框之间的重叠比率。IoU定义为两个框交集面积与并集面积的比率。其数学定义如公式1所示,图5也提供了视觉解释,显示了预测框与真实框在示例物体上的交集和并集区域,说明了IoU的计算方法。
IoU=∣Bpred∪Bgt∣∣Bpred∩Bgt∣(1)
图5. IoU指标的可视化表示,显示预测边界框与真实边界框之间的重叠。
如图5所示,IoU的范围在0到1之间,当它接近1时,模型的定位精度增加。在目标检测中,如果IoU超过某个阈值,预测通常被视为真正例(TP)。由于IoU独立于物体分类错误来评估定位错误,因此它被用作包括现代YOLO版本在内的所有目标检测模型性能分析的基础基线指标。
目标检测模型可以为同一物体生成多个边界框,因为网络在特征图的众多位置和尺度上产生预测。这种情况导致单个物体的冗余检测,特别是源于高分辨率层的密集预测。因此,需要后处理阶段来精修预测结果并仅选择最准确的边界框。这个阶段主要使用NMS(非极大值抑制)执行,这是文献中最广泛采用的方法[1]。
NMS首先根据模型生成的所有候选框的置信度分数对其进行排序。初始选择分数最高的框,然后丢弃与选定框交并比(IoU)相似度超过预定义阈值的其它框(即那些显著重叠的框)。因此,同一物体的冗余预测被抑制,仅保留最具代表性的框。这一过程迭代进行直到没有框剩余。
IoU阈值的选择直接影响NMS性能:
-
高IoU阈值:可能导致将不同的、紧密相邻的物体合并。
-
低IoU阈值:可能导致保留对同一物体的多个预测,从而增加假正例(FP)率。
因此,NMS在目标检测中关于精度和输出质量都是一个关键组件。尽管在较新的模型(如YOLOv10)中已开发出无需NMS的训练策略以消除对NMS的需求,但它仍然是许多现代检测器的基础组件。
算法1 非极大值抑制算法
plain
复制
输入:
B:预测边界框列表
S:对应的置信度分数
T:IoU阈值(例如0.5)
输出:
D:抑制后最终选定的框集合
过程:
按置信度分数S降序排列所有边界框B。
D ← ∅
当B不为空时:
选择置信度分数最高的bi
D ← D ∪ {bi}
从B中移除bi
对于B中剩余的每个框bj:
如果IoU(bi, bj) > T:
从B中移除bj
结束如果
结束对于
结束当
返回D
精度表示模型正向预测的准确率,衡量假正例(FP)对性能的影响。换句话说,精度显示了模型检测到的物体中有多少是正确的。如公式2所示,精度值在需要减少错误检测的关键应用中尤为重要。
Precision=TP+FPTP(2)
召回率表示模型捕获真实物体的比率。召回率是真正例与所有真实正例的比率,衡量模型漏检物体(FN)的倾向。其计算如公式3所定义。
Recall=TP+FNTP(3)
精度和召回率通常呈反比关系;因此,使用精度-召回率(PR)曲线来评估模型的整体性能。PR曲线是在不同阈值下获得的精度和召回率值的图形表示,曲线下面积的大小表示模型更加平衡和成功。从该曲线导出的AP指标表示特定IoU阈值下PR曲线的面积。公式4显示了AP指标的数学公式。为所有类别计算的AP值的平均值称为mAP。
AP=∫01p(r)dr(4)
除了模型精度外,每秒帧数(FPS)指标对实时应用需求至关重要。FPS表示模型每秒可处理的图像数量。它使用公式5中的公式计算。
FPS=Tinference1(5)
在公式5中,Tinference 参数是处理单幅图像所需的总推理时间(以秒为单位)。定量表达模型计算负载的FLOPs指标,衡量前向传播期间执行的浮点运算总数。FLOPs取决于模型和层类型,对于卷积层,其计算如公式6所示。
FLOPs=2×H×W×(Cin×K2+1)×Cout(6)
在公式6中,H 、W 和Cout 分别表示输出特征图的高度、宽度和通道数;K 表示滤波器大小;Cin 表示输入通道数。另一个重要指标——参数量,指模型中可学习权重的总数。参数量在模型大小和硬件需求方面尤为重要,其公式在公式7中给出。
Parameters=∑i=1L(wi+bi)(7)
wi 是第i 层的权重参数,bi 是偏置参数,L 是总层数。随着参数量减少,模型的内存需求减少;随着参数量增加,精度通常提高,但计算成本也增加。
3. YOLO家族的演进
本节提供从YOLOv1到YOLOv26的YOLO家族演进的技术性概述。对于每次迭代,考察主要架构修改、主干网络、颈部和头部结构的演进,以及驱动这些变化的设计目标。本文目的不是深入详尽的算法推导,而是在清晰的比较框架内展示模型在表示能力、多尺度特征处理和检测效率方面如何逐步进步。
3.1 YOLOv1
YOLOv1由Joseph Redmon等人于2015年提出[40],并在IEEE CVPR会议上发表。它被认为是首批为目标检测引入单阶段和实时方法的方法之一。在以前的方法中,目标检测是一个多阶段过程,涉及区域提议、分类和回归等独立步骤的组合。
该模型将输入图像划分为S×S 网格。在此设置中,每个网格单元负责检测中心落在其自身区域内的物体。这些预测由深度CNN架构生成,其详细配置在表3中给出。该架构由24个卷积层后跟两个全连接层组成,从图像中提取多尺度特征。然后这些特征图被传递到全连接层,计算边界框坐标和类别概率。整体检测过程如图6所示。
图6. YOLOv1检测流程概述:基于网格的边界框和类别概率预测,后接NMS以产生最终检测[40]。
表3. YOLOv1模型中使用的骨干CNN的详细结构
表格
| 重复 | 类型 | 滤波器 | 尺寸/步幅 | 输出 |
|---|---|---|---|---|
| 1× | Conv | 64 | 7×7/2 | 224×224 |
| - | MaxPool | - | 2×2/2 | 112×112 |
| - | Conv | 192 | 3×3/1 | 112×112 |
| - | MaxPool | - | 2×2/2 | 56×56 |
| 1× | Conv | 128 | 1×1/1 | 56×56 |
| Conv | 256 | 3×3/1 | 56×56 | |
| Conv | 256 | 1×1/1 | 56×56 | |
| Conv | 512 | 3×3/1 | 56×56 | |
| - | MaxPool | - | 2×2/2 | 28×28 |
| 4× | Conv | 256 | 1×1/1 | 28×28 |
| Conv | 512 | 3×3/1 | 28×28 | |
| - | Conv | 512 | 1×1/1 | 28×28 |
| - | Conv | 1024 | 3×3/1 | 28×28 |
| - | MaxPool | - | 2×2/2 | 14×14 |
| 2× | Conv | 512 | 1×1/1 | 14×14 |
| Conv | 1024 | 3×3/1 | 14×14 | |
| - | Conv | 1024 | 3×3/1 | 14×14 |
| - | Conv | 1024 | 3×3/2 | 7×7 |
| - | Conv | 1024 | 3×3/1 | 7×7 |
| - | Conv | 1024 | 3×3/1 | 7×7 |
| - | FC | - | 4096 | 4096 |
| - | Dropout(0.5) | - | - | 4096 |
| - | FC | - | 7×7×30 | 1470(7×7×30) |
作为这一过程的结果,模型为每个单元生成独立于B 个类别的边界框,并计算这些框的中心坐标(x,y) 、宽度-高度值(w,h) 和置信度分数。置信度分数包括单元中存在物体的概率以及代表预测框与真实物体重叠比率的IoU值。
模型产生的信息为整幅图像创建了一个大小为S×S×(B×5+C) 的单一输出张量。由于可以为同一物体生成多个框,因此应用NMS以消除冗余和重叠的框。NMS通过保留具有高IoU的重叠框中置信度分数最高的边界框,确保获得最终检测结果。YOLOv1训练中使用的损失函数具有多组件结构,因为模型同时进行位置回归、类别概率估计和物体存在预测。该函数是一个组合误差指标,如原始工作所提出的,将位置预测误差、边界框置信度分数和类别概率作为平方和聚合。因此,模型在单一优化框架内同时学习正确分类和正确定位。YOLOv1的完整损失函数如公式8所定义。
L=λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2] +λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2] +∑i=0S2∑j=0B1ijobj(Ci−C^i)2 +λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2 +∑i=0S21iobj∑c=0C(pi(c)−p^i(c))2(8)
在此公式中,1ijobj 表示对应网格单元中的第j 个框包含物体,而1ijnoobj 表示该框中没有物体。为确保给予位置误差更高重要性,λcoord 设置为5,为防止无物体区域的过度惩罚对模型产生负面影响,λnoobj 设置为0.5。对宽度(w )和高度(h )误差使用平方根差而非平方差,防止大框比小框贡献更多误差,确保模型稳定学习。
与当时的目标检测方法相比,YOLOv1实现了显著更高的速度和精度。该模型在PASCAL VOC 2007数据集上达到63.4 mAP,以约45 FPS运行,表现出适合实时系统的性能。轻量版Fast YOLO达到155 FPS,在速度方面优于当时所有竞争对手。尽管取得成功,但由于其结构设计,YOLOv1存在一定局限性。要求每个网格单元最多分配一个类别和两个边界框预测的要求带来挑战,特别是在检测彼此非常接近的小物体时。因此,模型经常错过鸟群或拥挤场景中小物体等密集区域的物体。此外,由于YOLOv1直接从数据中学习物体的长宽比,它无法轻松适应训练中未遇到的异常形状或尺寸。最后,使用的损失函数以相同方式评估小框和大框的误差,使得准确定位小物体变得更加困难。
3.2 YOLOv2
YOLOv2,也称为YOLO9000,由Joseph Redmon和Ali Farhadi于2016年底提出[41],并在2017年的计算机视觉与模式识别(CVPR)会议上发表。YOLOv2的开发旨在提高精度同时保持YOLOv1的速度优势。该版本的创新集中在架构层面和训练策略上。YOLOv2最显著的变化之一是使用Darknet-19架构作为主干网络。Darknet-19通过系统性地使用3×3和1×1卷积层以及添加批归一化(Batch Normalization)技术,成为一个更深、更鲁棒的模型。因此,该模型在高分辨率图像上获得了更强的表示能力。架构细节在表4中提供。
表4. YOLOv2中使用的Darknet-19主干网络的详细结构
表格
| 类型 | 滤波器 | 尺寸/步幅 | 输出 |
|---|---|---|---|
| Conv/BN | 32 | 3×3/1 | 416×416×32 |
| MaxPool | - | 2×2/2 | 208×208×32 |
| Conv/BN | 64 | 3×3/1 | 208×208×64 |
| MaxPool | - | 2×2/2 | 104×104×64 |
| Conv/BN | 128 | 3×3/1 | 104×104×128 |
| Conv/BN | 64 | 1×1/1 | 104×104×64 |
| Conv/BN | 128 | 3×3/1 | 104×104×128 |
| MaxPool | - | 2×2/2 | 52×52×128 |
| Conv/BN | 256 | 3×3/1 | 52×52×256 |
| Conv/BN | 128 | 1×1/1 | 52×52×128 |
| Conv/BN | 256 | 3×3/1 | 52×52×256 |
| MaxPool | - | 2×2/2 | 26×26×256 |
| Conv/BN | 512 | 3×3/1 | 26×26×512 |
| Conv/BN | 256 | 1×1/1 | 26×26×256 |
| Conv/BN | 512 | 3×3/1 | 26×26×512 |
| Conv/BN | 256 | 1×1/1 | 26×26×256 |
| Conv/BN | 512 | 3×3/1 | 26×26×512 |
| MaxPool | - | 2×2/2 | 13×13×512 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Conv/BN | 512 | 1×1/1 | 13×13×512 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Conv/BN | 512 | 1×1/1 | 13×13×512 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Reorg(层17) | - | - | 13×13×2048 |
| Concat | - | - | 13×13×3072 |
| Conv/BN | 1024 | 3×3/1 | 13×13×1024 |
| Conv | 125 | 1×1/1 | 13×13×125 |
YOLOv2还利用锚框(anchor boxes)方法来提高边界框预测的精度。受R-CNN家族启发,这种方法使模型能够适应不同尺度和长宽比的物体。在此背景下,YOLOv2采用直接位置预测策略,每个锚框被预测为相对于其自身网格单元的位置,而非为锚框生成直接且无限制的偏移。为此,使用sigmoid激活将框中心坐标保持在网格单元边界内,而宽度和高度通过指数缩放锚框尺寸获得。因此,预测的参数(tx,ty,tw,th) 与网格单元(cx,cy) 和锚框尺寸(pw,ph) 结合,使用公式9计算最终框坐标,使用公式10计算物体概率。这种方法在图7中可视化,方程也一并表示。
bx=σ(tx)+cx by=σ(ty)+cy bw=pwetw bh=pheth Pr(object)×IOU(b,object)=σ(to)(9,10)
图7. 具有预定义锚框尺寸和约束位置预测的边界框[41]。
YOLOv2中引入的另一项重要创新是高分辨率分类器(High-Resolution Classifier)技术。该模型确保通过在448×448分辨率图像而非训练早期阶段的低分辨率图像上进行预训练,学习更高级的特征。作为这些创新的结果,YOLOv2在VOC2007上达到76.8 mAP,相比YOLOv1提供了显著的精度提升。此外,在实时中保持约40 FPS,使YOLOv2成为工业和学术背景下高效的解决方案。
3.3 YOLOv3
YOLOv3于2018年由Joseph Redmon和Ali Farhadi作为YOLOv2之后的YOLO家族下一个里程碑引入[42]。随着YOLOv3的引入,YOLO架构采用了由三个层组成的结构:主干网络、颈部和检测头。主干网络、颈部和检测头层的架构设计在图8中示意性展示。主干网络是模型的脊柱,从输入图像中提取独特特征。在此阶段,早期层捕获边缘和纹理等基本特征,而更深层层生成物体特定的、更抽象和语义化的表示。因此,获得了形成目标检测过程基础的分层特征集。
图8. 基于YOLO的目标检测器的主干-颈部-头部架构。
颈部是一个中间模块,重组和丰富从主干网络获得的特征图。它通常包含特征金字塔网络(FPN)、PAN或额外的卷积块。颈部结构改善了空间分辨率和语义一致性,使检测头层能够被馈送更强大和具有代表性的特征集。检测头是网络中产生输出的层,预测物体类别和框位置。它使用颈部处理的特征为每个候选区域生成分类和回归输出。在此阶段后,应用标准过滤方法(如NMS)以消除冗余或过度重叠的预测,并选择最可能的物体检测。从本节开始,YOLO家族的架构按照主干-颈部-头部结构进行解释。
在YOLOv3中,该架构配置为基于Darknet-53的主干网络、多尺度颈部和三尺度检测头。YOLOv3架构的整体结构如图9所示。以下小节详细讨论YOLOv3的基本组件。
图9. YOLOv3示意图。
3.3.1 YOLOv3主干网络
作为YOLOv3模型主干网络的Darknet-53是一个完全由1×1和3×3卷积层组成的特征提取网络,总深度为53层。与先前版本中使用的Darknet-19相比,它具有更强的表示能力。Darknet-53最重要的特征之一是在架构的每个阶段使用残差单元(residual units)。残差单元由CBL→CBL→add结构组成,通过提供输入和输出之间的跳跃连接防止梯度消失。它使深度网络能够更稳定地训练。主干网络中相继跟随的RES1、RES8和RES4块是这些残差连接重复不同次数的结构(见表5)。Darknet-53的另一个显著方面是完全移除了经典卷积网络中常用的最大池化层(max-pooling layers)。如示意图所示,下采样仅使用步幅CBL(卷积+BN+leaky ReLU)块执行。它更好地保留空间信息并降低计算成本。主干网络从输入图像开始生成三个基本特征图,尺寸分别为52×52、26×26和13×13。最高分辨率的图承载小物体的细节,而最深的13×13图包含高级语义信息。因此,在保持自YOLOv1以来保留的速度优势的同时,在精度方面取得了显著进步。
表5. YOLOv3中使用的Darknet-53主干网络的详细结构
表格
| 重复 | 类型 | 滤波器 | 尺寸/步幅 | 输出 |
|---|---|---|---|---|
| - | Conv | 32 | 3×3 | 416×416 |
| - | Conv | 64 | 3×3/2 | 208×208 |
| 1× | Conv | 32 | 1×1 | |
| Conv | 64 | 3×3 | ||
| Residual | - | - | 208×208 | |
| - | Conv | 128 | 3×3/2 | 104×104 |
| 2× | Conv | 64 | 1×1 | |
| Conv | 128 | 3×3 | ||
| Residual | - | - | 104×104 | |
| - | Conv | 256 | 3×3/2 | 52×52 |
| 8× | Conv | 128 | 1×1 | |
| Conv | 256 | 3×3 | ||
| Residual | - | - | 52×52 | |
| - | Conv | 512 | 3×3/2 | 26×26 |
| 8× | Conv | 256 | 1×1 | |
| Conv | 512 | 3×3 | ||
| Residual | - | - | 26×26 | |
| - | Conv | 1024 | 3×3/2 | 13×13 |
| 4× | Conv | 512 | 1×1 | |
| Conv | 1024 | 3×3 | ||
| Residual | - | - | 13×13 | |
| - | AvgPool | - | 1000 | - |
| - | Softmax | - | - | - |
3.3.2 YOLOv3颈部
主干网络产生的尺寸为52×52、26×26和13×13的多尺度特征图在颈部组件(图中用红色、粉色和黄色块表示)中进行处理,以实现更一致和增强的表示。颈部的主要目标是将深层获得的语义信息转移到高分辨率层而不丢失空间细节。在此背景下,首先将13×13深度特征图通过CBL块,然后用上采样块(up block)上采样到26×26。这个上采样图与主干网络中层的26×26特征图拼接(concatenated)。在此组合之后,结构通过CBL×5块重新处理,在语义和空间上创建更平衡的表示。然后,重复相同过程将26×26表示转移到52×52层;在此阶段,来自主干网络早期层的高分辨率边缘和纹理信息与整个推导过程中携带的语义信息融合。这种跨尺度转移机制在检测小物体方面提供了显著优势,并使三个不同分辨率的特征图一致地转移到检测头部分。
3.3.3 YOLOv3检测头
YOLOv3的检测头部分直接将颈部缩放的三个特征图转换为物体检测输出。每个尺度(52×52、26×26和13×13)都有一个预测层,每个尺度使用三个不同的锚框;因此,在总共九个锚框上做出物体位置、大小、物体概率和类别预测。高分辨率的52×52图适合检测小物体;26×26尺度更均匀地表示中等大小物体,而13×13尺度凭借其宽广的空间上下文可靠地检测大物体。检测头部分的关键创新之一是在类别预测时使用独立的逻辑(sigmoid)分类,而非像先前版本那样使用softmax。这种方法在类别标签可能重叠的情况下提供更灵活的建模,并提供更稳定的训练过程。此外,直到预测层为止执行的所有处理步骤——CBL块、上采样、拼接操作、多个CBL×5结构——在图中详细显示,形成功能整体。因此,YOLOv3成为一个强大的多尺度检测器,能够以高精度同时检测不同大小的物体。
3.4 YOLOv4
随着YOLOv3出现的主干-颈部-头部架构,在YOLOv4[43]引入后,在文献中被进一步形式化为标准化框架。
3.4.1 YOLOv4主干网络
YOLOv4中使用的CSPDarknet53是一个特征提取器,凭借其深层结构和宽广的感受野容量,为目标检测提供高表示能力。架构在输入后应用CBM(卷积-BN-Mish)块开始,然后通过属于CSP架构的CSP1、CSP2、CSP8和CSP4块逐步深化(图10)。CSP块将特征图分成两个分支然后重新组合,既提供参数效率又有助于更稳定的梯度流。每个CSP块内的残差单元(Res Unit)结构是由两个CBM块连接形成的更深表示单元,帮助模型在保留低层细节的同时处理高级语义信息。Mish激活函数作为激活函数使用,确保梯度流以平滑连续的方式传输,增加学习过程的稳定性并强化提取特征的表示能力。主干网络最后阶段的CBL×3 + SPP + CBL×3序列结合不同核大小的最大池化操作,在不增加计算成本的情况下扩展感受野。空间金字塔池化(SPP)结构特别丰富上下文信息,帮助模型更成功地表示大且复杂的物体。得益于这些集成组件,主干网络构成了YOLOv4性能的基础,成为一个强大而高效的特征提取器。
图10. YOLOv4架构示意图。
3.4.2 YOLOv4颈部
从主干网络获得的特征图在颈部部分进行组织,用于多尺度池化和信息转移。在此阶段,使用拼接(Concat)操作和CBL + Up2D块来组合高分辨率特征与深层特征。颈部各处的CBL×5块实现对不同分辨率级别特征的再处理,并创建更详细的表示。使用Up2D执行的上采样操作允许语义丰富的低分辨率特征转移到高分辨率,而拼接结构将此信息与来自主干网络的详细特征结合。因此,小物体的细节被保留,大物体所需的语义信息被集成。颈部部分的基本优势在于能够在不产生速度损失的情况下执行这种多层信息融合;CBL块对特征进行归一化并高效转换,而拼接-Up2D流确保来自不同尺度的信息被组合成一致的表示。此外,代表注意力机制的轻量级配置在此部分优化特征处理,而不产生不必要的计算开销。
3.4.3 YOLOv4检测头
模型的检测头部分通过并行产生三个不同输出来执行多尺度目标检测。该结构通过使用CBL×5块重新处理来自颈部的每个特征图,然后用CBL + Conv2D 1×1层创建最终检测图(图10)。生成的输出尺寸分别为52×52×N、26×26×N和13×13×N,其中N表示用类别和坐标预测扩展的锚框数量的总通道数。在此基于锚框的方法中,模型在每个尺度的三个锚框上预测类别概率、物体分数和边界框值。边界框回归中使用的CIoU损失通过不仅优化重叠量还优化框中心之间的距离和长宽比匹配,创建更快更稳定的学习过程。在预测过滤阶段应用DIoU-NMS,该方法通过考虑框的中心距离,在密集物体区域提供更准确的选择。各种增强和数据增强技术,如CmBN、DropBlock、自对抗训练(Self-Adversarial Training)和Mosaic,用于在训练过程中支持检测头。当所有这些组件协同工作时,检测头结构在高精度、快速收敛和适应多尺度物体分布方面表现出强大性能。
3.5 YOLOv5
YOLOv5由Ultralytics开发,作为面向生产的框架而非正式学术研究,标志着向PyTorch生态系统的重大转变。该架构利用基于CSP的主干网络和基于PANet的颈部,提供从Nano到XLarge的可扩展模型范围,以平衡推理速度和精度[?]。
3.5.1 YOLOv5主干网络
主干网络由连续的卷积层组成,将640×640像素的输入图像转换为分辨率逐渐降低但通道大小增加的表示。在主干网络的第一阶段,3×3卷积提取高分辨率边缘、纹理和局部结构信息。CBS(卷积-BN-SiLU)块是YOLOv5的构建块,确保卷积后激活使用饱和函数(SiLU)执行;该激活的导数连续性增加了基于梯度的反向传播的稳定性。C3块在更深层发挥作用。C3块是CSPNet架构的实现,将输入特征图分成两个分支:一个直接传递,另一个通过一个或多个瓶颈(CBS→CBS)块传递。如论文所述,这种分流信息减少了梯度重复,增加参数效率,并缓解深度网络中的梯度消失问题。在C3末端,这两个路径通过拼接(concat)操作沿通道轴合并,将全局和局部特征混合成单一表示。SPPF(空间金字塔池化-快速)模块是一个池化结构,旨在不增加计算成本的情况下扩展YOLOv5的感受野。与传统SPP使用的大核池化层不同,SPPF由依次应用的最大池化操作组成:5×5→9×9→13×13。这三个池化层依次应用于彼此的输出,最终产生不同尺度的空间上下文信息。此外,由于所有操作都建立在5×5池化之上,与经典SPP相比计算成本显著降低(图11)。因此,SPPF创建了一个既高效又提供宽广感受野的快速金字塔池化机制。
图11. YOLOv5架构示意图。
3.5.2 YOLOv5颈部
颈部层使用基于PANet的架构组合来自主干网络三个不同分辨率级别的特征图。PANet的主要目标是通过创建自上而下和自下而上的信息流来增强小物体检测,与仅提供自上而下信息流的FPN不同。在YOLOv5中,来自深层低分辨率的特征图首先被2×上采样以增加其空间维度。这些上采样图与主干网络更高分辨率的C3输出拼接。拼接使通道维度翻倍,将细粒度细节信息和深层语义上下文合并到同一张量中。然后这个组合张量再次通过CBS和C3块,将其转换为高维且有意义的特征集。在颈部的第二阶段,应用PANet的"自下而上路径增强"逻辑。在此阶段,中等分辨率的组合特征图再次被2×下采样并与更深层层的C3输出合并。因此,颈部为三个不同尺度生成具有高度语义丰富性的多级特征图。如论文所强调的,与BiFPN、NAS-FPN和ASFF等替代融合方法相比,这种基于PA-Net的结构为YOLO架构提供了更兼容的计算/性能平衡。
3.5.3 YOLOv5检测头
检测头组件使用在三个不同分辨率生成的特征图执行基于锚框的预测。每个检测层使用三个不同的锚框预测位置(x,y,w,h)、物体性和类别概率。此输出为每个网格单元创建大小为(5+N)×3 的张量,其中5代表x、y、w、h和物体性值,N代表类别数量。坐标计算为相对于锚框的预测偏移,并使用sigmoid + 指数变换归一化。输出使用论文描述的三组件损失函数进行优化:类别和物体性使用BCE损失,位置预测使用基于IoU的CIoU损失。CIoU提供比经典IoU和GIoU更稳定的收敛,因为它不仅考虑交集面积还考虑中心距离和长宽比匹配。锚框本身使用K-Means + 遗传算法针对数据集进行优化;这种机制使模型能够更快地适应不同数据集。通过结合这三个组件,YOLOv5创建了三个并行检测头:高分辨率专用于小物体,中等分辨率用于中等大小物体,低分辨率用于大物体。在评估主干网络的CSP基础梯度效率、通过PANet增强的多尺度颈部融合以及检测头的优化锚框-CIoU基础预测时,YOLOv5脱颖而出,成为一个能够在实时运行并在COCO等挑战性数据集上实现高mAP分数的现代目标检测架构。
3.6 YOLOv6
美团视觉AI部门于2022年9月推出YOLOv6[44]。这个下一代目标检测框架被提出为专门针对工业应用优化的高性能解决方案。与先前的YOLO版本不同,YOLOv6旨在在各种硬件平台上建立推理速度和精度之间的最佳平衡。为此,诸如可重参数化主干网络、解耦头设计和无锚框检测策略等先进技术被集成到模型中。通过聚焦于硬件友好结构和高效训练协议,YOLOv6提供可扩展架构,既满足实时操作需求又适应大规模工业场景。
3.6.1 YOLOv6主干网络
YOLOv6的主干网络架构基于在训练和推理阶段表现不同的可重参数化架构。小型模型使用的EfficientRep主干网络利用训练期间多分支RepVGG块提供的高表示能力。如图12所示,这些分支由RepConv和RepBlock结构组成。在推理期间,不必要的分支被移除,这些路径在数学上折叠成单一的3×3卷积核,创建一个简单、高度并行且轻量的结构。这种转换通过减少GPU上的内存访问成本提供速度优势。在主干网络末端,集成SimSPP(简化空间金字塔池化)块以增强感受野。EfficientRep对大规模模型不足,因为单路径架构呈指数增加参数量。因此,YOLOv6-M和YOLOv6-L模型使用CSPStackRep主干网络。在CSPStackRep内,1×1卷积执行通道转换;3×3 RepConv对使用跳跃连接保留现有特征的同时增加深度。
图12. YOLOv6架构示意图。
3.6.2 YOLOv6颈部
YOLOv6的颈部部分基于Rep-PAN,这是一种组合不同分辨率特征图的PANet基础架构。如示意图所示,该结构使用上采样(Upsample)和拼接(Concat)层促进自上而下和自下而上的流动,将低层精细细节与高层语义信息的强信号结合。这种双向信息流能够更好地检测小物体。颈部使用的核心块根据模型大小为RepBlock或CSPStackRep块。使用RepBlock时,计算主要依赖于简单快速的3×3卷积,而CSPStackRep通过CSP路径路由部分特征防止冗余学习。该架构通过三级FPN-PAN组合产生8×、16×和32×尺度的特征图。
3.6.3 YOLOv6检测头
模型的检测头设计使用完全解耦的头,不同于YOLOv5中的耦合头结构。在此设计中,分类和回归任务在单独的分支中处理,因为这些任务需要不同的特征敏感性。与其他解耦头设计不同,YOLOv6采用"高效解耦头"设计,使用卷积(Conv)和Conv2D层创建轻量且快速的预测单元。该架构在每个尺度产生三个主要输出:类别分数、边界框回归和物体中心距离估计。YOLOv6使用无锚框方法;即,每个单元点通过回归估计到框四边的距离。这种方法消除了大型锚框集和复杂分配过程,减少计算并使训练过程更稳定。此外,YOLOv6中使用的任务对齐学习(TAL)机制综合了检测头产生的分类和IoU预测,在正例选择中实现更准确的分布。
3.7 YOLOv7
YOLOv7于2022年发布,引入E-ELAN和重参数化卷积等架构创新,以优化推理速度和检测精度之间的平衡[45]。这些进步提供了一个高效框架,作为复杂环境中实时目标检测任务的稳健基准。
3.7.1 YOLOv7主干网络
主干网络架构建立在扩展高效层聚合网络(ELAN)块之上(见图13)。ELAN结构旨在解决深度神经网络内的信息流挑战并确保更高效的梯度传播,利用多分支跳跃连接机制。该主干网络并行处理多个卷积分支,随后拼接它们以生成更丰富的特征表示。如示意图所示,主干网络通过专用过渡块(MP-1)维持空间下采样,这些过渡块在并行分支中结合3×3步幅卷积和最大池化,以最小化低层空间细节的损失。这些优化的ELAN模块的集成——由多个CBS(卷积-BN-SiLU)单元组成——在减少参数量和计算强度的同时有效扩展了网络的学习容量。
图13. YOLOv7架构示意图。
3.7.2 YOLOv7颈部
YOLOv7的颈部部分位于图13中主干网络和检测头之间,采用多尺度特征融合机制。图中突出显示的关键创新是SPPCSPC(带跨阶段部分通道的空间金字塔池化)块,它在不牺牲分辨率的情况下增强感受野。颈部进一步利用ELAN-H块和上采样操作,将低分辨率层的深层语义信息与高分辨率特征图的细粒度细节合并。为确保高操作速度,架构在预测阶段前集成RepConv(可重参数化卷积)层。这些层在训练期间保留多分支结构的表示能力,而在推理期间折叠成单一的3×3卷积层以优化吞吐量。
3.7.3 YOLOv7检测头
YOLOv7的检测头结构具有完全解耦的分类和回归架构,如图13所示。为确保更稳定的学习,在训练阶段使用"辅助头"(auxiliary head)生成额外的监督信号;该组件在推理期间被禁用,因此不产生额外计算成本。对于正样本选择,采用从粗到细的标签分配机制,初始识别广泛的正候选集,随后基于质量进行精修以促进更稳定的梯度流。如示意图所示,来自颈部的特征在到达预测模块前通过RepConv层。虽然对边界框回归应用高级基于IoU的损失函数,但在分类分支中实施自适应标签平滑机制以确保更一致的特征分布。尽管检测头基于锚框原理运行,但锚框配置已被重新优化以在各种尺度上提供更平衡的分布。
3.8 YOLOv8
YOLOv8由Ultralytics于2023年1月推出,是YOLO系列最先进的迭代之一,旨在突破计算机视觉任务中速度和精度的界限[46]。它通过采用完全无锚框架构区别于先前版本,旨在简化训练过程的同时提高性能。该模型通过为独立分类和定位任务使用解耦头架构,以及优化的特征提取主干网络,树立了新标准。
3.8.1 YOLOv8主干网络
YOLOv8的主干网络架构建立在C2f块之上,这代表YOLOv5中C3块的演进迭代。如图14所示,C2f模块以轻量内部结构扩展跨阶段部分原理,增强计算效率和特征重用。该块包含更多数量的跳跃连接和轻量瓶颈层,确保在更深层中信息损失最小化。此外,主干网络优先保留精细细节;因此,在关键阶段使用步幅-2卷积层执行下采样。主干网络的最后阶段集成SPPF(空间金字塔池化快速)块,在特征图进入颈部前进行精修,以低FLOP成本提供高表示能力。
图14. YOLOv8架构示意图。
3.8.2 YOLOv8颈部
YOLOv8的颈部架构如图14中心所示,融合了类似增强路径聚合网络的多层特征融合机制。该结构通过自上而下和自下而上的路径处理不同尺度的特征图,使用上采样、拼接和卷积操作确保语义信息更均匀的分布。具体而言,更多语义上下文被传输到高分辨率层,这对小物体检测至关重要。颈部使用的C2f块在不增加通道维度的情况下提供更深的非线性,允许更有意义的表示。因此,颈部区域有效整合多尺度上下文信息,成为YOLOv8框架中最稳健的组件之一。
3.8.3 YOLOv8检测头
YOLOv8引入了完全无锚框的检测头结构,由图14中的三个检测模块表示。在此无锚框方法中,每个网格点通过直接执行左、右、上、下四向回归确定边界框坐标。这种方法通过完全消除对锚框数量和长宽比调整的需求简化了学习过程。由于解耦头架构,分类和回归任务通过独立分支执行,允许每个任务维持自己的优化曲面。在YOLOv8检测头内,任务对齐分配策略和更高效的目标回归机制的集成提高了精度和稳定性,直接从检测阶段输出最终预测。
3.9 YOLOv9
YOLOv9由Wang等人[47]提出,通过解决深度神经网络固有的信息损失问题,代表了目标检测的显著范式转变。传统架构在数据通过连续层时经常遭受"信息瓶颈",导致梯度信号退化。为克服这一点,YOLOv9结合了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)。这些创新允许模型在深层保留基本数据特征,确保目标函数接收完整信息以进行权重更新,从而无需大规模预训练即可实现卓越性能。
3.9.1 YOLOv9主干网络
YOLOv9利用名为GELAN(广义高效层聚合网络)的创新主干网络架构。如图15所示,主干网络使用卷积层序列、RepNCSP ELAN 4块和用于下采样的A down模块构建。GELAN专门设计用于缓解深度神经网络中通常遇到的信息瓶颈问题。这些块通过参数共享和通道混合技术实现更高信息密度。主干网络以SSPELAN(空间金字塔池化-ELAN)模块结束,在保持计算效率的同时增强多尺度特征提取。因此,主干网络在训练期间提供高精度且优化更稳定。
图15. YOLOv9架构示意图。
3.9.2 YOLOv9颈部
YOLOv9的颈部架构如图15中心部分所示,已被重构以与可编程梯度信息(PGI)机制对齐。由Upsample、Concat和RepNCSP ELAN 4块组成的颈部层被优化为不仅考虑前向信息流,还考虑反向传播梯度信号的质量。颈部内A down模块的集成使低层特征图的梯度更新更有意义。这种多尺度特征融合结构在高分辨率和深层语义层级上实现更平衡的信息积累。
3.9.3 YOLOv9检测头
YOLOv9检测头架构采用多尺度检测策略,如图15中三个检测块所示。检测头的关键特性是与PGI的集成,在训练期间动态操控梯度计算以恢复否则会丢失的视觉信息。这种方法确保稳定性,特别是在边界框回归中,并在小物体检测方面提供实质性改进。虽然检测头结构遵循高效设计,但它结合了新的归一化策略,增强锚框和类别预测中的梯度质量。由于这种架构,YOLOv9即使在没有广泛预训练的情况下也能在COCO数据集上实现高性能。
3.10 YOLOv10
YOLOv10由Wang等人[48]提出,标志着通过聚焦于整体效率-精度协同设计的实时目标检测的重大进步。该架构的主要目标是消除NMS造成的后处理延迟,同时减少整个网络中的冗余计算。通过优化模型的深度、宽度和核大小,YOLOv10实现了一个精简的流水线,支持高性能检测而没有早期YOLO版本传统上的计算开销。
3.10.1 YOLOv10主干网络
YOLOv10的主干网络使用优化的C2f和SCDown(空间-通道下采样)模块序列构建,以维持高语义密度同时降低FLOP成本。如图16所示,这些阶段系统地降低空间分辨率同时增加通道深度。主干网络以C2fCIB块结束,该块结合紧凑倒瓶颈和SPPF层以有效聚合多尺度特征。这种协同设计方法确保主干网络为速度和精度提供坚实基础。
图16. YOLOv10架构示意图。
3.10.2 YOLOv10颈部
颈部架构利用精炼的PAN-FPN框架进行最优特征融合。如图16所示,它集成PSA(位置敏感注意力)模块以捕获长程依赖并增强特征的全局表示。颈部集成上采样层、拼接操作以及额外的C2fCIB和SCDown块以确保稳定的特征对齐。该结构专门优化以最小化语义信息从高分辨率层传播到更深层时的信息损失,支持无NMS方法所需的一致预测。
3.10.3 YOLOv10检测头
YOLOv10的检测头具有原生无NMS设计,由图16中的三个检测分支表示。这一进步通过一致的双重分配机制实现,确保模型在推理期间直接产生非重叠框。通过在分类和回归任务之间建立一致的正分配,架构将边界框预测转变为真正的端到端操作。因此,YOLOv10检测头通过移除后处理瓶颈显著加速推理过程,确保实时场景中的高检测精度。
3.11 YOLOv11
YOLOv11是由Ultralytics开发的YOLO系列最新迭代[?],旨在提供计算效率和检测精度之间的卓越平衡。基于其前身的架构成功,YOLOv11引入精炼的瓶颈结构和增强的注意力机制以改善复杂环境中的特征提取。通过优化参数量和推理速度之间的权衡,该模型在各种硬件平台的实时应用中提供高性能结果。
3.11.1 YOLOv11主干网络
YOLOv11的主干网络为高分辨率表示和高效特征传播而设计。如图17所示,主干网络主要使用C3K2块,作为C2f架构的优化演进。这些块以较小的卷积核运行以降低计算开销,同时保留低层空间细节。主干网络的一个重要补充是C2PSA(带位置敏感注意力的C2f)模块,它集成空间注意力帮助模型聚焦于输入图像的最信息丰富区域。主干网络以SPFF(空间金字塔池化快速)层结束,聚合多尺度特征以确保对不同大小物体的鲁棒性。
图17. YOLOv11架构示意图。
3.11.2 YOLOv11颈部
YOLOv11的颈部架构实现PAN-FPN结构以促进有效的多尺度特征融合。如图17中心部分所示,它集成上采样、拼接和C3K2块以混合高层语义信息与低层空间特征。该设计通过确保跨不同维度的稳定特征对齐,最小化小尺度物体的语义数据损失。颈部内C3K2块的使用允许高语义密度同时保持整体低计算成本。
3.11.3 YOLOv11检测头
YOLOv11的检测头具有无锚框、解耦设计,由图17中三个独立的检测分支表示。该架构通过独立路径处理分类、物体性评分和边界框回归,允许训练期间更快的收敛和推理期间更高的精度。正样本选择使用动态分配策略,从而增强边界框回归的稳定性。尽管设计轻量,YOLOv11检测头提供卓越的检测精度和高帧率,使其对各种计算机视觉任务高度有效。
3.12 YOLOv12
YOLOv12通过将注意力机制置于核心,有效结合传统CNN的优势与Transformer的上下文智能,重新定义了实时目标检测[49]。通过集成残差ELAN(R-ELAN)主干网络和区域注意力(Area Attention)模块,该模型实现高语义密度而没有与自注意力相关的沉重计算负担。这种架构允许卓越的特征提取同时维持实时应用所需的推理速度。
3.12.1 YOLOv12主干网络
与所有先前YOLO版本不同,YOLOv12利用以注意力为中心的主干网络。图18中由A2C2f块表示的该结构称为R-ELAN,将区域注意力机制集成到ELAN块中,以提供宽广感受野和高语义密度。为降低与传统自注意力相关的沉重计算成本,区域注意力将窗口划分为扩展的局部区域,从而执行快速而强大的注意力操作。R-ELAN主干网络集成Transformer的高级上下文关系同时保留CNN的低层特征提取能力。
图18. YOLOv12架构示意图。
3.12.2 YOLOv12颈部
YOLOv12的颈部部分将跨尺度注意力机制与PAN-FPN框架合并,如图18中上采样和拼接块的互连所示。该架构增强高分辨率层的细节敏感性,同时将语义信息从低层稳定传播到高层。该部分内A2C2f和C3k2模块的集成通过聚焦于重要特征区域,在保留小物体细节方面发挥积极作用。此外,卷积块被专门优化以最小化与基于注意力的过程相关的计算开销。
3.12.3 YOLOv12检测头
YOLOv12的检测头结构是无锚框、多任务能力的架构。如图18中检测块所示,目标检测、分割和分类等任务可在同一框架内处理。注意力机制在边界框回归中提供更高敏感性,其中以无锚框格式将坐标计算为左、右、上、下距离。分类分支结合捕获长程依赖的轻量注意力块。此外,为取得高度竞争性的结果,YOLOv12采用源自参考注意力图和传统基于IoU损失的辅助损失结构。
3.13 YOLOv26
YOLOv26于2025年9月由Ultralytics发布,代表YOLO血统的战略演进,将焦点从以注意力为中心的设计转向边缘优化效率和部署就绪性[50]。虽然先前迭代通过复杂的类Transformer结构推动精度,YOLOv26专为低功耗和延迟敏感设备上的实时性能而构建。通过集成端到端无NMS推理流水线并移除分布焦点损失(DFL),该模型显著降低计算开销,据报道在CPU推理上相比其前身实现了实质性速度改进。
如图19所示,架构遵循始于预处理阶段(用于调整大小和归一化)的精简处理流水线。数据随后流入主干网络特征提取和多尺度特征图阶段,在捕获基本空间信息的同时没有与全局自注意力相关的高延迟。这些特征随后通过轻量特征融合颈部进行精修,确保高效的跨尺度信息流同时保持边缘设备快速执行所需的架构简洁性。
图19. YOLOv26架构示意图。
流水线的最后阶段利用直接回归检测头生成无NMS预测,有效移除传统后处理瓶颈。训练期间,YOLOv6结合STAL分配(小目标感知标签分配)以改善微小物体的检测,并结合MuSGD优化器以确保稳定收敛。最后,模型经历量化步骤以优化资源受限环境,使系统以高精度、最小计算成本提供最终预测。
4. YOLO的发表趋势和应用
YOLO的第一个版本于2015年提出,最新版本于2025年引入。因此,考察了2015年至2025年间产生的发表数量。在此背景下,分析了ACM(计算机协会)、IEEE Xplore、Scopus和Web of Science(WoS)等文献中广泛使用的学术数据库中的年度发表计数。搜索过程中,在文章标题和摘要中搜索关键词"You Only Look Once"和"YOLO"。
获得的数据在表6中呈现。对表格的检查显示,从2015年到2025年,所有数据库的发表数量都呈现明显且持续的增长。当考虑记录总量时,观察到相当可观的发表数量:ACM中3,897篇,IEEE Xplore中17,577篇,Scopus中121,895篇,Web of Science中16,833篇。
表6. 2015年至2025年ACM、IEEE Xplore、Scopus和Web of Science索引的YOLO相关发表年度分布
表格
| 数据库 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | 2021 | 2022 | 2023 | 2024 | 2025 | 总计 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ACM | 1 | 9 | 43 | 101 | 163 | 219 | 324 | 349 | 619 | 949 | 1,120 | 3,897 |
| IEEE Xplore | 9 | 20 | 73 | 245 | 539 | 722 | 1,152 | 1,592 | 3,086 | 5,380 | 5,480 | 17,577 |
| Scopus | 341 | 415 | 976 | 1,992 | 4,048 | 5,805 | 8,666 | 13,015 | 18,636 | 26,995 | 41,006 | 121,895 |
| WoS | 13 | 22 | 67 | 210 | 454 | 673 | 965 | 1,591 | 1,979 | 3,886 | 6,973 | 16,833 |
特别是,2019年后出现急剧上升,2020年至2025年间发表计数显著加速。所有数据库中2025年的年度数据最高,表明对YOLO的研究兴趣持续增长。总体而言,数据展示了过去十年对基于YOLO研究的科学关注不断增加。
如表6所示,YOLO多年来发表量稳步增长,其应用领域也得到考察。在此背景下,首先识别了主要应用领域,随后每个领域被划分为子类别。包含了文献中与这些类别相关的代表性研究的引用。表7展示了YOLO应用领域的这一分类总结。
表7. YOLO在主要领域的应用分类,包括子任务和文献中的示例研究
表格
| 主要类别 | 子类别/具体任务 | 代表性研究 |
|---|---|---|
| 农业与智慧农业 | 水果/蔬菜检测 | [51-57] |
| 病害与害虫检测 | [58-63] | |
| 航拍、无人机与卫星影像 | 小物体检测 | [64,65] |
| 海上监视 | [66,67] | |
| 灾害监测 | [68,69] | |
| 自动驾驶与ITS | 车辆检测 | [70-75] |
| 行人检测 | [76-78] | |
| 交通标志与信号检测 | [79-83] | |
| 车道与物体检测 | [84,85] | |
| 环境监测 | 野生动物检测 | [86,87] |
| 污染检测 | [88,89] | |
| 医疗与医学影像 | 病变/肿瘤定位 | [90-93] |
| 手术工具追踪 | [94-96] | |
| 细胞与显微镜图像检测 | [97-101] | |
| 工业与制造 | 缺陷检测 | [102,103] |
| 工作场所安全 | [104,105] | |
| 机器人与自动化 | 物体定位 | [106,107] |
| 工具检测 | [108,109] | |
| 安防与公共安全 | 入侵检测 | [110,111] |
| 可疑物品检测 | [112,113] | |
| 人群分析 | [114,115] | |
| 体育分析 | 运动员检测 | [116,117] |
| 动作识别支持 | [116-118] | |
| 交通运输 | 船舶检测 | [119-121] |
| 铁轨障碍物检测 | [121,122] | |
| 水下与海底成像 | 鱼类物种检测 | [123,124] |
| 水下碎片检测 | [125,126] | |
| X射线与射线分析 | 异物检测 | [127,128] |
| 结构裂缝检测 | [129,130] | |
| 动物学与动物科学 | 动物行为追踪 | [131,132] |
| 动物物种检测 | [133,134] |
表7显示YOLO具有广泛的应用范围,每个类别中的研究表明该模型可以成功适应不同类型的问题。当检查子任务时,很明显YOLO在不同难度级别上有效执行,包括小物体检测、复杂场景中的多物体分割、不同环境条件下的检测以及跨多种模态的物体检测。代表性研究表明,该模型在学术和工业应用中都被广泛采用,这些研究也取得了相当好的结果。
5. 讨论
从v1到YOLOv26的YOLO家族演进,如表8所示,反映了从复杂基于锚框结构向完全端到端系统的稳步发展。早期版本(v2-v5)使用的预定义锚框结构已被YOLOv8引入的无锚框设计所取代。这一转变中最关键的里程碑是YOLOv10和YOLOv26引入的无NMS推理机制。表9中的一般趋势表明,后处理阶段的消除为速度和效率建立了新基准,特别是对实时工业应用。从架构角度看,特征质量和硬件速度之间出现了战略分歧。虽然表8中的YOLOv12通过基于R-ELAN的注意力机制瞄准高语义成功,但YOLOv26标志着回归硬件友好的卷积设计,使用C3k2块和边缘优化主干网络。这一转变表明该领域正从"一刀切"的模型转向两个不同的专业化分支:通过注意力机制最大化精度的模型,以及通过精简卷积结构优先最大化吞吐量的模型。
表8. YOLO版本中技术创新的演进。
表格
| 版本 | 主干网络 | 核心创新 | 锚框 | NMS | 技术贡献 |
|---|---|---|---|---|---|
| YOLOv1 | Darknet-24 | 基于网格的回归 | ✗ | ✓ | 实时端到端检测 |
| YOLOv2 | Darknet-19 | 批归一化、直通层 | ✓ | ✓ | 高分辨率分类 |
| YOLOv3 | Darknet-53 | FPN、残差块 | ✓ | ✓ | 多尺度目标检测 |
| YOLOv4 | CSPDarknet53 | Mosaic、CSP、Mish | ✓ | ✓ | 速度-精度优化 |
| YOLOv5 | CSPDarknet | 自动锚框、Focus | ✓ | ✓ | 灵活的基于PyTorch的架构 |
| YOLOv6 | EfficientRep | RepVGG、解耦头 | ✗ | ✓ | 无锚框工业推理 |
| YOLOv7 | E-ELAN | 模型缩放、辅助头 | ✓ | ✓ | 可训练的"免费技巧包"方法 |
| YOLOv8 | CSPDarknet(C2f) | 任务对齐分配 | ✗ | ✓ | 统一架构和动态分配 |
| YOLOv9 | GELAN | PGI(梯度信息) | ✗ | ✓ | 信息瓶颈解决 |
| YOLOv10 | CSPDarknet(CIB) | 双重标签分配 | ✗ | ✗ | 无NMS端到端推理 |
| YOLO11 | CSPDarknet(C3k2) | C3k2、C2PSA(注意力) | ✗ | ✓ | 特征提取和注意力机制 |
| YOLOv12 | Attention-Net | R-ELAN | ✗ | ✓ | 注意力驱动的计算效率 |
| YOLOv26 | 边缘优化 | ProgLoss、STAL | ✗ | ✗ | 边缘设备的无NMS优化 |
表9. YOLO版本的详细性能指标。
表格
| 版本 | 日期 | 数据集 | 输入尺寸 | mAP(%) | FPS | 参数量(M) | FLOPs(G) |
|---|---|---|---|---|---|---|---|
| YOLOv1 | 2015 | VOC2007 | 448 | 63.4 | 45 | 65.0 | 45.0 |
| YOLOv2 | 2016 | VOC2007 | 416 | 76.8 | 67 | 62.9 | 29.4 |
| YOLOv3 | 2018 | COCO | 416 | 31.0 | 45 | 61.9 | 65.9 |
| YOLOv4 | 2020 | COCO | 416 | 41.2 | 55 | 64.4 | 60.1 |
| YOLOv5 | 2020 | COCO | 640 | 45.4 | 82 | 21.2 | 48.0 |
| YOLOv6 | 2022 | COCO | 640 | 49.5 | 123 | 34.9 | 82.7 |
| YOLOv7 | 2022 | COCO | 640 | 51.2 | 161 | 36.9 | 104.7 |
| YOLOv8 | 2023 | COCO | 640 | 50.2 | 183 | 25.9 | 78.7 |
| YOLOv9 | 2024 | COCO | 640 | 51.4 | 117 | 25.3 | 102.0 |
| YOLOv10 | 2024 | COCO | 640 | 52.5 | 174 | 20.4 | 46.0 |
| YOLO11 | 2024 | COCO | 640 | 51.5 | 190 | 20.1 | 68.0 |
| YOLOv12 | 2025 | COCO | 640 | 52.5 | 206 | 20.2 | 67.5 |
| YOLOv26 | 2025 | COCO | 640 | 53.1 | 212 | 20.4 | 68.2 |
然而,"颈部"和"检测头"组件的演进显示,性能提升越来越多地由梯度流优化驱动,而非仅由网络深度的增加驱动。YOLOv9中的PGI和YOLOv26中的STAL等创新旨在解决网络内的信息瓶颈。检查表9中的参数和FLOPs趋势,显然现代架构以显著更少的资源实现更优性能。这一发展表明,目标检测技术的未来可能建立在智能标签分配和损失函数优化之上,而非进一步增加架构复杂性。
6. 结论
目标检测已成为跨越自主系统、医学影像、安防和工业自动化等实时计算机视觉应用的基础组件。在这些领域,定位精度和推理速度仍然是关键设计约束。YOLO家族通过逐步精化的单阶段架构解决了这些需求,该架构平衡了检测性能与计算效率。
本研究呈现了从YOLOv1到YOLOv26的YOLO家族技术分析,分析了架构转变、特征融合策略和损失函数的发展。这一进程中的一个中心主题是通过采用无锚框检测头和在YOLOv10和YOLOv26等后期迭代中消除非极大值抑制(NMS)的后处理流水线,系统性降低计算开销。
生态系统内的最新发展反映了设计理念的分歧。如YOLOv12等架构通过基于注意力的机制强调语义表示,而如YOLOv26等模型则优先在资源受限硬件上的部署效率。这种分歧表明更广泛的转变:从通用检测器转向应用特定的架构解决方案。包括小物体检测和高密度场景理解在内的持续挑战继续推动架构创新。前瞻性方向包括多模态传感器融合(激光雷达、雷达)、任务自适应训练框架和硬件感知神经架构搜索(NAS)。此处呈现的分析既作为下一代检测器设计的参考,也作为跨工业用例选择变体的实用指南。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)