YOLO模型的改进

qq_34631778

222人浏览 · 2026-06-06 10:39:23

qq_34631778 · 2026-06-06 10:39:23 发布

一.引言

截止2026年5月22日，YOLO主流迭代模型有YOLO、YOLOv2...YOLO11和YOLO26，一共12个模型版本。

YOLO (You Only Look Once) 是一种流行的目标检测和图像分割模型，由Joseph Redmon 和Ali Farhadi在华盛顿大学开发。YOLO于2015年发布，因其高速度和高准确度而广受欢迎。
YOLOv2 于2016年发布，通过引入批量归一化、锚框 (anchor boxes) 和维度聚类改进了原始模型。
YOLOv3 于2018年发布，通过更高效的骨干网络、多个锚框和空间金字塔池化进一步提升了模型性能。
YOLOv4 于2020年发布，引入了诸如Mosaic 数据增强、新的无锚检测头和新的损失函数等创新。
YOLOv5 由Ultralytics于2026年发布，进一步提高了模型性能，并增加了超参数优化、集成实验跟踪以及自动导出到流行格式等新功能。
YOLOv6 由美团于2022年开源，并应用于该公司的许多自动配送机器人中。
YOLOv7 增加了额外的任务，如COCO关键点数据集上的姿态估计。
YOLOv8 由Ultralytics于2023年发布，引入了新特性和改进，增强了性能、灵活性和效率，支持全方位的视觉 AI 任务。
YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
YOLOv10 由清华大学研究人员使用 Ultralytics Python 软件包创建，通过引入端到端检测头，消除了非极大值抑制 (NMS) 的需求，提供了实时的目标检测进展。
YOLO11：由Ultralytics于2024年9月发布，YOLO11 在多项任务中展现了卓越的性能，包括目标检测、分割、姿态估计、跟踪和分类，支持在各种 AI 应用和领域中部署。
YOLO26：由Ultralytics于2026年发布，针对边缘部署进行了优化，支持端到端、无需 NMS 的推理。

这些模型由不同的组织开发，其中公认最权威的发布者为Ultralytics(公司)，Ultralytics可以说是视觉人工智能领域的标杆。

二.YOLO模型改进方向概述

除了主流迭代模型，还有各类改进的YOLO模型，这些模型改进方向大致可以归纳几个主要类别：

Backbone 改进（特征提取网络）
Neck 改进（特征融合网络）
Head 改进（检测头）
损失函数改进

在以下内容中，仅介绍常见的改进。

2.1.Backbone改进（特征提取网络）

主要目的是提升特征提取能力，使网络能更好地理解图像内容。

2.1.1.轻量化改进

在YOLO的Backbone中进行改进时，轻量化改进网络是指在保持较高检测精度的前提下，通过设计更高效的卷积结构，显著减少网络的参数量、计算量（FLOPs）和模型大小，从而提升推理速度、降低内存占用，使其能在资源受限平台上实时运行。

如 YOLOv4 使用 CSPDarknet53、YOLOv5/YOLOv8 使用 CSPNet 或改进的 Darknet 模块。

2.1.2.模型缩放（网络缩放）

通过系统性地调整网络深度、宽度（以及分辨率）这三个维度，从一个基础的小模型“缩放”出一系列不同大小、不同精度/速度的模型家族，如 YOLOv5系列：

模型	depth_multiple	width_multiple	效果
YOLOv5n	0.33	0.25	最浅 + 最窄
YOLOv5s	0.33	0.50	浅 + 标准宽
YOLOv5m	0.67	0.75	中深 + 中宽
YOLOv5l	1.00	1.00	基准深度 + 基准宽度
YOLOv5x	1.33	1.25	更深 + 更宽

depth_multiple: 缩放深度 → 控制模块重复次数；

width_multiple: 缩放宽度 → 控制卷积核通道数。

增加层数（纵向）→ 提升抽象能力和感受野，利于大目标；

增加通道数（横向）→ 提升特征丰富度，利于小目标。

增大两者都是提升YOLO Backbone容量的有效手段，但会降低推理速度和增大资源开销。

2.1.3.注意力机制

在没有注意力机制的普通网络中，卷积核的权重是训练好后固定不变的。无论输入图片是什么，同一个卷积核都以同样的方式提取特征。

而加上了注意力机制，网络会根据输入特征图本身的内容，动态生成一个权重图，然后用这个权重图去加权原来的特征图。

常见的注意力机制可以按“关注什么维度”分为三类：

类型	关注维度	作用	代表机制
通道注意力	哪个特征	自动学习哪些特征通道更有用。比如，在识别狗时，毛发的通道权重变高。	SE ECA
空间注意力	哪里	自动学习输入图像上哪个位置更重要。比如，忽略背景天空，只关注地面上的车辆。	CBAM
自注意力	像素间关系	捕捉图像中任意两个像素之间的依赖关系。即使两个目标离得很远，也能建立联系。	Transformer