本文核心贡献如下:

  • 提出双策略改进框架:针对YOLOv11n在遥感图像多尺度目标检测中的局限性,分别构建YOLOv11n-LSKA-GoldYOLO与YOLOv11n-GoldYOLO-MultiSEAMHead两种改进模型,兼顾全局上下文感知与多尺度特征融合。

  • 创新模块组合:引入LSKA大核注意力扩展感受野,Gold-YOLO颈部增强跨尺度特征交互,MultiSEAMHead检测头强化空间-通道联合建模,实现轻量化与精度平衡。

  • 性能显著提升:在DOTA-v1数据集上,两模型mAP@0.5分别提升1.3%和1.8%,mAP@0.5:0.95提升0.3%和0.6%,验证了各模块的有效性与协同增益。

  • 提供场景化选择:根据实际需求(实时性 vs. 复杂场景鲁棒性)提供两种优化方向,增强模型灵活性与实用性。

   博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

  • YOLO算法结构性创新:于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。

  • 技术生态建设与知识传播:独立运营 “计算机视觉大作战” 公众号(粉丝1.6万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

  • 荣获腾讯云年度影响力作者创作之星奖项,内容质量与专业性获行业权威平台认证。

  • 全网累计拥有 7万+ 垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。

  • 具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。

💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。

 原创自研系列, 26年计算机视觉顶会创新点

《YOLO26魔术师》

 原创自研系列, 25年计算机视觉顶会创新点

《YOLOv13魔术师》

《YOLOv12魔术师》

《YOLO11魔术师》

《YOLOv8原创自研》

《YOLOv5原创自研》

《YOLOv7原创自研》

《YOLOv9魔术师》

​《YOLOv10魔术师》 ​

应用系列篇:

《YOLO小目标检测》

《深度学习工业缺陷检测》

《YOLOv8-Pose关键点检测》

23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

《YOLOv8魔术师》

 《YOLOv7魔术师》

《YOLOv5/YOLOv7魔术师》

《RT-DETR魔术师》

0.原理介绍

论文:https://arxiv.org/pdf/2603.13879

摘要:卫星遥感图像因其高分辨率、复杂场景及目标尺度差异巨大,给目标检测带来了显著挑战。为解决YOLOv11n模型在遥感图像中检测精度不足的问题,本文提出了两种改进策略。方法一:(a) 在骨干网络中引入大型可分离核注意力机制,以增强对小目标的特征提取;(b) 在颈部网络中融入Gold-YOLO结构,实现多尺度特征融合,从而提升对不同尺度目标的检测性能。方法二:(a) 同样在颈部网络中集成Gold-YOLO结构;(b) 结合MultiSEAMHead检测头,进一步增强对小目标和多尺度目标的表示与检测能力。为验证所提改进的有效性,在DOTAv1数据集上进行了实验。结果表明,在保持模型轻量化优势的同时,所提方法相比基线YOLOv11n,检测精度分别提升了1.3% 和1.8%,证明了所提方法在遥感图像目标检测中的有效性和实用价值。

关键词:遥感图像;YOLOv11n;多尺度目标检测;轻量化深度学习;注意力机制;特征融合。

1. 引言

随着遥感成像技术和深度学习算法的不断发展,基于深度学习的遥感图像目标检测在城市治理、智慧农业和国防安全等领域展现出了巨大的应用潜力[1]。然而,在现实复杂场景中,该技术仍面临多重挑战。首先,由于卫星和航空平台成像距离远,高分辨率遥感图像中的目标通常仅占据极少数像素,这使得有效特征提取极为困难。其次,遥感图像背景结构复杂多样,城市建筑、交通设施、农田和自然地形交织在一起。这种复杂性降低了目标与背景的对比度,容易导致特征混淆。第三,遥感场景包含的目标类别繁多,外观变化显著。即使在同一类别内,尺度、形状和纹理也可能存在巨大差异,进一步增加了模型跨不同场景泛化的难度。

除了小目标检测,多尺度变化是遥感图像中最根本的挑战之一。航空图像中的目标表现出显著的尺度差异,从仅占几个像素的车辆到横跨数百像素的大型建筑物,尺度跨度巨大。这种宽泛的变化使得传统的特征金字塔结构难以同时保留细粒度的空间细节和高层语义信息。因此,增强跨尺度特征交互和自适应多级融合对于实现鲁棒的多尺度目标检测至关重要。

尽管近年来通过网络架构、特征增强策略和优化训练机制的进步,检测性能不断提升,但由于特征表示能力有限,小目标漏检和复杂背景下误检等问题依然突出[2]。因此,聚焦于增强特征表示、多尺度特征融合和提高模型鲁棒性的研究工作已成为进一步推进遥感目标检测技术的关键方向[3]。

基于深度学习的目标检测方法已从早期的两阶段方法发展到轻量级、高速和以Transformer驱动的架构[14]。在实际应用中,研究人员通常根据具体场景需求选择合适的模型:当需要高精度时,优先选择两阶段检测器;当优先考虑实时性能时,更常采用单阶段检测器,如YOLO[22]和SSD[23];而在背景复杂且具有显著长程依赖关系的场景中,基于Transformer的检测器正展现出越来越大的潜力。

研究人员为改进基于YOLO的模型在遥感图像目标检测中的应用进行了广泛研究。Xu等人[18]、[19]、[20]将Transformer模块融入骨干网络以加强全局依赖建模,并在颈部构建了双向加权特征金字塔网络,实现了病害相关特征的自适应跨尺度融合。此外,Zeng等人[21]提出了一种基于空洞空间金字塔池化的平衡特征金字塔网络,有效整合了多尺度特征信息,进一步提升了检测精度。尽管这些研究在应对遥感图像中目标多样性和复杂背景等挑战方面取得了显著进展,但在处理微弱目标特征和实现更高的小尺寸目标检测精度方面仍有相当大的提升空间。

为解决上述问题,本文提出了两种基于YOLOv11n的改进型轻量级目标检测模型。通过引入大型可分离核注意力机制来增强全局上下文感知,并结合Gold-YOLO的收集-分发结构以实现更有效的多尺度特征融合,所提方法旨在显著提高在复杂遥感场景中的检测精度,同时保持原始模型的轻量化和实时性优势。在DOTA-v1数据集上进行的大量实验证明了所提方法的有效性和实用价值。

2. YOLOv11n模型

YOLOv11n[12]是一个轻量级单阶段目标检测器,旨在平衡检测精度和计算效率。与早期的YOLOv8[5]版本相比,它引入了改进的特征提取和轻量化设计策略,使其适用于实时应用。然而,当应用于高分辨率遥感图像时,YOLOv11n在全局上下文建模和跨尺度特征交互方面仍表现出局限性,尤其是对于小目标和密集分布的目标。这些局限性促使我们针对遥感场景进行进一步的架构增强。

3. Gold-YOLO

Gold-YOLO[6]是一个高效的目标检测框架,旨在通过收集-分发机制[7]改进多尺度特征融合。通过联合聚合来自不同网络深度的特征并在各层之间重新分发融合后的信息,Gold-YOLO在保持低延迟和计算效率的同时增强了跨尺度信息流。这种设计对于涉及大尺度变化和密集目标分布的目标检测任务尤其有益,而这在遥感图像中很常见。

如图2所示,Gold-YOLO架构由骨干网络、基于GD的颈部和检测头组成。GD结构由两个互补的分支构成:低级收集-分发分支高级收集-分发分支。Low-GD分支专注于处理浅层、高分辨率的特征图,以保留对小目标检测至关重要的细粒度空间细节;而High-GD分支则强调深层语义特征,以增强对中大型目标的上下文理解。

在每个分支内,执行特征对齐和信息融合以减轻尺度差异引起的特征错位。具体来说,采用特征对齐模块对相邻层的特征进行空间对齐,随后通过信息融合模块整合对齐后的特征以生成更一致的表示[8]。然后,通过注入模块将融合后的特征注入回不同的特征层,从而实现整个网络的有效信息再分配和增强。

此外,Gold-YOLO还引入了轻量级相邻融合模块[15]以进一步加强相邻层之间的特征交互。通过池化和上/下采样执行尺度对齐,并采用轻量级融合操作,LAF允许每个特征层以最小的计算开销从相邻层接收互补信息。通过GD机制和LAF模块的协同操作,Gold-YOLO实现了更鲁棒和一致的多尺度特征表示,为在复杂遥感场景中提高检测性能奠定了坚实基础。

4. 大型可分离核注意力机制

大型可分离核注意力机制是一种高效的注意力机制,旨在捕获大感受野的同时保持较低的计算复杂度[16]。在遥感图像中,目标通常被复杂背景包围且视觉对比度弱,这使得全局上下文信息对于精确检测尤为重要。然而,直接采用大核卷积会导致参数量和计算成本显著增加,这不适用于轻量级检测模型。

LSKA通过将大型二维卷积核分解为沿水平和垂直方向的一系列可分离一维卷积,并结合深度卷积和空洞卷积操作来解决此问题。这种设计使网络能够高效地近似大感受野,同时显著减少参数量和计算开销。与传统的大核注意力机制相比,LSKA以更高的效率和稳定性实现了相当的全局特征建模能力[9]。

通过基于大范围上下文感知生成空间注意力图并重新加权原始特征图,LSKA增强了网络聚焦于显著区域和抑制背景干扰的能力。凭借其在全局上下文建模和轻量化设计之间的良好平衡,LSKA非常适合集成到YOLOv11n中,以改进遥感图像中小目标和密集场景的特征提取性能。

5. MultiSEAMHead

尽管原始的YOLOv11n检测头实现了高推理效率,但其联合利用多级语义和细粒度特征的能力仍然有限。浅层特征通常缺乏足够的语义信息,而深层特征往往会丢失空间细节,这在以密集目标分布、遮挡和背景杂乱为特征的复杂遥感场景中会对检测性能产生负面影响。

为解决此问题,MultiSEAMHead模块通过结合多级特征融合和基于注意力的特征调制来增强检测头[17]。它利用深度可分离卷积和跨层连接来改善跨不同特征尺度的信息交互,使检测器能够更好地利用详细的空间信息和高级语义表示。此外,MultiSEAMHead引入了通道和空间混合机制来建模通道间依赖性并强调信息区域。通过基于注意力的调节自适应地重新加权特征,检测头对尺度变化和背景干扰变得更加鲁棒。因此,MultiSEAMHead在保持YOLOv11n框架轻量级特性和实时性能的同时,有效提高了对小型和遮挡目标的检测精度。

6. 模型设计

尽管YOLOv11n引入了自注意力和轻量化卷积设计,但其架构主要是为通用目标检测任务优化的。当应用于遥感图像时,其固有的几个局限性变得明显。首先,骨干网络缺乏足够的大感受野建模能力,这限制了其捕获对从复杂背景中区分小目标至关重要的全局上下文信息。其次,原始的颈部结构提供的跨层信息交互有限,导致对于具有大尺度变化目标的特征融合效果欠佳。最后,检测头主要关注效率,而对于在密集和杂乱场景中进行鲁棒检测,多级语义和细粒度特征的联合利用仍然不足。

受这些观察的启发,我们对YOLOv11n引入了针对性的架构修改。采用LSKA机制以最小的计算开销增强全局特征感知,解决了感受野有限的问题。集成了Gold-YOLO颈部以加强多尺度特征的聚合与分发,改善了跨不同特征层的信息流。此外,采用MultiSEAMHead来增强检测头联合建模空间和通道依赖性的能力。这些修改旨在克服遥感目标检测的挑战,同时保持YOLOv11n的轻量化特性。

6.1 YOLOv11n-LSKA-GoldYOLO

本研究提出的第一个改进型轻量级目标检测模型YOLOv11n-LSKA-GoldYOLO是基于YOLOv11n框架构建的。为增强在复杂场景中的特征表示,在骨干网络中引入了大型可分离核注意力机制。LSKA采用分解的大卷积核结构,在有效扩大感受野的同时控制计算成本,使模型能够更全面地捕获全局上下文信息并抑制冗余特征。这种设计对小目标识别和密集场景检测具有显著优势。

在特征融合阶段,进一步采用Gold-YOLO颈部结构以实现更高效的多尺度信息交互和自适应特征集成,从而提高跨不同尺度目标的特征传播和检测精度。通过结合LSKA机制和Gold-YOLO颈部的优势,YOLOv11n-LSKA-GoldYOLO在保持低计算成本和实时推理能力的同时显著提升了检测性能,为轻量级目标检测任务提供了一种实用且高效的解决方案。

6.2 YOLOv11n-GoldYOLO-MultiSEAMHead

本研究进一步提出了轻量级目标检测模型YOLOv11n-GoldYOLO-MultiSEAMHead,其整体架构基于YOLOv11n,并融入了Gold-YOLO的高效特征融合设计。在特征交互阶段,该模型采用Gold-YOLO颈部结构以促进更全面的多尺度信息流和更稳定的自适应融合机制,实现浅层与深层之间的高效特征传播,并提升跨不同尺度目标的检测性能。

为了进一步增强检测头的表示能力,该模型集成了MultiSEAMHead模块。该模块通过深度可分离卷积、多尺度特征提取和跨层连接对多级特征进行联合建模,使网络能够更全面地捕获细粒度细节和高级语义信息。凭借其内置的通道和空间混合单元以及全局上下文感知的注意力加权,MultiSEAMHead使网络能够在涉及遮挡、复杂背景或密集目标的场景中精确聚焦于关键区域并抑制无关特征。此外,检测头中改进的回归损失进一步稳定了训练过程并加速了边界框预测的收敛。

7. 实验步骤

7.1 实验数据集

本研究的实验使用了公开可用的 DOTA-v1 数据集,它是遥感领域最具代表性的航空图像目标检测基准之一。DOTA-v1 专为高分辨率遥感图像中的多类别目标检测任务设计。该数据集由中国科学院空天信息创新研究院发布,包含来自 Google Earth、GF-2 和 JL-1 等多种航空和卫星成像平台的图像,具有覆盖范围广、数据类型多样和几何结构复杂的特点。该数据集包含 2,806 张高分辨率图像,分辨率从 800×800 到 4,000×4,000 像素不等,空间分辨率覆盖 0.1-1 米/像素。它既包含了密集的城市区域(有建筑和交通设施),也包含了包括农田、港口、河流和森林在内的自然区域,提供了高度的场景多样性和复杂性。数据集包含 15 个典型的目标类别。

为了增加任务难度并确保算法评估的全面性,DOTA-v1 中的目标尺度分布高度不平衡。它包含了大量仅几十像素的小目标以及跨越数百像素的大目标。许多区域还具有严重的遮挡、密集的目标分布和背景干扰,这使得 DOTA-v1 成为评估模型鲁棒性和泛化能力的重要基准。在实验设置中,DOTA-v1 被按 8:1:1 的比例划分为训练集、验证集和测试集。

7.2 实验环境

本研究的实验在 AutoDL 平台上进行,利用了高性能硬件和稳定的软件环境。具体配置如下:

  • 硬件:NVIDIA RTX 4090 GPU (24 GB) 用于加速模型训练,搭配 Intel Core i9-14900KF 处理器和 60 GB RAM,确保训练高效稳定。

  • 软件:以 PyTorch 2.1.0 和 CUDA 12.1 作为主要深度学习框架,使用 Python 3.10 进行编程。

实验设置包括 300 个训练轮次,批量大小根据 GPU 内存自动调整。使用了随机梯度下降优化器,而所有其他训练参数均保持默认设置。

7.3 评估指标

  • 精确率衡量在所有被预测为正的样本中,正确预测的正样本所占的比例,反映了模型正预测的可靠性。

  • 召回率衡量模型捕获数据集中所有真正例的能力,即实际正实例中有多少被模型正确识别。

  • 平均精度均值用于全面评估目标检测模型在所有类别上的检测精度。它定义为每个类别的平均精度的平均值。

这里,TP、FP 和 FN 分别表示正确检测到的边界框、假正框和漏检框的数量。AP 代表 P-R 曲线与坐标轴所围成的面积。mAP50 是基于 IoU 阈值为 0.50 计算的,用于衡量模型在该阈值下的检测精度;而 mAP50-95 是在 IoU 值从 0.50 到 0.95 范围内计算得出的,更全面地反映了模型在不同严格程度下的检测性能,对评估模型的泛化能力和鲁棒性具有更大的参考价值。

8. 实验结果

本研究基于 YOLOv11n,通过引入 LSKA 机制、Gold-YOLO 颈部和 MultiSEAMHead 检测头,构建了两个改进模型——YOLOv11n-LSKA-GoldYOLO 和 YOLOv11n-GoldYOLO-MultiSEAMHead。与原始的 YOLOv11n 模型进行了对比实验,并进行了消融研究以评估每个改进模块的贡献。全面评估了新模型在 DOTA-v1 数据集上的性能。

表 1 总结了关键性能指标。实验结果表明,YOLOv11n-LSKA-GoldYOLO 模型相比 YOLOv11n 在 mAP50% 上提升了 1.3%,在 mAP50-95% 上提升了 0.3%。YOLOv11n-GoldYOLO-MultiSEAMHead 模型在 mAP50% 上提升了 1.8%,在 mAP50-95% 上提升了 0.6%。不同模块的协同效应不仅增强了特征表示的多样性,也加强了模型的整体鲁棒性,使其在复杂场景检测任务中具有更高的稳定性和准确性。

图 7 展示了 DOTA-v1 数据集中的原始图像和 YOLOv11n 模型的检测结果。图 8a 和图 8b 分别展示了两个改进模型在验证集上的检测结果。

两个改进模型在检测性能上都优于基线 YOLOv11n,但它们强调了不同的架构设计和实际优势。YOLOv11n-LSKA-GoldYOLO 通过引入大感受野注意力机制增强了骨干网络,使其特别适用于全局上下文信息至关重要的任务,例如涉及小型、稀疏分布目标或目标嵌入复杂背景的场景。由于它对检测头的修改相对较少,计算开销较低,因此更适合具有严格实时要求或计算资源有限的部署环境。相比之下,YOLOv11n-GoldYOLO-MultiSEAMHead 更侧重于加强检测阶段的特征交互。通过增强多级语义融合和空间-通道注意力调制,该模型在目标密集、遮挡或尺度变化显著的场景中表现出更强的鲁棒性。因此,它更适合于物体重叠和背景杂乱常见的城市或港口环境中的高精度检测任务。通过提供两个针对性的变体,我们可以根据具体的应用需求灵活选择更合适的模型。

9. 结论

本研究针对航空遥感图像目标检测中存在的尺度变化大、分布密集和背景复杂等挑战,提出了基于 YOLOv11n 的改进型轻量级目标检测模型,即 YOLOv11n-LSKA-GoldYOLO 和 YOLOv11n-GoldYOLO-MultiSEAMHead。通过在骨干网络中引入 LSKA 机制,模型显著增强了全局感受野和上下文信息建模能力。在特征融合阶段结合 Gold-YOLO 颈部,实现了更高效、更稳定的多尺度特征交互,而 MultiSEAMHead 模块的集成则实现了具有更强空间-通道联合建模能力的深度跨层特征融合。

在 DOTA-v1 数据集上的实验结果表明,所提出的改进模型在关键指标上优于基线 YOLOv11n,证实了每个模块在增强特征表示和检测精度方面的有效性。在实际应用中,YOLOv11n-LSKA-GoldYOLO 更适用于需要增强全局上下文感知的轻量级部署场景,而 YOLOv11n-GoldYOLO-MultiSEAMHead 则更适用于需要更高检测鲁棒性的复杂密集分布场景。这两个模型为不同的遥感应用需求提供了灵活且可扩展的解决方案。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐