基于改进版YOLOv11的海洋垃圾检测系统设计与实现
摘要
海洋垃圾检测对生态环境保护与智能水下机器人作业具有重要研究价值与工程意义。但水下环境存在能见度低、目标遮挡严重、背景噪声干扰强等难题,极大增加了垃圾精准检测的难度。针对以上问题,本文基于YOLOv11网络,提出一种改进的水下海洋垃圾检测算法,设计并引入混合结构模块(MixStructureBlock)与高效多尺度注意力模块(EMA)。其中,混合结构模块融合多尺度空洞卷积与混合注意力机制,强化网络主干的特征提取能力;高效多尺度注意力模块通过空间与通道特征融合、分组注意力机制,优化检测头的特征图质量。
本文在TrashCan-Instance与TrashCan-Material两大公开数据集上完成模型训练与性能验证。实验结果表明,所提算法在两个数据集上的mAP@0.5分别达到81.54%、82.75%,检测精度显著优于原始YOLOv11、YOLOv8、YOLOTrashCan等基线模型,同时超越TC-YOLO、YOLOv8-MU等近年水下检测最优模型(SOTA),综合性能处于同类算法领先水平。消融实验有效验证了两个新增模块的独立作用与协同增益效果。该改进模型在检测精度与推理效率之间实现极佳平衡,能够满足海洋垃圾实时监测的工程应用需求。
1 引言
随着沿海工业化进程加快与海洋活动规模持续扩大,水下垃圾堆积问题已成为全球性生态难题。海洋垃圾会破坏水生生态平衡,被海洋生物误食、缠绕后会威胁其生存,同时干扰海底勘探、环境监测类水下机器人的正常作业。其中,河流是塑料垃圾入海的主要载体,进一步加剧了全球海洋垃圾污染危机。
为实现海洋垃圾的高效治理与常态化监测,高精度、实时化的海洋垃圾检测技术,已成为智能海洋监控系统、自主垃圾清理设备的核心支撑技术。然而,水下环境复杂特殊,存在能见度低、光照动态波动、垃圾目标尺寸小且重叠遮挡、背景杂乱干扰大等问题,给视觉检测任务带来极大挑战。
深度学习与计算机视觉技术的快速发展,为海洋垃圾检测提供了全新的技术路径。现有研究已开发出适配复杂水下环境的轻量化嵌入式检测算法、机器人原位垃圾检测视觉系统、航空图像漂浮垃圾监测技术。同时,空间碎片检测等邻域研究成果,也验证了深度学习算法在噪声干扰强、目标稀疏场景下的检测可行性。
现阶段,诸多研究针对水下图像的浑浊、色偏、小目标遮挡等问题,对YOLO系列算法进行专项优化。TC-YOLO结合注意力机制与图像增强算法,提升浑浊水域的垃圾检测能力;YOLOv8-MU采用大卷积核模块与多分支重参数化结构,在控制计算量的同时扩大模型有效感受野;Underwater-YOLO、LFN-YOLO等轻量化算法,通过空洞卷积、可变形卷积与遮挡感知注意力机制,提升水下小目标的召回率。
YOLO系列算法凭借高精度、低延迟的优势,被广泛应用于实时目标检测任务。其中,YOLOTrashCan基于YOLOv4优化特征融合与主干网络结构,专门适配海洋垃圾检测场景,在TrashCan-Instance数据集上实现65.01%的mAP@0.5,性能优于SSD、EfficientDet、YOLOv3、YOLOv4等经典模型,但对小尺寸、遮挡、语义相似度高的垃圾目标检测效果仍有短板。
最新的YOLOv11算法优化了网络架构,增强了多尺度特征提取能力与轻量化注意力模块,已成功应用于车辆检测、骨折影像分类等跨领域任务,具备良好的场景适配性。目前,业内针对水下场景的YOLO算法优化,主要围绕色彩校正、大核特征提取、轻量化注意力、多分支结构展开,重点解决水下图像浑浊、色彩失真、低对比度、小目标难识别等问题。基于现有研究的两大核心思路——多尺度特征表征、注意力上下文降噪,本文提出基于YOLOv11的改进算法,引入MixStructureBlock与EMA两大模块,进一步提升复杂水下场景的特征提取能力与目标定位精度。
模型的整体架构如图所示。1,并由三个主要组成部分组成:具备多尺度融合和注意力增强的特征提取骨干;用于层级特征聚合的修改颈部结构;配备高效多尺度注意力(EMA)的改进检测头,用于精细预测。

2 相关工作
当前深度学习技术已成为海洋垃圾检测的主流研究方向。国内外学者开展了大量针对性研究:邓浩等人设计了适配水下复杂场景的低功耗嵌入式垃圾检测算法;富尔顿等人将深度检测模型集成于机器人平台,实现海洋垃圾原位识别;加西亚·加林等人研发了基于航空影像的漂浮垃圾检测系统,并搭建实时网页监测平台。马西米等人针对空间碎片的检测研究,进一步证明深度学习算法在动态、高噪声环境下稀疏目标检测任务的有效性。
注意力机制是提升复杂场景目标检测精度的核心技术。EAPT算法通过金字塔高效注意力机制实现多尺度特征聚合;FSAD-Net利用反馈空间注意力,显著提升去雾、水下低能见度场景的检测鲁棒性;BaGFN、多模态级联CNN等模型,通过高阶特征交互与多模态学习,有效提升目标分类与定位精度。
在小目标检测与细粒度分类领域,Sthy-Net采用密集分支结构强化特征融合,适配水下微小垃圾检测场景。结合注意力机制与大核空洞卷积的水下检测模型,能够有效应对水下背景杂乱、目标尺度多变的检测难题。
1、多尺度特征提取。
在该块内,输入特征应用了具有不同核大小(例如3 × 3、5 × 5、7 × 7)和膨胀(例如膨胀=3)的并行卷积路径。这些多重感受场使块能够同时捕捉局部纹理和远距离依赖关系,这对于出现在不同大小和环境中的碎片物体尤其有利。2.
综合注意力机制。
2、通道注意力(CA):使用全局平均池化,随后使用S形形激活的MLP来重权重特征通道,强调信息对象类别;
像素注意力(PA):利用1×1卷积和激活函数突出突出的空间位置;
简单像素注意力(SPA):通过将分组卷积与空间门控结合,增强空间焦点。
这些分支之后是通道连接和一个基于1×1 MLP的融合层,将多分支输出压缩到原始通道维度。残余连接贯穿始终用于稳定训练并保持梯度流动。

在YOLO系列改进研究中,YOLOTrashCan基于YOLOv4融合注意力机制与特征金字塔增强结构,大幅提升海洋垃圾检测性能。YOLOv11进一步优化多尺度特征提取与上下文建模能力,跨场景适配性更强。现阶段主流的水下专用YOLO改进模型各有优势:TC-YOLO融合色彩校正预处理与注意力模块,消除水下图像浑浊、色偏干扰;AWF-YOLO通过自适应加权特征金字塔,优化多尺度特征融合效果,提升小目标检测能力;UGC-YOLO引入全局上下文模块,捕捉复杂水下背景的长距离依赖;YOLOv8-MU、SPSM-YOLOv8等改进模型,依托大核卷积与轻量化重参数化模块,强化感受野聚合能力与推理效率。现有研究一致证明,多尺度特征表征与注意力降噪机制,是提升水下垃圾检测精度与鲁棒性的关键。
基于上述研究成果,本文以YOLOv11为基础,融合MixStructureBlock与EMA模块,重点优化水下小尺寸、遮挡、复杂背景下的垃圾检测性能。
3 研究方法
本文算法以YOLOv11为基础框架,针对水下垃圾检测的核心难点,对网络主干、检测头进行专项改进。在主干网络中嵌入MixStructureBlock模块,替换原始C3k2模块;在检测头中集成EMA高效多尺度注意力模块,替换原始C2PSA模块,从特征提取、特征优化两个维度解决水下目标定位难、遮挡干扰、背景噪声大等问题。改进后的网络整体结构分为三部分:注意力增强型多尺度特征提取主干网络、分层特征融合颈部网络、搭载EMA模块的精细化检测头。
3.1 混合结构模块(MixStructureBlock)
原始YOLOv11主干网络依靠普通卷积层与残差块提取多尺度特征,但其内置的C3k2模块仅采用固定尺寸卷积核,感受野单一,无法有效捕捉水下场景的长距离上下文信息与多尺度空间特征。而水下垃圾普遍存在尺寸不一、遮挡重叠、与背景融合度高的特点,传统结构特征提取能力有限,极易出现漏检、误检问题。
为解决该问题,本文借鉴DO-Conv卷积结构思路,设计MixStructureBlock混合结构模块。该模块融合多分支空洞卷积与复合注意力机制,在不增加计算成本的前提下扩大网络感受野,同时通过多分支结构同步提取浅层精细纹理特征与深层全局轮廓特征,并利用通道-空间复合注意力机制,筛选低对比度、高噪声场景下的有效特征。
该模块的核心创新包含两点:
(1)多尺度特征提取:模块内部设置多分支并行卷积路径,采用3×3、5×5、7×7等不同尺寸卷积核与空洞率为3的空洞卷积,构建多尺度感受野,同步捕捉局部细节纹理与全局上下文依赖,适配水下垃圾尺寸多变的检测场景。
(2)复合集成注意力机制:融合三类注意力单元,实现特征精准加权。通道注意力(CA)通过全局平均池化与Sigmoid激活多层感知机,对特征通道进行权重重分配,强化目标类别特征;像素注意力(PA)通过1×1卷积与激活函数,突出图像关键空间位置;简易像素注意力(SPA)结合分组卷积与空间门控机制,聚焦目标有效区域。
多分支特征完成提取与加权后,通过通道拼接与1×1卷积完成特征融合降维,同时引入残差连接,稳定模型训练过程、保证梯度正常传播。该模块替代原始C3k2模块后,大幅提升主干网络的多尺度特征提取能力与抗干扰能力,有效改善水下小目标、遮挡目标的特征表征效果,且轻量化设计不会产生过多计算开销。
3.2 高效多尺度注意力模块(EMA)
传统CBAM、ECA等注意力机制已被广泛应用于目标检测任务,但YOLOv11原始的C2PSA模块仅侧重像素级空间注意力,无法有效建模长距离上下文依赖与多层级语义关联。针对水下图像低对比度、画面浑浊、目标重叠的特点,单一空间注意力难以精准区分前景垃圾与背景干扰。为此,本文引入EMA高效多尺度注意力模块替换C2PSA模块,通过轻量化的空间-通道跨维度融合机制,强化多尺度特征提取能力,自适应聚焦目标关键区域,适配水下复杂检测场景。
EMA模块的核心结构包含三部分:
(1)多尺度空间上下文建模:通过并行3×3卷积与自适应平均池化,同步捕捉图像局部细节特征与全局空间依赖关系;
(2)分组归一化加权:采用分组归一化与Softmax激活函数,调节组内特征分布,自适应增强有效特征通道权重、抑制无效通道;
(3)跨维度注意力融合:通过空间特征与通道特征的矩阵乘法运算,捕捉跨维度高阶关联,结合Sigmoid激活生成最终注意力权重图,实现特征动态优化。
本文将EMA模块嵌入网络颈部末端,替代原始C2PSA模块。作为轻量化注意力单元,EMA可同步完成空间与通道特征校准,有效抑制水下背景噪声、强化目标判别性特征,大幅提升模型对小尺寸、低对比度、重叠垃圾目标的检测灵敏度。

3.3 整体网络架构
改进后的YOLOv11网络整体分为主干、颈部、检测头三部分。输入图像首先经过多层步长为2的卷积层完成下采样与特征升维,各阶段特征图均通过MixStructureBlock模块完成多尺度特征提取与优化,充分捕捉不同尺度、不同上下文的垃圾特征信息。主干网络输出的深层特征图经SPPF快速空间金字塔池化模块扩大感受野,再通过EMA模块完成特征降噪与精准加权。
网络颈部采用PANet自上而下的特征融合结构,通过上采样将深层语义特征与浅层细节特征拼接融合,融合后的特征再次经过MixStructureBlock模块细化语义信息;随后通过自下而上的下采样拼接路径,完成多层级上下文特征聚合。最终输出三类不同尺度的特征图,送入并行检测头,分别完成边界框回归、类别概率预测与置信度评分,最后通过非极大值抑制(NMS)筛选,输出最终检测结果。
消融实验证明,MixStructureBlock与EMA模块可独立优化模型性能,二者结合可形成互补增益,充分验证了本文网络结构改进的合理性与有效性。
4 实验结果与分析
4.1 实验数据集
本文采用海洋视觉领域通用的TrashCan基准数据集完成模型训练与验证。该数据集由日本海洋地球科学技术机构(JAMSTEC)基于J-EDI深海图像库构建,包含日本周边海域不同光照、不同环境下的1000余段水下视频,从中提取7212张高清RGB图像并完成精细标注,涵盖各类海洋垃圾、水下生物、探测设备及复杂背景,完全贴合真实水下检测场景。

数据集分为两种标注体系:TrashCan-Instance包含22个目标类别,涵盖垃圾袋、塑料杯、树枝等细分垃圾及海洋生物、水下机器人、未知杂物等类别;TrashCan-Material包含16个类别,按照塑料、金属、织物等材料属性划分。本文选用粒度更精细的TrashCan-Instance数据集,按照6065张训练集、1147张验证集的比例划分,总计包含12128个标注目标实例,覆盖多尺寸、多形态、多场景的海洋垃圾样本。
4.2 评估指标

其中,mAP@0.5为交并比IoU=0.5时所有类别平均精度的均值,mAP@0.5:0.95为IoU阈值0.5~0.95区间内的平均精度均值,可更全面、严格地评估模型综合性能。
4.3 实验环境与训练参数
本次实验硬件环境:Windows10操作系统,Intel i5-12400F CPU,16GB运行内存,NVIDIA RTX3060 12GB GPU。软件框架基于PyTorch 2.1.0、CUDA12.1与Ultralytics YOLO框架实现。
训练参数设置:输入图像统一缩放至416×416分辨率,批次大小设置为128,迭代训练180轮,采用余弦学习率调度策略防止过拟合、加速收敛,其余参数保持框架默认配置。
4.4 对比实验结果与分析
为保证实验公平性与可复现性,本文选取具备公开代码与可训练配置的主流模型作为对比,包括水下最优模型TC-YOLO、YOLOv8-MU,海洋垃圾专用模型YOLOTrashCan,通用检测模型YOLOv8、YOLOv11。
TrashCan-Instance数据集实验结果显示,本文改进模型mAP@0.5达到81.54%,显著优于所有对比模型。相较于传统海洋垃圾专用模型YOLOTrashCan(精度低、模型体积大),本文算法精度大幅提升;相较于TC-YOLO、YOLOv8-MU等水下SOTA模型,性能优势明显;相较于原始YOLOv11基线模型,精度提升13.48%。同时,本文模型体积仅5.20MB,轻量化效果优于YOLOv8、YOLOv11,远优于笨重的YOLOTrashCan模型,兼顾高精度与低部署成本,适配嵌入式水下设备实时检测场景。
可视化检测结果表明,原始YOLOv11存在小目标漏检、边界框定位不准、重叠目标区分能力差、冗余检测框多等问题,而本文改进模型能够精准识别小尺寸、遮挡、重叠垃圾,检测置信度更高,边界框贴合目标轮廓,有效减少误检、漏检与冗余预测。
4.5 消融实验
为验证两个新增模块的有效性与协同作用,本文设置四组消融实验:原始YOLOv11基线模型、YOLOv11+EMA、YOLOv11+MixStructureBlock、完整改进模型。
实验结果表明:基线模型mAP@0.5仅为68.06%;单独添加EMA模块后,模型召回率提升12.25%,mAP@0.5提升至78.93%,证明EMA模块可强化全局上下文建模,提升小目标、低对比度目标的检测灵敏度;单独添加MixStructureBlock模块后,模型精确率提升5.03%,mAP@0.5提升至79.80%,证明该模块可强化多尺度空间特征提取,有效抑制误检、提升目标特征辨识度。
|
输入 |
TC-YOLO |
YOLOv8-MU |
YOLOTrashCan[11] |
YOLOv8 |
YOLOv11 |
我们的 |
|---|---|---|---|---|---|---|
|
640×640 |
640×640 |
416×416 |
416×416 |
416×416 |
416×416 |
|
|
类型 |
水下SOTA |
水下SOTA |
海洋垃圾 |
概述 |
概述 |
拟议 |
|
骨干 |
Transformer_CA |
UniRepLKNet_C2fSTR |
ECA_DO_Conv_CSPDarknet53 |
C2f |
C3k2_C2PSA |
MixStructureBlock_EMA |
|
尺寸(MB) |
6.34 |
6.95 |
214 |
5.95 |
7.50 |
5.20 |
|
mAP@0.5 |
75.40% |
76.19% |
65.01% |
67.83% |
68.06% |
81.54% |
两个模块协同作用时,模型F1分数达到0.84,mAP@0.5提升至81.54%,精确率与召回率同步优化。二者形成完美互补:MixStructureBlock优化空间结构特征、减少误检,EMA模块强化多尺度上下文、减少漏检,协同大幅提升复杂水下场景的检测鲁棒性。
4.6 泛化性能实验
为验证模型的泛化能力,本文在TrashCan-Material数据集上开展补充实验。结果显示,本文模型mAP@0.5达到82.75%,显著优于YOLOv11(70.06%)、YOLOTrashCan(58.66%)等对比算法。在模型体积仅5.20MB的轻量化优势下,仍保持最优检测精度,充分证明MixStructureBlock与EMA模块的普适性,可有效适配不同标注体系、不同场景的水下垃圾检测任务。
5 结论
本文针对水下环境能见度低、背景噪声大、目标遮挡重叠、尺度多变导致的垃圾检测精度不足问题,提出一种基于YOLOv11的轻量化改进检测算法。通过在主干网络引入MixStructureBlock混合结构模块,强化模型多尺度空间特征提取能力,提升小目标、遮挡目标的特征表征效果;通过在检测头嵌入EMA高效多尺度注意力模块,实现空间与通道特征跨维度融合,抑制背景噪声、强化目标关键特征。
在TrashCan-Instance与TrashCan-Material数据集上的大量实验表明,本文改进算法检测性能显著优于基线模型与现有水下最优检测模型,mAP@0.5分别达到81.54%、82.75%,同时模型体积仅5.20MB,实现了高精度与轻量化的完美平衡。消融实验充分验证了两个核心模块的独立增益与协同效果。该算法适配水下嵌入式设备的实时监测需求,可为海洋生态环境保护、水下垃圾智能清理提供有效的技术支撑。
数据可用性说明
本研究使用的TrashCan数据集可通过日本海洋地球科学技术机构(JAMSTEC)官方平台公开获取:https://www.godac.jamstec.go.jp/catalog/dsdebris/e/index.html。研究相关原始数据可联系通讯作者依规获取。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)