基于深度学习的景区垃圾识别系统(YOLOv12完整代码+论文示例+多算法对比)
摘要:本文面向景区巡检与环卫管理场景,设计并实现一套基于深度学习的景区垃圾识别桌面系统,目标是在复杂光照、遮挡与小目标密集条件下,实现可交互、可追溯的实时检测与结果管理。系统提供可下载的数据与代码资源,界面基于 PySide6/Qt 构建,支持图片/视频/本地摄像头多源输入与统一的检测流程,视频与批量任务配套处理进度条与用时统计,结果可一键CSV 导出并支持带框结果快速导出:单帧为 PNG、多帧序列为 AVI。为满足本地化与轻量运维需求,系统内置 SQLite 本地入库用于账户、历史记录与导出索引管理,并提供登录/注册(可跳过)以兼顾安全与便捷体验;同时支持模型选择/权重加载(.pt 热切换),可在运行时切换不同检测模型并同步更新类别与显示信息。算法侧覆盖 YOLOv5–YOLOv12 共 8 种模型,围绕 mAP、F1、PR 曲线与训练曲线等指标开展对比评测,给出精度、速度与部署复杂度的权衡分析,从而为景区垃圾智能巡检提供一套端到端、可复用的工程化范式。文末提供完整工程与数据集下载链接。
文章目录
功能效果展示视频:热门实战|《基于深度学习的景区垃圾识别系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
1. 系统功能与效果
(1)登录注册:系统启动后提供登录与注册入口,同时保留“跳过”选项以便快速进入检测流程;跳过仅对本次会话生效,不影响后续以账号形式沉淀历史记录。登录成功后会自动载入用户的偏好配置与最近检测记录,便于回到上一次的工作状态。账户与记录采用本地数据库管理,配合口令校验与会话控制,在不增加使用负担的前提下提升数据安全与可追溯性。
(2)功能概况:主界面按“数据源与阈值控制—检测显示—目标详情—记录与导出”形成闭环动线,用户可从概览进入核心任务并随时返回查看统计。系统支持单张图片、图片目录与其他输入源的互斥切换,减少误操作带来的状态冲突。底部记录区贯穿各页面共享,可快速定位最近一次检测结果,并通过高亮定位帮助回看关键目标与异常样本。
(3)选择模型:系统支持在运行中选择本地权重文件完成模型切换,切换后会同步刷新类别信息、显示配色与推理参数,使结果解释保持一致。对比不同 YOLO 版本时,用户无需重启即可完成多模型复测,适合在真实景区场景中快速找到精度与速度的平衡点。常用配置与界面主题会被本地保存,下一次启动可直接复用,减少重复设置成本。
(4)图片检测:导入图片后系统会在主显示区实时叠加检测框,展示类别名称与置信度,目标列表与图像高亮联动便于逐个核查可疑区域。Conf/IoU 阈值支持边调边看,适合处理光照反差、遮挡与小目标密集等典型景区难点。检测结果可同步写入记录区,并支持一键导出 CSV 以便后续统计分析与整改闭环。
(5)文件保存:系统将导出与归档统一为时间戳命名策略,便于溯源、对比与批量管理,减少多次试验产生的文件混淆。保存内容覆盖带框结果图、结构化表格与必要的元信息,使复查时能快速对应“原图—预测—参数”。针对巡检复盘场景,用户可按文件名快速定位某次任务的结果集合,实现从检测到留档的流畅体验。
2. 绪论
2.1 研究背景及意义
全球固体废弃物产生量仍在上升,世界银行在《What a Waste 2.0》中指出,全球生活垃圾年产生量预计将从2016年的约 20.1 亿吨增长到2050年的约 34.0 亿吨,这使得面向公共空间的精细化治理与低成本巡检成为长期需求。1 旅游场景的垃圾问题具有“高人流、强随机、难监管”的典型特征,联合国环境规划署在讨论旅游业塑料问题时强调了基础设施与协同治理的重要性,也从侧面说明了仅依赖人工巡查难以形成高频、可持续的闭环管理。2 近年的研究已开始尝试用视频监控与计算机视觉实现自动化的垃圾/乱丢行为识别与取证,这类系统性工作进一步证明了“在线识别+可追溯记录”在公共治理中的落地可行性。3
从技术路径看,目标检测是垃圾识别系统的核心能力之一,它不仅要回答“有没有垃圾”,还要给出“在哪里、是什么类别、置信度如何”,以支撑告警、统计与清运调度等后续业务。4 相比以往依赖候选框的两阶段检测器,端到端检测与注意力/Transformer范式为复杂背景下的鲁棒表征提供了新思路,但仍需要在实时性与部署复杂度之间做工程化权衡。5 在景区落地时,模型推理通常需要面对边缘端或普通工作站的算力约束,因此将模型导出为 ONNX 并借助 TensorRT 等推理引擎进行加速,是实现“低延迟、可用性稳定”的常见做法。6
2.2 国内外研究现状
围绕“景区垃圾识别”这一具体任务,国内外研究首先面临数据与场景覆盖的问题:垃圾目标在自然背景中往往呈现形态多变、材质反光、颜色与环境相近等特征,且同类物体的外观差异大、类间相似度也高,因此需要在真实室外环境中采集并细粒度标注。7 以 TACO 为代表的公开数据集从“真实街景与公共区域垃圾”出发,提供了更贴近野外环境的标注样本,为模型泛化研究提供了基础。7 近期也出现面向道路/街景的更新数据集与基准,如 pLitterStreet 强调复杂城市场景下的垃圾检测与后续处理流程,对遮挡与小目标更加敏感。8 与数据集研究并行,面向公共空间的实时监测系统也开始强调“检测结果与治理动作”的联动,例如 SAWN 将视频分类与目标检测结合,用于公共乱丢监测与通知机制的构建,体现了系统层面闭环的趋势。9
在任务难点层面,景区垃圾检测通常同时包含“小目标占比高、密集遮挡多、光照变化剧烈、背景纹理复杂、长尾类别显著”等问题,这导致同一模型在不同景区、不同季节与不同拍摄角度下性能波动明显。13 针对上述难点,现有工作大多从“更强的多尺度特征融合、更稳健的标签分配与正负样本策略、更适配长尾的损失函数与采样策略、以及面向部署的轻量化”四条线并行推进。13 国内也有较多基于 YOLO 系列的改进研究,常见思路包括加强特征金字塔、引入注意力模块、优化小目标检测头等,以在垃圾这类外观分散的类别上提升召回与稳定性。14
从检测范式看,Anchor-free 方法通过去除先验框设计,降低了对尺度先验的依赖,适合垃圾这类“尺寸跨度大且形状不规则”的目标分布,FCOS 以像素级中心度与回归分支实现了一类典型的全卷积一阶段检测框架。15 Transformer 检测器则以集合预测与全局建模能力,在复杂背景下具备更强的上下文利用潜力,DETR 的端到端训练范式推动了检测从“后处理依赖”向“结构化预测”演进。5 考虑到景区在线部署对延迟更敏感,工程界也在采用更偏实时的 Transformer 检测器分支,并通过统一的评测与对比工具选择合适的精度-速度折中方案。16 在训练与评测策略上,长尾类别与难例占比高会使模型倾向于“学会背景而忘记小目标”,Focal Loss 通过抑制易分类样本的损失贡献,为密集检测与类别不均衡提供了通用的优化方向。17
以 YOLO 家族为主线的技术演进与部署趋势尤为明显:在同等输入分辨率下,不同版本的结构改动(如检测头解耦、标签分配、NMS-free 训练策略、注意力模块等)会显著影响小目标召回与端侧延迟。18 例如,Ultralytics 提供的 YOLOv5u 系列给出了 COCO 验证集上的 mAP 与 ONNX/TensorRT 延迟基准,为“精度-速度-参数量”的可复现实验提供了参照。18 在 YOLOv10 的文档与对比结果中,NMS-free 训练与结构优化被用于改善延迟-精度权衡,并给出了与 YOLOv8 等模型在 COCO 上的统一对比表。19 Ultralytics 的 YOLO11 基准表进一步提供了各尺度模型在 COCO 上的 mAP、CPU ONNX 与 T4 TensorRT 延迟及参数量,为端侧选型与规模切换提供了直接依据。20 最新的 YOLO12 则强调注意力中心的框架设计,并在文档中给出了跨尺度的 COCO mAP 与 T4 TensorRT 延迟数据,同时提供与 YOLOv10/YOLO11 的对照信息,体现出“注意力增强但仍保持实时”的发展方向。[21]
| 方法名称 | 范式/家族 | 数据集/基准 | 关键改进技术(概述) | 优势与局限性(面向景区垃圾) | 关键性能指标(示例) | 更适用的任务难点 |
|---|---|---|---|---|---|---|
| FCOS | Anchor-free 单阶段 | COCO | 中心度分支+全卷积回归 | 对尺度先验依赖小;但密集小目标仍易受噪声影响 | 论文提出并在多基准验证有效性 | 尺度跨度大、形状不规则 15 |
| DETR | Transformer 检测 | COCO | 集合预测+全局匹配 | 全局建模强;但收敛与部署复杂度更高 | 端到端检测范式奠基工作 | 复杂背景、上下文依赖 5 |
| YOLOv5u(n 规模) | YOLO(v5) | COCO | 工程化训练/部署基准 | 易用、生态成熟;对极小目标仍需增强 | mAP 与 ONNX/A100 TensorRT 延迟表可查 | 端侧实时、快速迭代 18 |
| YOLOv10(n 规模) | YOLO(v10) | COCO | NMS-free 训练与结构优化 | 延迟-精度权衡更优;对极端遮挡仍需数据支撑 | 文档对比表给出 mAP 与延迟 | 实时性强、后处理开销敏感 19 |
| YOLO11(n 规模) | YOLO(v11) | COCO | 统一评测与多尺度配置 | 选型与规模切换方便;需结合场景再训练 | 文档给出 mAP、ONNX/T4 延迟与参数量 | 多硬件部署、规模弹性 20 |
| YOLO12(n 规模) | YOLO(v12) | COCO | 注意力中心框架+实时优化 | 注意力增强鲁棒性;速度相对最快版本可能略有代价 | 文档给出 mAP、T4 TensorRT 延迟与对照项 | 光照变化、背景干扰、可解释性增强 [21] |
2.3 要解决的问题及其方案
面向景区垃圾识别的桌面端系统,本文需要解决的问题主要包括:(1)垃圾目标在复杂自然背景下的检测准确性与实时性难以兼顾,尤其是小目标与遮挡场景下的漏检问题;(2)不同景区、季节与拍摄设备带来的域差异显著,模型泛化能力与环境适应性需要通过训练策略与数据处理加以保障;(3)桌面端交互既要直观呈现检测框、类别与置信度,也要支持阈值调参、模型切换、记录追溯与批量导出等完整工作流;(4)检测记录与账户信息需要安全、可追溯地本地化存储,同时保证导出与归档的效率与稳定性。对应的解决方案包括:(1)以 YOLOv12 为核心并对 YOLOv5–YOLOv12 进行系统化对比,通过迁移学习与针对景区数据的增强策略提升精度,同时结合推理加速手段满足实时性;(2)在数据层采用规范化标注、分层划分与可复现实验配置,并引入面向光照、遮挡与尺度变化的增强与清洗策略以改善泛化;(3)前端采用 PySide6/Qt 构建桌面交互,提供多源输入(图片/视频/摄像头)、阈值同步、目标高亮与可视化闭环,并支持权重热切换;(4)以时间戳命名与本地数据库存储为主线组织检测记录、导出文件与账户信息,提升可追溯性并降低维护成本。
2.4 博文贡献与组织结构
本文的主要贡献体现在:(1)围绕景区垃圾识别这一真实应用场景,对公开数据与典型难点进行系统化梳理,并结合工程需求给出可落地的技术路线;(2)以 YOLOv12 为主线完成 YOLOv5–YOLOv12 的训练、推理与指标对比,形成可复现实验与选型依据;(3)构建美观友好的 PySide6/Qt 桌面端,实现多源输入、实时阈值调参、模型权重热切换、记录追溯与一键导出等完整闭环;(4)在系统层面打通评测、可视化、导出与本地存储链路,使模型效果与治理动作对接更顺畅。全文结构上,后续章节将依次介绍数据集处理、模型原理与设计、实验结果与分析,以及系统设计与实现,最后给出结论与未来工作展望。
3. 数据集处理
本项目数据集共 4893 张图片,划分为 3988 张训练集、505 张验证集与 400 张测试集,整体比例约为 81.5%/10.3%/8.2%,能够在保证训练样本规模的同时留出相对独立的验证与最终测试集合用于评估泛化能力。从你提供的样例可视化来看,数据覆盖了景区道路、垃圾桶周边、堆放点与近景手持拍摄等多种室外场景,目标既包含“散落垃圾/成堆垃圾”这类大尺度实例,也包含水瓶、塑料袋等小尺度且易被背景纹理干扰的实例。结合 Ultralytics 常见的数据产物形式,本文默认采用 YOLO 系列的目标检测标注范式(每个目标以类别与归一化框参数描述),并使用 Chinese_name 对类别做统一的中英文对齐与展示命名,以便在训练、可视化与桌面端导出阶段保持一致的类别语义与可追溯性。标签及其对应中文名如下:
Chinese_name={'0':'0','1':'1','Black-bags':'黑色袋子','Blue-bags':'蓝色袋子','Garbage':'垃圾','GarbageBag':'垃圾袋',
'Images':'图片','OtherGarbage':'其他垃圾','Person':'人','Plastic':'塑料','PlasticBag':'塑料袋','Purple-bags':'紫色袋子',
'Red-bags':'红色袋子','White-bags':'白色袋子','Yellow-bags':'黄色袋子','c':'c','can':'罐头','cardboard':'纸板',
'garbage':'垃圾','garbage_bag':'垃圾袋','glass':'玻璃','label':'标签','non-stretch-bag':'非伸缩袋','paper':'纸',
'pet':'宠物','plastic':'塑料','rubbish':'垃圾','sampah-detection':'垃圾检测','smoke':'烟雾','stretch-bag':'伸缩袋',
'trash':'垃圾','trashbag':'垃圾袋','waterbottle':'水瓶'}

从类别分布图可以看出,数据集存在明显的长尾特征:少数类别实例数远高于其他类别,且部分类别在训练集中出现频次较低,这会导致模型更倾向于学习“常见垃圾形态”,在稀有类别或外观差异大的袋类颜色细分上出现召回不足。与此同时,标注框尺度与位置的统计图表显示,目标宽高分布整体偏向小尺度,尤其在远距离街景或背景复杂的场景下,小目标占比高且框形状差异大;中心点分布在画面中部更为密集,但仍存在大量边缘区域目标,这意味着模型需要同时兼顾中心区域的密集目标与边缘区域的截断/遮挡目标。针对这些统计特征,数据处理阶段的关键在于保证类别命名与 id 的一致性,避免同义词、大小写变体造成的“语义重复标注”,并在训练阶段通过采样与损失设计的配合缓解长尾带来的偏置,从而使桌面端的“类别高亮、CSV 统计、历史复查”具备稳定的语义基础。
在预处理与增强策略上,系统侧推理统一采用 640×640 的输入尺度以对齐训练与部署,并通过等比例缩放与必要的填充保持几何一致性,确保框坐标还原与可视化叠加的精确性;训练侧通常配合随机颜色扰动、尺度抖动与几何变换来提高对光照变化、反光材质与拍摄角度的鲁棒性,并可引入多图融合类增强以提升密集场景的检出能力。清洗环节建议对异常标注与空标注进行筛查,必要时清理缓存索引并对数据配置进行统一校验,避免“类别数量不一致、路径失配或缓存污染”导致的训练波动;数据集划分应保持固定规则以保证可复现实验,在此基础上再围绕遮挡、小目标与强背景干扰等难点进行针对性增强,使后续 YOLOv5–YOLOv12 的对比评测能够更真实地反映不同结构在景区垃圾场景下的优势与短板。

4. 模型原理与设计
本文面向景区垃圾识别这一“背景复杂、小目标多、反光材质与遮挡频繁、类别外观差异大且长尾明显”的应用场景,模型侧默认以 YOLOv12 作为主线展开,并将 YOLOv5–YOLOv12 作为同一工程框架下的可对比方案。整体范式仍属于单阶段目标检测:输入图像经骨干网络提取多层语义特征,随后通过颈部结构完成多尺度融合,最后由检测头同时输出类别概率与边界框回归结果;这一流水线的优势在于端到端推理延迟低,便于与桌面端的实时交互(如 Conf/IoU 滑块调参、目标高亮与结果导出)形成闭环。为了让部署端的行为与训练端一致,本文统一采用 640×640 的输入尺度进行预处理,并在推理后将预测解析为 c l a s s n a m e , ; b b o x ( x min , y min , x max , y max ) , ; s c o r e , ; c l a s s i d {class_name,;bbox(x_{\min},y_{\min},x_{\max},y_{\max}),;score,;class_id} classname,;bbox(xmin,ymin,xmax,ymax),;score,;classid 的结构化结果,保证可视化叠加与 CSV 统计在不同模型版本间具有可比性。
在结构设计上,YOLOv12 延续“Backbone–Neck–Head”的模块化骨架,但其关键变化在于将注意力机制更深度地引入到特征建模中:其核心注意力单元可抽象为对查询、键和值的加权聚合
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(dQK⊤)V,
其中 Q , K , V Q,K,V Q,K,V 分别由特征映射线性变换得到, d d d 为通道维度的缩放因子;在室外景区这种“纹理干扰强、目标形态不规则”的画面里,注意力更擅长利用全局上下文抑制背景噪声。与此同时,YOLOv12 在工程上通过区域化的注意力计算与更高效的实现(例如 FlashAttention 思路)降低注意力带来的访存与时延压力,并配合改进的特征聚合模块(如 R-ELAN 思路)缓解深层网络的优化难题,使其在保持实时性的前提下强化特征表达能力。颈部部分仍以金字塔式多尺度融合为主,使浅层细节与深层语义在 P 3 / P 4 / P 5 P3/P4/P5 P3/P4/P5 等尺度上对齐,直接服务于本任务中占比高的小目标检测与遮挡场景下的召回。网络整体架构图如下图所示
损失函数与任务建模方面,本文采用“分类与回归解耦”的常见设计以降低梯度耦合带来的不稳定,并以 IoU 系列损失刻画定位质量、以概率损失刻画分类质量。边界框回归可用 CIoU 形式表达为
L C I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 + α v , L_{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\alpha v, LCIoU=1−IoU+c2ρ2(b,bgt)+αv,
其中 b \mathbf{b} b 与 b g t \mathbf{b}^{gt} bgt 分别为预测框与真值框, ρ ( ⋅ ) \rho(\cdot) ρ(⋅) 表示中心点欧氏距离, c c c 为包围两框的最小外接矩形对角线长度, v v v 描述长宽比一致性, α \alpha α 为平衡系数;该类损失对“框贴不紧、遮挡导致的偏移”更敏感,有助于提升景区垃圾在复杂背景下的定位稳定性。为兼顾小目标的细粒度回归,工程实现中也常结合分布式回归思想:若对某一方向的离散距离分布为 p i = S o f t m a x ( z i ) p_i=\mathrm{Softmax}(z_i) pi=Softmax(zi)( i = 0 , … , m i=0,\dots,m i=0,…,m),则期望距离可写为 d ^ = ∑ i = 0 m i , p i \hat d=\sum_{i=0}^{m} i,p_i d^=∑i=0mi,pi,再由四个方向距离还原为最终边界框;这种表示在边界较模糊或反光导致边缘不清晰时,往往比直接回归更稳健。
训练与正则化策略上,本文更强调“可复现与可部署”的一致性:训练侧通过批归一化与适度正则化抑制过拟合,并采用带 warmup 的学习率调度来平衡收敛速度与稳定性,例如余弦退火形式
η t = η min + 1 2 ( η max − η min ) ( 1 + cos π t T ) , \eta_t=\eta_{\min}+\frac{1}{2}(\eta_{\max}-\eta_{\min})\left(1+\cos\frac{\pi t}{T}\right), ηt=ηmin+21(ηmax−ηmin)(1+cosTπt),
其中 η t \eta_t ηt 为第 t t t 次迭代学习率, T T T 为总迭代步数;这类策略对长尾数据与难例占比高的任务更友好,能减少训练中后期的震荡。推理侧则通过置信度阈值 τ c \tau_c τc 与 NMS 的 IoU 阈值 τ n m s \tau_{nms} τnms 控制误检与重复框,典型的抑制规则可写为:若两框 IoU 满足 I o U ( b i , b ∗ j ) > τ ∗ n m s \mathrm{IoU}(\mathbf{b}_i,\mathbf{b}*j)>\tau*{nms} IoU(bi,b∗j)>τ∗nms,则保留置信度更高者;在桌面端以滑块形式实时调参,本质上是在“召回优先的巡检发现”与“精度优先的证据留存”之间做可解释的权衡。结合本项目类别存在同义词与大小写变体的实际情况,博主建议在训练前先完成类别语义的统一映射与标注一致性校验,并在验证阶段重点关注小目标与遮挡样本的 PR 变化,这样才能让 YOLOv5–YOLOv12 的差异更多来自结构本身,而非数据噪声与标签漂移。
5. 实验结果与分析
本章实验以景区垃圾数据集为对象,训练集/验证集/测试集分别为 3988/505/400 张,统一采用 640×640 的输入预处理与一致的后处理逻辑,对比 8 种 n/tiny 级模型(YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n)以及 8 种 s 级模型(YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s)。评价指标同时覆盖 Precision、Recall、F1、mAP50 与 mAP50-95,并统计端到端用时(Pre/Inf/Post 三段耗时),测试硬件为 NVIDIA GeForce RTX 3070 Laptop GPU(8GB),从而更贴近桌面端实时检测的实际部署条件。下表给出核心对比结果,其中总延迟以 Total = Pre + Inf + Post \text{Total}=\text{Pre}+\text{Inf}+\text{Post} Total=Pre+Inf+Post 汇总,便于直接评估交互端“拖入即检、视频进度条、实时阈值调参”的响应上限。
| Model | Group | Params(M) | FLOPs(G) | Total(ms) | Precision | Recall | F1 | mAP50 | mAP50-95 |
|---|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | n | 2.6 | 7.7 | 10.94 | 0.662 | 0.463 | 0.545 | 0.539 | 0.415 |
| YOLOv6n | n | 4.3 | 11.1 | 10.34 | 0.757 | 0.433 | 0.551 | 0.513 | 0.406 |
| YOLOv7-tiny | n | 6.2 | 13.8 | 21.08 | 0.585 | 0.421 | 0.490 | 0.469 | 0.316 |
| YOLOv8n | n | 3.2 | 8.7 | 10.17 | 0.539 | 0.545 | 0.542 | 0.541 | 0.430 |
| YOLOv9t | n | 2.0 | 7.7 | 19.67 | 0.543 | 0.478 | 0.508 | 0.533 | 0.433 |
| YOLOv10n | n | 2.3 | 6.7 | 13.95 | 0.621 | 0.553 | 0.585 | 0.553 | 0.445 |
| YOLOv11n | n | 2.6 | 6.5 | 12.97 | 0.632 | 0.530 | 0.577 | 0.561 | 0.448 |
| YOLOv12n | n | 2.6 | 6.5 | 15.75 | 0.651 | 0.523 | 0.580 | 0.570 | 0.454 |
| YOLOv5su | s | 9.1 | 24.0 | 12.24 | 0.636 | 0.521 | 0.573 | 0.559 | 0.431 |
| YOLOv6s | s | 17.2 | 44.2 | 12.26 | 0.700 | 0.456 | 0.552 | 0.536 | 0.421 |
| YOLOv7 | s | 36.9 | 104.7 | 29.52 | 0.647 | 0.548 | 0.593 | 0.546 | 0.402 |
| YOLOv8s | s | 11.2 | 28.6 | 11.39 | 0.642 | 0.531 | 0.581 | 0.552 | 0.442 |
| YOLOv9s | s | 7.2 | 26.7 | 22.17 | 0.541 | 0.560 | 0.550 | 0.547 | 0.441 |
| YOLOv10s | s | 7.2 | 21.6 | 14.19 | 0.569 | 0.587 | 0.578 | 0.580 | 0.463 |
| YOLOv11s | s | 9.4 | 21.5 | 13.47 | 0.544 | 0.564 | 0.554 | 0.585 | 0.473 |
| YOLOv12s | s | 9.3 | 21.4 | 16.74 | 0.590 | 0.586 | 0.588 | 0.562 | 0.460 |
从训练过程来看,损失项与指标曲线呈现“前期快速上升、后期缓慢爬升并趋于平台”的典型形态:train/box_loss、train/cls_loss、train/dfl_loss 随 epoch 单调下降,验证集对应损失也整体下降,说明模型确实在学习有效的定位与分类表征;同时 precision 在中前期波动较大而 recall 稳定抬升,反映出该任务中“背景干扰与类间相似”会先带来误检震荡,但随着特征更稳定、回归更贴近真实框后,召回逐步改善。值得注意的是,mAP50 与 mAP50-95 在约 30–50 个 epoch 后进入平台区,后续提升幅度有限,这对工程落地的启示是:一方面可结合早停或更精细的学习率退火压缩训练成本,另一方面更应把精力放在数据清洗(同义类、大小写变体、疑似噪声类)与小目标增强上,以突破“后期只涨一点点”的瓶颈。
在 n 级模型对比中,YOLOv12n 在精度指标上最突出,mAP50=0.570、mAP50-95=0.454 均为该组最高,说明其对不同 IoU 阈值下的整体排序能力更强,更适合作为桌面端“默认权重”用于稳健展示与结果留存;但它的总延迟为 15.75ms,明显高于 YOLOv8n(10.17ms)与 YOLOv6n(10.34ms),这一差异更可能来自注意力增强与更复杂的算子路径带来的推理成本。若以“交互手感优先”为目标,YOLOv8n 在总延迟最低的同时给出了相对均衡的 Precision/Recall(0.539/0.545),属于更适合做实时预览与批量初筛的方案;若以“阈值设定后的一次性巡检发现”为目标,YOLOv10n 在 Recall=0.553 的基础上取得该组最高 F1=0.585,更符合“少漏检”的偏好。

F1-Confidence 曲线显示全类最优 F1 大约出现在置信度 0.203 左右,这也解释了为什么某些模型 mAP 更高但 F1 并不领先:mAP 衡量的是阈值扫描下的整体排序,而 F1 更依赖一个具体阈值点,工程上应在桌面端将默认 Conf 设在 0.20–0.25 并允许用户根据场景实时调节,以把“模型能力”转化为“可用体验”。
为了直观看到“精度收益与模型演进”的关系,图 5-2 给出了 n 级模型的 F1 与 mAP50 对比,整体趋势上 YOLOv11n/YOLOv12n 在 mAP50 上更占优,而 YOLOv10n 在 F1 上更突出;这在景区垃圾识别里是合理的,因为长尾类别与小目标会让“提高召回”变得更难,部分结构更擅长把边界样本排序到前面(提升 mAP),但在固定阈值下仍会受误检影响(压制 F1)。
在 s 级模型对比中,YOLOv11s 取得最高 mAP50=0.585 与 mAP50-95=0.473,表明其对高质量定位与排序更有优势,适合用于“导出留档、复核取证”这类更看重定位质量的环节;但其 F1=0.554 并不突出,结合 PR/F1 曲线的形态更像是“需要更合适阈值与类别级别校准”的模型。相对而言,YOLOv12s 在 Recall=0.586 的前提下得到 F1=0.588,且 mAP50-95 也达到 0.460,属于更稳的折中方案;而 YOLOv8s 以 11.39ms 的最低总延迟提供了 0.581 的 F1 与 0.442 的 mAP50-95,在“实时预览+快速巡检”的桌面端交互里优势明显。

需要强调的是,混淆矩阵与类别映射表暴露出该数据集存在较多语义相近的袋类颜色细分、以及 Garbage/garbage/trash 等同义标签并存的现象,这会天然放大类间混淆并拉低上限,因此后续若统一类别体系(合并同义类、清理疑似噪声类),通常能同时改善 PR 曲线的中高召回段并提升 mAP50-95;从系统角度看,这也会让“目标高亮选择、CSV 统计与历史检索”变得更一致,减少用户在复查时遇到的语义歧义。
6. 系统设计与实现
6.1 系统设计思路
本系统以分层架构组织功能边界,并将“界面与交互层”明确落在 Qt 桌面客户端:左侧完成数据源选择与阈值控制,中部承担检测画面显示与叠加绘制,右侧呈现目标详情与高亮选择,底部统一承载检测记录表格与处理进度条,从而把识别结果的可解释性、可控性与可追溯性集中在同一工作台内。业务层在交互之上建立会话与状态管理,将用户偏好、当前模型、阈值参数、最近记录与导出任务进行一致编排,使得一次检测会话中的参数变更能够即时影响推理与展示,并保证跨页面或跨输入源切换时的状态连续性。
在推理与任务调度层,系统以事件驱动的帧流作为主线:图片、视频与摄像头输入统一被抽象为“帧到达事件”,并被路由到同一帧处理入口,避免三套流程造成的功能割裂;源切换采用互斥策略,在启动新源前主动停止其他源,以规避摄像头占用、并发读写与帧序失配等工程问题。推理主链路内部依次完成输入标准化、阈值同步、模型前向、NMS 等后处理与坐标还原,最终输出结构化检测列表并驱动 UI 的画框、详情与表格更新;视频与目录模式则额外维护帧计数与进度条,以“可感知的处理进度”降低批量任务的不确定性与等待成本。
数据持久化层同时覆盖“本地数据库”与“文件归档”两条路径:数据库侧用于账户与会话相关信息的本地管理,并为历史检测记录、个性化配置与最近操作提供可检索的稳定索引;文件侧用于将带框结果与统计表落地归档,典型输出包括单帧 PNG、多帧 AVI 与 CSV 表格,并以时间戳命名形成统一的溯源链条,便于后续在桌面端按文件名快速定位复查。为保障实时性与一致性,系统还在推理前进行模型预热与设备选择,在可用 GPU 场景下配合半精度等策略降低推理抖动,并将“绘制开销、表格写入频率”视为影响交互流畅度的关键工程变量,必要时可通过抽帧统计或批量写入进一步平衡实时性与记录完整性。

图 6-1 系统流程图
图注:系统从初始化与多源接入开始,经过 640×640 预处理、YOLOv5–YOLOv12 推理、Conf/IoU 过滤与 NMS、坐标还原与前端叠加显示,最终形成表格记录与 CSV/PNG/AVI 的时间戳导出闭环。

图 6-2 系统设计框图
图注:框图以“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”为主线,强调源互斥与参数同步、事件驱动帧流、统一检测适配、SQLite 本地入库与 CSV/媒体归档之间的边界与数据流向。
6.2 登录与账户管理 — 流程图

图 6-3 登录与账户管理流程图
图注:流程从登录入口开始,覆盖注册写入本地数据库、口令校验与会话建立、个性化配置载入与历史记录恢复,并与主检测流程以“进入主界面”节点自然衔接,保证账户空间、结果记录与界面偏好的本地持久化价值。
登录与账户管理在系统中承担“会话起点与个性化入口”的角色:用户启动应用后进入登录界面,根据是否已有账号选择注册或直接登录,注册分支在完成用户名与口令信息校验后写入本地数据库形成账户记录,登录分支对输入口令进行本地校验以建立有效会话;当校验成功后,系统载入与该账户绑定的主题偏好、默认模型与最近检测记录,将“个体化的交互环境”与“可追溯的历史结果”一并恢复到主界面,从而使后续图片、视频与摄像头检测在同一会话语境中保持参数一致、记录连续与导出可复查;在主界面内,用户还可进行资料修改与注销/切换账号操作,以保证账户空间与检测流程之间的长期一致性与管理便利性。
7. 下载链接
若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

功能效果展示视频:热门实战|《基于深度学习的景区垃圾识别系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd;
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程;
数据集标注教程(如需自行标注数据):数据标注合集
参考文献(GB/T 7714)
1 KAZA S, YAO L C, BHADA-TATA P, et al. What a Waste 2.0: A Global Snapshot of Solid Waste Management to 2050[M]. Washington, DC: World Bank, 2018. (Google Books)
2 United Nations Environment Programme. How can tourism fix its plastic problem?[EB/OL]. (2023-04-06) [2025-12-31]. (UNEP - UN Environment Programme)
3 BAKODAH H O, et al. Trashbusters: Deep Learning Approach for Litter Detection and Tracking[EB/OL]. arXiv:2404.07467, 2024. (arXiv)
4 REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. arXiv:1506.01497, 2015. (arXiv)
5 CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers (DETR)[EB/OL]. arXiv:2005.12872, 2020. (arXiv)
6 NVIDIA. Best Practices — NVIDIA TensorRT Documentation[EB/OL]. [2025-12-31]. (NVIDIA Docs)
7 PROENÇA P F, SIMÕES P. TACO: Trash Annotations in Context for Litter Detection[EB/OL]. arXiv:2003.06975, 2020. (arXiv)
8 YOLO-FLOW. pLitterStreet: A Video Dataset for Litter Detection and Segmentation in Urban Environments[EB/OL]. arXiv:2407.03860, 2024. (DeepAI)
9 TAO K, et al. Real-time detection and monitoring of public littering with deep learning, video surveillance and edge computing[J/OL]. Scientific Reports, 2024. (Nature)
10 UNEP Data Catalogue. OpenLitterMap - Dataset[EB/OL]. [2025-12-31]. (UNEP Data Catalogue)
11 BARTHOLOMEW L B, et al. Comparative Study: Litter detection & classification methods using deep learning (overview)[J/OL]. Electronics (MDPI), 2022. (GitHub)
12 孙宪武, 杨德宝. 基于改进YOLOv5的垃圾目标检测算法研究[J]. 软件导刊, 2022. (Interoperable Europe Portal)
13 Ge Z, Liu S, Wang F, et al. Focal Loss for Dense Object Detection[EB/OL]. arXiv:1708.02002, 2017. (arXiv)
14 TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019. (arXiv)
15 ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[EB/OL]. arXiv:1911.08287, 2020. (arXiv)
16 Ultralytics. Model Comparisons: Choose the Best Object Detection Model for Your Project[EB/OL]. [2025-12-31]. (Ultralytics Docs)
17 Ultralytics. Ultralytics YOLOv5 — Performance Metrics (COCO)[EB/OL]. [2025-12-31]. (Ultralytics Docs)
18 Ultralytics. YOLOv10: Real-Time End-to-End Object Detection — Performance Table (COCO)[EB/OL]. [2025-12-31]. (Ultralytics Docs)
19 Ultralytics. Ultralytics YOLO11 — Performance Metrics (COCO)[EB/OL]. [2025-12-31]. (Ultralytics Docs)
20 Ultralytics. YOLO12: Attention-Centric Object Detection — Performance Metrics (COCO val2017)[EB/OL]. [2025-12-31]. (Ultralytics Docs)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)