摘要:本文面向城市环卫与社区分拣场景,构建一套基于深度学习的生活垃圾检测与分类桌面系统,实现“训练评测—在线推理—结果归档”的闭环。系统采用 PySide6/Qt 桌面界面,支持 图片/视频/本地摄像头 多源输入与实时叠加显示(类别名+置信度+边框),并提供处理用时提示与 进度显示/处理进度条,便于视频与批量任务的可控执行。结果侧支持 CSV 导出 与带框结果一键导出:单帧保存为 PNG,多帧序列可汇出为 AVI;同时将账户信息与检测记录写入 SQLite 本地库,提供 登录/注册(可跳过) 入口以满足基础安全与会话隔离需求。算法层覆盖 YOLOv5–YOLOv12(共 8 种),统一训练与推理流程,对比 mAP、F1、PR 曲线与训练曲线等指标,辅助选择更适合垃圾类别细粒度区分与实时部署的模型;系统支持 模型选择/权重加载(.pt 热切换),可在不重启的情况下切换权重并同步刷新类别与可视化配色。文末提供完整工程与数据集链接。

功能效果展示视频:热门实战|《基于深度学习的生活垃圾检测与分类系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件页☇


1. 系统功能与效果

(1)登录注册:系统启动后提供登录与注册入口,用户也可选择一次性跳过进入主界面以便快速体验核心功能;登录状态仅在当前会话内生效,用于区分不同用户的历史记录与个性化偏好。进入系统后,整体动线保持一致:先浏览概览与最近记录,再进入检测页完成输入源选择与推理,最后回到导出视图进行复查与归档。为兼顾体验与安全,账户信息与检测记录采用本地化管理,口令校验与会话隔离对用户透明但可感知。
在这里插入图片描述

(2)功能概况:桌面端采用“左侧控制、中部显示、右侧详情、底部记录与进度”的布局,使得阈值调节、结果查看与导出操作在同一屏内即可完成。系统支持在图片检测为主的交互模式下快速切换到其他输入源页面,且底部检测记录可跨页面复用,便于回看最近一次推理的关键结果。博主更倾向把它理解为一个“可控、可复查”的检测工作台:既能即时看见效果,也能把结果沉淀成可追溯的数据资产。
在这里插入图片描述

(3)选择模型:系统提供模型选择入口,用户只需指定本地权重即可切换当前检测模型,并在界面中同步刷新类别信息与可视化配色,避免“模型换了但标签未更新”的认知混乱。面向对比评测需求,系统将模型切换设计为低干预操作,便于在相同输入与阈值设置下快速复现差异。常用配置与界面主题会进行本地保存,下次启动可延续上次的工作状态,减少重复设置成本。
在这里插入图片描述

(4)图片检测:在图片检测模式下,导入单张图片或一组图片后可进行即时推理,主显示区实时叠加边框与文本信息(类别名与置信度),右侧详情区同步展示目标列表并支持选中高亮,便于检查误检与漏检。用户可通过 Conf 与 IoU 的滑块快速调参,观察阈值变化对召回与精度的影响,从而形成“边看边调”的交互闭环。检测完成后可直接导出结构化结果用于统计分析,也可在界面中快速定位到最近一次记录并进行复核。
在这里插入图片描述

(5)文件保存:系统将导出与归档作为检测流程的自然收尾,支持将结构化结果导出为 CSV,并可一键保存带框可视化结果以便共享与复查。文件统一采用时间戳命名并集中管理,用户可按文件名快速定位某次实验的输入与输出,提升溯源与批量管理效率。除文件导出外,关键检测记录也会写入本地数据库,便于在后续会话中检索历史、对比不同模型与阈值配置下的效果差异。
在这里插入图片描述


2. 绪论

2.1 研究背景及意义

随着我国生活垃圾分类制度的逐步落地,面向“可回收物、厨余垃圾、有害垃圾、其他垃圾”的投放与收运环节愈发依赖统一标识与规范化管理,这为后续的智能识别与自动化分拣提供了清晰的类别边界与工程接口。1 然而在真实投放场景中,垃圾形态多变、污染与破损普遍存在,单纯依靠人工判别不仅效率受限,也容易在高峰期出现错分与漏分,从而影响回收价值与末端处置成本。基于深度学习的目标检测与分类系统能够将“看见并理解垃圾”的能力前移到源头或分拣线,为精细化治理提供可量化的感知数据与可追溯的证据链。

在自动化分拣与回收环节,输送带、机械臂与工控设备逐渐成为主流配置,视觉检测模型的实时性与稳定性直接决定了整线吞吐与分拣精度。近期已有研究将目标检测模型与输送系统控制逻辑耦合,用于提升固废管理的自动识别效率,体现了“端侧实时推理”在工程落地中的可行性与价值。2 对于本文拟实现的桌面端系统而言,构建一套可在图片、视频与本地摄像头输入下稳定运行的检测链路,不仅能服务于教学与科研验证,也可为分拣线的离线复核、数据回流与模型迭代提供低门槛工具。

此外,垃圾检测任务天然具有“人机协同”的应用属性:一方面需要模型在复杂背景下给出可靠的类别与定位,另一方面也需要交互界面将结果以可解释、可复查的方式呈现给使用者,以便快速纠错与导出留存。将检测结果与可视化叠加、记录管理、统计导出相结合,有助于形成从采集、推理到归档的闭环,既满足工程审计与追溯需求,也为后续的持续标注与增量学习奠定数据基础。


2.2 国内外研究现状

面向生活垃圾检测与分类的研究通常覆盖多种场景:社区投放点的单物体识别、分拣线的密集目标检测、以及自然与城市环境中的垃圾巡检等,数据的多样性决定了方法的上限。开放数据方面,TACO 以“野外垃圾”为核心,强调跨地域、跨背景的实例标注与层级类别体系,能够直接反映光照变化、遮挡与类间相似等现实难点。3 与之互补的 RealWaste 数据集来自填埋场真实采样,更贴近破损、沾污与材质混杂的外观分布,适合研究从“干净样本”到“脏乱样本”的域偏移问题。4 在巡检应用中,有工作通过航拍与地面采集构建区域性垃圾检测数据并报告检测与分类性能,提示模型在尺度剧烈变化与背景复杂条件下仍存在明显的性能波动。5 此外,TrashCan 等数据强调水下垃圾的实例标注与环境噪声,虽然与生活垃圾分拣并非同域,但其对遮挡、低对比度与小目标的刻画对通用鲁棒性研究具有借鉴意义。6

从任务需求看,生活垃圾检测的难点往往不是“能否检测到物体”,而是“在可用成本下稳定地分对、分准、分得快”。类别层面,塑料瓶、饮料罐、纸杯等物体在形状与纹理上高度相似,且常伴随污渍、压扁与破损,使得细粒度区分更依赖局部细节与上下文信息。3 目标层面,投放点与分拣线常出现目标密集堆叠、相互遮挡与反光材质,导致边界框回归与置信度校准更容易偏移。4 工况层面,视频检测还会引入运动模糊与帧间抖动,若缺乏稳定的进度管理与停止控制,系统体验会被“可控性不足”所拖累。2 因此,研究通常同时关注精度指标(mAP、F1、PR)与效率指标(延迟、参数量、部署复杂度),并倾向选择单阶段检测器作为工程主线。5

在方法范式上,两阶段检测器通过候选区域生成与精细分类回归获得较强的精度潜力,但代价是更复杂的流水线与更高的延迟风险。Faster R-CNN 通过区域建议网络将候选生成融入端到端训练,在 COCO test-dev 上给出了 mAP@[0.5,0.95] 为 21.5 的基线结果并强调共享特征带来的效率收益。7 单阶段检测器则以端到端密集预测为核心,SSD 在 VOC2007 上报告了 74.3% mAP 与 59 FPS 的速度表现,展示了“一次前向完成定位与分类”的工程优势。8 面对密集检测的类别不平衡,RetinaNet 提出了 Focal Loss 以缓解易样本主导训练的问题,从而显著抬升单阶段检测的精度上限。9 在多尺度融合方面,EfficientDet 通过 BiFPN 与复合缩放实现了可伸缩的精度效率权衡,并在 COCO test-dev 上给出 55.1 AP 的结果,为资源受限设备提供了更系统的设计思路。10 Anchor-free 方向进一步减少了超参数敏感性,FCOS 以像素级预测实现无锚框检测并报告了 44.7 AP 的单尺度结果,而 CenterNet 以“目标中心点”建模在不同速度档位下给出了 AP 与 FPS 的可调权衡,这些方法对小目标与密集场景具有启发意义。11 Transformer 检测器则尝试以集合预测替代传统后处理,DETR 将检测统一为端到端集合匹配框架,但训练收敛与计算成本在工程上仍需权衡。13

方法(引用) 范式/家族 代表数据集 关键改进技术 优势与局限性 关键性能指标(可追溯) 适用场景/对应难点
Faster R-CNN7 两阶段、Anchor-based COCO RPN 与检测共享特征 精度潜力强但链路更复杂 COCO test-dev mAP@[0.5,0.95]=21.5 需要更高精度的离线复核与难例分析
SSD8 单阶段、Anchor-based VOC 多尺度特征图密集预测 速度快但对小目标较敏感 VOC2007 mAP=74.3%,59 FPS 轻量实时、硬件资源受限
RetinaNet9 单阶段、Anchor-based COCO Focal Loss 缓解类不平衡 精度提升明显但仍依赖 NMS 提出焦点损失并验证单阶段可匹配两阶段精度 长尾类别与难例样本占比高
EfficientDet10 单阶段、Anchor-based COCO BiFPN 与复合缩放 易伸缩、工程可控 COCO test-dev AP=55.1(D7) 多尺度变化大且需兼顾效率
FCOS11 单阶段、Anchor-free COCO 像素级回归与中心度 超参更少但仍需 NMS COCO AP=44.7(单尺度) 目标尺度差异大、Anchor 调参成本高
CenterNet12 Anchor-free、关键点 COCO 目标中心点建模 结构简洁但对中心重叠敏感 28.1% AP@142 FPS,37.4% AP@52 FPS 追求极致实时与轻量部署
RT-DETR14 Transformer、端到端 COCO 高效混合编码器与查询选择 免 NMS 且速度可调 COCO AP=53.1,108 FPS(T4) 期望减少后处理并稳定延迟
PP-YOLOE16 YOLO 分支、Anchor-free COCO TAL 动态分配与 ET-head 部署友好且精度高 COCO mAP=51.4,78.1 FPS(V100) 工业部署与 TensorRT 加速需求
YOLOv717 YOLO 家族 COCO Bag-of-freebies 训练策略 精度强但依赖 NMS COCO AP=56.8,30 FPS(V100) 高精度实时检测主线
YOLOv1020 YOLO 家族、NMS-free COCO 双重分配与端到端设计 延迟更低但训练范式更新 YOLOv10-B 延迟降低 46%(同等性能对比) 对在线延迟敏感的分拣工况
YOLOv1221 YOLO 家族、注意力主导 COCO Attention-centric 与大模型蒸馏 精度效率边界继续推进 COCO AP 提升且强调端到端优化 复杂背景与小目标并存的多源输入

在 YOLO 体系的演进脉络中,研究的核心方向可以概括为“更强的特征表达、更稳的训练分配、更低的推理冗余、更友好的部署接口”。YOLOX 将解耦头与 Anchor-free 训练结合,并强调在工程侧对部署与推理接口的适配,从而推动了 YOLO 系列向更通用的工业形态发展。15 PP-YOLOE 通过 TAL 动态标签分配与部署友好的结构设计,在 COCO 上同时给出 mAP 与 FPS 的改进,并进一步报告了 TensorRT 下的加速收益,体现了“训练策略与部署链路协同优化”的趋势。16 在去除后处理瓶颈方面,RT-DETR 以端到端 Transformer 框架在 COCO 上给出 53.1% AP 与 108 FPS 的结果,为“免 NMS 的实时检测”提供了可复用范式。14 YOLOv10 进一步将 NMS-free 训练与端到端部署作为主目标,通过一致的双重分配与整体效率驱动设计,在相近 AP 下报告了更低延迟与更小参数量的优势。20 更近期的 YOLOv12 以注意力主导的设计组织网络结构,强调在不同模型尺度上的性能边界推进,为复杂场景下的鲁棒检测提供了新的结构化路径。21

从系统化研究与应用趋势看,垃圾检测正从“单模型离线评测”转向“端侧在线运行与可视化闭环”。一方面,IoU 家族损失从 GIoU 到 CIoU 再到 EIoU 的演进持续改善边界框回归的收敛性质,为遮挡与形变目标提供更稳定的优化信号。2224 另一方面,面向交互式系统的可解释性需求不断上升,Grad-CAM 等可视化方法为模型关注区域提供直观证据,有助于在标注噪声与域偏移条件下快速定位失败模式。[25] 综合来看,国内外研究已经在数据集扩展、检测器范式与部署加速方面形成较为完整的技术栈,但在生活垃圾这一高噪声、高遮挡、强长尾的场景中,仍需要将多模型对比、阈值可控交互、结果可追溯导出与本地持久化管理一体化,才能真正满足工程落地的稳定性与可维护性要求。


2.3 要解决的问题及其方案

围绕“基于深度学习的生活垃圾检测与分类系统”的工程目标,本文需要解决的关键问题可归纳为:(1)检测与分类的准确性与实时性难以兼顾,尤其在小目标、遮挡与反光材质条件下容易出现误检与漏检;(2)模型对不同场景的适应性与泛化能力不足,投放点、室内光源与分拣线工况的域差异会放大性能波动;(3)桌面端交互界面需要同时满足直观性与功能完整性,既要支持多源输入与实时调参,也要确保操作动线清晰且结果可复查;(4)数据处理效率与存储安全性需要工程化保障,检测记录、导出文件与账号信息应具备可追溯与可管理能力。

针对上述问题,本文拟采用的解决方案包括:(1)以 YOLOv12 为核心检测模型,结合数据增强、迁移学习与 YOLOv5 至 YOLOv12 多模型性能对比,兼顾精度与速度并为不同硬件条件提供可选配置;(2)基于 PyTorch 完成训练与推理链路,实现统一输入尺寸预处理、后处理与统计指标计算,并通过多场景数据与阈值调节提升模型的稳健性;(3)以前端 PySide6/Qt 构建桌面交互系统,支持图片、视频与本地摄像头输入,并提供模型权重热切换、Conf 与 IoU 参数同步、目标选择高亮与结果导出等闭环能力;(4)优化数据处理与持久化结构,通过缓存序列、时间戳命名与本地 SQLite 数据库管理检测记录与账户信息,必要时结合硬件加速与系统测试提升整体实时性与稳定性。


2.4 博文贡献与组织结构

本文的主要贡献可概括为:(1)面向生活垃圾检测与分类的任务需求,系统梳理数据集特征、场景难点与检测范式演进,并给出与工程落地相关的性能权衡分析;(2)以 YOLOv12 为主线构建训练与推理流程,同时覆盖 YOLOv5 至 YOLOv12 的多模型对比评测,形成可复用的指标体系与实验分析框架;(3)实现美观且可用的 PySide6/Qt 桌面端交互系统,支持多源输入、实时调参、记录管理与一键导出,降低非算法背景用户的使用门槛;(4)将检测结果的可追溯性纳入系统设计,通过本地数据库与统一导出策略实现“结果可回看、过程可复核、数据可沉淀”;(5)整理完整工程与数据资源组织方式,便于读者复现、二次开发与后续扩展。

全文组织结构安排如下:第 3 章介绍数据集来源、标注规范、类别分布与增强清洗策略;第 4 章阐述 YOLO 检测模型的原理与关键设计,并结合垃圾场景难点解释结构与训练策略的选择;第 5 章给出 YOLOv5 至 YOLOv12 的实验对比与误差分析,并以图表呈现 mAP、F1、PR 等指标差异;第 6 章从分层架构角度描述桌面端系统的设计与实现,包括多源输入、任务调度、结果存储与导出闭环;最后在结论部分总结系统效果并展望轻量化部署、持续学习与多模态融合等后续方向。


3. 数据集处理

本项目使用的生活垃圾目标检测数据集共 10,464 张图像,其中训练集 7,324 张、验证集 2,098 张、测试集 1,042 张,划分后既能保证训练收敛的样本量,也为不同 YOLO 模型的公平对比提供了相对稳定的验证与测试基准。类别体系为 6 类:BIODEGRADABLE(可降解)、CARDBOARD(纸板)、GLASS(玻璃)、METAL(金属)、PAPER(纸质)、PLASTIC(塑料),中英文映射在系统侧用于检测框标签、记录表格与导出字段的统一展示,从而让算法输出更贴近垃圾分类的业务语境。结合批量样例的可视化叠加效果可以看出,图像中同时存在近景大目标与局部截断目标,且反光、透明材质与纹理相近类别并存,这决定了后续的数据处理不仅要关注“标得准”,也要关注“标得稳、训得稳”。标签及其对应中文名如下:

Chinese_name = {'BIODEGRADABLE': "可降解", "CARDBOARD": '纸板', 'GLASS': "玻璃", 'METAL': "金属", 'PAPER': "纸质", 'PLASTIC': "塑料"}

在这里插入图片描述

从标签统计可视化的分布形态来看,目标中心点在画面中部更密集,说明采集构图存在一定中心偏置;同时宽高分布呈明显的长尾,小尺寸目标与细长框占比不低,这类样本在缩放、压缩与光照变化下更容易产生漏检或定位漂移。为降低噪声对训练的干扰,数据清洗阶段通常需要优先排查极小框、异常长宽比、重复框与明显越界框,并确保标注坐标与图像尺寸在读入与缩放过程中严格一致;同时建议在划分时固定随机种子,并尽量保持各类别在训练/验证/测试中的比例一致,避免验证集被少数类别主导而导致评估波动。
在这里插入图片描述

针对生活垃圾场景常见的遮挡堆叠、反光透明与类间相似等难点,数据预处理与增强策略应当围绕“提升尺度鲁棒性、缓解光照材质变化、增强遮挡条件下的可见特征”来组织:在保证输入尺度统一与坐标还原一致的前提下,可通过随机缩放裁剪与轻度仿射增强应对尺度差异,通过亮度/对比度/颜色扰动与轻度模糊噪声覆盖光照变化与视频退化,通过拼接类增强与随机遮挡模拟密集堆叠与部分可见目标,从而提升模型在真实投放与分拣工况下的稳定性。后续第 5 章若出现“纸质/纸板/可降解”之间的混淆或“小目标召回偏低”等现象,也可以在本节所述的分布特征与增强策略中找到对应的解释路径,形成从数据到指标再到改进的闭环叙事。


4. 模型原理与设计

本文的检测模型以 YOLO 系列的单阶段范式为主线:输入图像经过统一尺度的预处理后,网络在一次前向传播中同时完成位置回归与类别判别,输出若干候选框及其类别概率,从而以较低延迟满足桌面端图片/视频/摄像头的在线推理需求。对于生活垃圾检测而言,挑战集中在类间相似(如纸质与纸板、可降解与纸质包装)、材质反光与透明(玻璃、金属、塑料)以及堆叠遮挡与尺度差异并存,这要求主干网络具备足够的纹理表征能力,颈部结构能够稳定融合多尺度语义与细节信息,而检测头需要在分类与定位之间取得更好的解耦与校准,使得置信度既能反映“是不是目标”,也能更一致地反映“分得对不对”。在工程实现上,YOLO 的结构化输出也便于系统侧将每个目标解析为 c l a s s n a m e ,   b b o x ( x min ⁡ , y min ⁡ , x max ⁡ , y max ⁡ ) ,   s c o r e ,   c l a s s i d {class_name,\ bbox(x_{\min},y_{\min},x_{\max},y_{\max}),\ score,\ class_id} classname, bbox(xmin,ymin,xmax,ymax), score, classid 并完成坐标还原与可视化叠加,从而把算法结果自然地映射到 Qt 界面的目标列表、记录表格与导出文件中。 (Ultralytics Docs)

在 YOLOv12 的设计中,“以注意力为中心”是其区别于传统 CNN 主导版本的关键取向:通过区域化的注意力计算在保持感受野的同时降低开销,并配合改进的特征聚合模块提升优化稳定性,最终形成 Backbone–Neck–Head 的可部署结构族。其注意力计算可用标准自注意力形式表述为
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(d QK)V,
其中 Q , K , V Q,K,V Q,K,V 分别表示查询、键和值特征, d d d 为通道维度的缩放因子;在 YOLOv12 中,区域注意力会将特征图划分为若干区域以减少全局二次复杂度带来的吞吐损失,并结合更适合 YOLO 分层特征流的聚合结构,使注意力模块在实时检测约束下仍可工作。对生活垃圾这类“细粒度类别 + 复杂材质 + 频繁遮挡”的任务而言,注意力带来的全局依赖建模能更好地区分相似纹理与局部污染造成的外观扰动,而颈部的多尺度融合则直接服务于小目标与被遮挡目标的召回;与此同时,检测头沿用更偏工程化的输出形式,便于在系统侧对不同尺度层的候选框统一做后处理与高亮交互。 (arXiv)

在损失函数与任务建模上,YOLO 系列通常以“分类损失 + 置信度损失 + 边界框回归损失”的加权和作为目标函数,可写为 L = λ box L box + λ cls L cls + λ obj L obj L=\lambda_{\text{box}}L_{\text{box}}+\lambda_{\text{cls}}L_{\text{cls}}+\lambda_{\text{obj}}L_{\text{obj}} L=λboxLbox+λclsLcls+λobjLobj,其中 L cls L_{\text{cls}} Lcls L obj L_{\text{obj}} Lobj 多采用二元交叉熵形式以实现多类别与前景置信度的稳定学习。边界框回归部分常用 IoU 家族损失增强几何约束,例如 CIoU 可写为
L CIoU = 1 − I o U + ρ 2 ( b , b g t ) c 2 + α v , L_{\text{CIoU}}=1-\mathrm{IoU}+\frac{\rho^{2}(b,b^{gt})}{c^{2}}+\alpha v, LCIoU=1IoU+c2ρ2(b,bgt)+αv,
其中 ρ 2 ( b , b g t ) \rho^{2}(b,b^{gt}) ρ2(b,bgt) 表示预测框与真值框中心点距离, c c c 为最小外接框对角线长度, v v v 用于刻画长宽比一致性, α \alpha α 为其权重项;在垃圾检测中,这类损失对“细长框、局部截断框、堆叠遮挡导致的定位偏移”更敏感,能在训练阶段提供更稳定的回归梯度,从而减少视频流中框抖动与边界漂移带来的观感问题。 (arXiv)

训练与推理策略上,为保证桌面端的可控交互与跨输入源一致性,本文默认采用统一输入尺度(常见为 640 × 640 640\times640 640×640)并保持预处理、坐标还原与可视化链路的一致;训练阶段通过常规正则化与学习率调度稳定收敛,并在验证集上同步观察 PR 曲线与混淆矩阵以定位“纸质/纸板/可降解”等易混类别的错误来源。推理阶段的核心是阈值与抑制策略:系统侧提供 Conf/IoU 滑块本质上对应置信度过滤与 NMS 抑制强度的调节,Conf 偏高会降低误检但可能加剧小目标漏检,IoU 偏低会更激进地抑制重叠框但在堆叠场景可能误删有效目标;因此在玻璃反光、金属高亮与塑料透明导致的背景假阳性上,通常需要更稳健的置信度校准与更合理的阈值组合来取得体验上的平衡。网络整体架构图如下图所示(示意图来源于公开网络结构图绘制,便于读者快速把握 Backbone/Neck/Head 的信息流与多尺度检测输出)。 (Ultralytics Docs)

在这里插入图片描述


5. 实验结果与分析

本章实验以 10,464 张生活垃圾检测数据为基础(训练/验证/测试为 7,324/2,098/1,042,6 类:可降解、纸板、玻璃、金属、纸质、塑料),围绕“检测精度与端侧实时性是否能兼顾”这一目标,对 YOLOv5–YOLOv12 的 8 个代表模型进行统一训练与测试对比,并同时报告 Precision、Recall、F1、mAP@0.5(记为 mAP50)与 mAP@0.5:0.95(记为 mAP50-95)。推理时延在 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)上统计,并细分为预处理、推理与后处理三段,用于更贴近桌面端视频/摄像头在线运行时的真实体验;从系统落地角度看,单帧端到端耗时(Pre+Inf+Post)比单独的推理耗时更能解释“界面是否跟手、进度条是否稳定推进、导出是否会阻塞”的感受差异。
在这里插入图片描述

从 s 规模模型组(YOLOv5su、v6s、v7、v8s、v9s、v10s、v11s、v12s)来看,精度上 YOLOv7 的 F1=0.5923、mAP50=0.5858 达到该组最优,但其推理耗时 23.62ms 使端到端耗时约 29.52ms(约 33.9 FPS),更适合“追求更高准确率、允许中等帧率”的在线检测或离线批量复核。YOLOv9s 在 mAP50-95=0.4126 上达到全组最高,说明在更严格的 IoU 阈值区间下定位质量更占优,但其推理耗时 18.66ms 使端到端约 22.17ms(约 45.1 FPS),更像是精度与速度之间的折中点。YOLOv10s 的后处理仅 0.60ms,端到端约 14.19ms(约 70.5 FPS),在桌面端交互上更容易获得“拖动阈值滑块后立刻生效、视频进度条不抖”的体验;而 YOLOv8s 端到端约 11.39ms(约 87.8 FPS)仍保持较稳的 F1=0.5507、mAP50=0.5501,是一条更偏“顺滑实时”的工程选择。
在这里插入图片描述

在默认关注的 n 规模模型组(YOLOv5nu、v6n、v7-tiny、v8n、v9t、v10n、v11n、v12n)中,精度最靠前的两个模型呈现出“指标各擅胜场”的特点:YOLOv12n 的 mAP50=0.5573、mAP50-95=0.3915 为该组最高,但端到端约 15.75ms(约 63.5 FPS);YOLOv11n 的 F1=0.5546、Precision=0.6326 为该组最高,端到端约 12.97ms(约 77.1 FPS),更适合作为桌面系统默认权重以兼顾“总体可用性”和“交互响应”。若以“尽可能高帧率”作为目标,YOLOv6n 与 YOLOv8n 的端到端耗时分别约 10.34ms(约 96.7 FPS)与 10.17ms(约 98.3 FPS),但需要接受 mAP50 与 F1 的小幅回落;另外,YOLOv7-tiny 的推理与后处理开销偏大(14.74ms 与 4.06ms),在本任务与当前实现配置下并未体现出更有优势的速度收益。

表 5-1 不同模型精度与端到端时延对比(RTX 3070 Laptop,单位:ms)

组别 Model Params(M) FLOPs(G) Pre+Inf+Post (ms) 约FPS Precision Recall F1 mAP50 mAP50-95
s YOLOv5su 9.1 24.0 12.24 81.70 0.6134 0.4756 0.5358 0.5386 0.3708
s YOLOv6s 17.2 44.2 12.26 81.57 0.6181 0.4512 0.5216 0.5322 0.3753
s YOLOv7 36.9 104.7 29.52 33.88 0.6415 0.5501 0.5923 0.5858 0.3979
s YOLOv8s 11.2 28.6 11.39 87.80 0.6269 0.4911 0.5507 0.5501 0.3819
s YOLOv9s 7.2 26.7 22.17 45.11 0.6433 0.5072 0.5672 0.5825 0.4126
s YOLOv10s 7.2 21.6 14.19 70.47 0.6188 0.5134 0.5612 0.5703 0.4015
s YOLOv11s 9.4 21.5 13.47 74.24 0.6303 0.5038 0.5600 0.5717 0.4034
s YOLOv12s 9.3 21.4 16.74 59.74 0.6126 0.5356 0.5716 0.5787 0.4081
n YOLOv5nu 2.6 7.7 10.94 91.41 0.6027 0.4651 0.5250 0.5373 0.3650
n YOLOv6n 4.3 11.1 10.34 96.71 0.5667 0.4593 0.5074 0.5062 0.3524
n YOLOv7-tiny 6.2 13.8 21.08 47.44 0.5866 0.4895 0.5337 0.5149 0.3136
n YOLOv8n 3.2 8.7 10.17 98.33 0.5988 0.5127 0.5524 0.5423 0.3703
n YOLOv9t 2.0 7.7 19.67 50.84 0.5992 0.4772 0.5312 0.5420 0.3823
n YOLOv10n 2.3 6.7 13.95 71.69 0.6176 0.4728 0.5356 0.5412 0.3793
n YOLOv11n 2.6 6.5 12.97 77.10 0.6326 0.4938 0.5546 0.5507 0.3831
n YOLOv12n 2.6 6.5 15.75 63.49 0.5998 0.5053 0.5485 0.5573 0.3915

进一步结合 PR 曲线与混淆矩阵,可以把“总体指标接近”背后的错误结构拆开来看:
在这里插入图片描述

从类别 PR 曲线的示例结果可见,GLASS 的曲线明显优于其他类(mAP 约 0.842),而 PAPER 的 mAP 仅约 0.069,呈现出典型的“单类拖后腿”现象;这类现象在生活垃圾任务中并不罕见,因为纸质目标常出现“薄、皱、反光弱、边界不清”的外观特征,同时与纸板、可降解包装存在强相似性,叠加遮挡与背景纹理后更容易被当作背景过滤。
在这里插入图片描述

归一化混淆矩阵进一步印证了这一点:PAPER 的对角线仅约 0.12,而被预测为 background 的比例约 0.73,说明其主要问题不是“分错成别的类”,而是“压根没被检出”,因此提升该类更应从召回侧入手,例如补充纸质难例与小目标样本、针对褶皱与遮挡设计更贴近真实的增强、对长尾类别进行重采样或损失重加权,并在桌面端通过 Conf/IoU 的可视化调参先找到更合适的阈值区间,再把经验回写到训练策略中形成闭环。

在这里插入图片描述

从训练过程曲线(mAP50 随 epoch 上升并在后期趋于平台)可以看出,大多数模型在前 20–40 个 epoch 即完成主要性能爬升,随后进入缓慢增益阶段,这意味着后期差距往往来自“细粒度类的难例学习”和“置信度校准”,而不是单纯的特征提取能力。值得一提的是,F1-Confidence 曲线给出了整体最优 F1 大约出现在 conf≈0.334(all classes F1≈0.56)的区域,这与桌面端提供 Conf 滑块的设计目标一致:当用于实时巡检时可以适当降低阈值换取召回,当用于结果归档与导出时则可提升阈值减少误检;结合表 5-1 的速度与精度权衡,博主更建议将 YOLOv11n 作为默认在线模型、YOLOv12n 作为“追求更高 mAP”备选,而 s 组中可将 YOLOv8s 作为高帧率选项、YOLOv7 作为高精度复核选项,通过一键热切换完成不同任务模式的快速切换。


6. 系统设计与实现

6.1 系统设计思路

本系统面向生活垃圾检测与分类的桌面端落地需求,采用分层架构组织整体功能边界与数据流向,核心目标是在“多源输入、实时推理、可视化交互、可追溯导出”之间建立稳定闭环。表现与交互层以 PySide6/Qt 客户端为载体,负责输入源选择、Conf/IoU 阈值调节、检测结果叠加显示、目标高亮与记录表格呈现,使用户在单一界面内完成从控制到复核的主要操作。业务与会话管理层负责源互斥、状态维护与导出编排,确保图片、视频与摄像头等输入在同一时刻仅激活一种通道,避免任务争抢导致的帧乱序与参数漂移。

推理与任务调度层采用事件驱动的帧流思想组织媒体接入与计算管线:输入端将图像或视频帧统一抽象为帧序列,预处理模块负责尺寸缩放与张量化,YOLO 推理引擎完成前向计算,后处理模块执行 Conf/IoU 过滤、NMS 与坐标还原,并将结构化结果回传到前端渲染与统计组件。为保证实时性与一致性,系统将阈值参数作为跨层共享状态进行同步,确保界面滑块变化能够在下一帧生效,同时将进度条、耗时信息与任务队列状态联动展示,使用户能够直观看到处理进度并在必要时停止或切换输入源。该设计也为后续扩展提供接口基础,例如权重热切换、批量导出与异常恢复等能力均可在不破坏主链路的前提下插入业务层编排逻辑。

数据持久化层以本地 SQLite 作为账户与检测记录的统一落点,并将可视化结果与结构化结果分离管理:前者用于快速复查与回放,后者用于统计分析与实验对比。导出侧采用时间戳命名策略与统一归档规则,保证同一批次的 CSV、PNG 与 AVI 在时间维度上可对齐,便于回溯“输入源—模型—阈值—输出结果”的对应关系;同时,通过记录表格与导出日志的双通道沉淀,系统能够支持跨会话的历史检索与最近记录定位,从而把一次推理从“临时可视化”升级为“可复核、可追踪的实验样本”。

在这里插入图片描述

图 6-1 系统流程图
图注:该流程图从系统初始化开始,贯穿多源输入、预处理、YOLO 推理、后处理与前端联动,并在“继续获取下一帧”处形成视频/摄像头的闭环;Conf/IoU 滑块、目标高亮与 CSV/PNG/AVI 导出作为交互与归档的关键节点嵌入主流程。

在这里插入图片描述

图 6-2 系统设计框图
图注:该框图以“表现与交互层、业务与会话管理层、推理与任务调度层、数据持久化层”为主干,强调阈值参数与检测结果在跨层之间的同步机制,以及导出归档与本地数据库在可追溯性上的支撑作用。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图注:流程从登录界面开始,经由“已有账号”分支进入注册或直接登录;注册信息落入本地数据库后与登录校验共享同一路径,校验成功则加载个性化配置并进入主界面,后续可通过资料修改与注销切换实现会话边界与本地持久化的一致管理。


7. 项目资源链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述
项目完整文件请见项目介绍及功能演示视频处给出:

完整项目及文档: https://newtopmat.feishu.cn/wiki/JOwrwZewfiij1IkTQiPcZqfwn9e

功能效果展示视频:热门实战|《基于深度学习的生活垃圾检测与分类系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 国家市场监督管理总局, 中国国家标准化管理委员会. 生活垃圾分类标志: GB/T 19095—2019[S]. 北京: 中国标准出版社, 2019. (国家标准网)
2 ALMTIREEN A, AL-ANI A, AL-MASRI A, et al. A PLC integrated conveyor system for waste management using YOLOv8 object detection model[J]. Applied Sciences, 2025. (Ultralytics Docs)
3 PROENÇA P F, SIMÕES P. TACO: Trash Annotations in Context for Litter Detection[J/OL]. arXiv preprint arXiv:2003.06975, 2020. (arXiv)
4 YU M, LI Y, WANG Z, et al. RealWaste: A Novel Real-Life Data Set for Landfill Waste Classification[J]. Information, 2023, 14(12): 633. (MDPI)
5 MAJCHROWSKA S, MIKOŁAJCZYK A, FERLIN F, et al. Waste Detection in Pomerania: A Technical Report[J/OL]. arXiv preprint arXiv:2105.06808, 2021. (ScienceDirect)
6 TrashCan 1.0 Dataset Description[EB/OL]. Kaggle, 2023. (Kaggle)
7 REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J/OL]. arXiv preprint arXiv:1506.01497, 2015. (ar5iv)
8 LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]//ECCV. 2016. (ar5iv)
9 LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[J/OL]. arXiv preprint arXiv:1708.02002, 2017. (arXiv)
10 TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[J/OL]. arXiv preprint arXiv:1911.09070, 2019. (arXiv)
11 TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV. 2019. (arXiv)
12 ZHOU X, WANG D, KRÄHENBÜHL P. Objects as Points[J/OL]. arXiv preprint arXiv:1904.07850, 2019. (arXiv)
13 CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[C]//ECCV. 2020.
14 ZHAO Y, LV W, XU S, et al. DETRs Beat YOLOs on Real-time Object Detection[J/OL]. arXiv preprint arXiv:2304.08069, 2023. (arXiv)
15 GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO Series in 2021[J/OL]. arXiv preprint arXiv:2107.08430, 2021. (arXiv)
16 XU S, WANG X, LV W, et al. PP-YOLOE: An Evolved Version of YOLO[J/OL]. arXiv preprint arXiv:2203.16250, 2022. (arXiv)
17 WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[J/OL]. arXiv preprint arXiv:2207.02696, 2022. (arXiv)
18 WANG C Y, YEH I H, LIAO H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[J/OL]. arXiv preprint arXiv:2402.13616, 2024. (arXiv)
19 Ultralytics. YOLOv9 模型文档[EB/OL]. 2025. (Ultralytics Docs)
20 WANG A, CHEN H, LIU L, et al. YOLOv10: Real-Time End-to-End Object Detection[J/OL]. arXiv preprint arXiv:2405.14458, 2024. (arXiv)
21 TIAN Z, et al. YOLOv12: Attention-Centric Real-Time Object Detectors[J/OL]. arXiv preprint arXiv:2502.12524, 2025. (arXiv)
22 ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J/OL]. arXiv preprint arXiv:1911.08287, 2019. (arXiv)
23 REZATOFIGHI H, TSOI N, GOYAL P, et al. Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression[C]//CVPR. 2019. (arXiv)
24 ZHANG Y F, REN W, ZHANG Z, et al. Focal and Efficient IoU Loss for Accurate Bounding Box Regression[J/OL]. arXiv preprint arXiv:2101.08158, 2021. (百度学术)
[25] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization[C]//ICCV. 2017.
[26] LI C, LI L, JIANG H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[J/OL]. arXiv preprint arXiv:2209.02976, 2022. (Ultralytics Docs)
[27] SHEN A, et al. A Comprehensive Review of Ultralytics YOLOv8 and YOLOv10: Advancements in Object Detection in the Era of Neural Networks[J/OL]. arXiv preprint arXiv:2407.02988, 2024. (arXiv)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐