基于深度学习的危险物品检测系统(YOLOv12完整代码+论文示例+多算法对比)
摘要:本文面向安检与风险管控场景,设计并实现一套基于深度学习的危险物品检测桌面系统:以 PySide6/Qt 构建交互界面,支持图片、视频与本地摄像头多源输入,推理过程中提供用时统计与处理进度条反馈;检测结果可在主显示区实时叠加框选(类别名+置信度),并支持一键 CSV 导出 与带框结果导出(单帧 PNG / 多帧 AVI)。系统采用本地 SQLite 进行账户与记录管理,提供登录/注册入口且允许一次性跳过;同时支持 模型选择/权重加载(.pt 热切换),在不重启客户端的情况下切换不同检测模型并同步更新类别与配色。算法层面覆盖 YOLOv5–YOLOv12 共 8 种模型,围绕 mAP、F1、PR 曲线与训练曲线开展对比评测与可视化分析,为不同部署需求提供精度与实时性的权衡依据。文末提供完整工程与数据集下载链接。
文章目录
1. 系统功能与效果
(1)登录注册:系统提供登录、注册与一次性跳过三种入口,用户可在首次启动时快速进入或建立本地账号体系;登录状态在当前会话内生效,用于绑定个性化配置与历史检测记录。进入主界面后,交互动线清晰:概览页汇总最近记录与关键统计,随后进入图片检测等功能页并完成模型选择与结果导出。账户信息与记录采用本地 SQLite 管理,配合口令校验与会话控制,在不增加使用负担的前提下兼顾体验与安全。
(2)功能概况:主界面遵循“左侧数据源与阈值控制—中部结果展示—右侧目标详情—底部记录与进度反馈”的布局,用户无需学习成本即可完成从输入到导出的闭环。系统支持对检测过程进行进度显示与耗时提示,并提供最近记录的快速检索与定位,便于复查与对比。底部检测记录与导出区在多个功能页保持一致的交互语义,减少跨页面操作的割裂感。
(3)选择模型:用户可直接选择本地权重文件切换当前 YOLO 模型,实现 .pt 级别的热切换,无需重启即可生效。模型切换后会同步刷新类别名称、配色与可视化标注规则,避免不同权重之间的类别映射混淆。常用配置与界面主题样式支持本地持久化保存,使多次使用时保持一致的操作习惯与视觉风格。
(4)图片检测:系统支持单张图片的即时推理,检测框实时叠加在主显示区,并以“类别名+置信度”呈现关键结果。用户可通过 Conf/IoU 调节影响筛选强度,并支持目标选择与高亮联动查看细节,便于快速核对误检与漏检。检测结果会写入底部记录区,便于跨页复用与后续导出,博主在实际使用中更偏好这种“看得见、改得动、可追溯”的交互方式。
(5)文件保存:系统支持将检测记录一键导出为 CSV,并可导出带框结果用于复核与归档;单帧输出为 PNG,多帧结果可保存为 AVI,满足静态留证与过程回放两类需求。所有导出文件采用时间戳命名并归档到统一目录,便于溯源、批量管理与按文件名快速定位。导出流程与检测流程紧密衔接,用户无需额外整理即可形成可复查的闭环材料。
2. 绪论
2.1 研究背景及意义
在机场、地铁、物流集散与大型活动入口等场景中,危险物品识别需要在高通行压力下完成快速、稳定与可追溯的判读,而现有安检流程仍普遍依赖人工经验,容易受到疲劳、注意力波动与主观差异影响。1 (Opus at UTS)
与可见光监控相比,X 光安检图像具有透视叠加、纹理细节弱、伪彩色与材质相关、遮挡严重、类间外观相似等显著特性,使得“看得见但难分清、找得到但难定位”的问题更突出。2 (jdxb.bjtu.edu.cn)
因此,将深度学习目标检测引入危险物品自动检测,不仅能够提升漏检与误检控制能力,还能在可视化框选、置信度提示与交互复核上形成“人机协同”的新工作流,从而增强任务可解释性与监管合规性。
从工程落地角度看,危险物品检测的价值并不止于离线精度,更关键的是把模型推理嵌入真实业务链条,支持多源输入、实时推理、稳定交互与结果留痕,以便在实际岗亭或边缘端设备上持续运行。3
已有研究已验证将深度学习检测模型部署到安检设备原型中并实现实时运行的可行性,这为“算法效果—业务流程—人机交互—结果追溯”的闭环提供了明确方向。3
基于此,本文以“深度学习检测模型 + 桌面端交互系统”的一体化思路为主线,面向危险物品检测任务构建可训练、可切换、可评测、可导出的完整系统,以降低从论文指标到一线应用之间的工程鸿沟。
2.2 国内外研究现状
危险物品检测任务通常面对多类目标共存、遮挡叠加严重、背景杂乱且语义“无关但干扰强”的图像结构,同时还伴随长尾分布、目标尺度跨度大与实时性要求高等问题,这些特点决定了方法设计必须兼顾精度、速度与鲁棒性。2 (jdxb.bjtu.edu.cn)
在安检影像自动化研究中,综述性工作普遍指出:数据、标注与真实业务流程的差异,是制约算法泛化与系统落地的重要因素之一。1 (Opus at UTS)
因此,近年的研究往往以“数据集构建 + 针对性结构改进 + 可部署推理链路”为组合路径推进。
公开数据与基准建设是该领域发展的关键抓手,早期代表性资源如 GDXray 将安检相关图像纳入更广义的 X 光无损检测数据库体系,为后续对比实验与方法证明提供了基础载体。4 (Springer)
SIXray 以百万级规模与极低阳性比例刻画真实安检的稀有目标分布,并通过类均衡分层细化等思路缓解强不平衡训练带来的性能退化。5
OPIXray 则以“遮挡分级评测”为切入点,突出叠加遮挡下的定位难题,并提出可插拔的去遮挡注意力模块来增强检测器对遮挡区域的关注能力。6 (arXiv)
PIDray 进一步强调“刻意隐藏”的真实对抗性场景,提供更大规模与更多类别的标注数据,并以分而治之的管线抑制长尾类别对整体训练的负面影响。7 (arXiv)
从检测算法范式来看,两阶段检测器以候选框生成与精细分类回归见长,Faster R-CNN 奠定了以区域建议网络实现端到端候选生成的主流框架。8 (arXiv)
单阶段方法强调速度与结构简洁,SSD 通过多尺度特征图直接回归目标框与类别,形成高效的实时检测基线。9 (arXiv)
为缓解前景与背景极度不平衡带来的训练困难,RetinaNet 提出 Focal Loss 以降低易分类样本权重,从而提升密集检测场景的有效学习。10 (arXiv)
Anchor-free 思路通过按像素点或中心点建模降低锚框设计负担,FCOS 以全卷积方式实现端到端的一阶段检测并在多尺度上保持较强适应性。11 (arXiv)
Transformer 检测器以集合预测与全局建模为特点,DETR 用二分匹配替代传统后处理思路,为去 NMS 的端到端检测提供了范式参考。12 (arXiv)
针对安检影像的任务难点,研究更倾向于将“结构改进”与“领域先验”结合:例如在极不平衡与叠加干扰下,SIXray 的类均衡分层细化从训练机制侧增强了中层特征判别能力。5
面向遮挡主导的场景,OPIXray 的去遮挡注意力模块可作为插件增强主干与颈部的有效表征,适配多种检测器结构。6 (arXiv)
在国内研究中,有工作结合多尺度小目标特性提出自适应全景聚焦策略,并在 SIXray 与 OPIXray 上给出较高的 mAP@0.5 结果,体现了针对性预处理与特征聚焦对小目标检测的增益。13 (OE Journal)
此外,面向 X 光成像几何与材质信息,一些学位论文将尺度先验、厚度模态融合与跨模态蒸馏等策略引入两阶段框架,以提升小目标误检控制与跨域泛化能力。14 (Tsinghua University ETDS)
在“精度—速度—可部署”统一权衡上,端到端实时检测成为新趋势,RT-DETR 通过高效混合编码器与不确定性最小查询选择,在 COCO 上给出较高 AP 的同时实现较高 FPS,并提供可调速的解码层配置以适应不同算力。15 (arXiv)
与此同时,YOLO 系列仍在实时检测生态中占据重要位置,YOLOv12 以注意力为中心的结构设计在 T4 上给出毫秒级延迟与明确的精度优势,反映了“注意力建模能力 + 工程可实时”正在融合。16 (arXiv)
Ultralytics YOLO11 则强调轻量参数规模与边缘部署友好性,降低了系统侧训练与推理门槛,使得“模型迭代—快速上线—持续对比”更容易形成常态化流程。17 (Ultralytics)
需要注意的是,数据集偏差与跨设备差异会显著影响结论可信度,因此对常用安检数据集进行统计评估与偏差分析的工作也在增加,为后续实验设计与泛化验证提供了依据。18 (CVF Open Access)
表 2-1 典型方法与数据集对比(指标均来自原论文/数据集说明,可追溯)
| 方法/数据集 | 范式/家族 | 关键难点指向 | 关键改进/特征 | 可追溯指标示例 | 适用场景提示 | 引用 |
|---|---|---|---|---|---|---|
| Faster R-CNN | Two-stage / Anchor-based | 复杂背景下的高精度定位 | RPN + RoI 精细分类回归 | 端到端候选生成,强调精度与可扩展性 | 精度优先、算力相对充足的离线或准实时 | 8 |
| SSD | One-stage / Anchor-based | 实时性与多尺度目标 | 多尺度特征图直接回归 | VOC2007:SSD300 74.3 mAP@0.5,59 FPS | 轻量实时基线、工程实现简洁 | 9 |
| RetinaNet | One-stage / Anchor-based | 前景/背景极不平衡 | Focal Loss 抑制易样本 | COCO:ResNet-101-FPN 39.1 AP | 密集目标与长尾背景干扰明显时 | 10 |
| FCOS | One-stage / Anchor-free | 锚框设计与尺度适配 | 全卷积中心点建模 | 提供 Anchor-free 端到端一阶段检测框架 | 目标尺度跨度大且希望降低锚框超参时 | 11 |
| DETR | Transformer / End-to-end | NMS 依赖与全局建模 | 集合预测 + 二分匹配 | COCO:ResNet-50 42.0 AP(原文报告) | 希望简化后处理并引入全局关系建模 | 12 |
| RT-DETR | Transformer / Real-time End-to-end | 端到端实时与多尺度融合 | 高效混合编码器 + 查询选择 | COCO:R50 53.1% AP,108 FPS(T4) | 边缘端/在线端需要端到端实时推理 | 15 |
| YOLOv12 | YOLO / Real-time | 速度与注意力建模的兼容 | 注意力为中心的 YOLO 框架 | YOLOv12-N:40.6% mAP,1.64 ms(T4) | 高实时要求下追求更强表征能力 | 16 |
| SIXray | 数据集/基准 | 极不平衡 + 叠加遮挡 | 百万级规模与 CHR 基线 | 1,059,231 图像,6 类,<1% 阳性 | 真实安检稀有目标分布建模与评测 | 5 |
| OPIXray | 数据集/基准 | 遮挡等级化评测 | 5 类 cutter,遮挡分级测试集 | 8,885 图像,3 级遮挡划分 | 遮挡敏感场景与去遮挡模块验证 | 6 |
| PIDray | 数据集/基准 | 刻意隐藏 + 长尾分布 | 分而治之基线管线 | 124,486 图像,12 类 | 贴近真实对抗性藏匿场景的评测 | 7 |
表 2-1 中涉及的规模与性能数字来源于对应论文摘要或数据集说明。(arXiv)
2.3 要解决的问题及其方案
围绕“基于深度学习的危险物品检测系统”这一目标,本文需要解决的关键问题主要体现在以下四点:(1)检测精度与实时性的统一,既要在遮挡、叠加与长尾条件下控制漏检误检,又要满足视频流或摄像头流的在线推理速度要求;(2)模型对复杂环境的适应性与泛化能力,面对不同设备成像风格、材质伪彩映射与场景分布变化时,性能不能出现明显塌陷;(3)桌面端交互界面的直观性与功能完整性,用户应能完成多源输入检测、阈值调节、目标高亮复核、结果导出与历史追溯等核心操作;(4)数据处理效率与存储安全性,检测记录需要结构化落库并支持批量导出,同时保证本地存储的安全与可管理性。
针对上述问题,本文给出的整体方案如下:(1)以 YOLOv12 为核心检测模型,并将 YOLOv5 至 YOLOv12 纳入统一训练与评测框架,结合数据增强与迁移学习进行对比实验,从精度、速度与稳定性上选择更适配的部署权重;(2)基于 PyTorch 完成训练、推理与评测脚本的统一封装,并在推理侧支持权重文件热切换,使不同模型在同一交互流程中可复现对比;(3)前端采用 PySide6/Qt 构建桌面端交互系统,支持图片、视频与本地摄像头输入,并提供置信度与 IoU 阈值调节、目标选择高亮、进度显示与导出编排等能力;(4)优化数据处理与存储结构,采用缓存序列与时间戳命名管理导出文件,并以 SQLite 实现本地账户与检测结果的持久化管理,从而提升系统稳定性、可追溯性与安全性。
2.4 博文贡献与组织结构
本文的主要贡献体现在以下方面:(1)综合梳理危险物品检测相关的数据集、方法范式与安检影像特有难点,给出面向工程落地的研究脉络与对比视角;(2)围绕 YOLOv5 至 YOLOv12 的多模型训练、推理与评测,建立可复现的对比流程,并在同一系统中支持权重热切换与类别同步;(3)实现美观且可操作的 PySide6/Qt 桌面端交互,形成从多源输入、在线检测到结果导出与历史追溯的闭环体验;(4)以 mAP、F1、PR 曲线与训练曲线等指标为主线,开展算法效果对比分析,并对误检漏检成因给出面向任务难点的解释;(5)配套提供数据与代码资源组织方式,便于复现实验与二次开发。
全文组织结构安排如下:第 3 章介绍数据集处理与标注、划分与增强策略;第 4 章阐述以 YOLOv12 为主线的模型原理与关键设计;第 5 章给出 YOLOv5 至 YOLOv12 的实验对比结果与分析;第 6 章从分层架构视角说明桌面端系统设计与实现,并给出关键流程图;第 7 章总结工作并展望模型侧、系统侧与数据侧的未来改进方向。
3. 数据集处理
本文使用的危险物品检测数据集共包含 5,456 张图像,覆盖室内外多种拍摄条件与背景干扰,既包含手持与近景特写,也包含远距离与复杂场景中的小目标与遮挡目标;从样例可见,同一类别在尺度、角度、材质反光与遮挡程度上差异较大,这对检测器的特征表达与定位回归提出了更高要求。数据标注以目标检测为目的,采用单目标/多目标矩形框对危险物品进行精确定位,并为每个框赋予类别标签。标签及其对应中文名如下:
Chinese_name = {"Axe": "斧头", "Celurit": "大镰刀", "Cleaver": "切肉刀", "Cutlass": "弯刀",
"Damageable": "破坏器械", "Knife": "刀", "Linggis": "撬棍", "Mace": "狼牙棒", "Spear": "矛", "Wrench": "扳手"}

在数据划分上,数据集被划分为 4,041 张训练集、730 张验证集与 685 张测试集,对应比例约为 74.1%/13.4%/12.6%,并在划分过程中固定随机种子(如 42)以保证实验可复现性。类别统计与长尾特性较为明显:Knife 的实例数显著高于其他类别,Wrench 与 Damageable 处于第二梯队,而 Cleaver、Mace、Spear、Cutlass 等类别样本相对稀少,形成典型的长尾分布;同时,从标注框的中心点与宽高分布可以观察到目标在画面中的位置并非完全均匀,宽高尺度跨度较大且以中小尺度为主,这意味着模型需要在多尺度特征融合与正负样本分配上保持稳定,否则容易在小目标与稀有类上出现漏检。
为提升训练阶段的鲁棒性并缓解长尾与遮挡带来的性能波动,本文在预处理上统一将输入缩放到固定分辨率以对齐推理与评测流程,并在训练中引入面向真实场景的增强与清洗策略:通过随机缩放、平移裁剪、水平翻转与颜色扰动模拟视角变化与光照漂移,通过拼接类增强提升小目标与密集目标的出现概率,并结合模糊/噪声扰动增强对运动模糊与低质量图像的适应能力;同时对标注进行一致性检查,剔除空标注与异常框并清理缓存文件,避免脏数据对收敛过程造成干扰。上述策略分别对应遮挡叠加、尺度差异、反光与背景干扰等核心难点,为后续 YOLOv5–YOLOv12 的公平对比与桌面端在线检测的稳定体验奠定数据基础。
4. 模型原理与设计
本文面向安检与公共场景中的危险物品检测需求,核心难点往往集中在“细长目标易漏检、遮挡与反光导致边界不稳定、类间外观相似(如多类刀具)带来误检、以及实时性约束下的精度-速度权衡”。在检测范式上,系统采用单阶段 YOLO 系列作为统一技术路线:输入图像先做尺度归一与归一化预处理(工程上常用 640 × 640 640\times640 640×640 以兼顾速度与细节),随后由骨干网络提取分层特征,经由颈部网络完成多尺度融合,最终在检测头上同时输出类别与位置回归结果。相比早期 YOLO 中较重的先验框设计,近代 YOLO 逐步走向更简洁的密集预测与解耦检测头,使训练目标更稳定、推理更高效;在此基础上,本文默认以 YOLOv12 作为主线模型,用其“注意力中心”的设计强化对全局上下文与复杂背景的感知能力,同时保持实时推理所需的延迟水平。(Ultralytics Docs)
从结构上看,YOLOv12 仍保留 YOLO 家族典型的层级化骨干与金字塔式特征融合思路,但在关键模块上引入更适配实时检测的注意力机制。标准自注意力可写为
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(dQK⊤)V,
其中 Q , K , V ∈ R N × d Q,K,V\in\mathbb{R}^{N\times d} Q,K,V∈RN×d 分别为查询、键、值, N = H ! × ! W N=H!\times!W N=H!×!W 表示特征图展平后的 token 数。为了缓解注意力在高分辨率下的计算与访存瓶颈,YOLOv12 采用 Area Attention,将特征图按水平或垂直方向划分为 l l l 个区域(默认 l = 4 l=4 l=4),仅在区域内计算注意力,使总复杂度由 O ( N 2 d ) O(N^2d) O(N2d) 近似降为
∑ j = 1 l O ! ( ( N l ) 2 d ) = O ! ( N 2 d l ) , \sum_{j=1}^{l}O!\left(\left(\frac{N}{l}\right)^2d\right)=O!\left(\frac{N^2d}{l}\right), j=1∑lO!((lN)2d)=O!(lN2d),
从机制上在“感受野”与“实时性”之间取得更可控的平衡;与此同时,R-ELAN 通过块级残差与缩放系数提升深层注意力网络的可训练性,其形式可概括为 Y = F ( X ) + λ X Y=F(X)+\lambda X Y=F(X)+λX( λ \lambda λ 取较小常数以稳定优化),并配合更精简的特征聚合路径降低不必要的开销。实现层面,YOLOv12 还强调以 FlashAttention 等方式减少显存访存开销、弱化位置编码依赖并用轻量卷积补充位置信息,从而更贴合 YOLO 的低延迟约束。(Ultralytics Docs)
网络关键模块与 R-ELAN 结构示意图如下:

在损失函数与任务建模方面,系统沿用 YOLO 系列“分类 + 边界框回归”的联合优化思路,并强调对定位质量的直接约束以适配细长器械与局部遮挡场景。对于边界框回归,常用的 IoU 系列损失可直接对齐评测指标,其中 CIoU 将重叠、中心距离与长宽比共同纳入优化目标:
L C I o U = 1 − I o U + ρ 2 ( b , b ∗ ) c 2 + α v , \mathcal{L}_{\mathrm{CIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^*)}{c^2} + \alpha v, LCIoU=1−IoU+c2ρ2(b,b∗)+αv,
这里 b \mathbf{b} b 与 b ∗ \mathbf{b}^* b∗ 分别表示预测框与真值框, ρ ( ⋅ ) \rho(\cdot) ρ(⋅) 是中心点欧氏距离, c c c 为最小外接框对角线长度, v v v 描述长宽比一致性, α \alpha α 为权重因子;这一形式在“目标细长、边界易抖动”的情况下通常比仅使用 1 − I o U 1-\mathrm{IoU} 1−IoU 更稳定。(arXiv) 另一方面,现代 YOLO 检测头常结合分布式回归思想表达边界不确定性,与分布/质量联合建模(如 GFL 一类工作)在理念上相通,可在复杂背景下缓解“高分但定位偏”的问题。(arXiv)
训练与推理策略上,为了兼顾桌面端在线检测的交互需求,本文将“训练侧的稳健性”与“推理侧的可控性”统一到同一套参数语义中:训练阶段通过更长周期与合适的优化与增强策略提升收敛质量,并在注意力模型上重点关注稳定性与显存开销等约束;推理阶段则以置信度阈值与 IoU 阈值(NMS 抑制阈值)作为两类最关键的用户可调参数,分别控制“候选框进入后处理的门槛”与“重叠框的合并强度”,从而让用户在“漏检—误检”之间快速找到适合当前场景的工作点。NMS 作为检测后处理的经典组件,本质是基于重叠度的贪心抑制,会在召回与精度之间形成天然张力,因此系统将其参数化并通过界面实时可视化输出,便于在视频与摄像头流中观察稳定性变化并及时调整。(arXiv)
5. 实验结果与分析
本章实验旨在验证不同 YOLO 版本在危险物品数据集上的检测精度与端侧推理效率,并为桌面端系统的“默认权重选择”和“阈值交互范围”提供依据。实验数据集规模为 5,456 张图像(训练/验证/测试:4,041/730/685),类别共 10 类;评测指标以 Precision、Recall、F1、mAP@0.5 与 mAP@0.5:0.95 为主,同时统计端到端推理链路的预处理、推理与后处理耗时,以反映桌面端实时交互时的响应能力。所有速度数据均在 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)上测得,表中 “总耗时” 按 PreTime + InfTime + PostTime 计算,便于直接对比在线推理体验。
| 模型 | Params(M) | FLOPs(G) | 总耗时(ms) | Precision | Recall | F1 | mAP50 | mAP50-95 |
|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | 2.6 | 7.7 | 10.94 | 0.822 | 0.726 | 0.771 | 0.789 | 0.622 |
| YOLOv6n | 4.3 | 11.1 | 10.34 | 0.861 | 0.413 | 0.559 | 0.501 | 0.372 |
| YOLOv7-tiny | 6.2 | 13.8 | 21.08 | 0.734 | 0.620 | 0.672 | 0.657 | 0.441 |
| YOLOv8n | 3.2 | 8.7 | 10.17 | 0.821 | 0.725 | 0.770 | 0.788 | 0.617 |
| YOLOv9t | 2.0 | 7.7 | 19.67 | 0.782 | 0.773 | 0.777 | 0.812 | 0.654 |
| YOLOv10n | 2.3 | 6.7 | 13.95 | 0.865 | 0.740 | 0.798 | 0.807 | 0.653 |
| YOLOv11n | 2.6 | 6.5 | 12.97 | 0.621 | 0.814 | 0.704 | 0.799 | 0.658 |
| YOLOv12n | 2.6 | 6.5 | 15.75 | 0.841 | 0.714 | 0.772 | 0.811 | 0.654 |
| YOLOv5su | 9.1 | 24.0 | 12.24 | 0.693 | 0.798 | 0.742 | 0.793 | 0.640 |
| YOLOv6s | 17.2 | 44.2 | 12.26 | 0.589 | 0.600 | 0.594 | 0.615 | 0.460 |
| YOLOv7 | 36.9 | 104.7 | 29.52 | 0.892 | 0.810 | 0.849 | 0.882 | 0.702 |
| YOLOv8s | 11.2 | 28.6 | 11.39 | 0.829 | 0.778 | 0.803 | 0.816 | 0.645 |
| YOLOv9s | 7.2 | 26.7 | 22.17 | 0.820 | 0.748 | 0.782 | 0.811 | 0.662 |
| YOLOv10s | 7.2 | 21.6 | 14.19 | 0.749 | 0.789 | 0.768 | 0.804 | 0.654 |
| YOLOv11s | 9.4 | 21.5 | 13.47 | 0.834 | 0.689 | 0.754 | 0.836 | 0.677 |
| YOLOv12s | 9.3 | 21.4 | 16.74 | 0.825 | 0.787 | 0.805 | 0.837 | 0.677 |

从轻量组(n/tiny)结果看,YOLOv5nu 与 YOLOv8n 在 10ms 级总耗时下给出了接近的 F1(约 0.77)与 mAP50(约 0.788),更适合作为桌面端“实时检测默认档”的候选;其中 YOLOv8n 的推理耗时更低,交互上更接近“点开即出结果”的体验。YOLOv10n 在 Precision 与 Recall 的平衡上更强,F1 达到 0.798,并且后处理时间显著更短(0.63ms),在 Qt 桌面端连续推理与频繁导出场景中更利于保持界面响应;YOLOv9t、YOLOv12n 的 mAP50 进一步提升到 0.81 左右,但推理耗时明显增加(19.67ms 与 15.75ms),更适合对精度更敏感、帧率要求稍宽松的部署设置。相对而言,YOLOv6n 虽 Precision 较高,但 Recall 明显偏低导致 mAP 与 F1 都出现断崖式下降,这类现象在危险物品任务中通常意味着对小目标、遮挡目标或长尾类的覆盖不足,实际落地会放大漏检风险。
在更高容量组(s)中,YOLOv7 在精度指标上表现最强(F1=0.849、mAP50=0.882、mAP50-95=0.702),说明更大的参数规模与更强的特征表达对“类间相似 + 细长器械定位”确实有增益,但其推理链路耗时达到 29.52ms,连续视频流或摄像头流更容易遇到帧率瓶颈。若以“精度尽量高且仍保持可用实时性”为目标,YOLOv12s 与 YOLOv11s 的 mAP50 已稳定在 0.836–0.837 区间,同时 mAP50-95 也接近 0.677,属于更适合桌面端日常使用的折中选择;其中 YOLOv8s 的总耗时最低(11.39ms)且 mAP50 达到 0.816,更适合强调交互流畅度的场景。结合训练过程曲线可以看到,s 组模型的 mAP50 在前 20–40 个 epoch 提升迅速,80 epoch 左右趋于平台并在后期保持小幅抬升,说明数据增强与学习率策略对早期收敛贡献较大,而后期主要依赖更细致的定位与类别边界“磨合”来换取增益;从平均 PR 曲线看,YOLOv12s/YOLOv11s 的曲线整体更靠近右上角,反映其在较宽召回区间内仍能维持更高精度,更符合安检“宁可少报也要稳”的实际诉求。
从类别维度观察,PR 曲线中 Cutlass、Mace 等类别的 AP 值接近饱和(例如 Cutlass 0.964、Mace 0.995),通常对应“形态特征突出、可分性强”的目标;Knife 的 AP 相对较低(例如 0.679),更容易受到与 Cleaver、Cutlass 等刀具类的外观相似、尺度变化与遮挡叠加影响,这与归一化混淆矩阵中 Knife 相关的非对角项更显著相吻合。
混淆矩阵也提示:部分样本会被判为 background(漏检),在 Knife、Cleaver 等细长或边界不稳定类别上更明显,这类错误往往发生在目标小、对比度低或反光导致轮廓断裂的画面中;对应到系统侧,建议默认开启目标高亮复核与 CSV 记录,以便在真实业务中对“高风险类别”做重点抽查。
进一步结合 F1-Confidence 曲线,整体最优工作点出现在置信度约 0.413(全类 F1≈0.80),这意味着桌面端默认 Conf=0.25 更偏向高召回、适合“先抓全再复核”的模式,而在误报成本更高的场景下可将 Conf 调整到 0.4 左右以换取更稳定的精度;这一结论也解释了为何系统需要提供 Conf/IoU 的实时滑块——其本质是把“离线评测的最优点”转化为“在线可控的工作点选择”。
6. 系统设计与实现
6.1 系统设计思路
本系统采用分层架构组织功能边界与数据流向,整体可划分为表现与交互层(Qt 客户端)、业务与会话管理层、推理与任务调度层、数据持久化层四个层次。表现与交互层承载“左侧源与阈值控制—中央检测画面显示—右侧目标详情—底部记录与进度条”的桌面布局,使用户能够在同一界面内完成多源输入、参数调整、结果复核与导出闭环;业务与会话管理层维护登录态、用户偏好、模型选择与统计口径,将界面事件转换为可执行的检测任务;推理与任务调度层则负责媒体接入、帧分发与异步执行,保证在视频与摄像头流下界面不被阻塞;数据持久化层以本地 SQLite 与文件归档共同支撑“可追溯”的工程目标,实现账户信息、检测记录与导出文件的统一管理。
跨层协同遵循“多源输入—预处理—YOLO 推理—后处理/统计—前端可视与交互闭环”的主链路:当用户选择图片、视频或摄像头后,媒体接入模块以事件驱动的方式持续产生帧或单次产生静态图像,并把任务提交到异步队列以避免主线程卡顿;预处理模块将输入统一缩放到 640 × 640 640\times640 640×640 并完成归一化与张量转换,保证训练侧与推理侧的数据分布一致;YOLO 推理引擎输出候选框集合后,后处理模块执行 Conf/IoU 过滤、NMS 与坐标还原,并将标准化结果(类别名、置信度、边界框坐标与用时等)同步回传至界面显示区与记录区,形成“看得见—改得动—可导出”的交互闭环。
为保障实时性与一致性,系统在工程上强调三点:其一,源互斥与任务取消机制确保视频/摄像头切换时不会发生帧流竞争,避免 UI 显示与统计口径错乱;其二,Conf/IoU 等关键参数由业务层统一持有并广播到推理后处理,使滑块调整能够在后续帧上稳定生效,同时记录区与导出逻辑保持一致;其三,进度条与用时统计与任务调度绑定,在视频推理时提供可感知的处理进度,并在异常或中止时完成状态回收。系统的可扩展性主要体现在权重热切换、统计与导出编排、主题与配置本地化、以及异常恢复与日志接口等方面,这使得后续引入新的 YOLO 版本或新的导出格式时无需破坏既有交互范式。

图 6-1 系统流程图
图注:流程从系统初始化与多源输入开始,依次完成预处理、YOLO 推理、后处理与界面联动,并在帧流模式下形成“继续获取下一帧”的事件驱动闭环;导出环节强调 CSV/PNG/AVI 与时间戳命名以支持追溯。

图 6-2 系统设计框图
图注:框图体现 Qt 客户端、业务与会话、推理与调度、数据持久化四层边界;数据流自上而下贯穿推理主链路,控制流由会话、参数与源互斥机制回流到交互层完成闭环。
6.2 登录与账户管理 — 流程图

图 6-3 登录与账户管理流程图
图注:流程覆盖注册写库、登录校验、载入个性化配置与历史记录、进入主界面以及注销/切换账号等路径,并强调其与主检测流程的会话衔接价值。
登录与账户管理流程以“本地持久化 + 会话驱动”作为设计原则:应用启动后进入登录界面,用户可选择已有账号直接登录,或先注册并将账户信息写入本地数据库;登录阶段通过口令校验建立会话,校验失败则回到凭证输入环节以避免异常状态扩散,校验成功后加载用户的主题风格、默认模型与最近检测记录,使个性化体验与后续检测流程自然衔接。进入主界面后,检测记录与导出行为会与当前会话绑定,便于形成可追溯的数据闭环;当用户注销或切换账号时,会话被显式回收并返回登录界面,从而在单机环境下实现“多用户隔离 + 本地安全管理”的工程目标。
7. 下载链接
若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

本文涉及到的完整全部程序文件: 包括环境配置文档说明、python源码、数据集、训练代码、UI文件、测试图片视频等:
详细介绍文档博客: 基于深度学习的危险物品检测系统(YOLOv12完整代码+论文示例+多算法对比)
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd;
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程;
数据集标注教程(如需自行标注数据):数据标注合集
参考文献(GB/T 7714)
1 Mery D, Saavedra D, Prasad M. X-Ray Baggage Inspection With Computer Vision: A Survey[J]. IEEE Access, 2020. DOI:10.1109/ACCESS.2020.3015014.
2 孙运达, 孙嘉龙. X光安检图像目标识别特性分析[J]. 北京交通大学学报, 2023. DOI:10.11860/j.issn.1673-0291.20230121.
3 Liang K J, Sigman J B, Spell G P, Strellis D, Chang W, Liu F, Mehta T, Carin L. Toward Automatic Threat Recognition for Airport X-ray Baggage Screening with Deep Convolutional Object Detection[R]. Duke University & Rapiscan Systems, 2019.
4 Mery D, Riffo V, Zscherpel U, Mondragón G, Lillo I, Zuccar I, Lobel H, Carrasco M. GDXray: The Database of X-ray Images for Nondestructive Testing[J]. Journal of Nondestructive Evaluation, 2015, 34:42. DOI:10.1007/s10921-015-0315-7.
5 Miao C, Xie L, Wan F, Su C, Liu H, Jiao J, Ye Q. SIXray: A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images[EB/OL]. arXiv:1901.00303, 2019.
6 Wei Y, Tao R, Wu Z, Ma Y, Zhang L, Liu X. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module[EB/OL]. arXiv:2004.08656, 2020.
7 Zhang L, Jiang L, Ji R, Fan H. PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection[EB/OL]. arXiv:2211.10763, 2022.
8 Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Advances in Neural Information Processing Systems. 2015.
9 Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, Berg A C. SSD: Single Shot MultiBox Detector[C]//European Conference on Computer Vision. 2016: 21-37.
10 Lin T Y, Goyal P, Girshick R, He K, Dollár P. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988.
11 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9627-9636.
12 Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision. 2020: 213-229.
13 崔立群, 赵志远, 白宏伟, 等. 基于自适应全景聚焦算法的X光行李安检图像多尺度小目标检测[J]. 光电工程, 2025, 52(8): 240362.
14 常安. 基于深度学习的X光安检图像违禁品检测算法研究[D]. 北京: 清华大学, 2022.
15 Zhao Y, Lv W, Xu S, Wei J, Wang G, Dang Q, Liu Y, Chen J. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2024.
16 Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025.
17 Vina A. All you need to know about Ultralytics YOLO11 and its applications[EB/OL]. Ultralytics Blog, 2024-10-04.
18 Isaac-Medina B K S, Yucer S, Bhowmik N, Breckon T P. Seeing Through the Data: A Statistical Evaluation of Prohibited Item Detection Benchmark Datasets for X-ray Security Screening[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2023.
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)