摘要:本文面向施工现场个体防护(PPE)监管需求,设计并实现一套基于深度学习的安全帽检测桌面系统,目标是在保证实时性的同时提供可追溯、可导出、可复现的检测闭环。系统采用 PySide6/Qt 构建跨平台图形界面,支持图片、视频与本地摄像头多源输入,检测结果在主显示区实时叠加目标框(类别与置信度),并提供 处理进度条/用时统计 与底部检测记录联动,方便在批量与长视频场景下稳定使用。工程侧实现 登录/注册(可跳过) 的轻量会话入口,检测记录、账号与配置统一由 SQLite 本地入库 管理,兼顾离线可用与基础安全校验;结果侧支持 CSV 导出,并提供带框结果一键导出:单帧保存为 PNG、多帧序列/视频保存为 AVI,便于留档与复核。算法层面覆盖 YOLOv5–YOLOv12(共 8 种) 模型家族,统一训练与推理接口,系统支持 模型选择/权重加载(.pt 热切换),切换后同步刷新类别信息与可视化配色;同时对不同模型进行精度与效率对比,给出 mAP、F1、PR 曲线与训练曲线等评测结果,为现场部署提供可量化的选型依据。文末提供完整工程与数据集下载链接。

功能效果展示视频:热门实战|《基于深度学习的安全帽检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件页☇


1. 系统功能与效果

(1)登录注册:系统启动后提供登录、注册与“跳过”三种入口,登录会话在本次运行周期内生效,用于绑定个人配置与历史记录。进入主界面后,用户可沿着“概览—检测—模型—导出”的动线完成任务,并能在记录区快速回到最近一次检测结果进行复核。账号信息与会话状态在本地受控保存,配合基础口令校验与一次性跳过机制,在不增加使用门槛的前提下兼顾体验与安全。
在这里插入图片描述

(2)功能概况:主界面以“左侧参数与数据源—中部结果显示—右侧目标详情—底部记录与进度”的布局组织交互,首次上手即可完成从选择输入到导出结果的闭环。概览区集中展示当前输入源、推理状态、关键阈值与统计摘要,便于在批处理或长时检测中保持对整体进度的掌控。底部检测记录支持跨页面共享与快速定位,适合在复查与对比时高效回溯。
在这里插入图片描述

(3)选择模型:系统支持在界面中选择不同 YOLO 系列模型,并通过加载本地权重文件实现一键切换,切换后自动刷新类别信息与可视化配色,保证显示与判定一致。模型与阈值等常用配置可本地持久化,下一次启动无需重复设置,减少频繁试验时的操作成本。对于需要在精度与速度之间权衡的场景,用户可快速对比不同模型在同一输入上的效果差异。
在这里插入图片描述

(4)图片检测:选择单张图片或图片序列后,系统可即时完成推理,并在主显示区叠加检测框,展示类别名称与置信度,便于直观核验。支持在线调节 Conf/IoU 等阈值并实时刷新结果,同时可对某一目标进行选择与高亮,以提升密集目标场景下的可读性。检测过程配有进度显示与耗时统计,适合批量图片的稳定处理与复核。
在这里插入图片描述

(5)文件保存:系统支持将检测结果结构化保存与导出,既可导出 CSV 便于统计分析,也可一键保存带框可视化结果用于留档取证。输出文件统一采用时间戳命名并归档管理,方便在不同任务与不同日期之间快速定位与复查。历史记录与导出结果可与本地数据库关联,实现“可追溯、可检索、可复现”的工程化使用体验。
在这里插入图片描述


2. 绪论

2.1 研究背景及意义

在建筑施工、厂区运维与电力检修等高风险作业场景中,安全帽是最基础也最关键的个体防护装备之一;我国现行《头部防护 安全帽》国家标准对安全帽分类、技术要求与检验规则作了明确规定,为现场合规管理与质量验收提供了统一依据1。在国际层面,职业安全法规同样将头部防护作为强制要求之一,并强调在存在坠落物与撞击风险的工作区域必须配戴防护头盔2。值得注意的是,即便满足标准要求,安全帽在高能量冲击等极端工况下仍存在防护边界,因此仅依赖事后追责或抽查并不能替代过程化、常态化的风险控制3。(国家标准网)

传统安全帽佩戴检查主要依赖人工巡检与视频回放抽查,面对“大场景、多人员、遮挡多、光照波动强”的施工现场,往往出现覆盖不全、响应滞后与取证困难等问题。随着深度学习目标检测在复杂视觉任务上取得突破,两阶段检测器以 Faster R-CNN 为代表,能够在较强特征表达基础上获得稳定精度,但在实时视频流场景中常受推理延迟与算力成本约束4。以 YOLO 为代表的单阶段检测器则更强调端到端的检测效率,天然适配现场监控视频的实时告警需求,并逐步成为工程落地的主流路线之一[5]。

因此,构建“基于深度学习的安全帽检测系统”的意义不仅在于提高佩戴识别的准确性,更在于把“事后发现”前移为“过程预防”:通过对摄像头视频流的在线检测、对违规行为的快速定位与结果可追溯导出,形成闭环管理;同时结合桌面端可解释可视化(如目标框、类别与置信度展示),让安全管理人员能够以更低门槛完成复核、取证与整改跟踪,从而提升安全治理的效率与一致性。


2.2 国内外研究现状

围绕施工场景的安全帽检测,研究通常以“人员与安全帽目标检测”为核心,再进一步推断“是否正确佩戴”,其难点集中体现在:人员密集导致目标遮挡与相互干扰,小目标安全帽在远景监控中像素占比极低,逆光/阴影/夜间照明带来显著的域偏移,且现场数据普遍呈现长尾分布与复杂背景纹理。公开数据集方面,SHWD 以安全帽佩戴为主线,提供了面向检测任务的图像与标注基准,为算法对比提供了常用起点[6];而更贴近真实工业场景的数据集开始强调“复杂背景与真实光照”,例如 SFCHD 以化工厂监控为来源,覆盖多场景并显式讨论低照度与模糊条件下的检测问题[7]。国内也有面向施工现场安全帽佩戴检测的综述工作,对典型难点、评测指标与工程落地方向进行了系统归纳,为选型与改进提供了路线图式的参考[8]。

从检测范式看,目标检测大体经历了“两阶段”到“单阶段”、再到“端到端 Transformer 检测”的演进:两阶段方法通过候选区域与精细分类回归获得较稳健的精度上限,但系统复杂度与实时性往往受限4;单阶段方法通过密集预测提升吞吐,但需要解决正负样本不均衡等训练问题,RetinaNet 提出的 Focal Loss 便是经典代表之一[9]。在轻量化与可扩展方面,EfficientDet 通过复合尺度缩放与特征融合结构,使得不同算力预算下的精度与速度权衡更易于工程配置[10];Transformer 检测器以 DETR 为代表,强调集合预测与全局建模,但早期版本在收敛速度与小目标性能上仍需要大量工程化改造[11]。面向实时性需求,RT-DETR 将端到端思想与实时检测结合,给出了在推理速度与精度之间更具工程可用性的折中路径[12]。(arXiv)

为便于将研究进展与本文任务需求对齐,表 2-1 汇总了若干代表性方法在“范式、指标与适用难点”上的对比;需要说明的是,不同论文与文档的硬件、输入尺寸与评测协议并不完全一致,因此表中数据更适合用于理解“相对权衡”与“工程选型逻辑”,而非直接做跨设置的绝对排名。

表 2-1 代表性检测方法与安全帽场景适配性对比(节选)

方法 范式/家族 典型数据集/场景 关键特征 优势与局限 关键指标(示例) 更适配的任务难点 引用
YOLOv5u(yolov5nu) 单阶段,YOLO 系 COCO 无锚框分离头与工程化训练/导出链路 速度快、部署生态成熟;小目标与遮挡仍依赖数据与增强 mAP(50–95)=34.3;CPU(ONNX)=73.6ms;A100 TensorRT=1.06ms 实时视频流、边缘端快速落地 [13]
YOLO11(yolo11n) 单阶段,YOLO 系 COCO 面向推理链路的持续迭代与多尺寸版本 精度/速度权衡更均衡;跨域鲁棒性仍需针对性训练 mAP(50–95)=39.5;CPU(ONNX)=56.1ms;T4 TensorRT10=1.5ms 兼顾实时与精度的在线巡检 [14]
YOLOv10 单阶段,YOLO 系(端到端方向) COCO 以端到端与效率为导向的结构与训练设计 侧重降低后处理与延迟;工程实现需与工具链配合 在相同精度下显著降低延迟(论文给出相对对比) 低延迟告警、边缘侧推理 [15]
YOLOv12(YOLOv12-N) 注意力增强的实时检测 COCO 注意力机制与实时性兼顾的框架设计 强表达下保持实时;需要结合部署算子与显存约束 mAP=40.6;T4 延迟=1.64ms(示例) 复杂背景下更强特征建模 [16]
RT-DETR(R50) 端到端 Transformer 检测 COCO 端到端集合预测与实时优化 免 NMS 思路利于流程简化;小目标仍需多尺度支持 AP=53.1;T4=108 FPS(示例) 对时延敏感且追求端到端流程 [12]
UAV+YOLOv8(施工航拍) 单阶段检测 + 佩戴判定 施工航拍图像 先检人/帽再做空间一致性判定 对航拍视角有效;佩戴判定对框质量敏感 mAP@0.5=0.975(person/helmet,示例) 大场景巡检、俯视视角小目标 [17]

(Ultralytics Docs)

聚焦 YOLO 家族的工程趋势,可以看到其演进核心在于“更强的特征表达、更稳定的训练策略、更友好的部署接口”三条主线:在桌面端安全帽检测系统中,模型不仅要在静态图片上达到可用精度,更要在视频流与摄像头流上维持稳定帧率与可控延迟。官方文档给出的 YOLOv5u 与 YOLO11 在 COCO 上的指标与多平台延迟数据,为工程侧预估算力预算、选择模型尺寸与推理后端提供了直接依据[13]。另一方面,YOLOv12 进一步把注意力机制引入实时检测主干,并在论文中给出与 YOLOv10/YOLO11 以及 RT-DETR 系方法的对比,体现了“注意力表达能力”与“实时性”之间正在收敛的趋势[16]。(Ultralytics Docs)

在部署与系统层面,研究热点逐步从“单点模型精度”扩展为“端侧推理、可视化交互、结果可追溯与在线闭环”的整体能力:一方面,模型导出到 ONNX 并通过推理引擎加速已成为常见路径,便于在不同硬件与操作系统上统一部署与维护[18]。另一方面,面向更严苛的实时性约束,TensorRT 等推理优化工具可通过算子融合、精度策略与内存优化降低端到端延迟,为视频流检测的稳定帧率提供支撑[19]。当系统还需要支持多模型对比、权重热切换与批量导出时,工程策略往往比单纯的结构改进更能决定“是否好用”,这也正是本文将算法评测与桌面端交互一体化讨论的原因。(NVIDIA Docs)


2.3 要解决的问题及其方案

围绕“基于深度学习的安全帽检测系统(桌面端)”的落地目标,本文需要解决的关键问题主要包括:(1)检测准确性与实时性难以同时满足:现场既要求对小目标安全帽保持较高召回,又要求视频流推理具备可用帧率与低延迟告警。(2)模型环境适应性与泛化能力不足:不同工地的摄像头角度、光照、分辨率与人员着装差异显著,容易导致跨场景性能波动。(3)桌面端交互的直观性与功能完整性:需要将阈值调节、结果可视化、导出与历史记录管理做成低门槛流程,降低安全管理人员的使用成本。(4)数据处理效率与存储安全性:面对视频与摄像头流的连续帧处理,既要避免界面卡顿,也要保证检测记录可追溯、可检索并具备基本的本地安全控制。

对应上述问题,本文给出的系统性方案为:(1)以 YOLOv12 为核心检测模型,并对 YOLOv5 至 YOLOv12 的多版本模型开展训练与推理对比,结合数据增强与迁移学习获得更稳健的精度与召回。(2)基于 PyTorch 框架完成训练与推理逻辑,并与 PySide6/Qt 桌面端进行端到端集成,通过统一的预处理与后处理策略提升跨源一致性。(3)在桌面端支持图像、视频与本地摄像头输入,提供置信度与 IoU 等关键阈值的在线调节,并支持权重文件的热切换以满足不同现场与不同算力预算下的模型选型。(4)优化数据处理与存储结构,以帧缓冲与任务调度降低界面阻塞风险,并采用时间戳命名与本地数据库管理检测记录,配合批量导出机制提升可追溯性与稳定性;在条件允许时进一步结合推理加速与系统测试,保证长期运行的可靠性。


2.4 博文贡献与组织结构

本文的主要贡献可概括为:(1)给出面向安全帽检测落地的综合性综述视角,将数据集特征、典型难点与检测范式的性能权衡放在同一工程语境下讨论。(2)以 YOLOv12 为主线完成多模型训练、推理与评测设计,并覆盖 YOLOv5 至 YOLOv12 的对比实验,为不同算力预算下的模型选型提供依据。(3)实现美观且可用的 PySide6/Qt 桌面端交互闭环,将多源输入、阈值联动、目标可视化与导出流程整合为一致的用户体验。(4)构建可追溯的结果管理机制,支持检测记录的结构化存储与检索,并提供面向工程取证的导出能力。(5)提供完整的数据与代码资源组织方式,便于复现实验、二次开发与扩展部署。

文章组织结构如下:第 3 章介绍数据集处理流程与标注规范;第 4 章阐述以 YOLOv12 为核心的模型原理与设计要点,并说明与安全帽场景难点的对应关系;第 5 章给出 YOLOv5 至 YOLOv12 的实验对比与结果分析;第 6 章从分层架构视角描述桌面端系统设计与关键交互实现;最后在第 7 章总结全文并展望可持续迭代方向。


3. 数据集处理

本文数据集共 1518 张图像,其中 910 张用于训练、304 张用于验证、304 张用于测试,训练集承担主要的特征学习与拟合过程,验证集用于在训练阶段调参与监控过拟合风险,测试集则以“未参与训练”的方式评估模型在未知样本上的泛化能力;从样例拼图可观察到画面涵盖室内外、监控视角与近景抓拍等多种采集条件,并存在多人密集、遮挡、尺度差异与光照变化等典型现场难点,这为后续模型鲁棒性检验提供了更贴近工程的评测基础。
在这里插入图片描述

标注层面采用目标检测常用的矩形框监督,并结合本任务将类别语义明确为两类:hat 对应“安全帽”,person 对应“光脑袋”,从而把“是否佩戴”转化为可直接学习的分类检测问题。若按 YOLO 训练管线组织数据,标注通常以归一化框表示(以图像宽高归一化的中心点坐标与宽高),这与标注分布图中 x、y、width、height 的取值范围与统计形态一致:整体上目标中心分布较为分散,但宽高分布呈明显“小目标占多数”的长尾特征,尤其在远景监控与群体场景中,头部/安全帽框往往只占据较少像素;同时从样例中可见同一画面内存在大量目标框密集叠加的情况,意味着训练时需要兼顾密集目标的正负样本分配与后处理抑制策略,避免“相邻头部互相干扰”带来的误检与漏检。标签及其对应中文名如下:

Chinese_name = {'hat': "安全帽", 'person': "光脑袋" }

在这里插入图片描述

在预处理与增强方面,工程实现一般会对输入进行统一尺寸的缩放与填充以满足网络输入要求,并对颜色与像素范围做标准化处理,以降低不同相机与光照带来的域偏移;为了应对遮挡、尺度变化与反光等问题,训练阶段通常引入随机尺度、随机裁剪/平移、左右翻转、色彩扰动以及面向密集场景的组合增强等策略,使模型在更丰富的视角与成像条件下学习到稳定的头部与安全帽判别线索。数据清洗则建议包含:剔除损坏或无法解码的图像、过滤异常框(越界或宽高近零)、统一类别映射与命名规则,并在每次重新组织数据划分时固定随机种子以保证可复现;这些处理能显著减少“标注噪声”对训练曲线的扰动,同时也为后续多模型(YOLOv5–YOLOv12)在同一数据协议下的公平对比奠定基础。


4. 模型原理与设计

本文以 YOLOv12 作为安全帽检测的主线模型,在方法论上仍遵循单阶段目标检测“端到端预测”的高效范式:输入图像经特征提取得到多尺度语义表示,检测头直接回归目标位置并给出类别置信度,从而在实时性与精度之间取得更适合工程落地的平衡。结合本任务的两类语义(安全帽/光脑袋),系统最终输出可统一抽象为 c , ; s , ; b {c,;s,;b} c,;s,;b 三元组,其中 c c c 为类别, s s s 为置信度, b = ( x min ⁡ , y min ⁡ , x max ⁡ , y max ⁡ ) b=(x_{\min},y_{\min},x_{\max},y_{\max}) b=(xmin,ymin,xmax,ymax) 为边界框;这样的输出接口便于与桌面端显示、记录与导出模块解耦,也为后续多模型对比(YOLOv5–YOLOv12)提供一致的评测口径。YOLOv12 的核心思路是将注意力机制更“深入”地融入 YOLO 框架,以增强全局依赖建模能力,同时尽量保持实时推理速度。 (arXiv)

从网络组成看,YOLOv12可概括为 Backbone–Neck–Head 的三段式流水线:骨干网络负责提取从纹理到语义的层级特征,颈部网络进行自顶向下与自底向上的多尺度融合以提升小目标可见性,检测头在多个尺度上输出分类与定位结果;对于安全帽这类“小而密、易遮挡”的目标,多尺度融合与特征重用能显著缓解远景监控画面中的漏检问题。注意力模块可用标准自注意力写成 A t t n ( Q , K , V ) = s o f t m a x ! ( Q K ⊤ d k ) V \mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V Attn(Q,K,V)=softmax!(dk QK)V,其中 Q , K , V Q,K,V Q,K,V 分别是查询、键和值的投影, d k d_k dk 为通道维度的缩放系数;而 YOLOv12 进一步强调更高效的“区域/分区式”注意力与改进的特征聚合结构,以降低注意力计算与内存访问带来的开销,并提升训练稳定性。网络整体架构图如下图所示。 (Ultralytics Docs)

在这里插入图片描述

在损失建模上,检测训练通常采用“框回归 + 目标性 + 分类”的加权组合: L = λ box L ∗ box + λ ∗ obj L ∗ obj + λ ∗ cls L ∗ cls \mathcal{L}=\lambda_{\text{box}}\mathcal{L}*{\text{box}}+\lambda*{\text{obj}}\mathcal{L}*{\text{obj}}+\lambda*{\text{cls}}\mathcal{L}*{\text{cls}} L=λboxLbox+λobjLobj+λclsLcls。边界框回归常以 IoU 系列为核心度量, I o U = ∣ B ∩ B g t ∣ ∣ B ∪ B g t ∣ \mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|} IoU=BBgtBBgt 直接刻画预测框 B B B 与真值框 B g t B^{gt} Bgt 的重叠程度,但在目标很小或几乎不相交时梯度信号较弱,因此工程中更常用带几何项的 CIoU: L ∗ CIoU = 1 − I o U + ρ 2 ( b , b g t ) c 2 + α v , \mathcal{L}*{\text{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\alpha v, LCIoU=1IoU+c2ρ2(b,bgt)+αv,其中 ρ ( ⋅ ) \rho(\cdot) ρ() 表示中心点欧氏距离, c c c 为外接框对角线长度, v v v 衡量长宽比一致性, α \alpha α 为权重系数;分类与目标性一般使用二元交叉熵 L BCE ( p , y ) = − [ y log ⁡ p + ( 1 − y ) log ⁡ ( 1 − p ) ] \mathcal{L}_{\text{BCE}}(p,y)=-\left[y\log p+(1-y)\log(1-p)\right] LBCE(p,y)=[ylogp+(1y)log(1p)],并可按需引入标签平滑以减轻“安全帽/光脑袋”在遮挡、反光与低分辨率下的硬边界噪声,从而稳定收敛并提升泛化。

训练与正则化策略更直接决定桌面端“实时可用”的上限:一方面在优化层面常用 warmup + 余弦退火学习率以兼顾初期稳定与后期精细收敛,例如 η t = η min ⁡ + 1 2 ( η max ⁡ − η min ⁡ ) ( 1 + cos ⁡ π t T ) , \eta_t=\eta_{\min}+\frac{1}{2}(\eta_{\max}-\eta_{\min})\left(1+\cos\frac{\pi t}{T}\right), ηt=ηmin+21(ηmaxηmin)(1+cosTπt),其中 η t \eta_t ηt 为第 t t t 次迭代学习率, T T T 为总迭代步数;另一方面在数据层面通过多尺度训练、颜色扰动与混合增强提升对光照变化与尺度差异的适应性。推理阶段的后处理通常采用阈值筛选与 NMS 抑制:对候选框按得分 s s s 排序,保留最高分框 b ∗ b^* b,并对其余框 b i b_i bi 若满足 I o U ( b ∗ , b i ) > τ \mathrm{IoU}(b^*,b_i)>\tau IoU(b,bi)>τ 则执行抑制;其中置信度阈值与 τ \tau τ(IoU 阈值)在本文系统中被设计为可视化滑块参数,便于在“误检(把光脑袋当安全帽)”与“漏检(小目标/遮挡)”之间做现场权衡,使算法行为与工程决策形成可解释、可复现的闭环。


5. 实验结果与分析

本章实验的目标是:在相同数据划分(训练 910、验证 304、测试 304)与统一输入尺度(640×640)下,对 YOLOv5–YOLOv12 共 8 种模型进行精度与效率的对比评测,并为桌面端系统的“默认模型选择、阈值建议与导出留档”提供可量化依据。评测指标采用 Precision、Recall、F1、mAP50 与 mAP50-95,并额外记录端到端耗时拆分为预处理(PreTime)、推理(InfTime)与后处理(PostTime),硬件环境为 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)。在类别定义上,hat 表示“安全帽”,person 表示“光脑袋”,因此模型不仅需要检测到头部相关目标,还要在遮挡、反光与远景小目标条件下保持“类间可分性”和“召回稳定性”。

表 5-1 各模型在测试集上的精度与效率对比(RTX 3070 Laptop, 8GB)

组别 Model Params(M) FLOPs(G) Pre(ms) Inf(ms) Post(ms) Precision Recall F1 mAP50 mAP50-95
n YOLOv5nu 2.6 7.7 1.90 7.73 1.31 0.9071 0.8178 0.8601 0.8886 0.5534
n YOLOv6n 4.3 11.1 2.17 6.78 1.39 0.8775 0.8045 0.8394 0.8571 0.5114
n YOLOv7-tiny 6.2 13.8 2.28 14.74 4.06 0.9148 0.8370 0.8742 0.8889 0.5099
n YOLOv8n 3.2 8.7 1.95 6.83 1.39 0.9087 0.6972 0.7890 0.7703 0.4756
n YOLOv9t 2.0 7.7 1.87 16.51 1.29 0.8957 0.8256 0.8592 0.8869 0.5593
n YOLOv10n 2.3 6.7 2.08 11.24 0.63 0.8736 0.8214 0.8467 0.8855 0.5451
n YOLOv11n 2.6 6.5 2.11 9.44 1.42 0.8945 0.8309 0.8615 0.8911 0.5561
n YOLOv12n 2.6 6.5 1.91 12.47 1.37 0.9137 0.8276 0.8685 0.8974 0.5659
s YOLOv5su 9.1 24.0 2.28 8.45 1.51 0.9174 0.8376 0.8757 0.9021 0.5714
s YOLOv6s 17.2 44.2 2.22 8.59 1.45 0.9079 0.7849 0.8420 0.8663 0.5240
s YOLOv7 36.9 104.7 2.44 23.62 3.46 0.9235 0.9085 0.9159 0.9338 0.5826
s YOLOv8s 11.2 28.6 2.31 7.66 1.42 0.9243 0.8447 0.8827 0.9099 0.5713
s YOLOv9s 7.2 26.7 2.12 18.66 1.39 0.9277 0.8521 0.8883 0.9165 0.5811
s YOLOv10s 7.2 21.6 2.21 11.38 0.60 0.9172 0.8448 0.8795 0.9085 0.5821
s YOLOv11s 9.4 21.5 2.37 9.74 1.36 0.9129 0.8672 0.8895 0.9127 0.5815
s YOLOv12s 9.3 21.4 2.09 13.23 1.42 0.9181 0.8552 0.8855 0.9150 0.5820

在这里插入图片描述
从 n 系列对比看,YOLOv12n 在精度侧表现最均衡:mAP50 达到 0.8974,mAP50-95 达到 0.5659,同时保持 0.8685 的 F1,说明它在“严格 IoU 阈值下的定位质量”更占优,更适合安全帽这类小目标在远景画面中的精细框回归;代价是推理耗时(12.47ms)相对 YOLOv6n/YOLOv8n 更高,但端到端总耗时约 15.75ms,仍满足桌面端实时预览的体验预期。YOLOv7-tiny 虽然 F1 最高(0.8742)且 Precision 也更高,但推理与后处理开销明显增大(尤其 PostTime 达到 4.06ms),在多人密集场景下更容易出现“候选框多导致 NMS 负担上升”的现象。需要特别注意的是 YOLOv8n 的 Recall 明显偏低(0.6972),直接拉低 F1 与 mAP,这与安全帽场景中“遮挡、小目标、低清晰度”导致的漏检风险高度一致,因此如果系统目标是现场巡检告警,YOLOv8n 更适合作为速度参考而非默认方案。
在这里插入图片描述

从 s 系列对比看,YOLOv7 在精度上给出了最强上限(F1=0.9159,mAP50=0.9338,mAP50-95=0.5826),对需要“复核取证、误报成本高”的场景非常友好;但其参数量与 FLOPs 最大,推理耗时与端到端时延也显著更高(InfTime 23.62ms),更适合 GPU 资源充足、以精度优先的部署方式。若追求“精度接近上限但运行更稳”,YOLOv12s 与 YOLOv11s 的综合表现更像工程折中:它们的 mAP50-95 基本保持在 0.58 左右,Recall 也较为稳定,同时参数量远低于 YOLOv7,利于在桌面端多任务运行与后续权重热切换。另一方面,YOLOv10s 的 PostTime 仅 0.60ms,说明其后处理链路更轻,配合中等推理耗时,适合作为“多源输入切换频繁、需要更丝滑交互”的候选模型。

在这里插入图片描述

进一步从阈值选择角度,F1-Confidence 曲线显示全类别在置信度约 0.37 附近达到峰值(F1≈0.89),这意味着在桌面端默认阈值设置上,若以“综合平衡”为目标,Conf 的初始值可优先考虑落在 0.35–0.45 区间,并通过滑块为不同现场条件保留快速调参空间;同时曲线中“光脑袋”类别在高阈值区间下降更快,提示该类更容易因遮挡、模糊或小目标而被低置信度抑制,实际部署中应避免把 Conf 设得过高以免漏检。

在这里插入图片描述

结合归一化混淆矩阵可以进一步定位误差来源:对真实“安全帽”样本,正确识别比例约为 0.87,而被当作“背景”(漏检)的比例约为 0.11,说明误差主要来自小目标或遮挡导致的召回不足;对真实“光脑袋”,正确识别约为 0.89、漏检约为 0.10,类间互相混淆的比例相对较小(约 0.02 量级),表明当前模型对两类语义的可分性总体可靠。值得注意的是,背景列可理解为“无匹配真值的误检分布”,其中误检更偏向“光脑袋”类别,意味着在复杂背景、远景群体画面中,非头部区域或模糊人头更容易触发该类的假阳性;对应到系统侧的改进方向,一方面可通过提升数据清洗与增强的“负样本覆盖”(例如更丰富的无头部区域、远景人群与强反光样本)降低误检,另一方面也可以在推理侧适度提高 IoU 阈值或引入更严格的目标尺寸/形状先验进行过滤,以减轻密集场景下的误报累积。作为补充材料,s 系列双条形对比图与 PR 曲线、训练过程曲线已生成,便于读者进一步核对不同模型的收敛速度与阈值敏感性


6. 系统设计与实现

6.1 系统设计思路

本系统以“可实时在线检测、可解释可视化、可追溯导出”为工程目标,整体采用分层架构组织为表现与交互层(PySide6/Qt 客户端)、业务与会话管理层、推理与任务调度层、数据持久化层四部分:Qt 客户端负责多源输入选择、阈值滑块与结果展示,业务层负责会话状态、源互斥与导出编排,推理层以事件驱动方式接入媒体帧并完成 YOLO 推理与后处理,数据层负责账户与记录的本地化持久化以及导出归档,从而把“算法能力”与“产品可用性”在结构上解耦并保持一致的调用边界。跨层数据在运行时统一抽象为“输入帧、推理结果、统计信息、导出任务”四类对象,便于在不同输入源(图片、视频、摄像头)之间复用同一套推理与评测逻辑,同时也为模型权重热切换提供了稳定接口。

为了满足视频流与摄像头流的实时性要求,推理与任务调度层采用事件驱动的帧流处理:图片任务以单帧触发并直接回传结果,视频与摄像头任务以“帧到达事件”触发推理,推理线程与界面渲染线程通过信号与槽传递结果,避免界面阻塞。系统在业务层显式维护输入源互斥规则,保证同一时间只存在一种帧流活跃,减少资源争抢导致的掉帧与状态错乱;同时将 Conf/IoU 阈值、目标高亮选择等交互参数集中管理,并在每次推理前一致性下发,确保“可视化结果、记录表格与导出文件”三者在语义上严格一致,避免因参数漂移造成的复核困难。

在可扩展性方面,系统将“模型管理、导出与归档、主题与配置”视为独立能力进行封装:模型侧支持加载本地权重并热切换,切换后同步刷新类别名与配色;导出侧支持结构化 CSV 与带框 PNG/AVI,统一采用时间戳命名便于追溯与批量管理;配置侧将主题样式与常用参数本地化保存以降低重复操作成本。异常恢复与鲁棒性则通过“源切换前后状态清理、任务队列可中断、导出写入失败可提示与回滚”等机制保证长期运行稳定,确保系统在真实工地监控环境下具备可持续使用的工程品质。

在这里插入图片描述

图 6-1 系统流程图
图注:图中描述系统自初始化加载配置开始,依次完成多源输入接入、预处理、YOLO 推理与后处理,并与 Qt 界面联动显示;导出与记录在交互控制下形成闭环,突出 Conf/IoU 调节、目标高亮与 CSV/PNG/AVI 的时间戳归档。

在这里插入图片描述

图 6-2 系统设计框图
图注:图中以分层方式给出 Qt 客户端、业务会话、推理调度与数据持久化的模块边界;数据流自上而下进入推理链路,结果与日志在业务层编排后落入数据库与文件归档,并回流至界面完成交互闭环。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图
图注:流程覆盖注册写入本地数据库、登录口令校验、个性化配置加载与进入主界面的关键路径,并包含注销与切换账号的回路,用于支撑多用户的本地化隔离与历史记录复用。

系统的账户管理以“本地化、轻量化、与检测流程强衔接”为设计原则:应用启动后进入登录界面,用户可选择已有账号直接登录或通过注册入口写入本地数据库形成账户记录,随后在登录阶段执行口令校验并建立会话状态;当校验成功时,系统加载该用户的个性化配置(如主题、默认模型与最近检测记录),并将这些信息同步到主界面的参数区与记录区,从而实现“同一用户多次进入的连续工作体验”。在主检测过程中,用户可随时进行资料修改以更新口令与偏好设置,注销或切换账号则会触发会话清理与界面状态复位,保证不同账号之间的记录与配置在本地存储上相互隔离,既满足离线环境的可用性,也为后续的导出追溯与审计留出了结构化接口。


7. 项目资源链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述

项目完整文件请见项目介绍及功能演示视频处给出:

完整项载及文档: https://newtopmat.feishu.cn/wiki/DwYfwAJFbikqBykNEnTcafZen8d

功能效果展示视频:热门实战|《基于深度学习的安全帽检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 国家市场监督管理总局, 国家标准化管理委员会. 头部防护 安全帽: GB 2811-2019[S]. 北京: 中国标准出版社, 2019.
2 Electronic Code of Federal Regulations. 29 CFR 1910.135—Head protection[EB/OL]. (2025-12-20)[2025-12-20].
3 Ptak M, Dymek M, Wdowicz D, et al. Energy-absorbing limitations of hard hat safety helmets in mitigating trauma from falling objects[J]. Archives of Civil and Mechanical Engineering, 2024, 24: 199.
4 Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[5] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[6] njvisionpower. Safety Helmet Wearing Dataset (SHWD)[DB/OL]. GitHub. (2025-12-20)[2025-12-20].
[7] Yu F, Li J, Wang X, et al. Large, Complex, and Realistic Safety Clothing and Helmet Detection: Dataset and Method[EB/OL]. arXiv:2306.02098v2, 2024.
[8] 高腾, 陈啸, 张海柱, 等. 施工现场安全帽佩戴检测算法的研究综述[J/OL]. 计算机工程与应用, 2023.
[9] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[10] Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10781-10790.
[11] Carion N, Masson T, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//Proceedings of the European Conference on Computer Vision. 2020: 213-229.
[12] Zhao Y, Lv W, Zhang Q, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023.
[13] Ultralytics. Ultralytics YOLOv5 文档[EB/OL]. (2025-12-20)[2025-12-20].
[14] Ultralytics. Ultralytics YOLO11 文档[EB/OL]. (2025-12-20)[2025-12-20].
[15] Wang A, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024.
[16] Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025.
[17] Jiao X, Zhang X, Fan J, et al. Detection Method for Safety Helmet Wearing on Construction Sites Based on UAV Images and YOLOv8[J]. Buildings, 2025, 15(3): 354.
[18] NVIDIA. TensorRT Documentation[EB/OL]. (2025-12-20)[2025-12-20].
[19] Microsoft. ONNX Runtime Documentation[EB/OL]. (2025-12-20)[2025-12-20].

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐