摘要:本文面向森林与工业场景的早期预警需求,设计并实现一套基于 YOLOv12 的火焰检测桌面系统,提供从数据训练到端侧推理的一体化流程,配套完整代码与数据可下载。系统前端采用 PySide6/Qt,支持图片/视频/本地摄像头多源输入,检测结果在主显示区实时叠加目标框(类别+置信度),并通过处理进度条与耗时统计反馈运行状态。为满足工程落地与可追溯性,系统支持一键CSV 导出与带框结果导出(单帧 PNG、多帧 AVI),同时将账户与历史记录写入SQLite 本地库,提供登录/注册/跳过入口与会话范围内的权限与配置生效机制。算法侧覆盖 YOLOv5–YOLOv12 共 8 种模型,对比 mAP、F1、PR 曲线、训练曲线等指标,并在界面中实现模型选择/权重加载.pt 热切换,切换后同步刷新类别与配色以保证交互一致性;同时附带论文写作示例,便于复现实验与撰写报告。文末提供完整工程与数据集链接。

功能效果展示视频:热门实战|《基于深度学习的火焰检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件页☇


1. 系统功能与效果

(1)系统提供登录、注册与可跳过入口,用户可在启动页完成身份验证或一次性跳过进入主界面,会话在本次运行内持续生效并绑定个人配置与历史记录。进入系统后按“概览—图片/视频/摄像头检测—模型选择—导出视图”的动线组织操作,可快速定位最近记录并对导出的 CSV 结果进行高亮回溯。账户与记录由本地 SQLite 统一管理,配合口令校验与本地化存储,在不依赖外部网络的前提下兼顾体验与安全。
在这里插入图片描述
(2)功能概况上,桌面端以“左侧数据源与阈值控制—中央可视化显示—右侧目标详情—底部记录与进度”为核心布局,形成从导入到推理再到复盘的一致闭环。系统支持图片、视频与本地摄像头多源输入,源切换保持互斥并同步刷新界面状态,避免任务混用带来的误操作。常用的 Conf/IoU 调节、目标选择与高亮、统计与导出入口集中在同一交互路径中,底部检测记录可跨页面共享以便连续追踪。
在这里插入图片描述
(3)选择模型采用本地权重加载方式,用户在界面中指定 .pt 权重即可切换当前 YOLO 模型,切换后同步刷新类别信息、配色与显示规则,保证不同模型输出的可对比性。系统同时保留常用阈值、界面主题与标题文本等偏好设置,在多次启动间自动恢复,减少重复配置成本。模型切换过程中界面提示与状态联动保持清晰,使用户能直观确认“当前模型”和“当前输入源”的一致关系。
在这里插入图片描述
(4)图片检测支持导入单张图片或图片集合后进行即时推理,检测框直接叠加在主显示区并展示类别与置信度,便于快速判断告警可信度。用户可通过 Conf/IoU 调节控制误报与漏报的权衡,并在目标列表中点选对象实现高亮与细节查看,降低复杂背景下的阅读负担。检测结果可随时导出为结构化 CSV,同时支持一键保存带框图片以用于报告与复盘。
在这里插入图片描述
(5)文件保存围绕可追溯与批量管理设计,所有导出结果采用时间戳命名并按统一规则归档,便于按任务与时间快速检索与复查。系统支持导出 CSV 统计文件、带框 PNG 单帧结果,以及在多帧场景下输出 AVI 以保留时序信息,满足记录、共享与审计需求。导出索引与关键元数据会同步写入本地 SQLite,确保历史记录与文件实体之间可关联、可查询、可复现。
在这里插入图片描述


2. 绪论

2.1 研究背景及意义

火灾属于高破坏性突发事件,其早期识别与快速处置直接关系到人员安全、设备资产与生产连续性,工程上通常需遵循火灾自动报警与联动的基本设计原则以保证报警链路可靠与可追溯。1 传统点式传感器对空间覆盖、通风扰动与安装位置依赖较强,在森林、厂房与仓储等大空间场景中往往难以兼顾早期性与全面性。1 以视频为载体的视觉检测能够提供更丰富的时空线索,并天然支持“可视化解释”,从而更适合与值守人员形成面向处置的闭环协同。[2]

近年来深度学习显著提升了目标检测对复杂背景的建模能力,使得在光照变化、动态遮挡与背景干扰条件下的鲁棒识别成为可能。[8] 在火焰检测场景中,系统既要识别小尺度、低对比度的初期火苗,也要在烟雾、反光、强噪声与运动模糊下保持较低漏报率,这对检测器的多尺度特征表达与边界框回归提出更高要求。[19] 因此,将高精度检测算法与可交互桌面端集成,形成“数据训练—模型评测—在线推理—结果存档”的工程化闭环,不仅能提升告警效率,也能为后续复盘与模型迭代提供可信依据。[2]

2.2 国内外研究现状

面向森林与工业场景的火焰识别,国内外研究普遍将难点归结为类间相似性高(如夕阳、焊花、车灯与火焰颜色相近)、目标尺度差异大(远距离小火苗与近距离大火团并存)、遮挡与烟雾干扰显著、强光与反光导致颜色分布漂移,以及真实样本长尾分布造成的训练不稳定。[5] 早期视觉火灾方法多依赖颜色与运动启发式特征,对光照与背景变化敏感,而基于统计颜色模型的研究为后续“颜色先验+学习模型”的思路奠定了基础。[4] 在深度学习阶段,研究者开始使用卷积网络直接学习判别特征,并尝试在非时序条件下实现实时火焰识别以满足监控场景的时延要求。[3]

从检测范式看,两阶段检测器以候选区域为中心,通常在复杂背景下更稳健,但代价是推理链路较长且实时性压力更大。[8] 单阶段检测器通过密集预测直接输出目标框,更容易在边缘端实现低延迟部署,并在工程界形成了“精度与速度可调”的常用基线。[9] 与此同时,Anchor-free 思路通过中心点或像素级回归减少先验框设计,对小目标与密集目标具有潜在优势,但对特征对齐与训练稳定性也更敏感。[12]

方法 范式/家族 常用数据集 关键改进技术 优势与局限性(面向火焰场景) 论文报告的代表指标(示例) 更适配的任务难点
Faster R-CNN 两阶段 COCO RPN 生成候选区域 背景复杂时较稳健,但链路较长 COCO 指标见原文 复杂背景抑制误检
SSD 单阶段/Anchor-based VOC 多尺度特征预测 推理快但小目标易漏检 VOC2007 mAP 74.3(SSD300) 中等尺度、低时延
RetinaNet 单阶段/Anchor-based COCO Focal Loss 缓解正负不平衡 对难例更友好,但对先验框仍敏感 COCO AP 39.1(R-101-FPN) 长尾与难例学习
EfficientDet 单阶段 COCO BiFPN 与复合缩放 精度高但模型家族跨度大 COCO AP 52.2(D7) 多尺度与遮挡
FCOS 单阶段/Anchor-free COCO 像素级回归与中心度 对密集目标友好,需稳定训练 COCO 指标见原文 密集小目标
CenterNet Anchor-free COCO 关键点表示目标 简化后处理,但热力图易受噪声影响 COCO 指标见原文 小目标与遮挡
DETR Transformer COCO 集合匹配与端到端预测 可减少 NMS 依赖,但训练收敛慢 COCO AP 42.0 背景干扰抑制
RT-DETR Transformer/实时化 COCO 实时化检测 Transformer 兼顾速度与精度,工程实现复杂 指标见原文 实时与复杂背景
YOLOX YOLO系/Anchor-free COCO 解耦头与训练策略优化 速度友好,需良好数据增强 指标见原文 实时与多尺度
YOLOv7 YOLO系 COCO 训练策略与结构优化 工程成熟,适配部署生态 指标见原文 通用实时检测

在损失函数与训练策略方面,IoU 系列回归损失通过直接优化框重叠度提升定位质量,其中 GIoU 与 DIoU/CIoU 系列在非重叠或远距离框回归时更稳定,因而常被用于提升小目标与遮挡场景下的边界框学习效果。[18] 针对火焰数据的长尾与难例问题,基于难例挖掘的分类损失设计被证明能显著改善正负样本极不均衡时的训练效率与召回率。[10] 这些策略与火焰检测的“高召回优先”目标一致,但也会带来阈值选择、误报控制与代价敏感评估等系统层面的新权衡。[2]

以 YOLO 为代表的实时检测路线在工程落地中最为常见,其核心趋势是通过解耦头、多尺度特征融合与更强的数据增强来提升精度,同时通过更轻量的骨干网络与推理加速接口来降低延迟。[16] 在与 Transformer 相关的方向上,端到端集合预测为减少后处理复杂度提供了新路径,而实时化变体则进一步推动了“高精度且可部署”的实践可能性。[15] 面向系统层面的研究也逐渐强调闭环:在线推理结果的结构化存档、可视化解释、批量导出与可追溯命名策略共同构成可迭代的数据反馈机制,从而让模型优化不再停留在离线指标对比。[2]

2.3 要解决的问题及其方案

围绕“基于深度学习的火焰检测桌面系统”这一目标,本文需要同时解决算法与工程两类关键矛盾,并在统一流程中保证用户体验与结果可信度。[2] 具体而言,需要解决的问题包括:(1)检测准确性与实时性的平衡,既要在烟雾、反光与小目标条件下保持较高召回,又要满足视频与摄像头输入的低时延推理需求;(2)模型对场景差异的适应性与泛化能力,需应对室内外光照变化、背景干扰与长尾样本分布;(3)桌面端交互界面的直观性与功能完整性,要求多源输入互斥切换、阈值可调、目标可高亮与结果可追溯导出;(4)数据处理效率与存储安全性,需支持历史记录管理、结构化落库与便捷检索以支撑复盘与迭代。1

对应上述问题,本文给出的整体方案包括:(1)以 YOLOv12 为核心检测模型,并覆盖 YOLOv5–YOLOv12 的多模型对比评测,通过统一指标体系(mAP、F1、PR 与训练曲线)建立可复现实验基线;(2)在训练侧引入与火焰难点相匹配的数据增强与迁移学习策略,并结合改进的边界框回归损失以提升小目标与遮挡条件下的定位稳定性;(3)采用 PyTorch 完成训练与推理逻辑封装,并与 PySide6/Qt 桌面端集成实现端到端推理流程,支持图片、视频与摄像头输入及权重文件热切换;(4)优化结果存储与导出链路,采用结构化字段记录检测框与置信度,将账户与历史记录写入本地 SQLite,并以时间戳命名实现批量管理与溯源复查。[19]

2.4 博文贡献与组织结构

本文的主要贡献体现在以下方面:(1)给出面向火焰场景的检测任务综述与技术路线选择依据,将复杂背景、小目标、遮挡烟雾与长尾分布等难点映射到检测范式、损失设计与训练策略上;(2)完成 YOLOv5–YOLOv12 的统一评测框架与对比分析,使用标准指标与曲线呈现模型在精度、召回与稳定性上的差异,并给出面向实时预警的选型建议;(3)实现可落地的 PySide6/Qt 桌面系统,支持多源输入、阈值交互、目标高亮、结果批量导出与本地 SQLite 记录管理,形成从推理到存档的可追溯闭环;(4)提供完整工程、数据与论文示例,使得训练复现、界面演示与工程部署能够在同一项目中完成迁移与复用。[2]

全文组织如下:本章在研究背景与现状基础上明确任务难点与方案框架;后续章节将依次介绍数据集处理与标注规范、YOLOv12 为主线的模型原理与关键设计、不同 YOLO 版本的实验结果与对比分析,以及桌面端系统的分层架构与关键流程实现,最终给出总结与可扩展方向以支撑持续迭代。[16]


3. 数据集处理

本系统使用的火焰目标检测数据集共包含 3893 张图像,覆盖了航拍监控、地面远距离观测以及近景火源等多类视角与背景,样例可见批次拼图中既有林火条带状火线,也有工业/生活场景下的局部火焰与强反光干扰。数据集仅包含 1 个目标类别,类别字典为 fire(中文名“火焰”),标注采用目标检测常见的 YOLO 归一化框表示方式(以图像宽高归一化后的中心点坐标与宽高描述),因此在训练与推理侧能够直接复用 Ultralytics/YOLO 系列的输入规范与后处理流程,从而减少数据格式转换带来的误差传播与工程复杂度。标签及其对应中文名如下:

Chinese_name = {'fire': "火焰"}

在这里插入图片描述

数据集划分为训练集 2725 张、验证集 780 张、测试集 388 张,约对应 70.0% / 20.0% / 10.0% 的比例;为保证可复现实验,本文在划分与打乱过程中使用固定随机种子并保持划分清单不变,使得不同模型版本(YOLOv5–YOLOv12)的对比评测具备一致的数据基准。由于类别数为单类,不存在“类间样本数量”意义上的长尾,但从标注框的尺度与位置分布看,数据呈现明显的“尺度长尾”:既包含占画面较大区域的近景火团,也包含大量远距离小目标火点;结合框中心点与宽高分布图可以观察到目标在画面中部更为密集、同时小尺寸框占比较高,这会显著抬高漏检风险并对多尺度特征表达提出要求。
在这里插入图片描述

在预处理与增强策略上,本文以统一输入尺寸的缩放与必要的填充对齐为基础,确保不同分辨率图像在推理阶段的坐标还原一致;同时采用面向火焰场景的增强以提升泛化能力,包括随机尺度与平移以模拟不同监控距离、颜色与亮度扰动以覆盖昼夜与烟雾遮挡带来的色域漂移、翻转与轻度仿射以增强视角鲁棒性,并在清洗阶段剔除异常标注与越界框以减少训练噪声。上述策略与本任务的关键难点一一对应:尺度增强与多样化采样有助于缓解“小火苗远距离”带来的召回下降,颜色/亮度扰动能降低“夕阳、灯光、反光”等伪火源误检概率,而规范化清洗与固定划分则为后续模型对比与系统端落地提供稳定、可追溯的数据基础。
在这里插入图片描述


4. 模型原理与设计

本文以 YOLOv12 为主线完成火焰检测建模,其本质属于单阶段目标检测范式:网络对输入图像进行一次前向传播,直接在多尺度特征图上同时预测类别概率与边界框位置,从而在保证精度的同时满足视频与摄像头场景对低延迟的要求。针对火焰目标常见的“小尺度、形态边界不规则、烟雾遮挡与高亮反光易误检”等特点,模型设计的核心落点是更强的全局建模能力与更稳定的特征聚合:一方面通过更有效的注意力机制捕捉长程依赖,另一方面保留金字塔式多尺度融合,使远距离小火点与近景大火团都能在合适的感受野上被检出。(Ultralytics Docs)

在结构上,YOLOv12 仍遵循“骨干网络—颈部网络—检测头”的端到端流水线:骨干负责从输入中提取层级特征,颈部通过自顶向下与自底向上的路径聚合完成多尺度融合,检测头在不同尺度上输出候选框与类别得分。与以往更偏 CNN 的版本相比,YOLOv12 强调以注意力为中心的表征学习,典型做法是在特征图上引入“区域注意力”,将特征划分为若干区域分别计算自注意力以降低计算与访存开销,同时配合更高效的特征聚合模块(如 R-ELAN)改善深层网络的梯度流与表达能力;其注意力计算可用标准形式表示为
A t t n ( Q , K , V ) = s o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V, Attn(Q,K,V)=softmax!(d QK)V,
其中 (Q,K,V) 分别为查询、键和值的线性映射,(d) 为通道维度的缩放因子,区域化处理则等价于在空间维度上对 (Q,K,V) 做分块并在块内计算注意力以获得更好的效率与大感受野兼顾。网络整体架构图如下图所示:

在这里插入图片描述

损失函数与任务建模上,本文以检测任务的通用分解为主:分类分支学习“是否为火焰”的类别概率,回归分支学习边界框几何参数,并通过正负样本分配与多尺度监督稳定训练。边界框回归常以 IoU 族损失提升定位质量,基本重叠度定义为
I o U ( B , B ∗ ) = ∣ B ∩ B ∗ ∣ ∣ B ∪ B ∗ ∣ , \mathrm{IoU}(B,B^*)=\frac{|B\cap B^*|}{|B\cup B^*|}, IoU(B,B)=BBBB,
其中 (B) 为预测框、(B^) 为真实框;在火焰这种边界模糊且尺度跨度大的场景中,更常用的改进形式会在重叠度之外引入中心距离与形状一致性项,例如
L C I o U = 1 − I o U + ρ 2 ( b , b ∗ ) c 2 + α v , \mathcal{L}_{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^*)}{c^2}+\alpha v, LCIoU=1IoU+c2ρ2(b,b)+αv,
其中 (\rho(\mathbf{b},\mathbf{b}^
)) 表示预测框与真实框中心点距离,© 为最小外接框对角线长度,(v) 衡量长宽比差异,(\alpha) 为平衡系数;这类设计能在小目标、部分遮挡或非重叠初期阶段提供更稳定的回归梯度,从而降低漏检并改善框的收敛质量。

训练与正则化层面,系统侧统一采用 640×640 的预处理输入以对齐不同分辨率数据,并结合颜色/亮度扰动、随机尺度与平移等增强覆盖光照漂移与远近尺度变化;优化过程中配合学习率热身与余弦退火、EMA 等常用策略提升收敛稳定性,而 BN 等归一化机制用于缓解批间分布漂移并提升泛化。推理阶段的关键控制点集中在置信度阈值与 NMS 抑制阈值:候选框得分可抽象为 (s=p_{\mathrm{cls}}\cdot p_{\mathrm{obj}}),并在 NMS 中以 (\mathrm{IoU}>\tau) 的规则抑制重叠框,其中 (\tau) 与界面侧的 IoU 滑块保持一致;这使得用户可以在“高召回的早期预警”和“低误报的稳健告警”之间做可解释的交互式权衡,并将最终结果以结构化记录与带框导出固化为可追溯证据链。


5. 实验结果与分析

本章以 FireDatasets 数据集为评测对象,统一在训练/验证/测试划分不变的前提下,对比 yolov5nu、yolov6n、yolov7-tiny、yolov8n、yolov9t、yolov10n、yolo11n、yolo12n 等 8 种 YOLO 模型,并补充 s 尺度系列(yolov5su–yolov12s)以观察“更大容量”带来的收益与代价。评价指标采用 Precision、Recall、F1、mAP50 与 mAP50-95,同时记录预处理、推理与后处理耗时以刻画端侧可用性;测试硬件为 NVIDIA GeForce RTX 3070 Laptop GPU(8GB),因此耗时结果可视为面向笔记本端部署的参考基线。

Scale Model Params(M) FLOPs(G) Pre(ms) Inf(ms) Post(ms) Precision Recall F1 mAP50 mAP50-95
n YOLOv5nu 2.6 7.7 1.90 7.73 1.31 0.891 0.783 0.834 0.868 0.505
n YOLOv6n 4.3 11.1 2.17 6.78 1.39 0.860 0.803 0.831 0.863 0.498
n YOLOv7-tiny 6.2 13.8 2.28 14.74 4.06 0.854 0.781 0.816 0.847 0.435
n YOLOv8n 3.2 8.7 1.95 6.83 1.39 0.876 0.794 0.833 0.870 0.501
n YOLOv9t 2.0 7.7 1.87 16.51 1.29 0.840 0.805 0.822 0.872 0.513
n YOLOv10n 2.3 6.7 2.08 11.24 0.63 0.851 0.783 0.816 0.856 0.494
n YOLOv11n 2.6 6.5 2.11 9.44 1.42 0.822 0.804 0.813 0.860 0.505
n YOLOv12n 2.6 6.5 1.91 12.47 1.37 0.865 0.808 0.835 0.881 0.510
s YOLOv5su 9.1 24.0 2.28 8.45 1.51 0.883 0.791 0.835 0.879 0.502
s YOLOv6s 17.2 44.2 2.22 8.59 1.45 0.881 0.796 0.836 0.867 0.502
s YOLOv7 36.9 104.7 2.44 23.62 3.46 0.844 0.810 0.827 0.832 0.420
s YOLOv8s 11.2 28.6 2.31 7.66 1.42 0.854 0.787 0.820 0.866 0.499
s YOLOv9s 7.2 26.7 2.12 18.66 1.39 0.838 0.822 0.830 0.874 0.512
s YOLOv10s 7.2 21.6 2.21 11.38 0.60 0.862 0.798 0.829 0.865 0.500
s YOLOv11s 9.4 21.5 2.37 9.74 1.36 0.872 0.776 0.821 0.862 0.500
s YOLOv12s 9.3 21.4 2.09 13.23 1.42 0.855 0.811 0.832 0.867 0.500

从 n 系列结果看,YOLOv12n 在 mAP50(0.881)与 F1(0.835)上取得最优或近最优表现,同时 mAP50-95 达到 0.510,说明在更严格的 IoU 阈值范围内仍保持了较稳定的定位质量;这与火焰目标“边界模糊、尺度跨度大”的任务属性一致:更强的特征聚合与全局建模能力往往更有利于提升中高 IoU 条件下的框质量。对比来看,YOLOv9t 的 mAP50-95 略高(0.513),但推理时间显著增加(16.51ms),更适合对精度敏感且可容忍更高时延的场景;YOLOv7-tiny 在推理与后处理耗时上都偏大且 mAP50-95 明显落后,说明其在本数据分布下对小目标与复杂背景的适配性不足。如下双条形图可直观观察 n 系列在 F1 与 mAP50 的差异与排序。

在这里插入图片描述
图 5-1 n 系列(轻量模型)在同一测试集上的 F1 与 mAP50 对比;YOLOv12n 在两项指标上整体领先,体现了更好的精度-召回平衡与检出稳定性。

从 s 系列结果看,更大参数量并未带来线性收益:YOLOv5su 获得最高的 mAP50(0.879),但 mAP50-95 与 F1 并未显著拉开差距;YOLOv9s 的 mAP50-95 达到 0.512,为 s 系列最优,但推理时延提升到 18.66ms,强调了“更严格定位质量”与“实时性”之间的典型权衡。综合精度与速度,YOLOv8s(7.66ms)与 YOLOv5su(8.45ms)在中等时延下取得较高 mAP50/F1,更适合作为桌面端视频推理的稳健选择;若以低延迟为首要目标,n 系列中的 YOLOv6n/YOLOv8n 仍具有更好的时延优势。对应的 s 系列双条形图如下。
在这里插入图片描述
图 5-2 s 系列(中等规模模型)在同一测试集上的 F1 与 mAP50 对比;整体差异较 n 系列更小,表明在该数据规模与单类任务下,收益更多来自结构与训练细节而非单纯扩大容量。

结合 PR 曲线与 F1-Confidence 曲线可以进一步解释阈值选择对系统体验的影响:
在这里插入图片描述
PR 曲线在高召回区域出现明显精度下滑,通常对应“远距离小火点、烟雾/强光反射等易混淆区域”的误报增加;
在这里插入图片描述
F1-Confidence 曲线显示在置信度约 0.34 左右可取得较优的综合表现,这与桌面端默认 Conf≈0.25 并允许用户按场景上调的交互逻辑相契合。训练曲线中 loss 的平稳下降与 mAP 的逐步抬升表明模型整体收敛良好,但在 0.50:0.95 的严格指标上提升相对缓慢,提示后续可将改进重点放在难例采样与定位质量上,例如增加小目标增强与更精细的标注一致性检查、引入更强的多尺度训练策略,或在部署端针对“强反光/焊花/灯光”场景补充负样本以降低误报并提升泛化稳定性。


6. 系统设计与实现

6.1 系统设计思路

本系统采用分层架构组织桌面端推理闭环,将复杂的多源输入、实时推理与结果可追溯管理解耦为四个稳定层次:表现与交互层(Qt 客户端)负责数据源选择、阈值滑块、结果可视化与记录视图;业务与会话管理层负责登录会话、源互斥调度、参数一致性与导出编排;推理与任务调度层以事件驱动的帧流为核心,完成媒体接入、预处理、YOLO 推理与后处理;数据持久化层则承载账户、配置、检测记录与导出索引的本地化管理。该分层使得 YOLOv5–YOLOv12 的检测逻辑在系统内部保持统一接口,而 Qt 侧仅关注“输入—显示—交互—导出”的体验闭环,从而降低模型迭代对界面稳定性的影响。

跨层协同以“多源输入—预处理—推理—后处理/统计—前端联动”为主链路,其中多源输入在业务层保证互斥,避免同一时刻图像/视频/摄像头并发引起的资源竞争与状态污染;推理层通过异步任务队列将帧读取与推理解耦,前端以信号与槽接收可视化结果并更新进度条与耗时信息,确保界面响应不被长耗时推理阻塞。阈值参数(Conf/IoU)在交互层以滑块形式提供,业务层负责将其作为“全局一致状态”同步到后处理模块(过滤与 NMS),并在记录区维持与导出结果同源的统计字段,使用户在调参、复核与导出之间获得一致的解释路径。

系统的可扩展性主要体现在权重热切换、统计与导出、主题与配置本地化以及异常恢复四个方面:权重热切换允许在不重启应用的情况下加载新的 .pt 权重并刷新类别与配色;统计与导出通过统一的编排器实现 CSV/PNG/AVI 的批量输出与时间戳命名,保证可追溯与可归档;主题与常用配置在本地持久化,使不同账户保持一致的使用习惯;异常恢复则在源切换、推理失败与导出失败时提供可回退的状态机,确保“帧流—推理—可视化”链路不因单点异常而长期失效。

在这里插入图片描述

图 6-1 系统流程图
图注:流程从系统初始化与输入源选择出发,经 640×640 预处理、YOLO 推理、Conf/IoU 过滤与 NMS 完成检测框生成,并在 Qt 前端叠加显示、目标高亮与统计更新;对视频/摄像头以事件驱动帧流循环处理,最终将 CSV/PNG/AVI 按时间戳命名导出并写入本地索引。

在这里插入图片描述

图 6-2 系统设计框图
图注:框图体现“Qt 表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”的边界与数据流向;多源输入经异步队列进入预处理与 YOLO 引擎,结果回传界面并触发记录、导出与本地入库。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图
图注:流程覆盖启动进入登录界面、注册写入本地数据库、口令校验建立会话、载入个性化配置与最近记录,并支持跳过登录与后续注销/切换账号;该链路与主检测流程共享同一会话状态与本地持久化机制。

登录与账户管理的价值不在于“增加步骤”,而在于为检测任务提供清晰的会话边界与可追溯的数据归属:登录成功后载入主题、默认模型与最近记录,使用户在进入主界面时即处于可复现实验环境;口令校验失败则阻断对本地记录与配置的写入,避免误操作污染统计与导出;而跳过登录作为一次性入口,允许演示与快速体验,但其配置与记录仍可按会话隔离,确保后续切换账号时结果与偏好不发生串扰,从而与主检测流程形成稳定衔接。


7. 项目资源链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述

项目完整文件请见项目介绍及功能演示视频处给出:

完整项目及文档: https://newtopmat.feishu.cn/wiki/CuyHwbaIkiP0U4kJ33ZcHpfin4e

功能效果展示视频:热门实战|《基于深度学习的火焰检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 中华人民共和国国家标准. GB 50116—2013 火灾自动报警系统设计规范[S]. 北京: 中国计划出版社, 2013.
[2] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[3] Dunnings A J, Breckon T P. Experimentally defined convolutional neural network architecture variants for non-temporal real-time fire detection[J]. Fire Safety Journal, 2018, 100: 1-12.
[4] Çelik T, Demirel H, Özkaramanlı H, Uğurdaş İ. Fire detection using statistical color model in video sequences[J]. Journal of Visual Communication and Image Representation, 2007, 18(2): 176-185.
[5] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick C L. Microsoft COCO: Common Objects in Context[C]//European Conference on Computer Vision. Cham: Springer, 2014: 740-755.
[6] Toreyin B U, Dedeoglu Y, Cetin A E. Fire detection in video using wavelet analysis[J]. Optical Engineering, 2006, 45(6): 067204.
[7] Muhammad K, Ahmad J, Baik S W. Early fire detection using convolutional neural networks during surveillance for effective disaster management[J]. Neurocomputing, 2018, 288: 30-42.
[8] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
[9] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, Berg A C. SSD: Single Shot MultiBox Detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[10] Lin T Y, Goyal P, Girshick R, He K, Dollár P. Focal Loss for Dense Object Detection[C]//IEEE International Conference on Computer Vision. 2017: 2980-2988.
[11] Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10781-10790.
[12] Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//IEEE International Conference on Computer Vision. 2019: 9627-9636.
[13] Zhou X, Wang D, Krähenbühl P. Objects as Points[C]//IEEE International Conference on Computer Vision. 2019: 6563-6572.
[14] Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[15] Zhao Y, Lv W, Xu S, et al. RT-DETR: Real-Time Detection Transformer[EB/OL]. arXiv:2304.08069, 2023.
[16] Ge Z, Liu S, Wang F, Li Z, Sun J. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021.
[17] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022.
[18] Rezatofighi H, Tsoi N, Gwak J, Sadeghian A, Reid I, Savarese S. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 658-666.
[19] Zheng Z, Wang P, Liu W, Li J, Ye R, Ren D. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]//AAAI Conference on Artificial Intelligence. 2020, 34(07): 12993-13000.

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐