摘要:本文面向真实消防与安防巡检场景,设计并实现一套基于深度学习的火焰/烟雾检测桌面系统:前端采用 PySide6/Qt 提供“左侧数据源与阈值、中央可视化叠加、右侧目标详情、底部记录与进度条”的交互闭环,支持图片/视频/本地摄像头多源输入与处理进度显示;检测结果以“类别名+置信度+边框”实时叠加,可调 Conf/IoU 并支持目标选择高亮;一键导出 CSV 与带框结果(单帧 PNG / 多帧 AVI),同时将账户与检测记录写入本地 SQLite 便于追溯与管理。系统包含登录/注册与“一次性跳过”入口,会话在客户端生效,兼顾易用性与口令校验安全;支持模型选择/权重加载(.pt 热切换),加载后同步刷新类别信息与配色。算法侧覆盖 YOLOv5–YOLOv12 共 8 种模型,统一训练与评测流程,对比 mAP、F1、PR 与训练曲线等指标,为火焰烟雾检测在精度与实时性之间提供可复现的工程参考。文末提供完整工程与数据集链接。

功能效果展示视频:热门实战|《基于深度学习的火焰与烟雾检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件页☇


1. 系统功能与效果

(1)登录注册:系统提供登录、注册与一次性跳过三种入口,用户在登录成功后会话仅在本客户端生效,用于加载个性化配置与历史记录。进入主界面后,操作动线清晰,从功能概览进入对应检测页,再完成模型选择与导出查看。账户信息与记录均以本地数据库管理,配合口令校验兼顾便捷性与基础安全。
在这里插入图片描述
(2)功能概况:桌面端采用“左侧参数与数据源、中部结果显示、右侧详情、底部记录与进度”的布局,使推理过程与结果解释保持同屏可见。用户可以快速切换常用功能页并定位最近一次检测记录,查看关键统计与耗时信息。博主在体验上更强调“可视、可控、可追溯”,尽量减少跨窗口跳转与重复操作。
在这里插入图片描述
(3)选择模型:系统支持从本地选择权重文件并即时切换当前YOLO模型,切换后同步刷新类别名称、颜色映射与显示样式,保证可视化语义一致。常用配置(如主题风格与标题文本等)会在本地持久保存,便于不同场景下快速恢复工作状态。模型切换与阈值参数保持联动,避免出现“模型已换但显示仍沿用旧类别”的混乱体验。
在这里插入图片描述
(4)图片检测:导入单张图片后可即时完成推理并在主显示区叠加检测框,框内呈现类别名与置信度,便于快速确认是否为火焰或烟雾误报。用户可通过Conf/IoU调节实现精度与召回的平衡,并支持对某一目标进行选择与高亮查看细节。检测记录可在底部区域统一呈现,便于与导出结果进行对照复核。
在这里插入图片描述
(5)文件保存:系统将检测结果与证据文件以时间戳方式统一命名与归档,便于批量管理与后续溯源复查。支持导出结构化结果用于统计分析,也支持一键保存带框可视化图像以满足留证需求。保存策略强调“可定位、可复查、可复用”,减少二次整理成本并提升工程闭环效率。
在这里插入图片描述


2. 绪论

2.1 研究背景及意义

火焰与烟雾作为早期火灾的关键视觉信号,具有强时效性与高风险耦合特征,若能在监控视频与工业现场实现稳定的实时检测,将直接服务于园区安防、工厂安全生产与森林防火的预警闭环。1 目标检测范式因其端到端输出类别与位置的能力,天然适配“发现—定位—留证—追溯”的工程链路,而YOLO类方法以单阶段结构在速度与精度间形成可用平衡,成为桌面端与边缘端落地的常见选择。1 (Ultralytics )

在真实场景中,烟雾往往呈现弱纹理、半透明与形变扩散的外观,火焰则受反光、高亮饱和与背景相似纹理影响,二者都易受光照变化、尺度跨度与遮挡干扰,从而在“误报代价高、漏报代价更高”的约束下放大工程难度。2 传统基于颜色与纹理的特征工程方法在受控条件下可工作,但面对复杂背景、相机噪声与跨域场景时泛化受限,难以支撑稳定的在线预警系统。3 (MDPI)

因此,本文以“基于深度学习的火焰烟雾检测系统”为目标,强调算法侧的可迁移检测能力与系统侧的人机协同可视化:一方面通过YOLOv5–YOLOv12多模型对比构建可复现实验基线,另一方面在桌面端提供可解释叠加结果、可追溯导出与本地存储,使检测从“离线指标”走向“可用产品”。2 该意义不仅体现在提升早期火灾识别的及时性,也体现在将模型评估、交互调参与证据留存统一到同一套工程流程中,从而降低部署与运维门槛。2 (MDPI)

2.2 国内外研究现状

面向火焰烟雾检测的视觉任务,研究难点首先来自目标外观的非刚性与跨域差异:烟雾形态随风场与燃烧阶段快速变化,且与云雾等“烟状干扰物”存在强类间相似,远距离时又常以小目标形态出现并伴随对比度衰减。2 同一场景中,火焰可能被遮挡或仅露出局部高亮边缘,导致检测框回归不稳定并诱发置信度过滤,从而在早期预警阶段产生漏检风险。2 因此,近期工作往往强调数据多样性、难例挖掘与小目标友好设计,以提升在复杂背景、夜间照明与强反光条件下的鲁棒性。2

从检测算法范式看,两阶段方法以候选区域与精细分类为特点,在精度上具有优势但推理链路较长,工程上常受实时性与资源约束影响。4 单阶段检测器通过密集回归与分类实现更低延迟,并在工业与安防场景中更易形成稳定吞吐。5 为缓解密集检测中的前景背景不均衡,Focal Loss等机制在提升难例学习上形成基础工具链。[6] 在Anchor-free方向,FCOS等方法以中心点与回归分支减少先验框依赖,降低超参敏感性并改善跨尺度泛化。[9] 与此同时,DETR系方法以集合预测与端到端匹配减少NMS依赖,但其训练与算力需求促使研究者提出面向实时性的改进路线,如RT-DETR在COCO上给出精度与速度并重的基线。[8] (arXiv)

以YOLO家族为代表的实时检测方法持续沿“结构效率—训练策略—端到端部署”演进:YOLOv6面向工业应用在COCO上报告了轻量模型的高吞吐与可部署性,为边缘实时推理提供了工程化参考。[10] YOLOv7以“可训练的Bag-of-Freebies/Bag-of-Specials”强化训练阶段收益,推动在不显著增加推理成本下提升精度上界。[11] Ultralytics的YOLOv8在工程实现上强调无锚与解耦头等设计,并在文档中公开了不同规模模型的mAP、参数量与多后端推理延迟,便于系统侧进行精度速度选型。[12] YOLOv9提出PGI与GELAN以改善梯度与信息流并强调从零训练的竞争力,体现了“训练稳定性与参数利用率”对实时检测的影响。[13] YOLOv10进一步瞄准NMS带来的端到端部署瓶颈,提出NMS-free训练与效率驱动的结构优化策略,以降低端到端延迟并提升部署友好性。[14] YOLOv11作为Ultralytics序列的延续在文档与模型卡中给出面向COCO的指标基线,便于与系统任务做横向对齐。[15] 最新的YOLOv12则以注意力为中心的实时检测框架为主线,给出在T4等设备上的延迟与mAP数据,试图在注意力建模能力与实时性之间取得可用平衡。[16] (arXiv)

在火焰烟雾这一垂直领域,研究往往将上述通用检测框架与小目标、强干扰与跨光照适配结合:例如有工作针对小目标火焰漏检提出以Transformer编码模块与注意力机制增强特征表达,并用于提升平均精度与降低漏检率。[19] 也有研究在森林烟火数据与D-Fire等数据上对YOLOv9/YOLOv10/YOLOv11进行对比评估,报告了精确率、召回率与mAP等指标差异,为模型选型提供了可复核证据。2 在系统落地层面,部署侧通常强调多后端加速与一致性验证,ONNX Runtime与TensorRT执行提供程序的组合被广泛用于在相同硬件上提升推理性能并降低延迟波动。[17] 综上,算法与系统的共同趋势是:以可部署的实时检测为核心,将训练评估、可视化解释、批量导出与可追溯存储整合为闭环,以支持在线预警与持续迭代。[17] (onnxruntime.ai)

方法/工作 范式/家族 数据集 关键改进技术 优势与局限性 关键指标(可追溯) 对应任务难点
YOLOv6-N/S YOLO(单阶段) COCO 面向部署的结构与训练/量化/优化组合 优势是吞吐高、部署友好,局限是需在小目标与复杂背景下做数据与策略适配 YOLOv6-N:AP 35.9%、T4吞吐1234 FPS;YOLOv6-S:AP 43.5%、495 FPS[10] 实时性约束与资源受限
YOLOv8n YOLO(单阶段、无锚/解耦头) COCO 无锚分离式检测头与工程化多后端支持 优势是指标与延迟公开便于选型,局限是域外烟雾形变仍依赖数据覆盖 mAP50–95 37.3;CPU ONNX 80.4 ms;A100 TensorRT 0.99 ms;参数3.2M[12] 精度速度权衡与可部署性
YOLOv9(图示对比) YOLO(单阶段) COCO PGI与GELAN以改善梯度与参数利用率 优势是强调从零训练竞争力,局限是域任务仍需再训练与阈值校准 COCO AP约55–56(随参数规模变化,见图示)[13] 训练稳定性与轻量高效
YOLOv10-S(NMS-free训练片段) YOLO(端到端导向) COCO 一致双分配实现NMS-free训练并降低端到端延迟 优势是端到端部署更友好,局限是小模型NMS-free与one-to-many仍存在性能差距 YOLOv10-S在消除NMS的训练设定下保持44.3% AP且端到端延迟降低4.63 ms[14] 端到端部署与低延迟
RT-DETR-R50/R101 DETR系(端到端) COCO 高效混合编码器与不确定性最小查询选择 优势是精度速度兼顾,局限是跨域迁移与算力需求仍需评估 AP 53.1/54.3,T4上108/74 FPS;Objects365预训练后AP 55.3/56.2[8] 避免NMS与端到端推理
YOLOv11n(烟火对比研究) YOLO(单阶段) Smoke&Fire、D-Fire 轻量版本用于烟火检测对比评估 优势是对垂直数据给出可复核指标,局限是数据分布变化仍可能引发误报 Precision 0.845,Recall 0.801,mAP@50 0.859,mAP@50–95 0.5582 类间相似与复杂背景干扰
YOLOv12-N YOLO(注意力中心) COCO 注意力机制与实时性协同设计 优势是提升建模能力同时保持实时性,局限是注意力结构对部署后端依赖更强 mAP 40.6%,T4延迟1.64 ms[16] 复杂形变与全局建模需求

(表中指标均来自对应文献或官方文档的明确描述,便于在后续实验章节对齐复现口径。2)(MDPI)

2.3 要解决的问题及其方案

(1)在火焰烟雾检测中,目标形态与背景干扰高度耦合,系统需要在复杂光照、小目标与遮挡条件下保持较高准确性,并在视频流上满足实时推理与稳定帧率的要求。
(2)同一模型在不同摄像头、不同场景与不同燃烧阶段会出现域偏移,系统需要具备可快速迁移与可验证的泛化能力,并支持多模型对比以降低单一权重带来的不确定性。
(3)桌面端交互需兼顾可解释与可操作:检测框叠加、目标高亮、阈值调参、进度可视与一键导出要形成连贯动线,否则难以支撑真实业务的排查与复核。
(4)数据处理与存储需要兼顾效率与安全:批量视频帧的结果落盘、CSV统计导出、带框证据留存与本地账户信息管理应具备可追溯性与可控的本地化持久化能力。

(1)算法侧以YOLOv12作为核心方案,并将YOLOv5–YOLOv12纳入统一训练与评测流程,通过数据增强、迁移学习与指标对比(mAP、F1、PR与训练曲线)形成可复现实验基线,同时为不同算力与延迟预算提供模型选型依据。
(2)系统侧以PyTorch完成训练与推理主链路,并与PySide6/Qt桌面端打通,形成图像、视频与本地摄像头三类输入的统一推理接口与一致的后处理统计逻辑。
(3)工程侧支持本地权重文件的热切换与类别信息同步刷新,结合Conf与IoU阈值的交互式调参,保证在不同场景下可快速找到误报与漏报的平衡点,并将结果通过CSV、单帧PNG与多帧AVI等形式完成证据闭环。
(4)部署与性能侧通过导出与加速策略(如ONNX与TensorRT等)降低推理延迟并提升吞吐稳定性,同时以SQLite实现账户与检测记录的本地持久化,配合时间戳命名与统一归档逻辑提升可追溯性与运维友好性。[17] (onnxruntime.ai)

2.4 博文贡献与组织结构

(1)综合文献综述:围绕火焰烟雾检测的任务难点,系统梳理两阶段、单阶段与端到端检测器的代表性路线,并以YOLOv5–YOLOv12的技术演进为主线给出面向实时部署的权衡视角。
(2)深度学习模型的选择与优化:在统一的数据处理与评测口径下,对多代YOLO模型进行训练、推理与指标对比,给出面向烟雾形变、小目标与复杂背景的可复用经验。
(3)美观友好的桌面端设计(PySide6/Qt):将检测算法封装为可交互的桌面工具,提供登录注册、三类输入源互斥切换、阈值调参、进度显示、结果导出与本地入库等能力,强调从“可跑”到“可用”的工程闭环。
(4)算法效果对比分析与资源交付:以mAP、F1、PR曲线与训练曲线等指标呈现对比结论,并给出完整工程与数据集的下载方式,保证读者可复现、可复查与可扩展。


3. 数据集处理

本研究采用火焰/烟雾目标检测数据集共 4470 张图像,其中训练集 3847 张、验证集 405 张、测试集 218 张,比例约为 86.0%/9.1%/4.9%,以满足模型训练、超参选择与泛化评估的基本闭环。类别体系设为三类:Fire(火焰)、Fire-(火焰B)与 Smoke(烟雾),其中“火焰B”可理解为更难或更易混淆的火焰子类(例如弱火、反光干扰下的火焰形态等),用于显式刻画边界样本并增强系统对误报场景的辨别能力。结合样例可视化可以看到,目标既包含室内明火等高亮区域,也包含室外烟雾等低对比度区域,框标注能够覆盖火焰主体与烟雾扩散的主要区域,使后续的可视化叠加与证据导出更贴近实际巡检需求。标签及其对应中文名如下:

Chinese_name = {'Fire': "火焰", 'Fire-': "火焰B", 'Smoke': "烟雾"}

在这里插入图片描述

从类别统计与空间分布来看,实例数在三类之间存在明显不均衡,Fire- 的样本量显著少于 FireSmoke,呈现典型长尾特征;这会使模型在训练中更倾向主流类别,从而在“边界火焰/弱火焰”上产生漏检或被烟雾、灯光反射误检的风险。标注框的中心点分布整体更集中在画面中部,但仍覆盖较宽范围,说明数据同时包含“主体居中”的监控视角与“目标偏边”的非理想构图;宽高分布则呈现从小目标到中大目标的混合形态,小尺度烟雾与远距离火点占比不低,对多尺度特征表达与小目标召回提出了更高要求。为避免数据泄漏与评测偏乐观,划分时建议按场景或视频片段分组并固定随机种子以保证可复现(若你的工程中已有具体分组策略与种子设置,则以实际设置为准),同时确保验证/测试集覆盖室内外、昼夜与不同背景材质等关键域变化。
在这里插入图片描述

在预处理与增强策略上,工程侧通常将输入统一到固定尺寸(如 640×640)并采用等比例缩放与填充以减少几何畸变,同时在训练阶段引入与火灾视觉特性强相关的数据增强:颜色与亮度扰动可缓解强光、火焰高饱和与夜间噪声造成的域偏移;随机尺度、裁剪与多图融合类增强有助于提升小目标与密集目标场景下的召回;模糊、噪声与压缩伪影模拟可贴近监控视频的低码率退化;遮挡类增强(如随机遮挡或局部擦除)可对应烟雾遮蔽与火焰被物体遮挡的情况。数据清洗方面,建议在训练前统一检查空标注、越界框与异常小框,必要时合并重复标注并剔除严重错误样本,从源头降低误差传播到训练与系统导出环节的概率;这些策略与后续桌面端的阈值调参、目标高亮和一键留证共同组成“训练可靠—推理稳定—结果可追溯”的数据基础。
在这里插入图片描述


4. 模型原理与设计

本文以 YOLOv12 为主线构建火焰烟雾检测的算法核心,并保持与 YOLOv5–YOLOv12 家族一致的端到端推理接口:输入图像经过统一的尺寸规整(工程上常用 640×640 的等比例缩放与填充以兼顾速度与细节),网络在单次前向中同时给出类别概率与边界框回归结果,输出可直接解析为 c l a s s n a m e , ; b b o x ( x min ⁡ , y min ⁡ , x max ⁡ , y max ⁡ ) , ; s c o r e , ; c l a s s i d {class_name,;bbox(x_{\min},y_{\min},x_{\max},y_{\max}),;score,;class_id} classname,;bbox(xmin,ymin,xmax,ymax),;score,;classid 并回映射到原图坐标系用于叠加可视化。针对火焰(高亮、反光与饱和易混淆)与烟雾(弱纹理、形变与低对比度)这类非刚性目标,检测器需要同时具备多尺度表征能力与足够的上下文建模能力,才能在“类间相似、尺度跨度大、遮挡与光照变化剧烈”的场景下稳定工作。

从网络结构看,YOLOv12 仍遵循“Backbone–Neck–Head”的层级化设计,但其关键特征在于将注意力机制作为架构中心:通过更高效的区域注意力(Area Attention, A2)获得更大的感受野,同时用残差高效层聚合网络(R-ELAN)缓解注意力引入后的优化与梯度传递问题,并配合 FlashAttention 等实现降低注意力的访存开销以满足实时性约束。(ar5iv) 在表达上,可将注意力抽象为经典的缩放点积形式
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K ⊤ d k ) V , \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V, Attention(Q,K,V)=softmax(dk QK)V,
其中 Q , K , V Q,K,V Q,K,V 分别表示查询、键、值特征, d k d_k dk 为键的通道维度;YOLOv12 的“区域”思想可理解为在空间维度上对特征图做简单分区,使注意力在较低代价下覆盖更大范围的上下文关联,从而对烟雾扩散边界与弱火焰轮廓更友好。多尺度融合由 Neck 完成,常见的做法是将高层语义特征上采样并与低层细节特征拼接或相加以形成金字塔表征,例如可写作 P l = ϕ ( [ , C l , ; U p ( P l + 1 ) , ] ) P_l=\phi([,C_l,;\mathrm{Up}(P_{l+1}),]) Pl=ϕ([,Cl,;Up(Pl+1),]),其中 C l C_l Cl 为 Backbone 第 l l l 阶段特征, U p ( ⋅ ) \mathrm{Up}(\cdot) Up() 为上采样算子, ϕ ( ⋅ ) \phi(\cdot) ϕ() 表示卷积/聚合模块。网络整体架构图如下图所示:
在这里插入图片描述

在损失函数与任务建模上,检测学习可视为对候选集合 B \mathcal{B} B 同时进行分类与定位:对第 i i i 个候选预测类别分布 p ^ ∗ i \hat{\mathbf{p}}*i p^i 与边界框 b ^ ∗ i \hat{\mathbf{b}}*i b^i,总体目标常写为
L = λ ∗ box L ∗ box + λ cls L ∗ cls + λ ∗ dfl L ∗ dfl , \mathcal{L}=\lambda*{\text{box}}\mathcal{L}*{\text{box}}+\lambda_{\text{cls}}\mathcal{L}*{\text{cls}}+\lambda*{\text{dfl}}\mathcal{L}*{\text{dfl}}, L=λboxLbox+λclsLcls+λdflLdfl,
其中 L ∗ cls \mathcal{L}*{\text{cls}} Lcls 多采用 BCE/Focal 等以提升难例学习, L ∗ box \mathcal{L}*{\text{box}} Lbox 以 IoU 系列度量提升框回归的几何一致性, L ∗ dfl \mathcal{L}*{\text{dfl}} Ldfl 则用于细化边界回归的分布建模以改善边界抖动。IoU 定义为 I o U = ∣ B ∩ B g t ∣ ∣ B ∪ B g t ∣ \mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|} IoU=BBgtBBgt,为兼顾中心距离与长宽一致性,可采用 CIoU/EIoU 等改进形式,例如
L C I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 + α v , L_{\mathrm{CIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2} + \alpha v, LCIoU=1IoU+c2ρ2(b,bgt)+αv,
其中 ρ ( ⋅ ) \rho(\cdot) ρ() 为预测框与真值框中心距离, c c c 为最小外接框对角线长度, v v v 衡量长宽比一致性, α \alpha α 为平衡系数;EIoU 进一步显式约束宽高差异:
L E I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 + ( w − w g t ) 2 c w 2 + ( h − h g t ) 2 c h 2 , L_{\mathrm{EIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2} + \frac{(w-w^{gt})^2}{c_w^2} + \frac{(h-h^{gt})^2}{c_h^2}, LEIoU=1IoU+c2ρ2(b,bgt)+cw2(wwgt)2+ch2(hhgt)2,
其中 w , h w,h w,h w g t , h g t w^{gt},h^{gt} wgt,hgt 为预测与真值宽高, c w , c h c_w,c_h cw,ch 为外接框在宽高方向的尺度常数;在火焰与烟雾这种边界不清晰、形态变化剧烈的对象上,这类损失有助于提升框的稳定性与可解释叠加效果,减少“框漂移”导致的误报与漏报。

训练与正则化策略上,YOLOv12 在注意力实现中更偏向与卷积算子相兼容的设计,并在归一化选择上强调 BN 的有效性以提升收敛与速度表现,这对小批量与多场景训练的稳定性尤为关键。(ar5iv) 面向火焰烟雾的工程训练通常会结合学习率预热与衰减(如线性/余弦策略)、权重衰减与指数滑动平均等手段抑制过拟合,同时通过颜色抖动、尺度扰动、模糊噪声与多图融合等增强覆盖夜间低照、监控压缩伪影与小目标远距离等难点,以降低域偏移带来的性能回落。推理阶段的后处理以置信度阈值 τ c \tau_c τc 与 NMS 的 IoU 阈值 τ i \tau_i τi 为核心:保留得分高的候选框并抑制与其重叠度 I o U > τ i \mathrm{IoU}>\tau_i IoU>τi 的冗余框,从而在火焰高亮区域的密集响应与烟雾大面积扩散的重复预测中获得更清爽的输出;本文系统将 τ c \tau_c τc τ i \tau_i τi 以可视化滑块暴露给桌面端,便于在“误报更敏感”或“漏报更不可接受”的场景中快速完成阈值校准,并与实时性约束共同形成可落地的检测闭环。


5. 实验结果与分析

本章实验以火焰烟雾数据集(4470 张,训练/验证/测试为 3847/405/218)为评测对象,在 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)上对 8 种 YOLO 系列模型(yolov5nu、yolov6n、yolov7-tiny、yolov8n、yolov9t、yolov10n、yolo11n、yolo12n)进行统一训练与推理测试,并进一步给出 s 级别模型(yolov5su、yolov6s、yolov8s、yolov9s、yolov10s、yolov11s、yolov12s)的性能参考。指标侧重点为 Precision、Recall、F1、mAP@0.5 与 mAP@0.5:0.95,工程侧同时记录预处理、推理与后处理耗时,以刻画桌面端在线检测的端到端体验边界。

模型 规模 Params(M) FLOPs(G) Pre(ms) Inf(ms) Post(ms) Precision Recall F1 mAP50 mAP50-95
YOLOv5nu n 2.6 7.7 1.90 7.73 1.31 0.7686 0.5703 0.6548 0.6385 0.3150
YOLOv6n n 4.3 11.1 2.17 6.78 1.39 0.6886 0.5922 0.6368 0.6253 0.3072
YOLOv7-tiny n 6.2 13.8 2.28 14.74 4.06 0.6898 0.6215 0.6539 0.6317 0.2829
YOLOv8n n 3.2 8.7 1.95 6.83 1.39 0.7972 0.5678 0.6632 0.6482 0.3282
YOLOv9t n 2.0 7.7 1.87 16.51 1.29 0.6885 0.5973 0.6396 0.6278 0.3117
YOLOv10n n 2.3 6.7 2.08 11.24 0.63 0.7565 0.5984 0.6682 0.6485 0.3092
YOLOv11n n 2.6 6.5 2.11 9.44 1.42 0.7216 0.6132 0.6630 0.6508 0.3230
YOLOv12n n 2.6 6.5 1.91 12.47 1.37 0.7999 0.6032 0.6877 0.6798 0.3298
YOLOv5su s 9.1 24.0 2.28 8.45 1.51 0.7257 0.5292 0.6121 0.5921 0.2854
YOLOv6s s 17.2 44.2 2.22 8.59 1.45 0.7057 0.5662 0.6283 0.6341 0.3051
YOLOv8s s 11.2 28.6 2.31 7.66 1.42 0.7698 0.5186 0.6197 0.6198 0.3012
YOLOv9s s 7.2 26.7 2.12 18.66 1.39 0.7658 0.5574 0.6452 0.6401 0.3205
YOLOv10s s 7.2 21.6 2.21 11.38 0.60 0.7145 0.6031 0.6541 0.6443 0.3050
YOLOv11s s 9.4 21.5 2.37 9.74 1.36 0.7831 0.5975 0.6778 0.6643 0.3225
YOLOv12s s 9.3 21.4 2.09 13.23 1.42 0.7880 0.5940 0.6774 0.6764 0.3387

在这里插入图片描述
图 5-1 n 级别模型 F1 与 mAP50 对比

图注:同一数据集与训练口径下,YOLOv12n 在 F1 与 mAP50 上整体领先,体现注意力增强后的综合收益。

从 n 级别模型对比看,YOLOv12n 在综合指标上取得最优:Precision 0.7999、F1 0.6877、mAP50 0.6798、mAP50-95 0.3298,说明其对“高亮火焰与低对比烟雾并存”的数据分布具备更强的总体刻画能力;同时它的 Recall 为 0.6032,配合较高 Precision 更适合桌面端“误报与漏报都需要可控”的实际需求。速度侧,YOLOv6n 与 YOLOv8n 的 InfTime 分别为 6.78 ms 与 6.83 ms,端到端(Pre+Inf+Post)约 10.34 ms 与 10.17 ms,更偏向高帧率监控流;YOLOv12n 的端到端约 15.75 ms,属于用一定延迟换取更稳健的识别质量。YOLOv7-tiny 与 YOLOv9t 的推理耗时明显偏高(InfTime 14.74 ms 与 16.51 ms),在同等精度区间下更容易成为系统实时性的瓶颈,因此更适合作为对照而非优先部署选项。

在这里插入图片描述
图 5-2 平均 PR 曲线对比

图注:不同模型在高召回区域精确率下降的速度存在差异,反映其对难例与背景干扰的抑制能力。

从 s 级别模型对比看,YOLOv12s 在 mAP50(0.6764)与 mAP50-95(0.3387)上均为最优,说明更大容量对复杂背景与遮挡情况下的定位质量仍有收益;与此同时,YOLOv11s 在 F1 上略高(0.6778 vs 0.6774),反映其在当前阈值设定下的“精确率—召回率平衡点”更接近最优工作区间。速度侧,YOLOv8s 的端到端约 11.39 ms 仍具备不错的吞吐,但其 Recall 偏低(0.5186)导致 F1 与 mAP 的提升受限;YOLOv12s 端到端约 16.74 ms,更适合对精度更敏感、且允许稍高延迟的场景(例如离线巡检复核或低帧率告警流)。结合桌面端的权重热切换机制,工程上可将 n 模型作为默认实时模式,将 s 模型作为“复核/高精度模式”,在同一界面完成策略切换与结果追溯。

结合 PR、F1-Confidence 与混淆矩阵可以进一步解释上述现象:
在这里插入图片描述

PR 曲线显示 Smoke 的 AP@0.5(0.694)高于 Fire(0.659),总体 mAP@0.5 为 0.676,说明烟雾在本数据集上更容易形成稳定的可分特征,而火焰更受反光、灯光与高饱和背景干扰影响。
在这里插入图片描述

F1-Confidence 曲线给出全类最优 F1 约为 0.68 且出现在置信度阈值约 0.358 附近,这意味着桌面端若以 0.25 作为初始阈值更偏向召回,实际部署时可将默认阈值上调至约 0.35 以获得更好的综合表现,并保留滑块用于场景化校准。
在这里插入图片描述

归一化混淆矩阵中,Fire 与 Smoke 的对角占比分别约为 0.63 与 0.65,而被判为 background 的比例仍不可忽视(例如 Fire 被背景吸收约 0.37),与“远距离小目标、弱火焰边界不清晰、烟雾形态扩散”这些任务难点一致;此外图中 Fire- 相关项几乎为空,也从侧面印证了该类样本稀缺带来的训练信号不足,后续可通过补充难例或采用重采样/代价敏感损失进一步改善。


6. 系统设计与实现

6.1 系统设计思路

本系统以“多源输入在线检测”为主线,采用分层架构组织桌面端交互与推理逻辑的协同关系:表现与交互层由 Qt 客户端承担,负责输入源选择、Conf/IoU 阈值调节、检测画面显示、目标详情浏览以及记录与进度的可视化;业务与会话管理层负责会话状态、源互斥切换、参数同步、结果统计与导出编排;推理与任务调度层以事件驱动的帧流为中心,将媒体接入、预处理、YOLO 推理与后处理串联成稳定的流水线;数据持久化层则将账户、配置与检测记录落地到本地数据库,并将证据文件与权重文件按统一归档规则管理,从而形成“可交互、可解释、可追溯”的工程闭环。该分层方式能够把实时检测的时序复杂度从界面逻辑中剥离出来,避免 UI 阻塞,同时为后续扩展更多模型类型、更多导出格式与更细粒度权限控制预留接口边界。

跨层协同的关键在于一致性与实时性保障:其一,输入源在同一时刻保持互斥,避免图片批处理、视频解码与摄像头采集并发造成的资源争用与结果混叠;其二,Conf/IoU 与模型权重的变更以统一的参数对象在各层同步,确保“显示阈值、后处理过滤与统计导出”三者口径一致;其三,进度条与耗时统计以帧级事件驱动方式更新,使用户能够感知推理节奏并在需要时停止或切换来源;其四,结果在前端以边框叠加、类别与置信度文本、目标高亮与右侧详情联动呈现,同时在底部记录区形成可回溯索引,导出时再以时间戳命名将 CSV、PNG 与 AVI 统一归档,减少后续复核成本并提升证据链完整性。

在这里插入图片描述

图 6-1 系统流程图(可下载)
图注:系统从初始化到多源输入,完成预处理、YOLO 推理与后处理,并在 Qt 端以阈值滑块、目标高亮与记录区形成交互闭环;导出阶段统一生成 CSV/PNG/AVI 并采用时间戳命名便于追溯。

在这里插入图片描述

图 6-2 系统设计框图(可下载)
图注:各层模块边界清晰,数据流由媒体采集进入异步任务队列,经预处理、推理与后处理后返回界面联动;账户与记录写入本地数据库,证据文件与权重文件统一归档管理。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图(可下载)
图注:登录、注册与跳过入口并行,注册信息写入本地数据库形成账户记录;登录校验成功后加载个性化配置与历史记录并进入主界面,支持注销与资料修改以维持会话与配置一致性。

登录与账户管理流程从应用启动进入登录界面开始,用户可选择注册、登录或一次性跳过,其中注册需要填写基本信息并写入本地数据库形成账户记录,登录则通过口令校验建立会话;当校验成功后,系统会加载与该账户绑定的个性化配置与历史检测记录,使主题样式、默认模型选择与最近结果能够在主界面中快速恢复,从而提升连续使用的效率与一致性。进入主界面后,用户可在资料修改中更新口令、语言与主题等偏好设置,必要时通过注销或切换账号回到登录入口,保证不同用户空间下的记录、导出与配置互不混淆,并与主检测流程形成稳定衔接。


7. 项目资源链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述
项目完整文件请见项目介绍及功能演示视频处给出:

完整项目及文档: https://newtopmat.feishu.cn/wiki/LGszwQ9y0iYcjXktnmicPsNDntc

功能效果展示视频:热门实战|《基于深度学习的火焰与烟雾检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[EB/OL]. arXiv:1506.02640, 2016. https://arxiv.org/abs/1506.02640
2 Alkhammash E H. A Comparative Analysis of YOLOv9, YOLOv10, YOLOv11 for Smoke and Fire Detection[J]. Fire, 2025, 8(1): 26. DOI:10.3390/fire8010026.
3 Chino D Y T, Avalhais L P S, Rodrigues J F, et al. BoWFire: Detection of Fire in Still Images by Integrating Pixel Color and Texture Analysis[EB/OL]. arXiv:1506.03495, 2015. https://arxiv.org/abs/1506.03495
4 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. arXiv:1506.01497, 2015. https://arxiv.org/abs/1506.01497
5 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[6] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[EB/OL]. arXiv:1708.02002, 2017. https://arxiv.org/abs/1708.02002
[7] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[8] Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023. https://arxiv.org/abs/2304.08069
[9] Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019. https://arxiv.org/abs/1904.01355
[10] Li C, Li L, Jiang H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. arXiv:2209.02976, 2022. https://arxiv.org/abs/2209.02976
[11] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[EB/OL]. arXiv:2207.02696, 2022. https://arxiv.org/abs/2207.02696
[12] Ultralytics. Ultralytics YOLOv8 Documentation[EB/OL]. 2023[2025-12-19]. https://docs.ultralytics.com/models/yolov8/
[13] Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024. https://arxiv.org/abs/2402.13616
[14] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. https://arxiv.org/abs/2405.14458
[15] Ultralytics. Ultralytics YOLO11 Documentation[EB/OL]. 2024[2025-12-19]. https://docs.ultralytics.com/models/yolo11/
[16] Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025. https://arxiv.org/abs/2502.12524
[17] ONNX Runtime. NVIDIA - TensorRT Execution Provider[EB/OL]. 2025[2025-12-19]. https://onnxruntime.ai/docs/execution-providers/TensorRT-ExecutionProvider.html
[18] Ultralytics. Ultralytics YOLOv5 Documentation[EB/OL]. 2021[2025-12-19]. https://docs.ultralytics.com/models/yolov5/
[19] 王洪义, 孔梅梅, 徐荣青. 基于改进YOLOV5的火焰检测算法[J]. 计算机与现代化, 2023(1): 135-140.
[20] 蔡航宇, 南丰. 基于改进YOLOv5s的火灾烟火检测模型[J]. 计算机科学与应用, 2024, 14(11): 161-169.

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐