摘要:本文面向低照度/夜视成像场景,设计并实现一套基于深度学习的行人检测桌面系统,目标是在保证实时性的同时提升夜间小目标与遮挡目标的检出稳定性。系统提供数据与代码可下载,前端采用 PySide6/Qt,支持图片/视频/本地摄像头多源输入,并在主显示区实时叠加类别名+置信度的检测框;视频与批量处理配备进度显示/处理进度条,可一键完成CSV 导出带框结果导出(单帧 PNG / 多帧 AVI)。为便于记录追溯与离线管理,检测结果与账户信息均支持SQLite 本地入库,并提供登录/注册(可跳过)的轻量入口与会话范围控制。算法侧覆盖 YOLOv5–YOLOv12(共 8 种),支持在界面内进行模型选择/权重加载(.pt 热切换),并对不同模型的 mAP、F1、PR 曲线及训练曲线进行对比分析,帮助用户在夜视部署场景下完成精度与速度的权衡。文末提供完整工程与数据集链接。

功能效果展示视频:热门实战|《基于深度学习的夜视行人检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件页☇


1. 系统功能与效果

(1)登录注册:系统启动后提供登录、注册与跳过三种入口,用户可在首次进入时选择一次性跳过以快速体验核心检测流程;登录成功后会话在本次运行内生效,并自动载入历史检测记录与个性化偏好。进入主界面后,交互动线清晰:先查看概览,再进入图片检测等功能模块,最后在导出视图完成结果复核与保存;账号与记录信息采用本地数据库管理,兼顾体验与基本安全边界。
在这里插入图片描述

(2)功能概况:主界面采用“左侧参数与数据源、中部结果显示、右侧目标详情、底部记录与进度”的布局,首次使用也能快速理解操作顺序。系统围绕夜视行人检测场景提供统一的阈值调节、目标高亮、推理耗时展示与结果表格联动,便于在低照度环境中快速确认误检与漏检。底部记录区支持按时间与来源回溯,必要时可通过 CSV 高亮定位最近一次检测的关键目标。
在这里插入图片描述

(3)选择模型:系统内置多种 YOLO 系列模型配置,用户可在界面中选择模型并加载本地权重文件,实现 .pt 权重的热切换。切换后类别名称、颜色映射与显示样式会同步刷新,避免夜间场景中不同权重导致的类别不一致问题。常用配置会在本地持久化保存,下一次打开仍可保持上次的模型与阈值习惯,减少重复操作成本。
在这里插入图片描述

(4)图片检测:针对单张图片或图片集合,系统支持一键推理并在主显示区叠加检测框,框内展示类别名与置信度,便于在暗光背景下快速识别行人区域。用户可随时调整 Conf/IoU 阈值观察检出变化,并通过点击目标实现高亮与详情联动,快速定位遮挡、小目标或反光干扰带来的难例。检测结果同时进入底部记录区,支持导出统计表以便复盘与迭代数据。
在这里插入图片描述

(5)文件保存:检测结果支持统一导出与归档,包含带框可视化图片、结构化 CSV 统计以及必要的运行信息,便于后续追溯与批量管理。导出文件采用时间戳命名策略,减少覆盖风险并提升检索效率,可按文件名快速复查对应样本与参数配置。对关键记录还可同步写入本地数据库,形成“检测—复核—导出—归档”的闭环使用体验。

在这里插入图片描述


2. 绪论

2.1 研究背景及意义

夜间与低照度环境下的行人检测是智能安防、智慧交通与工业园区无人巡检中的关键环节,其核心价值在于用机器视觉替代或辅助人工值守,降低漏检带来的安全风险,同时提升全天候运行能力。1 与白天场景相比,夜视成像往往伴随信噪比下降、运动模糊加重、强光眩光与阴影并存、目标纹理缺失以及小目标占比上升等问题,使得检测器更容易出现“看不清、看不全、看不准”的退化。2 另一方面,真实落地通常要求边缘端实时推理与低时延交互,既要在有限算力下保持帧率,又要在复杂光照中维持稳定精度,这迫使算法与工程系统必须协同设计而非单点优化。3

从工程视角看,夜视行人检测不仅是“跑得通模型”,更需要“可用的系统”:一方面,检测结果必须以可解释的方式可视化,帮助值班人员快速确认告警与复核误检,形成可靠的人机协同闭环;另一方面,检测过程应具备可追溯性,支持结果存档、统计报表与后续模型迭代的数据回流,才能在长期运行中持续提升性能。4 因此,本文以深度学习检测为核心、以桌面端交互为载体,围绕“夜间鲁棒性、实时性、可解释可视化与可追溯管理”四个维度构建夜视行人检测系统,目标是在工程可用性约束下获得稳定、可部署、可维护的整体方案。

2.2 国内外研究现状

面向夜视行人检测的研究大体可分为三条路线:其一是基于单目可见光的低照度检测,通过图像增强与检测器联合或串联以缓解亮度不足与细节缺失;其二是基于红外/热成像或可见光-红外双模态的融合检测,利用热信息在暗光下稳定凸显人体区域;其三是直接提升检测器结构与训练策略,使其对噪声、遮挡与尺度变化更鲁棒。5 在公开数据层面,KAIST 多光谱行人基准提供了对齐的可见光-热成像对,推动了夜间与多模态行人检测的系统化评测。6 (CVF Open Access)

在“增强+检测”范式中,Retinex 与零参考增强等方法常用于提升暗光可见细节,再交由单阶段检测器完成定位与分类;这一思路的优势是工程改造成本低,但增强过程若引入颜色失真、噪声放大或边缘过锐化,也会把伪纹理传递给检测器,从而造成误检。7 近期一些工作尝试将多曝光增强与 YOLO 检测深度耦合,在夜间驾驶类场景中兼顾可见性提升与实时性需求,体现出“端到端”与“实时可用”的趋势。8 (ScienceDirect)

多模态方向中,LLVIP 等数据集强调在低光环境下获取严格对齐的可见光-红外对,为融合检测、跨模态迁移与夜间行人识别提供了重要支撑。9 (arXiv) 相关方法通常围绕特征层融合、注意力引导与跨模态对齐展开,但在真实工程中仍会受到配准误差、模态缺失、硬件成本与计算开销的限制,尤其在高帧率视频流上更容易暴露部署瓶颈。10 国内也有研究以低光行人检测为目标,对实时 Transformer 检测器进行结构改造,在低照度数据集与夜间监控数据上同时考量精度、误检漏检与推理效率,反映出“端到端检测+工程实时性”正在成为重要方向。11 (CJLCD)

从通用检测框架演进看,两阶段方法以 Faster R-CNN 为代表,精度较强但推理链路更重,难以在边缘夜视视频流上长期稳定高帧率运行。12 单阶段方法以 SSD、RetinaNet、EfficientDet 等为代表,在速度与精度之间形成了更适合在线应用的折中,其中 Focal Loss 对缓解前景/背景极不均衡具有代表性意义。13 Anchor-free 方向如 FCOS、CenterNet 进一步简化了锚框设计并改善密集场景训练稳定性,但在夜间小目标与遮挡场景仍需要更强的多尺度特征融合与更稳健的标签分配策略支撑。[14] Transformer 检测器以 DETR 开启端到端范式,随后 Deformable DETR 等通过可变形注意力降低收敛与计算代价,推动了端到端检测在实时方向的落地探索。[15]

围绕实时工业与安防落地,YOLO 家族仍是夜视行人检测最常见的工程主干:YOLOv5 以 PyTorch 工程化与易部署著称,YOLOX 强化了 anchor-free 与训练“bag of freebies”经验,YOLOv9 引入 PGI 与 GELAN 以提升梯度信息利用与参数效率,而 YOLOv10 进一步推进 NMS-free 的端到端实时检测以降低延迟并简化部署链路。[16] (arXiv) 在更近的工作中,YOLOv12 强调以 attention-centric 的方式在实时约束下引入注意力建模能力,体现出“CNN 高效结构 + 注意力全局建模”的融合趋势。[17] (arXiv) 同期的 RT-DETR 则以端到端 Transformer 为核心,通过高效混合编码器与查询选择策略在 COCO 等基准上兼顾速度与精度,为夜间行人检测提供了另一条可对比的技术路线。[18] (arXiv)

下面给出与本文任务强相关的代表性方法对比(指标以各自论文/官方报告为准,便于溯源与选型)。

方法/工作 范式/家族 常用数据集 关键改进点 优势 局限 关键指标(示例) 更适配的任务难点 参考
Faster R-CNN 两阶段 COCO/行人检测集 RPN+RoI 分类回归 精度上限高 时延与部署链路偏重 以精度为主 复杂背景、误检控制 12
RetinaNet 单阶段 COCO Focal Loss 缓解类别不均衡 训练更稳、检测更均衡 夜间噪声下易受伪纹理影响 以 mAP 为主 前景稀少、背景复杂 13
DETR 端到端 Transformer COCO 集合预测、无需 NMS 推理链路简洁 收敛慢、计算开销较大 以 mAP 为主 遮挡、全局上下文 [15]
Deformable DETR 改进 DETR COCO 可变形注意力与多尺度特征 收敛更快、精度更高 实时端仍需优化 以 mAP 为主 小目标、多尺度 [19]
RT-DETR 实时端到端 Transformer COCO 高效混合编码器+查询选择 速度与精度兼顾 轻量端仍受算力约束 COCO 上可达 50%+ AP 级别 端到端部署、时延敏感 [18]
YOLOv5 YOLO 系 COCO/自建 工程化训练与部署生态 易部署、可扩展 后处理依赖 NMS 多尺度版本可选 实时视频流 [20]
YOLOX YOLO 系 COCO Anchor-free + 训练策略增强 泛化较好、部署成熟 夜间长尾仍需数据策略 以 mAP/速度折中 密集目标、遮挡 [16]
YOLOv9 YOLO 系 COCO PGI + GELAN 提升信息利用 参数效率更高 仍以 NMS 为主 以 mAP 为主 小目标、长尾 [21]
YOLOv10 YOLO 系 COCO NMS-free 端到端训练与高效设计 低延迟、部署更简 生态与工具链需适配 文中给出更低 latency 对比 时延敏感、工程部署 [22]
YOLOv12 YOLO 系 COCO attention-centric 实时框架 全局建模更强 需权衡注意力开销 文中强调精度-速度边界 复杂光照、遮挡 [17]
LLVIP(数据) 数据集 低光可见-红外 严格对齐成对数据 支撑融合与夜间评测 采集条件与分布有限 提供检测标注 暗光、模态互补 9
KAIST(数据) 数据集 可见-热成像 车载多光谱行人基准 夜间评测标准化 领域差异需迁移 提供对齐与序列标注 夜间、遮挡 6

综上,夜视行人检测的核心矛盾仍集中在“低照度信息缺失与噪声增强”对特征提取的破坏、“密集遮挡与小目标”对多尺度表达的挑战,以及“端侧实时与可追溯交互”对系统工程的约束;因此,本文选择以 YOLOv5–YOLOv12 的多模型对比为主线,并引入端到端与注意力化的新趋势作为参照,在统一评测指标(mAP、F1、PR 曲线与训练曲线)下给出面向工程部署的选型依据。

2.3 要解决的问题及其方案

面向夜视行人检测的桌面系统落地,本文主要关注以下问题:(1)夜间低照度导致特征弱化与噪声显著,模型容易漏检小目标并在强光/反光处误检,需要在准确性与实时性之间取得可部署的平衡;(2)场景分布跨度大(监控、道路、园区等),同一行人在不同曝光与视角下外观差异显著,模型泛化能力与环境适应性需要可验证;(3)桌面端交互必须直观完整,支持图片/视频/摄像头多源输入、阈值调节、目标高亮与结果导出,才能支撑日常值守与复核;(4)数据处理与存储需兼顾效率与安全,检测记录应可追溯、可检索、可导出,且账号与数据在本地持久化场景下要保证基本的口令校验与权限隔离。

对应地,本文给出如下解决方案:(1)以 YOLOv12 作为核心候选模型,并组织 YOLOv5–YOLOv12 共 8 种模型进行统一训练与推理对比,结合数据增强与迁移学习提升夜间鲁棒性,同时用 mAP、F1、PR 与训练曲线建立可复现的评测依据;(2)在 PyTorch 框架下固化统一的预处理与后处理流程,减少跨场景分布差异带来的实现偏差,并通过多数据源验证泛化表现;(3)以前端 PySide6/Qt 构建桌面端闭环,集成图片/视频/本地摄像头检测与权重热切换,提供 Conf/IoU 实时调参、目标选择高亮、CSV 与带框 PNG/AVI 一键导出;(4)以时间戳命名与 SQLite 本地库完成结果与账户的持久化管理,配合日志与异常恢复策略提升系统稳定性,并为后续持续迭代提供数据回流基础。

2.4 博文贡献与组织结构

本文的主要贡献可概括为:(1)围绕夜视行人检测的真实工程需求,系统梳理低照度检测、多模态融合与端到端实时检测的代表性进展,并给出与落地选型直接相关的性能权衡视角;(2)以 YOLOv5–YOLOv12 为主线构建可复现的多模型训练、推理与对比评测流程,覆盖 mAP、F1、PR 与训练曲线等指标,形成面向夜间场景的模型选型依据;(3)实现一套面向实际值守与复核的桌面端系统,支持图片/视频/摄像头输入、阈值调参、模型权重热切换、结果可视化与批量导出,并通过本地数据库实现可追溯管理;(4)在“算法效果对比分析 + 系统工程实现”的双线叙事下,将夜视检测的关键难点与系统交互闭环紧密对应,便于读者复用到相近的安防与交通场景。

全文组织结构如下:第 3 章介绍数据集与标注处理策略,并说明其如何覆盖夜间噪声、遮挡与尺度变化等难点;第 4 章以 YOLOv12 为主线讲解模型结构、训练要点与与夜视场景的适配机制;第 5 章给出 YOLOv5–YOLOv12 的对比实验与可视化分析;第 6 章从分层架构角度给出 PySide6/Qt 桌面系统的设计实现与关键流程图;第 7 章总结全文并讨论模型侧、系统侧与数据侧的后续改进方向。


3. 数据集处理

本文以已给出的夜视样例可视化、数据规模与标签分布相关图为依据展开。数据集共 5725 张夜视图像,划分为 4032 张训练、1104 张验证与 589 张测试,比例约为 70.4%/19.3%/10.3%,结合标签分布可视化可以看出,目标框宽高呈明显长尾,主体集中在较小的相对尺寸区间,且宽高具有正相关趋势,这意味着模型训练需要更依赖多尺度特征表达与更稳健的正负样本分配策略,以避免远处行人在暗光背景下被漏检。标签及其对应中文名如下:

Chinese_name = {'person': "行人"}

在这里插入图片描述

标注采用以目标框为核心的检测标注范式,结合坐标统计图的形式可以按照 YOLO 常用的归一化表示来组织(中心点 ( x , y ) (x,y) (x,y) ( w , h ) (w,h) (w,h)),并在数据入库或训练前进行一致性校验,重点排查越界框、零面积框、重复框与空标签样本,保证训练信号干净可控。预处理侧统一将输入分辨率映射到固定尺度(如 640×640)并保持长宽比的几何一致性,避免夜视画面中行人被非等比拉伸而引入形变偏差;同时建议固定随机种子并记录划分策略,确保后续不同模型(YOLOv5–YOLOv12)横向对比时,数据划分口径与难例分布一致,从而让 mAP、F1 与 PR 曲线差异更能反映结构与训练策略本身的优劣。
在这里插入图片描述

从训练批次可视化可以直观看到多图拼接类的数据增强痕迹,这类增强对夜视行人检测尤其关键:一方面通过尺度与位置扰动缓解“远处小目标占比高”的问题,另一方面通过随机裁剪与拼接增加遮挡与密集场景的组合多样性,使模型更接近真实监控画面的复杂分布;与之配合的亮度/对比度扰动、噪声注入与轻度模糊等增强可用于模拟不同夜视设备与不同曝光条件下的成像差异,从而提升环境适应性。总体而言,本数据集在“单类别、强尺度长尾、暗光噪声与遮挡并存”的特征下,更需要将清洗、统一预处理与针对性增强组合为一条稳定的数据管线,为后续模型训练与桌面端实时推理提供可复现的输入基础。


4. 模型原理与设计

本文夜视行人检测默认以 YOLOv12 为主线展开,其本质仍是单阶段(one-stage)目标检测:输入图像经过骨干网络提取多尺度特征,再由特征融合模块聚合不同层级的语义与细节,最终在检测头上同时完成边界框回归与类别置信度预测。对夜间场景而言,低照度会压缩纹理对比度并放大噪声,导致“弱特征目标”更难与背景分离,因此模型需要同时具备更强的全局建模能力(抑制伪纹理误检)与更稳健的多尺度表达(提升远距小行人召回),这也是本文选用注意力化实时检测框架的直接动机。YOLOv12 被提出为注意力中心(attention-centric)的实时检测器,强调在保持实时推理的同时引入有效的注意力建模,以提升复杂场景下的表达能力与检测上限。(arXiv)

从结构上看,YOLOv12 仍可按“Backbone–Neck–Head”的经典脉络理解:骨干侧通过高效特征聚合模块(如 R-ELAN 思路)稳定梯度流并提升特征复用,随后在若干阶段插入高效注意力模块以扩大感受野并增强长程依赖建模;颈部侧通常采用金字塔式的多尺度融合,将不同分辨率的特征对齐并互补,确保对近距大目标与远距小目标都具备可分辨的表示;检测头侧常用解耦设计将分类与回归分支分离,减少任务冲突并改善收敛。YOLOv12 的关键是“区域化注意力”与“轻量位置感知”的组合:将特征图划分为若干区域后在区域内计算注意力,可把标准自注意力的二次复杂度从 O ( ( H W ) 2 ) O((HW)^2) O((HW)2) 近似降低到 O ! ( ( H W ) 2 r ) O!\left(\frac{(HW)^2}{r}\right) O!(r(HW)2) H , W H,W H,W 为特征图高宽, r r r 为区域数),并可结合高效实现降低显存访存压力。其核心计算可写为
A t t n ( Q , K , V ) = s o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V, Attn(Q,K,V)=softmax!(d QK)V,
其中 Q , K , V ∈ R n × d Q,K,V\in\mathbb{R}^{n\times d} Q,K,VRn×d 分别为查询、键、值, d d d 为通道维度, n n n 为区域内 token 数;在夜视画面中,这类全局/半全局建模有助于利用上下文约束抑制高亮噪点与反光造成的误检,并在遮挡场景下补全“人形一致性”。网络整体架构图如下图所示(论文原文 PDF 可直接下载查看架构示意与模块细节)。(arXiv)

在这里插入图片描述

在损失函数与任务建模上,检测训练通常由分类损失、边界框回归损失与分布回归相关项共同构成,可用加权和表示为 L = λ cls L cls + λ box L box + λ dfl L dfl L=\lambda_{\text{cls}}L_{\text{cls}}+\lambda_{\text{box}}L_{\text{box}}+\lambda_{\text{dfl}}L_{\text{dfl}} L=λclsLcls+λboxLbox+λdflLdfl。分类项常用二元交叉熵以处理前景/背景与类别概率;回归项则围绕 IoU 系列目标函数构建以对齐几何重叠与形状约束,例如 IoU 定义为 I o U = ∣ B ∩ B g t ∣ ∣ B ∪ B g t ∣ \mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|} IoU=BBgtBBgt,在此基础上常用 CIoU/EIoU 等把中心距离与宽高一致性纳入优化,从而缓解夜间小目标“轻微偏移即严重漏对齐”的问题。以 CIoU 为例,
L CIoU = 1 − I o U + ρ 2 ( c , c g t ) d 2 + α v , L_{\text{CIoU}} = 1-\mathrm{IoU}+\frac{\rho^2(\mathbf{c},\mathbf{c}^{gt})}{d^2}+\alpha v, LCIoU=1IoU+d2ρ2(c,cgt)+αv,
其中 c , c g t \mathbf{c},\mathbf{c}^{gt} c,cgt 为预测框与真值框中心点, ρ ( ⋅ ) \rho(\cdot) ρ() 表示欧氏距离, d d d 为最小外接框对角线长度, v v v 刻画宽高比差异, α \alpha α 为平衡系数;在单类别“行人”任务中,这类几何约束往往比“类间可分性”更关键,因为夜视误检更多来自背景伪结构而非类别混淆。

训练与正则化策略需要与夜视难点一一对应:输入端通常统一到固定尺度(如 640×640)以稳定张量形状与推理吞吐,并结合多尺度特征输出提升对远距小行人的召回;增强侧除常规的尺度与裁剪扰动外,更建议加入亮度/对比度/伽马扰动、噪声注入与轻度模糊来模拟不同夜视设备与曝光条件,配合拼接类增强提升密集与遮挡组合的覆盖度,从而降低验证集上“暗光+遮挡”分布偏移导致的漏检。推理阶段通过置信度阈值 τ c \tau_c τc 与 NMS 的 IoU 阈值 τ n \tau_n τn 控制误检与重复框:当 I o U ( B i , B j ) > τ n \mathrm{IoU}(B_i,B_j)>\tau_n IoU(Bi,Bj)>τn 时抑制得分较低的框,以避免夜间背景纹理造成的多框抖动;在系统端将 τ c , τ n \tau_c,\tau_n τc,τn 映射为可交互滑块(Conf/IoU)并与可视化结果联动,能够把“算法不确定性”显式暴露给用户复核,这对夜间安防场景的可解释与可用性尤其重要。


5. 实验结果与分析

本章实验以夜视行人单类别数据集为对象,在统一输入尺寸与相同评测脚本下,对 YOLOv5–YOLOv12 共 8 种模型分别进行了 n(轻量)与 s(中等规模)两组对比;评测指标包含 Precision、Recall、F1、mAP50 与 mAP50–95,同时记录端到端耗时(预处理/推理/后处理),硬件平台为 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)。从整体结果看,s 组在精度指标上略占优势,尤其在 mAP50–95(更关注定位质量与不同 IoU 阈值鲁棒性)上更稳定;n 组的优势主要体现在更低的参数规模与更短的推理链路,适合对实时性更敏感的桌面端视频流与摄像头在线推理场景。

下面表格汇总了两组模型的关键指标,并给出了端到端总耗时(Total=Pre+Inf+Post),便于从“精度—速度—复杂度”的三维视角进行选型。可以看到,s 组中 YOLOv12s 在 F1(0.8713)与 mAP50–95(0.5403)上达到本组最优,同时 mAP50=0.9108 与 YOLOv9s(0.9108)几乎持平;但 YOLOv9s 的推理耗时显著更高(InfTime 18.66ms),使其更适合作为离线评测或算力更充裕设备上的高精度选项。n 组中,YOLOv9t 在 mAP50(0.9001)与 mAP50–95(0.5349)上表现突出,YOLOv7-tiny 的 F1(0.8608)略高但后处理开销较大(PostTime 4.06ms),而 YOLOv8n/YOLOv6n/YOLOv5nu 则在 10–11ms 总耗时附近提供了更均衡的实时体验。值得注意的是,YOLOv12n 在本数据集上出现精度与召回同步下滑(F1 0.8188,mAP50 0.8272),结合夜视数据存在噪声、反光与小目标长尾的特点,更可能是“容量不足+特征弱化”叠加导致的漏检放大;与之相对,YOLOv12s 的提升说明注意力建模在容量更充足时更能转化为有效增益。

Model Group Params(M) FLOPs(G) Total(ms) Precision Recall F1 mAP50 mAP50-95
YOLOv5su s 9.1 24.0 12.24 0.8847 0.8381 0.8608 0.9006 0.5236
YOLOv6s s 17.2 44.2 12.26 0.8683 0.8200 0.8435 0.8917 0.5287
YOLOv7 s 36.9 104.7 29.52 0.8247 0.7888 0.8064 0.8610 0.4605
YOLOv8s s 11.2 28.6 11.39 0.9117 0.8180 0.8623 0.8976 0.5311
YOLOv9s s 7.2 26.7 22.17 0.8997 0.8422 0.8700 0.9108 0.5399
YOLOv10s s 7.2 21.6 14.19 0.8953 0.8262 0.8594 0.9006 0.5327
YOLOv11s s 9.4 21.5 13.47 0.8734 0.8316 0.8520 0.8872 0.5213
YOLOv12s s 9.3 21.4 16.74 0.9054 0.8397 0.8713 0.9108 0.5403
YOLOv5nu n 2.6 7.7 10.94 0.8762 0.8333 0.8542 0.8958 0.5281
YOLOv6n n 4.3 11.1 10.34 0.8853 0.8181 0.8504 0.8927 0.5266
YOLOv7-tiny n 6.2 13.8 21.08 0.8926 0.8311 0.8608 0.8804 0.4822
YOLOv8n n 3.2 8.7 10.17 0.8890 0.8260 0.8563 0.8932 0.5210
YOLOv9t n 2.0 7.7 19.67 0.9050 0.8201 0.8605 0.9001 0.5349
YOLOv10n n 2.3 6.7 13.95 0.8970 0.8201 0.8568 0.8940 0.5285
YOLOv11n n 2.6 6.5 12.97 0.8762 0.8193 0.8468 0.8869 0.5199
YOLOv12n n 2.6 6.5 15.75 0.8693 0.7738 0.8188 0.8272 0.4844

在这里插入图片描述
在这里插入图片描述

为了更直观地呈现“精度—速度”权衡,图中给出了两组模型的 F1 与 mAP50 对比(双条形图)。从夜视安防的业务语境出发,Precision 偏低会带来更多误报告警,Recall 偏低则会带来更高漏检风险,因此更推荐优先观察 F1 与 PR 形状而非单一 mAP。

在这里插入图片描述
在这里插入图片描述

结合你提供的评估曲线,最佳模型在 PR 曲线中 mAP@0.5 达到 0.911,且 F1-Confidence 曲线在置信度约 0.322 处达到峰值(F1≈0.87);这意味着桌面端默认 Conf=0.25 往往更偏向召回,而将 Conf 调整到 0.30 左右更可能获得更均衡的误报与漏报表现,这也解释了系统中 Conf/IoU 滑块交互对夜视场景的实际价值。

从误差结构角度,单类别任务的“混淆”主要体现为漏检(FN)与误检(FP)而非类间误分;夜视条件下,漏检通常来自远距小行人、强反光区域的人形破碎以及遮挡造成的局部可见,误检则常由背景高亮点、栏杆/立柱等细长结构引发。训练曲线显示 mAP50 在较早阶段即趋于饱和,而 mAP50–95 的提升更慢,说明后期优化主要在“框更准”而不是“找得到”,这与框尺寸长尾分布、目标边界模糊(低照度轮廓不清)高度一致;因此后续改进更建议围绕小目标与定位质量展开,例如提高高分辨率特征分支的权重、针对性增强(噪声/模糊/眩光模拟)、以及在系统侧通过阈值联动与目标高亮复核来降低误报带来的使用负担。综合精度与实时性,如果以桌面端在线检测为主且希望在不显著牺牲速度的情况下获得更高上限,s 组优先推荐 YOLOv12s;若更强调低时延与稳定帧率,n 组可优先考虑 YOLOv8n/YOLOv6n 作为默认部署,并将 YOLOv9t 作为“精度增强但速度偏慢”的可选模式供用户按场景切换。


6. 系统设计与实现

6.1 系统设计思路

本文系统以“桌面端可交互推理”为核心目标,在总体上采用分层架构组织关键能力:表现与交互层由 PySide6/Qt 客户端承担,负责多源输入选择、阈值滑块联动、结果可视化与导出触发;业务与会话管理层负责账号会话、源互斥、参数维护、记录与导出编排;推理与任务调度层以事件驱动的帧流为主线完成媒体接入、预处理、YOLO 推理与后处理;数据持久化层则完成 SQLite 本地存储、CSV 统计导出、带框媒体文件归档与日志沉淀。该分层划分的核心收益在于明确模块边界与职责,使得模型迭代(更换权重、升级 YOLO 版本)不会破坏交互闭环,同时也便于将导出与追溯能力独立演进。

在跨层协同上,系统把“多源输入—预处理—推理—后处理—界面联动”组织为单一主流程,并将图片的单次推理与视频/摄像头的连续帧推理统一抽象为“帧任务”。Qt 侧通过事件驱动触发任务调度,推理侧以异步队列吸收波动并将结果以信号与槽回传界面,从而实现进度条、耗时与表格记录的同步刷新;同时,Conf/IoU 等参数作为跨层共享状态,由业务层进行一致性维护,并在每次推理前将最新参数注入后处理过程,确保“所见即所得”的交互体验。源互斥策略使得同一时刻只有一种输入源占用推理管线,避免摄像头帧流与视频解码并发导致的时延抖动与资源争用。

一致性与实时性主要通过三点保障:其一,预处理统一缩放到固定分辨率并进行归一化与张量转换,减少输入形态差异对推理吞吐与稳定性的影响;其二,后处理以置信度过滤与 NMS 抑制为主,结合坐标还原保证可视化与导出结果与原图坐标严格对齐;其三,界面层以“显示区叠加框+目标详情+记录表格”形成闭环,用户既可通过高亮选择复核单个目标,也可通过记录区快速定位最近一次检测并导出 CSV/PNG/AVI。可扩展性方面,权重热切换、主题与配置本地化、异常恢复与日志接口被视为“第一类需求”,以便后续引入更轻量的部署链路、加速后端或更复杂的统计分析模块。

在这里插入图片描述

图6-1 系统流程图
图注:该流程覆盖系统自初始化到多源输入、预处理、YOLO 推理、后处理与界面联动,并在连续帧场景下形成事件驱动的闭环;导出阶段强调 CSV/PNG/AVI 与时间戳命名的可追溯机制。

在这里插入图片描述

图6-2 系统设计框图
图注:框图按照“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”分层展示模块边界与数据流向,并突出源互斥、参数同步、记录与导出编排以及权重管理接口。

6.2 登录与账户管理 — 流程图

登录与账户管理围绕“轻量入口 + 本地持久化 + 与检测主流程无缝衔接”组织:应用启动后展示登录界面,用户可判断是否已有账号;若无账号则完成注册信息填写并写入本地数据库形成账户记录,随后进入账号与口令的校验流程;校验成功后系统载入个性化配置(如主题、默认模型与最近记录),并进入主界面开展多源输入检测;在使用过程中用户可进行资料修改(口令、偏好等)以固化个人空间,必要时可注销或切换账号以隔离不同用户的历史记录与导出痕迹。该流程强调会话与配置的本地持久化价值,使检测记录、参数习惯与导出追溯形成稳定闭环,而不会干扰推理链路的实时性与一致性。

在这里插入图片描述

图6-3 登录与账户管理流程图
图注:流程覆盖启动、注册/登录、口令校验、载入个性化配置、进入主界面以及资料修改与注销切换,强调账户空间与检测主流程的衔接。


7. 项目资源链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述

项目完整文件请见项目介绍及功能演示视频处给出:

功能效果展示视频:热门实战|《基于深度学习的夜视行人检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: CVPR, 2016: 779-788.
2 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
3 Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: CVPR, 2020: 10781-10790.
4 Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: ICCV, 2017: 2980-2988.
5 Hwang S, Park J, Kim N, et al. Multispectral Pedestrian Detection: Benchmark Dataset and Baseline[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: CVPR, 2015: 1037-1045. (CVF Open Access)
6 Jia X, Zhu L, Li S, et al. LLVIP: A Visible-Infrared Paired Dataset for Low-Light Vision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Montreal: ICCVW, 2021: 3496-3504. (CVF Open Access)
7 Reis D, Kupec J, Hong J, et al. Real-Time Flying Object Detection with YOLOv8[EB/OL]. arXiv:2305.09972, 2023. (arXiv)
8 Chen Q. Traffic Object Detection Using YOLOv12[J]. Open Access Library Journal, 2025, 12: 1-15. (SCIRP)
9 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023. (arXiv)
10 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
11 Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024. (arXiv)
12 Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021. (arXiv)
13 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[14] Zhu X, Su W, Lu L, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[C]//Proceedings of the International Conference on Learning Representations. Vienna: ICLR, 2021.
[15] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[16] Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: ICCV, 2019: 9627-9636.
[17] Duan K, Bai S, Xie L, et al. CenterNet: Keypoint Triplets for Object Detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: ICCV, 2019: 6569-6578.
[18] Ultralytics. YOLOv5[EB/OL]. GitHub Repository, 2020-2025. (GitHub)
[19] (中文) 基于改进RT-DETR的夜间低光照行人检测算法[J]. 液晶与显示, 2025. (CJLCD)
[20] (近年应用) DCE×YOLO: Integrating Multi-exposure Image Enhancement with YOLO for Nighttime Pedestrian Detection[J]. Signal Processing, 2025. (ScienceDirect)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐