摘要:输电线路设备的自动化巡检是提升电网运维效率与安全性的关键环节,但在复杂背景、尺度变化、遮挡与小目标密集等条件下,传统视觉方法难以稳定兼顾精度与速度。本文围绕“YOLOv5 至 YOLOv12 升级”的技术主线,给出一套面向工程落地的输电线路设备检测系统设计与实现方案,并提供可复现的完整代码、可运行界面与数据集工程。系统以 YOLO 系列为核心检测器,覆盖 YOLOv5/YOLOv6/YOLOv7/YOLOv8/YOLOv9/YOLOv10/YOLOv11/YOLOv12 等多版本模型,支持在同一界面中一键切换权重与推理后端,实现对绝缘子、金具、线夹、间隔棒、杆塔部件等典型目标的检测识别与结果可视化。工程层面,本文采用 PySide6 构建交互式 UI,支持图片、视频与摄像头输入,提供检测框与置信度展示、类别统计、阈值(Conf/IOU)调节、热力图辅助分析、结果保存与导出;并基于 SQLite 实现用户注册登录、个人配置持久化与检测记录管理。实验部分对 YOLOv5–YOLOv12 多模型在同一数据集上的性能进行对比分析,为输电线路场景下模型选型与部署提供可操作的参考。


➷点击跳转至文末所有涉及的完整代码文件下载页☇


1. 前言综述

输电线路设备(如绝缘子、金具、间隔棒、避雷器及其缺陷形态)处于长期户外暴露与高电压应力环境中,传统“人工巡检为主”的方式面临覆盖范围大、风险高与漏检率难以受控等问题,因而以计算机视觉为核心的自动化巡检逐渐成为电网运维数字化的重要支撑方向1。 (ScienceDirect)
在数据获取侧,无人机与长焦相机显著降低了巡检成本并扩大了可达性,但也带来了“海量图像—有限标注—复杂场景”的矛盾,使得面向巡检图像的数据分析、缺陷诊断与工程闭环成为一个体系化问题2。 (ScienceDirect)
从国内研究脉络看,输电线路部件视觉缺陷检测已从早期的特征工程与规则判别逐步转向深度学习主导的检测与细粒度识别范式,研究焦点集中在小目标、样本不均衡、遮挡与细粒度缺陷等难点上3。 (CJIG)
围绕绝缘子等关键部件,既有综述进一步指出:在云–边–端协同部署与边缘算力约束下,检测算法不仅要追求精度,还要在推理延迟、模型体量与鲁棒性之间取得可工程化的折中4

在方法演化上,基于候选区域的两阶段检测器通过“候选框生成—分类回归”的框架奠定了深度检测的基础,并以R-CNN为代表推动了检测性能的跃迁5。 (CVF Open Access)
Faster R-CNN 进一步以RPN替代外部候选框搜索,使检测训练与推理更接近端到端,从而在精度与效率上取得更均衡的表现6。 (arXiv)
为满足实时应用需求,SSD等单阶段检测器以多尺度特征图上的密集预测降低了结构复杂度,形成了工业场景常用的速度优先路线7。 (Springer)
YOLO将检测统一为单网络回归问题,凭借高吞吐推理特性为实时巡检场景提供了更直接的工程落地路径,也由此催生了后续版本在结构、训练与部署层面的持续迭代8。 (cv-foundation.org)

面向输电线路设备检测任务,早期有代表性的工作已验证了利用航拍图像与卷积网络对绝缘子缺陷进行识别的可行性,并公开了与任务相关的数据与评价范式9
在国内工程语境中,针对输配电线路巡检图像的轻量化识别研究强调了在资源受限终端上保持稳定精度与可部署性的必要性,这与实际巡检“多设备、多场景、多用户”的应用形态高度一致10。 (epjournal.csee.org.cn)
国际上亦有基于无人机平台与YOLO检测器的实时状态监测研究,体现了“端侧快速定位—缺陷提示—辅助决策”的典型闭环需求[11]。 (GitHub)
进一步地,针对类别稀缺与跨场景泛化问题,基于元学习的关键部件与缺陷检测方法探索了更低标注成本下的迁移能力,为巡检长尾缺陷提供了新的建模思路[12]。 (ScienceDirect)
同时,可解释视觉模型在输电线路巡检中的引入,使模型输出不仅给出检测结果,还能以“部件证据”形式支撑运维侧的可追溯分析,从而提升算法在高可靠业务中的可用性[13]。
在通用检测器层面,YOLOv7通过对训练策略与结构设计的系统化改进推动了实时检测的精度上限,并为轻量模型在边缘端的部署提供了更成熟的实现路径[14]。
近期YOLOv10则以更端到端的检测设计进一步削减后处理依赖,为“高帧率推理—低延迟输出—工程可控”的应用需求提供了新的技术选项[15]。

代表工作(任务) 数据集/数据来源 核心方法线索 主要优点 主要局限
航拍绝缘子缺陷识别/检测9 公开/航拍巡检图像(含缺陷样本) CNN特征学习驱动的缺陷识别与评估范式 证明深度方法在巡检缺陷上的有效性 对跨地域、跨光照泛化仍敏感
输配电巡检图像轻量识别10 工程巡检图像(期刊报道的应用数据) 轻量化网络与工程化推理约束 强调端侧可部署性与效率 类别扩展与细粒度缺陷仍需更强表达
UAV+YOLO实时状态监测[11] 无人机巡检图像/视频 实时检测器用于状态识别与告警 符合巡检在线处理需求 小缺陷与遮挡场景易退化
元学习驱动的部件与缺陷检测[12] 关键部件/缺陷数据(少样本设定) Meta-learning提升低样本适应 降低标注成本、提升迁移性 工程实现复杂、训练不稳定风险更高
可解释巡检识别模型[13] 输电线路巡检图像 原型/部件证据的可解释建模 有利于运维侧追溯与审计 速度与精度需进一步平衡

从工程实现角度看,输电线路设备检测仍面临几类集中难题:其一是部件与缺陷往往呈现“小尺度、弱纹理、强背景干扰”的成像特征,导致检测器对分辨率与多尺度表征高度敏感;其二是缺陷样本天然长尾,标注成本高且跨线路、跨季节的域偏移显著;其三是实际系统需要同时支持图片、视频与摄像头流,要求推理链路稳定、延迟可控,并能与结果存储、检索与统计分析形成闭环。

基于上述问题,老思在本文对应的项目中将重点贡献收敛为三个方面:第一,以YOLOv5至YOLOv12为主线完成输电线路设备检测的工程化对比与可复现实验,给出多版本在同一数据集与同一评价协议下的差异;第二,构建并标注面向输电线路设备的专用数据集,完成清洗、预处理与训练/验证/测试划分,形成可直接复用的训练资源;第三,使用PySide6实现可交互的检测系统界面,并结合SQLite完成用户空间与检测结果的持久化管理,最终提供完整代码、界面与数据集项目以支撑复现与二次开发。

主要功能演示:
(1)启动与登录:系统启动后首先进入登录页,支持注册、登录与记住用户配置;通过 SQLite 持久化账号信息与历史检测记录,保证不同用户的结果空间互不干扰,登录成功后自动加载个人参数与上次使用的模型权重,减少重复配置成本。
启动与登录界面图
在这里插入图片描述

(2)多源输入与实时检测(摄像头/视频/图片/文件夹):主界面提供统一的数据入口,可直接打开摄像头进行实时推理,也可加载视频文件进行逐帧检测与播放控制;对单张图片与图片文件夹支持批量推理与结果列表展示,输出包含检测框、类别与置信度,并同步刷新统计面板与可视化区域。
多源输入与实时检测演示图
在这里插入图片描述

(3)模型选择与对比演示:在同一界面内可切换 YOLOv5–YOLOv12 等不同版本权重,切换后无需重启即可完成加载与推理;对比模式下可在相同输入上快速复现实验差异,直观观察不同模型在小目标、遮挡与复杂背景下的误检/漏检变化,并结合速度与指标为部署选型提供依据。
模型选择与对比演示图
在这里插入图片描述

(4)主题修改功能:系统提供主题与样式快速切换能力,支持更换主色调、背景、图标与字体显示策略,界面元素(按钮、表格、提示框等)随主题同步更新;该功能面向不同显示环境与使用习惯,提升长时间巡检值守场景下的可读性与交互一致性。
主题修改功能演示图
在这里插入图片描述


2. 数据集介绍

本博客使用的输电线路设备检测数据集共计 10,590 张高分辨率图像,覆盖典型走廊场景下的杆塔、导线、绝缘子与阻尼器等目标,同时包含“正常/缺陷”两类状态标注。就样例可视化结果而言,图像普遍具有背景纹理复杂、目标尺度跨度大与目标密集共存的特征:杆塔属于大目标且形态稳定,绝缘子与阻尼器往往呈现小尺度、弱纹理并伴随遮挡;导线则表现为细长结构,其边界框呈明显的“大宽高比”分布,这类目标在训练中容易引入定位回归的偏置与正负样本分配不稳定问题。类别分布方面,样例统计图显示数据存在较典型的长尾现象,“transmission line”“normal insulator”“normal damper”等类别实例数显著高于缺陷类(defect damper/defect insulator/defect transmission line),因此在训练阶段更需要通过重采样、损失加权或更稳健的匹配策略来缓解类别不均衡对缺陷检出的影响。
在这里插入图片描述

Chinese_name = {"defect damper": "缺陷阻尼器", "defect insulator": "缺陷绝缘体", "defect transmission line": "缺陷传输线", "normal damper": "正常阻尼器", "normal insulator": "正常绝缘体", "tower": "塔", "transmission line": "传输线"}

数据集划分采用固定比例拆分,训练集 9,256 张(约 87.40%)、验证集 874 张(约 8.25%)、测试集 460 张(约 4.34%),在保证训练样本规模的同时为模型选择与泛化评估提供了独立的验证与测试依据。标注以目标检测边界框为基本监督信号,标签采用 YOLO 标准化 TXT 格式(以图像宽高归一化的 x c , y c , w , h x_{c},y_{c},w,h xc,yc,w,h),类别集合共 7 类,并给出中英文语义对照,便于后续在 UI 端进行结果展示与统计分析。整体上,该数据集对“多尺度目标 + 细长目标 + 缺陷长尾”的组合提出了较强的鲁棒性要求,也使其适合用于评估 YOLOv5–YOLOv12 在工程巡检场景中的精度、速度与稳定性差异。
在这里插入图片描述

📊 数据集规格说明 (Dataset Specification)

维度 参数项 详细数据
基础信息 标注软件 LabelImg
标注格式 YOLO TXT (Normalized)
数量统计 训练集 (Train) 9,256 张 (87.40%)
验证集 (Val) 874 张 (8.25%)
测试集 (Test) 460 张 (4.34%)
总计 (Total) 10,590 张
类别清单 Class ID: 0 defect damper(缺陷阻尼器)
Class ID: 1 defect insulator(缺陷绝缘体)
Class ID: 2 defect transmission line(缺陷传输线)
Class ID: 3 normal damper(正常阻尼器)
Class ID: 4 normal insulator(正常绝缘体)
Class ID: 5 tower(塔)
Class ID: 6 transmission line(传输线)
图像规格 输入尺寸 640 * 640
数据来源 高分辨率巡检图像(样例显示以线路走廊航拍视角为主)

3. 模型设计与实现

面向输电线路设备巡检场景,模型侧的首要目标并不是追求“单一指标最优”,而是要在复杂背景、尺度变化剧烈与细长结构密集的条件下,获得稳定的检出率与可部署的实时性。就本博客的工程落点而言,博主采用“统一推理接口 + 多版本权重可切换”的设计:默认主模型以 YOLOv12n 为核心,在同一套数据预处理、后处理与可视化管线下,对 YOLOv5~YOLOv12 系列进行横向对比,确保界面侧“换模型不换系统”。YOLOv12 属于注意力机制主导的实时检测框架,其论文给出的 COCO 基准在速度与精度的折中上具有代表性,因此适合作为系统默认基线;而 YOLOv10 引入端到端、弱化或消除 NMS 依赖的训练与设计思路,则为“低延迟部署”提供了另一条路线。(arXiv)
在这里插入图片描述

从结构上看,YOLO 系列检测器通常可抽象为 Backbone–Neck–Head 三段式范式:Backbone 负责多层级语义特征提取;Neck 负责跨层融合并形成多尺度特征金字塔;Head 负责在各尺度上完成分类与边界框回归。以 YOLOv5 为例,其在骨干中大量使用 CSP 思路以兼顾梯度流与计算效率,并在颈部采用 FPN/PAN 融合以提升跨尺度信息交互,这种“多尺度、密集预测”的范式对于塔材、绝缘子、阻尼器以及输电线这类目标共存的场景是必要的。尤其是输电线呈长条状且容易与背景纹理混淆,Neck 的高分辨率特征分支与 Head 的多尺度输出能够显著缓解“小目标与细长目标漏检”的问题。(Ultralytics Docs)

当系统需要覆盖 YOLOv5~YOLOv12 的连续谱系时,关键并非把每一代“拆开讲”,而是抓住其对工程效果影响最大的几条演化主线。其一是锚框范式与标签分配策略的变化:YOLOv5/YOLOv6/YOLOv7 多以锚框为中心组织回归目标,工程上常需要关注先验框尺度与长宽比对细长结构的适配;而较新的 Ultralytics 系列在检测头与损失组织上更倾向于“降低对显式先验的依赖”,将优化重心转向更强的样本分配与回归表示,从而降低在跨场景迁移时对锚框调参的敏感性。其二是结构单元与信息流的增强:YOLOv7 系统性讨论了可训练的“免费增益”与模型重参数化思路;YOLOv6 面向工业部署强调量化与速度–精度的系统权衡;YOLOv9 则提出 PGI 与 GELAN,试图从“梯度信息与信息保真”角度抑制深层网络的信息损失;YOLOv10 在端到端训练与整体效率检查上进一步前推,弱化后处理瓶颈;YOLOv12 则将注意力机制推到框架中心位置,强调在实时性约束下引入更强的全局建模能力。上述差异决定了同一数据集上不同版本可能呈现“召回更稳”“细粒度误检更少”或“延迟更低”的不同取舍,也是本博客实验对比的技术动机。(arXiv)

在任务建模上,本系统采用标准目标检测定义:对输入图像 I I I,模型输出若干候选框 b i {b_i} bi、类别 c i {c_i} ci 与置信度 s i {s_i} si,其中 c i ∈ 1 , … , 7 c_i \in {1,\dots,7} ci1,,7 对应“缺陷阻尼器/缺陷绝缘子/缺陷传输线/正常阻尼器/正常绝缘体/塔/传输线”。训练目标通常可写为多项损失的加权和
L = λ box L ∗ box + λ ∗ cls L ∗ cls + λ ∗ dfl L ∗ dfl . \mathcal{L}=\lambda_{\text{box}}\mathcal{L}*{\text{box}}+\lambda*{\text{cls}}\mathcal{L}*{\text{cls}}+\lambda*{\text{dfl}}\mathcal{L}*{\text{dfl}}. L=λboxLbox+λclsLcls+λdflLdfl.
其中 L ∗ cls \mathcal{L}*{\text{cls}} Lcls 多由二元交叉熵或其焦点化变体构成,用以处理类别不均衡; L ∗ box \mathcal{L}*{\text{box}} Lbox 常以 IoU 家族损失刻画定位质量;而 L ∗ dfl \mathcal{L}*{\text{dfl}} Ldfl 则将边界回归从“点估计”提升为“分布估计”,通过离散化的概率分布表达回归不确定性,再以期望或积分形式还原边界位置,这一思想与 Generalized Focal Loss 中对分布回归的讨论一脉相承。对于输电线与绝缘子串这类形态多变目标,分布式回归往往能在标注噪声、运动模糊与遮挡下提供更平滑的优化信号。(Ultralytics Docs)

需要强调的是,损失函数与样本分配是耦合的:若分类与定位在训练中“关注的样本集合”不一致,容易造成置信度与定位质量的不匹配,从而在推理阶段表现为“框很多但不准”或“准但召回低”。Task-aligned 的思想(例如 TOOD)通过显式对齐分类与定位的学习目标,缓解了这一类错位问题;而 Ultralytics 的实现中也可以在源码层面看到围绕 DFL、Varifocal/Focal、以及任务对齐分配的组织方式。对于本系统而言,这一层机制的工程意义在于:当类别同时包含大目标(塔)与细长目标(输电线),且缺陷类样本较稀缺时,合理的对齐分配与质量感知分类能显著降低“缺陷类被正常类淹没”的风险。(arXiv)

在实现层面,博主采用 Ultralytics Python API 将“模型定义、训练、验证、导出、推理”统一为同一调用范式,界面侧通过权重路径与模型枚举实现 YOLOv5~YOLOv12 的一键切换。Detector 模块对外暴露的核心接口保持稳定:输入可以是单帧图像、视频流或摄像头帧;输出统一整理为 ⟨ bbox , class , score ⟩ \langle \text{bbox}, \text{class}, \text{score}\rangle bbox,class,score 三元组并交由 UI 绘制与统计。为了让对比更公平,系统将推理时的关键阈值(如置信度阈值 τ c \tau_c τc、IoU 阈值 τ iou \tau_{\text{iou}} τiou)做成可调参数,并在同一后处理逻辑下生成可视化结果;对于 YOLOv10 这类端到端取向模型,则遵循其模型侧的输出约定,在 UI 层维持一致的展示格式。(Ultralytics Docs)

网络结构示意图方面,考虑到 YOLO 家族普遍遵循 Backbone–Neck–Head 的总体范式,本文以 YOLOv5 的官方结构图作为“结构抽象”的参照;而 YOLOv12 的关键差异(注意力机制主导的骨干与全局建模)则以论文与官方文档为准,在后续实验章节结合速度–精度结果展开讨论。(Ultralytics Docs)


4. 训练策略与模型优化

输电线路设备检测在数据侧呈现“目标尺度跨度大、细长结构显著、缺陷类样本长尾”的典型特征,因此训练策略更强调收敛稳定性与泛化鲁棒性,而非单纯堆叠训练轮数。老思在本项目中采用 Ultralytics 训练管线进行统一实验:输入端将高分辨率图像按比例缩放并填充至 640 × 640 640\times 640 640×640,保证推理端与训练端的几何一致性;增强端采用 Mosaic、随机仿射、HSV 抖动与水平翻转等常规策略,以增加背景与尺度扰动的多样性。考虑到 Mosaic 在训练后期可能引入与真实分布不一致的拼接伪影,训练末期按 close_mosaic=10 关闭 Mosaic,使模型在更接近真实巡检图像的分布上完成收敛“对齐”,这一点对细长导线与小尺度缺陷的定位稳定性尤为关键。

优化器与学习率调度采用“热身 + 余弦退火”的稳健组合:在前 3 3 3 个 epoch 以 warmup 逐步抬升学习率,避免大梯度导致的早期震荡;随后使用余弦退火平滑降低学习率以获得更好的收敛尾部性质,其形式可写为
η t = η min ⁡ + 1 2 ( η 0 − η min ⁡ ) ( 1 + cos ⁡ ( π t T ) ) , \eta_t=\eta_{\min}+\frac{1}{2}(\eta_0-\eta_{\min})\left(1+\cos\left(\frac{\pi t}{T}\right)\right), ηt=ηmin+21(η0ηmin)(1+cos(Tπt)),
其中 η 0 \eta_0 η0 为初始学习率, η min ⁡ = η 0 ⋅ lrf \eta_{\min}=\eta_0\cdot \text{lrf} ηmin=η0lrf 为末端学习率, T T T 为总训练步数或总 epoch。为降低过拟合并提升验证集稳定性,训练中启用权重衰减(L2 正则)与 EMA(Exponential Moving Average)滑动平均参数,EMA 的更新可写为
θ ema ← α θ ema + ( 1 − α ) θ , \theta_{\text{ema}}\leftarrow \alpha\theta_{\text{ema}}+(1-\alpha)\theta, θemaαθema+(1α)θ,
它在巡检图像这类“背景变化大、噪声较强”的数据上通常能带来更平滑的验证曲线。早停策略以 patience=50 控制无提升的容忍轮数,在保证充分收敛的同时节省无效计算;同时开启 AMP 混合精度训练,在 RTX 4090 上可显著提高吞吐并降低显存占用,从而支持更稳定的 batch 设置与更快的实验迭代。

针对缺陷类样本相对稀缺的问题,训练阶段建议优先采用“质量感知的样本分配 + 更稳健的分类监督”来缓解长尾影响:其一,保持较严格的标注清洗,避免缺陷类噪声标签放大误检;其二,在不改变数据分布的前提下,通过适度增强与合理的正负样本匹配提高缺陷类的有效梯度密度;其三,推理侧通过 UI 暴露 Conf/IoU 阈值以便在“高召回巡检”和“低误报复核”两类工作模式间切换。部署优化方面,模型在训练完成后统一导出 ONNX(必要时进一步 TensorRT),并在系统端支持 FP16 推理与批量图片推理的流水线化,从而在保证精度的同时获得更低延迟与更高吞吐,满足视频流与摄像头实时检测的工程约束。

名称 数值(默认实验配置) 说明
GPU RTX 4090 单卡训练/验证
epochs 120 最大训练轮数
patience 50 早停耐心值
batch 16 总批大小
imgsz 640 输入分辨率(方形)
pretrained true 加载预训练权重进行微调
optimizer auto 由框架自适配(常见为 SGD/AdamW)
lr0 / lrf 0.01 / 0.01 初始学习率与末端比例
momentum 0.937 动量系数
weight_decay 0.0005 权重衰减
warmup_epochs 3.0 学习率热身
mosaic / close_mosaic 1.0 / 10 Mosaic 强度与后期关闭轮数
# 训练命令示例(Ultralytics)
yolo detect train model=yolo12n.pt data=powerline.yaml imgsz=640 batch=16 epochs=120 patience=50 \
  lr0=0.01 lrf=0.01 warmup_epochs=3.0 weight_decay=0.0005 mosaic=1.0 close_mosaic=10 pretrained=True

5. 实验与结果分析

本节所有对比实验均在同一数据集划分(Train/Val/Test = 9,256/874/460)与一致的训练设置下完成:输入尺寸固定为 640 × 640 640\times 640 640×640,训练轮数 120(启用早停),数据增强保持一致,推理端统一采用相同的置信度阈值与 IoU 阈值设置,并在测试集上统计 Precision、Recall、F1、mAP@0.5 与 mAP@0.5:0.95。需要说明的是,速度指标来自 Ultralytics 的分段计时(Pre/Infer/Post),并在日志中记录的显卡环境为 NVIDIA GeForce RTX 3070 Laptop GPU 8GB(该信息同时出现在导出的统计表中),因此本节推理延迟仅用于同机型相对对比。

以基线模型 YOLOv5nu 的阈值敏感性为例,F1-Confidence 曲线给出了在不同置信度阈值下 Precision–Recall 权衡的整体趋势:当置信度阈值约为 0.322 0.322 0.322 时,全类别整体 F1 达到峰值约 0.84 0.84 0.84,其含义是该阈值附近在“误报可控”与“漏检可控”之间取得较稳健的折中,适合作为系统 UI 的默认 Conf 初值;当阈值继续增大时,F1 下降的主要原因来自 Recall 迅速衰减,即漏检增加,这在缺陷类样本稀少、目标尺度偏小的场景中尤为明显。

在这里插入图片描述

进一步观察 PR 曲线,YOLOv5nu 在测试集上的总体 mAP@0.5 约为 0.823 0.823 0.823,但不同类别之间差异显著:tower 与 defect insulator 的 AP 均可达 0.91 0.91 0.91 左右,说明大目标或形态稳定目标更易被模型以较高置信度分离;相对而言,defect transmission line 的 AP 仅约 0.679 0.679 0.679,normal damper 与 transmission line 分别约为 0.743 0.743 0.743 0.754 0.754 0.754,这类类别的共同点是目标呈细长结构或小尺度部件,且与背景纹理(山体、植被、阴影、杆塔结构线)具有更强的混叠,导致在高召回区域 Precision 更早塌陷。换言之,输电线与缺陷输电线是该任务的“定位与判别瓶颈”,后续模型升级是否有效,往往首先体现在这两类的 PR 外形是否更平滑、更靠近右上角。

在这里插入图片描述

训练动态如图所示,train/box_loss、train/cls_loss 与 train/dfl_loss 随 epoch 稳定下降,说明优化过程本身较为平滑;但从验证侧指标看,mAP50 与 mAP50-95 在前 30–50 个 epoch 快速上升后逐渐进入平台期,并伴随轻微回落趋势,这通常对应“后期过拟合或分布对齐不足”的信号。工程上老思建议始终以验证集最优 epoch 的 best.pt 作为部署权重,而不是默认使用最后一轮 last.pt;同时将图5-1给出的 0.3 0.3 0.3 左右阈值作为默认起点,再在“巡检高召回模式”和“复核低误报模式”之间通过 UI 调参完成切换。
图5-3:results.png
在这里插入图片描述

在模型横向对比方面,博主分别对轻量组(n/tiny)与中等规模组(s)进行了统一评测。对于 n/tiny 组,图5-4给出了 F1 与 mAP50 的柱状对比,图5-6给出了平均 PR 曲线整体形态;两图共同表明 YOLOv11n 在本数据集上取得最优综合性能(mAP50 = 0.875,F1 = 0.871),相较 YOLOv5nu 的 mAP50 = 0.818,绝对提升约 0.057 0.057 0.057。从“精确定位”角度看,各模型的 mAP50-95 普遍显著低于 mAP50(例如 YOLOv11n 为 0.423),说明在更严格 IoU 阈值下性能下降明显,其根因往往来自细长导线的框回归误差与密集小目标的边界抖动;这也解释了为什么在巡检业务里,mAP50 与 F1 往往比 mAP50-95 更能反映“是否能稳定提示目标存在”。从效率角度看,虽然 YOLOv11n 精度最佳,但其总耗时约 12.97ms,相比总耗时最低的 YOLOv8n(10.17ms)增加约 27.5%,因此若部署侧更强调帧率,YOLOv8n 在精度(mAP50 = 0.864)与延迟之间呈现更均衡的工程折中。另一个值得注意的现象是,YOLOv9t 参数量更小但推理耗时明显增大(InfTime 16.51ms),这通常不是“模型更慢”,而是实现路径与算子融合程度造成的端侧效率差异,工程选型时应避免仅凭参数量或 FLOPs 做速度判断。
在这里插入图片描述

表5-1 n/tiny 组对比结果(测试集)(TotalTime = Pre + Infer + Post)

模型 Params(M) FLOPs(G) TotalTime(ms) Precision Recall F1 mAP50 mAP50-95
YOLOv5nu 2.6 7.7 10.94 0.857 0.817 0.836 0.818 0.391
YOLOv6n 4.3 11.1 10.34 0.849 0.877 0.863 0.873 0.422
YOLOv7-tiny 6.2 13.8 21.08 0.863 0.864 0.864 0.843 0.374
YOLOv8n 3.2 8.7 10.17 0.857 0.853 0.855 0.864 0.418
YOLOv9t 2.0 7.7 19.67 0.855 0.861 0.858 0.868 0.424
YOLOv10n 2.3 6.7 13.95 0.849 0.848 0.849 0.868 0.418
YOLOv11n 2.6 6.5 12.97 0.873 0.869 0.871 0.875 0.423
YOLOv12n 2.6 6.5 15.75 0.847 0.826 0.836 0.829 0.401

在这里插入图片描述

对 s 组而言,图5-7与图5-9显示 YOLOv11s 取得最高 mAP50(0.888)与最高 F1(0.877),其次为 YOLOv9s(mAP50 = 0.883)与 YOLOv10s(mAP50 = 0.878)。与 n 组相比,s 组在峰值精度上有小幅抬升,但代价是更高的计算量与更高延迟;例如 YOLOv11s 总耗时约 13.47ms,相比 YOLOv8s(11.39ms)增加约 18.3%。从训练曲线(图5-8)看,多数 s 模型在 20–40 epoch 即已逼近平台,后期收益有限,若实际部署需要频繁迭代,可将训练策略调整为更积极的早停或更强的后期正则,以提高训练效率。需要单独讨论的是 YOLOv6s 与 YOLOv7 在本次设置下 mAP50 仅约 0.807/0.806,且 YOLOv7 参数量与 FLOPs 显著更高,这说明在该任务上“模型更大”并不必然带来收益,训练超参、分配策略与数据长尾结构对结果的影响可能更关键;因此老思更倾向于把 YOLOv11s 作为离线高精度复核模型,把 YOLOv8s/YOLOv8n 作为更偏实时的默认部署备选。
在这里插入图片描述

表5-2 s 组对比结果(测试集)(TotalTime = Pre + Infer + Post)

模型 Params(M) FLOPs(G) TotalTime(ms) Precision Recall F1 mAP50 mAP50-95
YOLOv5su 9.1 24.0 12.24 0.870 0.864 0.867 0.874 0.420
YOLOv6s 17.2 44.2 12.26 0.873 0.798 0.834 0.807 0.390
YOLOv7 36.9 104.7 29.52 0.847 0.861 0.854 0.806 0.331
YOLOv8s 11.2 28.6 11.39 0.860 0.863 0.861 0.875 0.422
YOLOv9s 7.2 26.7 22.17 0.859 0.877 0.868 0.883 0.434
YOLOv10s 7.2 21.6 14.19 0.871 0.848 0.860 0.878 0.424
YOLOv11s 9.4 21.5 13.47 0.867 0.887 0.877 0.888 0.429
YOLOv12s 9.3 21.4 16.74 0.861 0.814 0.837 0.823 0.396

在这里插入图片描述


6. 系统设计与实现

6.1 系统设计思路

本系统以“界面交互稳定、推理链路可控、结果可追溯”为设计目标,采用 PySide6 的信号槽机制组织跨层通信,并将 GUI 与推理逻辑解耦,避免在主线程中直接执行耗时推理而造成界面卡顿。整体技术栈为 Python 3.12、PySide6 与 SQLite:其中 PySide6 负责多源输入编排与可视化呈现,SQLite 负责用户空间与检测记录的持久化,二者共同支撑工程级的可复现与可维护。
在这里插入图片描述

在类与分层上,MainWindow 作为控制中枢,承担状态机管理、菜单/按钮槽函数分发、输入源切换与播放控制;Ui_MainWindow 仅负责界面元素组织(按钮、标签、表格、画布等)与基础交互信号暴露;Detector 作为处理层,负责模型加载(支持导入不同 YOLO 族权重)、推理与后处理(阈值过滤、必要的框筛选、统计汇总)。这种分层方式使得模型升级(YOLOv5–YOLOv12)主要体现为 Detector 内权重与后处理适配的替换,而不需要改动 UI 结构与控制逻辑,从而保证“换模型不换系统”的一致体验。

在运行链路上,输入源统一抽象为帧流:摄像头与视频以定时器驱动逐帧推送,图片与文件夹以批处理队列方式送入推理;预处理阶段完成缩放填充与归一化,推理阶段输出边界框、类别与置信度,后处理阶段同步生成类别计数、置信度分布与导出结构。界面层实时叠加检测框并刷新统计面板,同时允许用户在运行中调节 Conf/IoU、暂停/继续、保存结果至文件与数据库;账户体系则为每个用户维护独立配置与历史结果空间,使检测流程与记录管理在同一工程闭环内完成。

图 系统流程图
在这里插入图片描述

图注:系统从初始化到多源输入,完成预处理、推理与界面联动,并通过交互形成闭环。

6.2 登录与账户管理

在这里插入图片描述

登录与账户管理并非独立“附加功能”,而是与检测闭环强耦合的工程支撑:系统在登录阶段完成账号校验与用户空间初始化,随后从 SQLite 加载该用户的个性化配置(默认模型、阈值参数、主题偏好)与历史检测记录,使主界面在进入时即可处于可运行状态;在检测过程中产生的结果(类别、置信度、时间戳、源文件路径与导出路径等)以结构化方式写入数据库,既便于后续检索筛选与统计复盘,也为多用户共享设备时的权限隔离提供基础;当用户修改头像或密码时,界面通过信号槽将变更写回 SQLite 并即时更新主界面展示,注销/切换账号则回到登录入口并重新加载对应用户的配置与历史,从而实现“个性化空间—结果持久化—检测流程”之间的连续衔接。
在这里插入图片描述


7. 下载链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述

完整资源中包含数据集及训练代码,环境配置与界面中文字、图片、logo等的修改方法请见视频:➷➷➷

详细介绍文档博客:YOLOv5至YOLOv12升级:输电线路设备检测系统的设计与实现(完整代码+界面+数据集项目)
环境配置博客教程:(1)Pycharm软件安装教程;(2)Anaconda软件安装教程;(3)Python环境配置教程
或者环境配置视频教程:(1)Pycharm软件安装教程;(2)Anaconda软件安装教程;(3)Python环境依赖配置教程
数据集标注教程(如需自行标注数据):数据标注合集


8. 参考文献(GB/T 7714)

1 Faisal M A A, Mecheter I, Qiblawey Y, et al. Deep learning in automated power line inspection: A review[J]. Applied Energy, 2025, 385: 125507. DOI:10.1016/j.apenergy.2025.125507.
2 Liu X, Miao X, Jiang H, et al. Data analysis in visual power line inspection: An in-depth review of deep learning for component detection and fault diagnosis[J]. Annual Reviews in Control, 2020, 50: 253-277. DOI:10.1016/j.arcontrol.2020.09.002.
3 赵振兵, 蒋志钢, 李延旭, 等. 输电线路部件视觉缺陷检测综述[J]. 中国图象图形学报, 2021, 26(11):2545-2560. DOI:10.11834/jig.200689.
4 刘开培, 李博强, 秦亮, 等. 深度学习目标检测算法在架空输电线路绝缘子缺陷检测中的应用研究综述[J]. 高电压技术, 2023, 49(9):3584-3595. DOI:10.13336/j.1003-6520.hve.20220273.
5 Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of CVPR 2014. IEEE, 2014:580-587. DOI:10.1109/CVPR.2014.81.
6 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J/OL]. arXiv:1506.01497, 2015.
7 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//Computer Vision – ECCV 2016. Springer, 2016:21-37. DOI:10.1007/978-3-319-46448-0_2.
8 Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, real-time object detection[C]//Proceedings of CVPR 2016. IEEE, 2016. DOI:10.1109/CVPR.2016.91.
9 Tao X, Zhang D, Wang Z, et al. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(4):1486-1498. DOI:10.1109/TSMC.2018.2871750.
10 纪涛, 吴雨然, 李伟伟. 基于轻量化深度学习的输配电线路巡检图像识别算法研究[J]. 农村电气化, 2025,(11):54-59. DOI:10.13882/j.cnki.ncdqh.2507A043.
[11] Panigrahy S, Karmakar S. Real-Time Condition Monitoring of Transmission Line Insulators Using the YOLO Object Detection Model with a UAV[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73:1-12. DOI:10.1109/TIM.2024.3381693.
[12] Dong J, Zhang W, Li M, et al. Transmission Line Key Components and Defects Detection Based on Meta-Learning and Attention Mechanism[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73:1-12. DOI:10.1109/TIM.2024.3403202.
[13] Singh G, Sreekumar K, George N S. Interpretable visual transmission lines inspections using pseudo-prototypical part network[J]. Machine Vision and Applications, 2023, 34(7):111. DOI:10.1007/s00138-023-01431-1.
[14] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J/OL]. arXiv:2207.02696, 2022.
[15] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[C/OL]//NeurIPS 2024 (OpenReview). 2024.

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐