基于深度学习的金属锈蚀检测系统（YOLOv12完整代码+论文示例+多算法对比）

矩阵因果科技

410人浏览 · 2026-04-18 19:21:18

矩阵因果科技 · 2026-04-18 19:21:18 发布

摘要：本文面向工业巡检与设备维护场景，设计并实现一套基于深度学习的金属锈蚀检测桌面系统，目标是完成锈蚀区域/目标的实时检测与可追溯管理。系统前端采用 PySide6/Qt 桌面界面，支持图片、视频与本地摄像头多源输入，推理过程提供进度显示/处理进度条与耗时统计，检测结果在主显示区以类别名+置信度形式叠加框可视化。系统提供CSV 导出与带框结果的一键导出能力：单帧可导出为 PNG，多帧序列可封装导出为 AVI；同时将账号、历史记录与关键统计写入本地 SQLite，实现离线可用与数据安全可控。账户模块提供登录/注册入口并支持跳过进入（会话在本次运行内生效），满足演示与正式使用的不同需求；模型侧支持模型选择/权重加载（.pt 热切换），切换后同步刷新类别信息与配色，便于对不同任务与工况快速适配。算法评测覆盖 YOLOv5–YOLOv12 共 8 种模型，并对 mAP、F1、PR 曲线、训练曲线等指标进行对比分析，为锈蚀检测在精度、实时性与部署成本之间的权衡提供依据。工程实现与界面交互细节可参考配套技术说明；文末提供完整工程与数据集下载链接。

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册：系统启动后提供登录、注册与跳过入口，登录态仅在当前会话内生效，便于演示与正式使用按需切换。完成登录后会进入主界面，并按“概览—图片检测—模型选择—导出视图”的动线组织操作，用户可快速回到最近一次检测与导出记录。账户信息与会话相关数据采用本地 SQLite 管理，配合口令校验与一次性跳过机制，在不增加使用负担的前提下保证基本安全性与可追溯性。
在这里插入图片描述

（2）功能概况：桌面端采用典型的左中右下布局，左侧聚合数据源与阈值调节，中间为检测可视化主区域，右侧展示目标详情与统计信息，下方统一承载记录列表与进度显示。用户在同一视图内即可完成导入、推理、复查与导出，不需要频繁切换页面。界面状态与历史记录支持连续浏览，能用最短路径定位到异常帧与关键目标。
在这里插入图片描述

（3）选择模型：系统支持多模型体系，用户只需选择本地权重即可完成 .pt 热切换，并在切换后自动刷新类别名称与配色映射，确保可视化结果始终一致。模型相关配置与个性化界面偏好支持本地化保存，下一次启动仍可沿用上次选择，减少重复设置。对于不同工况或不同锈蚀形态，博主建议以同一输入样本快速切换权重进行对比，从体验层面直观看到精度与速度的差异。
在这里插入图片描述

（4）图片检测：图片导入后可即时推理，检测框直接叠加在主显示区，框上标注类别名与置信度，便于现场人员快速判断锈蚀位置与严重程度。系统提供 Conf/IoU 等关键阈值的实时调节，并支持目标选择与高亮显示，以便在密集锈斑或复杂背景下进行逐一核对。检测结果会同步写入底部记录区，便于跨页复查与按记录反向定位到对应图像。
在这里插入图片描述

（5）文件保存：系统将检测结果与导出文件统一按时间戳命名，形成稳定的归档习惯，便于溯源、批量管理与后续复检。支持一键导出结构化结果为 CSV，并可将带框可视化结果保存为单帧 PNG，必要时也可对序列结果进行统一封装导出以满足汇报与留档需求。导出与历史记录可与本地 SQLite 数据库关联，既支持离线环境使用，也能在同一台设备上形成连续的检测台账。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

金属锈蚀广泛存在于钢结构、管道、压力容器与工程装备等场景，既影响外观与材料性能，也会在长期服役中累积为结构安全与运维成本问题。公开报告指出，腐蚀造成的经济损失规模巨大，且通过监测、预防与维护可显著降低总体成本1。在工业自动化与智能运维背景下，锈蚀的在线化、标准化识别逐步从“经验驱动的人工巡检”转向“数据驱动的机器视觉”，其核心价值在于把隐患发现前移，并将结果沉淀为可追溯的质量与资产档案。

传统图像处理方法在受光照变化、材质纹理、污染遮挡与尺度变化影响时往往鲁棒性不足，而深度学习在复杂表面缺陷理解与特征表达方面已经形成较成熟的工程路径[2]。对锈蚀检测而言，除了追求检测精度，还需要兼顾边缘端实时性、结果可解释性与人机协同效率，这决定了系统不仅要“能跑模型”，还要“能让现场人员用起来”。因此，面向桌面端的深度学习锈蚀检测系统具有明确意义：一方面以目标检测为核心实现锈蚀区域的自动定位与量化，另一方面以可视化交互与本地化数据管理支撑检修闭环，降低使用门槛并提升决策效率。

2.2 国内外研究现状

面向金属锈蚀这一类“弱边界、强纹理、强光照耦合”的缺陷目标，国内外研究普遍认为其难点主要体现在类间相似性与类内差异并存、锈蚀形态尺度跨度大、密集分布与遮挡频繁、反光与阴影导致表观不稳定，以及数据长尾带来的召回不足等方面[2]。在工程落地层面，锈蚀往往与油污、划痕、粉尘、焊缝氧化皮等共现，使得“误检可控”和“漏检可解释”比单一指标更贴近生产要求[4]。此外，机器人巡检与移动端部署对功耗、延迟与模型体积的约束更强，促使研究从单纯追求精度转向“精度—速度—可部署性”的系统权衡[3]。

从算法范式看，两阶段检测器通过候选区域机制提升定位与分类质量，但在高吞吐实时场景下常受制于推理延迟与工程复杂度[5]。单阶段检测器以端到端的密集预测提高速度，其中针对前景稀疏与类别不平衡问题的焦点损失等设计被广泛采用[6]。轻量化与多尺度特征融合则成为应对小目标与尺度变化的关键路径，典型代表包括在效率与精度间进行复合缩放的结构化设计[7]。近年来，Transformer 检测器通过全局建模增强表达能力，但早期方法往往依赖较高计算量与训练代价，真实工业场景更关注其可部署性与稳定性[8]。

为便于对不同技术路线形成“可落地的比较视角”，表 2-1 汇总了部分代表性方法在公开基准或官方报告中的可追溯指标，并结合锈蚀检测的典型难点给出适配性分析。

方法名称	范式/家族	数据集/输入	关键改进技术（概述）	优势与局限性（面向锈蚀难点）	指标（示例）	适用场景/对应难点
YOLOv6-N	单阶段，YOLO 系	COCO，640	结构与训练策略工程化优化	速度优势明显，但对复杂纹理与反光场景需依赖数据增强与阈值策略	AP 37.5%，T4 可达高帧率[15]	边缘端实时巡检，小目标较多时需强化多尺度
YOLO11n	单阶段，YOLO 系	COCO，640	轻量化检测架构与推理链路工程化	低延迟易部署，但在长尾类别上需结合采样与损失加权	mAP 39.5，CPU ONNX 56.1ms，T4 TensorRT 1.5ms[18]	现场快速筛查与批量离线复核
YOLO12n	单阶段，YOLO 系	COCO，640	引入注意力与结构优化以提升精度效率比	精度与延迟兼顾，但复杂背景下仍需面向锈蚀外观变化做数据闭环	mAP 40.6，T4 TensorRT 1.64ms，参数 2.6M[19]	需要实时与精度平衡的在线检测
YOLOX-L	单阶段，YOLO 系（Anchor-free）	COCO	解耦头与标签分配等改进	对密集目标与尺度变化更友好，但工程落地仍依赖部署优化	AP 50.0%，V100 68.9 FPS[10]	中高算力场景，密集锈蚀与遮挡并存
RT-DETR-R50	端到端 DETR 系	COCO	去 NMS 的端到端范式与高效编码器	端到端减少后处理不确定性，但训练与部署链路需更精细调参	AP 53.1%，T4 108 FPS[11]	强实时且需稳定输出的在线推理

围绕 YOLO 家族的技术演进，工程界更倾向于在统一框架下迭代骨干网络、颈部融合与检测头结构，并将训练增强、标注分配与后处理策略作为性能上限的关键因素[14]。在锈蚀检测场景中，多尺度融合对应锈蚀斑块从点状到片状的尺度跨度，解耦头与更合理的正负样本分配有利于缓解“纹理相似导致的分类混淆”，而置信度阈值与 IoU 阈值的交互则直接影响密集锈点的漏检率与重复框数量[10]。与此同时，YOLO 的版本迭代不断推动“可部署性”指标前置，使得同一模型在 PyTorch、ONNX 与 TensorRT 等链路中具备更一致的速度与精度表现[18]。

除 YOLO 之外，端到端检测器在“无需 NMS”这一点上对工程稳定性具有吸引力，因为 NMS 的阈值对密集锈蚀与遮挡场景可能带来敏感的召回波动[11]。进一步的改进工作强调通过训练策略与“免费增益”手段提升精度，同时优化部署算子以减少落地阻力[12]。在国内研究方面，面向桥梁等基础设施的锈蚀视觉检测常与移动端、机器人平台结合，更强调轻量化骨干与注意力增强以兼顾精度与能耗[3]。总体而言，算法层面的趋势正在与系统层面的趋势合流：即在保证实时性的前提下，增加可解释可视化、批量导出与可追溯存储，并通过数据闭环持续提升模型对真实环境分布漂移的适应能力[2]。

2.3 要解决的问题及其方案

结合本系统“锈蚀目标检测算法与 Qt 桌面端交互集成”的工程目标，核心矛盾在于：一方面锈蚀外观随材质、工况与光照显著变化，模型需要具备足够的泛化能力；另一方面现场使用强调低延迟与可追溯，系统需要在交互、导出与存储层面形成稳定闭环。为保证论述与实现一致，本文以 PyTorch 训练与推理为主线，以 PySide6/Qt 实现桌面端交互，并在多源输入、参数同步、结果归档与本地数据库管理等环节完成系统化设计。

要解决的问题概括如下：
（1）检测与识别的准确性与实时性难以兼得，密集锈斑与反光遮挡易导致漏检与重复框。
（2）模型对不同设备、不同场景分布的环境适应性与泛化能力不足，长尾样本易造成类别偏置。
（3）桌面端交互界面的直观性与功能完整性要求高，需要兼顾检测、调参、导出与复查的一体化体验。
（4）数据处理效率与存储安全性需要保证，既要支持批量处理与导出，也要满足本地可追溯与权限管理。

对应的解决方案设计如下：
（1）以 YOLOv12 为核心检测模型，并对 YOLOv5 至 YOLOv12 进行对比评测，结合数据增强与迁移学习提升精度上限。
（2）基于 PyTorch 打通训练与推理链路，并通过阈值策略、后处理与输入分辨率约束提升在线推理稳定性。
（3）以前端 PySide6/Qt 实现图片、视频与摄像头多源输入检测，并支持权重热切换以适配不同场景与类别体系。
（4）通过缓存序列、统一命名与 SQLite 本地库实现记录与归档，并结合硬件加速、模型压缩与系统测试保障工程可靠性。

2.4 博文贡献与组织结构

本文的主要贡献体现在以下几个方面：
（1）围绕金属锈蚀检测的工程需求与技术难点，给出检测算法、部署链路与系统闭环的综合综述与分析。
（2）在 YOLO 系列中完成模型选择与训练推理优化思路梳理，并以统一指标对 YOLOv5 至 YOLOv12 的性能权衡进行对比。
（3）实现美观友好的 Qt 桌面端交互范式，将多源输入检测、阈值调参与结果导出归档整合为可复用流程。
（4）结合可追溯存储与本地数据库管理，形成从检测到统计再到复查的工程闭环，便于持续迭代与数据反馈。
（5）提供完整的数据集与代码资源组织方式，为复现与二次开发提供直接入口。

全文组织结构如下：在绪论之后，首先介绍数据集处理与标注规范；随后给出以 YOLOv12 为主线的模型原理与训练策略；接着通过对比实验呈现多版本 YOLO 的指标与误差分析；最后从系统分层架构出发说明 Qt 桌面端的关键实现逻辑与可扩展设计，并在结论部分总结系统有效性与未来改进方向。

3. 数据集处理

本系统使用的金属锈蚀数据集共 5218 张图像，按照训练集 4177 张、验证集 782 张、测试集 259 张进行划分，对应比例约为 80.05%/14.99%/4.96%，切分时保持固定随机性以保证复现实验结果的一致性。结合样例可视化可以看到，数据覆盖了不同材质与背景、强光照变化与局部反光、以及锈蚀从点状到片状的多形态分布，这些因素共同决定了锈蚀检测既要“找得全”，也要“框得准”，同时要尽量抑制污渍、阴影、焊缝氧化皮等外观干扰带来的误检。标签及其对应中文名如下：

Chinese_name = {'rust': "锈蚀"}

在这里插入图片描述

标注采用目标检测常用的边界框形式，并以归一化的 ((x,y,w,h)) 表达目标中心与宽高比例，便于在不同分辨率输入下保持标签一致性。由标注相关性与尺度分布图可见，目标中心位置在图像平面上分布较广但更偏向主体区域，宽高呈明显长尾特征，说明数据中既存在大面积锈蚀，也包含大量细碎锈斑与窄条纹等小目标，这类样本往往与背景纹理相互“黏连”，对模型的特征分辨率与正负样本分配更敏感。为保证数据质量与训练稳定性，数据处理阶段通常需要优先核验异常框与重复框、清理空标注或越界标注，并在统计层面持续检查类别与尺度分布是否随迭代发生漂移，从而把“标注问题”与“模型能力不足”清晰地区分开。
在这里插入图片描述

在预处理与增强策略上，训练与部署统一采用固定输入尺度（如 640×640）以减少多源输入带来的分布偏差，同时在训练阶段引入与锈蚀难点强相关的增强：通过亮度/对比度与色彩扰动提升对反光与阴影的鲁棒性，通过随机缩放裁剪与多图拼接增强小目标与密集目标的学习信号，并结合翻转与轻量模糊来模拟现场视角变化与轻微抖动。上述处理思路的核心目标，是让模型在“尺度跨度大、纹理相似度高、光照变化剧烈”的锈蚀场景下仍能保持稳定的召回与定位，从数据层面为后续多版本 YOLO 的公平对比与桌面端实时推理打下基础。

4. 模型原理与设计

本文默认以 YOLOv12 作为主线模型进行说明，其核心目标是在单阶段检测框架下同时兼顾精度与实时性：输入图像经过骨干网络提取多层语义特征，再通过颈部结构进行多尺度融合，最终由检测头在不同尺度上同时回归边界框与类别置信度。对于金属锈蚀这种“纹理强、边界弱、尺度跨度大且易受反光干扰”的目标，单阶段范式的优势在于推理链路短、吞吐稳定，结合多尺度特征可以在大面积锈蚀与细碎锈斑之间取得更均衡的召回；同时，端到端的前向计算更利于与桌面端的图片/视频/摄像头输入做实时联动，把阈值调参与可视化复核纳入同一交互闭环。

与以往主要依赖 CNN 堆叠的 YOLO 改进路线不同，YOLOv12 在官方描述中强调“以注意力为中心”的架构思路，并提出区域注意力等机制来在保持大感受野的同时控制计算成本：将特征图划分为 (l) 个大小相等的区域（默认 (l=4)），在区域内进行注意力建模，从而把全局自注意力的二次复杂度在工程上做了可控约束；同时引入用于稳定优化与特征聚合的结构化设计，并在实现上兼容高效注意力算子以降低内存访问开销。(Ultralytics Docs) 对锈蚀检测而言，这类注意力建模更像是为“纹理相似但语义不同”的干扰提供额外的上下文证据：当局部锈斑与背景污渍在颜色或颗粒感上高度接近时，区域级关联有机会利用更大的结构信息（例如锈蚀沿边缘扩散、沿连接件密集分布等）来提升判别稳定性。网络整体架构图如下图所示（建议直接下载论文 PDF 查看结构总览与模块示意）：

在这里插入图片描述

在检测头的任务建模上，YOLO 系列通常将目标检测分解为分类、置信度与边界框回归三类学习信号，并通过加权求和形成总损失 (L)。分类与目标置信度常用二元交叉熵形式刻画，若以单类“锈蚀”为例，可写为 (L_{\text{cls}}=-\big(y\log p+(1-y)\log(1-p)\big))，其中 (y\in{0,1}) 表示标签，§ 为预测概率；回归部分则更关注定位质量与尺度鲁棒性，常用 IoU 系列损失把重叠度与几何约束显式纳入优化目标，例如 CIoU 可写为
$L_{\text{CIoU}}=1-\text{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\alpha v,$
其中 (\rho(\cdot)) 表示预测框与真值框中心点距离，© 为最小外接框对角线长度，(v) 则刻画长宽比一致性，(\alpha) 为其自适应权重。对锈蚀这类“弱边界”目标而言，IoU 类损失的几何项可以在一定程度上抑制框漂移，减少把锈蚀边缘外扩到干净金属表面的现象；若目标呈细条纹或碎片状，回归项对长宽比的约束也能缓解预测框在窄长结构上的不稳定。

训练与正则化策略上，本文遵循“训练侧尽量模拟现场分布、推理侧尽量保持链路确定性”的原则：训练阶段依赖批归一化与合适的学习率策略稳定收敛，并通过与锈蚀工况强相关的数据增强（亮度/对比度扰动应对反光与阴影、随机缩放裁剪提升小目标学习、适度模糊模拟抖动）提升泛化能力；推理阶段则通过置信度阈值与 NMS 的 IoU 阈值控制误检与重复框，并把这些阈值暴露为桌面端可实时调参的交互项，使用户能在“宁可多报以便复核”和“尽量少报减少打扰”之间按场景切换。对于密集锈斑与遮挡共存的图片，适当提高置信度阈值有助于降低噪声框，而适当降低 NMS 的 IoU 阈值则更利于保留相邻锈斑的独立框输出；这些策略与 YOLOv12 的注意力建模结合后，通常能在复杂纹理背景下获得更稳定的精度—召回平衡。

5. 实验结果与分析

本章实验旨在验证金属锈蚀单类检测任务中，不同 YOLO 版本在“精度—召回—定位质量—端到端时延”上的综合权衡，并为 Qt 桌面端的实时推理与一键导出提供可落地的模型选型依据。数据集共 5218 张图像（训练/验证/测试为 4177/782/259），输入尺寸统一为 640×640；评测指标采用 Precision、Recall、F1、mAP50 与 mAP50-95，同时统计预处理、推理与后处理耗时。所有推理时延均在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB）上测得，表 5-1 中的“总时延”按 (\text{PreTime}+\text{InfTime}+\text{PostTime}) 计算，可直接近似为单帧端到端处理成本。

组别	模型	Params(M)	FLOPs(G)	总时延(ms)	Precision	Recall	F1	mAP50	mAP50-95
n	YOLOv5nu	2.6	7.7	10.94	0.903	0.708	0.794	0.816	0.621
n	YOLOv6n	4.3	11.1	10.34	0.907	0.720	0.802	0.819	0.635
n	YOLOv7-tiny	6.2	13.8	21.08	0.930	0.766	0.840	0.859	0.622
n	YOLOv8n	3.2	8.7	10.17	0.921	0.684	0.785	0.780	0.608
n	YOLOv9t	2.0	7.7	19.67	0.917	0.709	0.800	0.815	0.634
n	YOLOv10n	2.3	6.7	13.95	0.913	0.707	0.797	0.821	0.638
n	YOLOv11n	2.6	6.5	12.97	0.912	0.713	0.800	0.820	0.630
n	YOLOv12n	2.6	6.5	15.75	0.920	0.733	0.816	0.835	0.648
s	YOLOv5su	9.1	24.0	12.24	0.914	0.722	0.807	0.830	0.645
s	YOLOv6s	17.2	44.2	12.26	0.920	0.688	0.787	0.759	0.614
s	YOLOv7	36.9	104.7	29.52	0.934	0.865	0.898	0.913	0.730
s	YOLOv8s	11.2	28.6	11.39	0.919	0.747	0.824	0.848	0.668
s	YOLOv9s	7.2	26.7	22.17	0.925	0.719	0.809	0.825	0.655
s	YOLOv10s	7.2	21.6	14.19	0.922	0.725	0.811	0.836	0.662
s	YOLOv11s	9.4	21.5	13.47	0.931	0.747	0.829	0.850	0.673
s	YOLOv12s	9.3	21.4	16.74	0.929	0.736	0.821	0.833	0.662

表 5-1 的结果显示，轻量组（n/t/tiny）中 YOLOv7-tiny 取得最高的 F1=0.840 与 mAP50=0.859，但其总时延约 21.08ms，主要受推理与后处理共同影响；YOLOv12n 在 mAP50-95=0.648 上领先，说明在更严格的 IoU 阈值区间内具有更稳定的定位质量，同时 mAP50=0.835、F1=0.816 的综合表现也更均衡。若仅从速度出发，YOLOv8n 与 YOLOv6n 的总时延约 10ms 量级，可支撑更高帧率的交互体验，但对应的 mAP50（0.780 与 0.819）与 F1（0.785 与 0.802）呈现明显差异，提示“同等时延下的精度上限”更多取决于结构与训练范式，而非单纯参数量。另一方面，YOLOv10n 的后处理耗时最低（0.63ms），对桌面端的进度条与批量导出更友好，但其召回与综合精度并未形成绝对优势，更适合作为强调交互流畅性的候选而非最终精度优先的选择。

在中等规模组（s）中，YOLOv7 以 Recall=0.865、F1=0.898、mAP50=0.913 给出明显的精度上限，尤其适合“宁可多检不可漏检”的安全导向场景，但其总时延约 29.52ms，在视频/摄像头实时预览下更容易出现帧率压力。更贴近桌面端“实时可用”的方案集中在 YOLOv8s 与 YOLOv11s：二者 mAP50 分别为 0.848 与 0.850，F1 为 0.824 与 0.829，总时延分别约 11.39ms 与 13.47ms，表现为“接近最优精度但显著更低时延”的折中点。

在这里插入图片描述

结合 PR 曲线与置信度-F1 曲线可以进一步解释这一现象：单类锈蚀任务在中高召回区间对误检更敏感，F1 的最佳点往往出现在中等置信度阈值附近（你给出的曲线中最佳 F1≈0.82 对应 conf≈0.356），因此系统侧提供 Conf/IoU 滑块的价值在于把“现场偏好”显式纳入推理闭环——当场景反光强、背景纹理复杂时可适当提高 conf 以压制误检，当锈蚀呈细碎斑点且更担心漏检时则可降低 conf 并配合 IoU/NMS 策略保留相邻目标。

6. 系统设计与实现

6.1 系统设计思路

本系统面向金属锈蚀目标检测的在线使用需求，整体采用分层架构组织实现，以保证算法推理、交互控制与数据持久化之间的职责边界清晰且可扩展。表现与交互层以 PySide6/Qt 客户端为核心，负责多源输入选择、阈值滑块、检测视图与记录表格的统一呈现；业务与会话管理层负责登录态、源互斥、参数同步与导出编排；推理与任务调度层以事件驱动的帧流组织推理任务，贯穿预处理、YOLO 推理与后处理；数据持久化层以本地 SQLite 与文件归档共同完成记录、配置与结果的可追溯管理，使系统在离线环境下仍能稳定运行并支持审计复查。

跨层协同的主链路遵循“多源输入—预处理—推理—后处理—可视化—记录导出”的闭环模式：图片检测强调一次加载、即时反馈与交互复核；视频与摄像头检测则以帧流驱动，结合进度条与用时显示提供持续可感知的处理状态。为保障实时性与一致性，系统采用源互斥策略避免不同输入源并发抢占推理资源，并将 Conf/IoU 等关键阈值作为跨层共享参数，在滑块变化后同步影响后处理过滤与界面统计显示，从而确保“用户看到的阈值”与“系统实际生效的阈值”保持一致。异常恢复方面，系统在媒体读取失败、权重切换失败或导出写入失败时优先保证主线程交互不被阻塞，并将错误以可解释方式反馈到记录区域，避免出现“界面卡死但无提示”的不可控体验。

在可扩展性设计上，模型权重管理被抽象为独立能力：当用户选择本地 .pt 权重后，系统完成模型重载并同步刷新类别信息与配色映射，使不同锈蚀数据口径或不同训练版本能够快速对齐到同一套交互流程。统计与导出同样以“统一结构化结果”为核心，推理输出在跨源场景下保持一致字段（类别、位置、置信度、用时等），既便于 CSV 汇总，也便于在 PNG/AVI 结果中实现一致的叠加框风格；归档命名采用时间戳与统一目录策略，降低批量管理与溯源成本，为后续的数据回流与持续训练提供稳定入口。

在这里插入图片描述

图 6-1 系统流程图
图注：该流程覆盖系统自初始化到多源输入检测的完整闭环，突出 Conf/IoU 滑块对后处理的同步影响，以及 CSV/PNG/AVI 导出与时间戳命名的可追溯机制。

在这里插入图片描述

图 6-2 系统设计框图
图注：该框图突出“Qt 客户端—业务会话—推理调度—数据层”的分层边界与数据流向，并将模型权重管理、日志与导出接口纳入统一编排。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图
图注：该流程描述从登录界面进入系统的账户生命周期，强调注册写入本地数据库、口令校验形成会话，以及个性化配置与历史记录加载对主检测流程的衔接价值。

上述登录与账户管理流程在系统中的作用不仅是完成身份进入，更重要的是为“个性化配置、历史记录与默认模型选择”提供稳定的会话边界：用户在登录成功后加载偏好与最近记录，能够在主界面快速延续上一次的检测工作流；当发生注销或切换账号时，系统以本地数据库为中心完成用户空间隔离，使不同操作者的检测记录与导出归档保持一致的可追溯性，同时避免配置串用带来的评测偏差，从而让账户模块与主检测链路形成紧密但低耦合的工程衔接。

7. 项目资源链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

项目完整文件请见项目介绍及功能演示视频处给出:

项目介绍地址： https://newtopmat.feishu.cn/wiki/GMsJw1iqNi5FgGkTlwQcnjASnoe

功能效果展示视频：热门实战｜《基于深度学习的金属锈蚀检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 AMPP. IMPACT Study: International Measures of Prevention, Application, and Economics of Corrosion Technologies[EB/OL]. [2025-12-20].
[2] 基于深度智能视觉的表面缺陷检测研究进展[EB/OL]. [2025-12-20].
[3] 基于改进DeepLabV3+的钢桥锈蚀检测方法[EB/OL]. [2025-12-20].
[4] 基于深度学习的金属腐蚀检测与分类研究[D]. 北京: 万方学位论文, 2024.
[5] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[6] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.
[7] TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10781-10790.
[8] CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[9] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9627-9636.
[10] GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021[2025-12-20].
[11] ZHAO Y, LV W, XU S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2024[2025-12-20].
[12] LV W, ZHAO Y, CHANG Q, et al. RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer[EB/OL]. arXiv:2407.17140, 2024[2025-12-20].
[13] ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[EB/OL]. arXiv:1911.08287, 2020[2025-12-20].
[14] Ultralytics. YOLOv5 Models[EB/OL]. [2025-12-20].
[15] Ultralytics. YOLOv6 Models[EB/OL]. [2025-12-20].
[16] Ultralytics. YOLOv8 Models[EB/OL]. [2025-12-20].
[17] Ultralytics. YOLOv10 Models[EB/OL]. [2025-12-20].
[18] JOCHER G, QIU J. Ultralytics YOLO11[EB/OL]. 2024[2025-12-20].
[19] Ultralytics. YOLO12 Models[EB/OL]. [2025-12-20].
[20] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022[2025-12-20].