基于深度学习的路面裂缝检测系统（YOLOv12完整代码+论文示例+多算法对比）

矩阵因果科技

309人浏览 · 2026-05-22 00:55:49

矩阵因果科技 · 2026-05-22 00:55:49 发布

摘要：本文面向路面裂缝自动巡检场景，给出一套“训练评测 + 桌面端推理”的一体化方案：后端以 YOLOv12 为核心并覆盖 YOLOv5–YOLOv12（共 8 种） 模型训练与对比，统一输出 mAP、F1、PR 曲线与训练曲线，便于在精度与实时性之间做工程选型。前端采用 PySide6/Qt 桌面界面，支持 图片/视频/本地摄像头 多源输入，并在主显示区叠加带框结果（类别/置信度），视频与批量任务提供 进度显示/处理进度条；检测记录可汇总为表格并 CSV 导出，同时支持带框结果一键导出为 单帧 PNG / 多帧 AVI，满足复核与留档需求。系统提供 登录/注册（可跳过） 入口，账户与历史记录采用 SQLite 本地入库 管理，并在界面中完成 模型选择/权重加载（.pt 热切换），切换后同步刷新类别信息与可视化配色，形成从训练到部署的闭环工作流。文末提供完整工程与数据集下载链接。

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）系统启动后提供登录、注册与跳过入口，登录态在本次会话内生效，便于统一管理个人偏好与历史检测记录；选择跳过则以一次性访客方式进入，但不影响核心检测与导出流程。进入系统后，用户可从概览快速进入各检测模块并回到导出视图完成留档，同时在记录区定位最近一次任务并进行复查。为兼顾体验与安全，账户与历史信息由本地 SQLite 管理，登录阶段完成必要的口令校验与会话隔离。
在这里插入图片描述
（2）从功能概况看，该 Qt 桌面端把“多源输入、阈值调参、结果复核、统计导出”组织在同一套交互闭环中，操作路径清晰且学习成本低。系统支持图片、视频与本地摄像头输入，长视频或批量处理提供进度显示，便于把控耗时与处理状态。底部检测记录跨页面共享，使用户在不同输入模式下仍能用一致的方式查看目标、筛选信息并回溯到原始画面。
在这里插入图片描述
（3）模型选择强调快速切换与一致性：用户通过选择本地权重即可完成 .pt 热切换，无需重启即可应用新的检测器。切换后系统会同步刷新类别信息与可视化配色，减少不同模型间的标签混淆与误读。常用配置与界面主题支持本地保存，使阈值参数与显示风格在多次运行间保持稳定。
在这里插入图片描述
（4）图片检测场景下，加载图像即可即时推理，并在主显示区叠加带框结果，框内展示类别名称与置信度以便快速判读。右侧详情区同步列出目标信息，用户可进行目标选择与高亮，从而把注意力集中到疑似误检或漏检区域。Conf/IoU 阈值调节贯穿整个复核过程，便于在精度与召回之间快速试探出更合适的工作点。
在这里插入图片描述
（5）文件保存以可追溯与易复查为导向：检测结果既可汇总导出为 CSV，也可将带框结果一键保存为单帧 PNG 或多帧 AVI，满足抽检、留档与报告制作需求。导出采用时间戳命名与统一归档策略，便于批量管理并按文件名快速定位到对应任务。配合记录区的检索与高亮定位，用户能在“查看—导出—复查”之间形成稳定且高效的工作流。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

路面裂缝是道路早期病害的典型形态，若依赖人工巡检与经验判读，往往面临效率低、主观性强、难以形成规模化数据闭环等问题，而将检测流程自动化被认为能显著降低养护成本并提升管理决策的及时性1。(arXiv)在数据层面，面向真实道路场景的损伤数据集逐步走向跨国家、跨采集设备与跨光照条件的构建趋势，使得“泛化到不同城市与不同路况”成为算法落地的硬约束2。(arXiv)从方法层面看，裂缝属于细长目标且纹理与背景高度耦合，促使研究从传统特征工程逐步转向深度学习检测与分割的统一建模，并在综述工作中被系统总结为兼顾精度、速度与鲁棒性的长期方向3。(arXiv)因此，本文的意义不仅在于训练并对比 YOLOv5–YOLOv12 等多代检测器，更在于把“可解释可视化、可追溯导出、可热切换部署”的工程链路做成桌面端闭环，让一线巡检与科研评测能够在同一套流程中复用与迭代。

2.2 国内外研究现状

针对路面裂缝检测这一细粒度场景，早期代表性工作倾向于结合纹理与结构先验，例如随机结构森林方法在复杂路面纹理与噪声干扰下实现自动裂缝提取，为后续数据驱动方法提供了可对比的传统基线4。随着深度学习的普及，像素级裂缝分割逐步成为重要分支，CrackNet 通过端到端学习在路面三维表面数据上实现像素级裂缝检测，强调对细小裂纹的保真能力[5]。在此基础上，CrackNet II 进一步提升学习能力与运行效率，体现出裂缝任务对“高分辨率细节”与“推理速度”的双重追求[6]。近年研究还开始把连通性与拓扑结构显式引入建模过程，以缓解细长裂缝在遮挡、反光与断裂纹理下易出现“漏连与断裂”的问题[7]。(百度学术)

从目标检测范式来看，两阶段方法以 Faster R-CNN 为代表，通过 RPN 共享特征实现候选框生成与检测统一，并在当时报告了可达 5fps 的端到端速度，为工程部署提供了可参考的精度上限与流程范式[8]。一阶段方法在解决前景背景极度不均衡后加速发展，RetinaNet 提出 Focal Loss 并在 COCO 上给出“39.1 AP、5fps”的典型性能点，说明损失设计对密集检测稳定性至关重要[9]。随后，Anchor-free 路线通过中心点或关键点等表征减少超参数依赖，CenterNet 以“对象即点”的建模在 COCO 上报告 28.1% AP 且可达 142 FPS，反映出结构简化对实时性的直接收益[11]。在效率优化上，EfficientDet 通过 BiFPN 与复合缩放提出系列化模型，并在单模型单尺度下报告 EfficientDet-D7 可达 55.1 AP，展示出多尺度融合与尺度一致扩展的有效性[12]。另一方面，Transformer 检测器以 DETR 为代表将检测视为集合预测问题，显式移除 NMS 与 Anchor 设计，推动端到端检测成为重要方向[13]。

在 YOLO 家族的技术演进中，Ultralytics 的 YOLOv5 以工程友好、训练与部署链路成熟而被广泛用作工业与科研的起点之一[15]。面向工业落地，YOLOv6 明确提出“工业应用的一阶段检测框架”，并给出在 T4 上高吞吐的性能示例，强调硬件友好与量化优化在真实部署中的价值[16]。YOLOv7 在结构与训练策略上系统整合“bag-of-freebies”思想，体现出通过训练工具链提升精度与速度权衡的路线[17]。随后，YOLOv9 通过可编程梯度信息等机制探讨“学到该学的内容”，对应复杂场景下的可靠梯度与泛化诉求[18]。YOLOv10 进一步走向端到端与无 NMS 推理的设计，并在论文中给出相对 RT-DETR 的效率优势描述，反映出实时检测正加速融合端到端范式[19]。在最新进展中，YOLOv12 提出 attention-centric 框架并在摘要中报告 YOLOv12-N 达到 40.6% mAP 且在 T4 上推理延迟为 1.64ms，说明注意力机制在保持实时性的前提下开始具备可用性[20]。与此同时，Ultralytics 文档指出 YOLOv8 于 2023-01-10 发布并强调速度与精度的综合提升，显示出“统一框架与快速迭代”对工程侧的重要性[21]。

面向裂缝这一具体任务，研究往往围绕细长目标、多尺度与弱纹理对比度展开定制改进，例如中文期刊工作提出在 YOLOv8 中引入重参数化与轻量检测头等设计，使 mAP 指标提升并降低参数量，同时在 RDD2022 上验证泛化性，体现出“轻量化与泛化”在道路场景中的一致目标[23]。另有研究直接以 YOLOv5 与 YOLOv8 为主体完成裂缝检测与分类实验，并在不同光照与分辨率条件下报告精度上限可达 67.3%，从侧面说明数据采集条件对结果波动的影响不可忽视1。综合来看，裂缝检测的主流趋势正在从“单点算法指标”转向“算法与系统协同”，即在保证实时推理的同时提供可视化解释、结果追溯、批量导出与持续迭代的闭环能力。

在部署与系统层面，Ultralytics 的基准模式文档给出 ONNX/OpenVINO 可带来最高约 3 倍 CPU 加速、TensorRT 可带来最高约 5 倍 GPU 加速的经验说明，凸显导出链路与推理后端对实时应用的决定性作用[24]。同时，Ultralytics 主仓库展示了从推理、验证到导出的一体化接口与示例，降低了多模型对比与工程集成的门槛[25]。因此，面向路面裂缝的“可用系统”研究通常需要把多源输入、阈值调参、热切换权重、结果入库与一键导出等能力统一规划，使算法评测与业务使用共享同一套可重复流程。

表1 代表性方法对比与适用性分析（面向裂缝检测难点）

方法	范式/家族	常用数据集	关键改进/机制	优势	局限	指标示例	适用场景/对应难点	引用
Faster R-CNN	两阶段	VOC/COCO	RPN 与检测共享特征	精度强、流程稳定	端到端延迟较高	论文报告 VGG-16 下约 5fps	追求高精度、目标不极密集	[8]
RetinaNet	一阶段/Anchor-based	COCO	Focal Loss 缓解类不均衡	密集目标更稳、结构清晰	需设计 Anchor 与匹配策略	ResNet-101-FPN 可达 39.1 AP 且约 5fps	长尾与背景干扰明显的裂缝场景	[9]
CenterNet	一阶段/Anchor-free	COCO	“对象即点”中心点回归	后处理简化、速度突出	细小目标定位依赖特征分辨率	28.1% AP@142 FPS	实时巡检、细长目标需稳定中心响应	[11]
EfficientDet	一阶段/高效架构	COCO	BiFPN + 复合缩放	精度与效率折中优秀	结构组合复杂、调参成本高	D7：55.1 AP（77M 参数）	资源受限但需较高精度的端侧部署	[12]
DETR	Transformer/端到端	COCO	集合预测 + 匹配损失	去除 NMS/Anchor、流程简洁	收敛慢、细小目标需改进	论文指出性能与 Faster R-CNN 相当	需要端到端一致性的检测流程	[13]
YOLOv10	YOLO/端到端趋势	COCO	端到端效率驱动设计	强调延迟与精度统一优化	训练与导出链路更依赖规范	论文给出相对 RT-DETR 的效率优势	实时在线检测与低延迟要求	[19]
YOLOv12	YOLO/注意力中心	COCO	attention-centric YOLO 框架	注意力收益与速度兼顾	新范式仍需更多场景验证	v12-N：40.6% mAP，1.64ms（T4）	复杂光照与纹理背景下的鲁棒实时检测	[20]
改进 YOLOv8（裂缝）	YOLO/任务定制	自建+RDD2022	轻量化模块与检测头、SIoU 等	mAP 提升且降参增速	数据集差异影响可迁移性	mAP50/mAP50-95 提升且降参增速	细长裂缝、多尺度与泛化需求	[23]

2.3 要解决的问题及其方案

（1）路面裂缝具有细长、弱纹理对比度与易遮挡的特点，系统需要在保证检测精度的同时满足视频与摄像头流的实时推理要求，并支持对阈值参数的快速调节以应对不同路况。
（2）道路采集场景存在光照剧烈变化、路面材质多样与长尾分布等问题，模型需要具备跨场景泛化能力，并能在多代 YOLO 模型间进行可重复的对比评测以指导选型。
（3）一线巡检更关注“能看懂、能复核、能导出”，桌面端界面需要提供直观的带框可视化、目标高亮与记录回溯能力，把算法输出转化为可解释的工程结果。
（4）检测结果往往需要长期留存与追溯，系统必须提升批处理与导出效率，并在本地持久化存储与账户管理上保证数据安全与使用边界清晰。

（1）以 YOLOv12 为核心模型并纳入 YOLOv5–YOLOv12 的多模型对比，结合迁移学习与针对裂缝难点的数据增强策略，形成从训练到部署的一致评测链路。
（2）基于 PyTorch 完成训练、推理与评测逻辑封装，并与 PySide6/Qt 桌面端打通，实现从多源输入到检测结果展示的端到端系统。
（3）支持图片、视频与本地摄像头输入，提供权重文件热切换与类别信息同步刷新，使不同模型的部署与复核成本可控且可重复。
（4）通过结果缓存、时间戳命名与本地 SQLite 管理等工程策略完善导出与入库流程，并结合推理加速与系统测试手段提升整体实时性、稳定性与可维护性。

2.4 博文贡献与组织结构

（1）给出面向路面裂缝场景的研究背景与国内外进展梳理，明确细长目标、多尺度与光照变化等难点与检测范式的对应关系。
（2）围绕 YOLOv5–YOLOv12 完成训练、推理与指标对比的统一流程设计，为工程选型提供可复现的评测依据。
（3）提供基于 PySide6/Qt 的桌面端交互闭环，将多源输入、阈值调参、可视化解释、批量导出与本地入库整合为一致体验。
（4）形成面向工程落地的结果管理与追溯机制，使单次实验的检测结果可复核、可导出、可长期留存并服务后续数据迭代。

本文后续章节将依次介绍数据集处理与标注规范、YOLOv12 为主线的模型原理与关键设计、YOLOv5–YOLOv12 的实验结果与可视化分析，以及 Qt 桌面端的系统架构与关键流程设计，最终总结系统在路面裂缝检测任务中的有效性并讨论未来扩展方向。

3. 数据集处理

本文实验数据集由训练集 1934 张、验证集 500 张、测试集 500 张组成，共计 2934 张图像；从你给出的样例拼图可以看出，数据覆盖桥面、城市道路、不同粗糙度沥青与水泥路面等多种场景，裂缝形态既包含细长线状裂纹，也包含伴随破损、补丁边界与局部坑洼的复杂纹理区域。标注以目标检测框为主，类别从统计图中呈现为单类 crack（示例中类别索引为 0），框覆盖裂缝可见区域以支撑“定位+告警”的工程需求；同时，样例中存在遮挡（车辆/行人）、阴影与强反光（积水/亮斑）等干扰，这类情况会显著提高误检与漏检概率，因此在数据层面对场景多样性与标注一致性要求更高。
在这里插入图片描述
在数据划分上，训练/验证/测试约为 65.9%/17.0%/17.0%，这种相对均衡的验证与测试规模有利于在迭代过程中同时观察“调参收益”与“真实泛化”两条曲线，避免只在验证集上获得乐观估计。结合你提供的框分布可视化可以进一步发现：目标中心点的分布在图像中部更密集，这与车载/手持拍摄时道路主体位于视野中心的采集习惯一致；宽高分布呈现明显的小目标与细长目标特征，尤其是高度较小的框占比更高，说明裂缝在像素层面往往属于弱纹理、低对比的细粒度目标，这会对特征金字塔的高分辨率分支与阈值选择提出更严格要求。博主在实际工程里通常会建议在划分脚本中固定随机种子并尽量保持场景分布一致，以降低“同一路段相邻帧泄漏到不同子集”导致的评测偏差。
在这里插入图片描述
在预处理与增强方面，为了与后续推理链路保持一致，图像通常会统一进行尺寸对齐与归一化处理（例如在保持纵横比的前提下进行缩放与填充），以保证训练与部署的输入分布一致；针对裂缝易受光照、阴影与反光影响的特点，可结合颜色空间抖动与亮度对比度扰动来提升鲁棒性，并通过随机尺度、仿射/透视扰动缓解拍摄角度变化带来的几何偏移。另一方面，裂缝目标细长且尺度跨度大，适度的随机裁剪与多图拼接类增强有助于提升小目标出现频率与多尺度泛化，但需要配合数据清洗与标注校验（例如剔除空标注、异常越界框与极端小框）来避免噪声标签放大误检倾向；最终在验证与测试阶段关闭强增强，以确保指标反映真实巡检分布下的稳定性与可复现性。
在这里插入图片描述

4. 模型原理与设计

本文以 YOLOv12 为核心检测器构建路面裂缝检测算法链路，并保持 YOLO 系列典型的一阶段检测范式：输入图像经主干网络提取分层语义特征，再由颈部结构进行多尺度特征融合，最终在检测头上完成类别与边界框的联合预测，从而在速度与精度之间取得工程可用的平衡。路面裂缝具有“细长、小尺度、弱纹理对比度高、与接缝/补丁边界相似度高”等特点，模型需要同时具备较强的局部细节敏感性与更大范围的上下文判别能力，因此多尺度特征金字塔与端到端的稠密预测对本任务尤为关键。YOLOv12 在整体框架上延续分层输出与多尺度检测的设计，并以注意力机制作为核心增强路径，目标是在不显著牺牲实时性的前提下提升复杂场景下的表征能力与判别稳定性。 (arXiv)

与传统 CNN 主导的 YOLO 改进不同，YOLOv12 强调“以注意力为中心”的结构重构，其中最具代表性的模块是 Area Attention：其思想是将特征图划分为若干等分区域（默认 4 个区域），在保持较大有效感受野的同时降低全局自注意力的计算与访存开销。标准自注意力可表示为 $\mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V$ ，其中 $Q,K,V\in\mathbb{R}^{n\times d}$ 分别为查询、键、值， $n$ 为 token 数， $d$ 为通道维度；当 $n$ 较大时， $QK^\top$ 的二次复杂度会直接拖累推理延迟。YOLOv12 通过区域化计算与结构化重排，把“全局建模”转化为更高效的注意力计算，并进一步配合 FlashAttention 等实现降低内存访问瓶颈；同时在注意力结构上去除显式位置编码、下调 MLP 扩展比例，并引入用于隐式位置感知的卷积组件，使得注意力模块更贴近实时检测的算子与吞吐约束。对于裂缝检测，这类设计能把局部纹理证据与更长距离的结构连续性结合起来，有助于抑制阴影边界、车辙纹理等“伪裂缝”干扰，并在密集细碎裂纹场景中减少碎片化误检。 (Ultralytics Docs)

在特征聚合与优化稳定性方面，YOLOv12 引入 R-ELAN（Residual Efficient Layer Aggregation Networks）以缓解注意力堆叠带来的训练不稳定问题，其关键做法是在块级聚合结构中加入残差捷径并采用缩放系数（文档与解读中常给出默认 0.01 的层缩放思路）来稳定梯度传播，同时通过更“瓶颈化”的聚合方式减少冗余信息流。该模块与多尺度融合结构共同服务于裂缝的尺度变化：既要在高分辨率特征层保留细长裂纹的边缘与纹理线索，也要在更深层特征中利用上下文抑制背景相似结构，避免把接缝、补丁边界误判为裂缝。网络整体架构图如下图所示：

在这里插入图片描述

在损失函数与训练推理策略上，本文遵循 YOLO 框架的联合优化：边界框回归以 IoU 家族损失为核心， $\mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|}$ 衡量预测框 $B$ 与真值框 $B^{gt}$ 的重叠，进一步可引入中心距离与宽高比约束的 CIoU 等形式以提升收敛速度与定位稳定性；分类与目标置信度分支通常采用交叉熵类损失以应对正负样本不均衡，并在训练中配合 EMA、学习率预热与余弦退火等策略提升收敛稳定性。推理阶段的 NMS 及其阈值选择与裂缝“细长、易断裂、易被弱纹理淹没”的特性强相关：较高的置信度阈值可能导致裂缝片段漏检，较低阈值又会引入纹理误检，因此系统侧提供 Conf/IoU 的可视化调参，形成“模型输出—误检/漏检复核—阈值回调”的交互闭环，以在不同路况与光照条件下快速找到更合适的工作点。

5. 实验结果与分析

本章实验的目标是：在相同数据划分（训练 1934、验证 500、测试 500）与统一推理链路下，对 YOLOv5–YOLOv12 多代模型进行系统对比，给出“精度指标（Precision/Recall/F1、mAP@0.5、mAP@0.5:0.95）—复杂度（Params/FLOPs）—时延（预处理/推理/后处理）”的综合结论，并据此为桌面端的模型热切换与参数推荐提供依据。所有实验在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB 显存）上完成，推理时延分解为 PreTime、InfTime、PostTime，以便把瓶颈精确定位到数据搬运、模型前向或 NMS/统计等后处理阶段。

下表给出了 n 系列（更轻量）与 s 系列（更高精度取向）在同一评测集上的核心结果。总体上，n 系列的 mAP50 落在 0.62–0.68 区间，F1 落在 0.62–0.68 区间，说明在单类 crack 任务中，轻量模型已经能稳定达到“可用但仍有提升空间”的水平；其中 YOLOv11n 在 n 组中取得最优的综合精度（Precision=0.7096、Recall=0.6465、F1=0.6766、mAP50=0.6827、mAP50-95=0.3180），适合作为桌面端默认权重以保证效果上限。速度方面，**YOLOv8n（InfTime=6.83ms）与 YOLOv6n（6.78ms）**是 n 组中最“快”的两类方案，总时延分别约 10.17ms 与 10.34ms，更适合视频/摄像头实时预览；但它们的 mAP50 与 F1 略低于 YOLOv11n，体现了轻量实时与精度上限的自然权衡。值得注意的是 YOLOv9t 在 n 组中 Precision 最高（0.7563），但 Recall 较低（0.5965）且推理时延偏大（16.51ms），更像是“更保守的告警器”，适合误检成本较高的场景；而 YOLOv10n 的后处理时间最低（0.63ms），但综合精度（F1=0.6209、mAP50=0.6221）落后，后续可通过阈值与数据增强进一步挖潜。

模型	Params(M)	FLOPs(G)	Pre(ms)	Inf(ms)	Post(ms)	Total(ms)	Precision	Recall	F1	mAP50	mAP50-95
YOLOv5nu	2.6	7.7	1.90	7.73	1.31	10.94	0.7075	0.6284	0.6656	0.6640	0.3075
YOLOv6n	4.3	11.1	2.17	6.78	1.39	10.34	0.7050	0.6038	0.6505	0.6513	0.2812
YOLOv7-tiny	6.2	13.8	2.28	14.74	4.06	21.08	0.7049	0.6299	0.6653	0.6469	0.2719
YOLOv8n	3.2	8.7	1.95	6.83	1.39	10.17	0.6976	0.6268	0.6603	0.6776	0.3108
YOLOv9t	2.0	7.7	1.87	16.51	1.29	19.67	0.7563	0.5965	0.6670	0.6764	0.3111
YOLOv10n	2.3	6.7	2.08	11.24	0.63	13.95	0.6792	0.5718	0.6209	0.6221	0.2847
YOLOv11n	2.6	6.5	2.11	9.44	1.42	12.97	0.7096	0.6465	0.6766	0.6827	0.3180
YOLOv12n	2.6	6.5	1.91	12.47	1.37	15.75	0.7386	0.5932	0.6580	0.6593	0.3040
YOLOv5su	9.1	24.0	2.28	8.45	1.51	12.24	0.7004	0.6240	0.6600	0.6626	0.3119
YOLOv6s	17.2	44.2	2.22	8.59	1.45	12.26	0.7391	0.6346	0.6829	0.6875	0.2979
YOLOv7	36.9	104.7	2.44	23.62	3.46	29.52	0.7572	0.6808	0.7170	0.7164	0.3275
YOLOv8s	11.2	28.6	2.31	7.66	1.42	11.39	0.7344	0.6406	0.6843	0.7028	0.3260
YOLOv9s	7.2	26.7	2.12	18.66	1.39	22.17	0.7563	0.6275	0.6859	0.6983	0.3196
YOLOv10s	7.2	21.6	2.21	11.38	0.60	14.19	0.6832	0.6050	0.6417	0.6538	0.3051
YOLOv11s	9.4	21.5	2.37	9.74	1.36	13.47	0.7278	0.6240	0.6719	0.6829	0.3180
YOLOv12s	9.3	21.4	2.09	13.23	1.42	16.74	0.7331	0.6085	0.6651	0.6708	0.3066

为了更直观看到“同等量级下的精度差异”，图中给出了 n 型与 s 型的 F1 与 mAP50 双指标对比。可以观察到 n 组内 YOLOv11n 在两项指标上都接近峰值，而 YOLOv10n 明显偏低；s 组内 YOLOv7 拿到最高 F1 与 mAP50，但推理代价显著增加，若桌面端以实时预览为主，YOLOv8s/YOLOv6s 往往是更合理的折中点。
图5-1（n 型对比）
请添加图片描述

图5-2（s 型对比）
请添加图片描述

进一步结合 PR 曲线与 F1-Confidence 曲线，可以把“阈值如何影响误检/漏检”落到可操作层面：
请添加图片描述
PR 曲线给出的 mAP@0.5 约为 0.671，说明在较宽松的 IoU=0.5 条件下模型具备稳定的检出能力，但当 Recall 提升到 0.7 之后 Precision 会明显下降，体现出裂缝与背景纹理（接缝、补丁边缘、阴影边界、粗糙骨料纹理）之间的高相似性。
请添加图片描述
F1-Confidence 曲线显示在 confidence≈0.424 处达到 F1≈0.67 的峰值，这与桌面端“Conf 滑块”联动非常直接：若用户以减少误检为目标，可将阈值从默认值上调到 0.4 左右以接近 F1 最优点；若以尽量不漏检为目标（例如巡检初筛），则可下调阈值换取 Recall，但需要配合后续人工复核或更严格的二次筛选策略。
在这里插入图片描述

混淆矩阵（归一化）中 crack→background 仍占一定比例，意味着漏检主要来自弱纹理、阴影遮挡或断裂细缝等“低可见性目标”，这也是后续数据增强与标注一致性需要重点针对的误差来源。
请添加图片描述
从训练过程曲线来看，box/cls/dfl 损失随 epoch 持续下降，Precision、Recall 与 mAP 指标逐步上升并在后期趋于平稳，说明训练收敛过程整体健康；同时验证端损失没有出现持续反弹，过拟合迹象不强，这与数据集中场景多样性较高（桥面、城市道路、不同光照与材质）是相吻合的。另一方面，mAP50-95 普遍只有 0.27–0.33 左右，明显低于 mAP50，这在裂缝任务中较常见：裂缝细长且标注框边界难以严格一致，稍小的定位偏差就会在更严格的 IoU 阈值下被放大，因此提升 mAP50-95 往往需要更精细的标注规范、提高输入分辨率/采用切片推理，或直接引入旋转框与分割式建模来更贴合裂缝形态。

综合精度、速度与系统交互的可用性，本文在桌面端的默认推荐是：若以“效果优先+仍可实时预览”为目标，优先选择 YOLOv11n/YOLOv8s；若以“更低延迟+更轻量部署”为目标，优先选择 YOLOv8n/YOLOv6n；若以“误检成本很高”为目标，可尝试 YOLOv9t/YOLOv7 并配合更高的 Conf 阈值与更严格的复核流程。后续改进可以沿三条路线并行推进：数据侧通过补充夜间/雨天/强反光样本与困难负样本降低背景误检；训练侧通过更贴合裂缝的增强与更高输入分辨率提升小目标召回；系统侧通过阈值推荐（例如默认给出 0.42 附近的 F1 最优点）与目标高亮复核机制，把模型能力稳定转化为可复查、可追溯的工程结果。

6. 系统设计与实现

6.1 系统设计思路

本系统采用分层架构组织桌面端检测闭环：表现与交互层由 PySide6/Qt 客户端承担，面向用户提供输入源选择、Conf/IoU 阈值调节、检测画面显示、目标详情查看、记录与导出等交互能力；业务与会话管理层负责会话状态、数据源互斥、参数一致性与统计汇总，将“用户意图”转化为可调度的检测任务；推理与任务调度层以事件驱动的帧流为核心，完成媒体接入、预处理、YOLO 推理与后处理，并把结构化结果回传界面形成可解释闭环；数据持久化层则将账户、配置、检测记录与导出归档统一管理，保证可追溯与可复查。该分层方式的价值在于把 UI 变化与模型迭代解耦：界面侧只关心输入、阈值与展示，推理侧只关心模型与吞吐，数据层只关心一致落库与导出编排。

在跨层协同上，系统围绕“多源输入统一流水线”展开：图片输入以单次任务为主，视频与摄像头输入以连续帧任务为主，三者在调度层共享同一套预处理与推理接口，确保输出字段统一为 {class_name, bbox, score, class_id} 并能够被界面表格与导出模块直接消费。实时性与一致性主要通过事件驱动帧流与参数同步机制保障：当用户拖动 Conf/IoU 滑块或热切换权重时，业务层将最新参数广播到推理层，推理层在下一帧生效并把耗时与进度回写界面；同时采用“源互斥”策略避免视频与摄像头同时抢占资源，减少帧队列堆积造成的卡顿与统计漂移。为提升可解释性，界面层支持目标选择与高亮，并把高亮目标与表格记录双向联动，使误检与漏检能够在“画面定位—记录回溯—阈值回调”的闭环中快速完成。

在可扩展性方面，系统将权重管理、导出编排与主题配置本地化处理：权重选择以本地文件为入口，支持 .pt 热切换并同步刷新类别与配色映射；导出统一采用时间戳命名与归档策略，确保单帧 PNG、多帧 AVI 与 CSV 汇总之间可一键关联；异常恢复上，通过对媒体读取、推理失败与导出失败设置可控的回退路径，使得长视频任务在中断后仍可保持记录完整与统计一致。上述设计使系统能够在 YOLOv5 至 YOLOv12 的多模型评测与部署之间平滑切换，并把算法结果稳定落到桌面端的工程体验上。

在这里插入图片描述

图6-1 系统流程图
图注：系统自初始化开始，完成多源输入接入、640×640 预处理、YOLO 推理与 NMS 后处理，并在 Conf/IoU 滑块、目标高亮与记录导出控制下形成闭环，导出支持 CSV/PNG/AVI 且以时间戳命名便于追溯。

在这里插入图片描述

图6-2 系统设计框图
图注：图中给出 Qt 客户端、业务与会话、推理与调度、数据持久化四层边界及数据流向，强调源互斥调度、参数同步、导出归档与本地 SQLite 持久化对工程闭环的支撑。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图6-3 登录与账户管理流程图

登录与账户管理流程以“本地持久化与主流程无缝衔接”为目标：应用启动后进入登录界面，用户可选择已有账号直接登录，或先注册再登录，注册信息写入本地数据库以形成稳定的个性化空间；登录阶段完成口令校验并建立会话，随后载入主题、默认模型与最近检测记录，使得用户进入主界面后能够在多源检测、阈值调参与导出复核之间保持一致体验。账户体系的工程价值并不在于复杂权限设计，而在于把“设置与结果”从一次性操作变为可持续积累的工作流资产，并通过注销与切换账号实现不同使用者之间的隔离与可追溯管理。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

功能效果展示视频：热门实战｜《基于深度学习的路面裂缝检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 Nafaa S, Essam H, Ashour K, et al. Automated Pavement Cracks Detection and Classification Using Deep Learning[EB/OL]. arXiv:2406.07674, 2024-06-11.
2 Arya D, Maeda H, Ghosh S, et al. RDD2022: A multi-national image dataset for automatic road damage detection[EB/OL]. arXiv:2209.08538, 2022.
3 Benazza-Benyahia A, Eltahir A, Kausar M, et al. Deep Learning-Based Crack Detection: A Survey[J]. SN Computer Science, 2022.
4 Shi Y, Cui L, Qi Z, et al. Automatic Road Crack Detection Using Random Structured Forests[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(12): 3434-3445.
[5] Li S, Zhao X, Zhou G. Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces Using Deep Learning[J]. Computer-Aided Civil and Infrastructure Engineering, 2017.
[6] Li S, Zhao X, Zhou G. CrackNet II: An Enhanced Pixel-Based Deep Learning Model for Automated Crack Detection[J]. Journal of Computing in Civil Engineering, 2018.
[7] Jia X, Xie N, Yuan Y, et al. Topology-informed deep learning for pavement crack detection and segmentation[J]. Automation in Construction, 2025, 106120.
[8] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. arXiv:1506.01497, 2015.
[9] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[EB/OL]. arXiv:1708.02002v2, 2018.
[10] Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019.
[11] Zhou X, Wang D, Krähenbühl P. Objects as Points[EB/OL]. arXiv:1904.07850, 2019.
[12] Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. arXiv:1911.09070, 2020.
[13] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[EB/OL]. arXiv:2005.12872, 2020.
[14] Zhao Q, Li J, Li Y, et al. RT-DETR: Real-Time Detection Transformer[EB/OL]. arXiv:2304.08069, 2023.
[15] Ultralytics. ultralytics/yolov5: YOLOv5 in PyTorch[EB/OL]. GitHub.
[16] Li C, Li L, Jiang H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. arXiv:2209.02976, 2022.
[17] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[C]//CVPR. 2023.
[18] Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024.
[19] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024.
[20] Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025.
[21] Ultralytics. Explore Ultralytics YOLOv8[EB/OL].
[22] Ultralytics. Ultralytics YOLO11（中文文档）[EB/OL].
[23] 光电工程. 改进YOLOv8的路基边坡裂缝检测算法[J/OL]. 2024.
[24] Ultralytics. Model Benchmarking with Ultralytics YOLO[EB/OL].
[25] Ultralytics. ultralytics/ultralytics: Ultralytics YOLO[EB/OL]. GitHub.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个入口搞定 Claude/Grok，技术难题全拿捏

AtomGit开源社区

通义千问核心能力与实战表现深度评测

在实际开发和技术选型的过程中，我们常常面临这样一个困境：面对市面上层出不穷的大语言模型，究竟哪一款才能真正融入我们的日常工作流？很多时候，宣传参数是一回事，实际落地又是另一回事。有的模型在简单问答上表现惊艳，一旦进入多轮对话就“失忆”；有的在代码生成上看似流畅，却埋下了难以察觉的逻辑隐患；还有的在处理长文档时，关键信息提取总是差强人意。对于依赖 AI 辅助编程、文档分析或创意构思的开发者而言，盲目