基于深度学习的遥感目标检测系统（YOLOv12完整代码+论文示例+多算法对比）

矩阵因果科技

454人浏览 · 2026-05-21 18:52:43

矩阵因果科技 · 2026-05-21 18:52:43 发布

摘要：本文面向遥感影像（卫星/无人机）小目标密集、尺度跨度大与背景复杂等特点，构建一套可落地的桌面端目标检测系统，覆盖训练、评测与部署全链路。系统提供数据与代码可下载，前端采用 PySide6/Qt 实现“左侧数据源与阈值控制—中央结果显示—右侧目标详情—底部记录与进度条”的交互闭环，支持图片/视频/本地摄像头多源输入与实时推理，含处理用时与处理进度条显示。结果侧支持一键CSV 导出与记录回溯，并可将带框可视化结果一键导出为单帧 PNG / 多帧 AVI；检测记录与账户信息落地到SQLite 本地入库，提供登录/注册（可跳过）以满足本地化使用与数据安全需求。模型侧支持模型选择/权重加载（.pt 热切换），可在不重启的情况下切换 YOLO 系列权重并同步刷新类别与配色；算法对比覆盖 YOLOv5–YOLOv12（共 8 种），统一在同一数据集与推理配置下比较 mAP、F1、PR 以及训练曲线等指标，为不同部署约束下的模型选型提供依据。文末提供完整工程与数据集下载链接。

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册：系统在启动页提供登录、注册与跳过入口，登录态在本次会话内生效并用于加载个人偏好与历史记录。进入主界面后，用户按“概览—图片检测—模型选择—结果导出”的动线完成常用任务，并可在记录区快速定位最近一次检测与对应的 CSV 高亮行。账户与记录信息采用本地 SQLite 统一管理，口令校验与一次性跳过机制兼顾易用性与基础安全。
在这里插入图片描述

（2）功能概况：桌面端采用“左侧数据源与阈值控制—中央图像显示—右侧目标详情—底部记录与进度”的布局，核心操作均可在单窗口内闭环完成。系统支持遥感影像的快速导入、结果可视化叠加、统计信息联动与处理进度展示，减少在多页面间切换的成本。底部记录区沉淀检测明细，便于跨页面回看、复查与二次导出。
在这里插入图片描述

（3）选择模型：用户可在界面中直接选择本地权重文件切换当前模型，实现 .pt 级别的热切换而无需重启。切换后系统同步刷新类别名称、配色与右侧详情展示，保证不同模型输出的一致可读性。常用配置与主题样式可本地持久化保存，便于在多次实验对比中保持统一的显示与导出规范。
在这里插入图片描述

（4）图片检测：图片导入后可即时完成推理，主显示区叠加目标框并标注类别与置信度，支持缩放与拖拽以适配大幅面遥感影像的细节查看。用户可通过 Conf/IoU 参数调节控制误检与漏检的平衡，并在目标列表中选择单个目标高亮查看位置与属性。检测结果可同步写入记录区并支持 CSV 导出，便于后续统计分析与外部复核。
在这里插入图片描述

（5）文件保存：系统将导出结果按时间戳统一命名并归档，便于溯源、批量管理与跨批次对比。支持带框结果的一键保存，包括单帧可视化图像与明细表格等常用产物，并保持与记录区条目一致的索引关系。关键结果可同时写入本地 SQLite 形成可检索的历史库，支持按文件名或时间快速定位并复查。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

高分辨率对地观测影像在城市治理、灾害应急、海事监管与国土调查等场景中持续增长，使得“从海量影像中快速定位目标”成为遥感智能解译的关键环节。1 (rsta.ac.cn)
目标检测能够同时给出目标类别与空间位置，是连接“影像理解”和“业务决策”的核心技术之一，其在工程落地中通常还需要兼顾实时性、可追溯性与可视化解释。1 (rsta.ac.cn)
以 DOTA 等航拍数据集为代表的大规模公开基准推动了旋转目标检测、多尺度检测与密集场景检测的研究与评测体系完善，为工程系统的客观对比提供了基础。2 (arXiv)
因此，构建一个面向遥感目标检测的端到端系统，不仅要提升模型在复杂成像条件下的精度与稳定性，还应把推理、交互、记录与导出纳入统一闭环，以支撑真实业务的在线分析与复核流程。1 (rsta.ac.cn)

2.2 国内外研究现状

遥感影像目标检测面临视角俯视、尺度跨度极大、目标任意方向、密集遮挡与复杂背景等共性难点，且在不同分辨率与不同传感器条件下还会出现显著域偏移与长尾分布问题。1 (rsta.ac.cn)
围绕数据与评测，DOTA 提供了面向航拍场景的旋转框标注与多类别评测，强调密集小目标与任意朝向带来的定位难度。2 (arXiv)
在更贴近光学遥感应用的基准构建方面，DIOR 以 23463 张影像、20 类目标与 192472 个实例扩展了场景多样性，并突出类间相似与尺度变化对检测泛化的挑战。4 (arXiv)
此外，面向光学遥感目标检测数据集的系统性综述工作也梳理了数据来源、标注形式与分辨率差异，为“选数、训模、部署”的工程路径提供了参考框架。3 (ygxb.ac.cn)

针对任意方向与密集目标的定位问题，研究者提出了将水平 RoI 显式变换为旋转 RoI 的 RoI Transformer，并在 DOTA 上给出 69.56 mAP 量级与可量化的推理开销，验证了“几何对齐”对检测质量的促进作用。5 (CVF Open Access)
面向小目标、噪声干扰与角度边界不连续等问题，SCRDet 在 DOTA 的 OBB 任务中报告了 72.61 mAP，并通过特征融合与角度相关损失改进提升了密集小目标的鲁棒性。7 (ar5iv)
从等变性角度出发，ReDet 利用旋转等变网络设计来缓解方向变化带来的特征不一致，并在 DOTA 等数据上以更少参数获得可观精度增益，体现了结构先验对遥感旋转目标的适配价值。8 (GitHub)
同时，Oriented R-CNN 通过更直接的旋转检测框架设计在 DOTA-v1.0 上报告了 79.5 mAP，为高精度旋转检测提供了有代表性的两阶段范式实现路径。6 (arXiv)

从通用检测范式看，两阶段检测器以 Faster R-CNN 为代表，通过 RPN 与分类回归头的分工获得较强的定位与分类能力，并在早期就强调了共享特征带来的效率收益。9 (arXiv)
单阶段检测器以 SSD 为代表，通过多尺度特征图的默认框预测实现端到端推理，并在 VOC2007 上给出 72.1% mAP 与 58 FPS 的速度指标，奠定了轻量快速检测的工程基础。10 (arXiv)
在效率与精度的进一步权衡中，EfficientDet 通过 BiFPN 与复合缩放提出可扩展的检测家族，并以 EfficientDet-D7 在 COCO test-dev 上报告 55.1 AP 与 77M 参数，体现了结构与规模协同设计的价值。11 (arXiv)
在减少锚框超参方面，FCOS 以像素级预测实现 anchor-free 检测，并在 COCO 单模型单尺度设置下报告 44.7% AP，说明“去锚化”可显著简化训练与部署流程。12 (arXiv)
与此相近，CenterNet 将目标建模为中心点关键点并回归尺寸等属性，在 COCO 上给出 28.1% AP@142 FPS 与 37.4% AP@52 FPS 等速度精度组合，为实时系统提供了另一条 anchor-free 的可实现路线。13 (arXiv)

方法名称	范式/家族	代表数据集	关键改进技术	优势与局限性	关键指标（示例）	适用场景/对应难点	引用
Faster R-CNN	Two-stage / Anchor-based	VOC/COCO	RPN 与检测共享特征	精度强但流程相对重	VGG-16 下约 5 FPS（含全流程）	中大目标、对精度优先	9
SSD	One-stage / Anchor-based	VOC/COCO	多尺度特征图默认框	速度快但小目标较难	72.1% mAP@VOC2007，58 FPS	多尺度目标、实时性需求	10
EfficientDet	One-stage / Anchor-based	COCO	BiFPN + 复合缩放	资源可伸缩但训练配置复杂	55.1 AP@COCO，77M 参数	端侧/云侧分档部署	11
FCOS	One-stage / Anchor-free	COCO	像素级预测去锚框	超参更少但后处理仍需 NMS	44.7% AP@COCO（单模单尺度）	快速迭代、部署友好	12
CenterNet	One-stage / Anchor-free	COCO	关键点中心点检测	极快但多尺度测试很慢	28.1% AP@142 FPS；37.4% AP@52 FPS	强实时、轻量系统	13
RoI Transformer	Two-stage / Rotated	DOTA/HRSC2016	HRoI→RRoI 几何对齐	旋转定位强但框架较重	DOTA mAP≈69.56；测试约 0.17s/图	任意朝向、密集目标	5
SCRDet	Two-stage / Rotated	DOTA	小目标鲁棒与角度相关改进	训练更复杂但旋转精度高	DOTA OBB mAP=72.61	小目标、密集遮挡、角度边界	7
Oriented R-CNN	Two-stage / Rotated	DOTA-v1.0	统一旋转检测框架	精度高但计算开销较大	DOTA-v1.0 mAP=79.5	高精度旋转框任务	6

（表中指标与描述均来自对应论文或官方摘要信息。）(arXiv)

在 Transformer 检测器方向，DETR 以集合预测与二分图匹配为核心，提供了去手工后处理依赖的端到端范式，并推动“无锚、无 NMS”的研究主线逐步清晰。14 (arXiv)
面向实时场景，RT-DETR 通过高效混合编码器与查询选择策略实现速度与精度折中，并在 COCO 上报告 RT-DETR-R50 达到 53.1% AP 与 108 FPS（T4）。15 (arXiv)
在 YOLO 系列内部，YOLOv10 从 NMS-free 训练与结构效率两侧推进端到端部署的可行性，强调减少后处理与冗余计算对延迟的影响。16 (arXiv)
更近期的 YOLOv12 则尝试以注意力机制为中心重构实时检测框架，并给出 YOLOv12-N 达到 40.6% mAP 且在 T4 上 1.64 ms 延迟的示例结果，体现“注意力建模能力与实时性”融合的趋势。17 (arXiv)

从工程部署与系统层面看，研究与产业更强调可导出、可加速与可复核的闭环能力，例如 PP-YOLOE 在摘要中同时给出 51.4 mAP、78.1 FPS（V100）与 TensorRT FP16 可达 149.2 FPS 的部署友好指标，反映了工业界对推理链路与工具链兼容性的重视。18 (arXiv)
在遥感在线检测系统中，这种趋势通常表现为：模型侧追求更稳定的速度精度边界，数据侧追求跨区域跨季节泛化，系统侧则强调交互可视化、结果可追溯与批量导出等“可用性指标”与算法指标并重。1 (rsta.ac.cn)
因此，本文在综述算法演进的同时，将系统设计视为算法落地的必要组成部分，把多源输入、阈值调参、记录管理与导出归档纳入统一流程，以支撑遥感业务的检索、比对与复核链路。3 (ygxb.ac.cn)

2.3 要解决的问题及其方案

围绕遥感目标检测“高精度、强泛化、可交互、可追溯”的工程目标，本文系统需要重点解决以下问题：（1）复杂背景与密集小目标条件下的检测准确性与实时性难以兼顾；（2）跨区域、跨季节与不同分辨率影像带来的域偏移使模型泛化不稳定；（3）桌面端交互中需要把阈值调参、目标高亮、记录检索与可视化复核整合为一致流程；（4）大批量推理结果的结构化存储、导出归档与权限安全需要统一设计。
针对上述问题，本文给出相应方案：（1）以 YOLO 系列实时检测框架为主线开展多版本模型训练与推理对比，结合多尺度增强与迁移学习提升小目标与复杂场景的稳健性；（2）通过面向遥感场景的数据清洗与增强策略，配合一致的输入预处理与评测协议降低域差异影响；（3）以 Qt 桌面端为载体构建“输入—推理—可视化—记录—导出”的闭环交互，支持阈值实时调参、目标选择高亮与跨页共享记录；（4）采用本地数据库与统一时间戳归档策略管理账户与检测结果，并提供 CSV/图像/视频等多形态导出以提升复核效率与可追溯性。

2.4 博文贡献与组织结构

本文的主要贡献可概括为：（1）围绕遥感目标检测的关键难点，结合公开基准与代表性方法对国内外研究进展进行体系化梳理；（2）以 YOLO 系列为核心完成多模型训练、推理与指标对比，形成面向工程部署的模型选择依据；（3）构建桌面端遥感目标检测系统，将多源输入、阈值调参、可视化复核、记录检索与一键导出整合为可用的交互闭环；（4）提供面向工程复现的实验流程、评测口径与结果管理机制，强化批量处理与可追溯性。
全文组织结构如下：第 3 章介绍数据集处理与标注规范；第 4 章给出检测模型原理与关键设计；第 5 章汇报多模型对比实验并分析误检漏检成因；第 6 章从分层架构视角阐述系统设计与实现细节并给出流程图与框图；第 7 章总结全文并展望模型、系统与数据闭环的后续工作方向。

3. 数据集处理

本研究使用的遥感目标检测数据集共包含 9033 张高分辨率图像，按训练集 8292 张、验证集 609 张、测试集 132 张进行划分，用于分别承担模型学习、超参数调优与最终性能评估；从你提供的训练批次可视化样例可以看到，图像多为机场及其周边区域，背景纹理规则且边缘结构显著，目标往往以小尺度、密集或半遮挡形态出现，容易与跑道标线、停机位边界及建筑阴影产生混淆。标注格式采用以中心点与宽高表征的边界框参数化形式，记为 $(x, y, w, h)$ ，其中坐标与尺寸通常归一化到 $[0, 1]$ 以适配多尺度训练与统一输入分辨率的推理流程，这也与标签相关性图中 $x / y / w i d t h / h e i g h t$ 的统计分布形态相吻合。标签及其对应中文名如下：

Chinese_name = {'plane': "飞机"}

在这里插入图片描述

结合标签相关性图可见，目标中心点在画面中部更为集中，符合机场场景下目标围绕跑道与停机坪聚集的空间先验；同时宽高分布呈明显长尾，小目标占比高，且在密集区域容易出现相邻目标间距小、局部重叠与遮挡的情况，这对检测器的特征分辨率与正负样本分配提出更高要求。数据划分上，本文采用训练/验证/测试三部分固定拆分，并在划分过程中固定随机种子以保证复现实验；针对遥感任务的空间相关性，实际工程中更建议以“区域或场景”维度控制划分，尽量减少同一地理位置的相邻切片同时出现在训练与测试中，从而避免空间泄漏带来的评估偏乐观问题。为匹配小目标、光照变化与云雾遮挡等难点，数据预处理通常包含统一输入尺度、必要的切片与边界框合法性校验（越界裁剪、异常框剔除、重复标注合并等），并配合适度的数据增强（例如随机缩放裁剪与多图拼接以提升小目标出现频率，亮度/对比度与色彩扰动以模拟成像差异，轻度模糊与噪声扰动以增强抗云雾与压缩伪影能力），从而在不破坏几何一致性的前提下提升模型对尺度变化、遮挡与复杂背景的鲁棒性，为后续 YOLOv5–YOLOv12 的公平对比训练提供稳定且一致的数据基础。
在这里插入图片描述

4. 模型原理与设计

本文检测算法以 YOLOv12 为主线进行设计与实现，其基本范式仍遵循单阶段密集预测思路：将输入遥感影像统一缩放到固定分辨率后，通过“骨干网络—特征融合—检测头”一体化前向传播，直接在多尺度特征图上回归边界框并预测类别概率，从而在保证端到端速度的同时覆盖小目标与尺度变化显著的场景需求。相较于自然图像，遥感目标（如机场场景中的飞机）往往具备目标小、背景纹理强、姿态与光照变化大、密集遮挡等特点，因此模型侧既需要足够大的有效感受野来利用上下文，又要在推理侧保持低延迟，才能适配桌面端的交互式阈值调参与批量处理。

在结构层面，YOLOv12的关键变化是将注意力机制“工程化”为可实时部署的主干组件，并用更稳定的聚合模块承载深层网络的优化。其核心注意力可用标准自注意力形式概括为
$\mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V,$
其中 ( $Q, K, V$ ) 分别为查询、键和值，(d) 为单头维度；但标准注意力通常具有近似 ( $O(n^2hd)$ ) 的计算与访存压力（(n) 为 token 数，(h) 为头数）。YOLOv12提出的 Area Attention（A2）通过将特征图沿水平或垂直方向划分为 (l) 个等分区域，仅以 reshape/拼接形式在区域内计算注意力，在默认 (l=4) 时可将注意力计算量从 ( $2n^2hd) 降至 (\frac{2}{l}n^2hd$ )（即约 ( $\tfrac{1}{2}n^2hd)$ ），在保持较大有效感受野的同时显著降低开销；同时配合 FlashAttention 降低显存访问成本，并通过“去显式位置编码 + 7×7 可分离卷积位置感知器 + 调整 MLP ratio”等策略提升速度与稳定性。为缓解注意力主干在大尺度模型上的收敛问题，YOLOv12进一步引入 R-ELAN，在块级残差旁路中加入缩放因子（如 0.01）并重构特征聚合路径，以减少梯度阻塞并增强特征复用。

在损失函数与任务建模方面，本文保持 YOLO 系列在检测任务上的主流组合：分类分支以二元交叉熵为基础，针对遥感中“易混背景导致的伪阳性”可通过阈值与样本权重策略抑制低质量预测；回归分支以 IoU 家族损失刻画重叠程度，并引入中心距离与长宽比一致性约束以提升定位质量，典型形式如
$L_{\mathrm{CIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^*)}{c^2} + \alpha v,$
其中 ( $\mathbf{b},\mathbf{b}^*$ ) 分别为预测框与真值框中心，( $\rho(\cdot)$ ) 为欧氏距离，( $c$ ) 为最小外接框对角线长度，( $v$ ) 刻画宽高比差异，( $\alpha$ ) 为权重系数；当场景中存在大量细长目标或密集停机位遮挡时，该类约束对降低“框漂移”与“贴边误检”较有帮助。推理端采用置信度阈值与 NMS 的组合完成后处理，因桌面系统提供 Conf/IoU 实时滑块，本文也将阈值视为与场景动态绑定的超参数：偏保守的 Conf 可减少复杂地物背景的误报，而适当提高 IoU-NMS 阈值可缓解密集目标相互抑制导致的漏检。

训练与正则化策略上，本文以固定输入尺度与多尺度增强的折中方案为主，兼顾遥感影像中目标极小、局部纹理强与跨域成像差异明显等问题；在优化层面使用常见的学习率退火与权重衰减，配合 BatchNorm 等稳定化组件提升收敛一致性，并通过合理的数据增强（如随机尺度、色彩扰动与拼接类增强）增强对光照变化、薄云雾与成像噪声的鲁棒性。需要强调的是，这些训练侧策略最终要服务于系统侧“可交互、可追溯”的落地：一方面保持多尺度输出对小目标友好，另一方面确保阈值变化带来的结果差异可以在导出与记录中被复查。网络整体架构图如下图所示
在这里插入图片描述

5. 实验结果与分析

本章实验目标是在同一遥感飞机数据集（9033 张，训练/验证/测试=8292/609/132）与统一推理配置下，对 YOLOv5–YOLOv12 的多种规模模型进行精度与效率对比，评估指标包括 Precision、Recall、F1、mAP@0.5（mAP50）、mAP@0.5:0.95（mAP50-95）以及端到端耗时（Pre/Inf/Post）；所有测速均在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB）上统计。整体来看，该任务为单类检测且场景相对集中，绝大多数模型在 mAP50 上能够快速逼近饱和，但在“更严格的 mAP50-95”与“推理延迟”维度仍存在显著差异，这决定了桌面端在线检测时的模型选型应优先考虑“定位质量与实时性”的平衡，而不仅是 mAP50 的高低。

下表汇总了 n/s 两组模型的结构规模、端到端时延与核心精度指标，可以看到 n 组中 YOLOv5nu 主要短板在召回（0.875）与 mAP50（0.908），更像是容量不足导致的漏检累积；YOLOv6n、YOLOv8n 以约 10 ms 量级端到端耗时取得接近 0.807 的 mAP50-95，属于“桌面端实时交互”更稳妥的默认选择；若更强调定位精度，YOLOv10n 在 n 组里取得最高的 mAP50-95（0.814），但推理耗时上升到约 14 ms，适合批处理或对延迟不敏感的场景。s 组中 YOLOv8s、YOLOv10s、YOLOv11s 在 mAP50-95 上集中在 0.840 左右，其中 YOLOv10s 给出最高的 mAP50-95（0.842）且后处理时间最低（0.6 ms），体现出较好的“精度-链路开销”综合表现；YOLOv7 虽然 mAP50 最高（0.994），但参数量与 FLOPs 显著增大并带来约 29.5 ms 的端到端时延，更适合作为离线高精度参照而非交互式部署模型。值得注意的是，YOLOv12s 在该任务上出现明显掉点（mAP50=0.955，Recall=0.917），说明在相同训练超参下其收敛与泛化并未充分释放，后续需要针对注意力主干的优化策略（学习率、正则与数据增强强度）做专门调参，而不宜直接沿用其他版本的“通用配置”。

Type	Model	Params(M)	FLOPs(G)	Pre(ms)	Inf(ms)	Post(ms)	Total(ms)	Precision	Recall	F1	mAP50	mAP50-95
n	YOLOv5nu	2.6	7.7	1.90	7.73	1.31	10.94	0.984	0.875	0.926	0.908	0.762
n	YOLOv6n	4.3	11.1	2.17	6.78	1.39	10.34	0.982	0.960	0.971	0.986	0.808
n	YOLOv7-tiny	6.2	13.8	2.28	14.74	4.06	21.08	0.978	0.976	0.977	0.989	0.784
n	YOLOv8n	3.2	8.7	1.95	6.83	1.39	10.17	0.982	0.959	0.971	0.987	0.807
n	YOLOv9t	2.0	7.7	1.87	16.51	1.29	19.67	0.983	0.967	0.975	0.987	0.811
n	YOLOv10n	2.3	6.7	2.08	11.24	0.63	13.95	0.976	0.960	0.968	0.986	0.814
n	YOLOv11n	2.6	6.5	2.11	9.44	1.42	12.97	0.980	0.963	0.972	0.986	0.807
n	YOLOv12n	2.6	6.5	1.91	12.47	1.37	15.75	0.976	0.967	0.971	0.986	0.810
s	YOLOv5su	9.1	24.0	2.28	8.45	1.51	12.24	0.981	0.963	0.972	0.988	0.836
s	YOLOv6s	17.2	44.2	2.22	8.59	1.45	12.26	0.986	0.963	0.975	0.989	0.833
s	YOLOv7	36.9	104.7	2.44	23.62	3.46	29.52	0.983	0.976	0.980	0.994	0.807
s	YOLOv8s	11.2	28.6	2.31	7.66	1.42	11.39	0.981	0.971	0.976	0.989	0.840
s	YOLOv9s	7.2	26.7	2.12	18.66	1.39	22.17	0.983	0.968	0.976	0.989	0.833
s	YOLOv10s	7.2	21.6	2.21	11.38	0.60	14.19	0.980	0.968	0.974	0.988	0.842
s	YOLOv11s	9.4	21.5	2.37	9.74	1.36	13.47	0.987	0.970	0.978	0.989	0.840
s	YOLOv12s	9.3	21.4	2.09	13.23	1.42	16.74	0.984	0.917	0.949	0.955	0.811

在这里插入图片描述

从曲线层面看，n/s 两组的 PR 曲线整体呈现“高精度区间很长、在接近满召回时陡降”的典型形态，说明该数据集的大部分目标在常规阈值下较易被分离，主要难点集中在极高召回要求下的密集遮挡与小目标漏检；在 s 组平均 PR 曲线中，YOLOv12s 的曲线在高召回区域提前下坠，与其 mAP50 明显偏低一致，侧面印证了其假阳性/漏检在阈值扫掠过程中更快累积。
在这里插入图片描述

结合混淆矩阵可观察到真实 plane 中约 0.92 被正确识别、约 0.08 被归入背景，这类漏检往往出现在尺度极小、与停机位线条/阴影纹理高度混叠或被局部遮挡的实例；
在这里插入图片描述

与此同时，F1-Confidence 曲线给出了更贴近部署的阈值建议：当置信度阈值约为 0.573 时整体 F1 可达到约 0.95，适合作为桌面端默认 Conf 的经验值，而在需要更高召回的批量筛查任务中可适当下调 Conf 并配合更温和的 NMS IoU，避免密集飞机相互抑制导致的漏检。

6. 系统设计与实现

6.1 系统设计思路

本系统采用分层架构组织遥感目标检测的“数据接入—推理—交互—存储”链路：表现与交互层以 PySide6/Qt 桌面客户端承载操作入口与结果呈现，业务与会话管理层负责多源输入互斥、阈值参数一致性与记录编排，推理与任务调度层以事件驱动的帧流为基本单位完成预处理、YOLO 推理与后处理，数据持久化层则将账户、配置、模型信息与检测记录统一落入本地 SQLite，并将可视化结果与结构化报表以统一规则归档。该分层使得算法更新与界面演进相互解耦：模型权重可热切换，界面侧仍保持一致的显示、筛选与导出体验，而数据侧以统一字段与时间戳命名保证可追溯与可复核。

跨层协同的核心在于把“多源输入”抽象为同构的帧序列任务，并在业务层维持源互斥与状态一致：当用户选择图片、视频或摄像头时，媒体接入模块以统一接口生成帧数据并驱动异步任务队列；推理层对每帧执行固定尺度预处理（如 640×640 的缩放、归一化与张量转换），再调用 YOLOv5–YOLOv12 推理引擎输出候选框集合，随后通过 Conf/IoU 过滤与 NMS 完成后处理并进行坐标还原。界面侧将检测框（类别、置信度）叠加在主显示区，并将目标明细、用时与进度条同步到右侧详情与底部记录区，形成“推理结果—可视化—交互调参—结果回写”的闭环，从而支撑在线复核与快速迭代的使用方式。

为保障实时性与一致性，系统以事件驱动的帧流调度为基础：视频/摄像头场景下每帧处理完成后才进入下一帧获取，避免推理阻塞导致的界面卡顿与资源争用；Conf/IoU 等阈值参数由业务层统一管理并广播到推理层与展示层，确保“同一帧的显示、统计与导出”使用同一口径。可扩展性主要体现在三点：其一是权重热切换与类别信息同步刷新，便于在同一界面内做模型对比；其二是统计、CSV/PNG/AVI 导出与时间戳归档由业务层编排，便于批量管理与异常恢复；其三是主题与配置本地化保存，使不同用户/不同实验的界面体验可稳定复现。

在这里插入图片描述

图6-1 系统流程图
图注：系统从初始化加载配置开始，完成多源输入接入、预处理、YOLO 推理与后处理，并在 Qt 界面中形成可调参的交互闭环，最后将结果以 CSV/PNG/AVI 与时间戳命名方式归档。

在这里插入图片描述

图6-2 系统设计框图
图注：框图体现 Qt 客户端、业务会话管理、推理与任务调度、数据持久化四层边界，并标明阈值同步、检测结果回传与导出归档的数据流向。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

打开应用后系统首先呈现登录界面，用户可选择已有账号直接登录，或进入注册流程填写必要信息并将账户记录写入本地数据库；登录阶段通过口令校验建立会话状态，校验失败则回到输入界面以避免错误状态扩散，校验成功后自动加载与该用户绑定的个性化配置（如主题风格、默认模型与最近检测记录），并将其与主检测流程的阈值控制、记录检索与导出编排保持一致。进入主界面后，用户可在不破坏会话一致性的前提下进行资料修改（口令、语言、主题等）或执行注销/切换账号操作，使“账户空间—检测记录—导出归档”形成稳定闭环，从而提升多次实验对比与长期使用时的可追溯性与管理效率。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

功能效果展示视频：热门实战｜《基于深度学习的遥感目标检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 付涵, 范湘涛, 严珍珍, 等. 基于深度学习的遥感图像目标检测技术研究进展[J]. 光学精密工程, 2022(2). DOI:10.11873/j.issn.1004-0323.2022.2.0290. (rsta.ac.cn)
2 Xia G S, Bai X, Ding J, et al. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images[C/OL]. 2018. arXiv:1711.10398. (arXiv)
3 周培诚, 等. 光学遥感图像目标检测数据集综述[J]. 遥感学报, 2023. DOI:10.11834/jrs.20233457. (ygxb.ac.cn)
4 Li K, Wan G, Cheng G, et al. Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark[EB/OL]. arXiv:1909.00133, 2019. (arXiv)
5 Ding J, Xue N, Long Y, et al. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C/OL]. CVPR, 2019. (CVF Open Access)
6 Xie X, Cheng G, Wang J, et al. Oriented R-CNN for Object Detection[EB/OL]. 2021. (DOTA-v1.0 mAP=79.5). (arXiv)
7 Yang X, Yang J, Yan J, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[EB/OL]. arXiv:1811.07126, 2019. (ar5iv)
8 Han J, Ding J, Xue N, et al. ReDet: A Rotation-Equivariant Detector for Aerial Object Detection[C/OL]. CVPR, 2021. (GitHub)
9 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. arXiv:1506.01497, 2016. (arXiv)
10 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[EB/OL]. arXiv:1512.02325, 2016. (arXiv)
11 Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. arXiv:1911.09070, 2020. (arXiv)
12 Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019. (arXiv)
13 Zhou X, Wang D, Krähenbühl P. Objects as Points[EB/OL]. arXiv:1904.07850, 2019. (arXiv)
14 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[EB/OL]. arXiv:2005.12872, 2020. (arXiv)
15 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2024. (arXiv)
16 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
17 Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025. (arXiv)
18 Xu S, Wang X, Lv W, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. arXiv:2203.16250, 2022. (arXiv)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年Gemini 3.1论文写作全流程教程：从选题到定稿的完整指南

摘要：Gemini3.1作为学术辅助工具，在论文写作各环节展现优势。其100万token上下文窗口和多模态能力，可高效完成选题推荐、文献综述、方法论设计等任务。在选题阶段，它能基于研究方向生成候选选题并评估难度；文献综述时可批量处理数十篇论文，提取关键信息并生成初稿框架；还能辅助实验设计、代码生成和结果解读。使用时需注意：核心观点须研究者原创，AI仅作辅助；建议通过聚合平台对比不同模型效果；所有A

AtomGit开源社区

RoPE超长序列崩溃：时钟类比+数值解析

RoPE超长序列问题本质是三角函数周期性导致的注意力混淆。当输入长度超出训练范围（如4k→32k），高维子空间的角度会超出模型见过的范围，但由于三角函数周期性，这些大角度会"绕回"到训练时见过的小角度值。例如，模型会把相距32768的位置误判为2500位置，导致注意力权重完全错误。这种现象在高维子空间尤为严重，因为它们的周期远超训练长度（如i=63的周期54410，训练时只走了1/13圈）。解决方

AtomGit开源社区

GPU并行计算（CUDA） -- Softmax算子逐步优化：从基础实现到online softmax

本文从 naive softmax 出发，首先分析了直接计算指数可能带来的数值溢出问题，并引入 safe softmax 通过减去最大值提升数值稳定性。随后，本文将 softmax 的最大值计算和指数和计算映射到 GPU Reduce 操作中，提高了行内并行度。进一步地，本文介绍了 online softmax 的思想，将最大值更新与分母累加融合到一次遍历中，从而减少对输入数据的全局内存读取次数。