基于深度学习的机场航拍小目标检测系统（YOLOv12完整代码+论文示例+多算法对比）

矩阵因果科技

127人浏览 · 2026-05-22 00:40:39

矩阵因果科技 · 2026-05-22 00:40:39 发布

摘要：本文面向机场巡检与安防场景中的航拍小目标（如人员、车辆、设施部件等）检测需求，构建一套端到端的深度学习桌面系统，实现从多源媒体接入到结果归档的闭环工作流：提供数据与代码可下载，前端采用 PySide6/Qt 交互界面，支持图片/视频/本地摄像头输入与可视化叠框展示，并通过处理进度条反馈批量/视频推理进度。系统支持阈值调参、检测记录管理与CSV 导出，并提供带框结果一键导出能力（单帧 PNG / 多帧 AVI），同时将账户与关键记录写入本地 SQLite，配套登录/注册（可跳过）以平衡易用性与安全性。算法侧覆盖 YOLOv5–YOLOv12（共 8 种），支持在界面内完成模型选择/权重加载（.pt 热切换），并对不同模型进行统一评测与对比，输出 mAP、F1、PR 及训练曲线等可复现实验结果，为机场航拍小目标的精度与实时性权衡提供工程化参考。文末提供完整工程与数据集下载链接。

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册：系统提供登录、注册与跳过三种入口，用户可在首次进入时选择快速体验或完成身份校验后进入主界面；会话在本次运行周期内生效，退出或注销后自动失效，避免误用与越权。登录成功后界面按照概览到检测的动线组织，用户可在记录区快速定位最近一次任务与导出的 CSV 结果，并通过高亮定位回溯对应帧或图片。账户信息与关键操作记录采用本地 SQLite 管理，配合口令校验与一次性跳过机制，兼顾易用性与基本安全边界。
在这里插入图片描述

（2）功能概况：主界面采用“左侧控制、中部显示、右侧详情、底部记录”的布局，将输入源选择、阈值调参、推理展示与结果管理集中在一个闭环流程内。用户从功能概览进入后，可以按任务类型选择图片检测或文件检测，并在同一界面完成参数调整、目标查看与结果复查，减少频繁跳转带来的负担。底部检测记录在不同页面间保持一致的呈现方式，便于跨来源对比与追踪同一时间段的异常目标。
在这里插入图片描述

（3）选择模型：系统支持在界面中直接选择本地权重文件完成模型切换，切换后会同步刷新类别列表与显示配色，使用户在不同训练版本或不同尺度模型之间对比时保持一致的视觉反馈。模型加载与当前选择状态在界面中明确提示，避免推理过程中误用旧模型造成结果偏差。常用配置与界面主题可在本地持久化保存，减少重复设置，提高频繁巡检场景下的连续操作效率。
在这里插入图片描述

（4）图片检测：用户导入单张图片或批量图片后，系统可在主显示区实时叠加检测框，框内显示类别名称与置信度，并支持在详情区查看目标位置与用时等关键信息。检测过程中可随时调节 Conf/IoU 以平衡漏检与误检，并支持对特定目标进行选择与高亮，便于航拍小目标在复杂背景下的快速核验。检测结果可一键导出为 CSV，并可将带框图像直接导出用于复盘、标注纠错或报告留存。
在这里插入图片描述

（5）文件保存：系统对导出结果采用统一的时间戳命名规则，确保同一任务的图片、视频与表格结果具备可追溯性，便于后续批量归档与审计复查。保存内容覆盖检测记录、带框可视化结果与统计信息，用户可按文件名快速检索到对应的输入源与参数设置，从而复现实验或定位异常。对于视频与批量任务，保存流程与进度提示保持一致，减少长时推理场景下的等待不确定性，并提升整体交互体验。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

机场航拍视角下的飞机、保障车辆、人员与地面设备往往以小尺度甚至极小尺度呈现，且跑道标线、机坪纹理与阴影反光会显著抬高前景背景可分性门槛，这使得“小目标检测”成为机场安全与运行精细化管理中的关键能力1。面向通航机场场面运动目标的研究表明，通过对YOLO结构与回归损失进行针对性改造，可以在精度与帧率之间取得更可用的折中，从侧面验证了机场场景对实时性和工程稳定性的刚性需求2。因此，将深度学习目标检测落到“航拍机场在线识别”这一强约束场景，本质上是在精度、速度与可追溯性三者之间做系统级协同优化1。(CSSJJ)

从工业自动化与质量检测的视角看，机场运行同样需要将“感知”结果转化为可执行的流程，例如风险告警、设备调度与异常核查，而这要求模型输出具备清晰的解释路径与可视化呈现1。遥感小目标综述指出，尺度受限目标在特征下采样链路中更易被抹平，且定位分支对微小扰动更敏感，这为航拍机场中“远距小目标、密集遮挡、长尾类别”的稳定检测提出了共性难点3。在此背景下，构建一个既能支持多模型对比、又能把检测结果以直观交互方式呈现与归档的桌面系统，能够显著降低算法落地的沟通成本与复查成本3。(CJIG)

进一步地，机场航拍检测往往需要边缘实时性与人机协同，典型流程包括多源输入、阈值可调、结果回放与证据留存，这决定了系统不仅要“检得准”，还要“跑得稳、看得懂、存得住”1。随着实时检测器持续演进，端到端部署与后处理开销也成为新的瓶颈来源，系统在工程上需要把模型热切换、统一预处理与一致性可视化视为同等重要的能力[18]。因此，本文以机场航拍小目标检测为应用牵引，强调算法与桌面交互闭环的协同设计，从而支撑面向实际运行的可用性与可扩展性1。

2.2 国内外研究现状

本文聚焦的任务场景可概括为“机场区域航拍小目标在线检测”，其核心挑战同时包含类间相似性高、目标尺度跨度大、密集遮挡与强背景纹理干扰等典型问题3。在机场机坪与跑道场景中，飞机与车辆在不同高度与视角下会发生显著尺度漂移，且阴影、反光与地面标线会诱发误检与漏检，这与遥感小目标检测所强调的特征表示瓶颈与前景背景混淆高度一致3。此外，机场安保与运行管理常呈现长尾分布，少样本类别往往更需要在系统层面提供可复查证据与持续迭代的数据闭环1。

针对航拍与遥感目标检测，公开数据集为算法评测提供了可对齐的基准，其中面向无人机平台的VisDrone挑战数据集覆盖多城市、多环境与多密度场景，并提供目标遮挡等属性标注，适合验证拥挤与小尺度条件下的检测鲁棒性4。UAVDT基准从长时视频中抽取约8万帧并进行框级标注，强调高密度、小目标与相机运动带来的综合困难，能够更贴近“航拍视频在线检测”的真实约束5。DOTA以高分辨率航拍图像与多方向目标为特点，包含2806幅图像与15类目标并提供多边形标注，常用于检验尺度、方向与形状变化下的检测能力[6]。(Ultralytics Docs)

在方法层面，经典两阶段检测器以候选框机制提升定位上限，但在高分辨率航拍实时推理中常受制于计算与时延开销[7]。多尺度特征金字塔通过融合不同层级语义与细节信息，成为缓解小目标表征不足的基础结构之一[8]。为应对前景背景极不均衡的问题，Focal Loss推动了单阶段密集检测在精度与稳定性上的提升，并在COCO上给出了较强的基线结果[9]。Anchor-free范式通过以点为中心的预测减少先验框设计负担，在尺度跨度大且目标形态多样的航拍场景中具有较强的适配性[10]。Transformer检测器以集合预测替代部分后处理，但其计算成本与实时性仍需要结构化改进以适配在线场景[11]。

方法	范式/家族	代表数据集与任务	关键改进技术	优势与局限性	关键指标（示例）	对应任务难点
Faster R-CNN[7]	两阶段/Anchor-based	COCO通用检测	候选框+RoI特征聚合	精度上限高，但高分辨率航拍下延迟较大	典型以mAP/时延权衡报告[7]	复杂背景下的稳健定位
RetinaNet[9]	单阶段/Anchor-based	COCO通用检测	Focal Loss抑制易样本主导	训练稳定，但对极小目标仍依赖更强多尺度特征	COCO AP可达39.1[9]	类不均衡与密集小目标
FCOS[10]	单阶段/Anchor-free	COCO通用检测	点中心预测+中心度分支	减少先验框设计，部署更简洁	常以mAP与速度综合对比[10]	尺度跨度大与形态多样
DETR[11]	Transformer/端到端集合预测	COCO通用检测	匈牙利匹配+集合预测	后处理简化，但收敛与计算成本较高	以AP与训练成本报告[11]	遮挡下的全局建模
RT-DETR[12]	Transformer/实时端到端	COCO通用检测	高效混合编码器+查询选择	端到端去NMS，适合低延迟在线场景	53.1% AP且T4上108 FPS[12]	实时性与拥挤场景
YOLOv5[13]	YOLO/单阶段	工程部署与多任务	端到端训练与工程化工具链	易用性强，但版本与实现多样导致可比性需规范	常以mAP与部署延迟报告[13]	工程落地与快速迭代
YOLOX[14]	YOLO改进/Anchor-free	COCO通用检测	解耦头与训练策略优化	精度与速度平衡好，但仍需后处理NMS	以mAP与推理速度综合对比[14]	速度-精度折中
PP-YOLOE[15]	YOLO改进/工业化	COCO通用检测	结构与训练策略演进	工程部署成熟，但需针对小目标再优化	以mAP与参数量权衡报告[15]	规模化部署与稳定性
机场场面改进YOLOv32	YOLO改进/场景化	机场场面运动目标	深度可分离卷积+DIoU回归	场景适配强，但跨机场泛化仍依赖数据闭环	mAP达91.96且约74帧/s2	机场纹理干扰与实时性
YOLOv10[18]	YOLO/端到端趋势	COCO通用检测	NMS-free训练与架构效率优化	强化端到端部署，但需评估不同硬件一致性	YOLOv10-S在相近AP下更快[18]	低延迟与端到端部署
YOLOv12[19]	YOLO/注意力中心	COCO通用检测	Attention-centric设计	强调速度-精度边界推进，但工程集成需完善	YOLOv12-N可达40.6 mAP且T4约1.64ms[19]	小目标表征与实时性
YOLOv8-GAIS[21]	YOLO改进/航拍昏暗场景	VisDrone扩展	特征融合+注意力+SAHI预处理	提升低照度与遮挡鲁棒性，但流程更复杂	mAP50提升6.9%且mAP50-95提升5.6%[21]	低照度、遮挡与小目标
ACFI-YOLO11[22]	YOLO改进/航拍小目标	VisDrone与UAVDT	Tiny Head+跨层交互+SPD卷积	强化极小目标检测，但需权衡多头开销	VisDrone上mAP50-95提升并达31.7%[22]	极小目标与密集场景

在YOLO家族的技术演进中，工程可用性与速度-精度权衡推动其成为航拍在线检测的主流选型之一[13]。YOLOX通过解耦头等设计强化了分类与回归的优化解耦，使单阶段检测在复杂场景下更易训练与部署[14]。面向产业落地的PP-YOLOE进一步强调训练策略与结构细节的可复用性，为跨场景迁移提供了更稳定的起点[15]。YOLOv7通过“bag-of-freebies”等训练技巧与结构整合刷新了实时检测的基线表现，并强化了多尺度特征利用[16]。YOLOv9提出可编程梯度信息以改善学习过程，体现了YOLO在优化机制层面的继续深化[17]。YOLOv10以端到端部署为目标提出NMS-free训练与效率驱动设计，从后处理与冗余计算两端压缩延迟[18]。YOLOv12则以注意力为中心推进实时检测器的边界，给出新的速度-精度参考点[19]。(arXiv)

从“适配机场航拍小目标”的角度看，近期研究更倾向于在多尺度表征、注意力增强、切片推理与轻量化之间做组合优化，以覆盖极小目标与密集遮挡带来的性能塌陷风险3。例如，RT-DETR在端到端集合预测框架下给出较高的COCO AP与T4实时吞吐，说明去NMS与结构化高效编码器对在线系统具有直接价值[12]。针对低照度与复杂背景，YOLOv8-GAIS在特征融合与注意力机制之外引入SAHI切片策略以提升小目标召回，为“航拍机场夜间或阴影强场景”提供了可借鉴思路[21]。面向极小目标，ACFI-YOLO11通过增加Tiny Head与跨层交互模块强化高分辨率语义与细节融合，体现了“结构改造+小目标专用分支”在无人机数据集上的可行性[22]。与此同时，Ultralytics等工程化框架提供了统一训练、验证与导出接口，使多版本YOLO模型的横向评测与部署集成更易形成可复现流程[20]。(arXiv)

2.3 要解决的问题及其方案

围绕机场航拍小目标检测系统的落地需求，本文需要重点解决以下问题：（1）检测精度与实时性的矛盾在高分辨率航拍与密集目标下更突出，既要保证mAP与召回，也要保证视频流推理的稳定帧率与低时延。（2）机场场景跨时段与跨区域差异明显，光照、阴影、反光与背景纹理会引起分布漂移，模型需要具备更强的环境适应性与泛化能力。（3）桌面端交互既要支持图片、视频与摄像头等多源输入，又要让阈值调参、目标高亮与结果复查足够直观，从而降低“看不懂、复不了”的使用门槛。（4）检测记录与导出结果需要可追溯与可管理，既要保证批量处理效率，也要兼顾本地存储的安全性与一致性。

对应上述问题，本文给出的解决方案为：（1）以YOLOv12为核心模型路线，结合数据增强与迁移学习策略，并对YOLOv5至YOLOv12多版本模型做统一训练与评测对比，从结构与指标两侧选择更适配机场航拍的小目标方案。（2）在训练侧引入针对光照与尺度变化的增强与采样策略，并通过多模型对比与阈值可调机制提升对分布漂移的鲁棒性，同时保留权重热切换能力以支持快速迭代。（3）前端采用PySide6/Qt实现端到端交互闭环，将推理结果以叠加框、置信度与目标详情形式呈现，并支持Conf与IoU的实时调参、目标选择高亮与跨输入源一致的交互逻辑。（4）优化数据处理与存储结构，采用缓存与时间戳命名的统一导出策略，并以本地SQLite完成账户与记录的持久化管理，从而提升批量处理、复查定位与数据安全的整体体验。

2.4 博文贡献与组织结构

本文的主要贡献可概括为：（1）面向机场航拍小目标检测这一强约束应用场景，给出从数据特点、任务难点到方法范式的系统化综述，并将小目标检测的关键瓶颈与工程需求进行对齐。（2）围绕YOLOv5至YOLOv12构建统一的训练、推理与评测流程，形成可复现的多模型横向对比体系，为实际部署提供更可信的选型依据。（3）以PySide6/Qt实现桌面端的人机协同闭环，把多源输入、阈值调参、目标高亮、记录归档与导出复查整合为一致的交互体验。（4）从系统工程角度补齐模型部署链路，强调权重热切换、结果可追溯与本地安全存储，使算法结果能够真正服务于机场运行管理的日常流程。

在后续章节安排上，本文将首先给出数据集处理与标注规范的整理思路，并说明面向小目标与复杂背景的增强策略；随后以YOLOv12为主线展开模型结构、损失与训练要点，并补充多版本YOLO的可比性设计；接着汇总多模型实验结果并从误检漏检模式分析与速度开销角度给出讨论；最后给出Qt桌面端的系统设计与实现框架，形成“算法评测—交互闭环—可追溯落地”的完整技术路线。

3. 数据集处理

本系统使用的机场航拍数据集共 810 张高质量图像，按 708/68/34 划分为训练集、验证集与测试集，覆盖机坪、跑道、停机位及其周边等典型区域。数据采用目标检测的框级标注方式。为保证训练与部署端的一致性，数据在进入训练与推理链路前会执行统一的尺寸规整与坐标映射，使标注在缩放与填充后仍能精确对齐到原始航拍画面中的目标位置。标签及其对应中文名如下：

Chinese_name = {'airplane': "飞机"}

在这里插入图片描述

从类别与实例统计看，数据集中“飞机”实例规模达到万级，且单图中多目标密集出现的比例较高，容易形成遮挡、相邻目标紧贴与背景纹理干扰等典型困难；结合标注分布图可以观察到目标中心点在画面范围内分布较广，但宽高统计明显偏向小尺度区域，说明大量目标以“小目标/极小目标”形态存在，同时仍包含少量中等尺度样本以形成尺度跨度。严格意义上的“长尾”在单类别设定下不体现在类别频次差异，而更多体现为目标尺寸、密度与成像条件的非均衡：例如光照过曝、阴影遮挡、跑道标线与建筑边缘等结构背景会放大误检风险，而远距航拍下的细小飞机又容易在特征下采样后被弱化，从而对模型的召回与定位稳定性提出更高要求。
在这里插入图片描述

在预处理与增强策略上，博主建议以与部署侧一致的输入规整为原则进行训练前处理，例如保持长宽比的缩放并配合必要的边缘填充，将输入统一到检测器的标准尺寸（如 640×640），同时对异常标注进行清洗（去除越界框、零面积框与明显错误框），避免噪声标签放大回归分支的不稳定。训练阶段可采用与航拍小目标强相关的数据增强组合来覆盖主要难点：通过多图拼接与随机仿射提升小目标在不同背景与尺度下的可见性，通过亮度/色彩扰动与随机翻转增强对强光、阴影与视角变化的鲁棒性，并在必要时引入更强的随机裁剪或局部放大来缓解“极小目标被淹没”的问题；同时在数据划分时固定随机种子以保证可复现实验，对比不同 YOLO 版本时能够将性能差异更可靠地归因于模型结构与训练策略，而非数据波动。
在这里插入图片描述

4. 模型原理与设计

面向机场航拍场景的“飞机”小目标检测，本系统在算法侧以 YOLO 系列的一阶段检测范式为主线：输入影像经骨干网络逐级下采样提取多尺度语义特征，随后由颈部结构进行跨层融合以兼顾细粒度纹理与高层语义，最后由检测头在多尺度特征图上同时回归边界框并输出类别置信度。相较两阶段方法，一阶段检测器在端到端延迟、工程落地与批量推理上更占优势，而多尺度特征融合与解耦预测头的组合，能够更直接地服务于航拍小目标“尺度小、密集、背景纹理强、目标形态相似”的核心难点，从而为桌面端实时交互（阈值滑动调参、目标高亮）提供稳定的速度与可控的误检漏检权衡。

在结构设计上，本文默认以 YOLOv12 作为主模型脉络，其关键变化是将注意力机制从“点缀式模块”提升为“架构中心”，同时通过工程友好的改造保持实时性：一方面引入 Area Attention，将特征图按条带/区域进行等分并在区域内计算注意力，从而以更低开销获得更大的有效感受野；另一方面以 R-ELAN 强化特征聚合与梯度通路，通过块级残差与缩放缓解大模型训练不稳定，并配合 FlashAttention 缓解注意力的显存访问瓶颈，同时在注意力分支中用大核可分离卷积作为“位置感知器”以隐式编码位置信息。其核心注意力计算可写为
$\mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V,$
其中 (Q,K,V) 为查询、键、值矩阵，(d) 为每个头的特征维度；Area Attention 的要点在于将 (HW) 个 token 重新分组到 (l) 个区域内进行上述计算，以降低全局注意力在高分辨率特征上的二次复杂度并提升吞吐。(ar5iv) 网络结构示意图如下图所示
在这里插入图片描述

在损失函数与任务建模上，系统沿用 YOLO 检测任务的“分类/置信度 + 边界框回归”的联合优化思路：分类与目标置信度通常采用二元交叉熵类损失以稳定概率学习，
$\mathcal{L}*{\mathrm{BCE}}(p,y)=-\big[y\log p+(1-y)\log(1-p)\big],$
其中 ( $p$ ) 为预测概率，( $y\in{0,1}$ ) 为监督信号；边界框回归则以 IoU 系损失作为主项，并在中心距离与宽高差异上加入几何约束以提升小目标的定位精度，例如
$\mathcal{L}*{\mathrm{EIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{c},\mathbf{c}^{*})}{c^2}+\frac{(w-w^{*})^2}{c_w^2}+\frac{(h-h^{*})^2}{c_h^2},$
其中 ( $c, c *$ ）为预测框与真值框中心点，c 为最小外接框对角线长度，( $w, h$ ) 与 ( $w *, h *$ ) 分别为预测与真值宽高，( $c_w,c_h$ ) 为外接框的宽高尺度项。对航拍小目标而言，回归项的“中心对齐 + 尺度对齐”往往比单纯的 IoU 更敏感，能在目标仅占少量像素时降低“框飘移”和“贴边偏差”，从而改善桌面端叠框显示与后续导出结果的一致性。

训练与正则化策略上，本文以统一输入规整（如 640×640）来对齐训练与部署分布，并通过颜色扰动、几何变换与拼接类增强覆盖强光过曝、阴影遮挡、背景纹理干扰与密集小目标共存等情况；同时，注意力中心架构在训练稳定性与显存占用上更敏感，因此更依赖合理的学习率衰减、权重衰减与归一化配置来保证收敛质量，并在必要时延长训练轮次以充分拟合长尾尺度与复杂背景。推理阶段的后处理通常采用置信度阈值筛选与 NMS 去重：阈值过高会优先牺牲远距小飞机的召回，阈值过低又会放大跑道标线、建筑边缘等伪纹理带来的误检；因此系统侧将 Conf/IoU 作为可交互参数暴露给用户，通过“实时调参—可视化叠框—记录与导出”的闭环，让模型在不同机场区域、不同航拍高度与不同光照条件下保持可控的精度-速度权衡。(Ultralytics Docs)

5. 实验结果与分析

本章实验以机场航拍单类目标“飞机”检测为目标，对 YOLOv5–YOLOv12 共 8 种模型进行统一训练与评测，分别覆盖轻量 n 系列与容量更高的 s 系列。实验环境为 NVIDIA GeForce RTX 3070 Laptop GPU（8GB），统计了端到端推理耗时的三段开销（预处理/推理/后处理），并以 Precision、Recall、F1、mAP50 与 mAP50-95 作为核心指标。总体上，两组模型在 mAP50 上均达到 0.92 左右的高位区间，但 mAP50-95 仍集中在 0.50–0.54 的中等区间，这一“高 mAP50、较低 mAP50-95”的现象与航拍小目标的定位敏感性一致：当目标框较小且边界模糊时，IoU 阈值从 0.5 提升到更严格区间会更容易放大轻微偏移带来的惩罚，因此仅凭 mAP50 容易高估“精确定位”的真实质量。

规模	Model	Params(M)	FLOPs(G)	Pre(ms)	Inf(ms)	Post(ms)	Total(ms)	Precision	Recall	F1	mAP50	mAP50-95
n	YOLOv5nu	2.6	7.7	1.90	7.73	1.31	10.94	0.9170	0.8578	0.8864	0.9173	0.5194
n	YOLOv6n	4.3	11.1	2.17	6.78	1.39	10.34	0.9163	0.8713	0.8932	0.9264	0.5069
n	YOLOv7-tiny	6.2	13.8	2.28	14.74	4.06	21.08	0.9223	0.8870	0.9043	0.9271	0.4843
n	YOLOv8n	3.2	8.7	1.95	6.83	1.39	10.17	0.9175	0.8959	0.9065	0.9325	0.5166
n	YOLOv9t	2.0	7.7	1.87	16.51	1.29	19.67	0.9329	0.8713	0.9010	0.9313	0.5296
n	YOLOv10n	2.3	6.7	2.08	11.24	0.63	13.95	0.9159	0.8566	0.8852	0.9248	0.5181
n	YOLOv11n	2.6	6.5	2.11	9.44	1.42	12.97	0.9138	0.8752	0.8941	0.9280	0.5245
n	YOLOv12n	2.6	6.5	1.91	12.47	1.37	15.75	0.9128	0.8841	0.8982	0.9281	0.5167
s	YOLOv5su	9.1	24.0	2.28	8.45	1.51	12.24	0.9158	0.9018	0.9087	0.9319	0.5319
s	YOLOv6s	17.2	44.2	2.22	8.59	1.45	12.26	0.9405	0.8547	0.8956	0.9228	0.5105
s	YOLOv7	36.9	104.7	2.44	23.62	3.46	29.52	0.9207	0.8899	0.9051	0.9392	0.5000
s	YOLOv8s	11.2	28.6	2.31	7.66	1.42	11.39	0.9237	0.8917	0.9074	0.9335	0.5336
s	YOLOv9s	7.2	26.7	2.12	18.66	1.39	22.17	0.9296	0.9077	0.9185	0.9439	0.5440
s	YOLOv10s	7.2	21.6	2.21	11.38	0.60	14.19	0.9115	0.8801	0.8955	0.9258	0.5443
s	YOLOv11s	9.4	21.5	2.37	9.74	1.36	13.47	0.9269	0.9098	0.9183	0.9474	0.5405
s	YOLOv12s	9.3	21.4	2.09	13.23	1.42	16.74	0.9285	0.8772	0.9021	0.9342	0.5371

在这里插入图片描述

从精度侧看，n 系列中 YOLOv8n 在 F1 与 mAP50 上取得最优（F1≈0.9065，mAP50≈0.9325），说明其在“召回与误检”的均衡上更贴合本数据集的主难点；而 YOLOv9t 的 mAP50-95 达到该组最高（≈0.5296），体现出其在更严格 IoU 阈值下的定位一致性更强，但代价是推理时间显著上升（Inf≈16.51ms），更适合离线批处理或对定位精度要求更高的复核流程。
在这里插入图片描述

s 系列整体性能更进一步，其中 YOLOv11s 的 mAP50 达到全局最高（≈0.9474），YOLOv10s 在 mAP50-95 上略占优势（≈0.5443），而 YOLOv9s 在 F1 上领先（≈0.9185）；这组结果也提示了一个工程事实：当类别非常单一且标注质量较高时，模型之间的 mAP50 差距会被压缩到“百分点级”，反而更需要结合 mAP50-95 与 F1 来观察“定位是否更稳、阈值是否更好调”。

从速度侧看，端到端时延并不完全由 Params 或 FLOPs 决定：例如 YOLOv6n 与 YOLOv8n 的总时延都在 10ms 左右，明显更利于桌面端的交互式预览；但 YOLOv9t 在参数量更小的情况下仍呈现更高推理耗时，往往与具体算子实现、张量访存模式和内核融合程度有关，这也是工程部署中需要单独做“实测而非仅看 FLOPs”的原因。值得注意的是，YOLOv10n/YOLOv10s 的后处理时间均显著更低（Post≈0.63ms 与 0.60ms），在批量视频或长时推理中更容易把“CPU 后处理拖慢整体”的风险压下去，对 Qt 端的进度条与帧流稳定性更友好；相对地，YOLOv7-tiny 与 YOLOv7 的后处理开销更大，若用于视频流可能更依赖严格的阈值设置与更强的帧率控制策略。
在这里插入图片描述

结合 PR 曲线与阈值敏感性曲线可以更直观理解“系统侧交互为什么重要”。从平均 PR 曲线的形态看，各模型在高召回区域会出现明显陡降，这通常意味着当 Conf 继续下探以追求更高 Recall 时，背景纹理（跑道标线、建筑边缘、阴影反光）引发的误检开始快速累积，因此在实际使用中需要允许用户通过 Conf/IoU 滑块找到“召回够用、误检可控”的工作点；
在这里插入图片描述

在 F1-Confidence 曲线中，最佳 F1 出现在中等置信度附近（约 0.6 左右），这也解释了为什么桌面端不应把阈值写死，而应让操作者在不同航拍高度与不同光照下做快速微调。
在这里插入图片描述

对于单类任务，混淆矩阵更多反映“漏检比例与误检来源”，其本质仍会回到 F1 与 PR 的权衡：漏检更多来自极小目标、边界模糊或被遮挡的飞机，而误检常与高对比边缘结构相伴，后续改进更应聚焦小目标特征保真与更鲁棒的样本增强。

6. 系统设计与实现

6.1 系统设计思路

本系统面向机场航拍小目标检测的在线交互与离线归档需求，采用分层架构组织整体实现：表现与交互层以 PySide6/Qt 客户端为核心，负责多源输入选择、阈值调节、可视化渲染与记录检索；业务与会话管理层负责源互斥控制、会话状态维护、参数与统计汇聚以及导出编排；推理与任务调度层以事件驱动的帧流为主线，完成媒体接入、预处理、YOLO 推理与后处理的流水线执行；数据持久化层负责账户与记录的本地管理、导出文件归档与日志接口。该分层设计的关键在于将“交互一致性”与“推理吞吐”解耦，使界面侧的响应与推理侧的时延波动不会相互放大，从而适配航拍视频中长时间连续推理的稳定性要求。

跨层协同的主链路可归纳为“多源输入—统一预处理—模型推理—后处理与统计—界面联动—记录与导出闭环”。在图片与视频/摄像头两类输入之间，系统以互斥的源管理保证同一时刻仅存在一种活动数据源，避免并发争抢引发的资源不一致；同时将 Conf/IoU 阈值作为全局可观察参数，在业务层统一维护并同步给推理侧与可视化侧，确保同一帧的框渲染、表格记录与 CSV 导出使用一致的后处理条件。对视频/摄像头帧流，推理侧以事件驱动方式调度“读帧—推理—回传”循环，并向界面层回传当前帧序号、累计耗时与进度信息，以支撑进度条与用时显示的及时刷新。

在可扩展性方面，系统将模型权重管理从推理主链路中剥离为独立能力：当用户选择新的本地权重文件时，业务层触发安全的模型切换流程，推理层在合适的同步点完成热加载并更新类别名与配色映射，界面层随即刷新图例与详情视图，保证“热切换后结果可解释且可追溯”。同时，统计与导出采用统一的时间戳命名与归档策略，在保持批量处理效率的前提下增强结果溯源能力；异常恢复则通过源状态机与任务队列边界控制实现，当出现帧读取失败、推理异常或用户主动停止时，系统能够回到一致的空闲态并保留已完成部分的记录与导出产物。

在这里插入图片描述

图 6-1 系统流程图
图注：系统自初始化到多源输入，完成预处理、YOLO 推理与界面联动，并在 Conf/IoU 调参与导出编排中形成闭环；对视频/摄像头采用事件驱动帧流，配合进度条与用时显示保障交互一致性。

在这里插入图片描述

图 6-2 系统设计框图
图注：自上而下分别为 Qt 表现与交互层、业务与会话管理层、推理与任务调度层、数据持久化层；数据流从多源输入进入，经预处理与推理后回传界面，同时在导出与本地数据库中形成可追溯归档。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图
图注：流程覆盖注册、口令校验、会话建立与个性化配置载入，并与主检测流程在“进入主界面”处自然衔接；强调本地持久化带来的可追溯与个性化体验。

登录与账户管理流程以“身份校验—会话建立—个性化载入—主流程衔接”为主线：应用启动后进入登录界面，若用户无账号则进入注册流程并将账户记录写入本地数据库，随后回到登录完成口令校验；校验成功后系统建立本次会话并加载个性化配置（主题、默认模型与最近记录等），从而使用户在进入主界面后能够以更低的操作成本延续上一次的工作上下文。该流程的价值在于把“用户空间”与“检测任务”进行绑定，使结果、设置与导出记录可以在本地形成稳定的持久化闭环，同时在注销或切换账号时能够明确切断会话状态，避免不同操作者之间的配置与记录混用。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

功能效果展示视频：热门实战｜《基于深度学习的机场航拍小目标检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 付涵, 范湘涛, 严珍珍, 等. 基于深度学习的遥感图像目标检测技术研究进展[J]. 遥感技术与应用, 2022. DOI:10.11873/j.issn.1004-0323.2022.2.0290.
2 夏正洪, 魏汝祥, 李彦冬. 改进YOLOv3算法下通航机场场面运动目标检测[J]. 安全工程技术, 2023(2):82-88. DOI:10.16265/j.cnki.issn1003-3033.2023.02.0149.
3 袁翔, 程塨, 李戈, 等. 遥感影像小目标检测研究进展[J]. 中国图象图形学报, 2023, 28(6):1662-1684. DOI:10.11834/jig.221202.
4 Zhu P F, Wen L Y, Du D W, et al. Detection and Tracking Meet Drones Challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021. DOI:10.1109/TPAMI.2021.3119563.
5 Du D W, Zhu P F, Wen L Y, et al. UAVDT: A Large-Scale Benchmark for UAV-Based Object Detection and Tracking[C]//Proceedings of the European Conference on Computer Vision. 2018.
[6] Xia G S, Bai X, Ding J, et al. DOTA: A Large-scale Dataset for Object Detection in Aerial Images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[7] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Advances in Neural Information Processing Systems. 2015.
[8] Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[9] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017.
[10] Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019.
[11] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//Proceedings of the European Conference on Computer Vision. 2020.
[12] Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[J/OL]. arXiv:2304.08069, 2023(更新至2024). DOI:10.48550/arXiv.2304.08069.
[13] Jocher G, Chaurasia A, Qiu J. YOLOv5 by Ultralytics[EB/OL]. Zenodo, 2020. DOI:10.5281/zenodo.3908559.
[14] Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[J/OL]. arXiv:2107.08430, 2021. DOI:10.48550/arXiv.2107.08430.
[15] Xu S, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[J/OL]. arXiv:2203.16250, 2022. DOI:10.48550/arXiv.2203.16250.
[16] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[J/OL]. arXiv:2207.02696, 2022. DOI:10.48550/arXiv.2207.02696.
[17] Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[J/OL]. arXiv:2402.13616, 2024. DOI:10.48550/arXiv.2402.13616.
[18] Wang A, Chen H, Liu L H, et al. YOLOv10: Real-Time End-to-End Object Detection[C]//Advances in Neural Information Processing Systems. 2024. DOI:10.48550/arXiv.2405.14458.
[19] Tian Y J, Ye S, Chen X, et al. YOLOv12: Attention-Centric Real-Time Object Detectors[J/OL]. arXiv:2502.12524, 2025. DOI:10.48550/arXiv.2502.12524.
[20] Ultralytics. Ultralytics YOLO11[EB/OL]. 2024.（以官方文档与软件引用格式为准）
[21] 李凯璇, 刘晓锋, 陈强, 等. YOLOv8-GAIS：一种改进的无人机航拍目标检测算法[J/OL]. 光电工程, 2025. DOI:10.12086/oee.2025.240295.
[22] （按期刊页面署名）. 基于改进YOLO11的无人机航拍图像小目标检测算法[J/OL]. 液晶与显示, 2025. DOI:10.37188/CJLCD.2025-0010.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Prometheus - 监控 K8s 集群：kube-state-metrics 集成与全维度监控

AtomGit开源社区

从零到一：Flex布局入门指南

AtomGit开源社区

大语言模型处理大规模代码的认知误区与合理实践

在网页端或客户端应用中，向大语言模型上传包含百万行代码的独立文件，无法使模型突破自身上下文窗口的限制。从模型单次可承载的信息总量来看，文件上传操作与在输入框内直接复制粘贴文本，二者不存在本质区别。文件上传功能本质上是客户端与服务端之间的传输优化方案，其背后依赖的RAG技术，是通过“切片-检索-注入”的方式，让模型在海量文档中快速定位有效信息，而非让模型一次性读取完整文档。