摘要:本文面向稻田田间场景,构建一套基于深度学习的虫害检测桌面系统,实现“采集—推理—可视化—归档—导出”的闭环。系统提供可下载的数据与代码资源,前端采用 PySide6/Qt 设计交互界面,支持图片、视频与本地摄像头多源输入,推理过程中提供进度显示与处理进度条,检测结果可一键导出为 CSV,并支持带框结果一键导出(单帧 PNG / 多帧 AVI)。为保证可追溯与管理效率,系统将账户与历史记录写入本地 SQLite,并提供登录、注册与可跳过入口;同时支持 模型选择/权重加载(.pt 热切换),切换后同步刷新类别与配色,便于在不同虫害类别体系下快速部署。算法侧覆盖 YOLOv5–YOLOv12 共 8 种检测模型,统一在同一数据集与评测协议下对比 mAP、F1、PR 及训练曲线等指标,给出精度、速度与工程可用性的综合分析。文末提供完整工程与数据集下载链接。

功能效果展示视频:热门实战|《基于深度学习的稻田虫害检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件下载页☇


1. 系统功能与效果

(1)系统提供登录、注册与跳过入口,登录成功后会话在本次运行期间保持生效,并将用户偏好与历史记录与账户绑定管理。博主将主流程设计为进入后先浏览功能概况,再进入图片检测页面完成推理与交互,随后可切换模型并回到导出视图复查结果。账户信息与操作记录通过本地 SQLite 管理,兼顾口令校验与离线可用性,跳过模式仅作为一次性体验入口以降低误用风险。
在这里插入图片描述

(2)功能概况页用于把核心能力集中呈现,并引导用户沿着“选择数据源—阈值调整—结果查看—记录与导出”的动线快速上手。界面采用左侧参数与数据源控制、中央可视化展示、右侧目标详情、底部记录与进度反馈的布局,交互路径清晰且学习成本低。最近一次检测会被置顶展示,便于回到关键样本进行复查与对比。
在这里插入图片描述

(3)系统支持从本地选择权重文件完成模型切换,切换后会同步刷新类别名称与配色映射,避免跨模型复用时出现标注语义混淆。模型状态在界面中可直观确认,用户无需重启即可完成 .pt 权重热切换,适合在不同虫害密度与光照条件下快速试验。常用配置会本地保存,保证下次进入时保持一致的推理体验。
在这里插入图片描述

(4)图片检测支持单张图片与批量图片的快速推理,主显示区以叠加框形式展示检测结果,框内包含类别名与置信度并与右侧详情联动。用户可实时调节 Conf 与 IoU 阈值观察误检漏检变化,并支持对特定目标进行选择与高亮,便于核对小目标与遮挡样本。检测记录会在底部以表格形式沉淀,方便按类别或置信度快速定位关键条目。

绿叶蝉检测效果:
在这里插入图片描述
稻杆螟检测效果:
在这里插入图片描述
水稻飞虱检测效果:
在这里插入图片描述

(5)文件保存围绕“可追溯、可批量、可复查”设计,检测结果支持一键导出为 CSV,并可将带框图片按统一规则保存以便归档对比。导出文件采用时间戳命名并归入统一目录,配合按文件名检索可快速回到原始样本与对应结果。必要时也可将历史记录写入本地数据库形成长期台账,便于统计分析与阶段性回顾。

在这里插入图片描述


2. 绪论

2.1 研究背景及意义

稻田虫害具有突发性与扩散性,一旦错过关键防治窗口,往往会造成产量与品质的双重损失,而农业生产中由病虫草害引起的减产在全球范围内长期存在并具有显著经济影响1。从粮食安全视角看,针对主要粮食作物的综合评估同样提示病虫害是制约稳产高产的重要因素之一2。在传统生产实践中,虫情监测仍高度依赖人工踏田巡查与经验判读,存在取样稀疏、响应滞后与主观差异等问题,这与“早发现、早处置”的植保需求天然矛盾。稻田环境又常伴随水面反光、植株遮挡、风致抖动和光照剧烈变化,使得虫体小目标与弱纹理特征更难稳定捕获。 (Cambridge University Press & Assessment)

随着深度学习视觉感知能力的提升,基于目标检测的虫害识别逐步从“离线分析”走向“现场辅助”,为稻田虫情的连续监测与分级预警提供了更可落地的技术路径。相比单纯分类,检测任务能够同时给出虫体位置与类别置信度,便于与人工复核、诱捕器布设、阈值触发告警等环节形成闭环。与此同时,田间在线应用对实时性、算力与能耗提出约束,模型不仅要“看得准”,还要“跑得动”,并能在不同机位、不同光照和不同生育期保持稳定表现。面向生产端的系统还需要以可解释的可视化方式呈现检测证据,降低使用门槛并提升人机协同效率。

因此,本文面向稻田虫害检测这一典型农田小目标场景,构建一套“模型训练对比—桌面端交互推理—结果可追溯导出”的一体化系统:一方面以多版本 YOLO 检测器为核心,比较精度与效率并支持权重热切换;另一方面以桌面端交互界面承载多源输入、参数调节、记录检索与批量导出,促进算法从实验指标走向可用工具,为病虫害绿色防控与精准用药提供更及时、可核验的数据支撑。

2.2 国内外研究现状

面向稻田虫害检测的研究通常需要同时满足“复杂背景下的小目标识别”和“近实时推理”的双重目标,而公开虫害数据普遍存在长尾分布与跨生命周期形态差异,导致类间相似与类内差异并存3。在稻田场景中,目标尺度差异、密集遮挡、叶片纹理干扰与水面高光反射进一步放大了误检与漏检风险,使得单一范式往往难以兼顾鲁棒性与速度。围绕这些难点,研究者一方面从检测器结构演进中寻找更优的特征表达与回归机制,另一方面也在工程部署侧探索轻量化与加速策略,以适配边缘设备与现场作业节奏。 (CVF Open Access)

在通用目标检测的发展脉络中,两阶段方法以候选区域与精细分类回归为核心,典型代表 Faster R-CNN 在精度上具有优势但推理链路更重4。单阶段方法将分类与回归统一到密集预测框架中,SSD 通过多尺度特征层实现端到端检测并显著提升速度5。为缓解正负样本不均衡等问题,RetinaNet 引入 Focal Loss 提升了密集检测的学习稳定性[6]。随后 EfficientDet 通过复合缩放与特征融合结构在精度与复杂度之间提供了更系统化的权衡思路[7]。

除 Anchor-based 体系外,Anchor-free 范式通过点或像素级预测降低先验框设计负担,FCOS 以全卷积方式回归边界框并简化了训练配置[8]。CenterNet 将目标建模为中心点并在速度与精度之间提供了不同的折中选择[9]。Transformer 检测器以集合预测与全局建模能力引入新的解题方式,DETR 以二分匹配实现端到端训练并减少手工后处理依赖[10]。在面向实时的改进方向上,RT-DETR 通过高效混合编码器与查询选择策略提升速度并保持较高精度,为端到端实时检测提供了可行路径[11]。 (arXiv)

YOLO 家族则以“单阶段、强工程性与高吞吐”成为农业在线检测的主流选择,早期 YOLO 将检测直接表述为回归问题并奠定了实时检测的基本范式[13]。在 CNN 结构持续优化的阶段,YOLOv7 通过可训练的 bag-of-freebies 设计推动了精度与速度的进一步提升[14]。Ultralytics YOLOv8 在工程生态上提供了更统一的训练与部署流程,并在多任务与可用性方面降低了门槛[15]。为进一步减少端到端部署延迟,YOLOv10 针对 NMS 依赖提出一致双分配等策略,使得在相近精度下实现更低延迟成为可能[16]。Ultralytics YOLO11 延续了“更高精度与更高效率”的迭代目标,为多场景落地提供了新的权衡点[17]。最新的 YOLOv12 进一步强调注意力机制在实时检测中的可用性,并给出在保持较低延迟条件下提升 mAP 的实证结果[18]。 (arXiv)

方法名称 范式/家族 数据集/场景 关键改进点(概述) 优势与局限(概述) 关键指标(原文报告) 更适配的任务难点
RT-DETR-R50[11] Transformer,端到端 COCO 高效混合编码器与查询选择 端到端省去 NMS,结构相对复杂 53.1% AP,108 FPS(T4) 追求端到端与稳定延迟
YOLOv10-S[16] YOLO,端到端化 COCO 一致双分配实现 NMS-free 训练 低延迟友好,对训练策略依赖更强 相近 AP 下比 RT-DETR-R18 快 1.8× 低延迟与易部署
YOLOv12-N[18] YOLO,注意力中心 COCO 注意力中心框架兼顾速度与表达 结构更“重设计”,复现需对齐细节 40.6% mAP,1.64 ms(T4) 小目标与复杂背景建模
Paddy-YOLO[19] YOLOv8 改进 IP102/R2000 稻虫 新特征模块与动态回归损失 面向稻虫特性,需配套数据与标注 IP102:mAP@0.5 45.8→54.3,F1 47.3→52.4 类间相似与形态变化
YOLOv8-Extend[20] YOLOv8 改进 复杂害虫场景 轻量卷积与特征融合增强 兼顾部署,改动点较多需消融验证 TensorRT 后 FPS 57.6(Orin NX) 边缘实时与光照变化
PBM-YOLOv8[21] YOLOv8 轻量化 RK3588 边缘端 结构裁剪与轻量化加速 工程适配强,精度增益依赖场景 推理速度 71.4 FPS,mAP 提升 1.1 个百分点 端侧部署与算力受限
FieldSentinel-YOLOv8[22] YOLOv8 轻量化 稻田虫害 轻量骨干与结构优化 吞吐高,需关注极端遮挡 mAP@0.5 73.64%,199.88 FPS 密集小目标与实时性
改进 YOLOv8+注意力融合[23] YOLOv8 改进 IP102 子集(稻虫) 引入 CBAM 与 BiFPN 融合 精度高,需关注泛化与过拟合 mAP@0.5 98.8%,mAP@0.5:0.95 78.6% 复杂背景与小目标

表中指标与结论均来自对应论文或其公开摘要中的实验报告。 (arXiv)

面向稻田虫害这一更贴近落地的任务,研究趋势正从“单纯追求更高 mAP”转向“精度、速度、可部署性与可追溯性”的综合最优:例如 Paddy-YOLO 同时在 IP102 与自建稻虫数据上验证了面向稻虫特征的结构与损失改进收益[19]。在复杂场景害虫检测中,YOLOv8-Extend 通过结构轻量化与部署加速证明了端侧推理的可行性[20]。针对边缘平台的工程约束,PBM-YOLOv8 报告了在 RK3588 上可达 71.4 FPS 的推理速度并兼顾一定精度增益[21]。FieldSentinel-YOLOv8 进一步强调高帧率在线识别能力,为田间连续监测提供了更直接的吞吐支撑[22]。在公开数据驱动的研究中,基于 IP102 子集的改进 YOLOv8 也展示了注意力与特征融合对复杂农业场景精度的提升潜力[23]。从部署链路看,TensorRT 等推理优化工具已成为将训练权重高效落地到 GPU 或边缘设备的重要抓手[24]。 (ScienceDirect)

2.3 要解决的问题及其方案

围绕稻田虫害检测的实际使用链路,本文不仅关注算法在离线评测中的指标表现,也强调桌面端交互推理、结果管理与可追溯导出等工程要素,以形成可复用的检测工具并支撑后续数据迭代。

要解决的问题:
(1)检测与识别的准确性与实时性:稻田虫体常为小目标且易被遮挡,要求模型在较低延迟下保持稳定精度。
(2)模型的环境适应性与泛化能力:不同拍摄设备、光照、角度与生育期导致域偏移,模型需要在多场景下保持一致表现。
(3)桌面端交互界面的直观性与功能完整性:需要将多源输入、阈值调参、目标高亮与统计展示整合到一致交互流程中。
(4)数据处理效率与存储安全性:检测记录、导出文件与用户信息需要可追溯管理,并兼顾本地化存储的安全与可靠。

解决方案:
(1)以 YOLOv12 为核心模型并纳入 YOLOv5 至 YOLOv12 多版本对比,通过数据增强与迁移学习提升小目标与复杂背景下的检测稳健性。
(2)基于 PyTorch 完成训练、推理与评测,将检测流程与桌面端交互联动,保证阈值参数与可视化结果一致更新。
(3)桌面端支持图像、视频与本地摄像头输入,并提供权重文件热切换,使不同模型在同一数据源下可快速复核与对比。
(4)优化数据处理与存储结构,采用缓存序列与时间戳命名组织导出结果,并以 SQLite 本地库管理账户与检测记录,提升可追溯性与稳定性,同时结合模型压缩与硬件加速策略保障端侧体验。

2.4 博文贡献与组织结构

本文的主要贡献体现在以下几个方面:
(1)围绕稻田虫害小目标场景梳理检测范式与工程部署趋势,并给出与任务难点紧密对应的文献综述与方法对比。
(2)在 YOLOv5 至 YOLOv12 的谱系下构建可复现实验流程,统一指标体系,对精度、召回、PR 曲线与训练收敛特性进行对照分析。
(3)设计并实现美观友好的桌面端交互系统,将多源输入、阈值调参、目标选择高亮、结果统计与批量导出集成到一致动线中。
(4)面向可用性与可追溯性,提供检测记录管理、CSV 导出与带框结果导出机制,并结合本地数据库实现账户与历史的持久化管理。
(5)提供完整的数据集与代码资源组织方式,便于读者复现实验并在自身业务场景中二次扩展。

全文组织结构如下:第 3 章介绍稻田虫害数据集的来源、标注与增强策略;第 4 章阐述以 YOLOv12 为主线的模型原理与关键设计;第 5 章给出多模型对比实验结果与误检漏检分析;第 6 章从分层架构视角说明桌面端系统的设计与实现;最后在第 7 章总结工作并展望模型、系统与数据闭环的后续方向。


3. 数据集处理

本文稻田虫害检测数据集共计 5229 张图像,已按训练/验证/测试三部分固定划分为 4178/546/505 张,以保证后续多模型对比时评测口径一致。从训练拼图可以直观看到,样本包含稻田自然背景下的叶片近景、虫体附着与遮挡场景,也混入少量带水印文字或屏幕截图式素材;这类数据能提升类别覆盖与形态多样性,但同时引入明显的域差异与噪声,需要在训练策略中显式增强鲁棒性。标签及其对应中文名如下:

Chinese_name = {'brown-planthopper': "褐飞虱", "green-leafhopper": "绿叶蝉",
                "leaf-folder": "卷叶螟", "rice-bug": "水稻飞虱", "stem-borer": "稻杆螟", "whorl-maggot": "稻纵卷叶螟"}

在这里插入图片描述

标注采用 YOLO 系列常用的归一化框表示(中心点 x , y x,y x,y 与宽高 w , h w,h w,h 均落在 [ 0 , 1 ] [0,1] [0,1]),便于在统一输入尺度下完成坐标还原与可视化叠加。结合 labels correlogram 的统计分布可见,目标中心点在 x ≈ 0.5 , y ≈ 0.5 x\approx 0.5, y\approx 0.5 x0.5,y0.5 一带存在较强聚集,这通常意味着采集或裁剪过程中存在“将虫体置中”的倾向,虽能降低训练初期的定位难度,但也可能使模型对画面边缘目标的泛化略受影响;同时 w , h w,h w,h 的边缘直方图呈现明显长尾,小尺度框占比高而且夹杂少量大框样本,符合稻田虫害“以小目标为主、偶发近距离或局部裁切导致大框”的真实分布。对检测任务而言,这一分布意味着漏检风险主要集中在小目标、遮挡与纹理相似区域,而误检则更可能由叶脉纹理、高光反射与背景杂物触发,数据处理阶段应围绕这些模式去强化训练信号的有效性。
在这里插入图片描述

为对齐后续 YOLOv5–YOLOv12 的统一训练与部署流程,本文在输入端采用统一尺度的预处理(如等比例缩放与填充到固定分辨率)以保持训练与推理一致的坐标映射关系,并通过清理无效缓存与异常标注来降低噪声对回归分支的干扰;在增强策略上,博主更倾向于优先覆盖田间的真实扰动来源,例如通过颜色与亮度扰动缓解阴影与反光带来的外观漂移,通过随机缩放与裁剪提高不同拍摄距离下的尺度鲁棒性,通过随机翻转与多图拼接提升密集小目标与遮挡情况下的有效学习面积。配合固定的数据划分,这些处理既能减少中心偏置与尺度偏置对泛化的负面影响,也能让后续实验章节的精度与速度对比更贴近真实落地场景,从而为桌面端在线推理与批量导出提供稳定的数据基础。


4. 模型原理与设计

本文检测算法以 YOLOv12 为主线来解释整体原理,并保持与系统端统一的推理接口(输入统一尺度、输出统一字段、阈值可交互调参)。从检测范式看,YOLOv12 仍然遵循单阶段目标检测的经典管线:输入图像经过骨干网络提取多尺度语义特征,再由颈部结构进行跨层融合,最终由检测头同时完成类别判别与边界框回归;这类端到端的密集预测方式尤其适合稻田虫害场景中“目标小、数量多、需要实时响应”的应用约束。与以往更偏 CNN 的 YOLO 版本相比,YOLOv12 的核心变化在于把注意力机制作为主干能力来使用,但又针对实时性做了专门的效率改造,使其在复杂背景(叶脉纹理、反光高光、杂草干扰)下更擅长利用全局上下文去抑制误检,并在虫体被遮挡或外观相近时提升可分性。具体而言,论文提出的 area attention(A2)通过把特征图按水平或垂直方向划分为若干等分区域,仅用 reshape 等“干净操作”实现更大感受野下的注意力建模,从而把标准自注意力的高代价压到可接受范围,同时结合 FlashAttention 缓解注意力计算的内存访问瓶颈;此外引入 R-ELAN 以解决注意力主导网络在大模型尺度上的优化不稳定问题,并通过残差缩放与改造后的特征聚合方式增强训练可收敛性。以上要点与本文稻田虫害数据的统计特征是一致的:小目标占比高意味着更依赖高分辨率层的细粒度纹理,而强背景干扰又要求模型具备更强的全局选择性与上下文理解能力。(ar5iv)

在结构层面,YOLOv12 采用分层式(hierarchical)的主干设计以维持多尺度特征金字塔的稳定供给,这一点对虫体尺度变化(远景小点、近景大框)尤为关键;在主干后段,YOLOv12 不再简单堆叠多次模块,而是用更“薄而有效”的块数配置降低串行深度带来的延迟与优化难度,并通过位置感知的可分离大核卷积(position perceiver)在不引入显式位置编码的前提下补足位置信息。若用更抽象的算子视角来描述注意力块,其核心计算可写为
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(d QK)V,
其中 (Q,K,V) 分别由输入特征线性映射得到,(d) 为通道维度;而 area attention 的关键思想是把 (H\times W) 的特征按 (l) 个区域重排,使注意力在“区域内/条带内”完成,从而把复杂度从近似 ( O ( ( H W ) 2 ) O((HW)^2) O((HW)2)) 降为 ( O ( ( H W ) 2 / l ) O((HW)^2/l) O((HW)2/l))(当 (l) 固定时,可更好满足实时推理需求)。在颈部融合上,仍以多尺度融合为主,强调高层语义对低层细节的补充,以提升稻田背景下小目标的可检出性;在检测头上,工程实现通常采用分类与回归解耦的输出形式,使得类别分支更专注于外观判别、回归分支更专注于几何拟合,从而在“类间相似、类内差异大”的虫害类别体系中获得更稳定的梯度方向。网络整体架构图如下图所示
在这里插入图片描述

损失函数与任务建模方面,本文沿用 YOLO 系列在检测任务上较成熟的组合:分类分支以二元交叉熵或其变体衡量预测置信与真实标签的一致性,回归分支以 IoU 家族损失刻画预测框与真实框的几何重叠,并结合分布式回归思想进一步细化边界定位。IoU 的基本形式为
I o U = ∣ B ∩ B ∗ ∣ ∣ B ∪ B ∗ ∣ , \mathrm{IoU}=\frac{|B\cap B^{*}|}{|B\cup B^{*}|}, IoU=BBBB,
其中 (B) 为预测框、( B ∗ B^{*} B) 为真实框;为增强对中心偏移与长宽比差异的惩罚,常用 CIoU 写作
L C I o U = 1 − I o U + ρ 2 ( c , c ∗ ) d 2 + α v , \mathcal{L}_{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{c},\mathbf{c}^{*})}{d^2}+\alpha v, LCIoU=1IoU+d2ρ2(c,c)+αv,
v = 4 π 2 ( arctan ⁡ w ∗ h ∗ − arctan ⁡ w h ) 2 , α = v ( 1 − I o U ) + v , v=\frac{4}{\pi^2}\left(\arctan\frac{w^{*}}{h^{*}}-\arctan\frac{w}{h}\right)^2,\quad \alpha=\frac{v}{(1-\mathrm{IoU})+v}, v=π24(arctanhwarctanhw)2,α=(1IoU)+vv,
其中 ( c , c ∗ \mathbf{c},\mathbf{c}^{*} c,c) 为中心点,(d) 为最小外接框对角线长度,( ( w , h ) (w,h) (w,h)) 与 ( ( w ∗ , h ∗ ) (w^{*},h^{*}) (w,h)) 为预测与真实宽高。综合起来,训练目标可概括为
L = λ b o x L ∗ C I o U + λ ∗ c l s L ∗ c l s + λ ∗ d f l L ∗ D F L , \mathcal{L}=\lambda_{\mathrm{box}}\mathcal{L}*{\mathrm{CIoU}}+\lambda*{\mathrm{cls}}\mathcal{L}*{\mathrm{cls}}+\lambda*{\mathrm{dfl}}\mathcal{L}*{\mathrm{DFL}}, L=λboxLCIoU+λclsLcls+λdflLDFL,
其中 ( L ∗ D F L \mathcal{L}*{\mathrm{DFL}} LDFL) 用于刻画边界距离的离散分布回归,可在小目标边界较“紧”的虫体标注上带来更细粒度的定位收益;对本文数据而言,这种“定位更精、分类更稳”的损失组合有助于缓解叶片纹理与虫体外观相互干扰导致的误检,并降低遮挡条件下边界漂移引起的漏检。

训练与推理策略上,本文在训练阶段强调正则化与稳定性:一方面使用学习率 warm-up 与衰减策略配合权重衰减、EMA 等手段抑制振荡,另一方面通过 Mosaic、MixUp、Copy-Paste 等增强把“遮挡、密集、尺度变化、光照突变”以更高频率注入训练分布,从而让模型在稻田场景下更接近真实部署的扰动条件。推理阶段则以可解释、可控为第一原则:输入统一缩放到固定尺寸后输出候选框集合,并以置信度阈值 ( τ c o n f \tau_{\mathrm{conf}} τconf) 过滤低质量候选,再以 NMS 的 IoU 阈值 ( τ i o u \tau_{\mathrm{iou}} τiou) 完成冗余抑制,典型判定形式为当 ( I o U ( B i , B j ) > τ i o u \mathrm{IoU}(B_i,B_j)>\tau_{\mathrm{iou}} IoU(Bi,Bj)>τiou) 时抑制低置信框;这与桌面端的 Conf/IoU 滑块形成直接映射,使用户能在“宁可少漏检”与“宁可少误检”之间快速切换。结合前述注意力主导的特征提取与多尺度融合,YOLOv12 在本文的虫害检测任务中更像是一套“以全局上下文稳住分类、以分布式回归稳住定位、以阈值交互稳住体验”的协同设计,为后续 YOLOv5–YOLOv12 的横向对比与系统端热切换部署打下统一的算法基础。


5. 实验结果与分析

本章实验目标是验证稻田虫害检测任务中,不同 YOLO 版本在精度、召回与实时性上的综合表现,并为桌面端的模型热切换与阈值交互提供可落地的默认选择。实验基于第 3 章所述 RicePaddyPest 数据集(训练/验证/测试为 4178/546/505,共 5229 张,6 类虫害),统一输入尺度与评测协议,指标采用 Precision、Recall、F1、mAP@0.5(记为 mAP50)与 mAP@0.5:0.95(记为 mAP50-95),同时统计端到端耗时分解为预处理/推理/后处理(Pre/Inf/Post)。全部测速在 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)环境下完成,便于在同一硬件基线下比较“单位算力产出”。

规模组 模型 Params(M) FLOPs(G) Pre/Inf/Post (ms) 总耗时 (ms) Precision Recall F1 mAP50 mAP50-95
n/t YOLOv5nu 2.6 7.7 1.90 / 7.73 / 1.31 10.94 0.9177 0.9035 0.9106 0.9380 0.6649
n/t YOLOv6n 4.3 11.1 2.17 / 6.78 / 1.39 10.34 0.9032 0.8780 0.8904 0.9086 0.6237
n/t YOLOv7-tiny 6.2 13.8 2.28 / 14.74 / 4.06 21.08 0.8482 0.8388 0.8435 0.8709 0.5342
n/t YOLOv8n 3.2 8.7 1.95 / 6.83 / 1.39 10.17 0.9260 0.9092 0.9175 0.9402 0.6683
n/t YOLOv9t 2.0 7.7 1.87 / 16.51 / 1.29 19.67 0.9194 0.9197 0.9196 0.9418 0.6897
n/t YOLOv10n 2.3 6.7 2.08 / 11.24 / 0.63 13.95 0.8954 0.8830 0.8892 0.9274 0.6679
n/t YOLOv11n 2.6 6.5 2.11 / 9.44 / 1.42 12.97 0.9255 0.8987 0.9119 0.9385 0.6716
n/t YOLOv12n 2.6 6.5 1.91 / 12.47 / 1.37 15.75 0.9360 0.9074 0.9215 0.9393 0.6782
s YOLOv5su 9.1 24.0 2.28 / 8.45 / 1.51 12.24 0.9090 0.9052 0.9071 0.9311 0.6709
s YOLOv6s 17.2 44.2 2.22 / 8.59 / 1.45 12.26 0.9088 0.9096 0.9092 0.9290 0.6705
s YOLOv7 36.9 104.7 2.44 / 23.62 / 3.46 29.52 0.8902 0.8894 0.8898 0.9143 0.6213
s YOLOv8s 11.2 28.6 2.31 / 7.66 / 1.42 11.39 0.9110 0.9125 0.9117 0.9327 0.6759
s YOLOv9s 7.2 26.7 2.12 / 18.66 / 1.39 22.17 0.9154 0.9060 0.9107 0.9438 0.6889
s YOLOv10s 7.2 21.6 2.21 / 11.38 / 0.60 14.19 0.9055 0.9079 0.9067 0.9406 0.6841
s YOLOv11s 9.4 21.5 2.37 / 9.74 / 1.36 13.47 0.9175 0.9314 0.9244 0.9481 0.6894
s YOLOv12s 9.3 21.4 2.09 / 13.23 / 1.42 16.74 0.9314 0.9262 0.9288 0.9543 0.6968

在这里插入图片描述

从 n/t 轻量组来看,整体 mAP50 已稳定在 0.87–0.94 区间,但 mAP50-95 的差异更能反映“定位精细度”与“多尺度鲁棒性”的差别:YOLOv9t 取得该组最高的 mAP50(0.9418)与 mAP50-95(0.6897),说明其在更严格 IoU 阈值下仍能保持较好框质量,不过代价是推理时延显著增加(InfTime 16.51ms,总耗时 19.67ms)。YOLOv12n 在 Precision(0.9360)与 F1(0.9215)上更突出,体现为“误检更少且综合平衡更好”,更适合作为桌面端默认权重在中等阈值下提供稳定体验;同时 YOLOv8n 以接近最优的 mAP50(0.9402)和更低总耗时(10.17ms)给出了非常强的性价比,适合强调实时交互的图片批量检测场景。相对地,YOLOv7-tiny 虽名义上轻量,但在该数据上精度与速度均不占优(mAP50-95 仅 0.5342,且 PostTime 偏高),更像是“部署约束极端但可接受明显精度损失”的备选。如上图所示,n 型各模型的 F1 与 mAP50 走势基本一致:精度更高的版本在 F1 上通常也更稳定,但仍存在“mAP略高、F1不一定最高”的情况,提示阈值策略与误检类型在该任务中同样关键。

在这里插入图片描述

在 s 规模组中,模型容量带来的收益更清晰:YOLOv12s 取得全组最高 mAP50(0.9543)与 mAP50-95(0.6968),并同步达到最高 F1(0.9288),说明其不仅“检得准”,在更严格的定位要求下也更稳,尤其适合后续做结果归档、复核与统计分析的生产流程。值得注意的是,YOLOv11s 的召回最高(0.9314)且 mAP50-95 与 YOLOv9s 几乎持平(0.6894 vs 0.6889),但推理时延显著更低(InfTime 9.74ms vs 18.66ms),因此在“需要更少漏检、同时希望交互不卡顿”的桌面端体验上,YOLOv11s 往往是更均衡的选择。若以端到端总耗时近似衡量吞吐,YOLOv8s(11.39ms)在 s 组里速度优势明显且精度不弱(mAP50-95 0.6759),可作为“实时优先”的部署权重;而 YOLOv7 在 Params/FLOPs 与时延上开销最大但精度并未带来对应提升,表明该任务的瓶颈更多来自小目标与背景干扰,单纯堆叠更重的骨干并不能线性换取收益。
在这里插入图片描述

上图给出 6 类虫害的归一化混淆矩阵,可见大多数类别在对角线处具有较高一致性,但褐飞虱(brown-planthopper)相对更难,一方面其被预测为背景的比例更高(漏检倾向),另一方面也更容易吸收“背景误报”(误检倾向),这与稻叶纹理、高光反射以及虫体尺度偏小的综合干扰高度一致;因此,后续提升空间更可能来自“补齐困难样本 + 强化难负样本约束”,而非简单加大模型规模。
在这里插入图片描述
在这里插入图片描述

结合 PR 曲线与 F1-Confidence 曲线可以进一步把“指标优势”落到“阈值可用性”上:整体 PR 曲线在高召回区域仍能维持较高精度,说明模型对大多数类别的置信度排序质量较好,但当 Recall 接近 1.0 时精度快速下滑,意味着强行追求极限召回会显著放大误报成本;这也解释了桌面端需要提供 Conf/IoU 的滑块交互,让用户按场景在“少漏检”和“少误检”之间做可解释的权衡。以你提供的曲线为例,全类 F1 在置信度约 0.505 附近达到峰值(约 0.93),在实际系统中可将其作为默认 Conf 的经验起点,再根据田间光照与背景复杂度向两侧微调:若现场背景更复杂、误检更敏感,可适当上调 Conf;若更关注虫害预警的“宁可多报、不可漏报”,则可下调 Conf 并配合适度的 IoU 抑制重复框。针对褐飞虱这类困难类,建议在数据侧补充更多“强背景干扰、小尺度、遮挡与反光”样本,并在训练侧引入更强调困难样本的采样与增强(例如面向小目标的随机缩放/裁切、针对反光的颜色扰动、以及更严格的 hard-negative 挖掘),同时在系统侧保留“目标高亮复核 + CSV 快速定位”机制,把误检样本更快回流到迭代闭环中,从而在不显著牺牲实时性的前提下,持续拉高困难类的稳定性。


6. 系统设计与实现

6.1 系统设计思路

本文系统采用分层架构组织功能边界,将桌面端交互、会话与业务编排、推理任务调度以及数据持久化解耦实现。表现与交互层以 PySide6/Qt 客户端为核心,负责多源输入选择、Conf/IoU 阈值滑块、检测画面渲染与结果表格呈现;业务与会话管理层统一维护用户会话、参数状态与记录索引,确保“阈值—推理—可视化—导出”在一次交互链路内保持一致;推理与任务调度层将图片/视频/摄像头统一抽象为帧流并以事件驱动方式分发,串联预处理、YOLO 推理与后处理;数据持久化层以本地 SQLite 管理账户与历史记录,并以文件系统承载 PNG/AVI/CSV 等可追溯产物,从而形成可复现的检测闭环。

在跨层协同方面,系统以“多源输入互斥”为基本约束:任一时刻仅允许一种输入源处于激活状态,避免摄像头与视频读取线程竞争资源导致 UI 阻塞或帧率抖动。帧处理流程采用统一的 640×640 预处理假设,输入经缩放、归一化与张量转换进入推理引擎,输出解析为 {class_name, bbox(xmin,ymin,xmax,ymax), score, class_id} 并在后处理中完成 Conf/IoU 过滤、NMS 与坐标还原,最终回写到前端可视化与底部记录表。为保证交互实时性,阈值参数在业务层作为“单一事实源”进行维护,并在每帧推理前被读取,使滑块变化能够在下一帧立即生效,同时在界面侧以进度条与用时统计将处理状态显式反馈给用户。

系统的可扩展性主要体现在模型与产物管理两条链路:模型侧支持本地权重加载与热切换,切换后由业务层触发类别信息与配色映射的同步刷新,避免跨模型类别语义不一致造成误读;产物侧以时间戳命名组织 CSV/PNG/AVI,结合历史记录索引实现快速回溯与批量复查。异常恢复方面,系统通过源互斥、任务队列与状态机约束降低“切源/暂停/导出”交错带来的边界错误,并将关键配置本地化保存以减少重复设置成本,从而更贴近田间使用的稳定性要求。

在这里插入图片描述

图6-1 系统流程图
图注:展示系统从初始化、输入源选择、预处理、YOLO 推理到后处理与前端联动的完整闭环;强调 Conf/IoU 在线调参与“继续获取下一帧”的帧流循环,以及最终 CSV/PNG/AVI 的可追溯导出。

在这里插入图片描述

图6-2 系统设计框图
图注:分层展示 Qt 客户端、会话与业务编排、推理调度与数据持久化四层边界;数据流自“多源帧流”进入推理链路并回写前端显示,同时由导出与数据库形成可追溯闭环。

6.2 登录与账户管理 — 流程图

下图描述系统的账户与会话管理闭环:应用启动后进入登录界面,用户可选择登录或注册,注册信息写入本地 SQLite 并形成独立的用户空间;登录阶段通过口令校验建立会话,成功后载入个性化配置(主题、默认模型、最近记录等)并进入主界面开展多源检测。该流程的价值在于将“用户偏好与历史记录”与检测业务天然绑定,使结果追溯、默认阈值与模型选择具备连续性,同时通过本地持久化实现离线可用与隐私友好;在注销或切换账号时,会话被显式清理并回到登录界面,保证不同用户的数据隔离与配置一致性。
在这里插入图片描述


7. 下载链接

    若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

在这里插入图片描述

功能效果展示视频:热门实战|《基于深度学习的稻田虫害检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程
数据集标注教程(如需自行标注数据):数据标注合集


参考文献(GB/T 7714)

1 OERKE E C. Crop losses to pests[J]. The Journal of Agricultural Science, 2006, 144(1): 31-43.
2 SAVARY S, WILLOCQUET L, PETHYBRIDGE S J, et al. The global burden of pathogens and pests on major food crops[J]. Nature Ecology & Evolution, 2019, 3(3): 430-439.
3 WU X, ZHAN C, LAI Y K, et al. IP102: A large-scale benchmark dataset for insect pest recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8787-8796.
4 REN S, HE K, GIRSHICK R, SUN J. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015.
5 LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[6] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988.
[7] TAN M, PANG R, LE Q V. EfficientDet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10781-10790.
[8] TIAN Z, SHEN C, CHEN H, HE T. FCOS: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9627-9636.
[9] ZHOU X, WANG D, KRÄHENBÜHL P. Objects as points[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 6499-6508.
[10] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[11] ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection[EB/OL]. arXiv:2304.08069, 2023.
[12] LV W, ZHAO Y, CHANG Q, et al. RT-DETRv2: Improved baseline with bag-of-freebies for real-time detection transformer[EB/OL]. arXiv:2407.17140, 2024.
[13] REDMON J, DIVVALA S, GIRSHICK R, FARHADI A. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[14] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022.
[15] ULTRALYTICS. Ultralytics YOLOv8 Documentation[EB/OL]. 2023.
[16] WANG A, CHEN H, LIU L, et al. YOLOv10: Real-time end-to-end object detection[C]//Advances in Neural Information Processing Systems. 2024.
[17] ULTRALYTICS. Ultralytics YOLO11 Documentation[EB/OL]. 2024.
[18] TIAN Y, YE Q, DOERMANN D S. YOLOv12: Attention-centric real-time object detectors[EB/OL]. arXiv:2502.12524, 2025.
[19] ZHENG Y, ZHENG W, DU X. Paddy-YOLO: An accurate method for rice pest detection[J]. Computers and Electronics in Agriculture, 2025, 238: 110777.
[20] 张荣华, 白雪, 樊江川. 复杂场景下害虫目标检测算法: YOLOv8-Extend[J]. 智慧农业(中英文), 2024, 6(2): 49-61.
[21] 刘鹏, 周海龙, 凌敏, 等. 基于改进YOLOv8的水稻田病虫害识别与检测方法[J]. 农业工程学报, 2024, 40(19): 208-216.
[22] 谭思桥, 胡昊, 李想, 等. 基于轻量化YOLOv8的水稻田虫害识别方法[J]. 农业工程学报, 2024, 40(23): 150-159.
[23] XIONG P, ZHANG C, HE L, et al. Deep learning-based rice pest detection research[J]. PLoS ONE, 2024, 19(11): e0313387.
[24] NVIDIA. NVIDIA TensorRT Documentation[EB/OL]. 2025.

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐