基于深度学习的海洋动物检测系统(YOLOv12完整代码+论文示例+多算法对比)
摘要:本文面向温室与近海养殖等复杂场景,构建一套“基于深度学习的海洋动物检测系统”,目标是在多光照、遮挡与尺度变化条件下实现稳定、可追溯的在线检测与离线复核。系统采用 PySide6/Qt 桌面端交互,支持 图片/视频/本地摄像头 多源输入,主显示区实时叠加检测框(类别名+置信度),并提供处理用时与处理进度条等反馈,保证长视频与批量任务的可控性。工程侧集成 CSV 导出、带框结果一键导出(单帧 PNG / 多帧 AVI),检测记录与账户信息通过 SQLite 本地入库实现统一管理;用户可在 登录/注册 后进入系统,也可选择一次性跳过以快速体验。算法侧覆盖 YOLOv5–YOLOv12 共 8 种模型,支持界面内模型选择/权重加载与 .pt 热切换,切换后同步刷新类别信息与配色;训练与评测阶段对比 mAP、F1、PR 曲线、训练曲线 等指标,为不同部署约束下的模型选型提供依据。文末提供完整工程与数据集下载链接。
文章目录
功能效果展示视频:热门实战|《基于深度学习的海洋动物检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
1. 系统功能与效果
(1)登录注册:系统提供登录与注册入口,首次使用可创建本地账户完成身份校验,也支持一次性跳过进入主界面以便快速体验。登录状态在当前会话内生效,进入系统后默认加载用户侧的历史记录与偏好设置,保证多次使用的连续性。账号与记录均采用本地化管理,既便于离线环境使用,也能避免将敏感信息外传。
(2)功能概况:主界面遵循“左侧控制—中部显示—右侧详情—底部记录”的交互布局,用户可以按动线完成数据选择、阈值调参、推理展示与结果复核。系统兼容图片、视频与本地摄像头等输入形式,核心操作在同一套交互逻辑下完成,减少不同模块之间的学习成本。底部提供检测记录与进度反馈,长任务也能保持可控与可追溯。
(3)选择模型:系统内置 YOLOv5–YOLOv12 的多模型对比与部署能力,用户可通过选择本地权重文件快速切换当前推理模型。切换后类别信息与可视化配色会同步刷新,保证结果解读的一致性。常用参数与界面主题支持本地保存,便于在不同检测任务间快速复用配置。
(4)图片检测:在图片检测场景下,系统支持单张与批量图片的快速推理,主显示区以叠加框形式展示目标位置,并标注类别名与置信度。用户可实时调节 Conf/IoU 等阈值以控制误检与漏检的平衡,并支持对特定目标进行选择与高亮,便于密集目标或遮挡目标的逐个核验。检测明细会同步写入记录视图,为后续的统计与导出提供结构化依据。
鱼类检测效果:
水母检测效果:
(5)文件保存:系统支持将检测结果按统一规范保存与导出,包括结构化的 CSV 结果表、带框的单帧图片导出,以及多帧结果的可视化视频导出,满足报告与复核的不同需求。导出文件采用时间戳等规则进行命名与归档,便于按任务批次检索、回放与对比。检测记录与用户信息可落地到本地数据库,既提升了历史追溯能力,也增强了离线场景下的稳定性与安全性。
2. 绪论
2.1 研究背景及意义
海洋动物检测是海洋牧场精细化管理、生态调查与资源评估中的关键环节,其目标是在复杂水下环境中对鱼类、海参、海胆、扇贝等生物目标进行可靠定位与计数,为增殖放流评估、病害与异常行为预警、自动化巡检和智能捕捞提供数据支撑1。与陆地视觉相比,水下成像普遍存在光照衰减与非均匀照明、悬浮颗粒引起的散射噪声、颜色偏移与对比度不足等问题,这会直接导致检测模型的特征表达不稳定,并放大小目标、密集目标和遮挡目标的漏检风险3。因此,面向海洋场景构建“算法可用、系统可用、结果可追溯”的一体化检测系统,不仅是实验室模型走向工程落地的必要路径,也为后续的数据治理与闭环迭代奠定基础。(Springer Nature)
在应用层面,海洋动物检测的价值往往体现在“连续、低成本、高一致性”的长期观测:一方面,固定点位或移动平台视频流可替代大量人工逐帧标注与统计工作,显著降低监测成本;另一方面,统一的检测与统计口径能够把分散的图像证据转化为结构化记录,支撑跨季节、跨海域的对比分析与溯源复核[8]。近年来,面向海洋牧场的水下小目标检测研究表明,通过注意力机制、图像增强与损失函数改造等手段,可以在真实采样数据上显著提升精确率、召回率与 mAP 等指标,从而更接近工程可用的稳定性要求5。
2.2 国内外研究现状
围绕“水下海洋动物检测”这一任务,国内外研究通常从数据集构建、检测网络设计与部署优化三个层面推进。数据层面,通用水下场景数据的不足会显著限制模型泛化,尤其在不同海域水体透明度、光照条件和拍摄设备差异较大时,模型往往出现明显的域偏移现象3。针对海洋牧场与开放海域的采摘与巡检需求,UDD 数据集以海参、海胆与扇贝为核心类别构建了 4K 真实开放海域农场采集样本,并指出类不平衡与“成群小目标”是影响检测效果的典型瓶颈6。进一步地,DUO 通过重新整理与统一标注相关数据集,并提供统一基准与嵌入式设备测速参考,为“同一测试口径下的精度与效率权衡”提供了更可复现的对比基础[7]。(arXiv)
在更广义的生态监测场景中,公开项目与竞赛也推动了水下鱼类与栖息地理解研究。Fish4Knowledge 项目强调从多路水下视频流中自动提取海洋动物信息并进入观测数据库,体现了“检测结果结构化入库”对生态研究与查询分析的重要性[8]。LifeCLEF 2015 Fish 任务提供了带人工标注的视频训练集与物种清单,体现了水下视频标注的高成本与物种间外观相似带来的识别难度[9]。DeepFish 以接近真实栖息地的复杂背景为目标,提出约 4 万规模图像数据用于多任务视觉评估,并进一步强化了“复杂背景与尺度变化是决定检测上限的关键因素”这一工程共识[10]。此外,跨数据集泛化问题在水下鱼类检测中尤为突出,相关研究显示当训练集缺失某一场景域时,模型对该域的识别能力可能显著退化,从而提示需要更系统的数据覆盖与训练策略设计[11]。(爱丁堡大学信息学主页服务器)
表 1 汇总了与本文任务紧密相关的代表性方法与公开指标(不同硬件与数据集设置下的速度指标仅作量级参考)。
| 方法名称 | 范式/家族 | 数据集 | 关键改进技术 | 优势与局限性 | 关键性能指标 | 适用场景或对应任务难点 |
|---|---|---|---|---|---|---|
| RT-DETR-R50[19] | Transformer,端到端 | COCO | 混合编码器与查询选择,避免 NMS | 端到端训练友好;对算力与实现细节更敏感 | 53.1% AP,108 FPS(T4) | 实时性与端到端部署需求强的场景 |
| YOLOv5nu[20] | 单阶段 YOLO | COCO | 轻量模型配置与工程化推理链路 | 生态成熟;对强域偏移需依赖数据与增强 | mAP 34.3,参数 2.6M | 轻量部署与快速迭代,基线对照 |
| YOLOv8n[21] | 单阶段 YOLO | COCO | 更通用的训练与导出支持 | 精度与速度均衡;小目标密集仍需多尺度策略 | mAP 37.3,参数 3.2M | 多分辨率输入与常规实时检测 |
| YOLOv10n[22] | 单阶段 YOLO,端到端趋势 | COCO | 强化端到端思路与延迟优化 | 延迟更优;在复杂遮挡下仍依赖数据覆盖 | AP 38.5,1.84 ms(T4) | 低延迟在线推理与视频流检测 |
| YOLO11n[23] | 单阶段 YOLO | COCO | 进一步优化速度与精度权衡 | 小模型可部署性强;跨海域场景需域适配 | mAP 39.5,参数 2.6M | 边缘端实时检测与轻量推理 |
| YOLO12n[24] | 单阶段 YOLO,注意力增强 | COCO | 强调注意力中心的特征建模 | 精度提升潜力大;实现与调参复杂度上升 | mAP 40.6,约 1.64 ms(T4) | 复杂背景与纹理干扰更强的场景 |
| AquaNet(含 UDD)6 | 单阶段,水下专用设计 | UDD | Poisson GAN 扩增与小目标高效检测模块 | 面向海洋牧场采摘;类别覆盖较窄 | 2227 图像,3 类,参数约 1.3M | 小目标密集与类不平衡问题突出 |
| YOLOv10-MECAS5 | YOLO 改进 | 海参真实采样集 | 注意力、增强与损失改造 | 面向弱光噪声与遮挡;对域外迁移仍需验证 | P=85.7%,R=81.5%,mAP0.5=89.7% | 弱光噪声、遮挡堆叠、小目标检测 |
(arXiv)
从方法范式看,海洋动物检测往往同时要求“精度可用”和“延迟可控”,这使得单阶段检测器在工程系统中更常作为主线方案[14]。在水下场景中,目标尺度跨度大与密集遮挡要求检测器具备更强的多尺度特征表达能力,而类间相似与背景伪装则要求特征融合与注意力机制能够更稳定地聚焦于目标结构信息6。端到端的检测思想通过减少后处理依赖,有助于降低推理链路的不确定性,并使实时系统更容易获得稳定延迟,这也是 RT-DETR 与 YOLOv10 在实时检测方向的重要趋势之一[19]。与此同时,通用检测器直接迁移到水下场景往往会遇到颜色偏移与光干扰导致的特征失配问题,因此“图像增强与检测联合优化”以及面向域偏移的数据驱动策略,逐渐成为提升跨海域泛化能力的重点路径3。(fmread.com)
在部署与系统层面,研究趋势正从“单点模型指标”转向“数据、模型与系统协同”。一方面,DUO 等工作在基准中显式加入嵌入式平台测速,提醒研究者将延迟、吞吐与资源占用纳入同等重要的评估维度[7]。另一方面,Ultralytics 系列模型在公开文档中给出统一的精度、参数量与推理延迟参照,使得工程系统可以围绕不同版本模型快速完成选型、切换与导出,从而把算法比较落到可复现的端到端流程中[23]。因此,面向“海洋动物检测系统”的研究不仅需要讨论检测器结构与训练策略,也应同时关注多源输入、可视化交互、批量导出与可追溯存储等系统能力,才能完整支撑真实场景的长期运行与迭代。(arXiv)
2.3 要解决的问题及其方案
本文面向海洋牧场与近海生态监测的典型应用,构建基于 PyTorch 的海洋动物检测与对比评测流程,并将多模型推理能力与 PySide6/Qt 桌面端交互界面集成,形成可训练、可推理、可评估、可追溯的完整系统。
要解决的问题主要包括:
(1)检测与识别的准确性与实时性难以兼顾,尤其在弱光、浑浊、噪声与运动模糊条件下,小目标与遮挡目标的漏检率容易上升。
(2)模型的环境适应性与泛化能力不足,不同海域水体颜色偏移与光干扰造成域偏移,使得“换场景就掉点”成为常见现象。
(3)桌面端交互界面的直观性与功能完整性不足,模型调参、目标筛选、结果复查与导出若缺少统一动线,会显著降低实际可用性。
(4)数据处理效率与存储安全性不足,检测记录、导出文件与用户会话若缺少规范化管理,将影响追溯复核与长期运行稳定性。
对应的解决方案包括:
(1)以 YOLOv12 为核心检测模型,同时对 YOLOv5–YOLOv12 进行统一训练、推理与对比评测,在 mAP、F1 与 PR 等指标下选择更适合水下场景的速度与精度折中点。
(2)结合数据增强、迁移学习与必要的图像增强策略,围绕弱光噪声、遮挡堆叠与尺度变化等难点进行针对性训练配置,并通过多模型对比验证泛化收益。
(3)采用 PySide6/Qt 实现桌面端端到端流程,将图片、视频与本地摄像头输入统一到同一交互逻辑下,并支持阈值调参与目标高亮选择,保证“所见即所得”的复查体验。
(4)优化数据处理与存储结构,采用缓存序列与时间戳命名保证导出可追溯,同时通过本地 SQLite 完成账户与结果管理,在可用性与数据安全之间取得平衡。
2.4 博文贡献与组织结构
本文的主要贡献体现在以下几个方面:
(1)综合文献综述:围绕水下海洋动物检测的任务难点、数据集与主流检测范式进行系统梳理,为模型与系统设计提供可对照的技术坐标。
(2)深度学习模型的选择与优化:以 YOLO 系列为主线完成 YOLOv5–YOLOv12 的训练与推理对比,结合水下场景特性讨论精度与速度权衡依据。
(3)美观友好的桌面端设计:构建 PySide6/Qt 桌面端交互闭环,使多源输入、阈值调参、结果可视化与导出管理能够在同一动线下完成。
(4)算法效果对比分析:在统一数据与评测口径下输出 mAP、F1、PR 与训练曲线等对比结果,并讨论误检漏检的成因与改进方向。
(5)完整的数据集和代码资源:形成可复现的工程化实现框架,便于读者在相近海域场景中迁移与扩展。
在组织结构上,本文后续章节将依次介绍:数据集处理与标注规范、YOLO 检测模型原理与关键组件、不同版本模型的实验对比与可视化分析,以及桌面端系统的分层设计、会话与数据管理、导出与追溯机制,最终给出总结与未来工作展望。
3. 数据集处理
本文所用海洋动物检测数据集共 4670 张图像,划分为训练集 4480 张、验证集 127 张、测试集 63 张,整体以“训练充分覆盖、验证小规模快速调参、测试独立评估泛化”为原则组织。标注采用与 YOLO 检测训练流程兼容的边界框监督形式,数据导入阶段会对类别索引、框坐标合法性与空标注样本进行一致性校验,避免因标注噪声导致训练不稳定或评测偏差。标签及其对应中文名如下:
Chinese_name = {'fish': '鱼', 'jellyfish': '水母', 'penguin': '企鹅', 'puffin': '海雀', 'shark': '鲨鱼',
'starfish': '海星', 'stingray': '黄貂鱼'}

从可视化样例可以看到,图像普遍存在复杂背景与多目标共现现象,且同一帧内往往同时出现大目标与小目标,目标间也可能发生遮挡与部分出画,这类情况会显著增加定位回归与分类判别的难度。结合标签统计分布图可观察到目标中心点大多落在画面中部区域,但宽高分布呈明显长尾,小框占比高且尺度跨度大,意味着模型若缺少足够的多尺度表达与针对小目标的训练策略,容易在密集区域出现漏检或定位偏移。为保证训练与推理链路一致,图像在进入网络前统一进行 640×640 的尺寸对齐,并通过等比例缩放与必要的填充保持几何关系稳定,从而使不同来源、不同分辨率的样本在同一尺度上可比较、可复现。
在增强与清洗策略上,训练阶段通常围绕海洋场景的关键干扰因素进行针对性设计:通过随机尺度变换、平移裁剪与组合式增强提升尺度鲁棒性,用颜色抖动与亮度对比度扰动模拟水下光照衰减与色偏,用模糊与噪声扰动逼近悬浮颗粒与运动拖影,并辅以翻转、仿射等操作提升姿态多样性;与此同时,对极小框、越界框、重复框与明显错误标注进行筛查与修正,保证监督信号的可信度。数据划分采用固定规则以保证可复现性,并尽量避免同一连续片段在不同集合间交叉带来的信息泄漏,使得验证与测试结果更能真实反映模型在“遮挡、尺度差异、反光与背景伪装”等难点条件下的泛化能力。
4. 模型原理与设计
本文默认以 YOLOv12 作为主线检测器,并以 YOLO 家族“单阶段、端到端高吞吐”的工程范式为基础,完成海洋动物多类别目标的定位与识别。相较于早期仅依赖 CNN 堆叠的改进思路,YOLOv12 强调以注意力机制为中心的网络设计,通过更高效的注意力计算与结构优化,在保持实时推理特性的同时提升特征建模能力,适合应对水下/水族箱场景中常见的纹理干扰、背景伪装与跨尺度目标共存等问题。根据官方说明,YOLOv12 的关键点包括 Area Attention(区域注意力)以降低标准自注意力的计算代价、R-ELAN(残差高效层聚合)以改善特征聚合与优化稳定性,并可选用 FlashAttention 等技术减少显存访问开销。(Ultralytics Docs)
从结构上看,YOLOv12 仍沿用“Backbone–Neck–Head”的经典三段式:主干网络负责从输入图像中提取分层语义特征,颈部网络通过自顶向下与自底向上的多尺度融合增强小目标与遮挡目标的可检性,检测头在多个尺度输出类别与边界框回归结果。区域注意力可以视为对特征图 X ∈ R H × W × C X\in\mathbb{R}^{H\times W\times C} X∈RH×W×C 的高效自注意力近似:将特征按空间维划分为 L L L 个区域(水平或垂直分块),在区域内计算注意力并聚合,使得每个位置既能获得较大感受野,又避免全局注意力 O ( ( H W ) 2 ) O((HW)^2) O((HW)2) 的高开销;其基本形式仍可写为
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(dQK⊤)V,
其中 Q , K , V Q,K,V Q,K,V 由输入特征线性映射得到, d d d 为通道维度缩放项。网络整体架构图如下图所示

在检测任务建模上,模型对每个尺度特征图输出候选框集合 b i ∗ i = 1 N {b_i}*{i=1}^{N} bi∗i=1N 及其类别置信度,边界框通常表示为 b = ( x ∗ min , y min , x max , y max ) b=(x*{\min},y_{\min},x_{\max},y_{\max}) b=(x∗min,ymin,xmax,ymax) 或中心点形式 ( x , y , w , h ) (x,y,w,h) (x,y,w,h),并在推理阶段还原到原图坐标系以完成可视化叠加。回归监督的核心是度量预测框与真实框的重叠程度,最常用的是 IoU:
I o U ( B , B ^ ) = ∣ B ∩ B ^ ∣ ∣ B ∪ B ^ ∣ , \mathrm{IoU}(B,\hat{B})=\frac{|B\cap \hat{B}|}{|B\cup \hat{B}|}, IoU(B,B^)=∣B∪B^∣∣B∩B^∣,
其中 B B B 为真实框、 B ^ \hat{B} B^ 为预测框;为提升收敛与定位精度,实践中常用 CIoU/EIoU 等改进项对中心距离与宽高差异进行惩罚,例如 CIoU 可写为
L ∗ C I o U = 1 − I o U + ρ 2 ( c , c ^ ) d 2 + α v , \mathcal{L}*{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{c},\hat{\mathbf{c}})}{d^2}+\alpha v, L∗CIoU=1−IoU+d2ρ2(c,c^)+αv,
其中 c , c ^ \mathbf{c},\hat{\mathbf{c}} c,c^ 为两框中心点, ρ ( ⋅ ) \rho(\cdot) ρ(⋅) 为欧氏距离, d d d 为最小外接框对角线长度, v v v 衡量长宽比一致性, α \alpha α 为权重系数。分类与目标性分支通常采用二元交叉熵等形式进行监督,并与框回归损失加权求和得到总损失 L = λ ∗ b o x L ∗ b o x + λ ∗ c l s L ∗ c l s + λ ∗ o b j L o b j \mathcal{L}=\lambda*{box}\mathcal{L}*{box}+\lambda*{cls}\mathcal{L}*{cls}+\lambda*{obj}\mathcal{L}_{obj} L=λ∗boxL∗box+λ∗clsL∗cls+λ∗objLobj,通过权重系数在“误检抑制”和“漏检降低”之间取得平衡。
训练与正则化策略需要与海洋动物检测的难点对齐:针对小目标与密集目标,多尺度训练与适度的几何增强有助于提升尺度鲁棒性;针对水下光照衰减与色偏,颜色与对比度扰动可增强域内泛化;针对遮挡与背景伪装,注意力特征聚合与更强的特征融合往往能提升可分性。优化上常用余弦退火学习率以获得更平滑的收敛过程:
η t = η min + 1 2 ( η max − η min ) ( 1 + cos π t T ) , \eta_t=\eta_{\min}+\frac{1}{2}(\eta_{\max}-\eta_{\min})\left(1+\cos\frac{\pi t}{T}\right), ηt=ηmin+21(ηmax−ηmin)(1+cosTπt),
其中 η t \eta_t ηt 为第 t t t 次迭代学习率, T T T 为总迭代步数;配合权重衰减、EMA 等手段可降低小验证集设置下的震荡风险。推理阶段通过置信度阈值 τ c o n f \tau_{conf} τconf 与 NMS 的 IoU 阈值 τ n m s \tau_{nms} τnms 控制输出密度:当候选框集合中两框 IoU 大于 τ n m s \tau_{nms} τnms 时保留得分更高者,从而减少同一目标的重复框;在本文系统中,这一过程与界面侧的 Conf/IoU 滑块形成一致映射,使用户能够以交互方式快速观察阈值变化对误检与漏检的影响,并为后续的模型对比与部署选型提供直观依据。
5. 实验结果与分析
本章实验目标是在同一数据集与统一推理链路下,对 YOLOv5–YOLOv12 的 8 个轻量模型进行精度与效率对比,给出可用于桌面端部署选型的结论。数据集为 7 类海洋动物检测任务(鱼/水母/企鹅/海雀/鲨鱼/海星/黄貂鱼),图像总量 4670 张(训练 4480、验证 127、测试 63),评价指标采用 Precision、Recall、F1、mAP@0.5(记为 mAP50)与 mAP@0.5:0.95(记为 mAP50-95);推理耗时按预处理/前向推理/后处理分段统计,硬件平台为 NVIDIA GeForce RTX 3070 Laptop GPU(8GB)。从指标体系上看,mAP50 反映“能否检出”的总体水平,mAP50-95 对框定位质量更敏感,而 F1 则更适合与系统侧 Conf/IoU 阈值调参形成闭环,便于在“误检与漏检”之间找到面向业务的平衡点。
表 5-1 汇总了两组规模(n 与 s)在同一硬件下的关键结果,并给出单图端到端总耗时与等效 FPS(以 1000 / (Pre+Inf+Post) 估算)。整体上,n 组模型在 10–16 ms 区间即可完成单图推理,具备较好的实时性;s 组模型在精度侧更稳定,尤其 mAP50-95 普遍高于 n 组,体现出更强的定位与泛化能力,但部分模型的 InfTime 增加明显。以 n 组为例,YOLOv9t 在 F1(0.762)与 mAP50(0.761)上领先,但推理时延约 19.67 ms(≈50.8 FPS);若追求更高吞吐,YOLOv8n 与 YOLOv6n 的总耗时分别约 10.17/10.34 ms(≈98.3/96.7 FPS),但 mAP50 分别为 0.748/0.671,属于“速度优先”的取舍。s 组中 YOLOv9s 的 mAP50 最高(0.769),而 YOLOv12s 的 mAP50-95 最高(0.484),两者都优于多数基线;若更看重稳定交互与较低延迟,YOLOv8s 以约 11.39 ms(≈87.8 FPS)提供 0.756 的 mAP50 与 0.441 的 mAP50-95,属于“速度与精度均衡”的更稳妥选择。
表 5-1 不同 YOLO 模型在 MarineDataset 上的精度与效率对比(RTX 3070 Laptop,单图统计)
| 规模 | Model | Params(M) | FLOPs(G) | Total(ms) | FPS | Precision | Recall | F1 | mAP50 | mAP50-95 |
|---|---|---|---|---|---|---|---|---|---|---|
| n | YOLOv5nu | 2.6 | 7.7 | 10.94 | 91.4 | 0.830 | 0.697 | 0.758 | 0.753 | 0.434 |
| n | YOLOv6n | 4.3 | 11.1 | 10.34 | 96.7 | 0.748 | 0.606 | 0.669 | 0.671 | 0.362 |
| n | YOLOv7-tiny | 6.2 | 13.8 | 21.08 | 47.4 | 0.742 | 0.713 | 0.727 | 0.712 | 0.372 |
| n | YOLOv8n | 3.2 | 8.7 | 10.17 | 98.3 | 0.785 | 0.708 | 0.744 | 0.748 | 0.434 |
| n | YOLOv9t | 2.0 | 7.7 | 19.67 | 50.8 | 0.827 | 0.707 | 0.762 | 0.761 | 0.449 |
| n | YOLOv10n | 2.3 | 6.7 | 13.95 | 71.7 | 0.796 | 0.676 | 0.731 | 0.737 | 0.441 |
| n | YOLOv11n | 2.6 | 6.5 | 12.97 | 77.1 | 0.754 | 0.706 | 0.729 | 0.743 | 0.442 |
| n | YOLOv12n | 2.6 | 6.5 | 15.75 | 63.5 | 0.802 | 0.672 | 0.731 | 0.752 | 0.445 |
| s | YOLOv5su | 9.1 | 24.0 | 12.24 | 81.7 | 0.814 | 0.665 | 0.732 | 0.739 | 0.441 |
| s | YOLOv6s | 17.2 | 44.2 | 12.26 | 81.6 | 0.772 | 0.657 | 0.710 | 0.693 | 0.390 |
| s | YOLOv7 | 36.9 | 104.7 | 29.52 | 33.9 | 0.812 | 0.713 | 0.759 | 0.741 | 0.438 |
| s | YOLOv8s | 11.2 | 28.6 | 11.39 | 87.8 | 0.795 | 0.689 | 0.738 | 0.756 | 0.441 |
| s | YOLOv9s | 7.2 | 26.7 | 22.17 | 45.1 | 0.775 | 0.731 | 0.752 | 0.769 | 0.480 |
| s | YOLOv10s | 7.2 | 21.6 | 14.19 | 70.5 | 0.792 | 0.652 | 0.715 | 0.746 | 0.456 |
| s | YOLOv11s | 9.4 | 21.5 | 13.47 | 74.2 | 0.787 | 0.704 | 0.743 | 0.752 | 0.469 |
| s | YOLOv12s | 9.3 | 21.4 | 16.74 | 59.7 | 0.793 | 0.691 | 0.738 | 0.759 | 0.484 |

上图给出了 n 组模型在 F1 与 mAP50 上的直观对比,可作为“轻量部署优先”场景的第一参考:如果系统希望在更高帧率下维持 0.74 左右的 F1 与 0.75 左右的 mAP50,YOLOv5nu/YOLOv8n 更容易达到体验上的稳定;若更关注“同等阈值下的整体上限”,YOLOv9t 的优势更明显,但需要接受推理时延上升带来的帧率下降。另一方面,训练曲线显示指标在前期快速提升、后期趋于平台,说明当前训练设置下模型已基本收敛;结合桌面端交互需求,博主更建议在收敛后把精力放到阈值选择、误检样本分析与数据增补上,而不是单纯延长训练轮次。

从类别层面看,PR 曲线与混淆矩阵共同揭示了“强类更强、弱类更弱”的典型长尾现象:水母(jellyfish)在 PR 曲线中表现最好(AP≈0.931),而企鹅(penguin)与海雀(puffin)相对更弱(AP≈0.612/0.652),这与水下或水族箱画面中小目标、遮挡、背景纹理相似以及运动模糊叠加的情况一致。

归一化混淆矩阵的对角线值进一步显示,jellyfish(0.90)明显高于 puffin(0.49),且 puffin 存在较高比例被判为 background 的情况,属于“漏检主导”的错误模式;这类错误在系统侧往往表现为“目标靠边、尺度较小或遮挡时不出框”,因此若业务更看重召回,建议将 Conf 的默认值从较保守的 0.25 下调到约 0.20 左右进行试探(F1-Confidence 曲线给出的全局最优点约在 0.206,F1≈0.73),并配合 IoU 阈值与 NMS 策略减少重复框带来的误检。对于数据与训练侧改进,优先级通常是:补充 puffin/penguin 的困难样本(小尺度、逆光、遮挡、出画)、提高小目标比例的增强覆盖(多尺度、随机裁剪与更贴近真实的模糊/噪声扰动),以及在评测阶段按类别查看 PR 下降区间,从而更有针对性地定位“哪一类在高召回段精度掉得最快”。
综合以上结果,如果以“桌面端默认模型”为目标,博主倾向于给出两档推荐:第一档是偏实时的 YOLOv8n(或 YOLOv5nu),在接近 90–100 FPS 的量级下提供约 0.75 的 mAP50,适合摄像头流与长视频交互;第二档是偏精度的 YOLOv9t(n 组上限)或 YOLOv9s/YOLOv12s(s 组定位质量更强),更适合离线批处理、抽检复核与需要更高 mAP50-95 的场景。后续若希望进一步提升系统整体效果,建议把优化目标明确落到“弱类召回”和“定位质量”两条线上:前者通过困难样本补齐与阈值策略微调解决,后者通过提高输入分辨率或更偏 s 组的模型规模来改善,并在系统侧保留权重热切换与记录回放能力,以便快速验证改动带来的增益是否稳定可复现。
6. 系统设计与实现
6.1 系统设计思路
本系统以“桌面端可交互、推理链路可复现、结果可追溯”为核心目标,采用分层架构将界面与交互、业务与会话、推理与任务调度、数据持久化四类职责解耦。表现与交互层由 PySide6/Qt 客户端承担,界面布局遵循“左侧源与阈值、中央检测视图、右侧目标详情、底部记录与进度条”的一致范式,使用户能在单一动线内完成输入源切换、参数调整、目标核验与导出复盘。业务与会话管理层负责把登录态、个性化配置、当前模型与阈值参数固化为可控状态,并对“多源输入互斥、任务生命周期、导出编排”进行统一治理,从而避免视频、图片与摄像头并发造成的状态错乱。
推理与任务调度层以事件驱动的帧流为核心组织方式:媒体接入模块负责读取图像与视频帧或采集摄像头流,进入异步任务队列后进行统一的预处理(如 640×640 对齐、归一化与张量转换),随后调用 YOLO 推理引擎完成前向计算,并在后处理阶段执行置信度与 IoU 阈值过滤、NMS 去重以及坐标还原。该层将“推理耗时、当前帧号、累计统计”等状态以信号或消息形式回传至界面层,形成进度条、用时显示与记录表格的联动闭环;同时,Conf/IoU 滑块与目标选择高亮在界面侧触发参数更新后,会同步作用于后处理逻辑,保证用户看到的结果与当前阈值严格一致。
数据持久化层面,系统将“账户与权限、历史记录与个性化配置、模型信息与导出索引”落地到本地 SQLite,以支持离线环境的安全管理与快速检索;文件系统侧则用于归档导出的 CSV、带框 PNG 与 AVI 以及模型权重与日志。为提高可追溯性,导出采用时间戳命名与统一归档规则,配合记录表中的文件名索引实现“一键定位与复查”;同时保留模型热切换能力,使用户可在不重启客户端的情况下加载新的 .pt 权重并刷新类别与配色,从而在同一数据源上快速完成多模型对比与回放验证。异常恢复策略上,系统通过源互斥、任务可中断与资源释放机制降低长视频处理的崩溃风险,并在关键状态变更处记录日志,便于后续问题定位与迭代优化。

图6-1 系统流程图
图注:该流程覆盖系统自初始化到多源输入接入,完成预处理、YOLO 推理与后处理,并与 Conf/IoU 滑块、目标高亮、CSV/PNG/AVI 导出及时间戳命名形成交互闭环。

图6-2 系统设计框图
图注:该框图以分层视角刻画 Qt 客户端、会话与业务控制、推理与任务调度、数据持久化之间的模块边界与数据流向,并显式体现模型权重管理与日志监控接口。
6.2 登录与账户管理 — 流程图

图6-3 登录与账户管理流程图
图注:该流程以“可注册、可登录、可一次性跳过”为入口,登录成功后载入个性化配置与最近记录,并与主检测流程共享会话状态与本地持久化能力。
在登录与账户管理链路上,系统启动后首先呈现登录界面,用户可选择直接登录、注册新账号或一次性跳过进入主界面;当用户选择注册时,客户端完成用户名、邮箱与口令的合法性校验并将账户信息写入本地数据库形成持久化记录,随后进入登录流程完成口令校验并建立会话状态。登录成功后系统会自动载入个性化配置(如主题、默认模型与最近检测记录),使主检测界面能够在一致的参数与偏好下运行,并在底部记录区实现对历史任务的快速定位与复查;在使用过程中,用户可进行资料修改(口令、语言、主题等)并同步写回本地持久化层,注销或切换账号会清理会话状态并回到登录入口,从而保证多用户离线场景下的数据隔离、配置独立与结果可追溯性。
7. 项目资源链接
若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

项目完整文件请见项目介绍及功能演示视频处给出:
完整项目及文档: https://newtopmat.feishu.cn/wiki/DSZfwvEHsiI2Lnk02uzcvblCnCb
功能效果展示视频:热门实战|《基于深度学习的海洋动物检测系统》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd;
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程;
数据集标注教程(如需自行标注数据):数据标注合集
参考文献(GB/T 7714)
1 JIAN M, YANG N, TAO C, et al. Underwater object detection and datasets: a survey[J]. Intelligent Marine Technology and Systems, 2024, 2: 9. DOI:10.1007/s44295-024-00023-6.
2 NABAHIRWA E, SONG W, ZHANG M, et al. A Structured Review of Underwater Object Detection Challenges and Solutions: From Traditional to Large Vision Language Models[EB/OL]. arXiv:2509.08490, 2025.
3 FU C, LIU R, FAN X, et al. Rethinking general underwater object detection: Datasets, challenges, and solutions[J]. Neurocomputing, 2023, 517: 243-256. DOI:10.1016/j.neucom.2022.10.039.
4 LIU H, SUN T. Lightweight marine biological target detection algorithm based on YOLOv5[J]. Frontiers in Marine Science, 2023, 10: 1219155. DOI:10.3389/fmars.2023.1219155.
5 刘侦龙, 王骥, 麦仁贵. 基于改进YOLOv10s的海洋牧场水下海参检测方法[J]. 农业工程学报, 2025, 41(10): 186-194. DOI:10.11975/j.issn.1002-6819.202412109.
6 LIU C, WANG Z, WANG S, et al. A New Dataset, Poisson GAN and AquaNet for Underwater Object Grabbing[EB/OL]. arXiv:2003.01446, 2020.
[7] LIU C, LI H, WANG S, et al. A Dataset And Benchmark Of Underwater Object Detection For Robot Picking[EB/OL]. arXiv:2106.05681, 2021.
[8] FISH4KNOWLEDGE PROJECT. Fish4Knowledge Homepage[EB/OL]. (2010-2013)[2025-12-20].
[9] IMAGECLEF. LifeCLEF 2015 Fish task[EB/OL]. (2015)[2025-12-20].
[10] SALEH A, LARADJI I H, KONOVALOV D A, et al. A realistic fish-habitat dataset to evaluate algorithms for underwater visual analysis[J]. Scientific Reports, 2020, 10(1): 14671. DOI:10.1038/s41598-020-71639-x.
[11] XU W, MATZNER S. Underwater Fish Detection using Deep Learning for Water Power Applications[EB/OL]. arXiv:1811.01494, 2018.
[12] SALMAN A, et al. Automatic fish detection in underwater videos by a deep neural network-based hybrid motion learning system[J]. ICES Journal of Marine Science, 2020, 77(4): 1295-1307.
[13] ZHAO Y, LV W, XU S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023.
[14] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[15] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
[16] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988.
[17] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
[18] CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision. 2020: 213-229.
[19] ULTRALYTICS. Ultralytics YOLO11 Models[EB/OL]. (2024)[2025-12-20].
[20] ULTRALYTICS. Ultralytics YOLOv5 Models[EB/OL]. (2023)[2025-12-20].
[21] ULTRALYTICS. Ultralytics YOLOv8 Models[EB/OL]. (2023)[2025-12-20].
[22] ULTRALYTICS. Ultralytics YOLOv10 Models[EB/OL]. (2024)[2025-12-20].
[23] ULTRALYTICS. Ultralytics YOLO12 Models[EB/OL]. (2025)[2025-12-20].
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)