1、背景介绍

针对海洋资源勘探、水下生态保护、水产养殖管控与水下工程安全等需求,面向近海海域、水产养殖池、水下施工区域、海洋保护区等场景,研发基于深度学习与AI的水下目标检测与预警系统(目标类别包括:echinus(海胆)、holothurian(海参)、scallop(扇贝)、starfish(海星))具有重要的现实意义。随着海洋资源开发力度加大、水产养殖规模化发展以及水下生态保护规范化推进,上述四类水下目标作为影响水产养殖效益、海洋生态平衡和水下工程安全的核心因素,其分布分散性强、活动隐蔽性高、种类识别难度大、动态监测滞后等问题日益突出。由此引发的养殖损耗、生态破坏、工程隐患等管理痛点愈发严峻,年均因监测不及时、识别不准确而导致的水产病害传播、养殖减产、生态失衡、水下施工受阻等问题频发,严重制约了海洋资源利用效率、水产养殖效益与水下作业安全。

传统的人工潜水探测和定点采样监测,受水下环境复杂、人力成本高昂、监测范围有限、识别精度低、动态捕捉滞后等因素制约,难以实现全水域、全时段的精准监测与管控。而AI智能分析技术能够依托四类目标的形态特征、运动轨迹及水下环境差异,捕捉不同目标的细微形态变化与动态行为,在水质浑浊、光照不足、目标密集、水流干扰等复杂水下环境中,实现四类目标的精准识别与分类,突破传统监测技术在复杂环境下难以适配、难以实现多目标同步识别及监测范围有限的瓶颈。

将深度学习目标检测算法与AI智能分析、水下视频监控设备相结合,能够精准识别echinusholothurianscallopstarfish四类核心监测目标,有效区分它们与水下杂物、水生植物、礁石等干扰因素,并准确获取各类目标的数量、分布位置、活动状态与生长情况。借助水下视频监控的全时段值守与水下机器人的灵活巡航优势,可实现对监测水域内四类目标的自动识别、精准分类、数量动态统计及异常状态预警,同步将预警信息推送至管理人员与监测终端,及时反馈目标异常聚集、病害感染、分布失衡等问题,提升水下监测系统的智能化、全域化与精准处置能力。该系统对规范水产养殖管理、提升海洋资源勘探效率、保护海洋生态平衡、防范水下工程隐患、降低人工监测成本、强化水下目标精准管控具有重要应用价值,为水产养殖、海洋勘探、生态保护、水下工程等各类水下场景的规范化管理和智能化监测提供高效、可靠的技术支撑,助力破解水下四类目标监测难、识别准度低、动态管控滞后等管理难题,保障水下作业安全,提升海洋资源利用效能,维护海洋生态平衡。

2、算法结构

目标检测是一种基于目标集合与统计特征的图像分割任务,主要包括分类问题和检测定位问题。基于深度学习的目标检测算法主要分为两大类:基于回归分析的单阶段目标检测与基于候选区域的两阶段目标检测。

基于回归分析的单阶段目标检测算法在检测目标时采用端到端的网络结构,直接对图像进行计算并生成检测结果,检测速度快但精度相对较低,代表算法为YOLO系列和SSD系列。2015年,Joseph等人提出了YOLO算法,其核心思想是将一张图片划分为多个网格,每个网格负责预测中心点落在该网格中的物体。该算法检测速度快、能有效避免背景错误,并学习到物体的泛化特征,但存在定位不准、精度低以及对小物体检测效果不佳的问题。此后,Joseph团队从骨干网络和跨尺度特征融合等方面对YOLO进行优化改进,相继提出了YOLOv2和YOLOv3。2016年,Liu等人结合YOLO的检测速度优势与Faster R-CNN的锚框思想,提出了SSD算法,并引入多尺度特征图进行检测,在满足速度要求的同时大幅提升了检测精度。然而,由于小尺寸目标多采用较低层级的锚框进行训练,而较低层级的特征非线性程度不足,难以达到足够的精确度,因此SSD在小目标检测上仍存在不足。

基于候选区域的两阶段目标检测算法先对图像提取候选框,再对候选框进行分类回归以获得检测结果,检测精度较高,但速度较慢、训练时间长且误报率较高,代表算法包括R-CNN系列、SPP-Net和FPN。2014年,Girshick等人提出R-CNN,通过选择性搜索提取候选区域,将其变换为标准尺寸后使用改进的AlexNet筛选有效候选框,最后通过支持向量机分类并进行线性回归获得边界框。该算法准确性较高,增强了特征对样本的表示能力,但由于图像尺寸限制易造成目标失真变形,且存在冗余计算、检测速度慢的问题。针对这一不足,He等人提出SPP-Net,在卷积层与全连接层之间引入空间金字塔池化模块,不仅能够对候选区域进行任意比例的特征提取,还能减少重复计算,从而在提高检测精度的同时提升检测速度,但训练过程仍为多阶段,无法实现端到端训练。2015年,Girshick等人结合R-CNN与SPP-Net的特点提出Fast R-CNN,通过卷积层对整张图像及候选区域进行特征提取,并使用感兴趣池化层和Softmax分别取代空间金字塔池化模块与SVM,同时提高了精度与速度,但由于选择性搜索算法只能依赖CPU,仍无法实现实时检测。同年,Ren等人提出Faster R-CNN,其最大创新是首次引入候选区域网络(Region Proposal Network, RPN),实现了端到端训练并支持GPU上的实时检测,但由于锚框(anchor)的使用,对小目标的检测效果仍不理想。2017年,Lin等人在Faster R-CNN基础上提出特征金字塔网络(FPN),通过多层特征融合大幅提升了对小目标的检测效果。

为兼顾检测性能与实时性要求,本文选用以YOLOv8为基础的单阶段目标检测算法作为基准。YOLOv8作为迭代升级的实时目标检测框架,凭借更快的检测速率和显著提升的检测精度,在同类算法中展现出明显优势。本文将在此模型基础上开展改进与优化工作,以进一步增强目标检测的准确性与实时性,从而更好地适配特定应用场景的复杂需求。

3、数据集

本研究所用数据集来源于公开数据集UnderwaterDataset。共选取四类水下目标的9600张图像,每张图像大小为640×640像素,包含不同光照强度和不同角度的样本。通过在线标注工具MakeSense(https://www.makesense.ai/)进行标注,将标注后的图像划分为训练集6561张、验证集1639张、测试集1400张。

目录结构

UnderwaterDataset
├── images/
│   ├── train/
│   ├── val/
│   └── test/
└── labels/
    ├── train/
    ├── val/    
    └── test/

适用算法
YOLO系列(yolov26/yolov13/yolov12/yolov11/yolov10/yolov8/yolov5等)

类别
echinus(海胆)、holothurian(海参)、scallop(扇贝)、starfish(海星)

YAML文件配置

path: UnderwaterDataset  # dataset root dir
train: images/train      # train images (relative to 'path')
val: images/val          # val images (relative to 'path')
test: images/test        # test images (optional)
names: ['echinus', 'holothurian', 'scallop', 'starfish']

4、评价指标

本文采用的评估指标包括:综合精确率(Precision)和召回率(Recall)的F1-Score、平均精度均值(mAP)、计算量(GFLOPs)以及权重大小(Model Size)。其中mAP表示IoU阈值取0.5时的值。具体计算公式如下:

[
P = \frac{TP}{TP+FP}, \quad R = \frac{TP}{TP+FN}, \quad F1 = \frac{2 \times P \times R}{P+R}, \quad AP = \int_0^1 P® dR, \quad mAP = \frac{1}{N} \sum_{i=1}^{N} AP_i
]

式中:TP为真正例,FP为假正例,FN为假负例,AP为平均精度,P为精确率,R为召回率。

5、实验环境

本实验在Windows操作系统上进行,采用的深度学习框架为PyTorch 2.6.0,编程语言为Python 3.10.0,CUDA版本为12.6,GPU为NVIDIA GeForce RTX 4060(显存8GB)。模型训练过程中,批处理大小(BatchSize)设为32,训练总轮数(Epochs)设为50,初始学习率设为0.01,动量参数因子为0.937,优化器权重衰减系数设为0.0005,以加速收敛并获得更优性能。

6、训练脚本

# train.py
from ultralytics import YOLO

if __name__ == '__main__':
    # 初始训练
    model = YOLO(r"yolov8n.yaml")
    model.load("yolov8n.pt")
    results = model.train(data=r"data.yaml",
                          epochs=50,
                          imgsz=640,
                          batch=32,
                          workers=4,
                          device=0,
                          name="train")

7、实验结果

(本部分内容暂未提供)

8、系统实现

YOLO目标检测系统主要包括登录页面和主页面,其中主页面集成了三大核心检测功能,各功能操作便捷、检测高效,具体介绍如下:

  • 登录页面:作为系统入口,用户需输入正确的账号密码完成登录,验证通过后方可进入主页面使用各项检测功能,保障系统使用安全,防止未授权访问。
  • 主页面:为核心操作区域,集中展示图片检测、视频检测、摄像头实时检测三大功能入口,界面简洁直观,方便用户快速找到所需功能,各项检测操作均在主页面内完成。

✅ 图片检测:支持单张图片输入检测。用户上传图片后,YOLO模型快速对图像进行分析,精准识别其中的各类目标,自动在图像中框选目标位置,并同步返回检测框坐标及目标类别信息,检测结果直观可见,适用于单帧图像的快速目标识别场景。

✅ 视频检测:支持各类常见格式的视频文件输入。检测过程中,YOLO模型对视频的每一帧进行逐帧分析与精准识别,在每帧画面中标记出检测到的目标,最终可输出带目标框的完整视频文件,也可进行实时画面展示,广泛应用于视频监控、动态场景分析等需求场景。

✅ 摄像头实时检测:支持连接USB摄像头,实现实时目标监测功能。YOLO模型实时捕捉摄像头传输的视频流,同步进行目标检测与识别,即时在画面中显示检测结果,提供快速、精准的即时反馈,适用于安防监控、无人驾驶、智能交通等对实时性要求较高的应用场景。

此外,系统所有检测功能均支持DeepSeek AI对检测结果进行智能分析,可进一步挖掘检测数据的深层信息,提升检测结果的实用性和解读效率,为用户提供更全面的检测服务。

  • 登录界面:用户名:admin,密码:123456
  • 主界面:(略)
  • 视频演示:(略)

9、应用场景

基于深度学习与AI的水下目标检测与预警系统,聚焦echinus(海胆)、holothurian(海参)、scallop(扇贝)、starfish(海星)四类核心目标,依托水下视频监控的全时段值守与广覆盖优势,结合AI智能分析对目标形态特征、运动轨迹的精准捕捉能力,以及在水质浑浊、光照不足等复杂环境下的抗干扰能力,搭配深度学习算法的高效识别、精准分类与实时预警功能,可广泛应用于各类水下场景的规范化管理、生态保护及效益提升:

  • 水产养殖池:精准识别养殖区域内四类目标的分布密度与生长状态,统计各类目标数量、定位异常聚集区域,破解传统人工潜水监测范围有限、易遗漏、识别准确率低、养殖隐患难以提前发现等痛点。
  • 海洋保护区:实现辖区水域全域无死角监测,快速定位四类目标的分布范围与活动规律,同步推送目标异常变动、过度聚集等预警信息至生态管护人员,助力及时采取干预措施,防范因目标分布失衡、过度捕捞导致的生态破坏和生物多样性下降。
  • 水下施工区域:精准区分四类目标与施工障碍物、废弃杂物,实时捕捉目标靠近施工区域的动态,为水下施工安全防控提供准确依据,弥补传统水下施工监测人工成本高、视野受限、隐患发现不及时的短板。
  • 近海海域:依托水下机器人灵活巡航与全天候作业优势,精准识别不同海域四类目标的分布特征与数量变化,实时跟踪活动轨迹与生长状态,同步推送异常预警与管护指引,减少人工监测盲区,降低水下监测与生态管护成本。
  • 海洋资源勘探:快速区分四类目标与水下礁石、沉积物等干扰因素,精准定位目标富集区域,同步推送勘探数据与资源分布建议,助力勘探人员高效开展资源调查,提升勘探效率与精准度,避免因目标识别偏差导致的资源遗漏和成本浪费。
  • 水产养殖效益提升:通过监测养殖区域内四类目标的生长规律与分布变化,精准定位养殖隐患与产量提升空间,同步推送养殖优化建议与病害防控指引,助力养殖户规范管理、提升产量与品质,避免因监测不及时导致的养殖损耗和病害传播。
  • 海洋生态保护:汇总分析不同海域、不同时段四类目标的分布规律与数量变动趋势,为生态保护政策制定、管护措施优化及生物多样性保护提供数据支撑,推动海洋生态管护向精细化、智能化转型。

该系统全方位满足各类水下场景对四类目标的精准检测、分类识别、实时预警与规范管护需求,有效破解传统水下目标监测识别不准、分类模糊、异常变动发现滞后、复杂环境适应能力弱等痛点,为水下场景的规范化管理、生态精准保护、效益提升与成本降低提供智能化科技支撑,显著提升水下监测效能与综合管理水平。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐