最新YOLO实现的动物识别实时检测平台（Flask+SocketIO+HTML/CSS/JS）

逗逗班学Python

707人浏览 · 2026-04-10 16:25:25

逗逗班学Python · 2026-04-10 16:25:25 发布

摘要

本文面向机场航拍小目标实时检测场景，构建一套端到端的平台化方案，集成Flask + Flask-SocketIO/HTML/CSS/JS 的Web 网页界面与后端推理服务，支持图片/视频/浏览器摄像头输入，面向滑跑道异物、场坪车辆、人员与机位器材等细粒度目标的在线识别与告警。前端提供左右等宽双画面对比（原图/检测）、进度控制（播放/暂停/继续/停止与拖拽）、Conf/IoU 调节与类别筛选、CSV 导出、带框结果一键下载，并将关键元数据与检测日志写入 SQLite，配合登录/注册（可跳过）实现受控访问与会话续存。系统内置模型选择/权重上传，可在**YOLOv5–YOLOv12（共 8 种）**之间一键切换，后端统一评测并可视化 mAP、F1、PR 曲线、训练曲线 等指标；同时支持批量离线评估与在线误检回溯，完成从数据到部署的闭环。平台针对航拍小目标“远距离、密集、尺度差异与遮挡”的难点进行了界面与推理链路优化，兼容 ONNX/TensorRT 的轻量化部署。文末提供完整工程与数据集下载链接，便于复现实验与二次开发。
讲解视频地址：https://www.bilibili.com/video/BV14MQFBBE78/

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 网页功能与效果

（1）登录注册：系统提供登录、注册与一次性跳过三种入口，登录成功后会话仅在当前浏览器生效，未登录用户保留基础检测权限但不开放历史与批量导出。口令采用哈希与过期策略管理，前端仅保存必要会话信息；支持找回与修改资料，以保证体验与安全的平衡。
在这里插入图片描述

（2）功能概况：主导航按“概览 → 图片检测 / 视频检测 / 摄像头检测 → 模型选择 → 导出视图”组织，所有流程在单页内以模块化卡片呈现以减少跳转。支持最近记录高亮、按文件名与时间筛选、CSV 快速定位，并在状态栏显示当前模型、阈值与系统负载。
在这里插入图片描述

（3）视频检测：播放器采用同步双帧显示原始与结果画面，16:9 自适应布局并提供进度、暂停、继续与停止控制。支持按会话缓存与 MP4 导出，实时调节 Conf/IoU、类别筛选与目标计数，检测记录组件在跨页与多任务间共享。
在这里插入图片描述

（4）更换模型：上传权重即可切换 YOLO 版本并自动刷新类别与默认阈值，切换过程不中断当前会话与统计。支持本地与远程权重源，路径规则跨平台兼容，变更记录写入数据库以便审计与溯源。
在这里插入图片描述

（5）概览界面：首页以卡片式总览展示近线任务状态、近 N 次检测摘要、导出进度与告警信息，并提供一键进入图片/视频/摄像头检测入口。页面标题、品牌元素与主题色可编辑并本地保存，关键指标（FPS、延迟、显存占用）以简洁图标与数值持续刷新。
在这里插入图片描述

2. 绪论

2.1 研究背景与意义

动物识别的实时目标检测在野生动物监测、牧场安防与行为学实验等场景中直接关系到“发现—定位—统计—回溯”的在线闭环，其关键痛点是多物种相似、尺度跨域与复杂光照下的稳健性，同时又必须在边缘端保持低时延与可持续运行。17 (Optics Journal)单阶段检测器与改进的损失函数使实时性与准确性之间的折中得到改善，为浏览器摄像头与轻量服务器的在线推理提供了现实路径。3 (arXiv)近年来的端到端与NMS-free方向进一步压缩了后处理瓶颈，为交互式Web平台的“暂停/继续/导出”等操作释放了时延预算。12 (arXiv)在工程实现层面，ONNX Runtime 量化与 TensorRT 的低比特推理已成为边缘部署的事实标准，显著降低带宽与显存占用，支撑长时在线的系统吞吐。[15–16] (ONNX Runtime)

2.2 国内外研究现状

在任务侧，红外相机与机载平台的数据呈现强噪声、遮挡与长尾分布，小目标与外观相似物种是影响召回与精度的主因。17 (Optics Journal)国内针对无人机巡检的工作强调轻量化与注意力增强，在遮挡与背景干扰下实现了从 3.4 FPS 到 43.4 FPS 的速度提升并兼顾精度，为算力受限边缘设备提供了可复用范式。18 (Wanfang Data)Anchor-free 检测通过像素级回归与更简化的匹配流程，降低了密集场景中的锚框设计负担并在小目标上具备优势。4 (arXiv)

算法演进方面，YOLO 家族在结构与训练策略上持续演化：YOLOv6 面向工业部署报告了在 T4 平台超千 FPS 的入门模型与完善的量化链路，强调吞吐/精度平衡。8 (arXiv)YOLOv7 通过“可训练赠品”等训练策略在实时段实现精度—速度双领先，成为通用实时基线。9 (arXiv)YOLOv9 提出 PGI 与 GELAN 强化梯度信息与层级聚合，提升跨域泛化潜力。11 (ECVA)YOLOv10 给出一致性双分配的 NMS-free 训练与全链路高效设计，在相当精度下显著降低延迟与冗余计算。12 (arXiv)Ultralytics 的 YOLO11 在工程与训练流程上迭代，面向边缘/云的一体化使用体验，但未发布正式论文。13 (Ultralytics Docs)2025 年的 YOLOv12 将注意力机制引入实时化主干，报告在 T4 上以接近 CNN 的时延获得更高 mAP，对夜间与伪装目标更具鲁棒性。14 (arXiv)

非 YOLO 主线的代表性方法同样重要：两阶段 Faster R-CNN 以RPN为核心，在早期建立了高精度范式但推理相对缓慢。1 (arXiv)单阶段 SSD 简化了候选区域生成，成为早期实时检测的经典方案。2 (arXiv)RetinaNet 的 Focal Loss 通过重加权难例，改善了类不平衡导致的性能退化并被广泛移植到实时检测器。3 (arXiv)Transformer 系列的 DETR 以匈牙利匹配实现端到端优化，但早期在收敛与小目标上受限。5 (arXiv)Deformable DETR 以稀疏可变形注意力缓解了上述问题，明显加快训练收敛并提升小目标效果。6 (arXiv)RT-DETR 进一步将端到端思想推向实时，提出在速度与精度间的新折中基线。7 (arXiv)

部署与工程趋势上，ONNX Runtime 的静态/动态量化与 INT8 管线已形成完整文档与生态，便于 PyTorch→ONNX→推理引擎的流水化整合。15 (ONNX Runtime)TensorRT 在 INT8/FP8 等低比特支持与算子级优化上持续更新，结合 trtexec 基准与校准流程可获得确定性的时延收益。16 (NVIDIA Docs)针对动物识别的小样本/长尾问题，国内研究普遍采用注意力与特征融合改造，在自建数据上报告了 mAP 与筛选效率的实证提升，提示系统需预留迁移学习与持续学习接口。19 (Qikan)

表1 典型实时检测方法与部署要点对比（节选）

方法	范式/家族	数据集	关键改进	优势与局限	关键指标（作者报告）	适用场景/难点
Faster R-CNN1	两阶段	VOC/COCO	RPN+共享特征	精度高、推理慢	5 FPS@VGG16（早期）	高精度离线评估
SSD2	单阶段	COCO	多尺度特征图	实时、对小目标欠佳	实时级	边缘入门基线
RetinaNet3	单阶段	COCO	Focal Loss	难例建模强	当年SOTA	类不平衡明显
FCOS4	Anchor-free	COCO	像素级回归	结构简洁	小目标优势	密集/遮挡
DETR5	Transformer	COCO	匈牙利匹配	端到端、收敛慢	与FRCNN相当	统一框架需求
Deformable DETR6	Transformer	COCO	稀疏注意力	收敛更快	训练友好	小目标/长序列
RT-DETR7	Transformer	COCO	实时化设计	端到端实时	论文与复现报告	在线应用
PP-YOLOE10	YOLO系	COCO	TAL、ET-head	部署友好	149 FPS@TRT FP16	工业化部署
YOLOv68	YOLO系	COCO	硬件友好结构	吞吐高	1234 FPS@T4(N)	大规模流
YOLOv79	YOLO系	COCO	训练“赠品”	精度/速率均衡	多榜单领先	通用实时
YOLOv911	YOLO系	COCO	PGI+GELAN	泛化提升	ECCV’24	跨域适配
YOLOv1012	YOLO系	COCO	NMS-free	低延迟	v10-S 1.8× RT-DETR-R18	Web交互
YOLO1113	YOLO系	多域	训练/工程升级	官方文档	实践导向	场景裁剪
YOLOv1214	YOLO系	COCO等	注意力中心化	更高mAP、近实时	v12-N 1.64 ms@T4	夜间/伪装

表中 YOLOv6 指标来自技术报告与社区页面，8；YOLOv10 的相对速度来自论文陈述，12；PP-YOLOE 的速度数据来自官方报告，10；YOLOv12 的 T4 延迟与 mAP 来自 arXiv 论文摘要，14；其他条目依据各自原文描述整理，[1–7,9,11,13]。(arXiv)

2.3 要解决的问题及其方案

（1）检测准确性与实时性：在 640 分辨率下保持可交互级 FPS，同时稳定 mAP 与 F1，尤其关注小目标与相似物种的精确回归。12 (arXiv)
（2）环境适应性与泛化：应对夜间红外、逆光、遮挡与长尾分布，降低跨域性能波动。[17–18] (Optics Journal)
（3）网页端交互完整性：保证双画面对比、进度控制与一键导出在高并发与长时会话下的一致性与可用性。13 (Ultralytics Docs)
（4）数据处理效率与存储安全：实现 CSV/SQLite 的高效读写、可追溯导出与权限管控，兼顾边缘—服务器协同的稳定性。[15–16] (ONNX Runtime)

对应方案：
（1）以 YOLOv12 为核心模型，建立 YOLOv5–YOLOv12 全量对比基线；结合 PGI/GELAN、NMS-free 与解耦头策略，优先优化延迟瓶颈与小目标召回。[11–12,14] (ECVA)
（2）采用迁移学习与分布式数据增强，叠加 EIoU/CIoU 等定位损失与类别重加权，提升在长尾与复杂光照下的收敛与稳健性。[20,3,19] (arXiv)
（3）后端以 PyTorch→ONNX→TensorRT 管线构建多引擎推理；前端 Flask+SocketIO+HTML/CSS/JS 提供图像/视频/摄像头三源输入、同步双帧与模型热切换，保证端到端时延与交互一致性。[15–16,13] (ONNX Runtime)
（4）完善数据治理：检测记录入 SQLite，导出 CSV 与带框图/视频集中管理；引入会话与权限策略，保障跨任务的可追溯性与稳定运行。[17–18] (Optics Journal)

2.4 博文贡献与组织结构

本文的贡献包括：（1）系统梳理动物识别实时检测在算法与工程两侧的演进脉络，并给出涵盖 YOLOv5–YOLOv12 与 RT-DETR 的对比基线与部署清单；（2）围绕 YOLOv12 构建端到端 Flask+SocketIO Web 平台，支持权重上传、模型热切换与 SQLite 入库，面向边缘实时推理；（3）设计左右等宽的双画面对比与进度控制，配套 CSV 导出与带框结果一键下载，形成“检测—评估—归档—溯源”的闭环；（4）提供完整工程与示例数据的复现指引，便于迁移至野外监测与牧场安防等近邻任务。[10–16] (arXiv)本文余下章节依次为：第3章数据集处理（在读者提供样例与统计后，描述来源、划分与增强策略）、第4章模型原理与设计（以 YOLOv12 为主线阐述结构与损失）、第5章实验结果与分析（mAP/F1/PR/训练曲线与多模型对比）、第6章系统设计与实现（分层架构、流程与账户管理图）、第7章结论与未来工作（模型/系统/数据三侧展望）。

3. 数据集处理

本研究使用的动物识别数据集共 1926 张图像，其中训练/验证/测试分别为 1284/321/321，按图像层面的分层随机抽样划分，保证各类在三份子集中的占比基本一致，并固定随机种子 2025 以便复现。类别共 6 个（bird, cat, cow, dog, horse, sheep），在前端与导出中采用双语标签显示：{'bird': '鸟','cat': '猫','cow': '牛','dog': '狗子','horse': '马','sheep': '羊'}，以提升可读性与检索体验。标注采用 YOLO 归一化格式（每行为 class x y w h，取值 ∈[0,1]），并在导入阶段做一致性校验：裁剪越界框、剔除零面积框、合并同名别称与去重。从你提供的样例图来看，数据覆盖室内/室外、白天/夜间、静态/运动等多域场景；x、y 热区分布集中于图像中心，w、h 呈“多数小目标、少量大目标”的偏斜形态，且存在明显遮挡与背景干扰，这与我们在野外与牧场场景中的真实难点高度一致。总体上数据呈长尾分布特征（少数类别样本较少），这将通过采样与损失重加权在训练阶段得到缓解。

Chinese_name = {'bird': "鸟",'cat': "猫",'cow': "牛", 'dog': "狗子", 'horse': "马",'sheep': "羊"}

在这里插入图片描述

预处理与增强方面，训练分辨率默认 640，采用 letterbox 保持纵横比并最小化填充；基础增强包含随机水平翻转、HSV/亮度对比度抖动、随机裁剪与轻度高斯噪声；为应对小目标与遮挡，引入 Mosaic/MixUp、RandomAffine/RandomPerspective 以及 Cutout（低概率）以丰富组合与遮挡形态；针对视频流的域转移，我们额外使用轻度运动模糊与 JPEG 压缩仿真以提高对压缩与抖动的鲁棒性。为缓解长尾问题，训练时启用 class-aware sampling 与 repeat-factor（低频类重复度上调），并在损失端配合 Focal Loss/类别权重；验证与测试阶段仅保留 letterbox 与归一化，不做随机增强以保证评测可比性。上述清洗与增强策略与第 2 章所述难点一一对齐：中心偏置与多尺度通过多视角/多尺度增强覆盖，遮挡通过 Cutout/Mosaic 暴露更多遮挡组合，长尾通过采样与重加权抑制训练偏置，最终为后续 YOLOv5–YOLOv12 的对比实验提供稳定可复现的数据基线。
在这里插入图片描述

4. 模型原理与设计

本文以YOLOv12的实时检测范式为主线，兼顾 YOLOv5–YOLOv11 的可复用部件，整体采用“轻量主干 + 多尺度颈部 + 解耦检测头”的单阶段、Anchor-free 设计。主干以分组可重参数化的卷积块构成（训练时多分支、推理时结构重参数化为单分支），在保证 640 分辨率下的吞吐前提下提升感受野与通道交互；颈部延续 FPN/PAN 思想做自顶向下与自底向上融合，并以可学习权重进行跨层信息重分配；检测头解耦分类和回归/置信度分支，避免梯度相互牵制，便于在长尾与相似外观类别中稳定收敛。为增强对遮挡与小目标的建模，YOLOv12 默认引入轻量注意力（通道/空间或稀疏多头注意力），在不显著增加计算量的前提下提升跨尺度的上下文表达；此外，延续 YOLOv10/11 的高效推理路径与后处理收敛策略，减少非极大值抑制（NMS）带来的冗余与端到端时延。结合动物识别场景的中心偏置与尺寸偏斜分布，上述结构在骨干提取细粒度纹理的同时，通过多尺度融合稳定小目标的可分性，并以解耦头抑制“猫/狗/羊”等相邻类别的误判。关于 YOLO 家族在“Anchor-free、C2f/Rep、解耦头”等方向的演进脉络，可参见近期综述与 v8 架构解读。

核心组件与若干关键公式如下。注意力模块采用标准缩放点积形式： $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V,$ 其中 $Q,K,V!\in!\mathbb{R}^{N\times d}$ 分别为查询、键与值， $d$ 为通道维， $N$ 为空间位置数；在轻量实现中常以稀疏/局部窗口近似以降低二次复杂度。多尺度特征融合用可学习权重归一化： $P_\ell=\frac{\sum_i w_i\cdot\mathrm{Resize}(F_i!\to!\ell)}{\sum_i w_i+\varepsilon},\quad w_i!>!0,$ 其中 $F_i$ 为不同分辨率特征， $P_\ell$ 为第 $\ell$ 层融合特征， $\varepsilon$ 为数值稳定项；该式使网络在训练中自适应地选择更有判别力的分辨率与语义层。解耦检测头将分类与回归/置信度分支分离：分类分支使用带 $\gamma,\alpha$ 的 Focal Loss 以缓解长尾与易/难样本不平衡，回归分支采用 IoU 家族损失（见下一段）并与置信度（objectness）共同优化，从而在动物类别细粒度相似和小目标密集的情形下显著降低相互干扰。作为参照，YOLOv5/v8 的结构化说明与模块命名可在官方与社区文档中对表查阅，以便读者在本工程中替换或裁剪部件。

损失与任务建模围绕 Anchor-free 框回归与解耦分类展开。设预测框与真值框的交并比为 $\mathrm{IoU}$ ，在存在尺度与长宽比偏差时，采用 $\mathrm{CIoU}$ 与 $\mathrm{EIoU}$ 的组合提升几何约束： $\mathcal{L}*{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{*})}{c^2}+\alpha v,\quad v=\frac{4}{\pi^2}\left(\arctan\frac{w^{*}}{h^{*}}-\arctan\frac{w}{h}\right)^{!2},$ 其中 $\mathbf{b},\mathbf{b}^{*}$ 为预测与真值框中心， $\rho(\cdot)$ 为欧氏距离， $c$ 为最小外接框对角线， $w, h$ 为宽高， $\alpha$ 随 $\mathrm{IoU}$ 自适应权衡形状项； $\mathrm{EIoU}$ 将宽/高误差进一步解耦以加速收敛。总体损失写作： $\mathcal{L}=\lambda*{\mathrm{cls}}\mathcal{L}*{\mathrm{focal}}+\lambda*{\mathrm{obj}}\mathcal{L}*{\mathrm{bce}}+\lambda*{\mathrm{box}}\left(\mathcal{L}*{\mathrm{CIoU}}+\beta,\mathcal{L}*{\mathrm{EIoU}}\right),$ 其中 $\mathcal{L}*{\mathrm{focal}}$ 为分类焦点损失（含 $\gamma,\alpha$ ）， $\mathcal{L}*{\mathrm{bce}}$ 为置信度二元交叉熵， $\lambda_{\cdot},\beta$ 为权重。正负样本的标签分配采用任务对齐策略（如动态 Top-k 或加权 OTA），以分类置信与定位质量的联合分数进行匹配，明显改善密集小目标与遮挡情形下的召回。上述设计与第 3 章所示的中心偏置与“多数小、少数大”的尺寸分布相吻合：基于 IoU 的回归项强化了对长宽比与中心距离的惩罚，防止在复杂背景（林下枝叶、运动模糊）中产生虚警；焦点损失则将学习关注度聚焦于难例和稀有类。(arXiv)

训练与推理策略方面，默认以 ImageNet/COCO 预训练权重进行迁移学习，优化器采用带动量的 SGD 或 AdamW，学习率使用 Cosine 退火并配合 Warmup；BN/SyncBN 与 EMA 权重滑动平均用于稳定长时训练。推理端优先导出 ONNX 并在 TensorRT/ONNX Runtime 上启用混合精度与 INT8 校准，结合简化的后处理路径（如端到端或轻量 NMS），使 Flask+SocketIO 前端获得更低的端到端延迟与更稳定的帧间一致性。为便于读者把握模块边界，网络整体架构图如下图所示：
在这里插入图片描述

5. 实验结果与分析

在统一的数据处理与训练配置下，对 **YOLOv5–YOLOv12（n/s 两档）**进行系统对比；输入分辨率为 640，评估指标包含 Precision、Recall、F1、mAP@0.5、mAP@0.5:0.95，以及端到端时延（预处理+推理+后处理，单位 ms，GPU：RTX 3070 Laptop 8GB）。
在这里插入图片描述

从 n 型模型看，YOLOv12n / YOLOv11n / YOLOv8n在 F1 与 mAP50 上构成第一梯队：F1 分别 0.743/0.739/0.730，mAP50 分别 0.775/0.773/0.777。其中 YOLOv8n 以 10.17 ms 的端到端时延（约 98 FPS）具备最佳速度，适合 Web 端摄像头与中等并发的视频流；YOLOv12n、YOLOv11n精度略优，但总时延分别 15.75 ms/12.97 ms，更契合精度优先的离线导出或低并发场景。YOLOv10n 在当前数据上 mAP50 0.680、F1 0.680，收敛节奏偏慢但后期稳定；YOLOv6n、YOLOv7-tiny整体落后（F1 0.565/0.520），且 YOLOv7-tiny 的后处理开销较大导致端到端 21.08 ms。训练 mAP 曲线显示，YOLOv8n/11n/12n 在 80–120 epoch 区间趋于平台期；平均 PR 曲线佐证其较好的精度—召回折中。
在这里插入图片描述

s 型模型在更高容量下拉开差距：YOLOv7 以 F1 0.781 / mAP50 0.803 居于精度首位，但端到端 29.52 ms（约 34 FPS）；YOLOv9s/YOLOv12s/YOLOv11s 形成次优组合（mAP50 0.785/0.781/0.778，F1 0.756/0.737/0.720），其中 YOLOv8s 以 11.39 ms（约 88 FPS） 获得最佳时延但精度略逊。s 型训练曲线显示 YOLOv9s 前期爬坡更快，最终 mAP50 领先或持平于 12s/11s，体现 PGI/GELAN 类梯度利用在该数据上的优势。
在这里插入图片描述

误检/漏检与阈值策略：混淆矩阵表明“cow↔dog”与“bird↔background”是主要混淆来源，前者多见于中远距离与侧身姿态，后者受枝叶纹理与高 ISO 噪声影响；“horse”在运动与遮挡场景中存在一定漏检。F1–置信度曲线给出的全类最优点位于 conf≈0.52（F1≈0.74），因此默认阈值建议 0.50–0.55；若需更高召回，可降至 0.45 并将 IoU 设为 0.5–0.6；若需压低误触，将置信度提高到 0.60 效果更显著。改进层面，可针对 “cow/dog” 引入细粒度部位先验或更高分辨率的小目标训练与 TTA；对 “bird” 可采用背景抑制（局部对比度归一、弱纹理区域抑制）以降低伪检。
在这里插入图片描述

工程位形与推荐集合：
面向 摄像头/浏览器 30–60 FPS 的在线演示，YOLOv8n 是速度与精度的稳妥之选；在 F1 更优 的场景，可采用 YOLOv12n 或 YOLOv11n 并将帧率设定在 40–60 FPS。面向 离线批处理与更高 mAP，n 档以 YOLOv12n 为宜，s 档以 YOLOv7 或 YOLOv9s 为优先。多路视频流或同步双帧推送的 Web 端，为保证交互流畅和 GPU 余量，YOLOv11s / YOLOv8s 更为均衡；后端建议启用 ONNX/TensorRT + FP16/INT8。

表 5-1 模型整体性能与端到端时延（RTX 3070 Laptop 8GB）
（End2End=Pre+Inf+Post；FPS≈1000/End2End）

Model	Params(M)	FLOPs(G)	End2End (ms)	FPS	Precision	Recall	F1	mAP@0.5	mAP@0.5:0.95
YOLOv5nu	2.6	7.7	10.94	91.5	0.734	0.678	0.705	0.736	0.503
YOLOv6n	4.3	11.1	10.34	96.6	0.696	0.476	0.565	0.542	0.355
YOLOv7-tiny	6.2	13.8	21.08	47.5	0.609	0.453	0.520	0.467	0.236
YOLOv8n	3.2	8.7	10.17	98.3	0.883	0.623	0.730	0.777	0.552
YOLOv9t	2.0	7.7	19.67	50.9	0.761	0.678	0.717	0.744	0.543
YOLOv10n	2.3	6.7	13.95	71.7	0.769	0.609	0.680	0.680	0.481
YOLOv11n	2.6	6.5	12.97	77.1	0.848	0.655	0.739	0.773	0.562
YOLOv12n	2.6	6.5	15.75	63.5	0.833	0.671	0.743	0.775	0.561
YOLOv5su	9.1	24.0	12.24	81.7	0.813	0.682	0.742	0.760	0.530
YOLOv6s	17.2	44.2	12.26	81.6	0.638	0.574	0.605	0.578	0.375
YOLOv7	36.9	104.7	29.52	33.9	0.827	0.739	0.781	0.803	0.593
YOLOv8s	11.2	28.6	11.39	87.8	0.783	0.654	0.712	0.756	0.546
YOLOv9s	7.2	26.7	22.17	45.1	0.782	0.731	0.756	0.785	0.600
YOLOv10s	7.2	21.6	14.19	70.5	0.810	0.653	0.723	0.751	0.545
YOLOv11s	9.4	21.5	13.47	74.3	0.780	0.668	0.720	0.778	0.580
YOLOv12s	9.3	21.4	16.74	59.7	0.837	0.659	0.737	0.781	0.561

图 5-1 双条形图（n 系）：F1 与 mAP50 对比
图注：八种 n 体量模型的 F1 与 mAP50。配色为学术蓝（F1）与琥珀色（mAP50），便于与表 5-1 对照。
在这里插入图片描述
图 5-2 双条形图（s 系）：F1 与 mAP50 对比
图注：八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存，提示“召回—精度”取舍的不同偏好。

小结：在动物识别数据集上，YOLOv8n以最低端到端时延提供最流畅的 Web 端体验；精度优先时，YOLOv12n/YOLOv11n（n 档）与 YOLOv7/YOLOv9s（s 档）具备更高 mAP；多路视频与同步双帧推送场景中，YOLOv11s/YOLOv8s实现性能—时延的均衡。阈值默认 conf≈0.52，IoU≈0.55，并可在导出与回溯环节结合类别筛选与 CSV 记录完成误检治理与经验复用。

6. 系统设计与实现

6.1 系统设计思路

系统采用“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”的分层架构，以 Web 网页界面（Flask + Flask-SocketIO/HTML/CSS/JS） 为入口，支持图片、视频与浏览器端摄像头三源输入在同一会话中无缝切换。前端以双画面（原图/结果）作为核心交互单元，与后端通过 SocketIO 双向通道保持参数与状态一致（阈值、类别开关、播放进度、权重版本），从而在“播放/暂停/继续/停止”过程中维持稳定的视觉与指标反馈。业务层负责会话、权限与路由；推理层通过任务调度器与多工线程池解耦 I/O 与计算，确保在 GPU/CPU 异构环境下的吞吐稳定；数据层以 SQLite 记录检测结果、会话与导出元数据，并提供基于时间/文件名/类别的快速检索与批量导出。

实时性与一致性通过三项机制保障：其一，“同步双帧”模块在同一时间戳维护原始帧与检测帧的缓冲区，避免前端画面与统计曲线错位；其二，“参数同步”在服务端维护会话级影子配置（conf/IoU、类别筛选、显示样式），对所有新推流帧即时生效；其三，“会话与权限约束”对未登录用户施加历史记录与批量导出限制，同时允许一次性跳过以保留首访体验。可扩展性方面，权重管理器支持热切换 YOLOv5–YOLOv12 与自定义权重，切换时进行类别表与默认阈值的自动刷新；统计/导出子系统将 CSV、带框图与视频统一纳入导出队列，并与 SQLite 条目形成“可审计—可溯源”的闭环。

图 6-1 系统流程图
在这里插入图片描述

图 6-2 系统设计框图
在这里插入图片描述

6.2 登录与账户管理

在这里插入图片描述

登录与账户管理流程以“最小打扰、可追溯”为原则：进入登录页后可注册、登录或一次性跳过；注册路径对口令进行哈希与有效性校验后写入数据库并建立会话；登录路径在校验通过后载入个性化配置与历史记录；游客会话在保持核心检测能力的同时限制历史与批量导出。进入主界面后，资料修改与注销均与检测流程解耦，所有结果与设置通过会话与数据库持久化，以保证跨页共享与后续审计。

7. 结论与未来工作

本文围绕“最新 YOLO 实现的动物识别实时检测平台”完成了端到端的算法—系统一体化实践：在统一数据与评测设置下，YOLOv8n 以约 98 FPS 的端到端时延提供最优在线体验，YOLOv12n/YOLOv11n 在 F1 与 mAP 上略占优势，s 档中 YOLOv7、YOLOv9s 提供更高上限；误检主要集中在 cow↔dog 与 bird↔background，F1–置信度曲线给出的全类最优点位于 conf≈0.52。系统侧以 Flask+SocketIO 构建“同步双帧”的低时延 Web 界面，打通图片/视频/摄像头三源输入、模型热切换、CSV 导出与 SQLite 入库，并通过登录/注册（可跳过）与集中导出形成“检测—评估—归档—溯源”的闭环。整体结果表明，在以小目标、遮挡与类间相似为主的动物场景中，解耦头、多尺度融合与合理的 IoU 系损失可以在轻量配置下取得稳定的精度—速度折中；该管线亦具备良好的可迁移性，可在少量适配后应用于机械部件、安防与农牧业质检等视觉任务。
未来工作将从三条主线推进：模型侧将进一步探索蒸馏与混合精度量化以压缩延迟与显存，占优结构（如 GELAN/注意力中心化骨干）与多模态融合（视觉+声学/文本元数据）用于提升夜间与伪装目标的稳健性；系统侧将引入 Docker 化与分布式任务队列，结合 WebRTC 实时推流以降低端到端抖动，并完善角色权限、审计与多租户/i18n，使平台具备面向团队与生产环境的治理能力；数据侧将建立主动学习与持续标注闭环，结合数据治理与漂移监测、难例挖掘与类别重加权自动化策略，以更快地适配新物种、新域与季节性变化。随着上述迭代落地，平台将进一步在“可复现、可扩展、可运维”三个维度上增强，并为更广泛的在线检测应用提供可直接复用的工程基线。

参考文献（GB/T 7714）

1 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J/OL]. arXiv:1506.01497, 2015. (arXiv)
2 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J/OL]. arXiv:1512.02325, 2016. (arXiv)
3 Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[J/OL]. arXiv:1708.02002, 2017. (arXiv)
4 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[J/OL]. arXiv:1904.01355, 2019. (arXiv)
5 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[J/OL]. arXiv:2005.12872, 2020. (arXiv)
6 Zhu X, Su W, Lu L, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[J/OL]. arXiv:2010.04159, 2020. (arXiv)
7 Lv W, Huang C, An D, et al. RT-DETR: DETRs Beat YOLOs on Real-time Object Detection[J/OL]. arXiv:2304.08069, 2023. (arXiv)
8 Li C, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[J/OL]. arXiv:2209.02976, 2022. (arXiv)
9 Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new SOTA for real-time detectors[J/OL]. arXiv:2207.02696, 2022. (arXiv)
10 Xu X, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[J/OL]. arXiv:2203.16250, 2022. (arXiv)
11 Wang C Y, et al. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[C/OL]. ECCV 2024. (ECVA)
12 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[J/OL]. arXiv:2405.14458, 2024. (arXiv)
13 Ultralytics. YOLO11: Fast & Accurate Vision AI[EB/OL]. 2024—, https://docs.ultralytics.com/models/yolo11/. (Ultralytics Docs)
14 Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[J/OL]. arXiv:2502.12524, 2025. (arXiv)
15 Microsoft. Quantize ONNX Models[EB/OL]. ONNX Runtime Docs, 2025—. (ONNX Runtime)
16 NVIDIA. TensorRT Documentation: Performance & Quantized Types[EB/OL]. 2025—. (NVIDIA Docs)
17 杨铭伦, 张旭, 郭颖, 等. 基于YOLOv5的红外相机野生动物图像识别[J]. 激光与光电子学进展, 2022. (Optics Journal)
18 王XX, 等. 基于YOLOv7-Tiny算法的无人机实时跟踪野生动物方法[J]. 野生动物学报, 2024. (Wanfang Data)
19 朱高兴, 于瓅. 基于YOLOv5-CA算法的野生动物目标检测研究[J]. 信息技术与信息化, 2022. (Qikan)
20 Zhang Y F, Ren W, Zhang Z, et al. Focal and Efficient IoU Loss for Accurate Bounding Box Regression[J/OL]. arXiv:2101.08158, 2021. (arXiv)