摘要

本文面向跌倒实时检测应用,构建基于 Flask + Flask-SocketIO + HTML/CSS/JSWeb 网页界面平台,后端集成 YOLOv5–YOLOv12(共 8 种)检测算法,支持图片/视频/浏览器摄像头三类输入,实现双画面对比(原图/检测结果并行)与进度控制(进度条、暂停、继续、停止)。系统提供Conf/IoU 调节类别筛选,内置CSV 导出带框结果一键下载(图片/视频)SQLite 入库登录/注册(可跳过)模型选择/权重上传与最近记录高亮定位等功能。训练评测层面,统一产出与对比 mAP、F1、PR 曲线、训练曲线,并给出不同 YOLO 版本在跌倒场景下的速度—精度权衡。平台采用前后端事件驱动与批量导出机制,兼顾实时性与可追溯;同时预留 ONNX/TensorRT 推理接口,满足边缘端部署。代码结构清晰、参数可复用,适配多分辨率与多源流接入,可用于养老监护、工地安防与校园巡检等场景。文末提供完整工程与数据集下载链接

讲解视频地址https://www.bilibili.com/video/BV18wQFBkEaS/

➷点击跳转至文末所有涉及的完整代码文件下载页☇


1. 网页功能与效果

(1)登录注册:登录页提供“注册—登录—一次性跳过”三入口,账户登录后会话仅在当前浏览器生效并支持到期自动失效;未登录进入演示态,推理不受限但历史查询与导出受约束。口令采用哈希与最小权限策略,支持找回与注销;进入系统后会保留个性化偏好与最近记录,确保再次访问即用即走。
在这里插入图片描述

(2)功能概况:导航动线围绕“概览 → 图片/视频/摄像头检测 → 模型选择 → 导出视图”,所有任务以卡片化呈现并可跨页检索。阈值与类别筛选在全局侧边栏统一管理,支持Conf/IoU联动与实时回显;导出层提供CSV、带框图片/视频一键下载与SQLite入库,保证审计与复现。
在这里插入图片描述

(3)视频检测:播放器采用“同步双帧”并排展示输入帧与推理结果,等宽16:9自适应;提供进度条与暂停、继续、逐帧、停止控制,便于定位误检与回溯。浏览器摄像头低时延推理并将缓冲自动封装为MP4下载,同时可按类别筛选与阈值微调,并在底部“检测记录”中跨页共享。
在这里插入图片描述

(4)更换模型:支持上传权重即刻切换YOLOv5–YOLOv12任一版本,类别清单与调参面板同步刷新,避免前后端不一致。页面标题与品牌元素可编辑并本地保存;路径规范与数据库自动迁移保证跨平台可用;导出结果集中管理,按文件名/时间高亮定位并支持批量下载与溯源。
在这里插入图片描述

(5)概览界面:首页汇总关键指标与最近任务,展示告警计数、平均置信度、帧率与资源占用,并提供一键进入各检测入口。近期记录按时间线排列并支持搜索与标签过滤,点击即可打开对应导出视图;异常与告警以可关闭的通知条提示,保证值守场景的可读性与响应效率。
在这里插入图片描述


2. 绪论

2.1 研究背景与意义

跌倒是老年人群体最常见且危害显著的突发事件之一,及时、可靠的自动检测有助于降低致伤与并发症风险并支撑远程照护与值守场景的智能化升级 5。 (MDPI)在工程落地层面,视频视觉方案无需被试佩戴设备、可与既有监控系统融合,并能在室内外多场景连续工作,但必须兼顾遮挡、弱光与视角突变等复杂因素下的鲁棒性与实时性 21。 (arXiv)围绕上述需求,本文以“最新YOLO实现 + Flask/SocketIO Web交互”为主线,构建一套从数据处理、模型训练到网页端联动可视的端到端平台,力求在养老监护、安防值守与工地校园等高风险场景中实现低延迟、可追溯与可复现的跌倒实时检测服务。

2.2 国内外研究现状

面向“跌倒实时检测”这一具体任务,研究难点集中在与日常动作(弯腰、拾物、躺卧)高度相似导致的类间混淆、目标尺度与姿态剧变、小目标与多人遮挡、光照/背光变化、长尾分布与域移,以及端到端低时延的系统性约束 5。为减轻数据与场景不确定性,学界与产业界常使用UP-Fall、URFD与Le2i等数据集进行方法验证,并在跨场景评估中观察到位置、光照与视角对模型稳定性的非平稳影响 6。Le2i提供多地点、多视角的室内视频并给出逐帧框标注,使得“跌倒-非跌倒”判别与定位可在统一评测协议下复现 7

检测范式方面,两阶段代表性方法以候选区域+分类回归为主,兼具较强候选质量与可解释性,但推理链路长、后处理复杂,不利于浏览器侧的实时交互 1。单阶段检测在密集采样下具备速度优势,通过Focal Loss缓解前景-背景极不均衡,实现速度—精度的更优平衡 2。端到端Transformer检测(DETR/RT-DETR)以集合预测与匹配损失规避NMS带来的时延不确定性,为稳定帧率与边缘部署提供了新的工程空间 3;RT-DETR在优化查询选择与解码结构后,在保持精度的同时可在主流GPU上获得百帧级吞吐 4

YOLO家族在近年沿“Anchor-free、解耦头、动态标注分配、端到端与部署友好”持续演进:YOLOX采用Anchor-free与SimOTA,显著改善小模型与大模型的速度—精度曲线 8;YOLOv9提出PGI与GELAN以提升特征利用效率与从零训练表现,兼顾多尺度对象 9;YOLOv10以一致双重分配实现NMS-free训练并在同等精度下显著降低时延与参数 10;工程侧的YOLO11进一步完善训练与导出接口,覆盖边缘、云与浏览器端的常见部署路径 11。 (arXiv)在跌倒特定场景中,改进YOLO方案通过轻量骨干、可变形卷积与惩罚项调整(如WIoU)在遮挡、姿态突变与长尾分布下获得稳定收益 12。 (JOCES)

针对跌倒任务的算法化改造也不断涌现:FDW-YOLO在YOLOv8基础上引入FasterNext与动态可变形卷积,并以WIoU替代CIoU,在自制室内数据集上报告了mAP@0.5≈97.9%与显著的轻量化指标,适合弱算力边缘端 12;FD-YOLO基于YOLOv9融合Swin与GAM注意力,在复杂室内视频中给出高mAP@0.5的报告值,强调精度与误报抑制 13;结合姿态的YOLOv7-W6-Pose通过关键点几何先验辅助行为判别,降低“跌倒—非跌倒”近邻样本的误报 14;此外,轻量化“YOLO-fall”面向移动与小型边缘设备对骨干与重参数化模块进行裁剪,强调端侧可用性 20。 (MDPI)

在工程部署层面,TensorRT/ONNX Runtime已形成从FP16/INT8到更低比特的量化谱系与工具链,通过校准与QAT/PTQ获得显著吞吐提升与稳定时延,配合端到端或轻量YOLO为浏览器摄像头低延迟双画面推理提供支撑 17。ONNX Runtime的动态/静态量化流程与调试工具降低了多平台适配成本,为Flask/SocketIO服务化与边缘—浏览器混合部署打通路径 18。 (NVIDIA Docs)

方法对比表(部分具有代表性工作,指标与结论以原文为准;每行给出对应引用):

方法 范式/家族 数据集 关键改进技术 优势与局限性 关键指标(示例) 适用场景/难点 引用
FDW-YOLO(YOLOv8改进) 单阶段/Anchor-free 自制室内跌倒 FasterNext、DDConv、WIoU 精度高且轻量;需贴合室内数据 mAP@0.5≈97.9%、mAP@0.5:0.95≈74.3%、参数≈4.1M 室内遮挡、姿态突变 12
FD-YOLO(基于YOLOv9) 单阶段/YOLOv9 多场景视频 Swin + GAM 注意力 高精度;注意力带来显存压力 mAP@0.5≈0.982(文中报告) 园区/病房高精度值守 13
YOLOv7-W6-Pose 多任务(检测+姿态) 在线/自采视频 关键点几何约束 误报抑制;依赖姿态质量 文献以实时演示为主 高相似动作区分 14
YOLOv10 端到端/无NMS COCO 一致双重分配、整体化设计 时延低、部署友好 同精度下延迟/参数显著下降 大规模实时检测基座 10
RT-DETR-R50 Transformer/E2E COCO/Objects365 不确定性查询、混合编码器 稳定帧率;训练与调参复杂 报告55.3 mAP@O365、108 FPS@T4 流式推送与稳定时延 4
YOLOX-L Anchor-free/解耦头 COCO SimOTA、解耦头 大/小模型全面强化 50.0 AP@COCO、68.9 FPS@V100 通用实时检测 8
PP-YOLOE-l Anchor-free/工业化 COCO CSPRepResNet、ET-Head、TAL 部署友好、速度快 51.4 mAP、78.1 FPS@V100 工程一体化部署 15
YOLO-fall(轻量) 单阶段/YOLO改造 多源 轻量骨干、重参数化 面向移动端;极限场景需权衡 文献强调高精度与实时性 移动/小边缘设备 20

注:RT-DETR在官方实现中给出R50在Objects365上55.3 mAP与108 FPS(T4)的示例配置,表中据此摘录以说明速度—精度与时延稳定性特征 19。 (GitHub)

2.3 要解决的问题及其方案

(1)检测/识别的准确性与实时性:跌倒与日常行为高度相似、场景复杂,若仅依赖单一阈值与固定后处理易造成误报/漏报并引入不稳定时延。(2)模型的环境适应性与泛化能力:跨地点、跨摄像头、弱光/背光与遮挡导致的域移显著,轻量化后模型表达受限。(3)网页端交互界面的直观性与功能完整性:需要在浏览器中实现“原图/检测结果”双画面对比、进度与会控(暂停/继续/停止/逐帧)、Conf/IoU与类别筛选等,并保持低延迟一致性。(4)数据处理效率与存储安全性:批量导出、带框结果一键下载、CSV明细化与SQLite入库、会话与权限约束、以及导出/溯源能力需协同设计。相应地,(1)以YOLOv12为核心基线,横向对比YOLOv5–YOLOv11并结合迁移学习与数据增强,配合难例挖掘与标签平滑,兼顾精度与时延;(2)引入多尺度特征融合与轻量注意力,配合ONNX/TensorRT量化、蒸馏与裁剪,在边缘GPU/CPU上稳定运行;(3)以Flask + SocketIO实现事件驱动推理与前端HTML/CSS/JS联动,提供同步双帧、阈值调参与类别筛选;(4)建立统一导出与入库规范,结果与日志可追溯,支持批量下载与按文件名高亮定位,并以数据库迁移保障持续可用。

2.4 博文贡献与组织结构

本文贡献体现在四个方面:(1)综合文献综述:从检测范式、YOLO技术演进到跌倒任务专用改造与部署策略,构建任务化的研究图谱并给出对比表支撑工程选型;(2)深度学习模型的选择与优化:以YOLOv12为主线,完成YOLOv5–YOLOv11的统一训练与评测,并在轻量化、量化与蒸馏上给出端到端实现;(3)美观友好的网页设计:落地Flask/SocketIO的低时延双画面、进度与会控、CSV与一键下载、登录/注册与跳过模式等;(4)算法效果对比分析:统一产出mAP、F1、PR与训练曲线,支撑速度—精度权衡;(5)完整的数据集和代码资源:随文提供工程与数据链接,便于复现与二次开发。文章结构安排为:第3章数据集处理;第4章模型原理与设计;第5章实验结果与分析;第6章系统设计与实现;第7章结论与未来工作。


3. 数据集处理

本项目使用的跌倒检测数据集共 10,787 张图像,其中 9,438 张用于训练、899 张用于验证、450 张用于测试;标注采用 YOLO 格式(归一化的 x , y , w , h x,y,w,h x,y,w,h),类别仅包含 Fall-Detected(中文名:跌倒),在训练与可视化阶段统一做中英文别名映射以便界面显示与导出一致。数据来源覆盖室内外监控画面、网络公开图像与视频帧抽取,分辨率不一;从提供的分布图可见,目标中心 x , y x,y x,y 在 0.5 附近呈集中分布,宽高呈右偏与“多小目标、少极大目标”的长尾特征,说明跌倒姿态通常发生在画面中部至偏下区域且尺度差异显著。为保证复现性,数据划分固定并建议在训练脚本中设定随机种子(如 42)与确定性后端,同时保留原始划分列表,避免数据泄漏。

Chinese_name = {'Fall-Detected': "跌倒"}

        
在这里插入图片描述

针对任务难点与数据特征,预处理阶段采用 letterbox 方式将输入统一到 640×640(保持纵横比并最小填充)、RGB 归一化与均值方差标准化;训练期启用几何增强(随机水平翻转、缩放与轻微旋转/仿射、透视扰动)以覆盖不同相机位与人体姿态变化,光照与颜色增强(HSV 抖动、亮度/对比度微调、轻度模糊与噪声)以模拟弱光与强反光,遮挡建模(适度 CutOut/Random Erasing)缓解多人遮挡带来的漏检;在样本充分条件下使用 Mosaic(4 图)与轻量 MixUp,并于后期逐步降低其概率以稳定收敛。考虑到仅单一类别,“类别重加权”不启用,但会对标注做一致性校验(空框/越界/重复框去除)、相似图去重与损坏图清洗;对锚框版模型(如 YOLOv5/7)进行 k-means++ 重新聚类以贴合本数据集的宽高比例,Anchor-free 版(YOLOv8–YOLOv12)保持默认标签分配策略。上述策略与浏览器端的“遮挡、尺度变化与背光”难点一一对应,既提升了泛化鲁棒性,也为后续 Flask + SocketIO 的低时延实时推理提供了更稳定的输入分布。
在这里插入图片描述


4. 模型原理与设计

本文以 YOLOv12 的“单阶段、Anchor-free、解耦检测头”范式为主线,沿用“骨干(Backbone)—颈部(Neck)—检测头(Head)”三段式结构:骨干提取多尺度语义特征,颈部进行跨层特征融合,检测头分别完成分类与回归并输出 box ,  score {\text{box},\ \text{score}} box, score 集合;这一抽象在 YOLO 家族各版本中保持一致,便于我们将 YOLOv5–YOLOv11 的训练与部署资产复用到跌倒检测平台中(Flask+SocketIO 侧仅关心输入输出张量的一致性)[在实现上,本文的 Head 默认采用无锚框密集点预测与 IoU-aware 置信度,用以改进极端前景/背景不均衡下的可训练性]。这种“端到端—轻后处理”的取向使整体链路时延稳定,更适合浏览器摄像头的低时延联动与双画面对比显示(原图/结果帧同步)。关于三段式结构的通用释义可见文献对 YOLO 的 Backbone/Neck/Head 划分;而 YOLO 系列在工程文档中也给出了组件到训练策略的系统化说明,可作为本平台模型侧的参考与对照。

在结构层面,骨干采用 CSP/C2f 类残差与跨阶段分流单元以提升梯度流动与通道利用率,辅以 SPPF 对大感受野语义进行快速聚合;颈部采用 FPN/PAN 或带可学习权重的 BiFPN 融合,上下行特征在同分辨率上做加权汇合,其典型形式为
f ^ = ∑ i w i , f ∗ i ∑ ∗ i w i + ε , \hat{\mathbf{f}}=\frac{\sum_{i} w_i,\mathbf{f}*i}{\sum*{i} w_i+\varepsilon}, f^=iwi+εiwi,fi,
其中 f i \mathbf{f}_i fi 为不同来源或尺度的特征, w i > 0 w_i>0 wi>0 为可学习权重, ε \varepsilon ε 为数值稳定常数;该式通过学习 w i w_i wi 动态调节多尺度贡献度以适配尺度差异与遮挡等难点。检测头采用解耦分支设计:分类分支输出类别概率 p = σ ( z ) p=\sigma(z) p=σ(z),回归分支预测中心偏移与尺寸参数 t = ( t x , t y , t w , t h ) \mathbf{t}=(t_x,t_y,t_w,t_h) t=(tx,ty,tw,th),在 stride 为 s s s 的特征图位置 ( i , j ) (i,j) (i,j) 处解码为
x = ( σ ( t x ) + i ) ⋅ s , y = ( σ ( t y ) + j ) ⋅ s , w = s ⋅ e t w , h = s ⋅ e t h , x=(\sigma(t_x)+i)\cdot s,\quad y=(\sigma(t_y)+j)\cdot s,\quad w=s\cdot e^{t_w},\quad h=s\cdot e^{t_h}, x=(σ(tx)+i)s,y=(σ(ty)+j)s,w=setw,h=seth,
以保证在弱算力边缘端仍具备稳定的尺度外推能力。网络整体架构图如下图所示:
在这里插入图片描述

在损失与任务建模上,回归采用 IoU 家族与其改进型:基本 IoU
I o U = ∣ B ∩ G ∣ ∣ B ∪ G ∣ , \mathrm{IoU}=\frac{|B\cap G|}{|B\cup G|}, IoU=BGBG,
以重叠面积度量框一致性;CIoU 在 IoU 基础上引入中心距离与长宽比惩罚
L C I o U = 1 − I o U + ρ 2 ( c B , c ∗ G ) d 2 + α v , \mathcal{L}_{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{c}_B,\mathbf{c}*G)}{d^2}+\alpha v, LCIoU=1IoU+d2ρ2(cB,cG)+αv,
其中 ρ \rho ρ 为中心点欧氏距离, d d d 为最小外接框对角线, v v v 描述长宽比差异、 α \alpha α 为权衡系数;EIoU 进一步把中心坐标与宽高差分离到独立范数项,缓解细长目标的回归抖动。分类与目标性采用 Focal Loss 聚焦难例:
L ∗ f o c a l = − α ( 1 − p t ) γ log ⁡ p t , \mathcal{L}*{\mathrm{focal}}=-\alpha(1-p_t)^{\gamma}\log p_t, Lfocal=α(1pt)γlogpt,
其中 p t p_t pt 为正样本概率、 α \alpha α γ \gamma γ 为重加权与聚焦系数;单类别“跌倒”场景下,Focal 可显著抑制海量背景导致的训练偏置。训练期可叠加标签平滑 y ~ = ( 1 − ε ) y + ε / K \tilde{y}=(1-\varepsilon)y+\varepsilon/K y~=(1ε)y+ε/K K K K 为类别数)以降低过拟合。上述 IoU/CIoU 与 Focal 的组合在跌倒与非跌倒相邻姿态(弯腰/坐卧)上能更稳健地区分难例,并在小目标/遮挡下提供更快的收敛与更稳定的定位。

训练与正则化方面,采用 BN/SyncBNEMA 参数滑动平均与 Warmup+Cosine 学习率策略
η t = η min ⁡ + 1 2 ( η max ⁡ − η min ⁡ ) [ 1 + cos ⁡ ( π t / T ) ] , \eta_t=\eta_{\min}+\tfrac{1}{2}(\eta_{\max}-\eta_{\min})\bigl[1+\cos(\pi t/T)\bigr], ηt=ηmin+21(ηmaxηmin)[1+cos(πt/T)],
以在早期稳定梯度、后期平滑收敛;强增强(Mosaic/MixUp)在中前期提高泛化,末期降低概率以提升最终定位精度。推理阶段默认 NMS,当选择端到端变体(NMS-free)时采用一对一匹配的匈牙利式指派以保证解码确定性;浏览器侧 Conf/IoU 滑杆直接对应 p ⋅ I o U p\cdot\mathrm{IoU} pIoU 与抑制阈值 τ \tau τ 的调节,实用准则是“类间相似时适度提高 τ \tau τ、降低 Conf 以减少重叠误检”,而“光照不稳/小目标占比高时适度放宽 τ \tau τ 并提高输入尺寸”。这些策略与平台前端的同步双帧展示、CSV 与带框导出形成闭环:一方面可复盘误检漏检,另一方面也为后续量化/蒸馏与 TensorRT/ONNX 加速提供稳定的训练分布与可比对的评测接口。


5. 实验结果与分析

本节在统一数据划分(训练 9438 / 验证 899 / 测试 450)与默认输入 640×640 条件下,对 YOLOv5–YOLOv12 的 nano 与 small 两档模型进行对比评测;指标包括 Precision / Recall / F1 / mAP@0.5 / mAP@0.5:0.95 以及端到端延迟(Pre/Inf/Post,单位 ms,显卡 RTX 3070 Laptop 8 GB)。评测脚本与网页端阈值保持一致,图像增强在训练后期逐步减弱以稳定收敛。
在这里插入图片描述

nano 组结果看,YOLOv11n 取得最高 mAP@0.5(0.9135)并以 0.8585 的 F1 与 12.97 ms 的端到端时延(约 77 FPS)在精度与实时性上达到较好平衡;YOLOv9tmAP@0.5=0.9015mAP@0.5:0.95=0.6084(组内最高),但推理用时 16.51 ms,整体帧率略逊;YOLOv8nYOLOv6n 的总时延分别约 10.17 ms/10.34 ms(≈98/97 FPS),是 nano 组的速度首选,mAP 亦在 0.89± 的区间,适合对时延较敏感的摄像头实时联动。YOLOv7-tiny 在本数据集上速度慢于预期且 mAP 明显落后,显示其结构与标签分配对单一小类长尾分布的适配性不足。
在这里插入图片描述

small 组中,YOLOv11smAP@0.5=0.9169(组内最佳)F1=0.8654、总时延 13.47 ms(≈74 FPS) 表现稳健;若更看重 F1 与高 IoU 段性能,YOLOv9sF1=0.8700(组内最高) 与 **mAP@0.5:0.95=0.6270(组内最高)**更具吸引力,但推理用时 18.66 ms(≈45 FPS)YOLOv8s 端到端 11.39 ms(≈88 FPS) 为本组速度最佳,mAP@0.5 也达 0.8894。因此,速度优先推荐 YOLOv8s / YOLOv8n,精度优先推荐 YOLOv11s / YOLOv11n,高 IoU 段、严格定位推荐 YOLOv9s / YOLOv9t。
在这里插入图片描述

从可视化看,F1–Confidence 曲线Conf≈0.43 附近达到峰值(F1≈0.87),对应网页端默认阈值建议设为 0.43±0.05
在这里插入图片描述

PR 曲线显示 YOLOv11(n/s)与 YOLOv12(s)曲线在高召回段仍保持较高精度,解释了其 mAP 的优势;
在这里插入图片描述

混淆矩阵呈现“跌倒”召回约 0.90 的水平,误检主要来自“躺/坐/弯腰”等近邻姿态与大面积地面接触的背景块。结合训练曲线(box/cls/dfl loss 稳定下降、mAP 持续爬升),整体训练过程良性,无显著过拟合信号。
在这里插入图片描述

在工程侧的结论与建议:(1) 浏览器摄像头与园区监控的60 FPS 实时场景,推荐 YOLOv8n/sYOLOv5su,并开启 TensorRT/ONNX FP16;(2) 需要更高的召回与高 IoU 段表现(减少“擦边漏检”),选 YOLOv11n/sYOLOv9s/t,并适度提高 IoU 阈值(如 0.6)与开启多尺度测试;(3) 误检集中于“躺卧/弯腰”,可在后端加入时域一致性(短窗口轨迹稳态判决)或关键点约束以抑制瞬时假阳;(4) 前端默认 Conf=0.43、IoU=0.5,在暗光/小目标占比高的摄像头上适度下调 Conf 并提高输入分辨率,可显著提升召回。

综合对比表(RTX 3070 Laptop,640×640)

Model Params(M) FLOPs(G) Pre(ms) Inf(ms) Post(ms) Total(ms) FPS Precision Recall F1 mAP@0.5 mAP@0.5:0.95
YOLOv5nu 2.6 7.7 1.90 7.73 1.31 10.94 91.4 0.8292 0.8420 0.8356 0.8826 0.5423
YOLOv6n 4.3 11.1 2.17 6.78 1.39 10.34 96.7 0.8606 0.8076 0.8332 0.8703 0.5505
YOLOv7-tiny 6.2 13.8 2.28 14.74 4.06 21.08 47.4 0.7870 0.8042 0.7955 0.8257 0.3995
YOLOv8n 3.2 8.7 1.95 6.83 1.39 10.17 98.3 0.8461 0.8354 0.8407 0.8937 0.5716
YOLOv9t 2.0 7.7 1.87 16.51 1.29 19.67 50.9 0.8663 0.8507 0.8585 0.9015 0.6084
YOLOv10n 2.3 6.7 2.08 11.24 0.63 13.95 71.7 0.8330 0.8488 0.8408 0.8890 0.5743
YOLOv11n 2.6 6.5 2.11 9.44 1.42 12.97 77.1 0.8863 0.8324 0.8585 0.9135 0.5931
YOLOv12n 2.6 6.5 1.91 12.47 1.37 15.75 63.5 0.8657 0.8365 0.8508 0.9052 0.5873
YOLOv5su 9.1 24.0 2.28 8.45 1.51 12.24 81.7 0.8624 0.8226 0.8420 0.8879 0.5662
YOLOv6s 17.2 44.2 2.22 8.59 1.45 12.26 81.6 0.8414 0.8365 0.8389 0.8727 0.5613
YOLOv7 36.9 104.7 2.44 23.62 3.46 29.52 33.9 0.6826 0.7107 0.6964 0.7034 0.3043
YOLOv8s 11.2 28.6 2.31 7.66 1.42 11.39 87.8 0.8378 0.8409 0.8393 0.8894 0.5744
YOLOv9s 7.2 26.7 2.12 18.66 1.39 22.17 45.1 0.8840 0.8565 0.8700 0.9095 0.6270
YOLOv10s 7.2 21.6 2.21 11.38 0.60 14.19 70.5 0.8718 0.8394 0.8553 0.8926 0.5983
YOLOv11s 9.4 21.5 2.37 9.74 1.36 13.47 74.3 0.8732 0.8578 0.8654 0.9169 0.6152
YOLOv12s 9.3 21.4 2.09 13.23 1.42 16.74 59.7 0.8665 0.8610 0.8637 0.9163 0.6128

图 5-1 双条形图(nano 组:F1 与 mAP@0.5)
图注:每个模型两根柱分别表示 F1(蓝)与 mAP@0.5(橙);右键“另存为”即可下载为矢量图。
在这里插入图片描述

图 5-2 双条形图(small 组:F1 与 mAP@0.5)
图注:同图 5-1,small 组模型在高 IoU 段(mAP@0.5:0.95)整体优于 nano 组。
在这里插入图片描述


6. 系统设计与实现

6.1 系统设计思路

系统采用分层解耦的端到端体系:表现与交互层(浏览器端 HTML/CSS/JS)通过 Flask-SocketIO 建立全双工通道,统一承载图片、视频与摄像头三类输入,并在前端以“同步双帧”将原始帧与推理帧并排渲染;业务与会话管理层负责登录/注册/跳过模式的会话状态、参数同步(Conf/IoU、类别筛选、模型切换)与任务路由,确保同一会话的参数在多页之间一致可追踪。推理与任务调度层管理多源输入的排队与帧率整形,完成预处理(letterbox、颜色标准化)、YOLO 推理(v5–v12 任意权重热切换)与后处理(NMS/一对一匹配、统计与告警),再将检测结果与统计摘要以事件流回推前端;数据持久化层以 SQLite 记录任务、阈值与导出清单,提供批量导出与一键溯源,并暴露审计日志接口。

为保障实时性,系统采用轻量缓存与时间戳驱动的同步策略:每个视频/摄像头任务维护输入帧与推理帧的时间戳,SocketIO 按最近可匹配原则推送“双帧”,从而在网络抖动下维持视觉一致性。参数改动触发原子广播并落盘到会话配置,使浏览器侧的阈值滑杆、类别筛选与播放控件在多标签页之间保持一致;同时,业务层为长任务提供暂停、继续、停止与进度查询语义,确保用户在大批量视频检测中可以中断与续跑。可扩展性方面,权重管理支持在线上传并即时切换当前模型与类别;数据库采用自动迁移脚本维护表结构演进,导出结果集中管理并支持按文件名/时间高亮定位,以满足取证、复现与审计的需求。


图 6-1 系统流程图
图注:系统自初始化到多源输入,完成预处理、YOLO 推理与后处理,并经 SocketIO 将同步双帧与统计信息推送前端;导出与入库在任务闭环尾部完成。
在这里插入图片描述


图 6-2 系统设计框图
图注:以分层与职能展示模块边界与数据流向;表现与交互层通过会话管理与任务调度层协同推理层与数据层,实现参数一致性与结果可追溯。
在这里插入图片描述


6.2 登录与账户管理

用户打开登录界面后若已有账号则输入凭据完成校验并生成受限于当前浏览器的会话;无账号则完成注册后自动登录;也可一次性跳过进入演示态。系统在登录成功后加载个性化配置与历史记录,并跳转主界面;在任何时刻,用户可修改资料(头像/口令)并持久化到数据层;注销或切换账号将终止会话并清理前端缓存。该流程将账户状态、参数偏好与检测记录紧密衔接,使主检测流程(包括同步双帧与导出)具备持续一致性与可追溯能力。

图 6-3 登录与账户管理流程图
图注:覆盖注册、登录、跳过、个性化配置加载与注销;会话仅在当前浏览器有效。
在这里插入图片描述


代码下载链接

        如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:

在这里插入图片描述

在这里插入图片描述

        资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档https://deeppython.feishu.cn/wiki/MAbgwh1V4ircPMkHDmbcSJ8in9u

讲解视频地址https://www.bilibili.com/video/BV18wQFBkEaS/

完整安装运行教程:

        这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:

  1. Pycharm和Anaconda的安装教程https://deepcode.blog.csdn.net/article/details/136639378

        软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):

  1. Python环境配置教程https://deepcode.blog.csdn.net/article/details/136639396

7. 结论与未来工作

本文面向跌倒实时检测场景,构建了以 Flask + Flask-SocketIO + HTML/CSS/JS 为核心的 Web 平台,并将 YOLOv5–YOLOv12 八类模型在统一数据与评测协议下完成训练、对比与一键推理集成;实验表明,在 640×640 与 RTX 3070 Laptop 条件下,YOLOv8n/s 以 10–11 ms 级总时延满足高帧率摄像头联动,YOLOv11n/s 在 mAP@0.5(≈0.913/0.917)与稳定召回上更具优势,而 YOLOv9t/s 在 mAP@0.5:0.95 高 IoU 段表现领先但推理时延略高;综合“速度—精度—交互”的工程衡量,平台默认推荐 nano 组使用 YOLOv8n,small 组使用 YOLOv11s,并将前端初始阈值设为 Conf≈0.43、IoU=0.50。系统层面,事件驱动的同步双帧、可视化 PR/F1 曲线与混淆矩阵、CSV 与带框结果一键导出、SQLite 入库与检索溯源,使训练—评测—演示—归档形成闭环,可直接用于养老监护、园区安防与校园值守等多源视频的在线告警;同时,经由权重热切换与参数中心化,平台具备将“跌倒”快速迁移为“滑倒、躺卧识别、人员滞留”等相邻任务的可扩展性。

未来工作将围绕三条主线推进:模型侧,在 YOLOv12 主线引入时域建模(短窗跟踪/时序注意)、多模态融合(RGB+深度/IMU)、知识蒸馏与结构化剪枝、INT8/FP8 量化与 TensorRT/ONNX-Runtime/WebGPU 端侧推理,探索 WebAssembly 与 ONNX-Runtime-Web 的浏览器内推理以进一步降低端到端时延;系统侧,完善 Docker 化与多实例横向扩展,采用分布式任务队列(如 Celery/RQ/Kafka)与异步解码以支撑批量视频作业,引入 WebRTC 低时延推流、RBAC 角色权限与审计日志、i18n 与多租户、Prometheus/ELK 观测与告警,并提供断点续跑与异常自愈;数据侧,构建主动学习与持续标注闭环,监测数据漂移与相机域移,完善标签一致性审计与噪声鲁棒训练,在满足隐私合规的前提下实现自动化数据治理。以上改进将使平台在更复杂的环境与更大规模的部署中维持可复现、高吞吐与低误报的表现,并为行业落地提供长期可维护的工程基座。


参考文献(GB/T 7714)

1 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. 2015. arXiv:1506.01497. (arXiv)
2 Lin T-Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//ICCV. 2017. (arXiv)
3 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//ECCV. 2020. arXiv:2005.12872. (arXiv)
4 Lv W, Zhao Y, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. 2023. arXiv:2304.08069. (arXiv)
5 Martinez-Villaseñor L, Ponce H, Brieva J, et al. UP-Fall Detection Dataset[J]. Sensors, 2019, 19(9):1988. (MDPI)
6 Kępski M. UR Fall Detection Dataset[EB/OL]. University of Rzeszow. (Fenix)
7 IMVIA/Le2i. Fall Detection Dataset[EB/OL]. 2019–. (Imvia)
8 Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. 2021. arXiv:2107.08430. (arXiv)
9 Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[C]//ECCV 2024. arXiv:2402.13616. (arXiv)
10 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[J/OL]. 2024. arXiv:2405.14458. (arXiv)
11 Ultralytics. YOLO11—Docs[EB/OL]. 2024–2025. (Ultralytics Docs)
12 陈晨, 徐慧英, 朱信忠, 等. 基于YOLOv8改进的室内行人跌倒检测算法FDW-YOLO[J]. 计算机工程与科学, 2024, 46(8):1455-1468. (JOCES)
13 Fard D M, et al. FD-YOLO: A YOLO Network Optimized for Fall Detection[J]. Applied Sciences, 2025, 15(1):453. (MDPI)
14 Tîrziu E, Vasilevschi A-M, Alexandru A, et al. Enhanced Fall Detection Using YOLOv7-W6-Pose for Real-Time Elderly Monitoring[J]. Future Internet, 2024, 16(12):472. (MDPI)
15 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//ECCV 2016. (arXiv)
16 Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]//CVPR 2020. (CVF Open Access)
17 NVIDIA. Working with Quantized Types—TensorRT Documentation[EB/OL]. 2025. (NVIDIA Docs)
18 ONNX Runtime. Quantize ONNX Models—Documentation[EB/OL]. 2025. (ONNX Runtime)
19 GitHub. RT-DETR Official Repository—Speed/Accuracy Notes[EB/OL]. 2023–2024. (GitHub)
20 Wang X, et al. YOLO-fall: a YOLO-based fall detection model with high precision and real-time performance[J]. The Computer Journal, 2024, 68(7):804–816. (OUP Academic)
21 Denkovski S, Khan S S, Malamis B, et al. Multi Visual Modality Fall Detection Dataset[J/OL]. 2022. arXiv:2206.12740. (arXiv)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐