Anomaly Detection系列（CVPR2025 EG-MPC论文解读）

quetalangtaosha

413人浏览 · 2026-04-14 22:06:43

quetalangtaosha · 2026-04-14 22:06:43 发布

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

无监督视频异常检测旨在仅从正常样本中学习模式，从而识别测试阶段中的异常事件。

当前方法面临三大核心挑战：

依赖静态背景假设：现有方法易受复杂背景噪声干扰，在非均匀光照或动态背景下误检率高。
缺乏对多样正常模式的有效建模：多数方法仅在训练时更新记忆项，忽略了测试集中也存在可参考的正常行为。
难以区分局部异常与全局噪声：小尺度异常区域常被背景误差掩盖，导致漏报和误报。

图1.不同方法帧重建RGB误差图的可视化结果（从上至下依次为：HSC[40]、 MGSTRL [51]及本研究方法）。从左至右依次展示：(a)ShanghaiTech [26]的正常数据与(b)Avenue[25]的异常数据、(c)ShanghaiTech 及(d)UCF-Crime[38]数据的RGB误差图。误差图中数值表示与真实值的均方误差。最佳效果请以彩色模式查看。

本文提出一种结合下一帧预测与预测帧重建的任务框架，引入RGB误差引导的多尺度预测编码（EG-MPC）与动态记忆模块（DMM），在四个基准数据集上实现SOTA性能，尤其在上海科技城数据集上AUROC达86.0%，超越最先进方法0.9个百分点。

核心贡献

本文核心贡献如下：

首个融合RGB误差空间预测与动态记忆重建的双任务框架，解决了传统方法对背景噪声敏感的问题（挑战1），在上海Tech上AUROC=86.0%。
提出RGB误差引导的多尺度预测编码架构，通过通道与空间注意力机制增强前景物体特征提取能力（挑战1），相比纯ConvLSTM基线提升Δ𝑆至0.349。
设计动态记忆模块及其稀疏聚合与选择性更新策略，有效放大异常帧重构误差（挑战2），并在测试阶段持续优化记忆库表达力（挑战2），使Avenue Δ𝑆提高到0.431。
首次将对比损失应用于记忆模块内部项间差异化约束，确保记忆项多样性（挑战2），对比损失系数γ₁=γ₂=0.1时效果最优。
实现实时推理速度与精度平衡，运行速度达**82.1 FPS**，优于多数混合任务方法（挑战3），同时保持高准确率。

相关工作综述

(一) 学习范式局限

现有方法主要包括：[单任务方法]（如MemAE [13]、MNAD [29]），其核心思想是利用自动编码器或GAN进行帧级重建或预测；但局限在于无法处理复杂背景下的细粒度异常定位（如“手臂僵直行走”）及过度依赖静态图结构无法捕捉运动演化过程。

→ 本文改进：采用双任务联合优化，借助RGB误差空间聚焦于前景变化，避免背景冗余建模。

(二) 多任务协同限制

另一类为[混合任务方法]（如HF2-VAD [22]、MGSTRL [51]），尝试整合多个代理任务以增强模型表达力；但局限在于任务组合复杂导致实时性差（如HF2-VAD仅76.2 FPS）及各子任务之间可能存在冲突影响整体性能（如动作识别与光流估计不一致）。

→ 本文改进：构建轻量化的预测+重建双任务流程，降低任务耦合度并提升效率。

(三) 记忆机制缺陷

已有记忆网络（如MemAE [13]、SDMAE [33]）虽能抑制异常泛化，但仍受限于固定记忆库容量与静态更新机制，导致无法适应测试阶段新出现的正常模式（如新场景下的人群流动）。

→ 本文改进：引入动态记忆模块，支持训练与测试双重更新机制，强化模型在线学习能力。

方法论详解

图2.所提方法的概述。该方法由RGB误差引导多尺度预测编码（EG-MPC）框架和通过动态记忆模块（DMMs）增强的重建网络组成，分别用于解决下一帧预测和预测帧重建代理任务。 𝑈𝑖 表示U-Net的第 𝑖 层。最佳效果以彩色显示。

1. RGB误差引导的多尺度预测编码（EG-MPC）

- 功能：用于生成高质量的下一帧预测结果，缓解背景噪声干扰。
- 机制：输入为RGB误差图 $ E_t = G_t \ominus P_t $，经编码器提取特征后送入四层时空细化模块（STFRM）。每层STFRM融合通道注意力（CAU）与带膨胀卷积的空间注意力（SAU_d），逐级关注不同尺度的预测误差区域。
- 动机：相比直接预测完整帧，误差图更突出前景变化，抑制静态背景学习偏好，提升预测效率。此外，多尺度设计增强了对小目标异常的感知能力。

> ⚠️ 局限推测：若原始视频分辨率过低或色彩单调（如灰阶图像），RGB误差可能不足以提供足够信息。

2. 动态记忆辅助的预测帧重建网络

- 功能：通过对预测帧进行记忆驱动的重建，进一步放大异常帧与正常帧之间的差异。
- 机制：U-Net骨干网络中嵌入两个独立的动态记忆模块（DMM），分别作用于第二、三级特征图。每个DMM内含N个记忆项，通过查询-记忆相似度加权聚合完成重建，并施加稀疏化与选择性更新策略。
- 动机：稀疏聚合防止异常被良好重建，选择性更新允许测试阶段继续吸收新的正常模式，提升模型泛化能力。

> ⚠️ 局限推测：当异常行为具有高度重复性且接近正常模式时，可能导致记忆项误收录异常样本。

3. 异常评分机制

- **功能**：量化每一帧是否异常的概率。
- **机制**：基于重建帧与真值间的PSNR计算得分，再做归一化处理得到最终异常分数 $ S_t $。
- **动机**：PSNR作为衡量标准已被广泛验证，适用于本任务中异常与正常的区分。

> ⚠️ 局限推测：对于长时间无明显活动的视频片段，可能出现稳定但罕见的正常行为被判为异常。

实验与验证

性能对比

| 数据集 | 本文方法(AUROC) | 最佳竞品(MGSTRL) | 提升幅度 |

|---------------------|------------------|--------------------|-----------|

| UCSD Ped2 | 99.1 | 92.4 | +6.7 |

| Avenue | 92.9 | 92.4 | +0.5 |

| ShanghaiTech | 86.0 | 85.1 | +0.9 |

| UCF-Crime | 82.1 | 80.6 | +1.5 |

效率分析

- 参数量：相较MoCoDAD减少约**30%**
- 推理速度：**82.1 FPS**，远超HF2-VAD（76.2 FPS）

消融实验

| 组件移除 | AUROC下降值 | Δ𝑆下降值 |

|---------------------|-------------|----------|

| 移除EG-MPC | ↓3.8% | ↓0.12 |

| 移除DMM | ↓4.2% | ↓0.15 |

| 不使用稀疏聚合 | ↓2.1% | ↓0.08 |

| 关闭测试更新 | ↓1.7% | ↓0.06 |

> 🔍 分析：性能提升主要源于**双任务协同放大异常信号**以及**动态记忆机制提升了模型对多样化正常行为的学习能力**。

结论与展望

贡献重申

双任务联合优化框架，AUROC达86.0%
RGB误差引导预测+动态记忆重建，Δ𝑆达0.431
支持训练/测试双阶段更新的记忆机制，FPS达82.1

未来方向

探索动态阈值自适应调整机制，提升异常判定稳定性；
扩展至半监督设定，结合少量标注样本提升检测精度；
针对长时间序列建模引入时间记忆单元，应对周期性正常行为误判问题；
构建跨摄像头迁移学习机制，拓展应用场景。

局限性

对于极低分辨率或灰阶视频，RGB误差有效性受限；
在无异常长视频中可能误报稀有但合法的正常事件。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

SpringBoot+Vue 反欺诈平台管理平台源码【适合毕设/课设/学习】Java+MySQL

AtomGit开源社区

cover

SpringBoot+Vue 码头船只货柜管理系统管理平台源码【适合毕设/课设/学习】Java+MySQL

AtomGit开源社区

cover

【2027最新】基于SpringBoot+Vue的大学生科创项目在线管理系统管理系统源码+MyBatis+MySQL

AtomGit开源社区

所有评论(0)

查看更多评论

quetalangtaosha

@quetalangtaosha

已为社区贡献6条内容