Anomaly Detection系列(CVPR2025 EG-MPC论文解读)
无监督视频异常检测旨在仅从正常样本中学习模式,从而识别测试阶段中的异常事件。
当前方法面临三大核心挑战:
- 依赖静态背景假设:现有方法易受复杂背景噪声干扰,在非均匀光照或动态背景下误检率高。
- 缺乏对多样正常模式的有效建模:多数方法仅在训练时更新记忆项,忽略了测试集中也存在可参考的正常行为。
- 难以区分局部异常与全局噪声:小尺度异常区域常被背景误差掩盖,导致漏报和误报。
本文提出一种结合下一帧预测与预测帧重建的任务框架,引入RGB误差引导的多尺度预测编码(EG-MPC)与动态记忆模块(DMM),在四个基准数据集上实现SOTA性能,尤其在上海科技城数据集上AUROC达86.0%,超越最先进方法0.9个百分点。
核心贡献
本文核心贡献如下:
- 首个融合RGB误差空间预测与动态记忆重建的双任务框架,解决了传统方法对背景噪声敏感的问题(挑战1),在上海Tech上AUROC=86.0%。
- 提出RGB误差引导的多尺度预测编码架构,通过通道与空间注意力机制增强前景物体特征提取能力(挑战1),相比纯ConvLSTM基线提升Δ𝑆至0.349。
- 设计动态记忆模块及其稀疏聚合与选择性更新策略,有效放大异常帧重构误差(挑战2),并在测试阶段持续优化记忆库表达力(挑战2),使Avenue Δ𝑆提高到0.431。
- 首次将对比损失应用于记忆模块内部项间差异化约束,确保记忆项多样性(挑战2),对比损失系数γ₁=γ₂=0.1时效果最优。
- 实现实时推理速度与精度平衡,运行速度达**82.1 FPS**,优于多数混合任务方法(挑战3),同时保持高准确率。
相关工作综述
(一) 学习范式局限
现有方法主要包括:[单任务方法](如MemAE [13]、MNAD [29]),其核心思想是利用自动编码器或GAN进行帧级重建或预测;但局限在于无法处理复杂背景下的细粒度异常定位(如“手臂僵直行走”)及过度依赖静态图结构无法捕捉运动演化过程。
→ 本文改进:采用双任务联合优化,借助RGB误差空间聚焦于前景变化,避免背景冗余建模。
(二) 多任务协同限制
另一类为[混合任务方法](如HF2-VAD [22]、MGSTRL [51]),尝试整合多个代理任务以增强模型表达力;但局限在于任务组合复杂导致实时性差(如HF2-VAD仅76.2 FPS)及各子任务之间可能存在冲突影响整体性能(如动作识别与光流估计不一致)。
→ 本文改进:构建轻量化的预测+重建双任务流程,降低任务耦合度并提升效率。
(三) 记忆机制缺陷
已有记忆网络(如MemAE [13]、SDMAE [33])虽能抑制异常泛化,但仍受限于固定记忆库容量与静态更新机制,导致无法适应测试阶段新出现的正常模式(如新场景下的人群流动)。
→ 本文改进:引入动态记忆模块,支持训练与测试双重更新机制,强化模型在线学习能力。
方法论详解
1. RGB误差引导的多尺度预测编码(EG-MPC)
- - 功能:用于生成高质量的下一帧预测结果,缓解背景噪声干扰。
- - 机制:输入为RGB误差图 $ E_t = G_t \ominus P_t $,经编码器提取特征后送入四层时空细化模块(STFRM)。每层STFRM融合通道注意力(CAU)与带膨胀卷积的空间注意力(SAU_d),逐级关注不同尺度的预测误差区域。
- - 动机:相比直接预测完整帧,误差图更突出前景变化,抑制静态背景学习偏好,提升预测效率。此外,多尺度设计增强了对小目标异常的感知能力。
> ⚠️ 局限推测:若原始视频分辨率过低或色彩单调(如灰阶图像),RGB误差可能不足以提供足够信息。
2. 动态记忆辅助的预测帧重建网络
- - 功能:通过对预测帧进行记忆驱动的重建,进一步放大异常帧与正常帧之间的差异。
- - 机制:U-Net骨干网络中嵌入两个独立的动态记忆模块(DMM),分别作用于第二、三级特征图。每个DMM内含N个记忆项,通过查询-记忆相似度加权聚合完成重建,并施加稀疏化与选择性更新策略。
- - 动机:稀疏聚合防止异常被良好重建,选择性更新允许测试阶段继续吸收新的正常模式,提升模型泛化能力。
> ⚠️ 局限推测:当异常行为具有高度重复性且接近正常模式时,可能导致记忆项误收录异常样本。
3. 异常评分机制
- - **功能**:量化每一帧是否异常的概率。
- - **机制**:基于重建帧与真值间的PSNR计算得分,再做归一化处理得到最终异常分数 $ S_t $。
- - **动机**:PSNR作为衡量标准已被广泛验证,适用于本任务中异常与正常的区分。
> ⚠️ 局限推测:对于长时间无明显活动的视频片段,可能出现稳定但罕见的正常行为被判为异常。
实验与验证

性能对比
| 数据集 | 本文方法(AUROC) | 最佳竞品(MGSTRL) | 提升幅度 |
|---------------------|------------------|--------------------|-----------|
| UCSD Ped2 | 99.1 | 92.4 | +6.7 |
| Avenue | 92.9 | 92.4 | +0.5 |
| ShanghaiTech | 86.0 | 85.1 | +0.9 |
| UCF-Crime | 82.1 | 80.6 | +1.5 |
效率分析
- - 参数量:相较MoCoDAD减少约**30%**
- - 推理速度:**82.1 FPS**,远超HF2-VAD(76.2 FPS)
消融实验

| 组件移除 | AUROC下降值 | Δ𝑆下降值 |
|---------------------|-------------|----------|
| 移除EG-MPC | ↓3.8% | ↓0.12 |
| 移除DMM | ↓4.2% | ↓0.15 |
| 不使用稀疏聚合 | ↓2.1% | ↓0.08 |
| 关闭测试更新 | ↓1.7% | ↓0.06 |
> 🔍 分析:性能提升主要源于**双任务协同放大异常信号**以及**动态记忆机制提升了模型对多样化正常行为的学习能力**。
结论与展望
贡献重申
- 双任务联合优化框架,AUROC达86.0%
- RGB误差引导预测+动态记忆重建,Δ𝑆达0.431
- 支持训练/测试双阶段更新的记忆机制,FPS达82.1
未来方向
- 探索动态阈值自适应调整机制,提升异常判定稳定性;
- 扩展至半监督设定,结合少量标注样本提升检测精度;
- 针对长时间序列建模引入时间记忆单元,应对周期性正常行为误判问题;
- 构建跨摄像头迁移学习机制,拓展应用场景。
局限性
- 对于极低分辨率或灰阶视频,RGB误差有效性受限;
- 在无异常长视频中可能误报稀有但合法的正常事件。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)