A Unified Latent Schrödinger Bridge Diffusion Model for Unsupervised Anomaly Detection and Localization

无监督视频异常检测(UVAD)旨在仅利用正常样本训练模型,在测试阶段识别并定位异常事件。当前方法面临三大核心挑战:  

  1. 依赖一类分类(OCC)假设 —— 强制要求训练集中不含任何异常样本,这在现实工业或医疗场景中难以满足;  
  2. 无法利用异常低频先验 —— 多数方法忽视异常事件稀疏性的统计特性,导致对复杂异常模式鲁棒性差;  
  3. 结构破坏与重建偏差问题 —— 基于高斯扩散的方法易在去噪过程中丢失图像结构信息,影响局部异常感知能力。

本论文提出Latent Anomaly Schrödinger Bridge (LASB),一种全新的统一无监督异常检测框架,首次将线性薛定谔桥应用于潜在空间中的异常到正常的转换过程。该方法在MVTec-AD和VisA数据集上分别达到图像级AUROCcls=99.2%和像素级AUROCseg=98.6%,超越现有最优方法超过3个百分点。

核心贡献

本文核心贡献如下:

  • 首个完全无监督的桥接扩散模型:LASB无需额外辅助网络即可实现从异常到正常的平滑映射,解决了传统扩散模型依赖判别子网络的问题。
  • 首个引入线性薛定谔桥至潜在空间的框架:相比标准高斯扩散,保留更多结构性细节,提升异常定位精度(MVTec AUROCseg=98.6%,↑3.1%)。
  • 首个支持多类统一建模的扩散模型架构:无需类别特定训练,适用于多种工业对象类型,且推理速度提升约2倍。
  • 显著降低资源消耗:相较于传统Schrödinger Bridge方法,训练时间减少5×,内存占用下降3×,采样效率提高4×。
  • 稳定输出表现优异:多次采样下性能波动小于±0.1%,确保部署可靠性。

相关工作综述

(一) 学习范式局限

现有方法主要包括:[类别A](如DRAEM [56]、PaDiM [12]),其核心思想是通过重构误差衡量异常程度,但局限在于无法处理多样化的伪异常增强策略过度拟合单一噪声分布导致泛化力弱。  

→ 本文改进:采用线性薛定谔桥机制,直接优化异常到正常之间的路径,避免依赖伪异常生成质量。

(二) 扩散过程设计缺陷

现有方法主要包括:[类别B](如DDPM、DiAD),其核心思想是从纯噪声逐步恢复图像,但局限在于初始噪声破坏原始结构,导致局部异常响应迟钝和缺乏语义引导时容易陷入局部最优。  

→ 本文改进:引入半退化策略,在前向过程中维持结构完整性,同时借助VQ-VAE压缩感知提升效率。

(三) 多类适配能力不足

现有方法主要包括:[类别C](如UniAD、HVQ-Trans),其核心思想是构建跨类共享表示,但局限在于注意力机制易受“快捷学习”干扰 和 类别间特征混淆造成误检率上升。  

→ 本文改进:通过Dirac Delta边界条件约束,使模型专注于正常模式重建,天然抑制异常干扰。

方法论详解

图1. LASB 模型框架包含两个关键阶段:训练与推理。在训练阶段,会对图像进行异常数据增强处理,引入 LASB 模型需要学习消除的图像失真特征,最终重建出正常图像。这一迭代过程将持续进行,直至模型能有效过滤异常数据。在推理阶段,模型会对真实异常图像进行处理,重建出正常版本图像。异常检测通过计算原始图像与重建图像之间的差异值(pB−pA)实现,异常特征则通过热力图进行可视化呈现。

(一)潜在空间编码模块

  • - 功能:用于提取输入图像的紧凑潜在表征,便于后续扩散操作;
  • - 机制:采用预训练的VQ-VAE进行感知压缩,将图像编码为64×64×3维潜在向量;
  • - 动机:相比于像素级扩散,潜在空间可大幅降低计算成本并保留关键结构信息;此外,固定权重的设计也增强了稳定性。

推测失败场景:若原始图像存在严重失真(如光照突变),可能导致潜在编码失真进而误导后续扩散过程。

(二)线性薛定谔桥扩散模块

  • - 功能:执行从异常潜在态到正常潜在态的可控变换;
  • - 机制:基于公式(11)定义解析形式后验分布 $ q(z_t|z_0,z_1) $,并通过U-Net预测噪声项 $ \epsilon_\theta(z_t,t) $ 进行反向迭代;
  • - 动机:不同于高斯扩散需逐层加噪破坏结构,本方法通过设定终点分布 $ p_B $ 作为Dirac Delta函数,使得扩散轨迹始终朝向已知正常区域收敛,从而保证重建图像的合理性。

关键技术选择分析:为何选用线性而非非线性薛定谔桥?因为后者虽更灵活,但在实际应用中难以准确估计两端漂移场,反而增加训练难度。

(三)差异热力图生成模块

  • - 功能:用于检测并可视化异常区域;
  • - 机制:比较原图与重建图在多个尺度下的特征差异,并结合ImageNet预训练骨干提取上下文感知特征;
  • - 动机:借鉴DiAD [21] 的做法,通过多尺度残差放大细微异常信号,提升定位敏感度。

可能局限性:当异常区域极小时,可能会被当作背景噪声忽略;此外,纹理类异常由于结构相似性强也可能被漏检。

实验与验证

效率对比:

  • - 参数量比MoCoDAD减少40%
  • - 训练时间仅为传统SB方法的1/5
  • - 推理时间仅需0.74秒(NVIDIA V100 GPU)

消融实验结果:

  • - 移除VQ-VAE → AUROCcls ↓4.1%
  • - 不使用线性SB → AUROCseg ↓3.8%
  • - 缺少差异热力图模块 → F1maxseg ↓7.2%

性能提升归因:LASB之所以优于其他扩散模型,主要得益于两点:

  • 一是线性桥接保留了结构连续性
  • 二是潜在空间操作提升了整体效率

结论与展望

贡献重申:

  1. 首次将线性薛定谔桥引入异常检测领域;
  2. 提出统一多类异常检测框架,无需额外指导;
  3. 在两个主流基准上刷新SOTA记录。

未来方向

  1. 探索动态阈值自适应调整以应对不同异常强度;
  2. 引入不确定性量化机制评估模型置信度;
  3. 将LASB拓展至视频域,研究时空一致性的保持方式;
  4. 构建轻量化版本以便边缘设备部署。

局限性:

  • 对于长时间无异常序列可能出现误报罕见正常事件;
  • 当前仅针对静态图像设计,尚未扩展至动态视频流处理。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐