Anomaly Detection系列（CVPR2025 LASB论文解读）

quetalangtaosha

460人浏览 · 2026-04-07 22:51:26

quetalangtaosha · 2026-04-07 22:51:26 发布

A Unified Latent Schrödinger Bridge Diffusion Model for Unsupervised Anomaly Detection and Localization

无监督视频异常检测(UVAD)旨在仅利用正常样本训练模型，在测试阶段识别并定位异常事件。当前方法面临三大核心挑战：

依赖一类分类(OCC)假设 —— 强制要求训练集中不含任何异常样本，这在现实工业或医疗场景中难以满足；
无法利用异常低频先验 —— 多数方法忽视异常事件稀疏性的统计特性，导致对复杂异常模式鲁棒性差；
结构破坏与重建偏差问题 —— 基于高斯扩散的方法易在去噪过程中丢失图像结构信息，影响局部异常感知能力。

本论文提出Latent Anomaly Schrödinger Bridge (LASB)，一种全新的统一无监督异常检测框架，首次将线性薛定谔桥应用于潜在空间中的异常到正常的转换过程。该方法在MVTec-AD和VisA数据集上分别达到图像级AUROCcls=99.2%和像素级AUROCseg=98.6%，超越现有最优方法超过3个百分点。

核心贡献

本文核心贡献如下：

首个完全无监督的桥接扩散模型：LASB无需额外辅助网络即可实现从异常到正常的平滑映射，解决了传统扩散模型依赖判别子网络的问题。
首个引入线性薛定谔桥至潜在空间的框架：相比标准高斯扩散，保留更多结构性细节，提升异常定位精度（MVTec AUROCseg=98.6%，↑3.1%）。
首个支持多类统一建模的扩散模型架构：无需类别特定训练，适用于多种工业对象类型，且推理速度提升约2倍。
显著降低资源消耗：相较于传统Schrödinger Bridge方法，训练时间减少5×，内存占用下降3×，采样效率提高4×。
稳定输出表现优异：多次采样下性能波动小于±0.1%，确保部署可靠性。

方法论详解

图1. LASB 模型框架包含两个关键阶段：训练与推理。在训练阶段，会对图像进行异常数据增强处理，引入 LASB 模型需要学习消除的图像失真特征，最终重建出正常图像。这一迭代过程将持续进行，直至模型能有效过滤异常数据。在推理阶段，模型会对真实异常图像进行处理，重建出正常版本图像。异常检测通过计算原始图像与重建图像之间的差异值（pB−pA）实现，异常特征则通过热力图进行可视化呈现。

（一）潜在空间编码模块

- 功能：用于提取输入图像的紧凑潜在表征，便于后续扩散操作；
- 机制：采用预训练的VQ-VAE进行感知压缩，将图像编码为64×64×3维潜在向量；
- 动机：相比于像素级扩散，潜在空间可大幅降低计算成本并保留关键结构信息；此外，固定权重的设计也增强了稳定性。

推测失败场景：若原始图像存在严重失真（如光照突变），可能导致潜在编码失真进而误导后续扩散过程。

（二）线性薛定谔桥扩散模块

- 功能：执行从异常潜在态到正常潜在态的可控变换；
- 机制：基于公式(11)定义解析形式后验分布 $ q(z_t|z_0,z_1) $，并通过U-Net预测噪声项 $ \epsilon_\theta(z_t,t) $ 进行反向迭代；
- 动机：不同于高斯扩散需逐层加噪破坏结构，本方法通过设定终点分布 $ p_B $ 作为Dirac Delta函数，使得扩散轨迹始终朝向已知正常区域收敛，从而保证重建图像的合理性。

关键技术选择分析：为何选用线性而非非线性薛定谔桥？因为后者虽更灵活，但在实际应用中难以准确估计两端漂移场，反而增加训练难度。