TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection

无监督长尾噪声异常检测旨在从含噪且类别分布极度不平衡的数据集中识别异常样本。现有方法面临三大核心挑战:

  • - 依赖像素级噪声鲁棒性假设:当前模型要么对噪声敏感,要么在少数类上表现差;
  • - 缺乏对类别分布未知的处理能力:多数方法需要显式类别标签或强先验知识;
  • - 无法有效区分少数类特征和异常特征:二者统计特性相似,易混淆。
图1.尾部类别(x轴)与噪声头部类别(y轴)性能对比。基于记忆的异常检测模型(圆圈标记)中尾部与噪声的权衡关系呈现,且通过图像级 AUROC 评估的异常分类任务(左图)更能体现该特性。

本文提出TailedCore,在MVTecAD上图像级AUROC达96.1%,超越SOTA 3.7个百分点。

核心贡献

本文核心贡献包括:

  • 首个完全无监督框架应对长尾噪声环境下的异常检测任务,解决“尾部vs噪声”权衡难题(Tail-versus-noise dilemma),HR-Avenue AUROC=95.24%;
  • 提出TailSampler模块,基于嵌入空间角度对称性估计类别基数,实现精准采样尾部类样本(Tail class sampling accuracy >99%);
  • 构建TailedCore记忆库,融合去噪基线PatchMemory与尾部增强PatchMemory,参数量仅增加约10%,但显著提升整体性能;
  • 引入肘部法自动判断最大尾部类规模K_max,无需人工设定超参,适用性强;
  • 设计了新的评估基准Long-Tail Noisy AD Benchmark,支持多种分布形态(Step、Pareto等),便于后续研究比较。

相关工作综述

(一) 多类异常检测局限

现有方法主要包括:[多类重构型方法](如UniAD),其核心思想是通过局部注意力避免捷径学习,但局限在于 无法处理噪声污染数据中的缺陷区域误判问题 及 静态图结构难以捕捉跨类别的复杂交互模式

→ 本文改进:引入TailSampler分离尾部类样本进行独立建模,缓解噪声干扰。

(二) 少样本异常检测不足

现有方法主要包括:[零样本/少样本方法](如WinCLIP),其核心思想是借助预训练视觉语言模型提取通用表征,但局限在于依赖复杂的提示工程和 在充分训练样本下精度仍低于传统方法

→ 本文改进:无需任何提示微调过程,直接利用编码器嵌入构建尾部感知机制。

(三) 噪声鲁棒学习缺陷

现有方法主要包括:[噪声净化策略](如SoftPatch),其核心思想是剔除高离群值得到干净内存核,但局限在于 同时丢失大量尾部类信息 和 阈值选取影响最终效果稳定性

→ 本文改进:结合TailSampler保留尾部类补丁,并采用贪心采样优化代表性。

方法论详解

图2. (a) TailedCore(本研究)的采样过程描述及 (b) 如何应用TailedCore的示意图

1. TailSampler — 类别大小预测模块

  • - 功能:用于准确估算每个训练样本所属类别的数量。
  • - 机制:基于嵌入向量的角度对称性假设,计算邻域内邻居的邻域大小众数作为类别大小估计值。
  • - 动机:相比传统聚类算法更稳健,尤其适用于极不平衡且含噪声的数据集;相较于孤立森林等方法更具可解释性和可控性。

推测潜在失败场景:当类别间几何距离过近时可能导致错误分类;若编码器提取的嵌入质量不佳,则会影响整个预测准确性。

2. Elbow Point Estimator — 自动确定尾部类上限

  • - 功能:根据类别大小排序后的曲线自动定位拐点,从而决定哪些属于尾部类。
  • - 机制:使用线性拟合连接首尾两点,寻找垂直于直线的最大正交距离对应的类别索引。
  • - 动机:无需人为设置K_max,提高方法普适性;相比固定比例划分更加灵活可靠。

分析选择理由:为何不用均值分割?因为长尾分布本身具有非均匀性,简单平均会掩盖真实变化趋势。

3. Memory Augmentation Strategy — 记忆扩充策略

  • - 功能:将原始噪声净化记忆库与TailSampler筛选出的尾部类补丁合并形成完整记忆库。
  • - 机制:分别执行噪声过滤与尾部采样后再做贪心共核采样,确保两者兼顾。
  • - 动机:既保证了主干类别的纯净性又增强了尾部类别的表达力,有效缓解Tail-versus-noise trade-off。

探讨替代方案优劣:如果只用噪声净化后的Patch是否足够?答案是否定的——这会导致尾部类信息缺失进而降低召回率。

实验与验证

性能对比

效率分析

  • - 参数增长:<10%
  • - 推理速度:与PatchCore相当(~10ms/image)

消融实验

解读性能提升根本原因:TailSampler成功隔离尾部类样本使得记忆库既能抵御噪声又能保留细节信息,从而全面提升检测能力。

结论与展望

贡献重申

  1. 提出TailSampler精确预测类别基数,解决尾部vs噪声冲突;
  2. 构建TailedCore记忆库,整合去噪与尾部增强双重优势;
  3. 在多个公开基准上验证有效性,图像级AUROC最高达96.12%。

未来方向

  • 探索动态阈值自适应调整以进一步提升鲁棒性;
  • 扩展至视频域异常检测任务;
  • 结合Transformer架构提升嵌入质量;
  • 开发在线更新机制适应流式生产环境。

局限性

目前方法在无异常长视频中可能误报稀有正常事件;此外对于高度重叠的类别边界尚存在误检风险。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐