CVPR 2026 | GS-CLIP：3D几何先验+双流视觉融合，零样本工业缺陷检测新SOTA，四大3D工业数据集全面领先！

SUNNY_SHUN

699人浏览 · 2026-03-17 15:18:04

SUNNY_SHUN · 2026-03-17 15:18:04 发布

论文标题：GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

作者：Zehao Deng, An Liu, Yan Wang

机构：苏州大学计算机科学与技术学院、清华大学智能产业研究院（AIR）

论文编号：arXiv: 2602.19206v2

代码开源：https://github.com/zhushengxinyue/GS-CLIP

导读：

现有零样本3D异常检测方法将点云投影为2D图像后借助CLIP进行检测，但投影丢失了关键的几何细节，且仅依赖单一视觉模态，检测能力受限。GS-CLIP 提出"几何感知提示学习 + 协同双流视觉表征"两阶段框架：第一阶段从3D点云中提炼全局形状上下文和局部缺陷信息注入文本提示；第二阶段让渲染图和深度图双流并行处理并深度融合。在 MVTec3D-AD、Real3D-AD、Eyecandies、Anomaly-ShapeNet 四大数据集上全面超越 PointAD（NeurIPS'24），O-AUROC 平均提升 1.8%，P-PRO 平均提升 2.5%。

一、问题出在哪？两大瓶颈制约零样本3D异常检测

3D异常检测是工业制造中的核心质检环节。传统无监督方法需要大量目标类别的正常样本进行训练，但在实际工业场景中，商业机密和数据隐私往往使得采集足够训练数据变得极为困难。因此，零样本3D异常检测（ZS3DAD）应运而生——在辅助数据上训练，直接迁移到从未见过的目标类别上检测异常。

当前主流方法的思路是：将3D点云投影为2D图像，借助 CLIP 强大的视觉-语言对齐能力来识别异常。但这条技术路线存在两个根本性瓶颈：

瓶颈一：3D几何结构感知缺失

3D到2D的投影本质上是有损压缩——立体结构被压扁成平面像素，关键的几何细节不可避免地被丢弃。模型学到的不是异常的物理几何形态，而只是它们在2D图像上的"影子"。

当某个角度下几何异常的视觉特征不明显时，这种间接检测范式就会失效。

举个例子：一个饼干表面的凹坑，从正上方看只是一个浅浅的阴影，模型很容易漏检。但如果能直接"感知"到3D点云中这个区域的深度突变，检测就会准确得多。

瓶颈二：视觉信息利用不充分

当前方法通常只依赖单一类型的2D表示（渲染图或深度图），但这两种图各有明显的优缺点：

表示类型	优势	劣势
渲染图	纹理和外观细节丰富，擅长捕捉表面划痕、污渍	对光照和渲染质量敏感可能引入伪阴影干扰
深度图	直接反馈几何结构，不受光照影响	无法捕捉深度变化极小的缺陷（如轻微突起）

论文用了一个非常直观的对比来说明：

饼干表面的凹坑：深度图能清晰显示凹陷，渲染图反而被纹理干扰 → 深度图赢
面包圈表面的轻微凸起：深度变化极小，深度图几乎看不出来，但渲染图通过光影变化能捕捉到 → 渲染图赢

只用一种，注定有盲区。两种互补，才能全面覆盖。

二、核心创新：让模型既"看得懂几何"又"看得全视角"

GS-CLIP 的核心思路是通过两阶段学习，分别从文本端和视觉端增强模型能力：

第一阶段：把3D几何信息"翻译"成文本提示，让CLIP的语言端理解几何异常长什么样。第二阶段：让渲染图和深度图双流并行处理并深度融合，让CLIP的视觉端看得更全面。

整体架构

核心流程：

3D 点云
    ↓
PointNet++ 提取特征
    ├── 全局特征 → 投影 → Shape Prompt（形状提示）
    └── 局部特征 → GDDM（异常评分 → Top-K → Self-Attention）→ Defect Prompt（缺陷提示）
                                    ↓
                Normal Prompt = Shape + Learnable
                Anomaly Prompt = Shape + Learnable + Defect
                                    ↓
                          冻结文本编码器 → T_N, T_A
                                    ↓
多视角投影 ──┬── 渲染图 → 冻结ViT ──────────┐
             └── 深度图 → LoRA微调ViT ───────┤
                                               ↓
                              SRM（双向乘性注意力融合）
                                               ↓
                                    协同全局/局部特征 G, L
                                               ↓
                         cos(G, T_A) / cos(G, T_N) → 物体级分类
                         cos(L, T_A) / cos(L, T_N) → 像素级分割
                                               ↓
                            反投影 → 3D 点级异常分割

Stage 1：几何感知提示学习

这一阶段的目标是：让文本提示"嵌入"3D几何信息，而非使用通用的、与几何无关的文本描述。

Shape Prompt（形状提示）—— 注入全局几何上下文

通过 PointNet++ 提取3D点云的全局特征，经投影层映射为形状提示向量。这个向量携带了目标物体的整体几何形状信息（"这是一个圆柱体"、"这是一个扁平的圆盘"），帮助模型理解当前检测对象的宏观几何语境。

Defect Prompt（缺陷提示）—— 提炼局部异常线索

这是本文最精巧的设计，由 几何缺陷蒸馏模块（GDDM） 实现：

局部点特征 → 与正常原型记忆库对比 → 计算几何异常分数
     ↓
取 Top-K 异常分数最高的点特征
     ↓
Self-Attention 聚合（捕捉异常点之间的结构关系）
     ↓
投影 → Defect Prompt

关键设计：

正常原型记忆库：在辅助数据集上预先学习正常点的特征原型，构成一个紧凑的"正常特征流形"

几何异常评分：每个点的异常分数 = 1 - 与最相似正常原型的余弦相似度。离正常越远，越可疑

Top-K 选择：只保留最可疑的 K 个点的特征，过滤掉正常点的噪声

Self-Attention 聚合：让异常点之间互相交互，理解它们是否共同构成一道划痕或一个凹坑

不对称拼接 —— 巧妙的信息注入策略

最终的提示拼接方式是不对称的：

Normal Prompt = Shape Prompt + 可学习提示（没有缺陷信息）
Anomaly Prompt = Shape Prompt + 可学习提示 + Defect Prompt（额外注入缺陷信息）

这意味着：只有异常提示携带了缺陷的几何特征描述。当视觉特征与异常提示的相似度更高时，模型就能判断"当前区域的视觉表现与3D几何缺陷的描述更匹配"，从而实现更精准的检测。

Stage 2：协同视觉表征学习

Depth-LoRA —— 轻量适配深度图

CLIP 原生是在真实图像上预训练的，天然适配渲染图。但深度图的特征分布与真实图像差异很大，直接用冻结的 ViT 处理效果不佳。

GS-CLIP 的解决方案是：用 LoRA 只微调 ViT 中 MLP 层的参数，完全保留 Multi-Head Self-Attention 块的空间关系建模能力。

原始MLP: MLP(x) = W₂ · GELU(W₁x)
                    ↓ LoRA改造
LoRA-MLP: x' = GELU(W₁x + γB₁A₁x)
          MLP'(x) = W₂x' + γB₂A₂x'

好处：用极少的额外参数（低秩矩阵 A、B），让 ViT 适配深度图的特征分布，同时不破坏预训练模型的视觉理解能力。

协同精炼模块（SRM）—— 深度融合双流特征

SRM 通过双向乘性注意力实现渲染流和深度流的深度交互：

渲染特征 → 线性投影 → K_R, V_R ─┐
                                   ├→ 共享注意力矩阵 S = f₁(K_R) × f₂(K_D)ᵀ
深度特征 → 线性投影 → K_D, V_D ─┘
                                         ↓
                     E_R = Softmax(S) · V_R    （深度信息增强渲染特征）
                     E_D = Softmax(Sᵀ) · V_D   （渲染信息增强深度特征）
                                         ↓
                     Concat(E_R, E_D) → MLP → 协同特征 G

核心思想：不是简单拼接或相加，而是让两个模态互相查询对方的信息——渲染流"问"深度流"你在这个位置看到了什么几何结构？"，深度流"问"渲染流"你在这个位置看到了什么纹理细节？"。最终融合出一个兼具两者优势的统一特征。

跨视角一致性损失

为了增强模型的泛化能力，GS-CLIP 还引入了跨视角一致性损失：

L_con = 1 - (1/v) Σ cos(Gᵢ, G̅)

鼓励模型对同一物体的不同视角学到一致的全局表征，提升对未知视角的鲁棒性。

三、实验结果：四大数据集全面验证

1.实验设置：

配置	详情
数据集	MVTec3D-AD (10类真实工业)、Real3D-AD (12类真实)、Eyecandies (10类合成)、Anomaly-ShapeNet (40类合成)
评估指标	O-AUROC (物体级检测)、O-AP (物体级精度)、P-AUROC (点级检测)、P-PRO (点级定位)
零样本设置	one-vs-rest (同数据集3个类别上训练，其余测试) + cross-dataset (MVTec3D训练，其余测试)
对比方法	CLIP、AA-CLIP (CVPR'25)、3DzAL (WACV'25)、MVP-CLIP、PointAD (NeurIPS'24)

2.One-vs-Rest 设置：全面领先

方法	会议	MVTec3D O-R/O-A	MVTec3D P-R/P-P	Eyecandies O-R/O-A	Real3D O-R/O-A	A-ShapeNet O-R/O-A
CLIP	ICML'21	61.2/85.8	80.3/54.4	66.7/69.2	68.8/72.3	78.2/79.5
AA-CLIP	CVPR'25	74.2/88.5	87.1/61.6	66.5/68.0	74.8/76.3	83.1/84.5
MVP-PCLIP	arXiv'24	81.3/92.7	94.6/83.6	69.3/72.7	74.9/75.3	78.7/83.8
PointAD	NeurIPS'24	82.0/94.2	95.5/84.4	69.1/73.8	74.8/76.9	82.6/85.6
GS-CLIP	-	83.6/96.5	96.3/86.4	71.5/75.9	76.4/77.7	84.1/86.8

GS-CLIP 在四大数据集上全面取得最优，相比 PointAD（NeurIPS'24）：O-AUROC 平均 +1.8%，O-AP 平均 +1.6%，P-PRO 平均 +2.5%。

几个关键观察：

原始 CLIP 和 2D 适配方法 AA-CLIP 表现平平 → 证明直接套用2D模型到3D领域效果有限
PointAD 仅用渲染图 → 受光照和渲染伪影影响，纯几何异常容易漏检
MVP-PCLIP 仅用深度图 → 虽然擅长捕捉整体形状异常，但微小表面缺陷（划痕、轻微凸起）检测受限
GS-CLIP 双流融合 + 几何先验 → 两种视觉模态互补 + 3D几何信息直接注入，全面领先

3.Cross-Dataset 设置：泛化能力优异

方法	Eyecandies O-R/O-A	Eyecandies P-R/P-P	Real3D O-R/O-A	A-ShapeNet O-R/O-A
AA-CLIP	63.6/65.3	82.6/39.8	70.2/71.7	76.2/77.5
MVP-PCLIP	66.7/70.7	88.3/66.0	74.9/75.6	78.4/82.5
PointAD	69.5/74.3	91.8/71.4	75.9/78.9	82.3/85.6
GS-CLIP	70.3/75.3	92.9/73.4	76.2/77.1	82.6/84.8

跨数据集设置涉及物体语义、背景、采集方式（真实/合成）的显著偏移，是更严格的泛化能力测试。GS-CLIP 依然保持领先，且相比 one-vs-rest 设置性能下降极小，说明几何先验和双流融合赋予了模型更强的跨域泛化能力。

4.多模态设置：锦上添花

对于包含 RGB 彩色图像的数据集（MVTec3D-AD、Eyecandies），GS-CLIP 采用即插即用的多模态融合方法进一步提升：

方法	MVTec3D O-R/O-A	MVTec3D P-R/P-P	Eyecandies O-R/O-A	Eyecandies P-R/P-P
CLIP*	60.4/86.4	81.7/56.0	73.0/73.9	78.0/31.8
AA-CLIP*	67.2/89.4	94.5/74.6	71.7/69.1	86.8/74.2
MVP-PCLIP	85.7/95.8	96.5/90.4	78.2/80.1	94.9/83.6
PointAD	86.9/96.1	97.2/90.2	77.7/80.4	95.3/84.3
GS-CLIP	88.2/97.5	97.6/91.3	79.3/82.2	95.8/86.4

RGB 图像提供了渲染图和深度图所缺失的真实色彩和精细纹理信息，对检测表面划痕、污渍、变色等缺陷至关重要。GS-CLIP 在多模态设置下依然取得最优，MVTec3D-AD 上 O-AUROC 达 88.2%，Eyecandies 上达 79.3%。

5.计算开销分析

方法	推理时间(s)	FPS	显存占用(MB)
CLIP*	0.23	4.34	3312
AA-CLIP*	0.29	3.45	3826
MVP-PCLIP	0.46	2.17	4583
PointAD	0.40	2.52	4275
GS-CLIP	0.51	1.96	5872

GS-CLIP 的推理时间（0.51s）和显存占用（5872MB）略高于其他方法，这是双流架构 + PointNet++ + GDDM 的代价。但考虑到其在四大数据集上的全面精度优势，这是一个合理的精度-效率权衡。

四、消融实验：每个模块都在贡献

在 MVTec3D-AD 上逐步叠加各组件的消融实验：

SRM	Shape Prompt	Defect Prompt	L_con	O-R/O-A	P-R/P-P
(仅渲染图)				80.9/91.7	93.5/83.1
(仅深度图)				81.4/91.4	92.2/82.5
✔				82.3/93.9	94.6/84.8
✔	✔			82.5/94.8	95.2/85.1
✔		✔		82.9/94.4	95.6/85.6
✔	✔	✔		83.1/96.2	96.0/86.2
✔	✔	✔	✔	83.6/96.5	96.3/86.4

逐层分析：

SRM 双流融合：相比单独使用渲染图或深度图，O-AUROC +1.4%/+0.9%，P-PRO +1.7%/+2.3% → 双流融合带来的增益是最基础也最显著的
Shape Prompt：O-AP 从 93.9% → 94.8%（+0.9%）→ 宏观几何上下文有助于物体级整体判断
Defect Prompt + GDDM：P-PRO 从 84.8% → 85.6%（+0.8%），点级定位提升最大 → 局部缺陷信息对精确定位异常区域至关重要
Shape + Defect 组合：O-AP 从 94.8% 飙升至 96.2%（+1.4%），效果显著叠加
跨视角一致性损失：在已经很强的基础上再添 +0.5%/+0.3%/+0.2% → 锦上添花

GDDM 参数分析

参数	最优值	分析
Top-K 异常点数 k	12	k=4→12 性能稳步上升（P-PRO：85.5→86.4）；k>12 后引入正常点噪声，性能下降
正常原型数 l	32	l 过小无法充分建模正常特征分布；l=32 达到峰值；继续增大无显著收益

五、方法亮点总结

亮点	说明
3D几何先验注入	首次将3D点云的几何信息直接嵌入CLIP文本提示，而非仅在2D图像层面做文章
几何缺陷蒸馏	GDDM 通过正常原型记忆库+Top-K+Self-Attention，从点云中精准提炼缺陷描述
双流协同融合	渲染图和深度图通过双向乘性注意力深度交互，互补各自的视觉盲区
不对称提示设计	仅异常提示携带缺陷信息，形成清晰的正常/异常语义区分
LoRA轻量适配	仅微调ViT的MLP层，用极少参数让预训练模型适配深度图
跨域泛化强化	Cross-dataset设置下性能降幅极小，几何先验赋予了更强的迁移能力
即插即用扩展	可直接叠加RGB多模态融合，MVtec3D-AD上O-AUROC达88.2%，O-AP达97.5%

六、局限性与未来方向

计算开销：双流架构 + PointNet++ + GDDM 带来了 0.51s 推理时间和 5872MB 显存占用（对比 PointAD 的 0.40s 和 4275MB），在对实时性要求极高的产线部署场景下需要进一步优化
点云质量依赖：方法依赖高质量的3D点云输入，在低精度扫描设备或噪声较大的场景下效果有待验证
更多模态融合：当前双流架构的成功暗示了进一步融合更多模态（如法线图、曲率图）的潜力
大规模预训练：结合3D点云的大规模预训练模型（如Point-BERT、PointMAE），有望进一步提升几何特征提取的质量

七、总结：

这篇工作的核心洞察非常精准——当3D信息被投影到2D后，几何细节的丢失是不可逆的，与其在2D图像上修修补补，不如直接从3D点云中提取几何先验注入到检测框架中。从这个角度出发，GS-CLIP 给出了一套逻辑自洽且效果显著的解决方案。

GDDM 的设计尤其值得关注。它不是简单地把所有点特征都塞进提示里，而是通过"正常原型记忆库→异常评分→Top-K筛选→Self-Attention聚合"这一精心设计的流水线，让模型只关注真正可疑的几何区域。消融实验也清晰地验证了这一设计的有效性——Defect Prompt 对点级定位的提升是所有组件中最大的。

双流架构的互补性也被实验充分证明。论文中那个"饼干凹坑 vs 面包圈凸起"的例子非常直观——两种视觉模态确实各有所长，强行二选一只会留下盲区。SRM 的双向乘性注意力设计让两个模态不是简单地"物理拼接"，而是"化学反应"级的深度融合。

从实用角度看，GS-CLIP 在跨数据集设置下的稳健表现令人印象深刻。工业场景中最头疼的问题就是"换一种产品就要重新训练"，GS-CLIP 的强泛化能力让它离实际落地更近了一步。不过，计算开销是需要关注的问题——0.51s 的推理时间和 5872MB 的显存占用相比 PointAD（0.40s、4275MB）有明显增加，在对实时性和资源敏感的产线部署场景下，如何在保持精度优势的同时优化效率，是后续值得探索的方向。

论文地址：arXiv 2602.19206v2

代码开源：https://github.com/zhushengxinyue/GS-CLIP

数据集：MVTec3D-AD / Real3D-AD / Eyecandies / Anomaly-ShapeNet

机构：苏州大学 + 清华大学智能产业研究院（AIR）

点赞/关注/收藏

持续更新ing！！！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究（Matlab代码实现）

随着无人机在城市环境中应用的不断拓展，如物流配送、航拍测绘、交通监控等，其三维路径规划问题日益受到关注。密集型复杂城市场景具有障碍物密集、三维空间约束复杂、实时性要求高等特点，传统路径规划算法难以满足需求。Q-learning算法作为一种强化学习方法，具有无需环境模型、通过试错学习等优点，适合应用于此类场景。本文深入研究基于Q-learning算法的无人机三维路径规划方法，通过合理定义状态空间、动

AtomGit开源社区

【SpringBoot 3.x 第142节】多模型路由：OpenAI、Azure、Ollama 混合部署，一文带你搞透！

AtomGit开源社区

【水下机器人建模】基于QLearning自适应强化学习PID控制器在AUV中的应用研究（Matlab代码实现）

因此，本文提出了一种基于QLearning自适应强化学习的PID控制器，旨在提高AUV在不确定环境下的控制性能。具体来说，通过QLearning算法优化PID控制器的参数，使其能够适应不同的环境条件并实现更好的控制性能。在仿真实验中，我们将提出的方法与传统的PID控制器进行了对比。结果表明，基于QLearning的自适应PID控制器在不同的海洋环境下都能够实现更好的控制性能，表现出更高的稳定性和鲁