【目标检测系列·第 05 篇】开放世界检测:从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿
【目标检测系列·第 05 篇】开放世界检测:从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿
系列回顾:第 01 篇我们绘制了目标检测的全景图,第 02 篇我们拆解了两阶段检测器,第 03 篇我们深入了 YOLO 系列,第 04 篇我们探索了 Anchor-Free 与 DETR 的范式革新。本篇进入目标检测最前沿的方向:开放世界检测——从"只认识训练过的类别"到"认识语言能描述的一切"。传统检测器是"封闭集合"的——COCO 80 类、VOC 20 类,新增类别必须重新标注、重新训练。开放世界检测打破了这一限制:用自然语言描述目标,模型就能检测——零样本、无需训练。GLIP 首次统一检测与定位预训练,OWL-ViT 用 ViT 实现开放词汇检测,Grounding DINO 达到 52.5 AP 零样本 SOTA,YOLO-World 实现实时开放词汇检测(52 FPS),SAM/SAM 2 实现可提示分割与视频追踪。Grounded SAM 将检测与分割组合,构建了"检测→分割→追踪→理解"的开放世界感知管道。今天,我们从范式转变、核心模型到组合式应用,彻底拆解开放世界检测。
📑 文章目录
🌍 一、范式转变:从封闭集合到开放世界

1.1 封闭集合的困境:每新增一个类别就要重新训练
传统目标检测器是"封闭集合"的——它们只能检测训练时见过的类别。COCO 数据集有 80 类,VOC 有 20 类,LVIS 有 1203 类。如果需要检测一个训练集中没有的新类别(比如"蓝色马克杯"),唯一的办法是:收集新类别的标注数据→重新训练模型→部署更新后的模型。这个过程耗时耗力,在实际应用中几乎不可行。
更深层的问题是:真实世界的类别是无限的。工业质检中,缺陷类型千变万化;机器人操作中,目标物体不可预知;视频编辑中,用户可能想选择任何对象。封闭集合检测器无法应对这种开放性需求——它被"训练类别"锁死了。
1.2 开放词汇检测:用语言定义世界
开放词汇检测(Open-Vocabulary Detection, OVD)的核心思想:用自然语言描述目标,模型就能检测。不需要为每个类别收集标注数据,不需要重新训练——只需要用文本描述你想检测什么。
这背后的技术基础是视觉-语言预训练:CLIP 等模型通过对比学习,将图像和文本映射到同一语义空间。在 CLIP 空间中,"蓝色马克杯"的文本嵌入与蓝色马克杯的图像嵌入距离很近——即使模型从未在检测数据中见过"蓝色马克杯"这个类别,它也能通过文本-图像对齐找到对应的目标。
开放词汇检测的关键转变:从"学类别"到"学语言"。学了语言,就学了所有类别——语言是类别的无限容器。这就是 CLIP 的革命性意义。
1.3 三大技术支柱
开放世界检测依赖三大技术支柱:
视觉-语言对齐。CLIP/ALIGN 等模型将图像和文本映射到同一语义空间,使得文本描述可以直接匹配图像区域。这是开放词汇检测的基础——没有视觉-语言对齐,就无法实现"用语言定义世界"。
开放词汇分类。传统检测头的分类层是固定的(80 类/1203 类),无法扩展。开放词汇检测将分类层替换为文本嵌入匹配——将检测到的区域特征与文本嵌入计算相似度,实现任意类别分类。这使得检测器不再受限于训练类别。
可提示分割。SAM 接受点/框/文本提示,输出精确分割掩码。检测+分割一体化——不仅知道"在哪里",还知道"精确轮廓是什么"。可提示分割是开放世界感知的关键能力。
1.4 封闭 vs 开放:对比
| 维度 | 封闭集合 | 开放词汇 | 开放世界 |
|---|---|---|---|
| 类别 | 固定 | 任意文本 | 任意+未知 |
| 训练 | 每类需标注 | 零样本 | 零样本 |
| 新类别 | 重新训练 | 直接检测 | 直接检测 |
| 精度 | 最高 | 中 | 中 |
| 速度 | 快 | 中 | 慢 |
🔍 二、核心模型:GLIP·OWL-ViT·Grounding DINO·YOLO-World·SAM

2.1 GLIP(2022):统一检测与定位预训练
GLIP(Grounded Language-Image Pre-training)是开放词汇检测的先驱之一。核心创新:将目标检测重新表述为定位问题——检测不再是"分类+回归",而是"文本-区域匹配+回归"。
统一预训练。GLIP 将检测数据和定位数据(如 GoldG、CC3M)统一训练。检测数据提供精确的边界框标注,定位数据提供文本-图像对(如"一只猫坐在沙发上")。通过统一预训练,GLIP 学会了用语言定位目标——即使没见过的类别,也能通过文本描述定位。
深度融合。GLIP 不是简单地将 CLIP 特征接在检测头上——它在每一层都进行文本-图像跨模态融合。X-层(跨模态层)让图像特征和文本特征逐层交互,实现深层语义对齐。
GLIP 在 COCO 零样本检测上达到 49.8 AP,在 13 个下游检测任务上平均超过监督基线——证明了开放词汇检测的可行性。
2.2 OWL-ViT(2022):ViT 架构的开放词汇检测
OWL-ViT(Open-World Localization with Vision Transformers)用纯 ViT 架构实现开放词汇检测。核心思路:先用 CLIP 预训练 ViT,再将 ViT 改造为检测器。
两阶段设计。OWL-ViT 先用 CLIP 预训练图像和文本编码器(冻结),再添加轻量检测头。检测头将 ViT 的 patch 特征与文本嵌入计算相似度,生成开放词汇分类结果。边界框回归头预测每个 patch 对应的边界框。
OWL-ViT 的优势是架构简洁——纯 ViT,没有复杂的 FPN/PAN。劣势是精度不如 GLIP/Grounding DINO(COCO 零样本 31.4 AP),且推理速度中等。
2.3 Grounding DINO(2024):零样本检测 SOTA
Grounding DINO 是当前零样本检测的 SOTA。核心创新:将 DINO 的检测能力与 GLIP 的定位能力深度融合,在检测的每个阶段都注入语言信息。
三阶段语言注入。Grounding DINO 在特征提取、编码器-解码器融合、检测头三个阶段都注入文本信息:特征提取阶段用文本引导注意力(Language-Guided Query Selection),编码器-解码器阶段用跨模态注意力融合(Cross-Modal Fusion),检测头阶段用文本-区域匹配分类(Open-Vocabulary Classification)。
性能。Grounding DINO 在 COCO 零样本检测上达到 52.5 AP——这是零样本检测的最高纪录。在 ODinW(Object Detection in the Wild)基准上达到 26.1 AP,同样创下纪录。Grounding DINO 1.5 进一步提升了性能。
局限。推理速度慢(~5 FPS),不适合实时场景。这是"精度优先"的代价——Grounding DINO 用 DINO 的 Transformer 架构,计算量大。
2.4 YOLO-World(2024):实时开放词汇检测
YOLO-World 解决了开放词汇检测的速度问题:用 YOLO 的速度做开放词汇检测。核心思路:将 CLIP 的文本嵌入引入 YOLO 检测头,实现开放词汇分类。
Region-Text CLIP 预训练。YOLO-World 用大规模区域-文本对预训练(来自 GoldG、CC3M 等数据集),让 YOLO 的区域特征与 CLIP 文本嵌入对齐。预训练后,YOLO-World 可以检测任意文本描述的目标。
性能。YOLO-World 在 LVIS 上达到 35.4 AP,推理速度 52 FPS(V100)——这是开放词汇检测的速度纪录。相比 Grounding DINO 的 ~5 FPS,YOLO-World 快了约 10 倍,但精度低约 17 AP。
YOLOE(YOLO-Extended)进一步扩展了 YOLO-World,支持文本/图像/内部词表三种提示方式,实现更灵活的开放词汇检测。
2.5 SAM / SAM 2(2023-2024):可提示分割
SAM(Segment Anything Model)不是检测器,而是分割器——它接受提示(点/框/文本),输出精确分割掩码。SAM 的意义在于:将分割从"封闭类别"解放为"可提示"——你提示什么,它分割什么。
SAM 架构。SAM 由三部分组成:图像编码器(ViT-H,提取图像特征)、提示编码器(编码点/框/文本提示)、掩码解码器(根据图像特征+提示生成掩码)。SAM 在 SA-1B 数据集(11M 图像,1.1B 掩码)上训练,是当时最大的分割数据集。
SAM 2(2024)。SAM 2 将分割能力从图像扩展到视频。核心创新:流式记忆机制——用前帧的分割结果作为记忆,通过记忆注意力在后续帧中追踪目标。SAM 2 在 SA-V 数据集(50.9K 视频)上训练,实现实时视频分割(40+ FPS)。
🔗 三、Grounded SAM 与开放世界应用

3.1 Grounded SAM:检测+分割+追踪+理解
Grounded SAM 是开放世界感知的组合式方案:Grounding DINO(检测)+ SAM(分割)+ SAM 2(追踪)+ VLM(理解)。
四步管道:
Step 1:开放词汇检测。Grounding DINO 接收文本提示(如"蓝色杯子"),检测图像中所有匹配的目标,输出边界框。零样本,无需训练。
Step 2:可提示分割。SAM 接收检测框作为提示,输出精确分割掩码。像素级分割,边界精确——比边界框更精细。
Step 3:视频追踪(可选)。SAM 2 跨帧追踪分割掩码。流式记忆机制让目标在视频中被持续追踪——即使被短暂遮挡也能恢复。
Step 4:语义理解(可选)。VLM(如 GPT-4V)对分割区域生成描述——属性识别、关系推理、场景理解。从"检测到"到"理解了"。
3.2 三大应用场景
工业质检。零样本检测缺陷——无需为每种缺陷标注训练。文本描述缺陷(“划痕”“凹陷”“色差”),Grounding DINO 检测,SAM 精确分割,量化缺陷面积和位置。传统质检需要为每种产品、每种缺陷收集标注数据、训练专用模型——开放世界检测让质检变得"即插即用"。
机器人操作。自然语言指令→检测→分割→操作。“拿桌上的红色杯子”——Grounding DINO 检测杯子,SAM 分割轮廓,抓取点估计器计算抓取位置,机器人执行。开放世界检测让机器人从"只能操作训练过的物体"变成"能操作语言能描述的任何物体"。
视频编辑。SAM 2 视频追踪。文本选择对象→分割→编辑→全程追踪。“替换背景中的人”——Grounding DINO 检测人物,SAM 2 全程追踪分割,视频编辑工具替换。这是视频后期制作的革命性工具。
3.3 组合式 AI 的力量
Grounded SAM 的成功揭示了一个深刻趋势:未来的 AI 不是一个大模型,而是多个专家模型的组合。Grounding DINO 是检测专家,SAM 是分割专家,SAM 2 是追踪专家,VLM 是理解专家——每个专家做到极致,组合起来就是开放世界感知。
组合式 AI 的优势:模块化(每个专家独立优化)、可扩展(新能力=新专家)、可定制(根据场景选择组合)。劣势:管道复杂(多模型串联)、速度慢(每个模型都要推理)、误差累积(前一步错误传播到后续)。
📊 全文速查表
核心模型对比
| 模型 | 类型 | 零样本 mAP | 速度 | 核心优势 |
|---|---|---|---|---|
| GLIP | 开放词汇 | 49.8 | 慢 | 统一检测+定位 |
| OWL-ViT | 开放词汇 | 31.4 | 中 | ViT 架构 |
| Grounding DINO | 开放词汇 | 52.5 | ~5 FPS | 最强零样本 |
| YOLO-World | 开放词汇 | 35.4 | 52 FPS | 实时开放 |
| SAM | 可提示分割 | - | 中 | 精确分割 |
| SAM 2 | 视频分割 | - | 40 FPS | 视频追踪 |
一句话总结
开放世界检测是目标检测最前沿的方向——从"只认识训练过的类别"到"认识语言能描述的一切"。范式转变的核心:从"学类别"到"学语言"——语言是类别的无限容器。三大技术支柱:视觉-语言对齐(CLIP)、开放词汇分类(文本嵌入匹配)、可提示分割(SAM)。核心模型:GLIP(统一检测+定位预训练,49.8 AP)、OWL-ViT(ViT 架构开放词汇)、Grounding DINO(零样本 SOTA 52.5 AP,~5 FPS)、YOLO-World(实时开放词汇 35.4 AP,52 FPS)、SAM/SAM 2(可提示分割+视频追踪)。Grounded SAM 组合检测+分割+追踪+理解,构建开放世界感知管道。三大应用:工业质检(零样本质检)、机器人操作(自然语言指令)、视频编辑(SAM 2 追踪)。开放世界检测 = 组合式 AI 的典范——每个专家做到极致,组合起来就是开放世界感知。速度-精度权衡依然存在:Grounding DINO 精度最高但最慢,YOLO-World 速度最快但精度中等。
参考链接:
- CLIP (Radford et al., 2021)
- GLIP (Li et al., 2022)
- OWL-ViT (Minderer et al., 2022)
- Grounding DINO (Liu et al., 2024)
- YOLO-World (Cheng et al., 2024)
- SAM (Kirillov et al., 2023)
- SAM 2 (Ravi et al., 2024)
系列预告:第 06 篇(终篇)将深入部署与未来——从量化剪枝蒸馏到边缘部署,从 3D 检测到多模态,拆解目标检测从实验室到生产的关键工程。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)