【目标检测系列·第 05 篇】开放世界检测：从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿

拾-光

11人浏览 · 2026-06-01 20:31:46

拾-光 · 2026-06-01 20:31:46 发布

【目标检测系列·第 05 篇】开放世界检测：从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿

系列回顾：第 01 篇我们绘制了目标检测的全景图，第 02 篇我们拆解了两阶段检测器，第 03 篇我们深入了 YOLO 系列，第 04 篇我们探索了 Anchor-Free 与 DETR 的范式革新。本篇进入目标检测最前沿的方向：开放世界检测——从"只认识训练过的类别"到"认识语言能描述的一切"。传统检测器是"封闭集合"的——COCO 80 类、VOC 20 类，新增类别必须重新标注、重新训练。开放世界检测打破了这一限制：用自然语言描述目标，模型就能检测——零样本、无需训练。GLIP 首次统一检测与定位预训练，OWL-ViT 用 ViT 实现开放词汇检测，Grounding DINO 达到 52.5 AP 零样本 SOTA，YOLO-World 实现实时开放词汇检测（52 FPS），SAM/SAM 2 实现可提示分割与视频追踪。Grounded SAM 将检测与分割组合，构建了"检测→分割→追踪→理解"的开放世界感知管道。今天，我们从范式转变、核心模型到组合式应用，彻底拆解开放世界检测。

📑 文章目录

🌍 一、范式转变：从封闭集合到开放世界
🔍 二、核心模型：GLIP·OWL-ViT·Grounding DINO·YOLO-World·SAM
🔗 三、Grounded SAM 与开放世界应用

🌍 一、范式转变：从封闭集合到开放世界

在这里插入图片描述

1.1 封闭集合的困境：每新增一个类别就要重新训练

传统目标检测器是"封闭集合"的——它们只能检测训练时见过的类别。COCO 数据集有 80 类，VOC 有 20 类，LVIS 有 1203 类。如果需要检测一个训练集中没有的新类别（比如"蓝色马克杯"），唯一的办法是：收集新类别的标注数据→重新训练模型→部署更新后的模型。这个过程耗时耗力，在实际应用中几乎不可行。

更深层的问题是：真实世界的类别是无限的。工业质检中，缺陷类型千变万化；机器人操作中，目标物体不可预知；视频编辑中，用户可能想选择任何对象。封闭集合检测器无法应对这种开放性需求——它被"训练类别"锁死了。

1.2 开放词汇检测：用语言定义世界

开放词汇检测（Open-Vocabulary Detection, OVD）的核心思想：用自然语言描述目标，模型就能检测。不需要为每个类别收集标注数据，不需要重新训练——只需要用文本描述你想检测什么。

这背后的技术基础是视觉-语言预训练：CLIP 等模型通过对比学习，将图像和文本映射到同一语义空间。在 CLIP 空间中，"蓝色马克杯"的文本嵌入与蓝色马克杯的图像嵌入距离很近——即使模型从未在检测数据中见过"蓝色马克杯"这个类别，它也能通过文本-图像对齐找到对应的目标。

开放词汇检测的关键转变：从"学类别"到"学语言"。学了语言，就学了所有类别——语言是类别的无限容器。这就是 CLIP 的革命性意义。

1.3 三大技术支柱

开放世界检测依赖三大技术支柱：

视觉-语言对齐。CLIP/ALIGN 等模型将图像和文本映射到同一语义空间，使得文本描述可以直接匹配图像区域。这是开放词汇检测的基础——没有视觉-语言对齐，就无法实现"用语言定义世界"。

开放词汇分类。传统检测头的分类层是固定的（80 类/1203 类），无法扩展。开放词汇检测将分类层替换为文本嵌入匹配——将检测到的区域特征与文本嵌入计算相似度，实现任意类别分类。这使得检测器不再受限于训练类别。

可提示分割。SAM 接受点/框/文本提示，输出精确分割掩码。检测+分割一体化——不仅知道"在哪里"，还知道"精确轮廓是什么"。可提示分割是开放世界感知的关键能力。

1.4 封闭 vs 开放：对比

维度	封闭集合	开放词汇	开放世界
类别	固定	任意文本	任意+未知
训练	每类需标注	零样本	零样本
新类别	重新训练	直接检测	直接检测
精度	最高	中	中
速度	快	中	慢

🔍 二、核心模型：GLIP·OWL-ViT·Grounding DINO·YOLO-World·SAM

在这里插入图片描述

2.1 GLIP（2022）：统一检测与定位预训练

GLIP（Grounded Language-Image Pre-training）是开放词汇检测的先驱之一。核心创新：将目标检测重新表述为定位问题——检测不再是"分类+回归"，而是"文本-区域匹配+回归"。

统一预训练。GLIP 将检测数据和定位数据（如 GoldG、CC3M）统一训练。检测数据提供精确的边界框标注，定位数据提供文本-图像对（如"一只猫坐在沙发上"）。通过统一预训练，GLIP 学会了用语言定位目标——即使没见过的类别，也能通过文本描述定位。

深度融合。GLIP 不是简单地将 CLIP 特征接在检测头上——它在每一层都进行文本-图像跨模态融合。X-层（跨模态层）让图像特征和文本特征逐层交互，实现深层语义对齐。

GLIP 在 COCO 零样本检测上达到 49.8 AP，在 13 个下游检测任务上平均超过监督基线——证明了开放词汇检测的可行性。

2.2 OWL-ViT（2022）：ViT 架构的开放词汇检测

OWL-ViT（Open-World Localization with Vision Transformers）用纯 ViT 架构实现开放词汇检测。核心思路：先用 CLIP 预训练 ViT，再将 ViT 改造为检测器。

两阶段设计。OWL-ViT 先用 CLIP 预训练图像和文本编码器（冻结），再添加轻量检测头。检测头将 ViT 的 patch 特征与文本嵌入计算相似度，生成开放词汇分类结果。边界框回归头预测每个 patch 对应的边界框。

OWL-ViT 的优势是架构简洁——纯 ViT，没有复杂的 FPN/PAN。劣势是精度不如 GLIP/Grounding DINO（COCO 零样本 31.4 AP），且推理速度中等。

2.3 Grounding DINO（2024）：零样本检测 SOTA

Grounding DINO 是当前零样本检测的 SOTA。核心创新：将 DINO 的检测能力与 GLIP 的定位能力深度融合，在检测的每个阶段都注入语言信息。

三阶段语言注入。Grounding DINO 在特征提取、编码器-解码器融合、检测头三个阶段都注入文本信息：特征提取阶段用文本引导注意力（Language-Guided Query Selection），编码器-解码器阶段用跨模态注意力融合（Cross-Modal Fusion），检测头阶段用文本-区域匹配分类（Open-Vocabulary Classification）。

性能。Grounding DINO 在 COCO 零样本检测上达到 52.5 AP——这是零样本检测的最高纪录。在 ODinW（Object Detection in the Wild）基准上达到 26.1 AP，同样创下纪录。Grounding DINO 1.5 进一步提升了性能。

局限。推理速度慢（~5 FPS），不适合实时场景。这是"精度优先"的代价——Grounding DINO 用 DINO 的 Transformer 架构，计算量大。

2.4 YOLO-World（2024）：实时开放词汇检测

YOLO-World 解决了开放词汇检测的速度问题：用 YOLO 的速度做开放词汇检测。核心思路：将 CLIP 的文本嵌入引入 YOLO 检测头，实现开放词汇分类。

Region-Text CLIP 预训练。YOLO-World 用大规模区域-文本对预训练（来自 GoldG、CC3M 等数据集），让 YOLO 的区域特征与 CLIP 文本嵌入对齐。预训练后，YOLO-World 可以检测任意文本描述的目标。

性能。YOLO-World 在 LVIS 上达到 35.4 AP，推理速度 52 FPS（V100）——这是开放词汇检测的速度纪录。相比 Grounding DINO 的 ~5 FPS，YOLO-World 快了约 10 倍，但精度低约 17 AP。

YOLOE（YOLO-Extended）进一步扩展了 YOLO-World，支持文本/图像/内部词表三种提示方式，实现更灵活的开放词汇检测。

2.5 SAM / SAM 2（2023-2024）：可提示分割

SAM（Segment Anything Model）不是检测器，而是分割器——它接受提示（点/框/文本），输出精确分割掩码。SAM 的意义在于：将分割从"封闭类别"解放为"可提示"——你提示什么，它分割什么。

SAM 架构。SAM 由三部分组成：图像编码器（ViT-H，提取图像特征）、提示编码器（编码点/框/文本提示）、掩码解码器（根据图像特征+提示生成掩码）。SAM 在 SA-1B 数据集（11M 图像，1.1B 掩码）上训练，是当时最大的分割数据集。

SAM 2（2024）。SAM 2 将分割能力从图像扩展到视频。核心创新：流式记忆机制——用前帧的分割结果作为记忆，通过记忆注意力在后续帧中追踪目标。SAM 2 在 SA-V 数据集（50.9K 视频）上训练，实现实时视频分割（40+ FPS）。

🔗 三、Grounded SAM 与开放世界应用

在这里插入图片描述

3.1 Grounded SAM：检测+分割+追踪+理解

Grounded SAM 是开放世界感知的组合式方案：Grounding DINO（检测）+ SAM（分割）+ SAM 2（追踪）+ VLM（理解）。

四步管道：

Step 1：开放词汇检测。Grounding DINO 接收文本提示（如"蓝色杯子"），检测图像中所有匹配的目标，输出边界框。零样本，无需训练。

Step 2：可提示分割。SAM 接收检测框作为提示，输出精确分割掩码。像素级分割，边界精确——比边界框更精细。

Step 3：视频追踪（可选）。SAM 2 跨帧追踪分割掩码。流式记忆机制让目标在视频中被持续追踪——即使被短暂遮挡也能恢复。

Step 4：语义理解（可选）。VLM（如 GPT-4V）对分割区域生成描述——属性识别、关系推理、场景理解。从"检测到"到"理解了"。

3.2 三大应用场景

工业质检。零样本检测缺陷——无需为每种缺陷标注训练。文本描述缺陷（“划痕”“凹陷”“色差”），Grounding DINO 检测，SAM 精确分割，量化缺陷面积和位置。传统质检需要为每种产品、每种缺陷收集标注数据、训练专用模型——开放世界检测让质检变得"即插即用"。

机器人操作。自然语言指令→检测→分割→操作。“拿桌上的红色杯子”——Grounding DINO 检测杯子，SAM 分割轮廓，抓取点估计器计算抓取位置，机器人执行。开放世界检测让机器人从"只能操作训练过的物体"变成"能操作语言能描述的任何物体"。

视频编辑。SAM 2 视频追踪。文本选择对象→分割→编辑→全程追踪。“替换背景中的人”——Grounding DINO 检测人物，SAM 2 全程追踪分割，视频编辑工具替换。这是视频后期制作的革命性工具。

3.3 组合式 AI 的力量

Grounded SAM 的成功揭示了一个深刻趋势：未来的 AI 不是一个大模型，而是多个专家模型的组合。Grounding DINO 是检测专家，SAM 是分割专家，SAM 2 是追踪专家，VLM 是理解专家——每个专家做到极致，组合起来就是开放世界感知。

组合式 AI 的优势：模块化（每个专家独立优化）、可扩展（新能力=新专家）、可定制（根据场景选择组合）。劣势：管道复杂（多模型串联）、速度慢（每个模型都要推理）、误差累积（前一步错误传播到后续）。

📊 全文速查表

核心模型对比

模型	类型	零样本 mAP	速度	核心优势
GLIP	开放词汇	49.8	慢	统一检测+定位
OWL-ViT	开放词汇	31.4	中	ViT 架构
Grounding DINO	开放词汇	52.5	~5 FPS	最强零样本
YOLO-World	开放词汇	35.4	52 FPS	实时开放
SAM	可提示分割	-	中	精确分割
SAM 2	视频分割	-	40 FPS	视频追踪

一句话总结

开放世界检测是目标检测最前沿的方向——从"只认识训练过的类别"到"认识语言能描述的一切"。范式转变的核心：从"学类别"到"学语言"——语言是类别的无限容器。三大技术支柱：视觉-语言对齐（CLIP）、开放词汇分类（文本嵌入匹配）、可提示分割（SAM）。核心模型：GLIP（统一检测+定位预训练，49.8 AP）、OWL-ViT（ViT 架构开放词汇）、Grounding DINO（零样本 SOTA 52.5 AP，~5 FPS）、YOLO-World（实时开放词汇 35.4 AP，52 FPS）、SAM/SAM 2（可提示分割+视频追踪）。Grounded SAM 组合检测+分割+追踪+理解，构建开放世界感知管道。三大应用：工业质检（零样本质检）、机器人操作（自然语言指令）、视频编辑（SAM 2 追踪）。开放世界检测 = 组合式 AI 的典范——每个专家做到极致，组合起来就是开放世界感知。速度-精度权衡依然存在：Grounding DINO 精度最高但最慢，YOLO-World 速度最快但精度中等。

参考链接：