我根据你今天的提问路径,把学习内容整理成一份 结构化学习过程文档,基本可以当作你的 视觉模型学习笔记(Day X)


视觉模型学习笔记:DINO、Grounding DINO 与 Vision-Language-Action

一、学习目标

今天的学习目标是理解以下三个问题:

  1. Detection DINO 与 DINOv2 的区别

  2. Grounding DINO 如何实现 open-vocabulary detection

  3. Vision-Language-Action (VLA) 与视觉语言模型之间的关系

重点理解 视觉语义、语言语义以及检测任务之间的统一机制


二、DINO 系列模型

1 Detection DINO

Detection DINO 是基于 DETR 系列的目标检测模型:

  • 基于 Transformer 的 end-to-end 检测框架

  • 不依赖传统的 anchor-based pipeline

其核心改进包括:

(1)DeNoising Training

训练阶段加入带噪声的 bbox:

真实 bbox → 加噪声 → 输入 decoder → 预测真实 bbox

作用:

  • 提供稳定训练信号

  • 加速 DETR 收敛

(2)Anchor Query Initialization

传统 DETR:

query = 随机向量

DINO:

query = anchor + embedding

这样 query 在初始化时就具备 空间先验

(3)Mixed Query Selection

decoder 输入包含两类 query:

  • denoising queries(辅助训练)

  • matching queries(真实检测)

效果:

  • 收敛更快

  • 检测精度更高


2 DINOv2

DINOv2 是自监督视觉表征学习模型,其目标是学习 通用视觉特征(visual embeddings)

特点:

  • 不需要人工标签

  • 使用大规模图像数据训练

  • 学习通用视觉语义空间

核心训练方式:

teacher-student self-distillation

student network 学习模仿 teacher:

teacher = EMA(student)

训练目标:

student embedding ≈ teacher embedding


3 DINO 与 DINOv2 的关系

两者属于不同任务:

Detection DINO → 目标检测 DINOv2 → 自监督视觉表征学习

但名字来源相同,因为都源于最早的 DINO 自监督训练方法。


三、视觉语言模型

1 CLIP

CLIP 的核心思想:

把图像和文本映射到 同一个语义空间

训练数据:

(image, caption)

模型结构:

image encoder → image embedding text encoder → text embedding

训练目标:

正确图文 → embedding 接近 错误图文 → embedding 远离

通常使用 cosine similarity 进行匹配。

因此:

dog image embedding ≈ "dog" text embedding


四、Grounding DINO

Grounding DINO 是一种 视觉语言目标检测模型

输入:

image + text prompt

输出:

bounding boxes + text matching score

例如:

image + "dog"

输出:

图中所有 dog 的 bounding box


1 核心思想

Grounding DINO 将检测任务从:

预测固定类别

转换为:

匹配文本语义。

传统检测:

region → classifier → class id

Grounding DINO:

region embedding ↔ text embedding


2 模型结构

image → visual backbone → image features text → text encoder → text embeddings

Transformer decoder:

object query ↓ cross attention(image + text)

最终输出:

bbox + similarity(region, text)


3 为什么能做到 open-vocabulary detection

传统检测模型:

类别是固定 softmax 分类。

Grounding DINO:

类别来自 文本 embedding

因此:

class = text embedding

检测过程:

sim(region, text)

只要文本描述合理,就可以检测新的类别。

例如:

"zebra" "red backpack" "person holding umbrella"


五、Cross-Attention 的作用

文本 token:

"a brown dog"

分解为:

a | brown | dog

cross-attention 让:

dog token → 关注动物区域 brown token → 关注颜色区域

最终模型能够定位:

brown dog


六、Grounding DINO 与 SAM

Grounding DINO 常与 SAM 组合:

text ↓ Grounding DINO → bbox ↓ SAM → segmentation mask

实现:

text → segmentation

例如:

"cat"

系统可以自动检测并分割猫。


七、Vision-Language-Action (VLA)

Vision-Language-Action 模型在视觉语言模型基础上加入 行动能力

输入:

image + text instruction

输出:

action

例如机器人任务:

"pick up the cup"

系统需要:

  1. 理解图像

  2. 定位 cup

  3. 规划动作

  4. 控制机器人执行


1 VLA 的结构

典型 pipeline:

image → vision encoder text → language encoder

multimodal fusion

→ policy network

→ action


2 与视觉模型的关系

视觉系统可以分为三层:

Perception(感知)

  • DINOv2

  • Grounding DINO

  • SAM

Reasoning(推理)

  • LLM

Action(行动)

  • VLA policy


八、整体技术路线总结

现代视觉系统逐渐形成统一架构:

视觉基础模型:

DINOv2

视觉语言对齐:

CLIP

开放词汇检测:

Grounding DINO

通用分割:

SAM

机器人执行:

Vision-Language-Action

整体 pipeline:

text → detection → segmentation → action


九、今日核心理解

  1. 文本语义与图像语义通过 共享 embedding space 对齐

  2. Grounding DINO 将检测任务转化为 region-text matching

  3. open-vocabulary detection 的本质是 检索问题而不是分类问题

  4. Vision-Language 模型正在向 Vision-Language-Action 系统演化


十、下一步学习建议

建议继续深入:

  1. DETR 的 bipartite matching 机制

  2. Open-vocabulary detection 模型:

    • GLIP

    • OWL-ViT

    • YOLO-World

  3. 视觉基础模型:

    • MAE

    • DINOv2

  4. Vision-Language-Action:

    • RT-2

    • PaLM-E

    • OpenVLA

目标是理解 从视觉感知到机器人行动的完整 AI pipeline


如果你愿意,我可以 帮你把最近几天的学习内容整理成一份完整的《视觉大模型学习路线图(Transformer Vision)》,把:

  • ViT

  • Swin

  • MAE

  • DETR

  • DINO

  • CLIP

  • SAM

  • Grounding DINO

全部串成一张 技术演化图,很多论文关系会一下子清晰。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐