记录每天的学习内容2026.3.13--DINO、Grounding DINO 与 Vis(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

101%87

294人浏览 · 2026-03-13 22:01:02

101%87 · 2026-03-13 22:01:02 发布

我根据你今天的提问路径，把学习内容整理成一份 结构化学习过程文档，基本可以当作你的 视觉模型学习笔记（Day X）。

视觉模型学习笔记：DINO、Grounding DINO 与 Vision-Language-Action

一、学习目标

今天的学习目标是理解以下三个问题：

Detection DINO 与 DINOv2 的区别
Grounding DINO 如何实现 open-vocabulary detection
Vision-Language-Action (VLA) 与视觉语言模型之间的关系

重点理解 视觉语义、语言语义以及检测任务之间的统一机制。

二、DINO 系列模型

1 Detection DINO

Detection DINO 是基于 DETR 系列的目标检测模型：

基于 Transformer 的 end-to-end 检测框架
不依赖传统的 anchor-based pipeline

其核心改进包括：

（1）DeNoising Training

训练阶段加入带噪声的 bbox：

真实 bbox → 加噪声 → 输入 decoder → 预测真实 bbox

作用：

提供稳定训练信号
加速 DETR 收敛

（2）Anchor Query Initialization

传统 DETR：

query = 随机向量

DINO：

query = anchor + embedding

这样 query 在初始化时就具备 空间先验。

（3）Mixed Query Selection

decoder 输入包含两类 query：

denoising queries（辅助训练）
matching queries（真实检测）

效果：

收敛更快
检测精度更高

2 DINOv2

DINOv2 是自监督视觉表征学习模型，其目标是学习 通用视觉特征（visual embeddings）。

特点：

不需要人工标签
使用大规模图像数据训练
学习通用视觉语义空间

核心训练方式：

teacher-student self-distillation

student network 学习模仿 teacher：

teacher = EMA(student)

训练目标：

student embedding ≈ teacher embedding

3 DINO 与 DINOv2 的关系

两者属于不同任务：

Detection DINO → 目标检测 DINOv2 → 自监督视觉表征学习

但名字来源相同，因为都源于最早的 DINO 自监督训练方法。

三、视觉语言模型

1 CLIP

CLIP 的核心思想：

把图像和文本映射到 同一个语义空间。

训练数据：

(image, caption)

模型结构：

image encoder → image embedding text encoder → text embedding

训练目标：

正确图文 → embedding 接近错误图文 → embedding 远离

通常使用 cosine similarity 进行匹配。

因此：

dog image embedding ≈ "dog" text embedding

四、Grounding DINO

Grounding DINO 是一种 视觉语言目标检测模型。

输入：

image + text prompt

输出：

bounding boxes + text matching score

例如：

image + "dog"

输出：

图中所有 dog 的 bounding box

1 核心思想

Grounding DINO 将检测任务从：

预测固定类别

转换为：

匹配文本语义。

传统检测：

region → classifier → class id

Grounding DINO：

region embedding ↔ text embedding

2 模型结构

image → visual backbone → image features text → text encoder → text embeddings

Transformer decoder：

object query ↓ cross attention（image + text）

最终输出：

bbox + similarity(region, text)

3 为什么能做到 open-vocabulary detection

传统检测模型：

类别是固定 softmax 分类。

Grounding DINO：

类别来自 文本 embedding。

因此：

class = text embedding

检测过程：

sim(region, text)

只要文本描述合理，就可以检测新的类别。

例如：

"zebra" "red backpack" "person holding umbrella"

五、Cross-Attention 的作用

文本 token：

"a brown dog"

分解为：

a | brown | dog

cross-attention 让：

dog token → 关注动物区域 brown token → 关注颜色区域

最终模型能够定位：

brown dog

六、Grounding DINO 与 SAM

Grounding DINO 常与 SAM 组合：

text ↓ Grounding DINO → bbox ↓ SAM → segmentation mask

实现：

text → segmentation

例如：

"cat"

系统可以自动检测并分割猫。

七、Vision-Language-Action (VLA)

Vision-Language-Action 模型在视觉语言模型基础上加入 行动能力。

输入：

image + text instruction

输出：

action

例如机器人任务：

"pick up the cup"

系统需要：

理解图像
定位 cup
规划动作
控制机器人执行

1 VLA 的结构

典型 pipeline：

image → vision encoder text → language encoder

multimodal fusion

→ policy network

→ action

2 与视觉模型的关系

视觉系统可以分为三层：

Perception（感知）

DINOv2
Grounding DINO
SAM

Reasoning（推理）

Action（行动）

VLA policy

八、整体技术路线总结

现代视觉系统逐渐形成统一架构：

视觉基础模型：

DINOv2

视觉语言对齐：

CLIP

开放词汇检测：

Grounding DINO

通用分割：

SAM

机器人执行：

Vision-Language-Action

整体 pipeline：

text → detection → segmentation → action

九、今日核心理解

文本语义与图像语义通过 共享 embedding space 对齐
Grounding DINO 将检测任务转化为 region-text matching
open-vocabulary detection 的本质是 检索问题而不是分类问题
Vision-Language 模型正在向 Vision-Language-Action 系统演化

十、下一步学习建议

建议继续深入：

DETR 的 bipartite matching 机制
Open-vocabulary detection 模型：
- GLIP
- OWL-ViT
- YOLO-World
视觉基础模型：
- MAE
- DINOv2
Vision-Language-Action：
- RT-2
- PaLM-E
- OpenVLA

目标是理解 从视觉感知到机器人行动的完整 AI pipeline。

如果你愿意，我可以 帮你把最近几天的学习内容整理成一份完整的《视觉大模型学习路线图（Transformer Vision）》，把：

ViT
Swin
MAE
DETR
DINO
CLIP
SAM
Grounding DINO

全部串成一张 技术演化图，很多论文关系会一下子清晰。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SpringBoot+Vue 校园健康驿站管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

AtomGit开源社区

【毕业设计】SpringBoot+Vue+MySQL 销售项目流程化管理系统平台源码+数据库+论文+部署文档

AtomGit开源社区

企业级项目申报管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

AtomGit开源社区

所有评论(0)

查看更多评论

101%87

@2403_88318326

已为社区贡献8条内容