记录每天的学习内容2026.3.13--DINO、Grounding DINO 与 Vis(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
我根据你今天的提问路径,把学习内容整理成一份 结构化学习过程文档,基本可以当作你的 视觉模型学习笔记(Day X)。
视觉模型学习笔记:DINO、Grounding DINO 与 Vision-Language-Action
一、学习目标
今天的学习目标是理解以下三个问题:
-
Detection DINO 与 DINOv2 的区别
-
Grounding DINO 如何实现 open-vocabulary detection
-
Vision-Language-Action (VLA) 与视觉语言模型之间的关系
重点理解 视觉语义、语言语义以及检测任务之间的统一机制。
二、DINO 系列模型
1 Detection DINO
Detection DINO 是基于 DETR 系列的目标检测模型:
-
基于 Transformer 的 end-to-end 检测框架
-
不依赖传统的 anchor-based pipeline
其核心改进包括:
(1)DeNoising Training
训练阶段加入带噪声的 bbox:
真实 bbox → 加噪声 → 输入 decoder → 预测真实 bbox
作用:
-
提供稳定训练信号
-
加速 DETR 收敛
(2)Anchor Query Initialization
传统 DETR:
query = 随机向量
DINO:
query = anchor + embedding
这样 query 在初始化时就具备 空间先验。
(3)Mixed Query Selection
decoder 输入包含两类 query:
-
denoising queries(辅助训练)
-
matching queries(真实检测)
效果:
-
收敛更快
-
检测精度更高
2 DINOv2
DINOv2 是自监督视觉表征学习模型,其目标是学习 通用视觉特征(visual embeddings)。
特点:
-
不需要人工标签
-
使用大规模图像数据训练
-
学习通用视觉语义空间
核心训练方式:
teacher-student self-distillation
student network 学习模仿 teacher:
teacher = EMA(student)
训练目标:
student embedding ≈ teacher embedding
3 DINO 与 DINOv2 的关系
两者属于不同任务:
Detection DINO → 目标检测 DINOv2 → 自监督视觉表征学习
但名字来源相同,因为都源于最早的 DINO 自监督训练方法。
三、视觉语言模型
1 CLIP
CLIP 的核心思想:
把图像和文本映射到 同一个语义空间。
训练数据:
(image, caption)
模型结构:
image encoder → image embedding text encoder → text embedding
训练目标:
正确图文 → embedding 接近 错误图文 → embedding 远离
通常使用 cosine similarity 进行匹配。
因此:
dog image embedding ≈ "dog" text embedding
四、Grounding DINO
Grounding DINO 是一种 视觉语言目标检测模型。
输入:
image + text prompt
输出:
bounding boxes + text matching score
例如:
image + "dog"
输出:
图中所有 dog 的 bounding box
1 核心思想
Grounding DINO 将检测任务从:
预测固定类别
转换为:
匹配文本语义。
传统检测:
region → classifier → class id
Grounding DINO:
region embedding ↔ text embedding
2 模型结构
image → visual backbone → image features text → text encoder → text embeddings
Transformer decoder:
object query ↓ cross attention(image + text)
最终输出:
bbox + similarity(region, text)
3 为什么能做到 open-vocabulary detection
传统检测模型:
类别是固定 softmax 分类。
Grounding DINO:
类别来自 文本 embedding。
因此:
class = text embedding
检测过程:
sim(region, text)
只要文本描述合理,就可以检测新的类别。
例如:
"zebra" "red backpack" "person holding umbrella"
五、Cross-Attention 的作用
文本 token:
"a brown dog"
分解为:
a | brown | dog
cross-attention 让:
dog token → 关注动物区域 brown token → 关注颜色区域
最终模型能够定位:
brown dog
六、Grounding DINO 与 SAM
Grounding DINO 常与 SAM 组合:
text ↓ Grounding DINO → bbox ↓ SAM → segmentation mask
实现:
text → segmentation
例如:
"cat"
系统可以自动检测并分割猫。
七、Vision-Language-Action (VLA)
Vision-Language-Action 模型在视觉语言模型基础上加入 行动能力。
输入:
image + text instruction
输出:
action
例如机器人任务:
"pick up the cup"
系统需要:
-
理解图像
-
定位 cup
-
规划动作
-
控制机器人执行
1 VLA 的结构
典型 pipeline:
image → vision encoder text → language encoder
multimodal fusion
→ policy network
→ action
2 与视觉模型的关系
视觉系统可以分为三层:
Perception(感知)
-
DINOv2
-
Grounding DINO
-
SAM
Reasoning(推理)
-
LLM
Action(行动)
-
VLA policy
八、整体技术路线总结
现代视觉系统逐渐形成统一架构:
视觉基础模型:
DINOv2
视觉语言对齐:
CLIP
开放词汇检测:
Grounding DINO
通用分割:
SAM
机器人执行:
Vision-Language-Action
整体 pipeline:
text → detection → segmentation → action
九、今日核心理解
-
文本语义与图像语义通过 共享 embedding space 对齐
-
Grounding DINO 将检测任务转化为 region-text matching
-
open-vocabulary detection 的本质是 检索问题而不是分类问题
-
Vision-Language 模型正在向 Vision-Language-Action 系统演化
十、下一步学习建议
建议继续深入:
-
DETR 的 bipartite matching 机制
-
Open-vocabulary detection 模型:
-
GLIP
-
OWL-ViT
-
YOLO-World
-
-
视觉基础模型:
-
MAE
-
DINOv2
-
-
Vision-Language-Action:
-
RT-2
-
PaLM-E
-
OpenVLA
-
目标是理解 从视觉感知到机器人行动的完整 AI pipeline。
如果你愿意,我可以 帮你把最近几天的学习内容整理成一份完整的《视觉大模型学习路线图(Transformer Vision)》,把:
-
ViT
-
Swin
-
MAE
-
DETR
-
DINO
-
CLIP
-
SAM
-
Grounding DINO
全部串成一张 技术演化图,很多论文关系会一下子清晰。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)