浙大：VLM原生稠密深度预测框架

大模型任我行

190人浏览 · 2026-05-30 10:00:00

大模型任我行 · 2026-05-30 10:00:00 发布

在这里插入图片描述

📖标题：Unlocking Dense Metric Depth Estimation in VLMs
🌐来源：arXiv, 2605.15876v1

🛎️文章简介
🔸研究问题：如何在最小化架构改动的前提下，让视觉语言模型（VLM）具备原生稠密几何预测能力，同时保留其多模态理解性能？
🔸主要贡献：论文提出了DepthVLM，通过添加轻量级深度头并采用两阶段训练策略，实现了单次前向传播即可生成全分辨率度量深度图与文本回复的统一基础模型。

📝重点思路
🔸架构设计：在标准 VLM 的 LLM 主干后附加一个轻量级的 DPT 风格深度预测头，直接利用 ViT 中间层与 LLM 最终层的视觉特征构建多尺度金字塔，解码出像素级深度图。
🔸训练策略：采用两阶段训练法，第一阶段冻结主干仅训练深度头以初始化几何能力，第二阶段端到端微调以融合几何预测与多模态推理，避免灾难性遗忘。
🔸数据规范：构建统一的室内外度量深度基准 DepthVLM-Bench，并引入焦距归一化处理，消除不同数据集因相机参数差异导致的尺度模糊，提升跨域泛化性。

🔎分析总结
🔸性能突破：实验显示 DepthVLM 在多个室内外数据集上的深度估计精度显著优于现有 VLM 方法，甚至超越了 DepthAnythingV3 等专用纯视觉模型。
🔸效率提升：相比需要逐像素查询的 DepthLM，该方法将推理复杂度从 O(HW) 降至 O(1)，单次前向传播即可输出 dense 深度图，推理速度提升数个数量级。
🔸能力保持：在获得强大几何感知能力的同时，模型在通用 VQA、文档理解及空间推理等基准测试中表现未降反升，证明了统一架构的有效性。
🔸消融验证：多尺度特征融合与焦距归一化是关键组件，结合 ViT 浅层细节与 LLM 深层语义能最大程度还原场景几何结构。

💡个人观点
论文证明了无需复杂的外部蒸馏或庞大的从头训练，仅需简单的头部扩展和巧妙的训练调度，即可让大模型“原生”地理解三维空间。
在这里插入图片描述