这篇论文《3EED: Ground Everything Everywhere in 3D》聚焦于户外3D视觉定位(3D Visual Grounding)任务,提出了一个大规模、多平台、多模态的基准数据集和评估框架,旨在解决现有方法在真实户外环境中跨平台泛化能力不足的问题。


一、论文提出的核心问题

在这里插入图片描述

1. 现有3D视觉定位基准的局限性

问题 说明
局限于室内场景 现有基准(ScanRefer、Nr3D)基于室内RGB-D数据,场景小、对象种类有限
单一平台 大多基于车载传感器(如KITTI、nuScenes),缺乏无人机、四足机器人等平台
规模小 现有户外数据集(如Talk2Car、STRefer)对象数量少、表达方式单一
缺乏多模态对齐 往往只提供LiDAR或RGB之一,不提供同步的多模态监督

2. 户外3D定位的真实挑战

挑战 说明
远距离稀疏性 LiDAR点云随距离增加而稀疏,破坏室内模型假设
极端尺度变化 从交通锥到大型车辆,固定尺寸锚点失效
跨平台视角差异 车载(平视)、无人机(俯视)、四足机器人(仰视)视角完全不同
传感器高度差异 不同平台的LiDAR安装高度导致空间关系(上/下)需要重新理解

3. 核心研究问题

如何构建一个覆盖多平台、多模态、大规模的3D视觉定位基准,并设计能够跨平台泛化的模型?


二、论文的解决方案

在这里插入图片描述

整体思路:数据集 → 基准协议 → 统一基线模型

组件 名称 内容
数据集 3EED 128K对象、22K表达、3平台(车载/无人机/四足)
基准协议 4种评估设置 单平台/跨平台/多目标/多平台联合训练
基线模型 CPA + MSS + SAF 平台对齐 + 多尺度采样 + 尺度自适应融合

三、3EED数据集详解

1. 数据来源与平台

平台 数据来源 特点
车载(Vehicle) Waymo Open Dataset 结构化道路、中等密度、水平视角
无人机(Drone) M3ED 俯视、大视野、高密度、点云稀疏
四足机器人(Quadruped) M3ED 低视角、近距离、仰视、人与环境交互

2. 数据规模

统计项 数量
场景总数 20,367
3D对象实例 128,735
指代表达 22,439
水平覆盖 280m × 240m
垂直高差 80m

比现有最大户外数据集大10倍

3. 标注流程(三阶段)

3D框标注(图2左)
  1. 伪标签种子:6个SOTA检测器(PV-RCNN、CenterPoint等)在外部数据预训练后推理
  2. 自动整合:KDE融合 + CTRL多目标跟踪 + Tokenize Anything验证类别
  3. 人工精修:人工校对修正
指代表达生成(图2中)
  1. 结构化提示:Qwen2-VL-72B基于5类模板生成描述(类别、状态、绝对位置、自中心位置、空间关系)
  2. 人工验证:人工检查语义正确性、空间忠实性、无歧义性

4. 平台差异分析(图4)

维度 车载 无人机 四足
俯仰角分布 近0° 负大角度(俯视) 宽范围
目标密度 中等 高(最拥挤)
LiDAR点数/目标 462 102 112
典型场景 街道 停车场、广场 人行道、公园

四、基准协议(4种评估设置)

设置 训练平台 测试平台 说明
单平台单目标 同平台 同平台 评估域内性能
跨平台迁移(零样本) 车载 无人机/四足 评估跨平台泛化能力
多目标定位 同平台 同平台 一句话指多个目标,需全部定位正确
多平台联合 全部 各平台 评估多平台联合训练的协同效果

五、基线模型设计

1. 核心架构

LiDAR点云 → 多尺度PointNet++ → 视觉token
        ↓
语言表达 → RoBERTa(冻结)→ 语言token
        ↓
     双向交叉注意力
        ↓
   Transformer解码器 → 3D框

2. 三大创新模块

模块 名称 作用 技术细节
CPA Cross-Platform Alignment 消除平台视角差异 重力对齐 + 高度归一化
MSS Multi-Scale Sampling 解决远距离稀疏性 多半径采样(0.6~4.8m)
SAF Scale-Aware Fusion 自适应选择最佳尺度 MLP动态融合多尺度特征

3. 损失函数

  • 匈牙利匹配(类似DETR)
  • 框回归损失(L1 + GIoU)
  • 对比对齐损失(视觉↔语言)

六、实验结果

1. 单平台训练 → 跨平台测试(表2)

训练平台 测试平台 方法 Acc@25 提升
车载 车载(域内) Ours 78.37% +25.99%
车载 无人机(零样本) Ours 18.16% +16.62%
车载 四足(零样本) Ours 36.04% +25.86%

结论:跨平台性能差距大,但我们的方法显著缩小了差距。

2. 多平台联合训练(表2)

测试平台 方法 Acc@25 提升
车载 Ours 80.86% +17.45%
无人机 Ours 53.45% +9.25%
四足 Ours 53.31% +10.17%

结论:联合训练平衡了各平台性能,无人机提升最大。

3. 多目标定位(表3)

指标 基线最佳 Ours 提升
Acc@25 26.91% 32.32% +5.41%
mIoU 51.07% 56.40% +5.33%

结论:多目标定位更具挑战性(需要全部目标正确),我们的方法优势更明显。

4. 消融实验(表4)

配置 车载Acc@25 四足Acc@25
-CPA(无平台对齐) 71.76 49.93
-MSS(无双尺度) 75.65 51.40
-SAF(无自适应融合) 80.38 51.98
完整模型 80.86 53.31

结论:三个模块互补,共同提升性能。


七、与前面几篇论文的对比(重要)

维度 3EED M3D 3D-RAD SpatialMed MedSG-Bench
领域 自动驾驶/机器人 医学 医学 医学 医学
输入 LiDAR点云+RGB 3D CT 3D CT 3D CT 2D图像序列
任务 3D视觉定位 通用3D分析 VQA诊断 空间推理 序列定位
平台 车载/无人机/四足 固定 固定 固定 固定
输出 3D框 文本/3D框/mask 文本 数值/选项 2D框
规模 128K对象 120K图文对 34K QA 9.8K QA 9.6K QA
核心贡献 跨平台泛化 3D通用模型 多时间诊断 空间量化评估 序列定位

一句话区分

  • M3D:一个模型做所有3D医学任务
  • 3EED:一个模型在车载/无人机/四足上都能准确定位“左边那辆车”

八、总结

项目 内容
问题 户外3D视觉定位缺乏多平台、大规模基准,现有模型跨平台泛化能力差
方法 构建3EED数据集(3平台、128K对象、22K表达)+ 4种基准协议 + CPA/MSS/SAF基线模型
核心发现 跨平台性能差距大(车载→无人机从52%→1.5%);联合训练可显著提升;稀疏性是无人机最大挑战
意义 首个面向多平台户外3D视觉定位的大规模基准,推动跨平台泛化研究

开源地址

https://project-3eed.github.io/

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐