【论文阅读】LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

萌新一个啥都不会

300人浏览 · 2026-05-22 14:02:38

萌新一个啥都不会 · 2026-05-22 14:02:38 发布

快速了解部分

基础信息（英文）：

1.题目: LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
2.时间: 2026.02
3.机构: Peking University, Galbot, CASIA, BAAI, Tsinghua University, Sun Yat-sen University, NVIDIA
4.3个英文关键词: Robot Foundation Model, Unified World Model, Latent Dynamics
请添加图片描述

1句话通俗总结本文干了什么事情

本文提出了一种名为LDA-1B的机器人基础模型，通过在统一的潜在空间中联合学习环境动力学、策略和视觉预测，实现了对海量异构数据（包括低质量数据和纯视频）的有效利用和扩展。

研究痛点：现有研究不足 / 要解决的具体问题

现有机器人模型主要依赖高成本的高质量模仿学习，浪费了大量包含丰富物理交互信息的异构数据（如低质量轨迹、纯人类视频）；现有的统一世界模型（UWM）则因在像素空间预测和缺乏数据角色区分，难以扩展到基础模型规模。

核心方法：关键技术、模型或研究设计（简要）

提出LDA-1B模型，核心是“通用具身数据摄入”机制，根据不同数据质量分配不同任务（如低质量数据只学动力学，高质量数据学策略），并在结构化的DINO潜在空间而非像素空间进行预测，配合多模态Diffusion Transformer架构。

深入了解部分

作者想要表达什么

作者旨在证明，通过统一的潜在动力学学习框架，机器人基础模型可以打破对昂贵、单一高质量专家数据的依赖，通过“通吃”所有类型的具身数据（包括通常被丢弃的低质量数据和无动作视频），在不增加数据收集成本的情况下显著提升模型的泛化性、鲁棒性和操作灵巧性。

相比前人创新在哪里

数据利用范式创新：提出了Universal Embodied Data Ingestion，明确区分数据质量角色（高质学策略，低质学动力学，无动作学视觉预测），让原本“有害”的低质量数据变成了有用的监督信号。
表示空间创新：抛弃了UWM常用的像素空间或VAE空间，转而在预训练的DINO视觉特征空间（Latent Space）进行动力学建模，避免了复杂的外观建模，专注于语义和空间结构。
架构创新：设计了MM-DiT（多模态Diffusion Transformer），能够处理异步的视觉和动作流，并引入任务嵌入（Task Embeddings）来统一不同的训练目标。

解决方法/算法的通俗解释

LDA-1B就像是给机器人请了一个“全能教练”。这个教练不仅看机器人自己做得好的示范（高质量数据），也看机器人做得不好的尝试（低质量数据）来学习物理规律，甚至还看人类的视频（无动作数据）来学习场景变化。它不纠结于画面的光影细节（在DINO空间预测），而是专注于物体的位置和运动趋势，并用一个统一的Transformer模型同时处理眼睛看到的和身体要做的动作。

解决方法的具体做法

数据集构建：收集了超过30,000小时的EI-30k数据集，包含真实机器人、模拟机器人、带动作的人类视频和不带动作的人类视频，并统一为LeRobot格式和末端执行器坐标系。
潜在空间预测：使用冻结的DINO encoder提取图像特征，模型在该特征空间预测未来的视觉状态和动作。
多任务联合训练：
- 策略学习：仅使用高质量轨迹，预测动作。
- 动力学学习：使用高质量和低质量轨迹，预测状态转移（不强制要求动作最优）。
- 视觉预测：使用所有视频数据（包括无动作数据），预测未来的视觉特征。
模型架构：采用MM-DiT架构，将视觉token和动作token拼接输入Transformer，通过不同的Task Embedding来区分当前是在做策略、动力学还是视觉预测任务。

基于前人的哪些方法

Unified World Model (UWM)：借鉴了UWM联合优化动力学、策略和视频生成的目标，但改进了其数据使用方式和表示空间。
DINO / DINOv3：使用了DINO预训练视觉模型的特征空间作为预测的潜在空间。
Qwen3-VL：使用其作为视觉和语言的编码器（VLM）。
Diffusion Transformer (DiT)：MM-DiT架构基于DiT，扩展以支持多模态（视觉+动作）和不同任务。

实验设置、数据、评估方式、结论

数据：EI-30k数据集（30k+小时，含8k真实机器人、8.6k模拟机器人、7.2k带动作人类数据、10k无动作人类视频）。
评估基准：
- 仿真：RoboCasa-GR1基准（24个厨房任务，GR-1人形机器人）。
- 真实世界：Galbot G1（二指夹爪/灵巧手）和Unitree G1（灵巧手）。
对比基线： $π0.5\pi_0.5$ , GR00T-N1.6, UWM系列变体。
结论：
- 在接触丰富、灵巧操作和长程任务上显著优于基线（分别提升21%、48%和23%）。
- 证明了利用低质量数据进行微调的有效性（相比仅用高质量数据，成功率提升10%）。
- DINO潜在空间相比像素/VAE空间对扩展更有利。

提到的同类工作

$π0.5\pi_0.5$ ：基于行为克隆的视觉语言动作模型。
GR00T：NVIDIA提出的通用人形机器人基础模型。
UWM (Unified World Model)：统一世界模型，试图联合建模视频、动作和动力学的前人工作。
RDT / InternVLA / Being-H0 / UniVLA：其他的机器人基础模型或混合数据训练方法。

和本文相关性最高的3个文献

UWM-0.1B / UWM-1B <2025.04> - 本文方法的直接前身和主要对比对象。
$π0.5\pi_0.5$ <2025.04> - 代表了当前主流的纯行为克隆路线的SOTA模型，是本文的主要性能对比基线。
GR00T-N1.6 <2025.03> - 代表了大规模行为克隆在人形机器人上的应用，本文在多个实验中将其作为核心竞争对手进行超越。

我的

是一个unified WAM模型。可以完成4种task：给actions预测actions（Policy），给video预测下一段video（visual planning），给action预测observations（Forward Dynamics），给observations预测action（Inverse Dynamics）
不是预测显式像素，而是在DINO的latents空间下进行。
将不同数据用在不同场景训练，高质量数据用于所有场景，差一些的就只学Dynamics或者video gen。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI + 百业待兴：AI不是风口，AI是所有行业的重启键 ....

AtomGit开源社区

Vibe Coding实战：自然语言需求不是核心，工程规则落地才是关键

这一步解决AI输出代码风格混乱、目录无序、格式不统一的核心问题，是所有vibe coding开发的前置基础，直接决定代码可维护性。项目初始化前，提前定义目录结构、代码缩进、命名规则、注释标准、依赖版本约束；明确技术栈固定规则，比如前端统一组件写法、后端统一接口响应格式；制定资源约束，禁止AI随意引入冗余依赖、废弃语法；将所有规范整理为模板，首次对话同步给AI，全程绑定生效。可运行工程规范模板代码：