IDM(Inverse Dynamics Model,逆动力学模型)

DreamZero lingotVA 都是可学习的模块,但它们的具体存在形式和实现方式有所不同。

简单来说,IDM 是一种“看结果,推原因”的机制。在世界动作模型(WAMs)的语境下,它的核心作用是:给定当前的环境画面(现在的状态)和模型预测出的未来画面(目标状态),反向推导(解码)出机器人需要执行什么 动作(Action) 才能达到那个未来状态。

虽然 LingBot-VA 和 DreamZero 都依赖 IDM 的概念来生成动作,但它们在架构设计上有着明显的区分:

1. DreamZero 中的 IDM:单体大模型中的“隐式能力”

在 DreamZero 中,IDM 并不是一个完全独立、与视频生成割裂开来的庞大网络,而是作为一个隐式(Implicit)的模块融合在同一个端到端的大模型中的

  • 理论解耦,实际联合:DreamZero 在数学公式上将“视频与动作的联合预测”拆解为了两步:先预测视频,再通过 IDM 预测动作。但在代码和模型实现上,它没有训练两个独立的模型,而是用一个共享的 14B 参数的扩散 Transformer(DiT)同时对视频和动作进行联合去噪(Joint Denoising)。
  • 具体形态:它的 IDM 实体体现为附加在主干网络上的轻量级动作解码器(Action Decoder)。模型通过联合训练,在内部的 Transformer 块中隐式地学会了“从预测的视频蓝图中提取物理动作”的逆动力学映射能力。

在这里插入图片描述
在这里插入图片描述

2. LingBot-VA 中的 IDM:MoT 架构中的“独立动作流”

相比之下,LingBot-VA 对 IDM 的设计更加显式和具象化。它在混合 Transformer(Mixture-of-Transformers, MoT)架构中,专门分配了一个子网络来充当 IDM。

  • 平行的动作流(Action Stream):LingBot-VA 包含两条平行的 Transformer 流。一条是继承自 Wan2.2-5B 的庞大视频流,另一条则是深度相同但维度小得多的动作流(Action Stream)。这个动作流在架构中就扮演着 IDM 的角色。
  • 专属的学习目标:在训练时,LingBot-VA 专门为这个动作流设计了逆动力学损失函数(Inverse dynamics loss, L i n v \mathcal{L}_{inv} Linv。它强制要求这个动作流模块去学习:在给定当前的视频 Token、未来的视频 Token 以及历史动作的前提下,解码出正确的当前动作。

总结来说:
这两个模型中的 IDM 都是跟随整个系统一起**端到端学习(End-to-End Learning)**出来的。DreamZero 是把 IDM 的推导能力“揉”进了同一个主干网络里,通过联合去噪隐式地实现;而 LingBot-VA 则是清晰地划分出了一条专属的“动作网络流”,并用明确的逆动力学损失函数来训练这个模块。

在这里插入图片描述


IDM 的缺点

传统的“先预测视频,再通过逆动力学模型(IDM)解码动作”的范式(Imagine-then-execute)正成为制约世界模型(WM)在机器人控制中落地的最大瓶颈。

之所以整个前沿研究(LingBot-VA,以及最近的 FastWAM、GigaWorld-Policy、DreamZero 等)都在试图**“逃离”传统且僵硬的 IDM 束缚**,主要有以下几个致命的痛点:

1. 误差的级联放大(Cascading Errors 与“Garbage In, Garbage Out”)

视频预测本身存在精度问题。像素级的未来预测对环境的随机性非常敏感,细微的视觉预测误差会随着时间推移在长视野任务中不断累积。
如果采用传统的 IDM 路线,动作的生成绝对依赖于预测出的未来视频。一旦前置的视频生成模块出现了幻觉(Hallucination)或奇葩错误,后续的 IDM 再强大也无力回天,导致错误直接传导至电机的物理执行端,造成级联失效。DreamZero 的研究也证实,这类模型大部分的失败都源于视频预测错误,而非动作提取本身。

2. 实时闭环控制的“延迟噩梦”(Prohibitive Inference Latency)

传统的 IDM 方案在推理时是串行的:必须先通过扩散模型经过多次迭代去噪,生成一段完整、高维的未来视频帧,然后 IDM 才能据此计算出低维的动作。
这种“先想象完整未来,再决定当下动作”的过程带来了巨大的计算开销和极高的推理延迟。在现实物理世界中,机器人需要高频的闭环控制来应对突发扰动;如果生成一段视频需要几秒钟,系统就会丧失对现实环境的反应能力,导致真正的闭环控制难以实现。

3. 割裂的建模导致“模态对齐”困难(Modality Misalignment)

传统的路线往往训练两个独立的模型(一个视频预测模型 + 一个独立的 IDM)。然而,高维的视觉语义空间与低维的精确电机控制空间之间存在巨大的鸿沟。简单地将分离的视频生成头和动作头强行结合在一起,会导致这两种模态在底层特征上缺乏深度融合与对齐,进而损害动作预测的准确性。

4. 灵魂拷问:实战中真的需要“显式地想象未来”吗?

FastWAM 和 GigaWorld-Policy 等最新研究提出了一个颠覆性的观点:世界模型之所以强大,是因为它在训练阶段通过“预测视频”这个任务,被迫学会了物理世界的因果规律和丰富的物理表征。
一旦模型出山,在推理(部署)阶段,显式地画出未来的视频帧其实是多余的负担。FastWAM 的实验证明,只要在训练时保留视频联合训练(Video co-training),推理时完全可以跳过生成未来视频的步骤,直接在隐空间单步解码出动作,性能不仅没有下降,推理速度还提升了 4 倍以上。

总结:从“绝对依赖”到“条件注入”的范式转移

前沿的 WAMs 正在将视频和动作解耦,把视频预测从 “决定动作的唯一前置蓝图”,降级为 “辅助动作生成的条件信号”或“训练期的正则化约束”

  • LingBot-VA 通过混合 Transformer (MoT) 架构和交织序列,让视频和动作在底层共享 KV-Cache,并在执行后用真实观测画面强制替换预测画面,打破了闭门造车的误差累积。
  • DreamZero 则放弃了分离的 IDM,改用单一模型进行端到端的联合去噪(Joint Denoising),并在训练时通过解耦噪声调度(DreamZero-Flash)故意模糊视频特征,逼迫动作网络学会在没有完美视频蓝图的情况下独立生存。

“逃离 IDM”,本质上是具身智能领域在认清了高维视频生成的不可靠性与高延迟后,走向以动作为中心(Action-centered)、在隐空间融合物理直觉的必然进化之路。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐