26年5月来自自变量机器人(X Square Robot Team)的论文“WALL-WM: Carving World Action Modeling at the Event Joints”。

WALL-WM 是一种“世界动作模型”(World Action Model),它将视频动作学习范式从以“动作片段”(chunk)为中心的优化,转向以“动作事件”为基础的视觉-语言-动作(VLA)预训练,并将具有语义连贯性的动作事件作为学习的基本单元。现有的 WAM 通常基于多模态或视频基础模型进行初始化,随后直接依据当前的视觉观测和指令,对固定长度的动作片段进行优化。尽管这种以片段为中心的建模方式操作简便,但它在粒度层面造成一种根本性的不匹配:语言描述的是语义目标与事件,视觉信息随场景的动态变化而持续演进,而动作指令则作用于控制层面的时间尺度;若强行将这三者统一纳入同一个固定长度的预测窗口中,便会将 VLA 训练过程降格为单纯的短期关联拟合。这种做法不仅未能充分利用预训练模型中蕴含的视觉-语义先验知识,甚至可能导致模型主动舍弃这些先验,转而采纳针对特定动作片段的“捷径式”动作策略,从而削弱模型的组合能力及长程泛化能力。

WALL-WM 通过围绕语义事件来组织监督信号与训练数据,从而有效解决上述粒度不匹配的问题。具体而言,它将基于动作事件的 VLA 预训练与一套精心构建的数据生态系统相结合——该生态系统融合事件层级的语言描述(caption)与基于聚类平衡的采样策略——从而实现针对多样化行为、场景及任务结构的规模化学习。基于同一套经过事件预训练的主干网络,WALL-WM 支持两种相互互补的推理模式:其一是“事件模式”(Event Mode),该模式接收关于“下一个动作事件”的语言描述作为输入,并支持生成长度可变的动作执行片段;其二是“统一模式”(Unified Mode),该模式利用一种搭载“阶梯解码”(Staircase Decoding)机制的视觉-语言模型(VLM),在执行传统的固定长度动作片段推理任务的同时,依然能够保持 VLA 路径上的梯度连续性。结合基于 Muon 优化器的超大规模预训练基础设施,WALL-WM 为构建通用型 WAM 提供一套切实可行的规模化扩展方案。


如图 1 所示:具有代表性的真实机器人任务快照,为物理任务提供具有说明性的示例。
请添加图片描述

生成式具身世界模型

生成式世界模型近期作为具身人工智能(Embodied AI)领域的一种极具潜力的范式崭露头角;在该范式下,智体(Agents)学习预测物理世界的未来状态,并利用这些预测结果进行规划与控制。早期的基于模型强化学习方法(如 PlaNet、Dreamer 和 DreamerV3 [28, 27, 29])通过学习紧凑的预测状态来进行控制;而 JEPA 系列模型(包括 V-JEPA 和 LeWorldModel [2, 54])则表明,在特征空间中进行预测,无需显式的像素重构,便能捕捉到具有实际意义的时序与物理结构。

近期涌现的具身世界模型进一步利用生成式视频建模与“世界-动作”建模目标,从大规模异构数据中学习机器人与环境之间的动态交互规律。这些模型将预测的未来帧或中间视觉表征作为规划依据,并通过逆动力学模型 [20]、中间特征动作解码器 [59]、稠密对应匹配 [43]、面向规划的轨迹解码 [21, 94],或从人类视频及新颖场景中迁移而来的合成演示 [6, 5, 15, 37, 51] 等手段,从中提取出可执行的动作指令。近期研究进一步指出,视频生成器能够隐式编码有用的三维空间先验知识及交互先验知识 [32, 42, 93, 78, 46],这为将其用作具身动力学模型提供强有力的理论依据。沿着这一研究方向,LaDi-WM、AdaWorld、Motus、LDA-1B 和 MotuBrain [33, 23, 7, 53, 69] 等模型探索潜扩散机制、结构化视觉预测、基于潜动作的条件控制以及统一的“视频-动作”建模方法;与此同时,LingBot-VA [44] 及一系列相关的统一去噪架构 [26, 22, 95, 13, 83, 76, 12, 88, 47] 则实现对未来状态预测与动作生成任务的联合建模。更为前沿的方法(如 Fast-WAM [86])通过在测试阶段规避显式的视频解码或未来情景“想象”过程,进一步提升模型的推理效率。综上所述,上述一系列研究进展充分表明:对未来状态进行显式建模,能够有效提升具身智能系统的样本利用效率、鲁棒性以及泛化能力。

WALL-WM

在推理阶段,同一套经过事件预训练的主干网络支持两种互补的模式:

事件模式(Event Mode)。系统在“事件空间”中展开运行。视觉-语言模型(VLM)、人类用户或智体负责提出下一个事件的描述;随后,WALL-WM 执行与之对应的、长度可变的视频-动作片段,直至观察到下一个状态。该模式的运行节奏顺应任务本身的自然时长,而非受限于固定的控制视窗(control horizo​​n)。

统一模式(Unified Mode)。传统的固定长度片段推理机制得以保留,但此时的片段生成不再仅仅依赖于原始的全局指令。一个搭载“阶梯式解码”(Staircase Decoding)机制的 VLM ,会针对任务的进展提供一种具备事件结构的隐层推理;由此产生的隐层事件表征将用于指导下一个局部片段的生成,同时确保整个视频-动作(VLA)路径在梯度上保持连续性。

如图 2 所示下一事件训练与等长片段方案。在“先验对齐训练”阶段,事件描述文本、事件视频片段以及事件动作序列共同刻画同一段语义区间,从而确立一个定义明确的“文本-到视频/动作”的训练目标。而在“等长片段模式”下,若仅凭全局指令来指导局部片段的生成,往往会因信息不足而产生歧义;此时,通过引入历史视窗(history windows)信息,即可将“预测下一个片段”这一任务重新转化为一个定义明确、可解的问题。
请添加图片描述


1 概述

如图3所示,WALL-WM 通过一套与先验知识对齐的多模态预训练栈,实现以事件为中心的世界动作建模:该栈包含一个继承自“Wan系列”文本-到-视频模型(72)的视频塔,以及一个随机初始化的动作 DiT 模型;二者采用层级耦合的方式连接,其中预训练的编码器保持冻结(固定不变),而跨模态对齐关系则通过层级间的视频-动作耦合机制进行学习。预训练过程是以事件为粒度组织的:每一个训练样本都是从一段长时程的交互片段中切分出来的原子级事件对 (V_e, a_e),而非固定长度的视频切片;模型的目标是基于当前的观测信息,去噪并重构出与该事件相对应的未来状态序列。在每一个网络块(block)中,动作流会对与之匹配的视频特征执行跨模态注意操作,但在此过程中不会对视频流本身进行任何修改。
请添加图片描述

形式化地讲,WALL-WM 建模的是条件概率 p(V_e, a_e | V_0, s, c_e)。其中,V_0 表示当前的(来自多视角的)观测图像(每个相机视角仅取一帧关键帧);s 表示当前的本体感知状态;(V_e, a_e) 表示与特定事件对齐的未来多视角视频序列及末端执行器(机械手)的运动轨迹(二者的序列长度均随事件内容而变化);而 c_e 则表示针对该特定事件的文本描述(caption),用于刻画这一基于动作的语义事件。

如图2所示两种范式:针对预训练阶段及“事件模式”下的推理任务,采用图2(A)所示的“以事件为中心”的布局进行“下一事件预测”;而针对“统一模式”下的部署应用,则采用图2(B)所示的“以观测为中心”的布局进行“下一切片预测”。具体而言,通过层级耦合与时序对齐机制,基于“以事件为中心”的预训练过程构建出共享的视频-动作去噪器,并将其扩展应用至融合历史信息的“以观测为中心”的滑动窗口上。随后,将在这一经事件预训练的主干网络之上,接入用于推理阶段的语言交互通路:其中,一个具备视觉感知能力的 VLM(视觉-语言模型)桥接模块,既能在“事件模式”下为“下一事件预测”提供条件指引,也能在“统一模式”下实现指令的落地执行(grounding);与此同时,一种名为“阶梯式解码”(Staircase decoding)的机制,则能在无需逐 Token 自回归生成的情况下,为固定长度的视频切片预测任务提供必要的事件结构信息。

2 多视角视觉世界事件建模

该“视频塔”(Video Tower)继承 Wan 提出的单视角 DiT 架构,并将其扩展至多视角、多机位(multi-embodiment)的视频生成任务。原有的视角内计算模块得以保留;在此同一主干网络之上,嫁接三项新增功能:(i) 基于单视角先验的多视角自适应模块——该模块对逐帧的多视角 Token 执行重排后的跨视角自注意计算,并通过一个零初始化的输出投影层将结果融合回主干网络;(ii) Camera RoPE——该模块在上述跨视角分支中为每一台相机赋予一个可学习且无需标定的独立标识,从而使同一套 DiT 架构能够兼容并处理异构的多机位配置;以及 (iii) 跨视角几何掩码——这是一项在训练阶段辅助应用的互补机制,旨在增强跨视角间的几何一致性。随后,该视频塔在事件潜变量空间上,依据 Wan 风格的 v-预测流匹配(v-prediction flow matching)范式([31, 64, 48])进行训练。

如图 4 所示:WALL-WM 视图注意机制中的跨视图掩码。(a) 视锥掩码。仅当一对 Token (u, u’) 的反投影视锥在两台相机前方共享同一三维区域时,才允许它们之间进行注意交互;由此生成的二值掩码 M 将作为注意偏置项 (1 - M_sc(−∞) 添加进去,其中同一视图内的 Token 对(即矩阵对角线位置)始终被允许进行交互。(b) 管状掩码。某一特定视图 v* 上的一个空间窗口会被跨所有潜帧进行掩码——且以一定的嵌套概率,也会对 InP 条件通道 y 进行掩码——从而使得跨视图注意成为恢复被掩码内容的唯一途径;该“管状”区域内的视图预测损失会被赋予更高的权重,具体处理方式参见流匹配目标函数。上述两种掩码机制仅在训练阶段启用,因此在运行时(推理阶段)无需进行任何校准操作。
请添加图片描述

3 以事件为中心的动作动态建模

动作塔是一个动作 DiT 模块,其深度与视频塔相同。在每一层中,动作 Token 从配对的视频块中读取多视角视频特征;该堆栈利用流匹配(Flow Matching)技术对末端执行器轨迹进行去噪处理。

4 语言引导推理

长时程具身操纵任务所需的推理能力,远超静态语言条件约束的范畴;它涵盖场景基准化、事件拆解、时间进程估算以及执行时的动态重规划等关键环节。推理模块基于 Qwen3.5-9B 主干网络 (80, 71) 构建,并通过一系列紧凑的连续隐推理状态序列(即“阶梯式解码”)实现推理加速。


WALL-WM 数据生态系统涵盖大规模互联网视频、第一人称视角视频、非机器人辅助的 UMI 风格录像以及异构的远程操作数据;该系统经过审慎的后处理与丰富的标注,旨在服务于通用目的的预训练任务。该数据生态系统围绕以下五个维度进行构建:(i) 数据来源覆盖范围:构建一幅涵盖通用互联网视频、第一人称视角人类视频、非具身 UMI 数据以及机器人远程操作/开放机器人数据的全面数据图谱;(ii) 时序同步与数据后处理:建立一套专门的数据后处理框架,旨在确保训练与部署环节之间的数据对齐;(iii) 分层标注粒度:对每一个任务片段(episode)均在四个不同的时间尺度上进行标注(即:任务 / 子任务 / 动作 / 片段),并额外提供一个可选的人工精标层;(iv) 视觉-语言联合聚类与动作聚类:通过结合视觉-语言联合聚类与动作聚类技术,不仅实现数据加载器的负载均衡,还能有效地挖掘并呈现那些处于“长尾”分布中的非典型轨迹;以及 (v) 针对性的数据恢复与增强:重点覆盖那些涉及丰富物理接触的动作区域,以及在实际机器人数据采集中难以完整捕获的复杂几何形态与遮挡场景。

1 数据构成

将 WALL-WM 数据集组织为一种“数据源图谱”,而非严格的层级结构。该图谱依据“视角”和“动作可用性”将各类数据源族群进行了划分。通用的互联网视频数据能够提供广泛的视觉及时间动态先验知识,其规模之庞大是任何具身数据集都无法企及的;在当前的构建版本中,这部分数据包含 120 万个视频片段组成的 OpenVID (55) 子集,以及其他各类网络视频源。

第一人称视角(Egocentric)及人类动作视频数据,则将上述先验知识进一步聚焦于“第一人称操作的几何特性”上,且无需包含机器人的实际动作数据。不含机器人的 UMI 风格录制数据,则在无需机器人实体参与的前提下,模拟了接近实际部署场景的手部与摄像机几何布局,并提供可重定向的控制器轨迹数据;与此同时,异构机器人数据集及自行采集的远程操控数据,则跨越不同硬件平台,提供真实的 [视频+动作] 配对数据。人类干预及故障恢复数据被视为一种核心数据源;因为每当需要涉及丰富物理接触的纠正性操作行为时,便可从该数据源中进行采样,或将其关联至图谱中的多个象限。

机器人数据象限整合现有的公开具身数据集,以及在几何分布上与之保持一致的自采数据;在该象限内,无论是视觉观测的几何特性还是动作测量的标定方式,均与实际的部署平台保持高度对齐。内部自主研发的具身数据套件涵盖四种主要的部署平台:高性能的桌面级双臂机器人系统;两款移动机器人平台——QUANTA X1 和 QUANTA X1 Pro;以及配备了高自由度灵巧手的轮式人形机器人 QUANTA X2。故障恢复与人工接管的交互片段,明确地覆盖了那些涉及丰富物理接触事件时的动作解空间;它们提供故障恢复所需的关键信号——而这类信号往往是单纯依靠海量“标准演示数据”所难以充分提供的。

如图 7 所示内部自研部署平台:
请添加图片描述

如图8所示WALL-WM 数据集的数据源分布图。四个象限分别归类通用互联网视频、第一人称视角视频、非具身数据,以及异构远程操作/开放机器人数据;中心区域表示用于丰富“接触密集型”修正数据的人工干预与故障恢复数据。数据源包括 OpenVID (55)、HD-VILA (79)、Ego4D (25)、EPIC-KITCHENS (18)、DROID (40)、AgiBot World (10) 以及自采集数据 (73)。
请添加图片描述

2 面向部署的时间同步与数据后处理

对于从远程操作中收集的非具身数据和机器人数据,[视频+动作]层仅在视觉观测与动作流对应于同一物理时刻时才具有实用价值。然而,在实际应用中,这种对齐关系往往无法得到保证:相机编码、控制器日志记录、远程操作中间件以及磁盘写入等环节,都可能在单一录制源内部引入一个近乎恒定的视频-动作时间偏移。若不对其进行校正,训练出的模型便会将时刻 t 的图像与时刻 t + Δ 或 t − Δ 的动作错误地关联起来。这种错误在物体接触发生前后尤具破坏性——此时,仅仅几帧的差异就足以将语义状态从“正在接近”转变为“正在触碰”、“正在抓取”或“正在恢复”。此外,若将未经校正的策略部署至机器人硬件上运行,还可能导致机器人产生不必要的抖动行为。

如图 10所示XRZero-G0 无实体采集装置及其在远程操作体系中的定位 (73)。(左) 该可穿戴装置的两个视角图:一套经 VR 追踪的头戴设备搭载三枚第一人称视角摄像头(图中展示了顶部及两侧腕部的两路画面);操作员背负的背包负责数据同步及边缘计算任务;一对手持式抓手则复刻部署机器人的末端执行器几何形态;内嵌的缩略图展示了该装置采集的三路画面(左腕 / 顶部 / 右腕),这些画面最终将作为策略模型的输入数据。(右) XRZero-G0 旨在与主从式及 VR 远程操作模式并行互补,而非取而代之:在实际的生产流程中,少量的实体机器人锚点资源(即上述两种远程操作模式)将与体量庞大得多的无实体采集资源(即 XRZero-G0 装置)相搭配,从而实现了文献 (73) 中所描述的“少样本物理锚定”工作范式。
请添加图片描述

因此,在进行字幕生成、聚类分析和数据采样等后续处理之前,首先对[视频+动作]层进行了时间同步处理。具体而言,对于每一个数据片段(episode),首先通过测量各路第一人称视角相机及腕部相机所捕捉到的逐帧图像变化,构建出一条“视觉运动信号”;接着,通过对左右末端执行器的位置流进行有限差分运算,构建出一条“动作运动信号”。随后,对这两类信号进行平滑与归一化处理,并通过在一个较小的整数滞后窗口内进行遍历搜索,找出能够使两类信号相关性达到最大值的那个时间偏移量。这一偏移量的估算结果将综合各路相机及动作通道的反馈进行汇总,从而避免因某一路相机暂时被遮挡或抓手处于静止状态而导致估算结果产生偏差。整个处理流程的图解详见图11。

请添加图片描述

本阶段的后处理环节并未先验地假定视频与动作在时间上已完美同步,而是显式地估算出两者之间残余的相位差,并在数据用于后续任务之前对其进行校准。例如,若视频帧率为20 FPS,且某一片段经估算存在两帧的时间偏移(约相当于100毫秒),则同步模块将应用相应的时移操作,使记录的动作流与编码后的视频时间轴实现对齐。这一校正过程是确定性的:动作序列将依据视觉帧的时间轴进行重新索引;因时间偏移而引入的边界帧将被截除;而连续型动作字段则仅在时间偏移消除完毕后,方进行重采样处理。对于那些最佳滞后相关性得分偏低、各数据源层面的估算结果相互矛盾、或所需校正量超出预设合理窗口范围的数据片段,不会将其默默纳入训练集使用;它们要么被隔离以进行人工检查,要么被降权处理,直至其源层面的修正得到验证。

完成同步后,会执行第二轮清洗操作,旨在确保与部署环境保持一致。此轮清洗将剔除那些存在摄像头流缺失、动作记录非单调或重复、帧率(FPS)异常、帧长与动作时长严重不匹配、机器人状态无效、运动学不连续、夹爪状态损坏,或者在重定向后其运动片段超出部署机器人可达工作空间的剧集。对于结构化的演示数据,将移除那些重置失败或起始/目标状态被截断的剧集。对于非结构化的数据流,长时录制片段仅在完成同步后才进行拆分,从而确保其中识别出的任务、子任务、动作及片段区间,均能继承一套统一且一致的视频-动作时钟基准。

本阶段清洗后的输出数据将采用一种规范化的剧集格式,其内容包含:已同步的多视角视频、已对齐的动作记录、经校准的摄像头元数据、机器人状态元数据、数据源标识、置信度标记,以及清洗过程的溯源信息。这些标记将作为输入,供下游的层级式字幕生成模块及集群均衡数据加载器使用。

3 以事件为中心的层级式描述生成

动作配对数据源中的每一个片段(episode),都附带一套在时间上呈嵌套结构的描述层级体系。该体系中各描述段落的时间跨度,是基于“原子操作动作”(66)——即诸如“伸取”、“抓握”、“关闭”、“举起”和“放置”等简短且可执行的基本原语——进行时间锚定的,而非基于固定的帧窗口。具体而言,首先在动作边界处对同步的视频-动作流进行切分;随后分配相应的描述文本,以确保每一个语言描述的时间区间都能与视觉及控制信号中对应的物理时间区间实现精准对齐。并未仅仅为整条动作轨迹分配单一的自由格式描述,而是将每一个片段拆解为四个核心的时间抽象层级,并辅以一个可选的人工标注层。设计这一层级体系的目的,在于既要保留演示动作所蕴含的全局意图,又要保留决定机器人如何具体完成任务的局部事件结构。

这四个核心层级分别为:任务层(Task)、子任务层(Subtask)、动作层(Action)和片段层(Segment)。任务层是一条针对整个片段的全局性文本描述,用于概括其总体目标,例如“打开抽屉”、“将物体放入容器”或“擦拭表面”。子任务层将整个片段切分为若干个连续且具有明确语义意义的阶段。这些阶段通常对应于一系列中间目标,例如“接近目标物体”、“建立抓握姿态”、“搬运物体”以及“放置或释放物体”。动作层则进一步对每一个子任务进行细化,将其拆解为更为简短的操作原语,例如“伸取”、“调整夹爪姿态”、“闭合夹指”、“举起”、“平移”、“插入”或“收回”。最后,片段层提供了最精细的时间切分粒度,用于捕捉那些可能仅持续整条动作轨迹极小一部分的、短暂且局部的事件。第五个层级即“人工层”(Human),专门用于存储人工标注的片段信息。该层级仅针对数据集中的部分片段(即那些经过人工标注的片段)进行填充,并主要服务于两个相辅相成的目的。首先,它为自动生成的层级体系提供了高质量的监督信号,从而有助于对自动生成结果进行有效验证。其次,它提供了一套可信赖的参考基准,用于评估描述文本的准确性、时间边界切分的质量,以及跨越不同任务时语义标签的一致性。在实际应用中,并非每一个片段都必须包含人工标注层;核心的四层级体系确保了数据集能够实现规模化扩展,而包含人工标注的子集则起到了锚定标注流程、并辅助进行质量控制的关键作用。

这种多级模式对于机器人恢复行为尤为重要。许多有用的演示并非任务的完美线性执行。它们包含重新抓取、接触失败、微小的姿态修正、滑落后的重试以及其他短暂的恢复动作。这些事件对于稳健的策略学习至关重要,因为它们使模型能够接触到执行偏离预期路径时出现的状态。然而,如果整个过程仅用一个标题表示,这些修正行为就会被平均到全局任务描述中,模型难以识别。即使过程的关键部分涉及抓取失败、重新定位手腕并再次尝试,轨迹仍然可能被标记为“拾取物体”。分层标题结构使这些事件清晰可见。在任务层面,整个情节(episode)始终与其预期的目标保持关联。在粒度较粗的子任务和动作层面上,模型能够观察到执行过程中的主要阶段。而在粒度最细的片段层面上,短时的纠正性行为可以被精确地定位到具体的时间点,并被赋予各自独立的描述。这一机制使得数据加载器能够对特定的时间区域进行采样或重新加权,从而避免将成功执行的情节中所有帧都视为具有同等的信息价值。因此,在训练过程中,模型既能够对与恢复操作相关的关键时间段予以重点关注,又无需舍弃更宏观的任务情境。

4. 基于视觉-语言和动作的聚类平衡采样

生产环境的训练模型仅使用从大规模自收集的具身语料库中抽取的一小部分子集进行训练,该子集由聚类平衡采样器选择。这种子采样并非仅仅出于预算考虑:它源于对原始具身语料库高度长尾分布的观察,而多级字幕模式则展现了视觉、语言和动作的细粒度统计信息。具体而言,字幕窗口在聚类之前根据动作边界进行分割,而不是通过均匀的时间切片。这种与动作对齐的分解将每个长演示转化为语义局部化的单元,使得最终的语言和视觉-语言分布比原始的任务级混合分布更加平衡。

在此多级模式之上,WALL-WM 运行两次离线聚类,其目的是为数据加载器提供可控的采样分布。第一种方法是视觉-语言(VL)聚类:冻结的多模态编码器将每个视觉观察和描述对映射到一个联合嵌入,然后聚类过程将该空间划分为主题簇,这些主题簇概括了语料库的指令场景覆盖范围。第二种方法是动作聚类:动作块在轨迹空间中被单独聚类,其中长尾集中非名词性运动,例如恢复、重新抓取、重试和接触驱动的纠正。这些正是动作对齐的多级模式旨在揭示的行为。重要的是,在将任务级描述分解为更精细的动作和片段描述之后,仅语言聚类和视觉-语言聚类视图的分布更加均匀,少数几个主要主题吸收的样本数量减少。这为平衡采样提供了实际基础:罕见但重要的指令场景和轨迹模式成为明确的采样单元,而不是被频繁出现的动词和名词性运动所淹没。

在训练过程中,数据加载器会对样本批次进行采样,以平衡视觉-语言聚类和动作聚类。VL 平衡提高了指令-场景组合的覆盖率,而动作平衡则使动作头反复接触到具有相同动词但需要不同动作的轨迹。在这种情况下,基于原始长尾混合数据集的普通 SFT 目标函数往往会趋向于优势目标。两种聚类都是预先离线计算的;训练仅消耗聚类分配,因此聚类平衡采样既不会增加编码器的前向传播,也不会增加优化器的状态。

5 通过接触密集型随机初始化进行数据恢复

预训练过程通过“恢复/接管”情节得到了增强,这些情节明确涵盖了围绕接触密集型事件的动作解空间。对于每一个此类事件 e,针对末端执行器构型 q 定义一个局部接触姿态分布 p(q | e)。该分布的支持集位于以名义接触姿态 q*_e 为中心的微小测地球 B_epsilon(q*_e) 内部;因此,采样所得的状态既能保持在事件的局部范围内,又能同时保留该事件原有的接触几何特性。


WALL-WM 的完整训练与推理方案。首先在图 2(A) 所示的“下一事件预测”机制下,对层耦合的视频-动作去噪器进行预训练;具体做法是先训练视频塔,随后在冻结视频塔参数的前提下训练动作塔。接着,对 VLM 文本调节器进行适配,并训练用于实现“统一模式并行思维链”的 阶梯(Staircase)解码器。随后是一个可选的微调阶段,旨在将视频塔与动作塔双双适配至基于观测中心的“历史窗口”情境下,并采用图 2(B) 所示的“下一片段预测”机制进行训练;值得注意的是,若仅需执行“事件模式”的序列展开(Rollout),则仅需完成前述阶段的训练即可。该集成系统,支持“事件模式”与“统一模式”推理协议。


1 通用框架

对模型进行大规模训练和部署,暴露出一系列系统级挑战,这些挑战在本质上与纯语言模型所面临的挑战截然不同。异构的主干网络、预训练的潜在预测专家模块与随机初始化的动作预测专家模块的共存、视频生成与动作预测相结合的混合优化目标,以及部署阶段严格的延迟预算要求——这些因素共同构成了瓶颈,而现成的通用训练与推理技术栈无法有效解决这些问题。因此,开发一系列专为本模型量身定制的基础设施级优化方案。

Muon 优化器。选用 Muon 作为模型中绝大多数模块的优化器,这一选择得益于它在收敛速度和训练稳定性方面所带来的持续提升。然而,若将牛顿-舒尔茨(Newton-Schulz,NS)迭代法直接应用于分片训练场景,会引入显著的额外开销;在朴素的实现版本中,仅优化器更新这一步的计算成本就可能逼近前向传播与反向传播两步计算成本的总和(即达到 2 倍的开销)。为了使 Muon 能够在大规模场景下具备实用性,实现了 DMuon——这是一个专为混合并行计算设计、且与底层训练框架解耦的 Muon 分布式实现版本。DMuon 通过协同设计的分布式执行机制,解决了矩阵级 NS 迭代与分片参数之间存在的粒度不匹配问题,从而将优化器更新这一步的开销降格为次要成本,使其不再成为主导性的性能瓶颈。

内核优化(Kernel Optimization)。基于 Gram 矩阵的数学表述揭示了一种特定的对称结构,而通用的矩阵乘法(GEMM)内核无法充分利用这一特性,导致在默认设计下,近一半的瓦片级(Tile-level)计算属于冗余操作。通过开发基于 CuteDSL 语言的专用内核,并使其与上述对称特性相适配,从而成功消除了这些冗余计算;此外,借助“形状-觉察”(Shape-aware)的自动调优技术,该优化所带来的性能加速效果得以在训练过程中遇到的各种不同矩阵维度(Geometry)下持续保持。

内核库(Kernel Library)。开发一个涵盖训练和推理两阶段的定制化内核库。这一工作的初衷源于一项观察:现有的标准内核(stock kernels)通常以单算子粒度运行,这导致对于那些在数据流图的局部范围内被生成并随即被消耗的张量,会产生不必要的全局内存溢出(spills)开销。识别出一组反复出现的、可融合的模式;在这些模式的默认实现中,其算术强度(arithmetic intensity)往往受限于内存带宽,而非 Tensor Core 的吞吐能力。将这些模式整合成复合内核(composite kernels),在融合区域内将中间激活值保留在寄存器或共享内存中,从而将有效的“屋顶线”(Roofline)工作点推向计算密集型区域,并在模型中那些占据主要开销的部分持续保持较高的 GPU 利用率。

其内核库构建于 TVM FFI 之上。TVM FFI 是一套语言无关的外部函数接口(FFI),它通过一套稳定的 C ABI 暴露已编译的内核,并利用零拷贝(zero-copy)的张量句柄机制,从而绕过了 PyTorch 调度器(dispatcher)和全局解释器锁(GIL)所带来的逐次调用开销;与此同时,该接口仍能与 PyTorch 的训练及推理前端保持良好的互操作性。在此调度层之上,提供了一套完整的封装层,该封装层完全复刻了 PyTorch 原生的算子接口;这意味着,可以直接用库中的内核来替换其对应的 PyTorch 原生内核,而无需对模型周边的代码做任何修改。这种设计既保留了主机端(host-side)启动开销的节省优势,又使得在训练与推理之间保持数值一致性变得轻而易举——因为在这两个路径中,模型都是通过同一套调用接口来调用同一个已编译内核的。

细粒度重叠(Fine-Grained Overlapping)。在原有的时空注意(spatial-temporal attention)机制之外引入了一种“视图注意”(view attention),从而使得模型每一层包含两个顺序执行的注意模块。在 Ulysses 序列并行(sequence parallelism)的框架下,每一个注意模块都需要执行一对“全对全”(all-to-all)通信操作,以便在序列维度与注意头(head)维度之间重新分布序列数据。因此,若采用朴素的实现方式,关键路径上每一层将串行执行四次“全对全”通信,从而大幅推高了因引入视图注意而产生的通信开销。为了缓解这一问题,采用了细粒度的调度策略,将紧密相连的通信操作隐藏在注意计算过程之中,从而消除绝大部分新增的通信开销。

多事件序列打包(Multi-Event Sequence Packing)。一种常见的训练范式是:首先以整集为粒度离线编码并缓存视频的潜在表示(latents),随后在优化阶段从这些缓存中进行采样。因此,每当需要构建一个 mini-batch 时,整个流程就必须加载并重新具现化一整集对应的潜在表示(或者在运行时即时重复 VAE 编码过程);由于剧集长度差异巨大,若不进行大幅度的填充或截断,便无法将不同剧集打包成统一规格的张量,这导致在实际操作中,有效的批次大小(effective batch size)往往会大幅缩水。作为替代方案,在数据加载器(dataloader)层面将多个“事件”打包成一个单一的长序列,并对这一打包序列进行并行训练,同时辅以注意掩码(attention mask)来阻断事件之间信息的相互泄露。由于将事件拼接至一个固定的总长度,因此每一个训练步都能始终以预设的完整有效批次大小运行,从而使 GPU 始终保持在接近“计算受限”(compute-bound)的高效工作状态;这样一来,单步训练的计算开销便得以分摊至所有打包的事件之上,而非像传统方式那样针对每一集单独支付一次开销。

2 模型压缩

众所周知,世界模型(World Models)的部署成本极高。其底层的扩散式骨干网络在生成每一帧图像时,都需要执行数十个去噪步骤;而每一个步骤本身又涉及对一个拥有数十亿参数的网络进行完整的正向推理。这使得简单的直接部署方案,在根本上无法满足实时机器人控制任务对低延迟的要求。为了弥合这一鸿沟,沿着两个正交的维度应用两种互补的压缩技术:一是采用知识蒸馏(Distillation)来减少去噪步骤的数量;二是采用 FP8 量化(FP8 Quantization)来降低每个步骤所需的计算资源与内存开销。

知识蒸馏。为了减少去噪步骤,采用了“分布匹配蒸馏”(DMD)技术(84, 85)。该技术通过训练一个仅需少量步骤的“学生”生成器,使其输出分布与多步骤的“教师”模型输出分布相一致,而非简单地逐点拟合教师模型的生成轨迹。具体而言,分布匹配项通过监测两个“得分估计值”之间的差异来指导学生模型的训练:其中一个估计值来自参数固定的教师模型,另一个则来自一个辅助性的“伪得分网络”(该网络在训练过程中实时更新,以追踪学生模型不断演变的分布)。这种机制促使学生模型向那些相对于教师模型而言其自身样本密度偏低的区域靠拢。此外,还采用了一种“联合蒸馏目标函数”:在保留上述分布匹配项的同时,也保留了原始的“动作预测损失函数”。这样一来,这个仅需少量步骤的学生模型既能与教师模型的视频分布保持一致,又能继续锚定于其预训练阶段所依据的动作监督信号——从而有效防止了在去噪轨迹被压缩的过程中,动作预测头(Action Head)发生漂移。消融实验结果显示,若移除后者的动作监督项,模型的动作预测平均绝对误差(MAE)将恶化 53%;这一结果证实了:若仅凭分布监督信号来压缩去噪轨迹,确实会导致动作预测头偏离其预训练阶段所确立的校准状态。在训练过程中,首先利用教师模型的权重来初始化学生模型,随后通过蒸馏将其压缩至仅需极少量的采样步骤即可完成生成任务;而在实际部署时,仅保留经过压缩的学生模型。这一策略使得去噪步骤的数量实现了数量级(一个数量级)的缩减,且在生成质量上仍能保持在可接受的范围内。

FP8 量化。压缩策略的第二个维度旨在降低每个步骤所需的计算资源与内存开销,而非减少步骤总数。为此,对经过蒸馏后的学生模型中那些占据主导地位的矩阵乘法运算,实施了数值量化处理,将其精度降低至 8位浮点数(FP8)级别。 FP8 格式特别适用于此类应用场景——其指数与尾数的分裂设计能够保留那些具有“重尾分布”(heavy-tailed distributions)特征的激活值所需的动态范围;相比之下,像 INT8 这样的整型格式,即使经过精密的校准或异常值处理,通常仍会产生显著的精度损失。现代加速器在硬件层面进一步放大了这一优势:通过在低精度模式下复用同一套 Tensor Core 数据通路,FP8 矩阵乘法在当前一代 GPU 上实现了约两倍于 BF16 的吞吐量;与此同时,它还将权重加载所产生的带宽压力降低了一半——在机器人控制回路中常见的“小批量”(small batch sizes)推理场景下,权重加载成本往往是决定推理延迟的主导因素。具体而言,采用基于 FP8 格式且辅以“逐块缩放”(per-block scaling)策略的训练后量化(PTQ)方案:权重与激活值沿规约维度(reduction dimension)被划分为固定大小的块(blocks),每一块都被赋予一个独立的缩放因子;该因子能够吸收局部数值幅度的波动,同时确保逐张量(per-tensor)元数据的开销保持在可忽略的水平。这种量化粒度在量化保真度与运行时效率之间实现了理想的权衡——若采用粒度更粗的“逐张量缩放”,将无法有效捕捉 Transformer 模型激活值中常见的“逐通道异常值”(channel-wise outliers);而若采用粒度更细的“逐元素缩放”,则会引入额外的反量化开销,从而削弱 FP8 格式本旨在提供的吞吐量优势。

若对逐块 FP8 量化方案采用朴素的实现方式,可能会抵消大部分的吞吐量增益;这是因为,在运行时独立计算逐块缩放因子以及执行张量类型转换所产生的开销,相对于 GEMM(通用矩阵乘法)核心运算本身而言,是相当可观的。因此,从两个维度精心设计并实现了量化算子:首先,权重在离线阶段即被量化并打包为预处理好的 FP8 张量,其缩放因子已内嵌其中,从而确保运行时的数据通路无需承担任何权重侧的量化开销;其次,针对激活值的“即时量化”(on-the-fly quantization)被融合到前序算子的“收尾阶段”(epilogue)中——即在生成激活值的同一个 CUDA 内核(kernel)内部,同步完成逐块缩放因子的计算及向 FP8 格式的类型转换;这一设计避免了对张量进行额外的读/写遍历操作,从而将量化开销降低至占整体 GEMM 运算时间极小的一部分。

结合诸如 CUDA Graph 捕获等通用的部署优化技术(旨在消除每一步运算关键路径中由主机端引发的启动开销),上述一整套优化方案将端到端推理的帧率提升至 10Hz,从而满足了闭环机器人控制系统对推理延迟所设定的严格指标要求。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐