Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
前言
应邀参加『2026.6.16 星海图在北京的具身开发者大会』之前,特解读一下他们发布的新模型G0.5
- 如原论文所说,当前主流的VLA范式,是将一个预训练的VLM与一个单独训练的、基于流匹配(flow-matching)的动作专家进行耦合
这种做法使得 VLM 仅充当上下文编码器,而非真正的决策者 - 相对地,星海图主张应将重心放在 VLM 主干上:构建一个统一模型,用一套权重,在同一个自回归(auto regressive) token 序列中同时生成推理与动作
因此,他们提出 G0.5,这是一种预训练的自回归 VLA,其中单个Transformer 解码器在统一目标下同时输出推理 token 与动作 token
三个组件使得在基础模型规模上实现这一点成为可能:
- 一个可学习的跨载体(cross-embodiment)动作分词器,将异构机器人的动作映射到共享词表
- 一个原生的“思维链”(chain-of-thought)流,将任务分解、目标对象对齐(object grounding)和动作prompt 与动作 token 交错编码
- 一个视觉记忆模块,通过视觉编码器注入数秒级的历史信息
由于推理与动作共享同一套权重,预训练 VLM 的能力得以迁移到物理行为上:模型能够严格遵循指令,且仅通过提示(prompt)即可直接调节动作粒度、任务时域长度,以及对分布外场景的处理,而无需额外训练
总之,作者团队认为
- VLA 模型的未来发展路径,应当是让 VLM 回归其预训练所擅长的本质——一个自回归的推理器,并在此基础上具备行动、记忆以及在上下文中自适应的能力——而不是在一个未被充分利用的骨干网络之上,持续设计愈加复杂的动作专家系统
- G0.5 通过在共享词表上使用单一的交叉熵目标来具体落实这一理念,并由跨具身形态的动作编码器、原生的思维链(chain-of-thought)流,以及一个可维持数秒的视觉记忆模块予以支撑
第一部分
1.1 引言与相关工作
1.1.1 引言
如原论文所说,早期的VLA 系统采用自回归接口,将机器人控制表述为token生成:先将连续动作离散化,加入到语言词表中,然后由 VLM 与文本token一同进行预测 [1- Rt-2,2-Openvla,详见一文通透OpenVLA——在Prismatic VLM(SigLIP、DinoV2、Llama 2)的架构上:基于“下一个token预测技术”预测离散化动作]

这种做法使得 VLM 本身充当执行器,但可扩展性较差。随着控制频率、动作时域长度以及动作维度的增加,每个时间步需要生成的自回归动作token数量会迅速增长,从而导致高频控制既缓慢又昂贵
这个瓶颈推动了该领域向“VLM 作为编码器”(VLM-as-encoder)的架构发展:预训练 VLM 提供隐藏状态或 KV cache,交由单独训练的 flow-matching 或 diffusion 专家来预测连续的动作块 [3-π0,4-π0.5,5-GR00T N1,6-Smolvla]
- 该模式虽然提高了动作生成的效率,但也改变了 VLM 的角色
即在“VLM 作为编码器”的模型中,VLM 不再是动作生成器;它变成了视觉—语言条件编码器,而最终的动作分布则由一个具有独立参数和独立目标函数的专家模块生成 - 因此,VLM 的核心生成能力——包括chain-of-thought 推理、in-context learning,以及基于提示的运动引导——只能在经过压缩的条件瓶颈之后才对行为产生影响,而无法作为动作生成过程的原生组成部分发挥作用[7-Cot-vla,8-Dualcot-vla,9-Halo: A unified vision-language-action model for embodied multimodal chain-of-thought reasoning]
因此,来自星海图的研究者回到自回归建模的形式
- 且去除了其最初低效的根源:过度的动作离散化(tokenization)
基于学习的 VQ tokenizer 将动作片段压缩为紧凑的离散编码
而“主动自由度预测”则避免在不需要运动的机器人关节上浪费 token
这些选择共同显著降低了解码负担,同时保留了视觉语言模型作为生成角色的功能 - 作为预训练主干网络的一部分,作者还保留了一个轻量级的视觉记忆机制,该机制按照最新的记忆增强型 VLA 设计
10-Mem,详见本博客中的解读《MEM——解决VLA长时记忆问题的框架:短时靠高效视频编码抓细节,长线凭文本记忆系统记进度》
通过视觉编码器注入累积的视觉上下文,因为持续的视觉上下文有利于长时程控制和闭环重新规划 - 更重要的是,一旦推理与动作共享同一自回归序列,思维链(chain-of-thought)就可以作为控制的原生组成部分进行训练:模型可以在零样本条件下将一条指令分解为多个子任务,识别与任务相关的物体及其边界框,并将这些中间预测直接输入到后续的动作生成过程中
————
即任务拆解、场景对齐、子目标排序的CoT模板,并训练模型在同一自回归序列中,在动作 token 之前和动作 token 之间生成推理 token与CoT-VLA、DualCoT-VLA以及其他将推理模块附加在“VLM 作为编码器”骨干结构上的方法不同[7,8,9,12-Flowvla: Visual chain of thought-based motion reasoning for vision-language-action models],G0.5的CoT token 与动作 token 共享同一个解码器、上下文和训练目标
因此,推理与动作不再是两个独立阶段,而是同一生成过程中的两个耦合阶段(参见图 1 中交错的 CoT 段与动作段)
比如下图两个子任务:将右臂从桌面移开,并用左手抓住毛巾、将毛巾放到水龙头下的水槽中
G0.5 将具身推理与控制统一为单一的自回归序列,在给定一条高层指令以及在系统提示中指定的目标具身形式后
- 模型首先生成一段原生的“思维链”(chain-of-thought)——以由粗到细的顺序,先产生子任务(“把毛巾放进水槽……”)
- 随后生成边界框——然后在同一条序列流中继续输出动作tokens
动作 tokens 按照“活动的运动部件”( / / )进行组织,且序列长度会随当前活动部件自适应变化,无需填充:在第 01 步中同时控制双臂( + + ),而在第 02 步中,处于空闲状态的右侧控制对应的整组 tokens 则完全从序列中移除(仅保留 + )
相当于直接从流中移除闲置机械臂的token组,而非进行填充
动作以分块形式被输出与执行,并在每次新的观测后以闭环方式重新规划
1.1.2 相关工作
首先,对于VLA 架构:从 VLM-作为编码器 到 VLM-作为执行体
视觉-语言-动作模型在一个架构维度上存在分化:即VLM是直接生成动作,还是仅作为条件输入去驱动一个单独的动作模块
- 主流路线是将一个预训练的 VLM 与一个动作专家模块耦合起来,该专家模块消费 VLM 提取的特征,并通过扩散(diffusion)或流匹配(flow matching)输出连续动作:
π0[3] 引入了一个单独参数化的专家,其采用分块式因果注意力;
π0.5[4]、GR00T-N1/ N1.5 / N1.6 [5] 和 SmolVLA [6] 都遵循这一模板的变体
在本第一条路线中,VLM 是一个条件编码器,其预训练的推理能力仅被间接使用 - 自回归路线(AR),包括 RT-2 [1]、OpenVLA [2] 和 π0-FAST [11],则是将动作离散化,并由 VLM 本身在下一 token 预测范式下直接预测这些动作
在本第二条路线中,它仍然是执行动作的智能体
通常,这两条路线被描述为一种权衡——连续头用于实现平滑的高频控制,而自回归用于推理能力和实现简单性
在“VLM 作为编码器”这一路线中,一个具有启发性的线索是“防遗忘”问题:当动作专家的梯度反向传播到 VLM 时,VLM 预训练得到的感知与语言能力会退化 [17,18]
- 主流的补救措施——知识隔离(Knowledge Insulation)[17]——会阻断这些梯度,并重新引入自回归(AR)动作预测,作为骨干网络的辅助表征学习目标——这在事实上承认:AR 动作监督正是保护 VLM 能力的关键信号
————详见本博客中的解读《π0.5的KI改进版(已部分开源)——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调,而非冻结VLM》

简而言之,即指通过机器人的数据
训练 vlm(基于某个预训练vlm),也训练动作专家(随机初始化),而非冻结vlm 只训练动作专家
如此,两者都训练,vlm预测的离散化动作token 还能继续指导动作专家
但动作专家训练时,其梯度不传vlm,避免污染或降低vlm本身水平 - 最新的研究结果更进一步:VLA-0 [18-Vla-0: Building state-of-the-art vlas with zero modification] 表明,在未作修改的VLM 上,直接以“动作即文本”的方式进行 AR 训练,在没有进行大规模动作预训练的前提下,就能在 LIBERO 上超越 π0.5-KI、OpenVLA-OFT 和 SmolVLA,这为“AR 范式并非性能瓶颈”提供了直接证据
作者团队严肃对待这一信号,并在端到端框架中坚定采用 AR 路线,仅将 flow-matching 头保留为一个可选的推理加速器
而 VLA-0 仍然悬而未决的问题——也是本节其余部分所要梳理的——是:如何将 AR 范式从单一、低频的具身形式和封闭词表任务扩展到更大规模:途径是一个尊重形态结构的 tokenizer(第 2.2 节)以及一种将语言扎根到动作中的推理机制(第 2.3 节)
为方便大家一目了然,我再补充下为何VLA-0能work的几大关键点
为了让你直观、直透本质地理解 VLA-0 为何能 Work,我将这篇论文的核心关键点梳理成下表
VLA-0 核心奏效机制一览表
核心关键点 传统方法痛点 VLA-0 的颠覆做法 直透本质:为何奏效? 1. 零架构修改
(Zero Modification)
修改词表(如 OpenVLA)或强加新动作头(如
)会伤害预训练 VLM,导致语言理解和泛化力退化。
不做任何改动,不加 Token、不改词表、不加网络层,直接利用 VLM 的原生能力
无损继承智能: 完美保留了 VLM 在互联网海量数据中积淀的常识、空间感知与泛化推理能力
2. 动作纯文本化
(Actions as Text)
离散 Token 方案必须把连续动作切成有限的“格子”,高精度就需要成千上万个 Token,导致冲突
将连续动作用数字字符串(如
0-1000的空格分隔数字)直接以原生文本格式输出详见下文第二部分中的1.2.2 示例:针对VLA-0中动作解码的一个完整示例
解锁无限分辨率: 文本串天然没有字数和位数限制,不占词表即可实现极高精度的物理操作
3. 掩码动作增强
(Masked Augmentation)
自回归模型有“无脑续写”天性,输出数字时容易变成只看前一个数字盲目猜下一个数字的“复读机”
在训练时,随机遮蔽(Mask)目标动作字符串中的部分数字字符
逼迫多模态推理: 切断了纯数字的上下文依赖,强迫模型必须死死盯着“画面”和“指令”来解算动作
4. 时序预测集成
(Ensemble Prediction)
VLM 文本输出是离散且有微小随机性的,会导致机械臂出现一抽一抽的“帕金森”式物理抖动
每次不仅预测当下,还一次性预测未来 n 步的动作块,并对多轮预测的重叠部分进行加权平均。
时序消噪与熨平: 用空间/时间上的多维预测冗余,熨平了文本生成的离散抖动,输出极其平滑的物理控制信号
一句话总结其本质: VLA-0 顺应了 VLM 文本生成的“天性”,通过“掩码”逼它看图说话,再用“集成”熨平物理抖动,从而用最简单的配方释放了最完整的原生智能
其次,对于动作Tokenization与跨载体通用性
针对 VLA 的动作tokenization已经历了三代演进
- RT-2 [1] 和 OpenVLA [2] 这类逐维度、逐时间步分桶的方法,在高频率的灵巧操作数据上表现不佳,因为相邻时间步高度相关,而分桶会浪费表示容量 [11-即π0-FAST]
- FAST 和 FAST+ [11] 用 DCT 加字节对编码(byte-pair encoding)替代分桶,将这种相关性视为可压缩信号加以利用,并且在一百万条轨迹上训练得到 FAST+,作为通用的动作分词器
- 神经网络与向量量化变体——VQ-VLA [19]、BEAST [20] 以及更早的 VQ-BeT [21]——在需要联合训练和更复杂流水线的代价下,进一步提升了重建质量
跨形体泛化在很大程度上与这三者都是正交的
- 主流VLA 在动作空间层面而不是在tokenizer 层面处理形态异质性:π0 [3] 将所有机器人填充到一个18 维联合状态,GR00T-N1 [5] 使用按形体划分的MLP 编码器和解码器,而SpatialVLA [22] 通过自适应网格统一动作空间
- 与G0.5工作最接近的是Being-H0.5 [23],它将异构的机器人控制映射到语义对齐的槽位中,甚至将MANO 手部模型折叠进同一方案中;
Green-VLA [24] 通过将对应部位对齐到统一动作空间,在机器人之间进行重定向
以及HEX [25],其与人形体对齐的状态表征在规范化的身体部件抽象上运行
————
这三者都在动作向量层面操作
作者的贡献是在tokenizer 本身中引入相同的结构对齐:一个单一的冻结编解码器接收一个由5 个部分组成的固定维度布局,并输出统一的27 维动作token 序列,因此左右对称性在构造上得以保留,并且添加一个新的形体在tokenizer 或动作头中都不需要新的参数
最后,对于VLA 中的推理与思维链(Chain-of-Thought)
目前在向 VLA 注入推理能力方面已经出现了两大类方法
- Bolt-on CoT 将来自高层 VLM 的自然语言计划或二维路径,路由到一个单独的低层控制器,如 HAMSTER [26] 和 Fast-in-Slow 式的“System-2-feeds-System-1”设计 [5-即GR00T N1];
在这种范式中,推理是模块之间的接口,而不是与动作共同生成的组成部分 - 与此相对,In-stream CoT 则在同一个自回归(AR)序列中、由同一个解码器同时生成推理与动作
ECoT [27] 报告,通过训练 OpenVLA 在执行动作之前预测计划、子任务、运动轨迹、目标框以及末端执行器位置,使其性能获得了 28 个点的绝对提升;
CoT-VLA [7] 用自回归生成的子目标图像替代了文本推理;
Emma-X [28] 预测前瞻性的二维夹爪检查点;
而 π0.5 [4] 则在调用其 flow-matching 专家模型之前,由 VLM 先发出高层子任务文本
在G0.5的设定中,就“推理与动作共享一个 AR 解码器 ”这一点而言,与 ECoT 最为接近,但在两个与作者主张密切相关的维度上有所不同:
- 其一,作者在一个共享的 token 词表中结合了三种推理原语——物体目标框、原子子任务文本以及二维末端执行器轨迹,其中最后一种受到 TraceVLA [29] 的启发
- 其二,作者将这些原语暴露为“与prompt 条件相关的模板(prompt-conditional templates)”,从而可以在推理时无需重新训练就切换不同的 CoT 模式
1.2 G0.5 模型设计
总之,作者围绕此关键来设计模型:感知、推理和行动应当在一个共享词元词表上的单一自回归过程中得到统一。这个承诺塑造了下面的每一个组件——动作表示、推理脚手架、视觉条件化以及训练目标,此,也将作者的设计(VLM 作为执行体)与“将 VLM 作为编码器”的架构区分开来,在后者中,动作的生成位于一个具有独立目标函数的单独模块中
G0.5模型从Qwen3.5 2B [30-Qwen3. 5: Towards native multimodal agents] 初始化,这是一个预训练的视觉-语言模型,提供了强大的视觉编码器、共享的多模态token 词表以及自回归解码器
在推理时,给定
- 来自K 个相机的一个短时间窗多视角RGB 观测
- 一个具身标识符
(例如,R1-Pro)
- 一个自然语言任务指令
- 一个本体感受状态
模型自回归地生成一个结构化输出,最终形成一个离散动作码序列
- 根据提示模板的不同,生成过程可以选择性地以前链式思维(CoT)片段为前缀,以用于锚定物体、分解子任务或勾画夹爪轨迹。这些动作码由作者的跨具身ActionCodec 解码为统一动作空间中的连续控制指令,该动作空间在不同具身之间共享
- 这个自回归VLM 是自包含的,并在所有主要实验中作为默认策略;
不过,注意了,作者特意做了一个设计,即在需要严格时延或连续噪声探索的部署场景中,可选地使用一个在自回归主干上条件化的flow-matching 头进一步优化动作输出
所有输入和输出都会根据图 2 所示的模板序列化为单一的 token 序列。该序列被划分为两个部分:

- 一个是“条件段”(aconditioning segment)——将图像、具身信息、任务和状态封装在用户端聊天 token 中,并以<EOC>标识作为结束
多视角 RGB、embodiment id、任务指令、本体感觉状态——以用户侧对话 token 形式表示 - 另一个是“生成段”(agenerative segment)——将 CoT 轨迹和动作代码封装在助手端聊天 token 中,其中标记了推理与动作输出之间的边界
生成段由一个可选的思维链(chain-of-thought)片段组成该片段可以是四类自描述推理目标(Subtask:、BBox:、Trace:、ActionHint:)中任意子集
随后接动作编码本身
动作编码进一步展开为R 轮残差(residual)DoF 组标记,每个标记之后跟随 8 个动作编码(见第 3.1 节)
此外,训练时采用标准的下一 token 交叉熵损失函数,并且只在生成段上计算损失
其中G 索引生成-片段token。关键在于,这个单一的损失同时监督CoT 生成和动作生成:在预训练中没有辅助回归目标或专家蒸馏
对解码器而言,CoT 轨迹和动作都” 只是token”,它们来自同一个词表,并由同一次前向传播生成
1.2.1 异构动作数据的结构化分词(Tokenization)
如原论文所说,目前的一个关键挑战在于:如何在一个结构化的 token 空间中表示来自多种具身形式的异质动作,使得 VLM能够高效建模
而现有方法存在两个主要局限:
- 缺乏结构化分解
大多数方法在离散化之前,将整个动作空间压平成单一向量进行处理[31,32,33,34],而不考虑具身拓扑结构或可控自由度(DoFs)这会产生语义纠缠的动作 token,在不同具身之间的迁移能力较差
此外,token 数量会随着可控 DoFs 总数线性增长,尽管在每一个时间步中,通常只有一个很小的关节子集处于激活状态
- token 一致性较差
离散动作空间通常在缺乏显式结构约束的情况下学习,导致语义上相似的动作被映射到汉明距离(Hamming distances)较大的 token 序列上[34]
作为 VLM 训练的监督信号,这种不一致性会引入大量优化噪声并降低训练效率
为了解决这些问题,作者采用 FASTer [35] 的动作分组策略,并结合 ActionCodec [34]的训练方案
- 具体而言,作者将每个机器人分解为相互独立的运动部件(例如,左侧控制、右侧控制、下半身),并在训练分组动作上的残差向量量化(RVQ)模型之前,将每个部件填充到一个共享的最大维度
- 且进一步引入时间对比目标,以提升在时间上相邻运动之间的 token 一致性。在分词过程中,将结构性特殊 token 显式注入到序列中
更具体地说,图 2 生成段中所示的动作区间被展开为 R 轮残差轮次,每一轮都包含当前激活的自由度分组标记(<left_control_r>,<right_control_r>),以及可选的(对于具有下半身的实施例),后接它们各自的 8 个动作编码
这样的表述方式使得模型只需预测在当前行为中实际参与运动的部位
在实践中,所提出的结构化分词方式显著提升了训练效率,使得异构实施体能够共享统一的动作配置,并且在推理阶段自然而然地支持稀疏动作预测:不活跃的部位在无需额外生成 token 的情况下保持静止。作者在图 3 中展示了具体细节
如下图图3 所示,异构机器人动作被分解为语义对齐的运动部件,通过残差向量量化器进行编码,并序列化为针对各个部件的专用动作token。该表示在不同具身形式之间共享同一套动作词表,同时仅对被激活的部件进行稀疏预测
1.2.2 原生思维链(Chain-of-Thought)
为了保留或进一步增强多模态大模型(VLM)的物理智能
- 以往方法通常会联合训练辅助的 VQA 任务,例如子任务预测或目标框(bounding box)预测
然而,这些目标仅在训练阶段作为监督信号使用,从未显式参与动作生成过程本身,因此难以直接评估这类中间推理信号是否真正有利于下游的动作预测 - 相比之下,作者利用模型统一的自回归建模形式,将这些辅助任务自然地融入动作生成流程之中,作为原生的思维链(CoT)推理
与其将与推理相关的标注视为彼此孤立的监督目标,作者让模型在动作预测之前,可以选择性地进行中间推理,形式覆盖四类具有自描述性的目标
i) 任务分解(Subtask:)
ii) 关键目标定位(BBox:)
iii) 运动规划(Trace:)
iv) 动作提示(ActionHint:)
它们共同构成了图 2 生成段中所示的 CoT 片段
在每一步中,这些目标的任意子集都可以被生成;在训练时作者从 8 种精心设计的组合中抽样(包括无 CoT 的基线设置),并统一在相同的下一个 token 预测目标下进行监督
作者宣称,所得的 CoT 能力展现出了很强的零样本泛化能力。在未见过的场景和任务上,该模型能够生成准确的子任务,主动识别与任务相关的物体及其边界框,并预测额外的推理轨迹,例如二维运动轨迹和动作提示
更为重要的是,引入 CoT 推理能够在复杂操作任务中持续提升指令遵循行为和动作准确率。这些结果表明,中间推理不仅仅是一个辅助监督信号,还可以在(推理)测试阶段作为一种有效的引导,用于生成具身动作——VLA的优势就在于可以边干边推想嘛,不奇怪
1.2.3 视觉记忆
复杂的移动操作任务本质上是非马尔可夫的。仅依赖单帧观测在机器人手臂或环境杂物造成的临时遮挡时往往会失效,并且缺乏识别失败与制定替代重试策略所需的时间上下文
- 然而,简单地通过堆叠历史视觉 token 来解决部分可观测性会带来严重限制:其计算成本随历史长度呈二次方增长,导致在需要高频控制时出现不可接受的延迟;
- 同时,当遇到从未见过的时间轨迹时,这种方式会使模型高度易受误差累积和状态漂移的影响
为了解决这些挑战,作者遵循π0.7 [36] 和MEM[10] 的做法
- 在视觉Transformer 中每四层插入一次分解的空间和时间注意力模块。该可分离机制通过在时间步和空间块之间依次混合信息,高效地融合了历史上下文
- 且为了严格限制计算延迟,作者在最终层丢弃所有历史token,并在训练过程中以随机方式丢弃所有历史帧以防止过拟合
- 最后,用连续状态嵌入替代离散文本分词器,从而使本体感受输入与对应的视觉帧实现精确同步
1.3 G0.5 预训练
作者在一个阶段内对 G0.5 进行预训练,所用数据是由机器人示范数据与网络规模的视觉–语言数据组成的异构混合数据集
至于模型、本体的分词方式、思维链(CoT)流以及视觉记忆模块在第 3 节中进行了介绍;本节仅给出数据构成、采样与监督策略,以及优化设置
1.3.1 机器人数据混合
预训练数据混合中的机器人部分涵盖了 14 种具身形态,横跨多样的真实世界与仿真机器人本体。图 4 从具身级别对这一数据混合进行了概览,展示了每种本体在数据中的相对贡献,以及对应机器人平台的典型视觉示例

所有数据源都被映射到一个 27 维的统一动作空间中,并按如下方式划分:
<left_control>(9) | <left_gripper>(1) | <right_control>(9) | <right_gripper>(1) | <lower_body>(7)
- 对于某一具体机体实现不执行(不驱动)的槽位,在合并阶段会用 noop tokens 填充,因此即便不同形态结构的机体实现存在差异,它们也可以共享同一个输出头,而无需为每个机器人单独配适配器
- 作者在预处理阶段逐个机体实现进行处理:动作归一化模式(采用带尾部截断的 z-score,或采用q01/q99 分位数缩放)以及逐通道的动作滤波器,都是以数据来源为单位单独设置,而不是在整个混合数据上统一设置
为了刻画预训练语料在语义层面的覆盖范围,作者进一步分析了动作概念和物体概念的频率分布。如图 5 所示,动作动词和物体名词都呈现出明显的长尾分布『预训练语料中的动作与物体概念分布。作者展示了从预训练数据中提取的前 50 个动作动词和物体名词,并在对数坐标系上绘制其出现频率』

- 高频动作主要由一些通用的操作基本单元主导,例如拾取、放置、移动和摆放;
- 而物体词汇则集中在常见的家庭及桌面实体上
这样的分布表明,该语料库在覆盖日常机器人操作场景方面具有广泛的语义覆盖,同时在长尾部分仍保留了多样化的低频技能和物体
1.3.2 自动标注流水线
为了丰富大型机器人操作语料库中的标注信号,作者构建了一条自动化的多模态标注流水线,将原始的操作片段转换为多粒度语义标注、视觉指称(视觉对齐)标注以及动作轨迹标注
- 在语言标注方面,作者首先采用基于规则的时间分段方法来识别候选动作片段和关键帧,然后调用 Gemini 3 [37] 和 豆包 Seed 2.0 Pro [38] 等多模态模型 API,生成动作提示、原子级任务描述以及剧集级指令
这些多粒度的语言标注使得能够在不同指令粒度下训练和查询策略,并构造 CoT(Chain-of-Thought)样本对,用于训练中间推理能力 - 在视觉定位方面,作者将多模态基础模型与后续的 SAM3 跟踪器 [39] 结合,以生成与任务相关物体的逐帧边界框和分割掩码
- 最后,对于二维末端执行器轨迹,作者利用前向运动学从机器人关节姿态计算双臂末端执行器位置,并将所得三维轨迹投影到头部摄像机的图像平面上
1.3.3 Web 与 VQA 的联合训练
为了在增强空间感知能力的同时保持 VLM 的通用语言能力和广泛的泛化能力,作者采用大规模视觉–语言混合数据(约 1 亿条样本)进行联合训练
- 该混合数据包含大约 5000 万条通用的 Web VQA 样本 [40,41]、5000 万条 embodiedVQA(具身 VQA)样本 [42,43,44],以及 500 万条由上述自动标注流程(auto labeling pipeline)生成的内部 VQA 标注,覆盖子任务分解、目标边界框以及围绕我们机器人场景的一般常识性 VQA
- 在预训练过程中,VQA 样本与动作样本按 1:4 的 VQA:action 比例混合
两种样本类型都使用针对其目标 token 的下一 token 交叉熵损失进行优化,因此语言回答、CoT 推理轨迹以及动作代码都在统一的自回归解码器中得到监督
1.3.4 思维链(Chain-of-thought)监督
对每个机器人样本,只分配一种且仅一种 CoT 格式,该格式通过带权随机采样从八种候选格式中选出:无 CoT 的基线格式、原子任务、高层任务文本、子任务文本、带动作提示的子任务文本、二维轨迹轨迹(2D trajectory traces),以及边界框(目标定位)变体
对子任务文本格式给予更高的采样权重,而其余格式使用默认权重
这样的设计对应了在 VLM 端对域内子任务预测划分所施加的更高权重,体现了在两种模态中都持续聚焦于子任务落地(subtask grounding)
评估阶段则统一采用固定的无 CoT 格式
1.3.5 实现细节
作者在共享词表上使用AdamW 优化单一的交叉熵目标(β = (0.9, 0.95),权重衰减10−2),基础最大学习率为1 × 10−5
- 学习率计划为:先进行 4,000 个线性预热步骤,然后保持恒定阶段直到训练进度的92%,最后进行余弦衰减至峰值学习率的 30%(我们将其衰减到一个下限而不是 0,并且在整个训练过程中始终保持视觉塔不冻结)
- 观测输入由 6 帧图像组成,以 1 秒的间隔采样,覆盖包括当前帧在内、总长为 5 秒的时间窗口;
- 在训练期间,会随机丢弃 30%的历史帧,作为对视觉记忆模块的正则化
至于训练总共运行约 120K 步
// 待更
第二部分(选读) VLA-0: Building State-of-the-Art VLAs with Zero Modification
1.1 引言与相关工作
1.1.1 引言:VLM预测的文本即动作,不改VLM本身结构
如原论文所说,VLAs 通常是在基础 VLM 的基础上进行改造,使其具备动作预测能力。然而,目前尚不清楚是否存在一种“正确”的构建方式,即便存在也尚未达成共识
近期研究采用了多种不同路径,作者将其大体归纳为三大类,并在图 2 中进行了展示:
- 离散token VLA
这是由 RT-2 [24] 和 OpenVLA [11]等模型所推广的最早一批策略之一
原本连续的机器人动作被离散化为若干区间(bins);
然后为每个区间分配来自 VLM 词表中的一个符号,可以使用新的词元或低频词元
随后,使用与训练基础 VLM 相同的交叉熵损失函数来训练模型,以预测这些动作符号
尽管这种方法实现简单,但存在两个主要局限:
i)它限制了动作空间的分辨率,因为精细控制可能需要成千上万个区间,这与文本词表共享产生冲突
ii)通过将词表重新用于动作,它削弱了VLM 预训练所得的语言理解能力 - 生成式动作头 VLA
另一种常见策略是在 VLM 之上附加一个动作生成头,如 π0 [2] 或 SmolVLA[19] 等方法所采用的做法。将 VLM 进行微调,使其预测一个潜在向量,然后使用诸如扩散过程或flow matching 等生成模型将该向量解码为动作
虽然这种方法提升了动作保真度,但也引入了一个需要微调的新神经网络。这通常会导致底层 VLM 的语言理解和语义落地能力下降 [9],并且引入一个未经预训练的动作头可能会削弱整个系统的泛化能力
当然了,这就有《π0.5的KI改进版(已部分开源)——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调,而非冻结VLM》 - 自定义架构 VLA
例如OpenVLA-OFT [10] 引入了一个专门的 ACT头
另一个例子是 π-FAST [16],它利用离散余弦变换(DCT)为动作构建了一种特殊的分词方案。π-FAST 也可以被视为一种离散 token 的 VLA,但在本工作的分类体系中,作者将其归类为自定义VLA,因为它涉及自定义分词方案
尽管这些自定义方法效果显著,但它们通常需要较大的架构改动、额外的参数——自定义训练流水线
尽管这些方法已经取得了成功,作者在论文中指出:是否存在一种更简单的替代方案?一种不需要更改VLM 词表或引入任何新的架构组件的方案
- 比如为什么不把动作(例如坐标、关节角度)表示为数字字符串,并利用 VLM 原生的文本生成能力来生成它们?
- 这种方法不需要新的 token,不需要修改词表,也不需要进行架构上的变更。它在保持 VLM 结构完整性的同时,还在动作空间中提供了任意精度
对此,来自NVIDIA的研究者(Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos)对这样一种设计进行了评估,并将其称为VLA-0。与以往文献中的预期相反,作者发现这种简单的形式在性能上极具竞争力——在无需对底层VLM 架构做任何修改的前提下,就能取得与其他替代方法相当的表现

1.1.2 相关工作
首先,对于VLA

- 如原论文所说,近年来,将预训练的VLM适配到机器人控制这一范式受到广泛关注。一种占主导地位的方法是将连续动作表示为离散的 token
该策略被 RT-2 [24] 和 OpenVLA [11] 等具有影响力的模型所采用:它将动作空间离散化为有限数量的区间(bins),并将每个区间映射到 VLM 词表中的一个token
虽然这种做法便于将动作生成直接融入语言建模目标之中,但也引入了动作分辨率与词表规模之间的权衡,并且可能破坏被重新利用 token 的语义含义 - 另一大类突出的方法通过引入辅助动作头来避免修改 VLM 的词表。诸如 π0 [2] 和 SmolVLA [19]之类的模型,会对 VLM 进行微调,使其输出潜在嵌入,然后由一个单独的生成模型(例如扩散策略或流匹配网络)将该嵌入解码为连续动作
虽然这种方式保留了 VLM 的原始词表,并且能够产生高保真动作,但它增加了模型的复杂度,而且有时还会导致 VLM 语言落地能力的退化 [9] - 第三类方法涉及更为重大的架构改动 [[10], [16],[20]],例如 OpenVLA-OFT [10] 中的专用动作 head,或 π-FAST [16] 中通过离散余弦变换进行的自定义动作tokenization
这类方法往往需要复杂精细的训练流水线
VLA-0 探索了一种在概念上更为简单的替代方案:直接将动作表示为文本
- 通过将数值动作(例如,末端执行器坐标)表示为字符串,无需对架构进行任何修改,即可利用 VLM 原生的文本生成能力
- 与VLA-0方法最接近的是 LLARVA[15],它学习将动作预测为文本
然而,LLARVA采用了一个两阶段流程,先生成二维轨迹规划,再预测最终动作
相比之下,VLA-0的工作表明,直接进行端到端的动作字符串生成即可达到当前最先进的性能。作者宣称,他们成功的关键在于精心设计的训练与推理方案,以及动作 token 掩码和预测集成,这是 LLARVA 中尚未探索的关键组件 - 另一项与VLA-0工作非常接近的研究是 HAMSTER [13],其提出了一种分层的视觉-语言-动作模型
HAMSTER 的第一阶段使用 VLM 以文本形式预测二维动作轨迹
VLA-0的设计与之相似,但VLA-0是以文本形式预测完整的机器人动作(例如关节姿态或末端执行器位姿增量)
其次,机器人策略学习
从示范中学习机器人策略是一个早已建立的研究领域,早于近年来 VLA 的兴起
- 与 VLA 不同,这类方法通常在域内数据上从零开始训练策略,而不利用大规模预训练的视觉和语言模型
一个具有代表性的工作是 Diffusion Policy[4],它使用条件扩散过程对动作空间进行建模,并在各类操作任务上展现出强劲的性能 - 另一条研究路线则聚焦于通过在策略架构中显式引入三维表示来提升样本效率和空间推理能力[[8], [7], [17], [6]]
诸如 RVT [8]、RVT-2[7]、ManiFlow [22] 和 Act3D [6] 等模型利用 3D场景信息来学习更稳健且更具泛化能力的策略
与这些方法形成对比的是,VLA-0 通过直接构建在强大的、预训练的 VLM 表征之上,与 VLA 范式保持一致。作者的研究结果表明,只要正确利用 VLM,简单的方法在仅使用域内动作数据的基准任务上,就能优于像 Diffusion Policy 这样的专门方法
1.2 VLA-0的完整方法论
众所周知
- VLMs是一类神经网络,用于处理并推理来自视觉和文本两种模态的信息。通常,它们由一个预训练的视觉编码器(例如ViT,负责从图像中提取视觉特征),和一个用于处理文本信息的大型语言模型(LLM)组成
- 视觉特征被投射到大语言模型(LLM)的嵌入空间中,从而使模型能够同时以图像和文本提示为条件,生成连贯的文本输出
在本研究中,作者基于一个公开可用的、最新的视觉语言模型(VLM)构建他们的系统。具体而言,作者我们采用参数规模为 30 亿的 Qwen-VL-2.5 [18] 模型——当然也适用于其他任何 VLM
1.2.1 方法:VLA-0
VLA-0 保持了底层 VLM 的完整性:它不会引入新的 token,不会更改现有词表,也不会添加任何新的神经网络层。尽管设计简单,并且与以往文献中的预期相反,VLA-0 的性能可以媲美更复杂的替代方案
然而,要实现这一性能,需要遵循一套精心设计的配方。其中三个关键组成部分是:
- 动作解码
- 集成预测
- 掩码动作增强
首先,对于输入
VLA-0 继承了其底层 VLM 的输入结构,该结构由System Prompt(系统提示)、Images(图像)和 Task Instruction(任务指令)组成
System Prompt 用于指定VLM 的高层目标。在微调过程中,作者使用如下提示,其中 H、D 和 B 根据数据进行选择
- System Prompt. Analyze the input image and predictrobot actions for the next H timesteps. Each action has Ddimensions.
Output a single sequence of H ×D integers (0 -B each), representing the H timesteps sequentially.
Provideonly space-separated numbers. Nothing else - System Prompt. 分析输入图像并预测机器人在接下来 H 个时间步的动作。每个动作是 D 维的
输出一个长度为 H×D 的整数序列(0 - B 的每个整数),按时间顺序表示这 H 个时间步
仅输出以空格分隔的数字,不要输出任何其他内容
与底层 VLM 类似,VLA-0 可以根据具体设置接收一张或多张图像作为输入。在作者的仿真实验中,作者像各个基线方法一样,使用第三人称视角图像和手腕相机图像作为输入。在真实机器人实验中,作者使用图 3 所示的左、右相机图像

且还尝试了一种替代的图像输入设计:不再将多张图像作为独立输入,而是将它们拼接成一张复合图像。在作者的实验中,作者发现这两种设计的性能相近(见表 II)

最后,输入中还包括任务指令,例如:“put the banana on the plate.”
- 动作解码
VLA-0 以文本形式输出动作
为简化该任务,作者让 VLM 将动作输出为整数,具体而言先将原始的连续动作值归一化到一个固定的整数范围(例如[0,1000])
然后让 VLM 为每一个动作维度生成一个整数。该范围的最大值可以根据数据集和期望的动作分辨率进行调节
值得注意的是,与基于离散 token 的 VLA 不同,这种方法在无需修改模型词表的前提下,就可以灵活提高或调整动作分辨率 - 集成预测
VLA-0 采用了由 Action-ChunkingTransformer(ACT)[23] 提出的预测集成(prediction ensembling)技术,该技术也被其他最新的 VLA(如OpenVLA-OFT [10])所采用
在每一个推理步骤中,VLM 会预测一个由未来 n 个动作组成的序列。因此,对于当前时间步 t,关于当前动作会存在 n 个可用的预测:
一个是在当前时间步 t 做出的预测
另一个是在时间步t−1 时作为其预测序列中第二个动作给出的预测
以此类推,一直回溯到在时间步时给出的预测
在作者的设计中,作者对这 n 个预测取平均,以在时间步生成最终的、更稳定的动作
- 掩码动作增强
方法的另一个组成部分是一种作者提出的训练增强手段,作者称之为“掩码动作增强(Masked Action Augmentation)”
VLM 以自回归方式生成文本,也就是说,每个生成的 token 都依赖于先前已经生成的 token
在训练过程中,作者会随机屏蔽目标动作字符串中的字符。这个过程迫使 VLM 必须基于视觉观测和指令来推理动作,而不是仅仅依赖于对其已经开始生成的数值序列进行自动补全
至于在训练细节上,作者通过对基础 VLM 进行完整微调来训练 VLA-0。模型被训练为生成目标动作字符串,并在词表上使用标准的交叉熵损失进行优化。在优化方面,使用 Adam 优化器,对模型训练 64个 epoch,batch size 为 192,学习率为 5e-6。且在8 张 A100 GPU 上训练大约需要 32 小时
1.2.2 示例:针对VLA-0中动作解码的一个完整示例
为了让你完全看懂这个机制,我们用一个真实的机器人抓取场景来拆解
假设现在机器人要执行指令:“把纸杯蛋糕放进碗里”。它的机械臂有 7 个控制维度『,包含空间 XYZ 移动、手腕旋转的 3 个角度、以及夹爪的开合程度』
我们来看看这个“连续动作”是如何被 VLA-0 变成“纯文本数字串”并在模型内部流转的:
第一步:物理世界中的“连续动作”(原始数据)
在时间步 ,机器人的控制算法计算出当前机械臂最理想的物理移动指令(连续浮点数):
- X 轴位移:+0.05 米 (假设物理安全范围是 -0.5 到 +0.5)
- Y 轴位移:-0.12 米 (假设物理安全范围是 -0.5 到 +0.5)
- Z 轴位移:+0.00 米 (假设物理安全范围是 -0.5 到 +0.5)
- 旋转角 1:+0.10 弧度
- 旋转角 2:-0.40 弧度
- 旋转角 3:+0.00 弧度
- 夹爪状态:0.5 (完全闭合是 0.0,完全张开是 1.0)
第二步:映射到 [0, 1000] 的整数区间(归一化)
系统在训练前,会通过简单的数学公式,把上述物理世界的浮点数等比例缩放到 [0, 1000] 的整数范围内:
- X 轴 +0.05 米
对应区间中间偏右
变成整数 550
- Y 轴 -0.12 米
对应区间偏左
变成整数 380
- Z 轴 +0.00 米
正好在中心
变成整数 500
...依此类推,夹爪 0.5 变成整数 500
此时,当前这1个时间步的动作就变成了一串纯数字:550 380 500 516 436 500 500
第三步:多时序拼接(Action Chunking)
因为 VLA-0 采用“时序集成预测”,它每次不只预测当前这一步,而是预测未来 步(假设论文中
,即一次预测 2 步)
- 第 1 步的数字串:550 380 500 516 436 500 500
- 第 2 步的数字串(假设手在继续往下走,夹爪开始张开):560 370 490 516 430 500 1000
第四步:大模型(VLA-0)的输入与输出表现
在实际运行中,你作为人类给大模型输入了:系统提示词、摄像头拍到的画面、以及指令“把纸杯蛋糕放进碗里”
底座大模型(如 Qwen-VL-2.5)就像平时写故事、回答问题一样,像蹦字一样直接吐出一段纯文本字符串:
550 380 500 516 436 500 500 560 370 490 516 430 500 1000
(注:这就是论文图 1 和图 3 中展示的类似于 4 12 98 3 0 0 ... 的纯空格分隔数字文本)
第五步:机器人接收并执行
机器人的底层控制器(Python/C++ 代码)拿到大模型吐出来的这串文本字符串后,执行以下操作:
- 用 .split(' ') 把字符串切开,变成普通的数字列表。
- 通过反向数学公式,把 550 变回 +0.05 米,把 1000 变回夹爪完全张开。
- 把这些物理数值发给机械臂的关节电机,机械臂动了一下
在整个过程中:
- 大模型不知道什么是厘米,什么是弧度
- 大模型也不需要像传统方法那样去理解一个特制的机器人 Token(比如把 [ACT_01] 强行定义为向左移)
- 它只是做了一件它最擅长的事:看图说话。它发现只要看到这个画面并听到这个指令,它的标准文本输出就应该是 "550 380 ..."
这就是 VLA-0 的精妙所在——把高深的机器人控制,直接降维成了大模型的数字填空题
// 待更
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)