GR00T 1.5前戏：FLARE: Robot Learning with Implicit World Modeling

路人甲326

65人浏览 · 2026-04-03 18:06:06

路人甲326 · 2026-04-03 18:06:06 发布

写在前面：

1. 双引号括起来的来自与原文或者原文的中文翻译。

2. 实验部分因为数据冗杂我会用AI解读，有AI解读的部分会用类似本导言一样包括起来。

3. 有任何建议欢迎在评论区指出。

FLARE: Robot Learning with Implicit World Modeling

GR00T 1.5相较于1.0改进的核心的点。都是nvidia的工作。

本质上通过流匹配扩散模型生成预测的动作，然后通过可学习的未来标记与来自VL embedding生成的未来标记嵌入进行对齐（Alignment）。相当于用未来标记来当作桥梁（因为有些方法是通过生成未来的图片和真实未来图片进行对齐，计算量特别大，该方法明显降低了计算量）

接着这里可以注意的一点是，本文没有直接用到VLM，是直接用视觉backbone和语言backbone的直接针对图像和语言进行编码，之后用到第4页提到来自ICML2023的Q-former进行压缩视觉和语言信息，就有点像pi最近推出来的RLT工作，也都是通过任务逼着往提前预设的信息空间（Vision Language Embedding Tokens）里塞信息。

Q-former的详细解读：

第一步：先把图像和文本融合

图像 observation 先过视觉编码器，文本 instruction 过文本编码器，然后做跨模态融合。

这时得到的还是一串比较长的 token sequence。
如果有多张相机图像，这串 token 会更长。

第二步：用 Q-former 把长序列压成 32 个 query token

这里的 Q-former 本质上是在做：

准备一组固定数量的可学习 query，论文里是 M = 32

让这 32 个 query 去“从长序列里取信息”

最终输出固定长度的 32 个 latent tokens

所以它不是随便平均池化，也不是截断，而是：

用 32 个“可学习的信息槽位”去主动摘要原始多模态序列。

这就是为什么作者说它得到的是 compact, fixed-size representation。
不管原始输入 token 有多少，最后都被压成 固定的 32 个 token。

第三步：再用动作预测任务逼这 32 个 token 学“对动作有用”的信息

如果只是压缩，压出来的 token 未必适合控制。
所以他们在这组 latent token 后面再接 8 个 DiT blocks，用正常的 action flow-matching objective 去预测机器人动作。

这样一来，这 32 个 token 就不能只保留“看起来像视觉摘要”的信息，而必须保留：

物体在哪里

手和物体的相对位置

哪些部分和动作决策有关

指令要求当前该做什么

否则后面的 DiT 就预测不好动作。

然后接着就用这个预设的信息空间来DiT去噪生成动作。

输入为三个组件：（1）通过状态编码器编码的当前本体感受状态，（2）由动作编码器编码的噪声动作块，以及（3）一组 M 个可学习的未来标记。

针对N层均进行下述算法（算法中没直接标注Q-former，推测因为是别人的工作，应该是囊括在vl_embedding或者dit中）操作：

实验方面：

除了常规的消融实验来验证未来标记嵌入进行对齐（Alignment）的有效性以外。有个最巧妙的实验点，也是作者想借该技术进行少样本训练的目的，见如下。

4.3 用人类第一视角视频

这一节是最能体现 FLARE 思想的一节，因为它把 future latent alignment 从有动作标签的机器人数据扩展到了没有动作标签的人类视频。作者的设置是：

选 5 个训练集中没有出现过、几何形状很特别的新物体；

每个物体采集 150 条人类第一视角演示，通过 GoPro 头戴拍摄；

机器人侧只采集 10 条 teleop demo/物体；

训练时混合：少量机器人 demo + GR-1 pretraining data + 人类 ego videos。

最关键的机制是：
对于机器人 demo，因为有动作标签，所以同时用 action flow-matching loss + future alignment loss；
对于人类视频，因为没有动作标签，所以只能用 future alignment loss。

这正好验证了 FLARE 的一个很强的性质：
它新增的 supervision 并不要求动作标签，它只要求有未来观测。因此只要有视频序列，就能给 policy 的 future token 提供学习信号。

结果也很漂亮：

每个物体只有 1 条机器人轨迹时，FLARE 已能达到 最高 60% 成功率；

每个物体 10 条机器人轨迹，再联合人类视频训练后，成功率提升到 80%，大约是只用 action-labeled 数据 baseline 的两倍。

这节实验要你记住的不是具体数字，而是这个结论：

FLARE 把世界模型式监督变成了一种可以从纯视频里吸收的训练信号。

这比单纯提升 benchmark 分数更重要，因为它回答了一个很现实的问题：机器人动作标注贵，但人类演示视频便宜。FLARE 让这两类数据第一次可以在一个统一框架里共同训练 policy。