RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

1.创新

在这篇论文之前,机器人控制领域确实存在一道“语义”和“物理”之间的鸿沟,而 RT-2 成功地填平了它。我们可以从以下几个方面来对比以前的做法和 RT-2 的创新:

1. 以前的做法:“大模型当军师,传统控制器当步兵”

在 RT-2 之前,虽然也有研究将视觉-语言模型(VLMs)引入机器人,但这些模型通常只负责高层规划(High-level planning)

  • 流程:模型看到视觉输入后,输出一个宏观的文本指令,比如“拿起杯子”。
  • 局限:这个宏观指令会被丢给另一个独立的、传统的底层控制系统去执行。问题在于,这个底层控制系统在训练时并没有接触过互联网上海量的语义知识,它只是机械地执行设定的动作。

2. RT-2 的做法:“大模型直接长出了手”

RT-2 最大的创新在于,它取消了中间那个负责“翻译”的传统控制器,直接让庞大的视觉-语言模型输出底层的机械臂动作细节

为了实现这一点,论文做了一次极其巧妙的动作拆解与转化

  • 动作拆解到微操:RT-2 并没有输出“拿起杯子”这种模糊的话,而是将机器人的动作拆解为 8 个极度细节的维度:包含 6 个自由度的空间位置和旋转角度(机械臂的三维坐标和姿态)、1 个夹爪的开合程度,以及 1 个终止任务的命令。
  • 把物理动作变成“单词”:这是最绝妙的一步。连续的物理坐标对语言模型来说很难理解,于是研究人员将这些物理维度切割成了 256 个离散的区间(Bins)。这样一来,一个具体的机器人动作就被转换成了由 8 个整数组成的字符串(比如:1 128 91 241 5 101 127)。
  • 联合训练(Co-Fine-Tuning):系统把这些数字直接当成 文本标记(Text Tokens) 喂给模型。大模型就像学习一门名为“机器人动作”的外语一样,将互联网上的看图说话数据(比如“图片里是一只灰驴”)和机器人的低级动作数据(比如“看到杯子,输出机械臂坐标:1 128…”)混合在一起进行联合训练。

总结

RT-2 把动作极其细化了。它让每一次末端执行器的移动、每一次夹爪的收缩,都直接受到拥有数百亿参数的互联网常识模型的控制。这就解释了为什么 RT-2 能展现出惊人的泛化能力——因为它不是在机械地记忆动作,而是在用“大脑的常识”直接指挥“手指的微操”。

核心内容与创新点详细介绍如下:

  • 提出视觉-语言-动作(VLA)模型:研究团队提出了一种简单而通用的方法,将自然语言响应和机器人动作统一为相同的格式。具体来说,他们将机器人动作转化为文本标记(text tokens),并像处理自然语言标记一样将其直接整合到模型的训练集中。这种新架构被称为视觉-语言-动作(VLA)模型,而 RT-2 便是此类模型的一个成功实例。
  • 动作编码与协同微调:RT-2 将机器人的物理动作(如末端执行器的位置、旋转、夹爪伸展等)离散化,并表示为用空格分隔的数字字符串(例如:“terminate Apos Apos Apos Arotx Aroty Δ rotz\Delta~rot_{z}Δ rotz gripper_extension”)。研究人员使用了最先进的视觉-语言模型(PaLI-X 和 PaLM-E)作为基础架构。模型在互联网规模的视觉-语言任务(如视觉问答)和机器人实际轨迹数据上进行了协同微调(co-fine-tuning)。
  • 突破性的泛化能力:研究团队进行了大约 6000 次机器人评估试验。结果表明,RT-2 能够生成高性能的机器人控制策略,并且在面对未见过的物体、未见过的背景和未见过的环境时,其泛化能力相比之前的基线模型(如 RT-1)有了显著提升。
  • 涌现的语义理解与推理能力:得益于互联网海量数据的预训练,RT-2 展现出了在机器人训练数据中从未见过的能力。例如,它可以理解特定的符号或图标(如将物体放在特定的数字上),并能根据用户指令执行基础推理(如“拿起最小/最大的物体”,或“拿起颜色相同的杯子”)。
  • 思维链(Chain of Thought)推理:论文进一步展示了,通过结合思维链提示,RT-2 可以执行多阶段的复杂语义推理。例如,当被要求寻找工具钉钉子时,它可以推理出应该捡起一块石头作为临时的锤子;或者能推理出应该给疲惫的人递上一罐能量饮料。
  • 解决实时控制的计算瓶颈:为了让参数量高达 550 亿(55B)的超大模型能够用于闭环的机器人控制,团队将 RT-2 部署在多 TPU 的云服务上,通过网络查询实现了 1-3 Hz(较小模型可达 5 Hz)的实时控制频率。

1.数据问题

简单来说,这些极其精准的底层物理动作数据并不是通过写数学公式或者代码计算出来的,而是通过“行为克隆”(Behavior Cloning)和大规模“人工演示”硬生生“喂”出来的

论文中提到,RT-2 的机器人动作数据集其实是直接沿用了之前 RT-1 项目的数据。我们可以从以下几个专业维度来拆解这个数据集是如何构建,以及模型是如何处理不同杯子的物理差异的:

1. 数据是怎么来的?——大规模遥操作(Teleoperation)

在机器学习中,要让模型学会端到端的映射,首先得有高质量的 (State,Action)(State, Action)(State,Action) 轨迹。

  • 人机协同演示:研究团队动用了 13 台机器人在真实的办公室厨房环境里,花了整整 17 个月的时间收集数据。
  • 记录微操:操作员会佩戴 VR 头显或使用特定的遥控手柄,像玩体感游戏一样远程控制机械臂完成“拿起杯子”的动作。在这个过程中,系统会以极高的频率同时记录两件事:
    1. 视觉状态 (oto_tot):机器人摄像头拍到的实时画面。
    2. 物理动作 (ata_tat):操作员手柄推了多少度、夹爪闭合了多少,这些直接对应到末端执行器的 6 自由度位姿和夹爪状态。
  • 打标签:每一段这样的人工操作轨迹(Trajectory),都会被打上一句自然语言指令标签(lll),比如“pick up the cup”。由此,就构成了海量的 (ot,l,at)(o_t, l, a_t)(ot,l,at) 训练三元组。

2. 为什么不同杯子的参数不同,模型也能搞定?

这个问题直击“泛化能力”(Generalization)的痛点。不同杯子的高度、口径、摆放位置确实会导致抓取时的笛卡尔坐标完全不同。RT-2 能够应对这种差异,主要归功于以下两点机制:

A. 端到端(End-to-End)的状态感知映射
传统机器人控制需要建构杯子的 3D 模型然后规划抓取点,但 RT-2 是端到端的。在推理(Inference)阶段,模型的输入不仅是文本“拿起杯子”,更关键的是当前的摄像头图像
模型并不是在死记硬背某一套固定的“拿杯子”坐标,而是在学习一个条件概率策略:π(at∣ot,l)\pi(a_t | o_t, l)π(atot,l)。当它看到一个又高又瘦的杯子时,它强大的视觉编码器(ViT)提取到了图像中杯子的空间特征,结合它在训练集里见过的类似演示,自回归地预测出当前这一帧最合理的微操(Tokens),从而动态调整机械臂去适配这个新杯子。

B. 视觉-语言模型(VLM)带来的“降维打击”
这是 RT-2 最具革命性的一点。如果只用机器人数据(比如几十万次抓取),模型很难认识世界上所有的杯子。但 RT-2 的基座是 PaLI-X 或 PaLM-E 这样参数量高达几十亿甚至数百亿的互联网级视觉-语言模型。

  • 在联合训练阶段,模型不仅在学机器人的轨迹数据,还在同时复习互联网上的海量图文对。
  • 因此,即使面对一个形状极其怪异、在机器人数据集里从未出现过的杯子,由于 RT-2 在互联网数据里已经看过了几百万种杯子的图片,它不仅能在物理上判断出“这是一个杯子”,还能在语义上认出“这是杯柄”,从而将以前学过的抓取技能(Skill)迁移到这个新物体上。这正是论文中所说的“将互联网规模的常识转移到机器人控制中”。

总结一下,数据的底层来源是用人类的血汗(遥操作)堆出来的,而应对不同物体的泛化能力,则是靠着模型端到端的图像实时反馈,加上从互联网数据中白嫖来的庞大世界常识共同实现的。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐