26年4月来自北大、北航和通用人工智能(GAI)国家重点实验室的论文“Scalable Trajectory Generation for Whole-Body Mobile Manipulation”。

部署在非结构化环境中的机器人必须协调全身运动——同时移动移动底座和机械臂——才能与物理世界交互。这种耦合的移动性和灵巧性会产生一个状态空间,该空间会随着场景和物体多样性的组合式增长而增长,因此需要比固定底座操作所需的数据集大得多的数据集。然而,现有的数据采集方法,包括远程操作[13]和规划[22, 38],在大规模应用时要么劳动密集,要么计算量过大。核心瓶颈在于缺乏可扩展的流程,用于生成跨不同载体和环境的大规模、物理上有效的协调轨迹数据。

本文介绍一种名为AutoMoMa的GPU加速框架,它统一增强运动学表示(AKR)建模,其将底座、机械臂和物体的运动学整合到一个链中,并带并行轨迹优化。 AutoMoMa 实现每 GPU 小时 5000 个episodes的计算速度(比基于 CPU 的基线方法快 80 倍以上 [50]),生成一个包含超过 50 万条物理有效轨迹的数据集,涵盖 330 个场景、各种关节物体和多种机器人形态。之前的数据集不得不在规模、多样性或运动学保真度方面做出妥协 [13, 50];而 AutoMoMa 同时解决这三个问题。

训练下游 IL 策略进一步表明,即使是单个关节物体任务,最先进的方法也需要数万次演示才能达到 80% 以上的成功率,这证实数据稀缺而非算法限制才是制约因素。因此,AutoMoMa 连接高性能规划和可靠的基于 IL 控制,为协同移动操作研究提供了此前缺失的基础设施。


基于增强运动学表示(AKR)规划模型的AutoMoMa,涵盖AKR的构建过程、运动规划问题的建模以及任务约束和物理约束的整合。如图所示:
请添加图片描述

增强运动学表示

AKR构建一个串联运动学链,将移动基座、机械臂和目标物体整合到一个统一的表示中[22],它接受三个输入:(i)机器人的运动树,(ii)物体的运动树,以及(iii)机器人末端执行器与物体可连接坐标系之间的变换(即抓取姿态)。

如图2所示,机器人和物体最初分别表示为独立的运动树(例如,通过统一机器人描述格式(URDF))。为了将它们耦合到一个 AKR 链中,通过插入一个虚拟关节将物体连接到机器人上,该虚拟关节编码了机器人末端执行器和物体之间的抓取姿态;这需要逆向(inverse)物体的运动学模型,使连接连杆成为新的运动学根。至关重要的是,这种反转不仅限于反转父子关系:所有相关的变换,包括分支结构,都必须严格更新,因为旋转关节和移动关节通常定义相对于子连杆坐标系的运动。同样,在轨迹优化过程中,这些分支结构的几何形状也必须保持不变,以确保碰撞安全性和物理可行性。
请添加图片描述

为了实现移动机器人运动和操作的联合优化,引入一个虚拟基座,通过两个正交的棱柱关节和一个连接世界坐标系和机器人基座的旋转关节来模拟移动基座的平面运动,从而保持严格的串联运动学结构。上图2展示为开门任务构建的AKR模型。该模型链以世界坐标系的连杆为根,终止于物体的环境锚点(例如,固定的柜体底座)。由于移动基座和操作臂嵌入在该串联链中,它们的状态以及物体的状态在AKR构型空间中被统一起来,任务目标和运动学约束随后在该空间中强制执行,以进行轨迹优化。

基于AKR的移动操作规划

将全身移动操作规划问题建模为在统一的AKR构型空间中寻找一条满足运动学约束和任务特定约束的无碰撞轨迹。碰撞避免是通过底层运动规划器中集成的自身碰撞和环境碰撞检查隐式处理的。


如图 3 所示,AutoMoMa 通过四个集成阶段——任务规范、问题实例化、轨迹生成和渲染——合成大规模、符合物理规律的全身轨迹数据。
请添加图片描述

1 任务规范

该流程接受一个任务规范三元组 (S、O、R),用于定义每个移动操作任务的语义和几何上下文。

家庭场景布局。每个场景 S 都包含墙壁、地板和静态电器等结构元素的几何、视觉和语义属性。所有实体都锚定在一个中心世界坐标系中,并与高分辨率的视觉和碰撞网格相关联。为了最大限度地提高环境多样性,布局通过两种互补策略生成:(i)程序化生成带有可活动电器的交互式场景;(ii)通过将静态电器替换为功能等效的可活动电器来扩充现有场景数据集。

交互式对象。对象集 O = O_rigid U O_art 包含刚体和关节体。刚体对象 O_rigid 具有封闭网格和静态抓取姿态,而关节体对象 O_art 需要完整的 URDF 描述,以指定运动链、关节限制和惯性参数。至关重要的是,该框架考虑了关节体中与状态相关的抓取姿态(例如,交互过程中手柄的移动);通过逆向其运动树将对象重定位到抓取点,从而允许将对象连接到末端执行器,并在统一的 AKR 配置空间中与机器人联合优化。

机器人具身。机器人具身 R 包括一个虚拟移动基座和一个机械臂,两者均通过 URDF 定义。为了实现高吞吐量的GPU加速规划,每个实例都添加了碰撞几何体的球形近似、用于修剪永久接触的自碰撞掩码以及用于调节优化成本的关节权重向量w。该框架与具身无关,已在包括Summit基座上的Franka机械臂、R1机器人和TIAGo移动机械臂在内的多种平台上得到验证。

2 问题实例化

AutoMoMa通过将原始场景几何体转换为结构化表示来实例化规划问题,从而将环境上下文与统一的机器人-物体运动学联系起来。

环境碰撞模型。为了加速环境查询,每个场景都被转换为欧氏有符号距离场(ESDF)。通过将规划查询限制在由物体的起始状态和目标状态定义的轴对齐边界框内,进一步提高了效率,从而将计算集中在局部工作空间并最大限度地减少开销。

AKR 构建。AKR 构建将处理后的物体模型与机器人的运动学信息整合到一个单一的运动链中。为了适应不同的场景环境,首先调整物体的大小以使其与环境对齐,并将连杆组件合并到单个网格中以实现统一缩放。然后,严格地重新计算关节原点,以补偿由此产生的空间偏移并保持运动学的完整性。该预处理模型通过抓取姿态处的虚拟关节与机器人的末端执行器耦合,从而得到一个统一的模型 K_akr,在该模型中,物体有效地成为机器人的运动学延伸。

碰撞处理。为了实现高吞吐量的 GPU 加速规划,使用拟合球体来近似连杆几何形状。在进行球体拟合之前,对网格进行降尺度处理,以防止体积过高估计并确保保守的碰撞规避。当体素化导致平移偏移时,将球体云的质心与原始网格重新对齐,以保持几何保真度。

为了降低计算开销,会对可忽略不计的碰撞对(例如永久接触相邻连杆的碰撞对)进行额外屏蔽。为了管理任务阶段中的碰撞伪影,采用一种动态策略。在接近阶段,与物体相交的环境体素会被暂时清除,并替换为高分辨率网格,从而防止离散化误差阻碍有效的物体抓取姿态。在操作阶段,物体会过渡到AKR的某个连杆,其静态环境网格会被移除;只有严格位于物体当前体之外的体素才会保持激活状态,从而消除与物体初始状态的误报碰撞。

3 轨迹生成

AutoMoMa通过在统一的AKR配置空间内构建并求解一个约束优化问题来合成全身轨迹,从而能够在精确指定目标的同时,对移动基座、机械臂和物体状态施加特定于任务的约束。

任务目标和目的。规划目标 J(x_1:T) 旨在最小化总行程距离和轨迹非平滑性,其中 x_1:T 表示 T 个时间步内的轨迹。任务目标根据物体类型定义:刚体物体重定位的目标 SE(3) 位姿,或铰接物体的特定关节配置(例如,门的开启角度)。

任务约束。轨迹约束源自物体与场景之间的语义和物理关系。刚体物体被建模为自由漂浮,而椅子等重型物体则被限制在 SE(2) 平面运动范围内。对于静止的铰接物体,对 AKR 末端执行器施加严格的位姿约束,以惩罚其与物体基座连杆的偏差,从而有效地模拟其与环境的物理连接。

优化问题公式。通过求解相应物体状态的逆运动学 (IK) 方程来计算有效的 AKR 起始和目标配置。为了在确保构型空间覆盖多样性的同时控制计算开销,相似的逆运动学(IK)解在关节空间中被聚类,从而保留一组紧凑的代表性候选构型。对于运动学限制或碰撞导致无法连续抓取的复杂任务(例如,在狭小空间内打开洗碗机),AutoMoMa 采用多阶段策略,通过无碰撞的重新抓取动作,采样中间状态 φ_mid 来连接两个轨迹段——[φ_0 -> φ_mid] 和 [φ_mid -> φ_T]。

轨迹后处理。对优化后的轨迹进行过滤,去除违反任务约束的解,并确保运动学一致性。每个路径点 x_[t] 都根据所需的约束进行验证。对于静止的关节物体,评估物体与世界连接的平移偏差 d 和旋转偏差 θ。对于平面约束,垂直位移 d_z 和方向偏差 θ_planar 也受到限制。违反这些阈值的轨迹将被丢弃,从而确保最终数据集仅包含稳定且符合物理规律的全身运动。

4. 渲染

最终流程阶段使用 NVIDIA Isaac Sim 从已验证的轨迹合成高保真多模态观测数据。在机器人平台和环境中配置同步的以自我为中心的固定视角红、绿、蓝-深度 (RGB-D) 相机,以确保多视角覆盖。在每个路径点 x_[t],RGB 图像和深度图像被渲染并投影到仿真世界坐标系中的 3D 点云中,将每个关节空间配置与其对应的几何和视觉上下文配对。

该渲染框架的设计具有可扩展性:相机位置完全可自定义,保存的轨迹可以在不同的光照条件、相机配置或传感器模式下重放。由此产生的数据集为各种下游任务提供了强大的基础,包括IL[11, 15]、视觉伺服[17, 41]和推力检测[7, 10]。


数据集统计和多样性分析

AutoMoMa 集成现有的虚拟家庭环境 [25, 34],其中填充来自 PartNet-Mobility [47] 的关节物体。利用三个不同的机器人平台——Summit Franka、TIAGo 和 R1——生成了超过 50 万条物理上有效的轨迹。每条轨迹包含 30 个关节空间路径点,并伴有同步的多模态观测数据,包括 RGB-D 图像和点云(每帧 4,096 个点),每条轨迹渲染 120 帧。

抓取和配置多样性。为了确保配置空间的广泛覆盖,每个物体都与大概20 个 AO-Grasp [32] 标注配对。为每个抓取计算大约 30 个 IK 解,并在关节空间中对它们进行聚类,以保留一组多样化的代表性起始状态。这种采样策略(如图所示)确保轨迹涵盖了各种可行的机器人基座位置:在这种轨迹基点位置分布中,蓝色和橙色球体分别表示起始基点和目标基点位置,说明了 IK 聚类策略所实现的广泛空间覆盖范围。
请添加图片描述

流水线性能基准测试。在六个具有不同空间约束的代表性家庭场景上对轨迹生成流水线进行了基准测试。布局越简洁,吞吐量越高;而空间越狭窄,碰撞检测的开销就越大,可行的 IK 解的数量就越少。为了进一步表征规划器的行为,测量了基座的平均平移运动和累积机械臂旋转;这些指标反映了规划器在各种受限环境中合成补偿性全身运动的能力。

策略学习设置

通过训练 IL 策略,评估合成轨迹在三种代表性架构上的效用,以实现全身协调。

物理仿真。所有实验均在 Isaac Sim 中进行,利用其 GPU 加速的 PhysX 引擎模拟复杂的关节交互,并提供高保真物理反馈和同步传感器渲染。

智能体和观测空间。采用 Summit Franka 移动机械臂作为主要智体。策略架构为 DP3 [49],这是一种最先进的基于扩散的方法,用于评估数据缩放定律。为了证明 AutoMoMa 的优势与模型无关,还评估 DP(基于 RGB 的扩散策略)[6] 和 ACT(Transformer 策略)[13]。观测空间由融合点云(4096 个点)组成,这些点云由以自我为中心的固定 RGB-D 相机聚合而成,并包含本体感受状态(关节位置和基座姿态)。所有视觉输入均以 320×240 分辨率渲染。

训练和评估模型。使用AdamW 优化器(学习率 = 10⁻⁴)进行训练,训练周期为 300 个 epoch,批大小为 256。策略评估基于微波炉的门开启任务;如果该门在 300 步内达到目标角度,则视为试验成功,每个设置下的成功率取 50 次随机试验的平均值。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐