文章概括

引用:

@inproceedings{lu2024manigaussian,
  title={Manigaussian: Dynamic gaussian splatting for multi-task robotic manipulation},
  author={Lu, Guanxing and Zhang, Shiyi and Wang, Ziwei and Liu, Changliu and Lu, Jiwen and Tang, Yansong},
  booktitle={European Conference on Computer Vision},
  pages={349--366},
  year={2024},
  organization={Springer}
}
Lu, G., Zhang, S., Wang, Z., Liu, C., Lu, J. and Tang, Y., 2024, September. Manigaussian: Dynamic gaussian splatting for multi-task robotic manipulation. In European Conference on Computer Vision (pp. 349-366). Cham: Springer Nature Switzerland.

主页:
原文:
代码、数据和视频:

系列文章:
请在 《 《 文章 》 》 专栏中查找



宇宙声明!


引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!



ABSTRACT

在非结构化环境中执行由语言条件引导的机器人操作任务,是通用智能机器人非常迫切的需求。 传统的机器人操作方法通常学习观测的语义表示来进行动作预测,但这种做法忽略了为了完成人类目标而存在的场景层面的时空动态。 在本文中,我们提出了一种名为 ManiGaussian 的动态 Gaussian Splatting 方法,用于多任务机器人操作;该方法通过未来场景重建来挖掘场景动态。 具体而言,我们首先构建了一个动态 Gaussian Splatting 框架,用于推断高斯嵌入空间中的语义传播,在此基础上利用语义表示来预测最优机器人动作。 随后,我们构建了一个高斯世界模型,用于对我们动态 Gaussian Splatting 框架中的分布进行参数化;该模型通过未来场景重建,在交互环境中提供了富有信息量的监督信号。 我们在 10 个 RLBench 任务及其 166 个变体上对 ManiGaussian 进行了评估,结果表明,我们的框架在平均成功率上比当前最先进方法高出 13.1% 1 ^1 1

关键词:多任务机器人操作 · 动态 Gaussian Splatting · 世界模型


1 Introduction

长期以来,在人工智能的发展追求中,设计能够执行语言条件引导操作任务的自主智能体[2, 11, 29, 31, 59, 60, 62, 63, 77]一直都是一个备受期待的目标。 在真实部署中,智能机器人通常需要在新的任务中应对未见过的场景。 因此,要使机器人在多样化的操作任务中取得较高的任务成功率,理解部署场景中的复杂三维结构是十分必要的。

为了解决这些挑战,已有研究在通用操作策略学习方面取得了很大进展,这些方法大体上可以分为两类:感知式方法和生成式方法。 对于前者,感知模型提取出的语义特征会根据视觉输入直接用于预测机器人动作,这些视觉输入包括图像[14, 15, 40]、点云[7, 13, 79]和体素[28, 60]。 然而,感知式方法严重依赖多视角相机或安装在夹爪上的相机来覆盖整个工作台,以应对非结构化环境中的遮挡问题,这限制了它们的实际部署。 为此,生成式方法[22, 35, 36, 47, 48, 52, 75, 76]通过自监督学习,在任意新视角下重建场景和物体,从而捕获三维场景结构信息。 然而,这些方法忽略了操作过程中描述物体之间物理交互的时空动态,因此在缺乏正确物体交互的情况下,其预测出的动作仍然无法完成人的目标。 图1展示了传统生成式操作方法(上)与本文提出的方法(下)在操作效果上的对比,其中传统方法由于对场景动态理解不足,无法完成两个玫瑰色积木的堆叠。

在这里插入图片描述

在本文中,我们提出了一种 ManiGaussian 方法,该方法利用动态 Gaussian Splatting 框架来实现多任务机器人操作。 不同于只关注语义表示的传统方法,我们的方法通过未来场景重建来挖掘场景层面的时空动态。 因此,该方法能够理解物体之间的交互,从而实现更准确的操作动作预测。 更具体地说,我们首先构建了一个动态 Gaussian Splatting 框架,用于建模多种语义特征在高斯嵌入空间中的传播过程,并利用包含场景动态信息的语义特征来预测通用操作任务中的最优机器人动作。 我们构建了一个高斯世界模型,用于对动态 Gaussian Splatting 框架中的分布进行参数化。 因此,我们的框架能够根据当前场景和机器人动作重建未来场景,从而在交互环境中获得富有信息量的监督;同时,我们约束重建未来场景与真实未来场景之间的一致性,以挖掘场景动态。 我们在 RLBench 数据集[27]上的10个任务和166个变体上评估了 ManiGaussian 方法,结果表明,我们的方法在平均任务成功率上比当前最先进的多任务机器人操作方法高出13.1%。 我们的贡献可以总结如下:

  • 我们提出了一个动态 Gaussian Splatting 框架,用于学习通用机器人操作任务中的场景层面时空动态,从而使机器人智能体能够在非结构化环境中通过准确的动作预测完成人的指令。
  • 我们构建了一个高斯世界模型,用于对动态 Gaussian Splatting 框架中的分布进行参数化,该模型能够提供富有信息量的监督,以从交互环境中学习场景动态。
  • 我们在 RLBench 上的10个任务中进行了大量实验,结果表明,我们的方法以更少的计算量取得了比当前最先进方法更高的成功率。

2 Related Work

Visual Representations for Robotic Manipulation.
用于机器人操作的视觉表示。 在复杂且非结构化环境中开发能够执行语言条件引导操作任务的智能体,一直是一个长期以来的重要目标。 实现这一目标的关键瓶颈之一,是如何有效地表示场景中的视觉信息。 已有研究大致可以分为两个分支:感知式方法和生成式方法。 感知式方法直接利用预训练的二维视觉表示主干网络[14, 15, 40, 79]或三维视觉表示主干网络[7, 13, 28, 60]来学习场景嵌入,并基于场景语义预测最优机器人动作。 例如,InstructRL[40]和 Hiveformer[15]直接将二维视觉 token 输入多模态 Transformer,以解码夹爪动作,但由于缺乏几何理解能力,它们在处理复杂操作任务时表现较差。 为了纳入图像之外的三维信息,PolarNet[7]和 Act3D[13]采用了点云表示,其中 PolarNet 使用了基于 PointNeXt[49]的网络架构,而 Act3D 设计了一种 ghost point sampling(幽灵点采样)机制来解码动作。 此外,PerAct[60]将体素 token 输入基于 PerceiverIO[26]的 Transformer 策略中,并在多种操作任务上展现了出色的性能。 然而,感知式方法严重依赖无缝的相机覆盖来实现全面的三维理解,这使得它们在非结构化环境中的效果较差。 为了解决这一问题,生成式方法[22, 35, 36, 47, 48, 52, 75, 76]逐渐受到关注。 这类方法通过自监督的新视角重建来学习三维几何结构。 例如,Li 等人[36]将 NeRF 与时间对比学习相结合,在一个自编码器框架中嵌入三维几何信息并学习流体动力学。 GNFactor[76]在行为克隆之外进一步利用重建损失来优化一个可泛化的 NeRF,并在仿真和真实场景中都表现出有效提升。 然而,传统的生成式方法通常忽略了体现物体之间交互关系的场景层面时空动态,因此由于交互关系不正确,其预测出的动作仍然无法实现人的目标。

World Models.
世界模型。 近年来,世界模型已成为一种有效的场景动态编码方法,它通过在给定当前状态和动作的条件下预测未来状态来建模场景动态,并已被应用于自动驾驶[12, 24, 25, 64]、游戏智能体[16–20, 54, 73]以及机器人操作[21, 55, 68]等领域。 早期工作[16–21, 54, 55, 73]通过自编码学习一个用于未来预测的潜在空间,并在仿真环境和真实世界场景中都取得了显著效果[68]。 然而,为了实现准确的未来预测而学习潜在表示,通常需要大量数据;同时,由于隐式特征的表征能力较弱,这类方法也通常局限于机器人控制等较为简单的任务。 为了解决这些局限性,由于图像域[9, 45, 56, 67]和语言域[6, 23, 38, 43, 65]中的显式表示具有更丰富的语义信息,因此相关研究得到了广泛开展。 UniPi[9]利用一个文本条件视频生成模型来重建未来图像,并通过逆动力学模型获得中间动作。 Dynalang[38]学习将文本表示预测为未来状态,并使具身智能体能够在逼真的家庭扫描环境中依据人的指令进行导航。 与这些方法不同,我们将世界模型推广到动态 Gaussian Splatting 的嵌入空间中,使其能够预测未来状态,从而让智能体从交互环境中学习场景层面的动态。

Gaussian Splatting.
高斯泼溅。 Gaussian Splatting[32]使用一组3D高斯来对场景进行建模,并通过高效的可微 splatting(泼溅)将这些3D高斯投影到2D平面上。 与 Neural Radiance Fields(NeRF)[8, 30, 36, 39, 46, 58, 76]等隐式表示方法相比,Gaussian Splatting 在新视角合成任务中具有更高的效果与效率,表现为推理速度更快、保真度更高,并且具有更强的可编辑性。 关于3D Gaussian Splatting 的全面综述,请参见文献[5]。 为了将 Gaussian Splatting 部署到多种复杂场景中,研究者提出了许多变体,以增强其泛化能力、丰富其语义信息,并支持对可变形场景的重建。 为了提高在多样化场景中的泛化能力,近期工作[4, 10, 61, 70, 78, 80, 83]利用大规模数据集构建了从像素到高斯参数的直接映射。 为了将丰富的语义信息融入 Gaussian Splatting,许多研究工作[50, 57, 81, 84]探索了从预训练基础模型[3, 34, 51, 53]中蒸馏高斯辐射场表示的方法。 例如,LangSplat[50]通过使用场景级语言自编码器对从 CLIP[51]蒸馏出的语言特征进行编码,从而推进了高斯表示方法;与其基于 NeRF 的对应方法[33]相比,它能够实现更高效的开放词汇定位。 在形变建模方面,时变高斯辐射场[1, 37, 44, 66, 69, 71, 72]是从视频而非图像中重建得到的,这类方法已被广泛应用于诸如手术场景重建[42, 82]等应用中。 尽管这些方法已经能够基于完整视频实现诸如插值之类的高质量重建,但在给定先前状态和动作条件下对未来状态进行外推这一问题仍未得到探索,而这一点对于交互式智能体的场景层面动态建模具有重要意义。 在本文中,我们构建了一个动态 Gaussian Splatting 框架,用于建模物体交互的场景动态,这增强了智能体的物理推理能力,使其能够完成广泛的机器人操作任务。


3 Approach

在本节中,我们首先简要介绍问题定义的预备知识(第3.1节),然后给出我们整体流程的概述(第3.2节)。 随后,我们介绍一个动态 Gaussian Splatting 框架(第3.3节),该框架用于在高斯嵌入空间中推断操作场景的传播语义。 为了使我们的动态 Gaussian Splatting 框架能够从交互环境中学习场景动态,我们构建了一个高斯世界模型(第3.4节),该模型根据传播后的语义来重建未来场景。

3.1 Problem Formulation

语言条件引导的机器人操作需求,是通用智能机器人发展中的一个重要方面。 智能体需要基于观测交互式地预测机器人手臂的后续位姿,并通过底层运动规划器实现该位姿,从而完成由人类描述的各种操作任务。 在第 t t t个时间步,智能体的视觉输入被定义为 o ( t ) = ( C ( t ) , D ( t ) , P ( t ) ) o^{(t)}=(C^{(t)},D^{(t)},P^{(t)}) o(t)=(C(t),D(t),P(t)),其中 C ( t ) C^{(t)} C(t) D ( t ) D^{(t)} D(t)分别表示单视角图像和深度图像。 本体感觉矩阵 P ( t ) ∈ R 4 P^{(t)}\in\mathbb{R}^4 P(t)R4表示夹爪状态,其中包括末端执行器位置、张开程度以及当前时间步。 基于视觉输入 o ( t ) o^{(t)} o(t)和语言指令,智能体需要为机器人手臂和夹爪生成最优动作 a ( t ) = ( a t r a n s ( t ) , a r o t ( t ) , a o p e n ( t ) , a c o l ( t ) ) a^{(t)}=(a^{(t)}_{trans},a^{(t)}_{rot},a^{(t)}_{open},a^{(t)}_{col}) a(t)=(atrans(t),arot(t),aopen(t),acol(t)),其中它们分别表示体素空间中的目标平移 a t r a n s ( t ) ∈ R 100 3 a^{(t)}_{trans}\in\mathbb{R}^{100^3} atrans(t)R1003、旋转 a r o t ( t ) ∈ R ( 360 / 5 ) × 3 a^{(t)}_{rot}\in\mathbb{R}^{(360/5)\times3} arot(t)R(360/5)×3、张开程度 a o p e n ( t ) ∈ [ 0 , 1 ] a^{(t)}_{open}\in[0,1] aopen(t)[0,1]以及碰撞规避 a c o l ( t ) ∈ [ 0 , 1 ] a^{(t)}_{col}\in[0,1] acol(t)[0,1]

为了有效学习操作策略,作者提供了作为离线数据集的专家示范用于模仿学习,其中每个样本三元组包含视觉输入、语言指令和专家动作。 现有方法利用强大的视觉表示来学习具有信息量的潜在特征,以进行最优动作预测。 然而,这些方法忽略了描述物体之间物理交互的时空动态,因此在缺乏正确物体交互的情况下,其预测动作通常无法完成复杂的人类目标。 与此相对,我们提出了一个动态 Gaussian Splatting 框架,用于挖掘机器人操作中的场景动态。

3.2 Overall Pipeline

在这里插入图片描述

我们的 ManiGaussian 方法的整体流程如图2所示,其中我们构建了一个动态 Gaussian Splatting 框架,用于在高斯嵌入空间中建模多种语义特征在操作任务中的传播过程。 我们还构建了一个高斯世界模型,用于对动态 Gaussian Splatting 框架中的分布进行参数化;该模型能够通过未来场景重建为场景动态提供富有信息量的监督。 更具体地说,我们首先通过 lifting(提升)和 voxelization(体素化)将来自 RGB-D 相机的视觉输入转换为体表示,用作数据预处理。 对于动态 Gaussian Splatting,我们利用一个 Gaussian regressor(高斯回归器)基于该表示来推断场景中几何特征和语义特征的高斯分布,并使其沿时间步传播,从而携带丰富的场景层面时空动态信息。 对于高斯世界模型,我们构建了一个形变场(deformation field),根据当前场景和机器人动作来重建未来场景,并要求重建场景与真实场景之间保持一致,以此挖掘场景动态。 因此,表征物体关联关系的时空动态信息就能够被嵌入到动态 Gaussian Splatting 框架所学习到的表示之中。 最后,我们采用多模态 Transformer——PerceiverIO[26]——来预测通用操作任务中的最优机器人动作,该模型综合考虑了几何信息、语义信息、动态信息以及人类指令。

3.3 Dynamic Gaussian Splatting for Robotic Manipulation

为了捕获通用操作任务中的场景层面动态,我们提出了一个动态 Gaussian Splatting 框架,用于建模多种语义特征在高斯嵌入空间中的传播过程。 尽管原始的 Gaussian Splatting 在静态环境重建方面具有显著的效果和效率,但由于缺乏时间信息,它无法捕获操作任务中的场景动态。 为此,我们基于原始 Gaussian Splatting 的方法构建了一个动态 Gaussian Splatting 框架,使场景表示中的高斯点能够随着机器人操作而运动,从而体现物体之间的物理交互。 该场景表示包含几何信息,用于描述显式视觉线索;语义信息,用于表征隐式的高层视觉特征;以及动态信息,用于编码场景的物理属性;这些信息将共同用于预测最优动作。

3.4 Learning Objectives


4 Experiments

在本节中,我们首先介绍实验设置,包括数据集、基线方法以及实现细节(第4.1节)。 然后,我们将我们的方法与当前最先进的方法进行比较,以展示我们在成功率方面的优势(第4.2节);同时,我们还进行了消融实验,以验证动态 Gaussian Splatting 框架和 Gaussian world model 中不同组成部分的有效性(第4.3节)。 最后,我们还展示了可视化结果,以说明我们的直观想法(第4.4节)。 更多结果和案例分析可见补充材料。

4.1 Experiment Setup

Simulation.
仿真。 我们的实验是在广泛使用的 RLBench[27] 仿真任务中进行的。 遵循文献[76],我们从 RLBench 中选取了一个经过筛选的子集,其中包含10个具有挑战性的语言条件引导操作任务,这些任务共包括166种物体属性和场景布局的变化。 这些任务的多样性要求智能体获得关于操作过程中场景层面内在时空动态的可泛化知识,而不能仅仅依赖模仿所提供的专家示范来取得较高的成功率。 为了避免噪声导致的结果偏差,我们在测试集中对每个任务评估了25个 episode。 在视觉观测方面,我们使用由单个前置相机采集的 RGB-D 图像,其分辨率为128×128。 为了进行公平比较,我们与 GNFactor 使用相同数量的相机,即20个相机,以提供多视角监督。 在训练阶段,我们为每个任务使用20条示范数据。

Baselines:
基线方法: 我们将 ManiGaussian 与以往的最先进方法进行比较,包括感知式方法 PerAct[60]及其一个修改版本(该版本使用4路相机输入以覆盖整个工作台),以及生成式方法 GNFactor[76]。 评估指标为任务成功率,即已完成 episode 所占的百分比。如果智能体能够在最多25个步骤内完成自然语言所指定的目标,则该 episode 被视为成功。

Implementation Details.
实现细节。 我们对训练集中的专家示范使用 SE(3)[60, 76] 增强,以提升智能体的泛化能力。 为了减小参数规模带来的影响,我们在所有基线方法中都使用相同版本的 PerceiverIO[26] 作为动作解码器。 所有参与比较的方法都在两张 NVIDIA RTX 4090 GPU 上训练100k次迭代,batch size 为2。 我们采用 LAMB 优化器[74],初始学习率设为 5 × 10 − 4 5\times10^{-4} 5×104。 我们还采用了余弦学习率调度器,并在前3k个步骤中进行 warmup。

4.2 Comparison with the State-of-the-Art Methods

在本节中,我们在 RLBench 任务套件上将 ManiGaussian 与以往的最先进方法进行了比较。 表1展示了各个任务平均成功率的比较结果。 我们的方法以44.8%的平均成功率取得了最佳性能,达到了当前最先进水平,并且以显著优势超过了以往的方法,包括感知式方法和生成式方法。 表现占优的生成式方法 GNFactor 利用可泛化的 NeRF 学习具有信息量的潜在表示,以进行最优动作预测,并且相比感知式方法 PerAct 展现出了有效提升。 然而,它忽略了体现物体之间交互关系的场景层面时空动态,因此由于交互关系不正确,其预测出的动作仍然无法实现人的目标。 相反,我们的 ManiGaussian 通过所提出的动态 Gaussian Splatting 框架来学习场景动态,从而使机器人智能体能够在非结构化环境中通过准确的动作预测完成人类指令。 因此,我们的方法相较于排名第二的 GNFactor 方法取得了41.3%的相对提升。 在未取得最佳表现的任务 meat off grill 中,我们的方法也排名第二。 实验结果表明,我们提出的方法在多个语言条件引导的机器人操作任务上都是有效的。

在这里插入图片描述

4.3 Ablation Study

我们的动态 Gaussian Splatting 框架对高斯嵌入空间中多种特征的传播进行建模,而 Gaussian world model 则根据当前场景重建未来场景,并通过约束重建场景与真实场景之间的一致性来挖掘场景动态。 我们进行了消融实验,以验证 Table 2 中各个所提出组成部分的有效性。 我们首先实现了一个不包含任何所提技术的原始基线模型,在该模型中,我们直接训练表示模型和动作解码器来预测机器人动作。 通过加入 Gaussian regressor 来预测高斯参数,模型性能相比基线提升了15.6%。 特别是在需要几何推理的任务中,例如 Occlusion、Tools 和 Screw,它相较于原始版本取得了显著优势,这证明了 Gaussian Splatting 技术在为操作任务建模空间信息方面的能力。 随后,我们将从预训练基础模型中蒸馏得到的语义特征加入到动态 Gaussian Splatting 框架中。 通过加入语义特征及其相关一致性损失,我们观察到平均成功率相比仅使用几何特征的版本提高了2.4%,这表明高层语义信息对机器人操作是有益的。 此外,我们实现了 deformation predictor 及其对应的未来场景一致性损失,从而带来了4.4%的显著性能提升。 尤其是,所提出的 deformation predictor 提升了6类任务中4类任务的完成情况,这表明在 Gaussian world model 中由 deformation predictor 编码的场景层面动态非常重要,尤其是在长时程任务(Long)中。 尽管由于不同损失项之间的权衡,dynamic loss 可能会对短期结果产生轻微影响,但它显著提升了整体性能。 在将我们动态 Gaussian Splatting 框架中的所有技术结合之后,性能从23.6%提升到了44.8%,这验证了由所提出的 dynamic Gaussian Splatting framework 与 Gaussian world model 所挖掘的场景层面时空动态的必要性。 Figure 3 展示了所提出的 ManiGaussian 与当前最先进方法 GNFactor 的学习曲线,其中我们每进行10k次参数更新就保存一次 checkpoint 并进行测试。 两种对比方法都在100k个训练步之内收敛。 如 Figure 3 所示,我们的 ManiGaussian 优于当前最先进的方法 GNFactor,实现了 1.18× 更好的性能和 2.29× 更快的训练速度。 这一结果证明,我们的 ManiGaussian 不仅性能更好,而且训练速度更快,这也表明显式的 Gaussian 场景重建方法相比于 NeRF 这类隐式方法具有更高的效率。

在这里插入图片描述
在这里插入图片描述

4.4 定性分析

完整轨迹的可视化 我们在 Figure 4 中展示了两个由 GNFactor 和我们提出的 ManiGaussian 生成的动作序列的定性示例。 在上面的案例中,智能体接收到的指令是“将积木滑动到黄色目标处”。 结果表明,以往的方法难以完成该任务,因为它模仿了专家向后拉的动作,尽管此时夹爪已经偏向红色方块的右侧。 相比之下,ManiGaussian 会回到红色方块处,并成功将该方块滑动到黄色目标位置,这是因为我们的方法能够正确理解处于接触状态的物体的场景动态。 在下面的案例中,智能体接收到的指令是“打开左侧水龙头”。 结果表明,GNFactor 误解了“左侧”的含义,转而去操作右侧水龙头,并且也未能成功打开水龙头。 相比之下,我们的 ManiGaussian 成功完成了该任务,这表明 ManiGaussian 不仅能够理解语义信息,还能够准确地执行操作。

在这里插入图片描述

新视角合成的可视化 Figure 5 展示了新视角图像合成结果。 首先,在前视观察中由于无法看到夹爪形状的情况下,我们的 ManiGaussian 在新视角下对方块的建模细节表现得更好。 其次,我们的方法能够基于恢复出的细节准确预测未来状态。 例如,在上面的“滑动积木”任务案例中,我们的 ManiGaussian 不仅预测了与人类指令相对应的未来夹爪位置,还基于对物体之间物理交互的理解,预测了受夹爪影响后的未来方块位置。 这一组定性结果表明,我们的 ManiGaussian 成功学习到了复杂的场景层面动态。
在这里插入图片描述


5 Conclusion

在本文中,我们提出了一个 ManiGaussian 智能体,用于为语言条件引导的操作智能体编码场景层面的时空动态。 我们设计了一个动态 Gaussian Splatting 框架,用于建模特征在高斯嵌入空间中的传播过程,并利用包含场景动态的潜在表示来预测机器人动作。 随后,我们构建了一个 Gaussian world model,用于对动态 Gaussian Splatting 框架中的分布进行参数化,并通过重建未来场景来挖掘场景层面的动态。 在多种操作任务上的实验表明了 ManiGaussian 的优越性。 其局限性在于 Gaussian Splatting 框架需要结合相机标定的多视角监督。


Acknowledgements

本工作部分得到了国家重点研发计划(项目编号:2022ZD0114903)以及深圳市泛在数据赋能重点实验室(项目编号:ZDSYS20220527171406015)的资助。 我们衷心感谢 Yanjie Ze 对 GNFactor 相关问题所作出的热心回复。


Supplementary Material

在这份补充材料中,我们提供了由于篇幅限制而未能纳入正文的更多细节和实验内容。

  • 附录A:RLBench 数据集的详细信息,以及我们实验中所使用的训练流程。
  • 附录B:我们的 ManiGaussian 的更多实现细节。
  • 附录C:补充的定量分析。
  • 附录D:补充的定性分析。

在这里插入图片描述

A Details of RLBench

RLBench 数据集。 在本节中,我们对 RLBench[27] 数据集以及我们的训练流程进行简要概述。 Table 3 概述了我们在实验中使用的10个所选任务。 我们的任务变化包括对物体的颜色、大小、数量、摆放位置和类别进行随机采样。 我们使用一个包含20种色调的颜色板,其中包括红色、栗色、酸橙色、绿色、蓝色、藏青色、黄色、青色、品红色、银色、灰色、橙色、橄榄色、紫色、蓝绿色、天蓝色、紫罗兰色、玫瑰色、黑色和白色。 物体的大小分为两类:矮和高。 物体的数量可以是1个、2个或3个。 其他属性则根据具体任务而变化。 此外,物体会在一定范围内被随机摆放在桌面上,这进一步增加了任务的多样性。 在消融实验中,我们采用文献[15]中的任务分类方式,根据关键挑战将 Table 3 中的 RLBench 任务分为6个类别。 这些任务组包括:

  • Planning 组包含具有多个子任务的任务。 其中包括的任务是:meat off grill 和 push buttons。

  • Long 组包含长时程任务,这类任务需要超过10个关键帧。 其中包括的任务是:put in drawer 和 stack blocks。

  • Tools 组要求智能体先抓取一个物体,再用它与目标物体进行交互。 其中包括的任务是:slide block、drag stick 和 sweep to dustpan。

  • Motion 组要求精确控制,而这类任务常常会因为预定义的运动规划器而导致失败。 其中包括的任务是:turn tap。

  • Screw 组要求夹爪进行旋转以旋拧某个物体。 其中包括的任务是:close jar。

  • Occlusion 组涉及从某些视角看存在严重遮挡问题的任务。 其中包括的任务是:open drawer。

训练流程。 为了学习策略,我们从所有任务变体中均匀采样一组专家 episode,然后为每个任务随机选择一个输入-动作对来构成一个 batch。 其他采样策略(例如 Autoλ[41])也可以使用。 为了简化任务,我们假设智能体可以访问一个预定义的运动规划器(例如 RRT-Connect),因此输入-动作对被定义为每段示范中的关键末端执行器位姿(即关键帧),其确定依据是经验规则: 如果末端执行器状态发生变化(例如关闭夹爪),或者其速度接近于零,则该位姿会被判定为一个关键帧[7,13,28,60,76]。 这种设定将序列决策问题简化为:基于当前观测预测下一个最优关键帧动作,这也可以被理解为一个分类任务。

B Additional Implementation Details

在本节中,我们详细介绍 Gaussian world model 中各个子模块的架构设计。 更多细节请参阅我们的代码。

Representation model.
表示模型。 表示模型 q ϕ q_\phi qϕ与文献[76]中的相同,这并不是本文的主要贡献。 该表示模型使用一个浅层3D UNet,将体素 ∈ R 100 3 × 10 \in\mathbb{R}^{100^3\times10} R1003×10(包括RGB特征、坐标、索引以及占据情况)编码为高层视觉特征 v ( t ) ∈ R 100 3 × 128 v^{(t)}\in\mathbb{R}^{100^3\times128} v(t)R1003×128

Gaussian regressor.
Gaussian 回归器。 给定由表示模型 q ϕ q_\phi qϕ编码得到的当前特征 v ( t ) v^{(t)} v(t),我们将其输入一个可泛化的 Gaussian 回归器 g ϕ g_\phi gϕ,以直接推断高斯分布 θ ( t ) \theta^{(t)} θ(t)。 Gaussian 回归器被设计为一个轻量级的多头神经网络,其中每个 head 负责预测一种特定特征。 它由以下部分组成:(1)位置偏移 head,用于预测每个像素对应的3D中心偏移量 ∈ R 3 \in\mathbb{R}^3 R3, (2)颜色 head,用于预测球谐基系数 ∈ R 12 \in\mathbb{R}^{12} R12, (3)带归一化的旋转 head,用于预测旋转四元数 ∈ R 4 \in\mathbb{R}^4 R4, (4)带指数激活的缩放 head,用于输出缩放因子 ∈ R 3 \in\mathbb{R}^3 R3, (5)带 sigmoid 激活的透明度 head,用于预测透明度 ∈ R 1 \in\mathbb{R}^1 R1。 (6)语义 head,用于预测语义特征 ∈ R 3 \in\mathbb{R}^3 R3

Deformation predictor.
形变预测器。 在获得当前视觉特征 v ( t ) v^{(t)} v(t)、高斯嵌入 θ ( t ) \theta^{(t)} θ(t)以及动作 a ( t ) a^{(t)} a(t)之后,我们将状态转移过程参数化为一个形变预测器 p ϕ p_\phi pϕ,用于预测每个高斯的形变 Δ μ i ( t ) ∈ R 3 \Delta\mu_i^{(t)}\in\mathbb{R}^3 Δμi(t)R3 Δ r i ( t ) ∈ R 4 \Delta r_i^{(t)}\in\mathbb{R}^4 Δri(t)R4,从而得到未来的高斯嵌入 θ ( t + 1 ) \theta^{(t+1)} θ(t+1)。 该形变预测器是一个带有残差连接的全连接网络。

Hyperparameters.
超参数。 ManiGaussian 中使用的超参数展示在 Table 4 中。 为了训练机器人操作智能体,我们使用 λ G e o = 0.01 \lambda_{Geo}=0.01 λGeo=0.01 λ S e m = 0.0001 \lambda_{Sem}=0.0001 λSem=0.0001 λ D y n a = 0.001 \lambda_{Dyna}=0.001 λDyna=0.001,以将重点放在动作预测上。 其他超参数则与以往工作[60, 76]保持一致,以保证公平比较。
在这里插入图片描述

C Additional Quantitative Analysis

我们进一步针对 ManiGaussian 中不同实现选择进行了消融研究。 Table 5 展示了不同平衡超参数对整体性能的影响,由此我们可以得出结论:各个损失项之间的平衡对于学习最优的操作策略是重要的。

在这里插入图片描述

D Additional Qualitative Analysis

我们在所附视频文件(demo.mp4)中提供了9个由我们提出的 ManiGaussian 和当前最先进的生成式方法 GNFactor[76] 生成的额外完整 episode 示例。 在长时程任务“stack 2 rose blocks”“put the item in the bottom drawer”和“take the steak off the grill”中,ManiGaussian 借助 Gaussian world model 所挖掘的高层场景动态理解,能够按照正确的顺序完成人的指令。 在涉及工具使用的“sweep dirt to the short dustpan”和“use the stick to drag the cube onto the azure target”任务中,我们的 ManiGaussian 通过正确理解处于接触状态的物体之间的低层场景动态,成功完成了这些任务。 在需要语义理解和精确控制的“slide the block to green target”“turn left tap”“close the azure jar”和“open the bottom drawer”任务中,我们的 ManiGaussian 能够成功理解语义信息,并与正确的目标物体实例进行交互,而基线方法则常常会混淆不同的实例。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐