论文笔记(一百三十一)Novel Demonstration Generation with GS Enables Robust One-Shot Manipulation(二)
Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation
文章概括
引用:
@article{yang2025novel,
title={Novel demonstration generation with gaussian splatting enables robust one-shot manipulation},
author={Yang, Sizhe and Yu, Wenye and Zeng, Jia and Lv, Jun and Ren, Kerui and Lu, Cewu and Lin, Dahua and Pang, Jiangmiao},
journal={arXiv preprint arXiv:2504.13175},
year={2025}
}
Yang, S., Yu, W., Zeng, J., Lv, J., Ren, K., Lu, C., Lin, D. and Pang, J., 2025. Novel demonstration generation with gaussian splatting enables robust one-shot manipulation. arXiv preprint arXiv:2504.13175.
主页: https://yangsizhe.github.io/robosplat/
原文: https://arxiv.org/pdf/2504.13175
GitHub: https://github.com/InternRobotics/RoboSplat
系列文章:
请在 《 《 《文章 》 》 》 专栏中查找
宇宙声明!
引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!
ABSTRACT
从遥操作示范中学习得到的视觉运动策略面临一些挑战,例如数据采集时间长、成本高以及数据多样性有限。现有方法通常通过在 RGB 空间中增强图像观测,或者采用基于物理仿真器的 Real-to-Sim-to-Real 流程来解决这些问题。然而,前者受限于二维数据增强,而后者则受到几何重建不准确所导致的物理仿真不精确问题的影响。本文提出了 RoboSplat,这是一种新方法,能够通过直接操作 3D Gaussians 生成多样且视觉上逼真的示范数据。 具体来说,我们通过 3D Gaussian Splatting,简称 3DGS,重建场景,直接编辑重建后的场景,并使用五种技术在六类泛化场景中进行数据增强:使用 3D Gaussian 替换来改变物体类型、场景外观和机器人本体;使用等变变换来生成不同的物体姿态;使用视觉属性编辑来模拟不同的光照条件;使用新视角合成来生成新的相机视角;以及使用 3D 内容生成来获得多样的物体类型。全面的真实世界实验表明,RoboSplat 能够在多种扰动条件下显著增强视觉运动策略的泛化能力。值得注意的是,使用数百条真实世界示范并额外加入二维数据增强训练得到的策略,平均成功率为 57.2%;而 RoboSplat 在真实世界中面对六类泛化任务时,在 one-shot 设置下达到了 87.8% 的平均成功率。
APPENDIX
A. 对 3D Gaussians 应用变换和缩放
本节概述了如何对 3D Gaussians 应用变换,即平移、旋转,以及缩放。
Gaussian primitive 通常具有三个核心属性:1)三维空间中的中心位置;2)表示其主轴倾斜方向的朝向,通常用四元数表示;3)表示其宽窄程度的尺度。 此外,Gaussian primitive 还可以通过 Spherical Harmonics,简称 SH,即球谐函数,进行增强,以捕捉复杂的、与方向相关的颜色特征。 当对 Gaussian primitive 应用变换时,应采取以下步骤:1)通过先缩放、再旋转、最后加上平移偏移量来更新中心位置;2)通过将已有旋转与新的旋转进行组合来更新朝向;3)通过乘以缩放因子来调整尺度;4)使用 Wigner D 矩阵旋转球谐系数。
B. 示范增强过程的细节
在本节中,我们进一步展开说明示范增强过程的细节。 增强示范的示意图见图 12。
1)物体姿态
如第 IV-B1 节所述,我们会根据施加到目标物体上的变换,对关键帧处的末端执行器位姿进行等变变换。 然而,考虑到夹爪的对称性,我们会对变换后的末端执行器位姿进行后处理。
假设变换后的末端执行器位姿的旋转可以用 XYZ 欧拉角形式表示为 ( r x , r y , r z ) (r_x,r_y,r_z) (rx,ry,rz)。 我们将 r z r_z rz 替换为 r z ′ r'_z rz′,其计算方式如下:
r z ′ = { r z , − π 2 ≤ r z ≤ π 2 r z + π , r z < − π 2 r z − π , r z > π 2 r'_z= \begin{cases} r_z, & -\frac{\pi}{2}\leq r_z\leq \frac{\pi}{2}\\ r_z+\pi, & r_z<-\frac{\pi}{2}\\ r_z-\pi, & r_z>\frac{\pi}{2} \end{cases} rz′=⎩ ⎨ ⎧rz,rz+π,rz−π,−2π≤rz≤2πrz<−2πrz>2π
得到的欧拉角 ( r x , r y , r z ′ ) (r_x,r_y,r'_z) (rx,ry,rz′) 构成末端执行器的最终旋转,这可以防止末端执行器沿其 z 轴进行冗余旋转。
2)相机视角
如第 V-D3 节前文所述,我们在表 III 中列出了相机视角增强的超参数及其随机化范围。 假设专家示范中的相机视角具有目标点 O c expert = ( x c 0 , y c 0 , z c 0 ) O^\text{expert}_c=(x^0_c,y^0_c,z^0_c) Ocexpert=(xc0,yc0,zc0),以及对应的球坐标 ( r 0 , θ 0 , φ 0 ) (r^0,\theta^0,φ^0) (r0,θ0,φ0)。 因此,目标点 O c = ( x c , y c , z c ) O_c=(x_c,y_c,z_c) Oc=(xc,yc,zc) 以及对应的球坐标 ( r , θ , φ ) (r,\theta,φ) (r,θ,φ) 会从均匀分布中采样,其范围分别位于 ( x c 0 ± Δ x c , y c 0 ± Δ y c , z c 0 ± Δ z c , r 0 ± Δ r , θ 0 ± Δ θ , φ 0 ± Δ ϕ ) (x^0_c\pm\Delta x_c,y^0_c\pm\Delta y_c,z^0_c\pm\Delta z_c,r^0\pm\Delta r,\theta^0\pm\Delta\theta,φ^0\pm\Delta\phi) (xc0±Δxc,yc0±Δyc,zc0±Δzc,r0±Δr,θ0±Δθ,φ0±Δϕ) 之间。

3)光照条件
我们在本节中给出光照条件增强的超参数。 首先,我们将每个像素的 RGB 值归一化,使其最小值为 0,最大值为 1。 然后,我们规定这些超参数从以下分布中采样:
( Δ r , Δ g , Δ b ) ∼ N ( 0 , 0.1 2 I ) , (\Delta_r,\Delta_g,\Delta_b)\sim \mathcal{N}(0,0.1^2\text{I}), (Δr,Δg,Δb)∼N(0,0.12I),
s r , s g , s b ∼ Uniform ( 0.3 , 1.8 ) , s_r,s_g,s_b\sim \text{Uniform}(0.3,1.8), sr,sg,sb∼Uniform(0.3,1.8),
o r , o g , o b ∼ Uniform ( − 0.3 , 0.3 ) . o_r,o_g,o_b\sim \text{Uniform}(-0.3,0.3). or,og,ob∼Uniform(−0.3,0.3).
C. Policy Architecture
C. 策略架构
如图 13 所示,该策略处理两类输入:图像和机器人状态。 我们使用不同的编码器分别对每种模态进行 token 化处理。 对于图像输入,图像首先经过 ResNet-18 视觉编码器,以生成视觉嵌入。 我们使用一个线性层来提取紧凑的视觉特征。 对于机器人状态,我们使用多层感知机,Multilayer Perceptron,简称 MLP,将其编码为状态 tokens。
我们模型中的多模态编码器基于 GPT2 风格的 Transformer 架构。 在将序列化的图像 tokens 和状态 tokens 输入 Transformer 之前,我们会在末尾附加 readout tokens,记为 【 A C T 】 【ACT】 【ACT】。 这些 readout tokens 会关注来自不同模态的嵌入,并作为用于动作预测的动作潜在表示。
经过多模态编码器编码后,由 【 A C T 】 【ACT】 【ACT】 tokens 生成的动作潜在表示会被输入到 readout decoders 中,用于预测动作。 动作解码器使用 MLP 将动作潜在表示转换为动作向量。 我们预测一段包含 10 个未来动作的 action chunk。 与单步动作预测相比,多步动作预测能够提供时间上的动作一致性,并增强对空闲动作的鲁棒性 [11]。
D. Training Details
在训练过程中,每个时间步的输入包括来自两个 eye-on-base 相机拍摄的两张图像,以及机器人状态。 机器人状态包括机械臂状态和夹爪状态。 夹爪状态是二值的,用于表示夹爪是打开还是闭合。 对于 Franka FR3 机器人,机械臂状态是 7 维的;而对于 UR5e 机器人,机械臂状态是 6 维的。
该策略使用的历史长度为 1,action chunk 的大小被设置为 10。 在推理过程中,我们使用 temporal ensemble 技术来计算多步动作的加权平均值。
该策略使用单块 NVIDIA RTX 4090 GPU 进行训练,batch size 为 256,学习率为 1 × 10 − 4 1\times10^{-4} 1×10−4。 根据示范数量的不同,策略会训练不同数量的 epochs。 训练过程中使用的超参数详见表 IV。

E. Illustration of Real-World Experiment Settings
E. 真实世界实验设置示意
我们在图 14 中展示了光照条件泛化实验的设置。 闪烁灯以 4 Hz 4\text{Hz} 4Hz 的频率在红光和蓝光之间交替。 在单次实验中,每种光照条件包含 6 次试验。 此外,我们在图 15 中展示了场景外观泛化的真实世界设置。 在单次实验中,每个场景包含 5 次试验。


AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)