论文笔记（一百三十一）Novel Demonstration Generation with GS Enables Robust One-Shot Manipulation（二）

墨绿色的摆渡人

381人浏览 · 2026-05-12 16:40:36

墨绿色的摆渡人 · 2026-05-12 16:40:36 发布

Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation

文章概括
ABSTRACT
APPENDIX

文章概括

引用：

@article{yang2025novel,
  title={Novel demonstration generation with gaussian splatting enables robust one-shot manipulation},
  author={Yang, Sizhe and Yu, Wenye and Zeng, Jia and Lv, Jun and Ren, Kerui and Lu, Cewu and Lin, Dahua and Pang, Jiangmiao},
  journal={arXiv preprint arXiv:2504.13175},
  year={2025}
}

Yang, S., Yu, W., Zeng, J., Lv, J., Ren, K., Lu, C., Lin, D. and Pang, J., 2025. Novel demonstration generation with gaussian splatting enables robust one-shot manipulation. arXiv preprint arXiv:2504.13175.

主页： https://yangsizhe.github.io/robosplat/
原文： https://arxiv.org/pdf/2504.13175
GitHub： https://github.com/InternRobotics/RoboSplat

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

ABSTRACT

从遥操作示范中学习得到的视觉运动策略面临一些挑战，例如数据采集时间长、成本高以及数据多样性有限。现有方法通常通过在 RGB 空间中增强图像观测，或者采用基于物理仿真器的 Real-to-Sim-to-Real 流程来解决这些问题。然而，前者受限于二维数据增强，而后者则受到几何重建不准确所导致的物理仿真不精确问题的影响。本文提出了 RoboSplat，这是一种新方法，能够通过直接操作 3D Gaussians 生成多样且视觉上逼真的示范数据。 具体来说，我们通过 3D Gaussian Splatting，简称 3DGS，重建场景，直接编辑重建后的场景，并使用五种技术在六类泛化场景中进行数据增强：使用 3D Gaussian 替换来改变物体类型、场景外观和机器人本体；使用等变变换来生成不同的物体姿态；使用视觉属性编辑来模拟不同的光照条件；使用新视角合成来生成新的相机视角；以及使用 3D 内容生成来获得多样的物体类型。全面的真实世界实验表明，RoboSplat 能够在多种扰动条件下显著增强视觉运动策略的泛化能力。值得注意的是，使用数百条真实世界示范并额外加入二维数据增强训练得到的策略，平均成功率为 57.2%；而 RoboSplat 在真实世界中面对六类泛化任务时，在 one-shot 设置下达到了 87.8% 的平均成功率。

APPENDIX

A. 对 3D Gaussians 应用变换和缩放

本节概述了如何对 3D Gaussians 应用变换，即平移、旋转，以及缩放。

Gaussian primitive 通常具有三个核心属性：1）三维空间中的中心位置；2）表示其主轴倾斜方向的朝向，通常用四元数表示；3）表示其宽窄程度的尺度。此外，Gaussian primitive 还可以通过 Spherical Harmonics，简称 SH，即球谐函数，进行增强，以捕捉复杂的、与方向相关的颜色特征。当对 Gaussian primitive 应用变换时，应采取以下步骤：1）通过先缩放、再旋转、最后加上平移偏移量来更新中心位置；2）通过将已有旋转与新的旋转进行组合来更新朝向；3）通过乘以缩放因子来调整尺度；4）使用 Wigner D 矩阵旋转球谐系数。

B. 示范增强过程的细节

在本节中，我们进一步展开说明示范增强过程的细节。增强示范的示意图见图 12。
在这里插入图片描述

1）物体姿态
如第 IV-B1 节所述，我们会根据施加到目标物体上的变换，对关键帧处的末端执行器位姿进行等变变换。然而，考虑到夹爪的对称性，我们会对变换后的末端执行器位姿进行后处理。

假设变换后的末端执行器位姿的旋转可以用 XYZ 欧拉角形式表示为 $r_x,r_y,r_z)$ 。我们将 $r_z$ 替换为 $r'_z$ ，其计算方式如下：

$r'_z= \begin{cases} r_z, & -\frac{\pi}{2}\leq r_z\leq \frac{\pi}{2}\\ r_z+\pi, & r_z<-\frac{\pi}{2}\\ r_z-\pi, & r_z>\frac{\pi}{2} \end{cases}$

得到的欧拉角 $r_x,r_y,r'_z)$ 构成末端执行器的最终旋转，这可以防止末端执行器沿其 z 轴进行冗余旋转。

2）相机视角
如第 V-D3 节前文所述，我们在表 III 中列出了相机视角增强的超参数及其随机化范围。假设专家示范中的相机视角具有目标点 $O^\text{expert}_c=(x^0_c,y^0_c,z^0_c)$ ，以及对应的球坐标 $(r^0,\theta^0,φ^0)$ 。因此，目标点 $O_c=(x_c,y_c,z_c)$ 以及对应的球坐标 $(r,\theta,φ)$ 会从均匀分布中采样，其范围分别位于 $(x^0_c\pm\Delta x_c,y^0_c\pm\Delta y_c,z^0_c\pm\Delta z_c,r^0\pm\Delta r,\theta^0\pm\Delta\theta,φ^0\pm\Delta\phi)$ 之间。

在这里插入图片描述

3）光照条件
我们在本节中给出光照条件增强的超参数。首先，我们将每个像素的 RGB 值归一化，使其最小值为 0，最大值为 1。然后，我们规定这些超参数从以下分布中采样：

$(\Delta_r,\Delta_g,\Delta_b)\sim \mathcal{N}(0,0.1^2\text{I}),$

$s_r,s_g,s_b\sim \text{Uniform}(0.3,1.8),$

$o_r,o_g,o_b\sim \text{Uniform}(-0.3,0.3).$

C. Policy Architecture

C. 策略架构
在这里插入图片描述

如图 13 所示，该策略处理两类输入：图像和机器人状态。我们使用不同的编码器分别对每种模态进行 token 化处理。对于图像输入，图像首先经过 ResNet-18 视觉编码器，以生成视觉嵌入。我们使用一个线性层来提取紧凑的视觉特征。对于机器人状态，我们使用多层感知机，Multilayer Perceptron，简称 MLP，将其编码为状态 tokens。

我们模型中的多模态编码器基于 GPT2 风格的 Transformer 架构。在将序列化的图像 tokens 和状态 tokens 输入 Transformer 之前，我们会在末尾附加 readout tokens，记为 $【 A C T 】$ 。这些 readout tokens 会关注来自不同模态的嵌入，并作为用于动作预测的动作潜在表示。

经过多模态编码器编码后，由 $【 A C T 】$ tokens 生成的动作潜在表示会被输入到 readout decoders 中，用于预测动作。动作解码器使用 MLP 将动作潜在表示转换为动作向量。我们预测一段包含 10 个未来动作的 action chunk。与单步动作预测相比，多步动作预测能够提供时间上的动作一致性，并增强对空闲动作的鲁棒性 [11]。

D. Training Details

在训练过程中，每个时间步的输入包括来自两个 eye-on-base 相机拍摄的两张图像，以及机器人状态。机器人状态包括机械臂状态和夹爪状态。夹爪状态是二值的，用于表示夹爪是打开还是闭合。对于 Franka FR3 机器人，机械臂状态是 7 维的；而对于 UR5e 机器人，机械臂状态是 6 维的。

该策略使用的历史长度为 1，action chunk 的大小被设置为 10。在推理过程中，我们使用 temporal ensemble 技术来计算多步动作的加权平均值。

该策略使用单块 NVIDIA RTX 4090 GPU 进行训练，batch size 为 256，学习率为 $1\times10^{-4}$ 。根据示范数量的不同，策略会训练不同数量的 epochs。训练过程中使用的超参数详见表 IV。

在这里插入图片描述

E. Illustration of Real-World Experiment Settings

E. 真实世界实验设置示意

我们在图 14 中展示了光照条件泛化实验的设置。闪烁灯以 $4\text{Hz}$ 的频率在红光和蓝光之间交替。在单次实验中，每种光照条件包含 6 次试验。此外，我们在图 15 中展示了场景外观泛化的真实世界设置。在单次实验中，每个场景包含 5 次试验。

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从手动点屏幕到自然语言驱动：我用 Trae + Playwright MCP 跑了一次 AI 自动化测试

AtomGit开源社区

从直播赋能到全域AI落地，播丫科技深耕数智新赛道

AtomGit开源社区

还在盲目找半导体 AI？业内落地好用的研发工具汇总

摘要：与非AI工具（www.eefocus.com/ai-chat/）为PCB设计提供高效解决方案，其1.1亿标准化ECAD模型库关联原厂数据手册，支持Altium/KiCad等主流EDA格式一键导出，省去手动绘制封装时间。相比传统方式，它能快速获取冷门器件封装及3D模型，并附带替代料、规格书等数据，所有模型均可溯源确保准确性。该免费工具尤其适合紧急项目，显著提升设计效率，避免因封装错误导致生产问