拧瓶盖、注射器注射、折叠衣物、夹取水果——这些人类习以为常的精细动作,训练机器人完成的成本却极高。人类每天产生的海量灵巧操作数据,又因具身差异难以直接迁移至机器人系统。NVIDIA发布的EgoScale框架,正是针对这一数据效率瓶颈提出的系统性解法。

方案概述

EgoScale 以大规模人类第一视角(egocentric)视频作为主要监督信号,结合 MANUS 数据手套提供的高精度动作对齐,构建了一套三阶段训练流程。

图片

NVIDIA提出EgoScale三阶段训练流程,以扩展机器人灵巧操作能力

第一阶段:人类数据预训练

研究团队在20,854小时经过动作标注的人类第一视角视频上,对一个视觉-语言-动作(VLA)模型进行预训练。人类手部动作通过21个关键点进行提取,并重定向映射至 22 自由度的Sharpa机械手关节空间;手腕运动则以相对三维平移与旋转的形式表示。

研究发现,随着人类数据量的增加,模型验证损失呈现出规律性下降,且与真实机器人任务表现高度相关,遵循对数线性缩放定律。这一结果表明,大规模人类视频是一种可扩展、可靠的灵巧操作学习监督来源。

图片

从带有动作标注的人类第一视角视频中,通过21个关键点提取手部动作信息

第二阶段:人机动作对齐

第一阶段从无约束的人类数据中学习了通用操作先验,但该先验尚未与机器人的感知和控制设置相匹配。第二阶段的目标,正是弥合这一具身差距(embodiment gap)。

为此,研究团队采集了一套小规模、精心对齐的数据集:操作者与遥操作机器人在相同摄像头设置下,执行同一组共344项桌面操作任务。采集过程中,操作者佩戴MANUS数据手套以高保真度捕捉手指动作,同时使用 Vive 追踪器记录手腕运动。机器人遥操作阶段沿用完全相同的动捕设备,确保人类与机器人的动作信号具有直接可比性。

通过约50小时对齐人类数据与4小时机器人数据的配对训练,模型完成了将人类操作知识锚定至机器人控制空间的关键步骤。

图片

图片

人机对齐数据采集设置:同步使用MANUS数据手套与第一视角摄像头,捕捉与机器人感知配置一致的手部动作及视觉输入。

第三阶段:任务适配

进入第三阶段时,模型已具备来自第一阶段的通用操作先验,以及来自第二阶段的具身对齐能力。本阶段在此基础上针对具体任务进行微调。

  • 标准设置:使用约100条遥操作机器人示范进行任务适配。由于前序阶段打下了坚实基础,这一相对少量的数据集已足以在复杂灵巧任务上达到较高性能。

  • 单次示范设置(One-shot):模型仅需1条机器人示范,辅以对齐的人类示范,即可实现有效泛化。这充分体现了前序训练阶段所赋予的强少样本学习能力。

图片

基于流匹配的VLA策略架构,以预训练视觉语言模型(VLM)为骨干网络,结合DiT动作专家模块,采用手腕级动作表征与轻量具身适配器,实现人类与机器人数据的统一建模。

实验结果

大规模人类预训练与MANUS手套辅助对齐的组合,带来了显著的性能提升。

在五项复杂的灵巧操作任务中,完整的 Pretrain + Midtrain 模型相比无预训练(no pretraining)基准模型,平均成功率提升了54%。此外,Pretrain + Midtrain 模型在所有单项任务上的表现也明显优于从零开始训练(training from scratch)的模型。

在one-shot设置 下,只需 一次机器人示范,模型在 衬衫折叠任务(shirt folding) 上即可达到最高 88%的成功率,展现出强大的少样本泛化能力(few-shot generalization)。此外,所学操作先验具备跨具身迁移能力。基于高自由度人类与灵巧手数据预训练得到的策略,可适配至搭载7自由度三指灵巧手的宇树G1机器人,在新任务上仍取得超过30个百分点的绝对成功率提升。这一结果表明,高自由度人类操作表征能够有效泛化至低自由度机械手平台。

图片

在星海图R1 Pro机器人搭载的22自由度Sharpa灵巧手上进行动作空间预训练得到的策略,可迁移至搭载7自由度三指灵巧手的宇树G1机器人,验证了其跨具身平台的泛化能力。

影响与意义

EgoScale为灵巧机器人学习建立了一套可扩展的训练范式:以大规模人类视频构建通用操作先验,以MANUS数据手套提供人类运动空间与机器人关节空间之间的精准对齐层,最终仅需极少量机器人示范即可完成任务专化。这一范式的核心价值在于将数据瓶颈从"机器人示范规模"转移至"人类视频规模"——而后者几乎是无限可扩展的。随着预训练数据持续积累,模型性能可依据已验证的对数线性缩放定律稳定提升,为大规模部署通用灵巧操作系统提供了清晰且可预判的技术路径。

关于搜维尔科技

我们热衷于动作捕捉技术的研发与推广。我们热衷于推动技术发展,使其处于技术前沿甚至更前沿。在这个频道上,我们想分享我们基于动作捕捉技术的最新体验。搜维尔科技与Manus总部签署代理合作协议,成为其在中国大陆地区的授权代理经销商。搜维尔科技现支持相关产品购买、咨询与售后支持等服务,欢迎垂询。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐