论文解读:Ego-Pi 人机协同训练与 Tesollo 灵巧手高维适配实践
摘要
Ego-Pi 人机协同训练与 Tesollo灵巧手高维适配
斯坦福大学联合 Meta 发布的 Ego-Pi 研究,针对性解决人形机器人训练数据成本高、高自由度硬件与 VLA 模型适配难等行业痛点。该研究创新性采用第一视角人机数据联合训练方案,实验全程搭载 Tesollo DG-5F-M 五指灵巧手,凭借其高自由度与强兼容性完成核心验证。本文从技术原理、实验设计、核心创新及应用价值等维度,拆解方案亮点与 Tesollo 硬件的支撑作用,为具身智能研究提供参考。
关键词:Ego-Pi;人机协同训练;VLA 模型;Tesollo DG-5F-M;跨形态学习
1. 研究背景与核心痛点
人形机器人技术快速发展背景下,传统训练模式的短板愈发明显:
· 数据成本高昂:机器人学习新任务需大规模真机数据采集,周期长、投入大;
· 软硬件适配瓶颈:主流 VLA 模型动作输出上限仅 32 维,而 Tesollo DG-5F-M 等高自由度灵巧手需 58 维(单手 29 维)动作空间,兼容性制约研发;

· 泛化能力不足:纯机器人训练难以理解人类任务逻辑,规则类作业表现受限。
2. 整体解决路径
Ego-Pi 提出轻量化解决方案:以人类第一视角演示数据与机器人数据 1:1 联合训练,用少量人类数据补充任务语义,让机器人自主重组技能;通过工程优化突破维度限制,实现 VLA 模型与 Tesollo 灵巧手的兼容,兼顾降本、增效与泛化能力,具备良好可复现性。

3. 实验设计与 Tesollo 硬件支撑
实验流程标准化,核心设计如下:
· 数据采集:仅需 5~13 分钟人类第一视角素材,无需腕部相机,成本极低;
· 分组对照:设置纯机器人训练对照组与人机共训实验组,覆盖分拣、打包、装箱三大场景;
· 硬件选型:统一采用 Tesollo DG-5F-M 灵巧手,其 20 自由度全驱结构、250Hz 控制频率与 ROS2 生态,为高维动作算法提供稳定支撑。

4. 核心创新与硬件适配逻辑
4.1 算法创新
证实人类第一视角数据不仅优化性能,更能赋予机器人任务语义理解能力,支持未知规则作业与技能组合,无需新增机器人数据。
4.2 工程适配创新
针对 Tesollo DG-5F-M 的 58 维动作需求,采用交错令牌(Token)拆分技术,将高维动作拆分为两组令牌输出,不修改预训练模型权重即可完美适配,为同类硬件提供通用方案。
5. 实验结果与硬件价值验证
对照实验数据充分印证方案有效性:
番茄分拣:基线模型 16/40(40%)→ 联合训练模型 37/40(92.5%)
装箱堆叠:基线模型 4/15(26.7%)→ 联合训练模型 14/15(93.3%)
包装任务:基线模型 1/10(10%)→ 联合训练模型 9/10(90%)
仅依靠短时人类演示数据,机器人任务成功率实现数倍提升;针对装箱这类强逻辑任务,搭配子任务预测模块还能进一步优化表现。
6. 核心价值与拓展方向
6.1 多维价值
· 科研价值:构建轻量化人机训练范式,破解 VLA 模型与 Tesollo 类高维硬件适配难题;
· 硬件价值:Tesollo DG-5F-M 凭借高自由度、强兼容性、易部署特性,成为第一视角学习与 VLA 微调的主流实验硬件;
· 行业价值:前沿算法 + Tesollo 成熟硬件的组合,为研发团队简化流程、降低实践难度。
6.2 未来方向
可围绕多场景迁移、多传感器融合(适配 Tesollo 指尖触觉模块)、高维仿生算法等方向深耕,挖掘技术更多应用潜力。
结语
Ego-Pi 为人形机器人训练提供了全新思路,而 Tesollo DG-5F-M 作为实验核心硬件,其高维动作支撑与稳定性能成为成果落地的关键。期待国内科研团队以 Tesollo 灵巧手为载体,基于本方案开展联合研究,共同推动具身智能产业发展。
论文地址:https://arxiv.org/abs/2606.08107
欢迎关注 “欣佰特科技” ,持续为大家带来 “具身智能领域”前沿技术及应用!详情可邮件咨询sales@cnbestec.com
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)