万小时数据落地!松灵机器人构建具身智能数据新基建

机器人智能的演变在短短几年内,经历了从“质疑数据驱动”到“坚定相信”的范式转变。如今,从 VLA(视觉-语言-动作大模型)再到当下火热的 World Model(世界模型),算法层出不穷,但在整个机器人的数据金字塔中,真机数据依然是塔尖的塔尖,在模型训练中是不可或缺的灵魂存在。
松灵机器人长期深耕具身智能科研与产业实践,从早期参与斯坦福 ALOHA探索,到持续支持 ICRA、IROS 等国际顶级会议 VLA 国际赛事的技术验证,再到与学界发布的RoboTwin、蚂蚁灵波等前沿项目合作与实践,再到国内最近的Robochallenge的算法评测平台,松灵都是重要参与。积累了丰富的机器人硬件、遥操作系统与真实场景数据经验。今天,松灵正式将这份跨越学术界与产业界的长期积累,转化为驱动具身大模型发展的高质量数据燃料。
近日,松灵机器人正式完成超10000小时具身智能数据资产建设,数据覆盖ALOHA、UMI/Pika、Ego以及Mobile Manipulation(移动操作)等主流路线,形成覆盖居家、办公、厨房、收纳等场景的规模化数据资源池,为Physical AI训练与机器人基础模型开发提供真实世界数据支撑。
1. 为什么行业开始转向采购真机数据?
进入 2026 年,一个新的现实是:
算法模型的差距正在快速收敛,而高质量的真机数据成为了核心稀缺资源。
对于大多数团队而言,最耗时的不是训练模型,而是获取第一批能用的高质量数据。从搭数采系统、设备调试、场景布置,到数据清洗、质检审核与补采,整个周期通常长达数月。
直接采购标准化的成熟数据集,能够让研发团队跳过繁琐的基建阶段,将研发周期缩短数月,显著加快模型的验证与迭代速度。标准化真机数据,正在成为行业的核心研发基础设施。

2. 10000+小时数据资产:从桌面到移动操作
在具身智能领域,数据质量往往比单纯的时长更重要。松灵在数据建设上重点抠了四个核心指标:场景覆盖、任务完整性、多模态质量以及可复用性。
目前,松灵已完成超 10,000 小时的真机采集,包含 4 大类别、13 个细分场景:

所有数据均在真实物理环境中采集。除了视觉信息,系统还同步记录了:机器人关节状态、末端位姿、夹持器状态、RGB 图像、深度信息以及点云数据,形成高价值的多模态训练数据集。



叠加稀缺的移动操作全流程数据,区别于市面仅聚焦静态桌面的常规数据集,更贴合机器人商业化落地的长期需求。
3. 从ALOHA到Ego:覆盖主流数据采集路线
面对 ALOHA、UMI、Ego 等不同数据采集路线,研发团队往往面临选择难题。松灵的选择是“全路线覆盖”,围绕主流技术路线构建了完整的硬件支撑:
1)ALOHA 主从遥操路线
基于Cobot Magic双臂数据采集平台,适用于双臂协同、精细装配等复杂操作。

2)UMI 手持采集数据路线
基于Pika数据采夹爪采集,适用于快速部署与规模化数据生产。

3)Ego 第一人称采集数据路线
基于Pika Ego第一视角采集系统,专注于行为学习、世界模型与任务理解研究。

通过全路线的布局,能够一站式满足不同算法架构与科研方向的数据需求。

4. 不止ALOHA:重点布局 Mobile Manipulation
相比局限于固定工作台的桌面操作,未来的机器人必然要走向开放空间。机器人的任务链正从简单的“发现→抓取”,演变为:
出现目标→导航接近→执行操作→完成任务→离开场景

这就是 Mobile Manipulation(移动操作)。它同时对环境感知、路径规划、运动控制和操作执行提出了协同要求。
结合松灵长期积累的移动机器人平台能力,我们同步布局了移动操作的全任务链数据,完整覆盖从导航接近、精细操作到离场撤离的全流程。这让数据集更贴近仓储物流、商业服务、配送机器人等未来的核心商业场景。

5. 稀缺的不是万小时数据,是持续量产数据的能力
行业里不缺一次性的数采项目,真正稀缺的是持续、稳定、规模化产出高质量数据的工程化能力。10,000小时只是松灵的阶段性成果,能够源源不断地生产下一个 10,000小时,才是真正的护城河。为此,松灵打造了一条标准化的数据流水线:
任务发布 → 真机采集 → 清洗补采 → 审核标注 → 存储交付

整个流程通过自研的任务管理平台进行统一调配,实现进度与质量指标的可视化追踪。目前,松灵已在深圳、东莞两地建设了专业的数据采集场地,配备规模化硬件集群,支持多场景、多任务的并行高效率采集。

6. 从数据到部署:全梯度服务体系
针对科研、模型训练及企业定制等不同阶段的需求,松灵推出了灵活的数据服务体系:
1.免费开源数据包
覆盖25类家居场景 ,5000条任务数据
*节省约25天人力成本(200条/人/天)
2.标准数据服务
7000h 60W条
*预计可节省约3000人天数采成本(按200条/人/天)
覆盖高频典型场景,经过标准化清洗与质检,可直接用于模型预训练。
3.定制化数据服务
10000 条起MOQ
支持指定场景、指定任务及特定设备的定制化采集,满足企业个性化需求。
同时,依托PiPER六轴机械臂、NERO七轴机械臂以及移动机器人平台,松灵实现了高质量数据资产与标准化硬件生态的无缝对齐。帮助客户打通从数据输入、模型训练到真机部署验证的完整闭环,避免因硬件异构导致的数据泛化失效,让具身智能研发不再有后顾之忧。
7. 结语
今天行业在讨论 10,000 小时,未来可能是 100,000 小时。但无论规模如何膨胀,持续生产高质量物理交互数据的“基础设施能力”,始终是 Physical AI 的核心生产力。
从路线覆盖到移动操作,从数据生产到真机验证,松灵正在构建的不仅是一批资产,更是一套能够持续运转的具身智能数据基础设施。我们希望成为这个时代的基建同行者。

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)