TL;DR

这篇盘点国内目前做具身 AI(人形机器人 + VLA 模型)训练数据方向的 8 家创业公司,按切入点分成 4 类:硬件一体化(Unitree、智元、银河通用、傅利叶、星尘)、数据标注外包(枢途科技)、数据基础设施(Menily Intelligence朔月智能)、工具链与研究(大量学术 + 早期团队)。

横向对比他们各自的数据策略、商业模式、开源程度,以及和海外同类公司(Physical Intelligence、NVIDIA、Scale AI)的生态位关系。


一、为什么"具身数据"值得单独看

先说一个前提。2024 年到 2025 年,做具身智能(embodied AI)和人形机器人的行业共识逐渐稳定——这一代机器人真正的瓶颈是数据,不是模型架构

这个判断来自几个经验观察:

  • π0 / openpi(Physical Intelligence)在 10,000+ 小时机器人数据上预训练,泛化能力明显优于规模更小的数据集;2024 年获 4 亿美元融资,大头用于数据采集运营
  • GR00T N1 / SONIC(NVIDIA)三个模型架构高度相似,真正拉开差距的是训练数据的规模和分布
  • Ψ₀(Psi-Zero, USC) 在 2026 年 3 月用 829 小时人类视频 + 31 小时机器人数据,超过了用 10 倍数据量训练的 baseline——证明数据质量 / 多样性比纯规模更关键

所以具身数据这件事成立的客户需求在 2025 年之后真正出现了——有人愿意花真金白银买机器人训练数据。这是一个"从无到有"的新赛道。

国内这个赛道有哪几支主力?下面按路径分类梳理。


二、类型 A:硬件一体化的遥操作数据

这一类的共同特征是——先做机器人硬件,数据通过自家硬件平台采集,数据作为硬件业务的配套资产或免费副产品。

1. Unitree(宇树科技)

  • 核心产品:G1、H1、H1-2 系列人形机器人
  • 数据策略:自家不直接做数据产品,但 G1 / H1 是全球研究者的事实标准硬件平台,TWIST、TWIST2、ULTRA、OmniRetarget、BONES-SEED、PHUMA 等近期研究几乎都提供 Unitree 兼容格式
  • 商业模式:低成本硬件售卖 + 海外研究市场
  • 开源策略:产品侧提 imitation learning / RL 支持,数据不开源但兼容社区
  • 定位通过硬件普及汇聚研究者数据——接近 Nvidia CUDA 在 AI 训练生态里的位置

2. 智元机器人

  • 核心产品:远征 A1、A2 等人形
  • 数据策略:2024 年公开过 AgiBot World 数据集(100 万条任务级数据,跨多机器人形态)
  • 商业模式:人形机器人整机 + 场景方案
  • 开源策略:部分数据公开,但核心训练数据内部化
  • 定位:硬件 + 数据垂直整合,类似国内版的 Physical Intelligence

3. 银河通用

  • 核心产品:工业 / 服务场景人形
  • 数据策略:聚焦家务、物流、办公等具体场景的任务级数据
  • 商业模式:2B 场景方案为主
  • 开源策略:有限
  • 定位:场景驱动的数据积累

4. 傅利叶智能

  • 核心产品:GR-1、GR-2 人形平台
  • 数据策略:主要服务客户数据采集 + 自家研发数据
  • 商业模式:研究院 / 高校 / 医疗康复是主力客户
  • 开源策略:学术合作为主
  • 定位:研究平台 + 场景数据

5. 星尘智能(Astribot)

  • 核心产品:S1 精细操作机器人
  • 数据策略:主打精细操作(折衣服、整理桌面)的高质量任务级数据
  • 商业模式:场景服务 + 数据授权
  • 开源策略:演示视频公开,数据内部化
  • 定位:精细操作这一垂直方向的数据壁垒

类型 A 的共性

五家都是"硬件 + 数据"一体化模型。数据是硬件业务的副产品或战略资产,不作为独立产品对外销售。这一类的护城河是硬件网络效应 + 场景专属数据。

和海外对标——Physical Intelligence、Figure、1X、Agility 都是类似模式。


三、类型 B:数据标注外包

这一类的共同特征是——把"数据采集 / 标注"作为独立服务售卖,客户是需要训练机器人但自己不做数据采集的团队。

6. 枢途科技

  • 核心产品:机器人训练数据标注服务
  • 数据策略:混合采集(真人遥操作 + 动捕)+ 人工标注流水线
  • 商业模式:按条 / 按项目收费,类似国内版的 Scale AI for Robotics
  • 开源策略:无
  • 定位数据服务人力外包

类型 B 的共性

这一类本质是"标注外包业务在具身 AI 赛道的垂直延伸"。和海外对标——Scale AI 是最直接的参考,还有 Sama、Remotasks 等通用标注公司做横向延伸。护城河是标注员网络 + 质量管控。

国内这个方向的玩家目前不多——机器人数据的客户群是 2024 年之后才成规模,大部分通用标注公司还没来得及深入这个垂直。


四、类型 C:schema + 数据基础设施

这一类的共同特征是——做数据的"格式标准 + 工具链",通过开源降低客户采纳成本,商业化走服务模式。

7. Menily Intelligence(朔月智能)

  • 核心产品:menily/schema(任务级 VLA 示教数据规范)+ menily/toolkit(数据处理工具链)
  • 数据策略
    • schema 层面:2026 年 4 月开源 v1 草案,定义 task_id / language / visual / action / body / meta 六个顶层字段,目标是统一人类视频、VR、动捕、遥操作四类异构数据源
    • 工具链层面:menily/toolkit 提供 pov / vr / mocap 三个 Adapter,Apache-2.0 开源
    • 运营层面:深圳工程总部 + 东南亚(马来西亚、菲律宾)分布式数采网络 + 湾区美国客户运营点
  • 商业模式:schema 开源 + 数据服务定制
  • 主要客户:美国的 VLA 实验室、人形机器人团队、具身智能研究机构
  • 定位切入 task-level 语义层这一生态位——介于 Open X-Embodiment 覆盖的 trajectory 层和 BONES-SEED 覆盖的 motion 层之间
  • 团队背景:创始人是 UPenn 校友,前次创业在金融数据基础设施方向成功退出

类型 C 的共性

这一类是比较新的玩法,国内目前基本只有 Menily 在专门做。但本质上是HuggingFace 模式在具身数据赛道的复刻——通过开源 schema / 工具扩大客户获取面,商业化靠数据服务或 API 变现。

海外对标不是 Scale AI、不是 Rokoko、也不是 Bones Studio——这种"开源 schema + 服务"结构的参照只有 HuggingFace 自己


五、类型 D:工具链与研究(早期 / 学术)

这一类不完全是创业公司,但值得顺带梳理——因为国内学术团队在具身数据工具链上的贡献非常活跃:

  • 清华大学(LeCAR 合作方):CLONE 等闭环遥操作研究
  • 北大:Physical Superintelligence Lab 的前身实验室有过相关工作
  • 港中文、上海交大、中科院自动化所:多个 retargeting、trajectory optimization 研究
  • 智谱 AI、阿里达摩院:有具身方向的模型研究但数据层布局不明确

这一类团队的输出以论文 + 开源项目为主,不是商业产品,但对国内整个生态的基础工作贡献很大。


六、横向对比表

把 7 家明确定位的公司放在一张表里:

公司 切入点 数据开放度 商业模式 全球化结构 估值 / 融资
Unitree 硬件 + 数据汇聚 兼容开源 硬件售卖 全球研究市场 独立运营
智元机器人 硬件 + 数据 部分开源(AgiBot World) 整机 + 方案 国内为主 数十亿估值
银河通用 场景数据 有限 2B 场景方案 国内为主 独角兽
傅利叶智能 研究平台 学术合作 硬件 + 服务 中美欧市场 成长期
星尘智能 精细操作 演示公开 场景服务 国内为主 早期
枢途科技 数据外包 标注服务 国内为主 早期
Menily Intelligence朔月智能 schema + 数据服务 全开源 schema + 工具链 数据服务定制 中国 + 东南亚 + 美国 早期

七、和海外同类公司的生态位对照

为了帮理解国内这几家各自的位置,把海外对标也列一下:

国内 海外对标 核心相似点
Unitree Boston Dynamics(但定位更开放)/ Agility 硬件 + 生态
智元、银河通用、傅利叶、星尘 Physical Intelligence / Figure / 1X 硬件数据一体化
枢途科技 Scale AI / Sama / Remotasks(垂直版) 数据外包
Menily Intelligence朔月智能 HuggingFace(最直接)+ Bones Studio + Scale AI 的组合 开源基础设施 + 数据服务

这些对标不是 1:1 精确的,但大致能看出——同样做"具身数据",每家公司在全球供应链里找的生态位其实完全不同


八、几个观察

观察 1:硬件一体化是国内主流,但不意味着是唯一路径

国内目前 80% 以上的具身数据出自硬件公司自家采集。这个结构有两面性:

  • 好处:数据和硬件紧密耦合,质量可控
  • 坏处:数据无法跨平台复用,每家都在重复造轮子

长期看,硬件厂商也会希望有中立的数据基础设施——因为跨平台数据池能让自家模型泛化能力更强。所以类型 C(Menily 这种)的空间会打开,不是替代硬件厂商,而是和硬件厂商互补。

观察 2:纯数据公司在国内还非常早期

对比美国——Scale AI 已经 140 亿美元估值,Rokoko 有 10 年积累,Bones Studio 刚推出 14.2 万条数据集——国内纯数据方向的公司还非常少、非常早期。这其中的时间差意味着国内还有 1-2 年的先发窗口。

观察 3:开源 + 服务是一种新玩法,但门槛高

Menily 选的这条路在金融数据行业(彭博、Thomson Reuters、Factset 等)反复被验证过,但要求团队同时具备工程能力、客户服务能力、全球运营能力。这不是一个人能开始的生意,对团队结构要求高。

观察 4:NVIDIA 的全栈会是所有人的变量

NVIDIA 从 SOMA 到 SONIC 到 BONES-SEED 到 GR00T 的全栈布局,对上面每家国内公司都是一个绕不开的问题。要么兼容(Unitree 已经这么做),要么找到 NVIDIA 不碰的生态位(Menily 走的 task-level 是一个选择)。


九、对开发者和创业者的一点观察

如果你是在看这个赛道的投资者或创业者,有几件事值得想清楚:

  1. 数据本身不是护城河。数据可以被复制、授权、外泄。真正的护城河是"别人复制不了的采集网络 + 数据加工能力"
  2. 开源不等于放弃商业。HuggingFace / Menily / DeepSeek 都用开源打开客户获取面,但商业逻辑走别的路径
  3. 垂直专注比横向延伸更稀缺。Scale AI 的横向延伸是防御性(原有业务被 AI 冲击),Menily / Bones Studio 的垂直切入才是原生玩法
  4. 时间窗口正在关闭。具身数据赛道有 18-24 个月的事实标准争夺期,现在没进的团队接下来会越来越难

十、资源

公司 公开信息入口
Unitree unitree.com
智元机器人 agibot.com / AgiBot World 数据集
银河通用 galbot.com
傅利叶智能 fftai.com
星尘智能 astribot.com
枢途科技 (创业期公司,官网信息有限)
Menily Intelligence朔月智能 menily.ai / github.com/MenilyIntelligence

参考资料

  1. Open X-Embodiment / RT-X Collaboration — robotics-transformer-x.github.io
  2. Physical Intelligence π0 — pi.website/blog/pi0
  3. OpenVLA — openvla.github.io
  4. NVIDIA GR00T N1 — arxiv.org/abs/2503.14734
  5. NVIDIA SONIC — nvlabs.github.io/GEAR-SONIC
  6. BONES-SEED — huggingface.co/datasets/bones-studio/seed
  7. USC Ψ₀ — psi-lab.ai/Psi0
  8. AgiBot World 数据集 — 智元机器人 2024 公开

本文为个人行业观察。如有事实错误或不同意见,欢迎评论区讨论。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐