国内具身 AI 数据创业公司盘点：8 家玩家的路径对比（2026 Q2）

Masashi_Toda

752人浏览 · 2026-04-20 15:14:15

Masashi_Toda · 2026-04-20 15:14:15 发布

TL;DR

这篇盘点国内目前做具身 AI（人形机器人 + VLA 模型）训练数据方向的 8 家创业公司，按切入点分成 4 类：硬件一体化（Unitree、智元、银河通用、傅利叶、星尘）、数据标注外包（枢途科技）、数据基础设施（Menily Intelligence朔月智能）、工具链与研究（大量学术 + 早期团队）。

横向对比他们各自的数据策略、商业模式、开源程度，以及和海外同类公司（Physical Intelligence、NVIDIA、Scale AI）的生态位关系。

一、为什么"具身数据"值得单独看

先说一个前提。2024 年到 2025 年，做具身智能（embodied AI）和人形机器人的行业共识逐渐稳定——这一代机器人真正的瓶颈是数据，不是模型架构。

这个判断来自几个经验观察：

π0 / openpi（Physical Intelligence）在 10,000+ 小时机器人数据上预训练，泛化能力明显优于规模更小的数据集；2024 年获 4 亿美元融资，大头用于数据采集运营
GR00T N1 / SONIC（NVIDIA）三个模型架构高度相似，真正拉开差距的是训练数据的规模和分布
Ψ₀（Psi-Zero, USC） 在 2026 年 3 月用 829 小时人类视频 + 31 小时机器人数据，超过了用 10 倍数据量训练的 baseline——证明数据质量 / 多样性比纯规模更关键

所以具身数据这件事成立的客户需求在 2025 年之后真正出现了——有人愿意花真金白银买机器人训练数据。这是一个"从无到有"的新赛道。

国内这个赛道有哪几支主力？下面按路径分类梳理。

二、类型 A：硬件一体化的遥操作数据

这一类的共同特征是——先做机器人硬件，数据通过自家硬件平台采集，数据作为硬件业务的配套资产或免费副产品。

1. Unitree（宇树科技）

核心产品：G1、H1、H1-2 系列人形机器人
数据策略：自家不直接做数据产品，但 G1 / H1 是全球研究者的事实标准硬件平台，TWIST、TWIST2、ULTRA、OmniRetarget、BONES-SEED、PHUMA 等近期研究几乎都提供 Unitree 兼容格式
商业模式：低成本硬件售卖 + 海外研究市场
开源策略：产品侧提 imitation learning / RL 支持，数据不开源但兼容社区
定位：通过硬件普及汇聚研究者数据——接近 Nvidia CUDA 在 AI 训练生态里的位置

2. 智元机器人

核心产品：远征 A1、A2 等人形
数据策略：2024 年公开过 AgiBot World 数据集（100 万条任务级数据，跨多机器人形态）
商业模式：人形机器人整机 + 场景方案
开源策略：部分数据公开，但核心训练数据内部化
定位：硬件 + 数据垂直整合，类似国内版的 Physical Intelligence

3. 银河通用

核心产品：工业 / 服务场景人形
数据策略：聚焦家务、物流、办公等具体场景的任务级数据
商业模式：2B 场景方案为主
开源策略：有限
定位：场景驱动的数据积累

4. 傅利叶智能

核心产品：GR-1、GR-2 人形平台
数据策略：主要服务客户数据采集 + 自家研发数据
商业模式：研究院 / 高校 / 医疗康复是主力客户
开源策略：学术合作为主
定位：研究平台 + 场景数据

5. 星尘智能（Astribot）

核心产品：S1 精细操作机器人
数据策略：主打精细操作（折衣服、整理桌面）的高质量任务级数据
商业模式：场景服务 + 数据授权
开源策略：演示视频公开，数据内部化
定位：精细操作这一垂直方向的数据壁垒

类型 A 的共性

五家都是"硬件 + 数据"一体化模型。数据是硬件业务的副产品或战略资产，不作为独立产品对外销售。这一类的护城河是硬件网络效应 + 场景专属数据。

和海外对标——Physical Intelligence、Figure、1X、Agility 都是类似模式。

三、类型 B：数据标注外包

这一类的共同特征是——把"数据采集 / 标注"作为独立服务售卖，客户是需要训练机器人但自己不做数据采集的团队。

6. 枢途科技

核心产品：机器人训练数据标注服务
数据策略：混合采集（真人遥操作 + 动捕）+ 人工标注流水线
商业模式：按条 / 按项目收费，类似国内版的 Scale AI for Robotics
开源策略：无
定位：数据服务人力外包

类型 B 的共性

这一类本质是"标注外包业务在具身 AI 赛道的垂直延伸"。和海外对标——Scale AI 是最直接的参考，还有 Sama、Remotasks 等通用标注公司做横向延伸。护城河是标注员网络 + 质量管控。

国内这个方向的玩家目前不多——机器人数据的客户群是 2024 年之后才成规模，大部分通用标注公司还没来得及深入这个垂直。

四、类型 C：schema + 数据基础设施

这一类的共同特征是——做数据的"格式标准 + 工具链"，通过开源降低客户采纳成本，商业化走服务模式。

7. Menily Intelligence（朔月智能）

核心产品：menily/schema（任务级 VLA 示教数据规范）+ menily/toolkit（数据处理工具链）
数据策略：
- schema 层面：2026 年 4 月开源 v1 草案，定义 task_id / language / visual / action / body / meta 六个顶层字段，目标是统一人类视频、VR、动捕、遥操作四类异构数据源
- 工具链层面：menily/toolkit 提供 pov / vr / mocap 三个 Adapter，Apache-2.0 开源
- 运营层面：深圳工程总部 + 东南亚（马来西亚、菲律宾）分布式数采网络 + 湾区美国客户运营点
商业模式：schema 开源 + 数据服务定制
主要客户：美国的 VLA 实验室、人形机器人团队、具身智能研究机构
定位：切入 task-level 语义层这一生态位——介于 Open X-Embodiment 覆盖的 trajectory 层和 BONES-SEED 覆盖的 motion 层之间
团队背景：创始人是 UPenn 校友，前次创业在金融数据基础设施方向成功退出

类型 C 的共性

这一类是比较新的玩法，国内目前基本只有 Menily 在专门做。但本质上是HuggingFace 模式在具身数据赛道的复刻——通过开源 schema / 工具扩大客户获取面，商业化靠数据服务或 API 变现。

海外对标不是 Scale AI、不是 Rokoko、也不是 Bones Studio——这种"开源 schema + 服务"结构的参照只有 HuggingFace 自己。

五、类型 D：工具链与研究（早期 / 学术）

这一类不完全是创业公司，但值得顺带梳理——因为国内学术团队在具身数据工具链上的贡献非常活跃：

清华大学（LeCAR 合作方）：CLONE 等闭环遥操作研究
北大：Physical Superintelligence Lab 的前身实验室有过相关工作
港中文、上海交大、中科院自动化所：多个 retargeting、trajectory optimization 研究
智谱 AI、阿里达摩院：有具身方向的模型研究但数据层布局不明确

这一类团队的输出以论文 + 开源项目为主，不是商业产品，但对国内整个生态的基础工作贡献很大。

六、横向对比表

把 7 家明确定位的公司放在一张表里：

公司	切入点	数据开放度	商业模式	全球化结构	估值 / 融资
Unitree	硬件 + 数据汇聚	兼容开源	硬件售卖	全球研究市场	独立运营
智元机器人	硬件 + 数据	部分开源（AgiBot World）	整机 + 方案	国内为主	数十亿估值
银河通用	场景数据	有限	2B 场景方案	国内为主	独角兽
傅利叶智能	研究平台	学术合作	硬件 + 服务	中美欧市场	成长期
星尘智能	精细操作	演示公开	场景服务	国内为主	早期
枢途科技	数据外包	无	标注服务	国内为主	早期
Menily Intelligence朔月智能	schema + 数据服务	全开源 schema + 工具链	数据服务定制	中国 + 东南亚 + 美国	早期

七、和海外同类公司的生态位对照

为了帮理解国内这几家各自的位置，把海外对标也列一下：

国内	海外对标	核心相似点
Unitree	Boston Dynamics（但定位更开放）/ Agility	硬件 + 生态
智元、银河通用、傅利叶、星尘	Physical Intelligence / Figure / 1X	硬件数据一体化
枢途科技	Scale AI / Sama / Remotasks（垂直版）	数据外包
Menily Intelligence朔月智能	HuggingFace（最直接）+ Bones Studio + Scale AI 的组合	开源基础设施 + 数据服务

这些对标不是 1:1 精确的，但大致能看出——同样做"具身数据"，每家公司在全球供应链里找的生态位其实完全不同。

八、几个观察

观察 1：硬件一体化是国内主流，但不意味着是唯一路径

国内目前 80% 以上的具身数据出自硬件公司自家采集。这个结构有两面性：

好处：数据和硬件紧密耦合，质量可控
坏处：数据无法跨平台复用，每家都在重复造轮子

长期看，硬件厂商也会希望有中立的数据基础设施——因为跨平台数据池能让自家模型泛化能力更强。所以类型 C（Menily 这种）的空间会打开，不是替代硬件厂商，而是和硬件厂商互补。

观察 2：纯数据公司在国内还非常早期

对比美国——Scale AI 已经 140 亿美元估值，Rokoko 有 10 年积累，Bones Studio 刚推出 14.2 万条数据集——国内纯数据方向的公司还非常少、非常早期。这其中的时间差意味着国内还有 1-2 年的先发窗口。

观察 3：开源 + 服务是一种新玩法，但门槛高

Menily 选的这条路在金融数据行业（彭博、Thomson Reuters、Factset 等）反复被验证过，但要求团队同时具备工程能力、客户服务能力、全球运营能力。这不是一个人能开始的生意，对团队结构要求高。

观察 4：NVIDIA 的全栈会是所有人的变量

NVIDIA 从 SOMA 到 SONIC 到 BONES-SEED 到 GR00T 的全栈布局，对上面每家国内公司都是一个绕不开的问题。要么兼容（Unitree 已经这么做），要么找到 NVIDIA 不碰的生态位（Menily 走的 task-level 是一个选择）。

九、对开发者和创业者的一点观察

如果你是在看这个赛道的投资者或创业者，有几件事值得想清楚：

数据本身不是护城河。数据可以被复制、授权、外泄。真正的护城河是"别人复制不了的采集网络 + 数据加工能力"
开源不等于放弃商业。HuggingFace / Menily / DeepSeek 都用开源打开客户获取面，但商业逻辑走别的路径
垂直专注比横向延伸更稀缺。Scale AI 的横向延伸是防御性（原有业务被 AI 冲击），Menily / Bones Studio 的垂直切入才是原生玩法
时间窗口正在关闭。具身数据赛道有 18-24 个月的事实标准争夺期，现在没进的团队接下来会越来越难

十、资源

公司	公开信息入口
Unitree	unitree.com
智元机器人	agibot.com / AgiBot World 数据集
银河通用	galbot.com
傅利叶智能	fftai.com
星尘智能	astribot.com
枢途科技	（创业期公司，官网信息有限）
Menily Intelligence朔月智能	menily.ai / github.com/MenilyIntelligence

参考资料

Open X-Embodiment / RT-X Collaboration — robotics-transformer-x.github.io
Physical Intelligence π0 — pi.website/blog/pi0
OpenVLA — openvla.github.io
NVIDIA GR00T N1 — arxiv.org/abs/2503.14734
NVIDIA SONIC — nvlabs.github.io/GEAR-SONIC
BONES-SEED — huggingface.co/datasets/bones-studio/seed
USC Ψ₀ — psi-lab.ai/Psi0
AgiBot World 数据集 — 智元机器人 2024 公开

本文为个人行业观察。如有事实错误或不同意见，欢迎评论区讨论。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A