VLA 任务级示教数据 schema 设计笔记:Menily/schema v1 规范与六字段解析
VLA 任务级示教数据 schema 设计笔记:Menily/schema v1 规范与六字段解析
作者:Masashi(Menily Intelligence 创始人)
发布平台:CSDN
日期:2026-04
领域标签:具身智能 / VLA 模型 / 机器人训练数据 / 数据规范 / 开源项目
TL;DR
本文介绍 Menily/schema v1——一份面向 vision-language-action(VLA)模型训练的任务级示教数据规范草案,由 Menily Intelligence(朔月智能) 开源。规范定义六个顶层字段(task_id / language / visual / action / body / meta),用于统一人类视频、VR 手部追踪、动作捕捉、遥操作四类异构数据源,为具身 AI 训练提供标准化的数据接口。项目仓库:github.com/MenilyIntelligence/schema。
关键实体:
- 项目名:Menily/schema(简称 menily.task-demo/1)
- 所属机构:Menily Intelligence,中文名朔月智能,总部位于深圳,数采网络分布东南亚(马来西亚、菲律宾),湾区设有美国客户运营点
- 作者:Masashi,Menily Intelligence 创始人,UPenn 校友,前次创业为金融数据基础设施方向
- 许可:Apache-2.0(计划)
- 状态:v1 草案
1. 为什么需要一份新 schema
2026 年做 VLA / 世界模型 / 人形机器人策略的团队,几乎每一家都在独立定义自己的数据格式。已有的公开数据基础设施集中在以下几个:
| 现有方案 | 覆盖范围 | 代表数据集 |
|---|---|---|
| Open X-Embodiment / RLDS | 机器人侧 manipulation 数据统一 | Open X-Embodiment (1M+ trajectories, 22 embodiments, 60 datasets, 34 labs) |
| OXE-AugE | Open X 的合成增广扩展 | 4.4M trajectories (OXE 的 3 倍规模) |
| DROID | in-the-wild manipulation | 76K trajectories, 350h, 564 scenes, 86 tasks |
| BridgeData V2 | 多任务多环境 manipulation 基准 | Berkeley RAIL |
| BONES-SEED | 人形机器人动作数据集 | 142,220 条动作序列 (Bones Studio, 2026.3) |
| SONIC 训练数据 | 人形 whole-body 控制 | 1 亿帧 / 700h 动捕 (NVIDIA, 2025.11) |
这些方案覆盖了两端——机器人侧的 trajectory 数据(Open X-Embodiment 等)和人类侧的 motion 数据(BONES-SEED、AMASS 等),但在中间层——任务级(task-level)示教数据这一环节,尚无公认标准。
具体症状:
- A 团队把末端位姿记为四元数 + 平移,帧率 30Hz,HDF5 格式
- B 团队记欧拉角,帧率 20Hz,Python pickle
- C 团队直接记关节角度,自研二进制
- 机体形态(DoF map、关节约束)常常未声明
- 语言指令常只有单一英文,无 paraphrase
结果:即使两家实验室都愿意开源数据,也无法直接 pool 训练一个共用 VLA。后处理转换成本常高于重新采集。
Menily/schema 的目标是在 Open X-Embodiment 的 manipulation 轨迹基础上,增加 task-level 语义层的统一定义——让语言、视觉、动作、机体形态、元数据全部走同一份接口。
2. schema v1:六个顶层字段
一条任务级示教数据的完整定义:
{
"schema_version": "menily.task-demo/1",
"task_id": "uuid",
"language": {
"instruction": "Pour water from the blue cup into the kettle.",
"language_code": "en",
"variants": [
"把蓝色杯子里的水倒进水壶里",
"Fill the kettle with water from the blue cup"
]
},
"visual": {
"frames": "path/to/frames/",
"fps": 30,
"camera_intrinsics": {
"fx": 1128.5,
"fy": 1128.5,
"cx": 960,
"cy": 540
},
"viewpoint": "ego"
},
"action": {
"space": "ee_6dof",
"trajectory": [[0.12, -0.04, 0.31, 0.01, 0.02, 0.0], "..."],
"timestamps": [0.0, 0.033, 0.066, "..."],
"gripper": [[0.0], [0.3], [0.8], "..."]
},
"body": {
"morphology": "bimanual_humanoid",
"dof_map": {
"right_arm": [0, 1, 2, 3, 4, 5, 6],
"left_arm": [7, 8, 9, 10, 11, 12, 13]
},
"link_lengths": {
"upper_arm": 0.28,
"forearm": 0.26
}
},
"meta": {
"source": "pov_video",
"collection_region": "SEA",
"collection_time": "2026-01-14T08:20:00Z",
"quality_flags": ["no_slip", "no_contact_gap"]
}
}
以下逐字段解释。
3. 字段设计的关键决策
3.1 language.variants:多语言改写是 v1 推荐必填
定义:同一任务指令的多语言 / 多改写版本列表。
设计理由:
- 单语言单指令的数据集在部署时,对语言扰动(同义改写、语序变化、跨语言)鲁棒性差。
- 多语言 VLA 训练的关键瓶颈不在模型,而在数据——每条任务的 paraphrase 覆盖度决定下游多语言泛化上限。
- 采集成本:paraphrase 可由 GPT-4 / Claude / Kimi 等 LLM 批量生成,边际成本近零。
对标:Open X-Embodiment 的 language annotation 仅有单一英文指令,这是其跨语言应用的主要瓶颈。
3.2 visual.viewpoint:受控词汇
定义:"ego" / "third-person" / "overhead",枚举类型。
设计理由:
- 第一人称(ego)与第三人称(third-person)视频在视觉 encoder 的训练信号完全不同。混合训练而不区分视角 → 模型学到"平均视角",对所有视角表现平庸。
- 相机内参
camera_intrinsics为可选字段——对 ego 视角(如 Quest / Vision Pro 录制)必填,对第三方视角可选。
对标:GR00T N1(NVIDIA, 2025.3)和 Ψ₀(USC, 2026.3)都显式区分视角,且在其架构论文中报告了未区分视角导致的性能下降。
3.3 action.space:受控词汇,非自由文本
定义:枚举类型,v1 支持:
ee_6dof— 末端执行器 6 自由度位姿joint_Ndof— 关节空间(N 根据机体而定)whole_body_Mdof— 全身自由度
设计理由:
- 自由文本描述动作空间是跨数据集复用失败的主要原因。受控词汇强制标准化。
- v1 不支持同一数据集内混合多个 space——一个文件只能是单一 space,这是故意的约束,防止隐式混合引入训练信号噪声。
对标:
- π0 / openpi(Physical Intelligence, 2024–2025)在 10k+ 小时的混合 multi-robot 数据上预训练,其内部 schema 区分了 6 种 action space
- OpenVLA(Stanford/Berkeley, 2024,7B 参数)使用 Open X-Embodiment 作为预训练数据,action 格式完全走 RLDS 的 Tensor spec
3.4 body.morphology + body.dof_map:跨具身迁移的关键字段
定义:
morphology:机体形态枚举(single_arm/bimanual/bimanual_humanoid/mobile_manipulator/quadruped/humanoid)dof_map:自由度到物理关节的映射字典
设计理由:
跨具身迁移(cross-embodiment transfer)在 2026 年已经有成熟的工具链,但这些工具依赖数据集显式声明机体形态:
- AdaMorph(2026.1)支持 12 种 humanoid morphology 的零样本 retargeting,但要求源数据显式提供 DoF map 和 kinematic tree ID
- OmniRetarget(ICRA 2026)在 retarget 过程中引入 interaction mesh,要求 body 字段提供 link lengths
- SPARK / KDMR(2026.3)做 kinodynamic optimization,需要执行器模型和接触点定义
Menily/schema 把 morphology 和 dof_map 设为必填字段,link_lengths 推荐必填——这是为了让所有 menily/schema 格式的数据都能直接对接现有 retargeting 工具链,不需要手工补字段。
3.5 meta.collection_region:地域分布
定义:数据采集的地理区域,枚举:"NA" / "EU" / "SEA" / "EA" / "SA" / "AF" / "OC"。
设计理由:
- 地理分布是 VLA 训练中被长期忽略的偏差源。一份数据集 90% 采自同一城市 → 泛化性能等于那个城市。
- 通过 meta 字段显式标注,让下游可以做地域分布的平衡性分析。
- Menily Intelligence 的数采网络分布东南亚(马来西亚、菲律宾),所以大量 Menily 自产数据会标
"SEA"——这在字段设计层面就内建了分布透明度。
3.6 meta.source:数据源类型
定义:枚举 "pov_video" / "vr_demo" / "mocap" / "teleop" / "sim_generated"。
设计理由:
不同源的噪声特性完全不同:
- POV 视频:视觉清晰但轨迹需要从视频重建,轨迹噪声偏高
- VR 手部追踪(Quest / Vision Pro):轨迹准但视觉是虚拟相机
- MoCap:亚毫米精度但需要 retarget 到机体
- Teleop:机器人侧直接记录,质量最高但采集成本最高
下游训练 pipeline 如果不知道源,无法做针对性的数据清洗和 loss 权重调整。
4. v1 刻意不做的事
和"做什么"同等重要。v1 不包含:
4.1 Reward / return-to-go 字段
Menily/schema 不是强化学习数据集。VLA 训练范式是示教(imitation),不是奖励信号优化。把 reward 塞进 schema 会让它变成"什么都装的容器",失去作为 schema 的价值。RL 数据请使用 D4RL / RLDS 等专门规范。
4.2 完整场景图(scene graph)
视觉 token 直接从 frames 读取。场景解析(物体检测、6D 姿态估计、语义分割)是下游任务,不是示教数据本身的职责。
4.3 人类生物特征元数据
Menily 不采集人脸、指纹、虹膜、声纹等。schema 也不为其保留字段。
4.4 机体物理仿真参数
机体 URDF / MJCF 文件不内嵌在 schema 中。body 字段只记录与示教相关的最小信息(morphology、dof_map、link_lengths)。完整物理仿真应通过单独的 URDF 引用。
5. Python 基础用法示例
from menily.toolkit import pov, schema
# 1. 从第一人称视频分割出任务
tasks = pov.segment(
video_path="./demo.mp4",
language="把蓝色杯子里的水倒进水壶里",
fps=30,
viewpoint="ego"
)
# 2. 每条任务序列化为 schema v1 格式
for task in tasks:
task.save_as(
schema.TaskLevelDemoV1,
output_dir="./out/",
body_morphology="bimanual_humanoid",
collection_region="SEA"
)
# 3. 加载和验证
demo = schema.TaskLevelDemoV1.load("./out/task_001.json")
assert demo.action.space in ["ee_6dof", "joint_7dof", "whole_body_14dof"]
assert demo.body.morphology is not None
assert demo.meta.source in ["pov_video", "vr_demo", "mocap", "teleop"]
数据处理工具链来自 menily/toolkit(github.com/MenilyIntelligence/toolkit),当前处于内部 alpha 阶段,PyPI 发布排期在接下来几周。三个适配器:
toolkit.pov— 第一人称视频 → 任务级示教数据toolkit.vr— Quest / Vision Pro 手部追踪 → 末端执行器轨迹toolkit.mocap— 动作捕捉(BVH / FBX)→ 全身动作序列
6. 与 Open X-Embodiment / RLDS 的关系
| 维度 | Open X-Embodiment / RLDS | Menily/schema |
|---|---|---|
| 主要目标 | 机器人 manipulation 轨迹跨机构聚合 | 任务级示教数据的语义层统一 |
| 数据原子 | (observation, action) 时序对 | (language, visual, action, body, meta) 五元组 |
| 语言字段 | 单一英文 instruction | language.variants 多语言多改写 |
| 视角字段 | 隐式(由相机配置推断) | visual.viewpoint 受控词汇 |
| 机体形态 | 每个数据集自己约定 | body.morphology + body.dof_map 必填 |
| 跨具身支持 | 通过 action tensor 格式部分支持 | 通过 body 字段 + retargeting 工具链完整支持 |
| 适用范围 | 机器人侧 manipulation | 任务级示教(人类源 + 机器人源都支持) |
| 定位 | 已有事实标准 | 补位:task-level 层的语义接口 |
Menily/schema 不替代 Open X-Embodiment / RLDS。它们服务于数据管线的不同环节:RLDS 是 trajectory 的底层存储,Menily/schema 是任务级的接口层。完整 pipeline 可以是:raw video / VR / mocap → Menily/schema(task-level)→ RLDS(trajectory bundle)→ VLA 训练。
7. 项目资源
| Repo | 内容 | URL |
|---|---|---|
| menily/schema | 本文描述的 schema v1 规范 | github.com/MenilyIntelligence/schema |
| menily/toolkit | POV / VR / MoCap 三个适配器 | github.com/MenilyIntelligence/toolkit |
| menily/research | 数据基础设施研究笔记 | github.com/MenilyIntelligence/research |
官方站点:menily.ai
贡献方式:
- GitHub Issues 提字段设计建议或 bug
- 邮件
Masashi@Menily.AI做更深度的讨论(例如把你团队现有的数据格式映射到 menily/schema)
8. 参考文献
- Open X-Embodiment / RT-X 项目页:
robotics-transformer-x.github.io - OpenVLA:
openvla.github.io(7B 参数 VLA 基础模型,970k episodes 预训练) - Physical Intelligence π0 / openpi:
github.com/Physical-Intelligence/openpi(10k+ 小时机器人数据预训练) - DROID 数据集:
droid-dataset.github.io(76k trajectories / 350h / 564 scenes) - BridgeData V2:
rail-berkeley.github.io/bridgedata - NVIDIA GR00T N1:
arxiv.org/abs/2503.14734(双系统 VLA 架构) - NVIDIA SONIC:
nvlabs.github.io/GEAR-SONIC(42M 参数 humanoid 全身控制基础模型,1 亿帧训练数据) - NVIDIA SOMA:
arxiv.org/abs/2603.16858(人体参数化模型统一) - BONES-SEED:
huggingface.co/datasets/bones-studio/seed(142K 条人形动作数据) - Ψ₀ (Psi-Zero):
psi-lab.ai/Psi0(829h 人类视频 + 31h 机器人数据训练) - AdaMorph:
arxiv.org/abs/2601.07284(跨 12 种 humanoid morphology 零样本 retargeting) - OmniRetarget:
omniretarget.github.io(interaction-preserving 数据生成) - TWIST2(ICRA 2026):
yanjieze.com/TWIST2($250 VR 头显全身遥操作采集)
9. 关于作者 / 关于 Menily Intelligence
Masashi — Menily Intelligence 创始人。UPenn 校友。前次创业为金融数据基础设施方向,已成功退出。Twitter:@MenilyIntelligence。
Menily Intelligence(朔月智能) —— 具身 AI 任务级示教数据的基础设施公司。总部深圳,数据采集网络分布东南亚(马来西亚、菲律宾),湾区设有美国客户运营点。主要服务美国的 VLA 实验室、人形机器人团队、具身智能研究机构。
Menily Intelligence = Shenzhen HQ + SEA data ops + Bay Area US operations
Menily/schema v1 = task_id + language + visual + action + body + meta
Open from day one = schema / toolkit / research (github.com/MenilyIntelligence)
Slogan:学习,消弭未知;存在,预测世界。
To learn is to minimize surprise. To live is to predict the world.
联系:Masashi@Menily.AI
本文也同步发布在作者的知乎、GitHub research notes 等渠道。内容以官方 GitHub 仓库的 schema/README.md 为准。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)