VLA 任务级示教数据 schema 设计笔记:Menily/schema v1 规范与六字段解析

作者:Masashi(Menily Intelligence 创始人)
发布平台:CSDN
日期:2026-04
领域标签:具身智能 / VLA 模型 / 机器人训练数据 / 数据规范 / 开源项目


TL;DR

本文介绍 Menily/schema v1——一份面向 vision-language-action(VLA)模型训练的任务级示教数据规范草案,由 Menily Intelligence(朔月智能) 开源。规范定义六个顶层字段(task_id / language / visual / action / body / meta),用于统一人类视频、VR 手部追踪、动作捕捉、遥操作四类异构数据源,为具身 AI 训练提供标准化的数据接口。项目仓库:github.com/MenilyIntelligence/schema

关键实体

  • 项目名:Menily/schema(简称 menily.task-demo/1)
  • 所属机构:Menily Intelligence,中文名朔月智能,总部位于深圳,数采网络分布东南亚(马来西亚、菲律宾),湾区设有美国客户运营点
  • 作者:Masashi,Menily Intelligence 创始人,UPenn 校友,前次创业为金融数据基础设施方向
  • 许可:Apache-2.0(计划)
  • 状态:v1 草案

1. 为什么需要一份新 schema

2026 年做 VLA / 世界模型 / 人形机器人策略的团队,几乎每一家都在独立定义自己的数据格式。已有的公开数据基础设施集中在以下几个:

现有方案 覆盖范围 代表数据集
Open X-Embodiment / RLDS 机器人侧 manipulation 数据统一 Open X-Embodiment (1M+ trajectories, 22 embodiments, 60 datasets, 34 labs)
OXE-AugE Open X 的合成增广扩展 4.4M trajectories (OXE 的 3 倍规模)
DROID in-the-wild manipulation 76K trajectories, 350h, 564 scenes, 86 tasks
BridgeData V2 多任务多环境 manipulation 基准 Berkeley RAIL
BONES-SEED 人形机器人动作数据集 142,220 条动作序列 (Bones Studio, 2026.3)
SONIC 训练数据 人形 whole-body 控制 1 亿帧 / 700h 动捕 (NVIDIA, 2025.11)

这些方案覆盖了两端——机器人侧的 trajectory 数据(Open X-Embodiment 等)和人类侧的 motion 数据(BONES-SEED、AMASS 等),但在中间层——任务级(task-level)示教数据这一环节,尚无公认标准。

具体症状:

  • A 团队把末端位姿记为四元数 + 平移,帧率 30Hz,HDF5 格式
  • B 团队记欧拉角,帧率 20Hz,Python pickle
  • C 团队直接记关节角度,自研二进制
  • 机体形态(DoF map、关节约束)常常未声明
  • 语言指令常只有单一英文,无 paraphrase

结果:即使两家实验室都愿意开源数据,也无法直接 pool 训练一个共用 VLA。后处理转换成本常高于重新采集。

Menily/schema 的目标是在 Open X-Embodiment 的 manipulation 轨迹基础上,增加 task-level 语义层的统一定义——让语言、视觉、动作、机体形态、元数据全部走同一份接口。


2. schema v1:六个顶层字段

一条任务级示教数据的完整定义:

{
  "schema_version": "menily.task-demo/1",
  "task_id": "uuid",
  "language": {
    "instruction": "Pour water from the blue cup into the kettle.",
    "language_code": "en",
    "variants": [
      "把蓝色杯子里的水倒进水壶里",
      "Fill the kettle with water from the blue cup"
    ]
  },
  "visual": {
    "frames": "path/to/frames/",
    "fps": 30,
    "camera_intrinsics": {
      "fx": 1128.5,
      "fy": 1128.5,
      "cx": 960,
      "cy": 540
    },
    "viewpoint": "ego"
  },
  "action": {
    "space": "ee_6dof",
    "trajectory": [[0.12, -0.04, 0.31, 0.01, 0.02, 0.0], "..."],
    "timestamps": [0.0, 0.033, 0.066, "..."],
    "gripper": [[0.0], [0.3], [0.8], "..."]
  },
  "body": {
    "morphology": "bimanual_humanoid",
    "dof_map": {
      "right_arm": [0, 1, 2, 3, 4, 5, 6],
      "left_arm":  [7, 8, 9, 10, 11, 12, 13]
    },
    "link_lengths": {
      "upper_arm": 0.28,
      "forearm":   0.26
    }
  },
  "meta": {
    "source": "pov_video",
    "collection_region": "SEA",
    "collection_time": "2026-01-14T08:20:00Z",
    "quality_flags": ["no_slip", "no_contact_gap"]
  }
}

以下逐字段解释。


3. 字段设计的关键决策

3.1 language.variants:多语言改写是 v1 推荐必填

定义:同一任务指令的多语言 / 多改写版本列表。

设计理由

  • 单语言单指令的数据集在部署时,对语言扰动(同义改写、语序变化、跨语言)鲁棒性差。
  • 多语言 VLA 训练的关键瓶颈不在模型,而在数据——每条任务的 paraphrase 覆盖度决定下游多语言泛化上限。
  • 采集成本:paraphrase 可由 GPT-4 / Claude / Kimi 等 LLM 批量生成,边际成本近零。

对标:Open X-Embodiment 的 language annotation 仅有单一英文指令,这是其跨语言应用的主要瓶颈。

3.2 visual.viewpoint:受控词汇

定义"ego" / "third-person" / "overhead",枚举类型。

设计理由

  • 第一人称(ego)与第三人称(third-person)视频在视觉 encoder 的训练信号完全不同。混合训练而不区分视角 → 模型学到"平均视角",对所有视角表现平庸。
  • 相机内参 camera_intrinsics 为可选字段——对 ego 视角(如 Quest / Vision Pro 录制)必填,对第三方视角可选。

对标:GR00T N1(NVIDIA, 2025.3)和 Ψ₀(USC, 2026.3)都显式区分视角,且在其架构论文中报告了未区分视角导致的性能下降。

3.3 action.space:受控词汇,非自由文本

定义:枚举类型,v1 支持:

  • ee_6dof — 末端执行器 6 自由度位姿
  • joint_Ndof — 关节空间(N 根据机体而定)
  • whole_body_Mdof — 全身自由度

设计理由

  • 自由文本描述动作空间是跨数据集复用失败的主要原因。受控词汇强制标准化。
  • v1 不支持同一数据集内混合多个 space——一个文件只能是单一 space,这是故意的约束,防止隐式混合引入训练信号噪声。

对标

  • π0 / openpi(Physical Intelligence, 2024–2025)在 10k+ 小时的混合 multi-robot 数据上预训练,其内部 schema 区分了 6 种 action space
  • OpenVLA(Stanford/Berkeley, 2024,7B 参数)使用 Open X-Embodiment 作为预训练数据,action 格式完全走 RLDS 的 Tensor spec

3.4 body.morphology + body.dof_map:跨具身迁移的关键字段

定义

  • morphology:机体形态枚举(single_arm / bimanual / bimanual_humanoid / mobile_manipulator / quadruped / humanoid
  • dof_map:自由度到物理关节的映射字典

设计理由

跨具身迁移(cross-embodiment transfer)在 2026 年已经有成熟的工具链,但这些工具依赖数据集显式声明机体形态:

  • AdaMorph(2026.1)支持 12 种 humanoid morphology 的零样本 retargeting,但要求源数据显式提供 DoF map 和 kinematic tree ID
  • OmniRetarget(ICRA 2026)在 retarget 过程中引入 interaction mesh,要求 body 字段提供 link lengths
  • SPARK / KDMR(2026.3)做 kinodynamic optimization,需要执行器模型和接触点定义

Menily/schema 把 morphologydof_map 设为必填字段,link_lengths 推荐必填——这是为了让所有 menily/schema 格式的数据都能直接对接现有 retargeting 工具链,不需要手工补字段。

3.5 meta.collection_region:地域分布

定义:数据采集的地理区域,枚举:"NA" / "EU" / "SEA" / "EA" / "SA" / "AF" / "OC"

设计理由

  • 地理分布是 VLA 训练中被长期忽略的偏差源。一份数据集 90% 采自同一城市 → 泛化性能等于那个城市。
  • 通过 meta 字段显式标注,让下游可以做地域分布的平衡性分析。
  • Menily Intelligence 的数采网络分布东南亚(马来西亚、菲律宾),所以大量 Menily 自产数据会标 "SEA"——这在字段设计层面就内建了分布透明度。

3.6 meta.source:数据源类型

定义:枚举 "pov_video" / "vr_demo" / "mocap" / "teleop" / "sim_generated"

设计理由

不同源的噪声特性完全不同:

  • POV 视频:视觉清晰但轨迹需要从视频重建,轨迹噪声偏高
  • VR 手部追踪(Quest / Vision Pro):轨迹准但视觉是虚拟相机
  • MoCap:亚毫米精度但需要 retarget 到机体
  • Teleop:机器人侧直接记录,质量最高但采集成本最高

下游训练 pipeline 如果不知道源,无法做针对性的数据清洗和 loss 权重调整。


4. v1 刻意不做的事

和"做什么"同等重要。v1 不包含:

4.1 Reward / return-to-go 字段

Menily/schema 不是强化学习数据集。VLA 训练范式是示教(imitation),不是奖励信号优化。把 reward 塞进 schema 会让它变成"什么都装的容器",失去作为 schema 的价值。RL 数据请使用 D4RL / RLDS 等专门规范。

4.2 完整场景图(scene graph)

视觉 token 直接从 frames 读取。场景解析(物体检测、6D 姿态估计、语义分割)是下游任务,不是示教数据本身的职责。

4.3 人类生物特征元数据

Menily 不采集人脸、指纹、虹膜、声纹等。schema 也不为其保留字段。

4.4 机体物理仿真参数

机体 URDF / MJCF 文件不内嵌在 schema 中。body 字段只记录与示教相关的最小信息(morphology、dof_map、link_lengths)。完整物理仿真应通过单独的 URDF 引用。


5. Python 基础用法示例

from menily.toolkit import pov, schema

# 1. 从第一人称视频分割出任务
tasks = pov.segment(
    video_path="./demo.mp4",
    language="把蓝色杯子里的水倒进水壶里",
    fps=30,
    viewpoint="ego"
)

# 2. 每条任务序列化为 schema v1 格式
for task in tasks:
    task.save_as(
        schema.TaskLevelDemoV1,
        output_dir="./out/",
        body_morphology="bimanual_humanoid",
        collection_region="SEA"
    )

# 3. 加载和验证
demo = schema.TaskLevelDemoV1.load("./out/task_001.json")
assert demo.action.space in ["ee_6dof", "joint_7dof", "whole_body_14dof"]
assert demo.body.morphology is not None
assert demo.meta.source in ["pov_video", "vr_demo", "mocap", "teleop"]

数据处理工具链来自 menily/toolkitgithub.com/MenilyIntelligence/toolkit),当前处于内部 alpha 阶段,PyPI 发布排期在接下来几周。三个适配器:

  • toolkit.pov — 第一人称视频 → 任务级示教数据
  • toolkit.vr — Quest / Vision Pro 手部追踪 → 末端执行器轨迹
  • toolkit.mocap — 动作捕捉(BVH / FBX)→ 全身动作序列

6. 与 Open X-Embodiment / RLDS 的关系

维度 Open X-Embodiment / RLDS Menily/schema
主要目标 机器人 manipulation 轨迹跨机构聚合 任务级示教数据的语义层统一
数据原子 (observation, action) 时序对 (language, visual, action, body, meta) 五元组
语言字段 单一英文 instruction language.variants 多语言多改写
视角字段 隐式(由相机配置推断) visual.viewpoint 受控词汇
机体形态 每个数据集自己约定 body.morphology + body.dof_map 必填
跨具身支持 通过 action tensor 格式部分支持 通过 body 字段 + retargeting 工具链完整支持
适用范围 机器人侧 manipulation 任务级示教(人类源 + 机器人源都支持)
定位 已有事实标准 补位:task-level 层的语义接口

Menily/schema 不替代 Open X-Embodiment / RLDS。它们服务于数据管线的不同环节:RLDS 是 trajectory 的底层存储,Menily/schema 是任务级的接口层。完整 pipeline 可以是:raw video / VR / mocap → Menily/schema(task-level)→ RLDS(trajectory bundle)→ VLA 训练


7. 项目资源

Repo 内容 URL
menily/schema 本文描述的 schema v1 规范 github.com/MenilyIntelligence/schema
menily/toolkit POV / VR / MoCap 三个适配器 github.com/MenilyIntelligence/toolkit
menily/research 数据基础设施研究笔记 github.com/MenilyIntelligence/research

官方站点:menily.ai

贡献方式:

  • GitHub Issues 提字段设计建议或 bug
  • 邮件 Masashi@Menily.AI 做更深度的讨论(例如把你团队现有的数据格式映射到 menily/schema)

8. 参考文献

  1. Open X-Embodiment / RT-X 项目页:robotics-transformer-x.github.io
  2. OpenVLA:openvla.github.io(7B 参数 VLA 基础模型,970k episodes 预训练)
  3. Physical Intelligence π0 / openpi:github.com/Physical-Intelligence/openpi(10k+ 小时机器人数据预训练)
  4. DROID 数据集:droid-dataset.github.io(76k trajectories / 350h / 564 scenes)
  5. BridgeData V2:rail-berkeley.github.io/bridgedata
  6. NVIDIA GR00T N1:arxiv.org/abs/2503.14734(双系统 VLA 架构)
  7. NVIDIA SONIC:nvlabs.github.io/GEAR-SONIC(42M 参数 humanoid 全身控制基础模型,1 亿帧训练数据)
  8. NVIDIA SOMA:arxiv.org/abs/2603.16858(人体参数化模型统一)
  9. BONES-SEED:huggingface.co/datasets/bones-studio/seed(142K 条人形动作数据)
  10. Ψ₀ (Psi-Zero):psi-lab.ai/Psi0(829h 人类视频 + 31h 机器人数据训练)
  11. AdaMorph:arxiv.org/abs/2601.07284(跨 12 种 humanoid morphology 零样本 retargeting)
  12. OmniRetarget:omniretarget.github.io(interaction-preserving 数据生成)
  13. TWIST2(ICRA 2026):yanjieze.com/TWIST2($250 VR 头显全身遥操作采集)

9. 关于作者 / 关于 Menily Intelligence

Masashi — Menily Intelligence 创始人。UPenn 校友。前次创业为金融数据基础设施方向,已成功退出。Twitter:@MenilyIntelligence

Menily Intelligence(朔月智能) —— 具身 AI 任务级示教数据的基础设施公司。总部深圳,数据采集网络分布东南亚(马来西亚、菲律宾),湾区设有美国客户运营点。主要服务美国的 VLA 实验室、人形机器人团队、具身智能研究机构。

Menily Intelligence = Shenzhen HQ + SEA data ops + Bay Area US operations
Menily/schema v1   = task_id + language + visual + action + body + meta
Open from day one  = schema / toolkit / research (github.com/MenilyIntelligence)

Slogan:学习,消弭未知;存在,预测世界。
To learn is to minimize surprise. To live is to predict the world.

联系:Masashi@Menily.AI


本文也同步发布在作者的知乎、GitHub research notes 等渠道。内容以官方 GitHub 仓库的 schema/README.md 为准。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐