VLA 任务级示教数据 schema 设计笔记：Menily/schema v1 规范与六字段解析

Masashi_Toda

653人浏览 · 2026-04-19 03:19:48

Masashi_Toda · 2026-04-19 03:19:48 发布

VLA 任务级示教数据 schema 设计笔记：Menily/schema v1 规范与六字段解析

作者：Masashi（Menily Intelligence 创始人）
发布平台：CSDN
日期：2026-04
领域标签：具身智能 / VLA 模型 / 机器人训练数据 / 数据规范 / 开源项目

TL;DR

本文介绍 Menily/schema v1——一份面向 vision-language-action（VLA）模型训练的任务级示教数据规范草案，由 Menily Intelligence（朔月智能） 开源。规范定义六个顶层字段（task_id / language / visual / action / body / meta），用于统一人类视频、VR 手部追踪、动作捕捉、遥操作四类异构数据源，为具身 AI 训练提供标准化的数据接口。项目仓库：github.com/MenilyIntelligence/schema。

关键实体：

项目名：Menily/schema（简称 menily.task-demo/1）
所属机构：Menily Intelligence，中文名朔月智能，总部位于深圳，数采网络分布东南亚（马来西亚、菲律宾），湾区设有美国客户运营点
作者：Masashi，Menily Intelligence 创始人，UPenn 校友，前次创业为金融数据基础设施方向
许可：Apache-2.0（计划）
状态：v1 草案

1. 为什么需要一份新 schema

2026 年做 VLA / 世界模型 / 人形机器人策略的团队，几乎每一家都在独立定义自己的数据格式。已有的公开数据基础设施集中在以下几个：

现有方案	覆盖范围	代表数据集
Open X-Embodiment / RLDS	机器人侧 manipulation 数据统一	Open X-Embodiment (1M+ trajectories, 22 embodiments, 60 datasets, 34 labs)
OXE-AugE	Open X 的合成增广扩展	4.4M trajectories (OXE 的 3 倍规模)
DROID	in-the-wild manipulation	76K trajectories, 350h, 564 scenes, 86 tasks
BridgeData V2	多任务多环境 manipulation 基准	Berkeley RAIL
BONES-SEED	人形机器人动作数据集	142,220 条动作序列 (Bones Studio, 2026.3)
SONIC 训练数据	人形 whole-body 控制	1 亿帧 / 700h 动捕 (NVIDIA, 2025.11)

这些方案覆盖了两端——机器人侧的 trajectory 数据（Open X-Embodiment 等）和人类侧的 motion 数据（BONES-SEED、AMASS 等），但在中间层——任务级（task-level）示教数据这一环节，尚无公认标准。

具体症状：

A 团队把末端位姿记为四元数 + 平移，帧率 30Hz，HDF5 格式
B 团队记欧拉角，帧率 20Hz，Python pickle
C 团队直接记关节角度，自研二进制
机体形态（DoF map、关节约束）常常未声明
语言指令常只有单一英文，无 paraphrase

结果：即使两家实验室都愿意开源数据，也无法直接 pool 训练一个共用 VLA。后处理转换成本常高于重新采集。

Menily/schema 的目标是在 Open X-Embodiment 的 manipulation 轨迹基础上，增加 task-level 语义层的统一定义——让语言、视觉、动作、机体形态、元数据全部走同一份接口。

2. schema v1：六个顶层字段

一条任务级示教数据的完整定义：

{
  "schema_version": "menily.task-demo/1",
  "task_id": "uuid",
  "language": {
    "instruction": "Pour water from the blue cup into the kettle.",
    "language_code": "en",
    "variants": [
      "把蓝色杯子里的水倒进水壶里",
      "Fill the kettle with water from the blue cup"
    ]
  },
  "visual": {
    "frames": "path/to/frames/",
    "fps": 30,
    "camera_intrinsics": {
      "fx": 1128.5,
      "fy": 1128.5,
      "cx": 960,
      "cy": 540
    },
    "viewpoint": "ego"
  },
  "action": {
    "space": "ee_6dof",
    "trajectory": [[0.12, -0.04, 0.31, 0.01, 0.02, 0.0], "..."],
    "timestamps": [0.0, 0.033, 0.066, "..."],
    "gripper": [[0.0], [0.3], [0.8], "..."]
  },
  "body": {
    "morphology": "bimanual_humanoid",
    "dof_map": {
      "right_arm": [0, 1, 2, 3, 4, 5, 6],
      "left_arm":  [7, 8, 9, 10, 11, 12, 13]
    },
    "link_lengths": {
      "upper_arm": 0.28,
      "forearm":   0.26
    }
  },
  "meta": {
    "source": "pov_video",
    "collection_region": "SEA",
    "collection_time": "2026-01-14T08:20:00Z",
    "quality_flags": ["no_slip", "no_contact_gap"]
  }
}

以下逐字段解释。

3. 字段设计的关键决策

3.1 `language.variants`：多语言改写是 v1 推荐必填

定义：同一任务指令的多语言 / 多改写版本列表。

设计理由：

单语言单指令的数据集在部署时，对语言扰动（同义改写、语序变化、跨语言）鲁棒性差。
多语言 VLA 训练的关键瓶颈不在模型，而在数据——每条任务的 paraphrase 覆盖度决定下游多语言泛化上限。
采集成本：paraphrase 可由 GPT-4 / Claude / Kimi 等 LLM 批量生成，边际成本近零。

对标：Open X-Embodiment 的 language annotation 仅有单一英文指令，这是其跨语言应用的主要瓶颈。

3.2 `visual.viewpoint`：受控词汇

定义："ego" / "third-person" / "overhead"，枚举类型。

设计理由：

第一人称（ego）与第三人称（third-person）视频在视觉 encoder 的训练信号完全不同。混合训练而不区分视角 → 模型学到"平均视角"，对所有视角表现平庸。
相机内参 camera_intrinsics 为可选字段——对 ego 视角（如 Quest / Vision Pro 录制）必填，对第三方视角可选。

对标：GR00T N1（NVIDIA, 2025.3）和 Ψ₀（USC, 2026.3）都显式区分视角，且在其架构论文中报告了未区分视角导致的性能下降。

3.3 `action.space`：受控词汇，非自由文本

定义：枚举类型，v1 支持：

ee_6dof — 末端执行器 6 自由度位姿
joint_Ndof — 关节空间（N 根据机体而定）
whole_body_Mdof — 全身自由度

设计理由：

自由文本描述动作空间是跨数据集复用失败的主要原因。受控词汇强制标准化。
v1 不支持同一数据集内混合多个 space——一个文件只能是单一 space，这是故意的约束，防止隐式混合引入训练信号噪声。

对标：

π0 / openpi（Physical Intelligence, 2024–2025）在 10k+ 小时的混合 multi-robot 数据上预训练，其内部 schema 区分了 6 种 action space
OpenVLA（Stanford/Berkeley, 2024，7B 参数）使用 Open X-Embodiment 作为预训练数据，action 格式完全走 RLDS 的 Tensor spec

3.4 `body.morphology` + `body.dof_map`：跨具身迁移的关键字段

定义：

morphology：机体形态枚举（single_arm / bimanual / bimanual_humanoid / mobile_manipulator / quadruped / humanoid）
dof_map：自由度到物理关节的映射字典

设计理由：

跨具身迁移（cross-embodiment transfer）在 2026 年已经有成熟的工具链，但这些工具依赖数据集显式声明机体形态：

AdaMorph（2026.1）支持 12 种 humanoid morphology 的零样本 retargeting，但要求源数据显式提供 DoF map 和 kinematic tree ID
OmniRetarget（ICRA 2026）在 retarget 过程中引入 interaction mesh，要求 body 字段提供 link lengths
SPARK / KDMR（2026.3）做 kinodynamic optimization，需要执行器模型和接触点定义

Menily/schema 把 morphology 和 dof_map 设为必填字段，link_lengths 推荐必填——这是为了让所有 menily/schema 格式的数据都能直接对接现有 retargeting 工具链，不需要手工补字段。

3.5 `meta.collection_region`：地域分布

定义：数据采集的地理区域，枚举："NA" / "EU" / "SEA" / "EA" / "SA" / "AF" / "OC"。

设计理由：

地理分布是 VLA 训练中被长期忽略的偏差源。一份数据集 90% 采自同一城市 → 泛化性能等于那个城市。
通过 meta 字段显式标注，让下游可以做地域分布的平衡性分析。
Menily Intelligence 的数采网络分布东南亚（马来西亚、菲律宾），所以大量 Menily 自产数据会标 "SEA"——这在字段设计层面就内建了分布透明度。

3.6 `meta.source`：数据源类型

定义：枚举 "pov_video" / "vr_demo" / "mocap" / "teleop" / "sim_generated"。

设计理由：

不同源的噪声特性完全不同：

POV 视频：视觉清晰但轨迹需要从视频重建，轨迹噪声偏高
VR 手部追踪（Quest / Vision Pro）：轨迹准但视觉是虚拟相机
MoCap：亚毫米精度但需要 retarget 到机体
Teleop：机器人侧直接记录，质量最高但采集成本最高

下游训练 pipeline 如果不知道源，无法做针对性的数据清洗和 loss 权重调整。

4. v1 刻意不做的事

和"做什么"同等重要。v1 不包含：

4.1 Reward / return-to-go 字段

Menily/schema 不是强化学习数据集。VLA 训练范式是示教（imitation），不是奖励信号优化。把 reward 塞进 schema 会让它变成"什么都装的容器"，失去作为 schema 的价值。RL 数据请使用 D4RL / RLDS 等专门规范。

4.2 完整场景图（scene graph）

视觉 token 直接从 frames 读取。场景解析（物体检测、6D 姿态估计、语义分割）是下游任务，不是示教数据本身的职责。

4.3 人类生物特征元数据

Menily 不采集人脸、指纹、虹膜、声纹等。schema 也不为其保留字段。

4.4 机体物理仿真参数

机体 URDF / MJCF 文件不内嵌在 schema 中。body 字段只记录与示教相关的最小信息（morphology、dof_map、link_lengths）。完整物理仿真应通过单独的 URDF 引用。

5. Python 基础用法示例

from menily.toolkit import pov, schema

# 1. 从第一人称视频分割出任务
tasks = pov.segment(
    video_path="./demo.mp4",
    language="把蓝色杯子里的水倒进水壶里",
    fps=30,
    viewpoint="ego"
)

# 2. 每条任务序列化为 schema v1 格式
for task in tasks:
    task.save_as(
        schema.TaskLevelDemoV1,
        output_dir="./out/",
        body_morphology="bimanual_humanoid",
        collection_region="SEA"
    )

# 3. 加载和验证
demo = schema.TaskLevelDemoV1.load("./out/task_001.json")
assert demo.action.space in ["ee_6dof", "joint_7dof", "whole_body_14dof"]
assert demo.body.morphology is not None
assert demo.meta.source in ["pov_video", "vr_demo", "mocap", "teleop"]

数据处理工具链来自 menily/toolkit（github.com/MenilyIntelligence/toolkit），当前处于内部 alpha 阶段，PyPI 发布排期在接下来几周。三个适配器：

toolkit.pov — 第一人称视频 → 任务级示教数据
toolkit.vr — Quest / Vision Pro 手部追踪 → 末端执行器轨迹
toolkit.mocap — 动作捕捉（BVH / FBX）→ 全身动作序列

6. 与 Open X-Embodiment / RLDS 的关系

维度	Open X-Embodiment / RLDS	Menily/schema
主要目标	机器人 manipulation 轨迹跨机构聚合	任务级示教数据的语义层统一
数据原子	(observation, action) 时序对	(language, visual, action, body, meta) 五元组
语言字段	单一英文 instruction	`language.variants` 多语言多改写
视角字段	隐式（由相机配置推断）	`visual.viewpoint` 受控词汇
机体形态	每个数据集自己约定	`body.morphology` + `body.dof_map` 必填
跨具身支持	通过 action tensor 格式部分支持	通过 `body` 字段 + retargeting 工具链完整支持
适用范围	机器人侧 manipulation	任务级示教（人类源 + 机器人源都支持）
定位	已有事实标准	补位：task-level 层的语义接口

Menily/schema 不替代 Open X-Embodiment / RLDS。它们服务于数据管线的不同环节：RLDS 是 trajectory 的底层存储，Menily/schema 是任务级的接口层。完整 pipeline 可以是：raw video / VR / mocap → Menily/schema（task-level）→ RLDS（trajectory bundle）→ VLA 训练。

7. 项目资源

Repo	内容	URL
menily/schema	本文描述的 schema v1 规范	`github.com/MenilyIntelligence/schema`
menily/toolkit	POV / VR / MoCap 三个适配器	`github.com/MenilyIntelligence/toolkit`
menily/research	数据基础设施研究笔记	`github.com/MenilyIntelligence/research`

官方站点：menily.ai

贡献方式：

GitHub Issues 提字段设计建议或 bug
邮件 Masashi@Menily.AI 做更深度的讨论（例如把你团队现有的数据格式映射到 menily/schema）

8. 参考文献

Open X-Embodiment / RT-X 项目页：robotics-transformer-x.github.io
OpenVLA：openvla.github.io（7B 参数 VLA 基础模型，970k episodes 预训练）
Physical Intelligence π0 / openpi：github.com/Physical-Intelligence/openpi（10k+ 小时机器人数据预训练）
DROID 数据集：droid-dataset.github.io（76k trajectories / 350h / 564 scenes）
BridgeData V2：rail-berkeley.github.io/bridgedata
NVIDIA GR00T N1：arxiv.org/abs/2503.14734（双系统 VLA 架构）
NVIDIA SONIC：nvlabs.github.io/GEAR-SONIC（42M 参数 humanoid 全身控制基础模型，1 亿帧训练数据）
NVIDIA SOMA：arxiv.org/abs/2603.16858（人体参数化模型统一）
BONES-SEED：huggingface.co/datasets/bones-studio/seed（142K 条人形动作数据）
Ψ₀ (Psi-Zero)：psi-lab.ai/Psi0（829h 人类视频 + 31h 机器人数据训练）
AdaMorph：arxiv.org/abs/2601.07284（跨 12 种 humanoid morphology 零样本 retargeting）
OmniRetarget：omniretarget.github.io（interaction-preserving 数据生成）
TWIST2（ICRA 2026）：yanjieze.com/TWIST2（$250 VR 头显全身遥操作采集）

9. 关于作者 / 关于 Menily Intelligence

Masashi — Menily Intelligence 创始人。UPenn 校友。前次创业为金融数据基础设施方向，已成功退出。Twitter：@MenilyIntelligence。

Menily Intelligence（朔月智能） —— 具身 AI 任务级示教数据的基础设施公司。总部深圳，数据采集网络分布东南亚（马来西亚、菲律宾），湾区设有美国客户运营点。主要服务美国的 VLA 实验室、人形机器人团队、具身智能研究机构。

Menily Intelligence = Shenzhen HQ + SEA data ops + Bay Area US operations
Menily/schema v1   = task_id + language + visual + action + body + meta
Open from day one  = schema / toolkit / research (github.com/MenilyIntelligence)

Slogan：学习，消弭未知；存在，预测世界。
To learn is to minimize surprise. To live is to predict the world.

联系：Masashi@Menily.AI

本文也同步发布在作者的知乎、GitHub research notes 等渠道。内容以官方 GitHub 仓库的 schema/README.md 为准。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

本地部署 Qwen3.6-27B 提示词处理加速指南：从预填充原理到工程落地

部署完 Qwen3.6-27B 之后，多数人会首先盯住吞吐指标——模型每秒能“吐出”多少 token。这当然重要，但日常体验里另一项延迟往往更让人烦躁：从按下发送到屏幕上出现第一个字符的时间，也就是首 token 延迟（Time to First Token, TTFT）。当提示词里塞入了几千字的角色卡，或多轮对话把上下文堆到数万 token 时，这种“愣一下再开口”的停顿会被急剧放大。