一、什么是 VLA?为什么机器人需要 VLA?

在理解 GR00T 之前,首先需要明确 VLA(Vision-Language-Action)模型的定位。

传统机器人控制系统依赖人工设计的规则或针对特定任务训练的专用策略。这类系统脆弱、泛化性差:换一个物体、换一个场景,就需要重新工程化。VLA 模型从根本上改变了这一范式。[^1]

VLA 的核心价值在于将视觉感知(Vision)、自然语言理解(Language)、以及运动控制(Action)统一到一个端到端的神经网络模型中。这样一来:

  • 机器人可以接收人类的自然语言指令(“把红色杯子放到笔记本旁边的架子上”),而无需为每个任务单独编程
  • 从海量的互联网图像-文本数据中学习到的丰富视觉-语义先验,可以迁移到机器人操控任务上
  • 对未见过的物体、环境布局、指令措辞具备更强的泛化能力[^2]

单纯的 LLM 或 CNN 策略无法独自完成这个任务:LLM 对物理世界缺乏感知能力,无法描述精细的低层级运动;CNN 策略缺乏开放词汇的语言理解能力。VLA 正是弥合这两者的桥梁。[^1]


二、GR00T N1 总览:NVIDIA 的具身智能基础模型

2.1 背景与动机

2025 年 3 月,NVIDIA 在 GTC 上发布了 GR00T N1,这是业界首个面向人形机器人的开放基础模型。GR00T 的全称可理解为 Generalist Robot 00 Technology,是 NVIDIA GEAR(General Embodied AI Research)团队的旗舰成果。[3][4]

GR00T N1 解决了一个核心矛盾:人形机器人领域没有 ImageNet、没有 Common Crawl 那样规模的统一数据集,不同机器人(Franka、WidowX、GR-1 人形机器人)拥有不同的自由度、传感器配置和动作空间,形成了"数据孤岛"现象。GR00T 的设计哲学是:通过统一的模型架构和分层数据策略,将异构的数据孤岛融合为一个可共同学习的数据金字塔。[^5]

2.2 核心参数概览

指标 GR00T-N1-2B GR00T N1.5-3B GR00T N1.6-3B
总参数 2.2B 3B 3B
VLM 参数 1.34B (Eagle-2) ~2.1B (Eagle 2.5) ~2B (Cosmos-Reason)
DiT 层数 16层 16层 32层
推理频率 (L40) ~15Hz ~26Hz
推理频率 (RTX 5090) 27.3Hz
单次推理延迟 63.9ms ~38ms 37ms (RTX5090)
动作块长度 H 16 16 16
去噪步数 K 4 4 4
训练数据 ~8,375h >8,375h >10,000h

[6][7][8][9]


三、双系统架构:向人类认知借鉴的设计哲学

GR00T N1 的最核心设计思想来源于行为经济学家丹尼尔·卡尼曼(Daniel Kahneman)在《思考,快与慢》(2011)中提出的双系统认知理论:[^6]

  • System 1(快思考):快速、自动、无意识的直觉反应,对应机器人的低层级运动控制
  • System 2(慢思考):缓慢、深思熟虑、有意识的推理,对应机器人的高层级任务理解与规划

在 GR00T 中,这两个系统被具体实现为:

  • System 2 = VLM 模块(Eagle-2 / Eagle 2.5 / Cosmos-Reason):以 10Hz 运行,解读视觉观测和语言指令
  • System 1 = 扩散 Transformer(DiT)动作模块:以 120Hz 运行,生成连续的关节角度序列

两者通过**交叉注意力(Cross-Attention)**紧密耦合,并在端到端训练中联合优化。[^5]

为什么要把两者分开,而不是一个统一的模型?

这个设计有深刻的工程考量:VLM 的推理本质是自回归的、计算成本高、但只需要较低频率;而底层运动控制需要极高的执行频率(>100Hz)以实现精准、流畅的动作。把两者分开允许各自在最合适的频率和计算预算下运行,同时通过跨注意力机制共享语义上下文。[^10]


四、Vision-Language Model(System 2)深度解析

4.1 NVIDIA Eagle-2:专为高效多模态理解而生

GR00T N1 的 System 2 核心是 NVIDIA 自研的 Eagle-2 VLM。Eagle-2 是 NVIDIA GEAR 团队从数据驱动(Data-Centric)角度出发设计的视觉-语言模型家族,于 2025 年 1 月正式发布。[6][11]

Eagle-2 的设计哲学总结为三点:

  1. 数据策略优先(Data-Centric):从 180+ 个来源构建多样化训练集,先追求多样性,再追求质量
  2. 视觉为中心(Vision-Centric):采用混合视觉编码器(MoVE),不依赖单一编码器
  3. 三阶段训练(3-Stage Training):渐进式对齐视觉-语言模态[^12]
三阶段训练流程
阶段 目标 训练规模
Stage 1(对齐) 通过 MLP connector 对齐视觉-语言模态 小规模焦点数据集
Stage 1.5(预训练) 大规模多样化数据预训练,强化基础能力 ~2160万样本
Stage 2(指令微调) 高质量指令数据集精细调优 ~460万样本

[13][12]

Eagle-2 的性能

Eagle2-9B 在 DocVQA 上达到 92.6% 精度,超越 InternVL2-8B(91.6%)和 GPT-4V(88.4%);在 OCRBench 上得分 868,超越 Qwen2-VL-7B(845)。这表明 Eagle-2 具备出色的视觉细粒度理解能力,这一点对机器人操控中识别物体标签、理解场景布局至关重要。[^12]

为什么 GR00T 选用 Eagle-2 而非 LLaVA、Qwen-VL 或 InternVL?

主要原因有四:

  1. 自研可控:NVIDIA 完全掌握架构和训练细节,可针对机器人场景定制改进
  2. 参数高效:1-2B 量级的 VLM 在 L40 上以 bf16 运行可达 10Hz,满足实时需求
  3. 中间层特征:实验证明使用 LLM 第 12 层的中间层特征(而非最后一层)在推理速度和下游策略成功率上均优于最终层[^6]
  4. 与 NVIDIA 生态无缝集成:可在 Isaac Sim、Cosmos 平台上端到端训练和部署[^4]

4.2 视觉编码器:SigLIP-2

Eagle-2 的视觉编码器骨干是 Google DeepMind 于 2025 年 2 月发布的 SigLIP-2。[^14]

SigLIP-2 的技术细节

SigLIP(Sigmoid Loss for Language-Image Pre-Training)是对 CLIP 的改进,用 sigmoid 损失替代 softmax 损失,允许独立处理每个图像-文本对而无需批次内负样本,扩展性更强。SigLIP-2 在此基础上叠加了多项技术:[15][14]

四大训练增强:

  1. 图像标注预训练(Captioning-based Pretraining,来自 LocCa)

    • 添加一个带交叉注意力的 Transformer 解码器
    • 同时训练三个任务:图像描述(Captioning)、自动指代表达预测(给定描述→预测物体框)、接地描述(给定物体框→预测区域描述)
    • 大幅提升空间定位能力
  2. 自蒸馏(Self-Distillation,来自 SILC/TIPS)

    • 在训练后 80% 阶段引入自监督学习
    • 将局部遮蔽区域的特征对齐到 EMA 教师模型输出
    • 改善局部语义表示质量
  3. 遮蔽预测(Masked Prediction)

    • 类似 MAE 的遮蔽重建目标,增强密集特征能力
  4. 在线数据策略(Online Data Curation)

    • 持续过滤低质量训练样本[^16]

四种模型规格(均基于 ViT 架构):

规格 参数量 推荐场景
ViT-B 86M 边缘设备推理
L 303M 平衡性能与效率
So400m 400M GR00T 中常用
g 1B 最高性能

[^14]

SigLIP-2 相较于前代,在零样本分类、图像-文本检索、密集预测(分割、深度估计)、以及作为 VLM 视觉编码器的迁移性能上全面超越 SigLIP,在所有模型规模下均获得提升。[^14]

图像的处理流程

在 GR00T N1 中,图像的处理流程如下:

  1. 输入图像 resize 到 224×224(原始 Eagle-2 设计)
  2. SigLIP-2 的 ViT 将图像分成 16×16 的 patch,每个 patch 线性投影为 token embedding
  3. 经过 Pixel Shuffle 操作(亚像素卷积,等效下采样特征图同时保留信息),将每帧的图像 tokens 压缩为 64 个 image token embeddings[^6]
  4. 这 64 个视觉 token 与文本 token 一起输入 LLM backbone(SmolLM2)
  5. 从 LLM 第 12 层(中间层)提取特征,形状为 (batch × sequence_length × hidden_dim),作为 System 1 DiT 的条件输入[^6]

注:使用中间层而非最后层特征,是一个重要的工程发现。最后层特征高度对齐语言生成目标,但对机器人策略来说过于抽象;中间层特征保留了更丰富的视觉-语义混合信息,同时计算量更小(不需要运行完整的 LLM forward pass)。

4.3 混合视觉编码器(MoVE:Mixture of Vision Encoders)

Eagle-2 中的视觉处理并非单一编码器,而是采用了混合视觉编码器(MoVE)设计,受 InternVL、Cambrian-1 等工作启发:[^17]

  • 每张图像以**图像块(Tile)**形式处理,支持动态分辨率
  • 每个 tile 同时通过 SigLIP-2(语义理解强)和 ConvNeXt(局部细节感知强)两条路径编码
  • 两条路径的特征通过**通道维度拼接(Channel Concatenation)**融合,随后经 PixelShuffle 下采样和 MLP connector 对齐
  • 在 12/14 个 benchmark 上,MoVE 均带来了提升,尤其在文档、图表、OCR 任务上最为显著[^17]

这种设计对机器人操控有重要意义:SigLIP-2 提供物体语义识别能力,ConvNeXt 提供精细纹理和几何结构感知,两者互补使模型既能理解"这是一个苹果",也能感知"苹果的边缘在哪里,抓取点在哪里"。


五、Diffusion Transformer(System 1)深度解析

5.1 从 Diffusion Policy 到 Flow Matching:为什么是 Flow Matching?

GR00T 的动作生成模块采用基于流匹配(Flow Matching)的扩散 Transformer,而非经典 Diffusion Policy(DDPM/DDIM)。这是一个有意的技术选型。[^6]

扩散模型的问题:标准扩散(DDPM)需要 100~1000 个去噪步骤,每步都要运行完整网络,实时性极差。DDIM 将步数压缩到 10~50 步,但仍然较慢。

流匹配(Flow Matching)的优势

  • 流匹配通过**普通微分方程(ODE)**定义从噪声到数据的概率路径,使用端到端已知的"直线"路径代替扩散过程中曲折的随机路径[^18]
  • 可以在 4 步内完成高质量动作采样(GR00T 实际使用 K=4)[^6]
  • 采样时间仅为扩散模型的 20%[^19]
  • 训练更加稳定,梯度噪声更小

用一个比喻理解:DDPM 像一个飞行员每隔几分钟收到一次新的指令(逐步去噪),Flow Matching 像一个拥有完整飞行计划的飞行员(从德里到伦敦的完整路线一次规划完毕)。[^18]

5.2 Flow Matching 的数学原理

GR00T 的流匹配过程定义如下:[^6]

噪声注入(训练时):

给定真实动作块 A t A_t At、流匹配时间步 τ ∈ [ 0 , 1 ] \tau \in [0,1] τ[0,1] 和采样噪声 ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) ϵN(0,I),噪声化动作为:

A t τ = τ A t + ( 1 − τ ) ϵ A_t^{\tau} = \tau A_t + (1 - \tau)\epsilon Atτ=τAt+(1τ)ϵ

τ = 0 \tau=0 τ=0 时, A t 0 = ϵ A_t^0 = \epsilon At0=ϵ(纯噪声);当 τ = 1 \tau=1 τ=1 时, A t 1 = A t A_t^1 = A_t At1=At(真实动作)。

训练目标(Flow Matching Loss):

模型 V θ V_\theta Vθ 学习预测去噪方向 ( ϵ − A t ) (\epsilon - A_t) (ϵAt)

L fm ( θ ) = E τ [ ∥ V θ ( ϕ t , A t τ , q t ) − ( ϵ − A t ) ∥ 2 ] \mathcal{L}_{\textit{fm}}(\theta) = \mathbb{E}_{\tau}\left[\|V_\theta(\phi_t, A_t^{\tau}, q_t) - (\epsilon - A_t)\|^2\right] Lfm(θ)=Eτ[Vθ(ϕt,Atτ,qt)(ϵAt)2]

其中 ϕ t \phi_t ϕt 为 VLM 输出的视觉-语言 token, q t q_t qt 为当前本体感觉状态。

时间步采样使用 Beta 分布: p ( τ ) = Beta ( s − τ s ; 1.5 , 1 ) , s = 0.999 p(\tau) = \text{Beta}\left(\frac{s-\tau}{s}; 1.5, 1\right), s = 0.999 p(τ)=Beta(ssτ;1.5,1),s=0.999,偏向于从 τ ≈ 0 \tau \approx 0 τ0 区域(接近纯噪声端)多采样,因为这里的梯度信号更丰富。[^6]

推理时(前向 Euler 积分):

  1. 采样初始噪声: A t 0 ∼ N ( 0 , I ) A_t^0 \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) At0N(0,I)
  2. 迭代 K=4 步:

A t τ + 1 / K = A t τ + 1 K V θ ( ϕ t , A t τ , q t ) A_t^{\tau + 1/K} = A_t^{\tau} + \frac{1}{K} V_\theta(\phi_t, A_t^{\tau}, q_t) Atτ+1/K=Atτ+K1Vθ(ϕt,Atτ,qt)

  1. 最终 A t 1 A_t^1 At1 即为预测的 16 步动作块

5.3 DiT 的内部结构

GR00T 的 DiT(Diffusion Transformer)采用 Peebles & Xie(2023)的原始 DiT 架构,并加入了类似 Flamingo 和 VIMA 的交叉注意力设计:[^6]

DiT Block 的结构(N1/N1.5:16层,N1.6:32层):

每个 DiT Block 由以下子模块交替组成:

  1. 自注意力(Self-Attention)

    • 操作对象:噪声化动作 token A t τ A_t^\tau Atτ + 本体感觉状态 embedding q t q_t qt
    • 让动作 tokens 之间互相关联,建模动作块内的时间依赖
  2. 交叉注意力(Cross-Attention)

    • Query 来自动作 tokens
    • Key/Value 来自 VLM 输出的视觉-语言 tokens ϕ t \phi_t ϕt
    • 让每个动作 token "看到"整个视觉-语言上下文,实现语义条件化
  3. 自适应层归一化(AdaLN)

    • 将扩散/流匹配时间步 τ \tau τ 编码后,用 AdaLN 调节每个 block 的归一化参数(scale 和 shift)
    • 让网络知道当前处于哪个去噪阶段

输入/输出接口:

输入:
  - A_t^τ: 噪声化动作 (H=16 个动作向量,经 Action Encoder MLP 投影)
  - q_t:   本体感觉状态 (经 State Encoder MLP 投影)
  - φ_t:   VLM 中间层输出 (64个图像token + 文本token, shape: seq_len × hidden_dim)
  - τ:     流匹配时间步 (经 Action Encoder 一并编码)

输出 (经过最终 Action Decoder MLP):
  - 预测的去噪向量 V_θ ∈ R^{H × action_dim}
  - action_dim 因机器人embodiment而异(由embodiment-specific MLP解码)

5.4 动作块与频率设计

为什么要做动作块(Action Chunking)?

直接输出单个时刻的动作(单步预测)会导致策略高度依赖当前帧,容易受到视觉噪声干扰。动作块预测(H=16 步)类似于人类规划一段运动轨迹而非每一步单独决策,具有更强的时间一致性。[^6]

频率设计的工程考量:

模块 频率 硬件 作用
VLM (System 2) 10 Hz L40/H100 GPU 更新视觉-语言上下文
DiT (System 1) 120 Hz 同一 GPU 执行精细运动控制
动作块执行 120 Hz 机器人关节控制器 实际发送关节指令

VLM 每 100ms 更新一次语义上下文;DiT 以 120Hz 持续生成动作,但每次使用的是最新的 VLM 输出。这种异步设计(类似于我们团队 Latent Bridge 工作所研究的问题)是 VLA 实时部署的核心挑战之一。[^20]


六、状态/动作编码器与跨机器人泛化

6.1 Embodiment-Specific 编码器/解码器

不同机器人的自由度(DoF)千差万别:Franka 机械臂有 7 个关节,GR-1 人形机器人有 30+ 个关节(含双手),Unitree G1 有腿+臂。要让同一个模型处理这些完全不同维度的输入输出,需要特殊设计。[^6]

GR00T 的解决方案是:每个机器人 embodiment 有专用的 State Encoder MLP 和 Action Decoder MLP,而共享的 DiT 主体网络权重保持不变。

机器人A (30 DoF) ──► State Encoder_A (MLP) ──►┐
机器人B (7 DoF)  ──► State Encoder_B (MLP) ──►┤
                                                ├──► 共享 DiT (16/32 层) ──►┐
VLM 输出 (φ_t)  ──────────────────────────────►┘                           │
                                                                             │
                                          Action Decoder_A (MLP) ◄──────────┤
                                          Action Decoder_B (MLP) ◄──────────┘

这种设计允许 GR00T 在不改变核心模型的情况下通过更换"适配器层"支持新的机器人 embodiment,同时核心 DiT 权重在跨机器人训练中积累了通用的运动先验。[^21]

6.2 动作空间标准化

不同数据集的动作表示也各不相同(绝对关节角度、相对末端执行器位置、6D 旋转等)。GR00T 采用一套标准化规范:[^6]

  • 末端执行器旋转的状态表示:6D 旋转表示(连续、无奇点)
  • 末端执行器旋转的动作表示:轴角(axis-angle)
  • GR00T N1.6 改进:改用**相对动作(Relative Actions)**代替绝对关节角度,使得动作更加流畅,误差累积更少[^9]
  • 所有动作值经过 min-max 归一化

七、训练数据策略:“数据金字塔”

7.1 数据金字塔的层次结构

GR00T 的训练数据策略是整个项目的核心创新之一,NVIDIA 将其称为数据金字塔(Data Pyramid)。[^6]

             ┌──────────────────┐
             │   真实机器人轨迹   │  (数量少,质量高)   ← 金字塔顶部
             ├──────────────────┤
             │  神经轨迹 + 仿真   │  (数量中,质量中)   ← 金字塔中部
             ├──────────────────┤
             │  人类操作视频数据   │  (数量极大,无动作标签) ← 金字塔底部
             └──────────────────┘

每一层都有其作用:

  • 底部(人类视频):提供物体操作的视觉-语义先验,学习"什么样的抓取/放置是合理的"
  • 中部(合成数据):通过仿真和视频生成模型大规模扩增带动作标签的数据,突破数据采集瓶颈
  • 顶部(真实数据):为模型提供真实物理接触、摩擦、形变等现实世界的 grounding[^3]

7.2 真实数据集

GR00T N1 训练的真实数据来源包括:[^6]

  1. GR00T N1 Humanoid 内部数据集:Fourier GR-1 遥操作数据(88小时),使用 VIVE Ultimate Tracker 追踪手腕姿态、Xsens MetaGloves 追踪手指运动。遥操以 20Hz 频率进行,头部摄像头采集视觉观测
  2. Open X-Embodiment(OXE):包含 RT-1、Bridge-v2、DROID、Language Table、RoboSet 等主流数据集
  3. AgiBot-Alpha:来自 100 台机器人的 14 万条轨迹,涵盖精细操控、工具使用、多机器人协作

7.3 仿真数据:DexMimicGen

核心问题:人形机器人双臂遥操成本极高,无法大规模采集。

解决方案:使用 NVIDIA 研发的 DexMimicGen 系统,从少量人类示教轨迹自动生成海量仿真轨迹。[^6]

DexMimicGen 的工作流程:

  1. 采集少量(几十条)人类遥操示教,分解为以物体为中心的子任务片段
  2. 对每个子任务,自动适配机器人末端执行器与物体的相对姿态,迁移到新的初始化配置
  3. 通过仿真环境验证执行成功,只保留成功的轨迹
  4. 大规模并行生成不同初始物体位置、不同干扰物的轨迹

最终效果:从数十条示教生成 78 万条仿真轨迹,耗时仅 11 小时,相当于 6,500 小时人类遥操数据。GR00T N1 仅使用合成数据就将性能提升了 40%。[^3]

7.4 神经轨迹(Neural Trajectories):用视频生成模型扩增数据

这是 GR00T 最具创意的数据工程之一。核心思路:真实遥操数据(88小时)→ 微调视频生成模型 → 生成反事实(Counterfactual)视频轨迹 → 用 IDM 标注伪动作 → 等效扩增到 827 小时。[^6]

具体流程:

  1. 在 GR-1 内部遥操数据上微调开源图像到视频生成模型(WAN2.1-I2V-14B 等)
  2. 给定初始帧 + 新的语言指令,生成真实感的机器人操作视频
  3. 使用商业级多模态 LLM 进行后处理过滤(确保视频与指令语义匹配)和重新标注
  4. 通过逆动力学模型(IDM)从视频帧预测伪动作标签
  5. 将这些"神经轨迹"当作新的 embodiment 参与训练

生成 1 秒视频需约 2 分钟(L40 GPU),整个神经轨迹数据集生成耗费约 10.5 万 L40 GPU 小时。[^6]

7.5 潜在动作(Latent Actions / LAPA):让无标签视频也能训练

人类操作视频(Ego4D、EPIC-KITCHENS 等)没有任何机器人动作标签,如何利用?

NVIDIA 采用了 LAPA(Latent Action Pretraining)技术:[^22]

  1. 训练一个 VQ-VAE 模型,以当前帧 x t x_t xt 和未来帧 x t + H x_{t+H} xt+H 为输入,输出离散化的"潜在动作" z t z_t zt,解码器负责从 z t + x t z_t + x_t zt+xt 重建 x t + H x_{t+H} xt+H
  2. 训练完成后,VQ-VAE 的编码器变成一个逆动力学模型(IDM):给定 ( x t , x t + H ) (x_t, x_{t+H}) (xt,xt+H),输出连续的预量化潜在动作嵌入
  3. 将这些潜在动作作为流匹配的训练目标,将所有人类视频数据视为一个特殊的 “LAPA embodiment” 参与预训练

这种统一的潜在动作空间有一个深层好处:所有异构的数据——机器人动作、人类操作、神经生成视频——都被映射到同一个潜在动作空间,有助于跨机器人的泛化能力。[^6]


八、从 N1 到 N1.5 到 N1.6:迭代演进

8.1 GR00T N1.5 的关键改进

GR00T N1.5 于 2025 年 6 月发布,主要改进如下:[^7]

架构改进:

  • VLM 从 Eagle-2 升级到 Eagle 2.5:更强的视觉接地(Grounding)能力,在 RefCOCOg 和内部 GR-1 接地数据集上均超越 Qwen2.5-VL-3B
  • VLM 全程冻结(预训练和微调均不更新 VLM 权重):N1 中 VLM 的语言部分是冻结的,但视觉部分在一些配置下会更新;N1.5 将整个 VLM 冻结,更好保护预训练知识
  • 简化 MLP 适配器:添加 Layer Normalization,在视觉和文本 token 输入 LLM 前分别归一化
  • 新增 VLM 后的 4 层 Transformer 适配器(N1.6 中移除)

训练目标改进 — FLARE(Future LAtent Representation Alignment):

这是 N1.5 最重要的训练创新。FLARE 不是生成式建模未来帧,而是直接将当前模型的中间表示对齐到未来帧的目标嵌入:[^23]

Loss = L_fm (流匹配动作损失) + λ × L_FLARE (未来表示对齐损失)
λ = 0.2

FLARE 的效果惊人:语言跟随率从 46.6% 提升到 93.3%,新颖物体操控从 0% 提升到 15.0%(零样本)。[24][23]

数据改进 — DreamGen:

  • 利用类似 N1 神经轨迹的方法,但进一步扩展到多视角和长时序任务
  • 加入了更多多样化的真实机器人数据

性能对比(Unitree G1 上):

任务 GR00T N1 GR00T N1.5
已知水果放置(1000 episode 微调) 44.0% 98.8%
未见物体泛化 84.2%

8.2 GR00T N1.6 的关键改进(当前最新 Baseline)

GR00T N1.6 于 2025 年 12 月发布,总参数 3B,是团队目前的工作基础。[9][25]

架构改进:

  1. VLM 换用 Cosmos-Reason-2B

    • 完全替换 Eagle 2.5,改用 NVIDIA Cosmos 物理 AI 平台的 2B 视觉-语言模型
    • 支持灵活分辨率(native aspect ratio),无需 padding,更好保持图像几何信息
    • 在通用视觉-语言任务和具身推理任务(如"下一步动作预测")上联合训练[^9]
    • 与 NVIDIA Cosmos Predict/Transfer 生态深度集成
  2. DiT 从 16 层扩展到 32 层(翻倍)

    • 更大容量的动作去噪网络,能建模更复杂的运动分布
    • 使得动作更平滑、精准[^8]
  3. 移除 N1.5 的 VLM 后 4 层 Transformer 适配器,改为解冻 VLM 顶部 4 层参与预训练:

    • 更直接地让 VLM 的高层表示适应机器人任务语义[^9]
  4. 相对动作空间(Relative Actions)

    • 预测相对于当前状态的增量动作,而非绝对关节角度或末端执行器位置
    • 优点:平滑性更好,姿态基准一致性更强
    • 缺点:容易误差累积,需要更强的正则化[^9]
  5. MLP connector 改进

    • 视觉-语言特征到 DiT 之间的 MLP 连接层经过专门优化[^25]

数据改进:

  • 预训练数据超过 10,000 小时
  • 新增:双臂 YAM 机械臂、AGIBot Genie1 人形机器人、Galaxea R1 Pro(BEHAVIOR 1K Suite)、Unitree G1 全身移动操控[8][9]
  • 预训练 300K steps,global batch size 16384

推理性能(torch.compile 优化):

硬件 E2E 延迟 推理频率
RTX 5090 37ms 27.3 Hz
H100 38ms 26.3 Hz
RTX 4090 44ms 22.8 Hz
Thor (边缘端) 105ms 9.5 Hz

[^8]


九、版本演进对比:N1 → N1.5 → N1.6

维度 GR00T N1 GR00T N1.5 GR00T N1.6
VLM Eagle-2 (1.34B) Eagle 2.5 (~2.1B) Cosmos-Reason-2B
图像分辨率 224×224 (固定) 动态 原生宽高比(灵活)
DiT 层数 16层 16层 32层
VLM 冻结策略 部分冻结 完全冻结 顶部 4 层解冻
VLM 后适配器 4层 Transformer 无(移除)
动作空间 绝对关节角度/EEF 绝对 相对动作
训练目标 流匹配 流匹配 + FLARE 流匹配 + 世界建模
关键数据新增 OXE, GR-1 DreamGen, Unitree G1 YAM, Genie1, Galaxea
发布时间 2025年3月 2025年6月 2025年12月

[6][7][8][9]


十、为什么选择这些技术,而非其他方案?

10.1 为什么是 VLM(而不是纯 CNN)?

这是设计 VLA 时最根本的问题。答案在于泛化能力的来源:[2][26]

  • CNN 策略的泛化来自训练数据的覆盖范围,对未见物体/场景性能急剧下降
  • VLM 策略的泛化来自 Internet 规模的预训练,天然支持开放词汇的物体识别、场景理解和指令跟随

具体来说,当机器人面对一个从未在训练集中出现的物体时,VLM 可以通过其语言知识(“把那个 Tsingtao 啤酒瓶放到托盘上”)识别物体并推理合适的抓取姿势,而 CNN 策略则会完全失效。

10.2 为什么是 Eagle-2,而不是 LLaVA/Qwen-VL/InternVL?

从 NVIDIA 工程视角,核心原因是内部可控性和针对性优化:[^27]

  • 外部 VLM(如 Qwen-VL、InternVL)虽然开源,但其训练数据、架构细节 NVIDIA 无法完全掌控,难以针对机器人物理接地需求做出深度定制
  • Eagle-2 由 NVIDIA 自研,可以在 VLM 预训练阶段就加入机器人相关的接地任务(如指代表达理解、空间关系推理),这在 N1.5 中已见成效(GR-1 grounding IoU 超越 Qwen2.5-VL-3B)[^7]
  • N1.6 进一步升级到 Cosmos-Reason,与 NVIDIA 的物理 AI 生态完全对齐,并加入了"下一步动作预测"的具身推理预训练[^9]

10.3 为什么是 Flow Matching,而不是 Diffusion Policy?

除了速度优势(见第五节),Flow Matching 对机器人控制还有一个关键优势:动作分布的多峰性。[^19]

机器人操控任务中,同一个任务可以有多种有效的完成方式(不同的抓取路径、不同的放置顺序)。扩散/流匹配模型天然支持建模这种多峰分布(Multimodal Distribution),而普通的 MSE 回归策略会退化为各峰的均值,导致不自然甚至无法执行的动作。

与 Pi-0 等工作不同,GR00T 使用标准交叉注意力(而非 MoE 风格)将 VLM 输出条件化到 DiT,结构更简洁,工程实现更直接。[^21]

10.4 为什么 VLM 使用中间层特征而非最后层?

这是 GR00T 论文中一个重要的工程发现:对于 GR00T-N1-2B,第 12 层(中间层)特征相比最后层特征,在推理速度和策略成功率上均更优。[^6]

原因分析:

  • LLM 最后层特征高度对齐"生成下一个词"的自回归语言目标,包含了大量与动作控制无关的信息
  • 中间层特征是视觉语义与语言语义的混合表征,保留了更丰富的视觉接地信息
  • 跳过后半段 LLM 层还显著减少了 System 2 的计算延迟

十一、工程实践:微调、部署与注意事项

11.1 Post-Training(Fine-tuning)的建议流程

GR00T N1.6 的微调分为以下几个策略,按计算资源排序:[6][9]

  1. 最轻量(单 A6000):只微调 embodiment-specific 的 State Encoder、Action Decoder 和 DiT 主体,冻结 VLM。Batch size 可达 200
  2. 中等(单 A6000):加上微调视觉编码器。Batch size 降至约 16
  3. 完整微调:解冻更多 VLM 层,需要多卡设置

N1.6 的特殊注意事项(来自 NVIDIA 官方建议):[^9]

  • N1.6 收敛比 N1.5 更快,但更容易过拟合,需要:
    • 更强的状态正则化(State Regularization)
    • 额外的数据增强(Color Jitter、Random Cropping)
    • 与预训练数据的联合训练(co-training)以防止灾难遗忘
  • 当模型在真实环境表现不佳时,推荐使用 DAgger(Dataset Aggregation)在线数据采集,有效提升鲁棒性
  • 相对动作在大数据量下效果很好,但在小数据场景下容易误差累积,需要额外的修正机制

11.2 多视角处理

GR00T 支持多相机视角(如头部相机 + 腕部相机)。处理方式是将所有视角的图像 token 拼接成一个序列,放在语言 token 之前输入 LLM:[^25]

[IMG_view1] [IMG_view2] [IMG_wrist] [TEXT tokens]
     64tok     64tok      64tok

N1.6 中 Cosmos-Reason VLM 支持原生宽高比图像,无需统一 padding,更好地保持各相机的几何特性。

11.3 数据格式

GR00T 使用 LeRobot v2 数据格式(HuggingFace 生态)。准备微调数据时,需要:[^25]

  • 视频帧以 mp4 或 png 序列存储
  • 动作/状态以 parquet 格式存储
  • Embodiment config 描述动作空间和观测空间的维度和含义
  • 数据集 metadata 包含任务语言描述(支持层级标注:原子动作 + 粗粒度任务描述)

11.4 已知局限性(来自 NVIDIA 官方)

  • 多任务语言跟随分布外任务泛化仍然具有挑战性,精细的子任务标注可以改善语言跟随但还未达到鲁棒泛化[^9]
  • 对于长时序任务,需要更多的数据覆盖和更精细的子目标拆解
  • 相对动作在小数据场景下的误差积累问题,还需要后续研究解决

十二、GR00T 的生态系统与开源资源

NVIDIA 围绕 GR00T 构建了完整的工具链:[3][4][^28]

  • Isaac GR00T(模型):开源权重发布在 HuggingFace(nvidia/GR00T-N1.6-3B),代码在 GitHub(NVIDIA/Isaac-GR00T),MIT 许可证
  • Isaac Sim(仿真):物理仿真环境,支持 DexMimicGen 数据生成
  • NVIDIA Cosmos(视频生成 + 物理 AI):DreamGen 神经轨迹生成、Cosmos Predict 世界模型、Cosmos Reason VLM
  • Isaac Lab(训练框架):统一的机器人学习训练平台
  • Newton Physics Engine:与 Google DeepMind、Disney Research 合作开发的开源机器人物理引擎[^28]
  • NVIDIA OSMO:千卡 GPU 集群训练调度平台

预训练好的微调 checkpoint 已公开(Bridge、Fractal、BEHAVIOR-1K、DROID 等)。[^25]


十三、横向对比:GR00T 与其他主流 VLA

特性 GR00T N1.6 Pi-0 (Physical Intelligence) OpenVLA π₀.₅
VLM 骨干 Cosmos-Reason-2B Gemma (PaliGemma) LLaMA-2 7B Gemma
动作模型 32层 DiT (Flow Matching) Flow Matching DiT 自回归 token Flow Matching
动作-VLM 连接 交叉注意力 混合注意力 单一统一网络 FAST token + 解码头
VLM 冻结 顶部 4 层解冻 部分可训练 全量微调 可配置
开源程度 开放权重 + 代码 部分开源 完全开源 部分开源
双系统设计
推理频率 27.3Hz (RTX5090) ~50Hz ~5Hz ~20Hz

[6][29][^2]

GR00T 的差异化优势在于:开源、跨机器人 embodiment 支持、完整的 NVIDIA 生态、以及 Cosmos 平台赋予的物理推理能力。


结语

GR00T N1.6 代表了当前机器人基础模型的前沿水平,其设计在多个维度体现了 NVIDIA 的工程智慧:用双系统架构平衡推理能力与控制频率,用数据金字塔突破数据瓶颈,用 LAPA 潜在动作统一异构数据,用 Flow Matching 在速度与表达能力之间取得平衡,用 embodiment-specific 编解码器实现跨机器人泛化。

作为基于 GR00T N1.6 的研究团队成员,理解这些设计决策背后的技术逻辑,是进行有效的架构改进(如本团队 Latent Bridge 项目所探索的 VLM 推理加速)的前提。每一个组件的选择都有其权衡,而理解这些权衡,正是推动下一代具身智能模型发展的起点。


References

  1. Vision Language Action Models (VLA) & Policies for Robots - Vision Language Actions Models enables robots to perceive, reason and act over complex tasks and per…

  2. Large VLM-based Vision-Language-Action Models for Robotic … - It enables robots to interpret high-level human instructions, generalize to unseen objects and scena…

  3. NVIDIA Announces Isaac GR00T N1 — the World’s First Open … - The GR00T N1 foundation model features a dual-system architecture, inspired by principles of human c…

  4. NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid … - A generalist robot model trained on a diverse dataset that includes egocentric human videos, real an…

  5. An Open Foundation Model for Generalist Humanoid Robots - arXiv - We introduce GR00T N1, an open foundation model for humanoid robots. GR00T N1 is a Vision-Language-A…

  6. GR00T N1: An Open Foundation Model for Generalist Humanoid … - The GR00T N1 model is a Vision-Language-Action (VLA) model, which generates actions from image and l…

  7. GR00T N1.5 - Research at NVIDIA - Overall, we see that GR00T-N1.5 is a significant improvement over GR00T-N1. It achieves higher succe…

  8. Model overview - Isaac GR00T - Mintlify - GR00T N1.6 represents a significant upgrade over GR00T N1.5, with improvements in both model archite…

  9. GR00T N1.6 - Research at NVIDIA - With several architecture, data and modeling improvements, we find that N1.6 outperforms N1.5 on bot…

  10. 2025: A Detailed Explanation of NVIDIA’s Key Layout in the Field of … - GR00T N1 is a vision – language – action (VLA) model with a dual – system architecture. “System 1” i…

  11. Eagle 2: Building Post-Training Data Strategies from Scratch … - arXiv - Specifically, Eagle2-9B achieves state-of-the-art results across various multimodal benchmarks, matc…

  12. NVIDIA AI Releases Eagle2 Series Vision-Language Model - Vision-Language Models (VLMs) have significantly expanded AI’s ability to process multimodal informa…

  13. NVIDIA Eagle2 Vision-Language Model - Emergent Mind - It employs a modular architecture with specialized encoders and a three-stage training protocol to a…

  14. [2502.14786] SigLIP 2: Multilingual Vision-Language Encoders with … - We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the succe…

  15. [Paper] SigLIP 2: Multilingual Vision-Language Encoders with … - SigLIP 2 maintains the Vision Transformer (ViT) architecture with learned positional embeddings from…

  16. Paper Review: SigLIP 2: Multilingual Vision-Language Encoders … - SigLIP 2 keeps the architecture of the original SigLIP, allowing users to easily swap encoder weight…

  17. Eagle 2: Building Post-Training Data Strategies from Scratch for … - In this work, we address VLM post-training from a data-centric perspective, showing the key role of …

  18. Flow Matching vs Diffusion: How AI Models in 2025 Achieve Faster … - Flow Matching, Rectified Flow, and Diffusion Models are reshaping generative AI in 2025 — bringing f…

  19. Variational Flow-Matching Policy for Multi-Modal Robot Manipulation - In practice, flow-matching policies can reduce sampling time to just 20% of that needed by diffusion…

  20. Modality-Augmented Fine-Tuning of Foundation Robot Policies for … - The depth map is concatenated with the RGB channels prior to the Vision Encoder, forming an RGB-D in…

  21. Alright, let’s talk about NVIDIA’s GR00T N1. It shares some high … - 1 Diffusion Model on my data → Dreambooth LoRA technique → Took 5-6 hours & 110GB VRAM → 1024px high…

  22. Latent Action Pretraining From Videos - arXiv - To evaluate the cross-embodiment performance of LAPA pretrained with Open-X, we fine-tune both LAPA …

  23. NVIDIA GR00T N1.5 FLARE Implementation Inquiry #215 - GitHub - "In addition to the flow matching loss used by N1, for N1.5 we add Future LAtent Representation Alig…

  24. GR00T N1.5 Explained: NVIDIA’s VLA Model for Humanoid Robots - GR00T N1.5 is an open foundation model specifically engineered to give robots the ability to underst…

  25. nvidia/GR00T-N1.6-3B - Hugging Face - GR00T N1.6 uses vision and text transformers to encode the robot’s image observations and text instr…

  26. Vision Language Action (VLA) Models Powering Robotics| Exxact Blog - Explore VLA models transforming robotics through vision, language, and action. Learn about OpenVLA, …

  27. Eagle: Frontier Vision-Language Models with Data-Centric … - GitHub - [2025/03] Eagle 2 is adopted as the VLM backbone (System-2) of GR00T-N1. Check out the GTC launch an…

  28. NVIDIA Launches Isaac GR00T N1.6, Newton & Cosmos AI - NVIDIA unveils Isaac GR00T N1.6, Newton physics engine, and Cosmos AI models to accelerate humanoid …

  29. Vision-Language-Action Models for Robotics: A Review Towards … - Built on the RT-2 architecture, RT-H incorporates a high-level policy that predicts an intermediate …

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐