BFM-Zero: 一种用于人形机器人控制的可提示行为基础模型【文献解读】

无宜

188人浏览 · 2026-06-16 11:31:38

无宜 · 2026-06-16 11:31:38 发布

BFM-Zero: 一种用于人形机器人控制的可提示行为基础模型【文献解读】

论文标题：BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning

作者：Yitang Li¹, Zhengyi Luo¹, Tonghe Zhang¹, Cunxi Dai¹, Andrea Tirinzoni², Anssi Kanervisto², Haoyang Weng¹, Kris Kitani¹, Mateusz Guzek², Ahmed Touati², Alessandro Lazaric², Matteo Pirotta², Guanya Shi¹

机构：¹Carnegie Mellon University, ²Meta

发表信息：arXiv:2511.04131v1, Nov 6 2025

项目网站：https://lecar-lab.github.io/BFM-Zero/

一、关键科学问题与技术挑战

1.1 核心问题

如何构建一个可提示（promptable）的、能够在真实人形机器人上零样本执行多种下游任务的行为基础模型（Behavioral Foundation Model, BFM）？ 本文从无监督强化学习（unsupervised RL）角度出发，解决人形机器人全身上下文中任务统一表示与策略泛化的根本难题。

1.2 技术挑战

人形机器人行为基础模型的缺失：在机器人操作领域，视觉-语言-动作（VLA）模型已可通过行为克隆从人类演示中学习通用策略。但对于人形机器人全身上下控，不存在现成的关节级动作标签，也无法通过遥操作大规模采集演示数据。这导致行为基础模型在人形机器人领域的发展严重滞后。
现有RL方法的任务特定性与非适应性：当前最先进的人形机器人RL策略（如基于PPO的运动跟踪）存在三大局限：
- 任务特定：每个策略仅针对单个运动捕捉片段或单个任务训练，无法泛化
- 非自适应：训练完成后无法通过微调或组合来执行新任务
- 缺乏统一接口：没有可解释的目标规格化方法，人类操作者难以直接引导机器人
无监督RL应用于真实人形机器人的可行性未知：
- 大多数真实机器人部署依赖在线策略（on-policy）训练（主要是PPO），离线无监督RL在真实人形机器人上的应用尚无先例
- 无监督RL算法能否处理sim-to-real差距和动态扰动，在仿真训练和真实推理中保持鲁棒性，尚未被验证
仿真到真实的迁移障碍：
- 仿真环境中的特权信息（完整状态）在真实机器人上无法获取
- 物理参数（质量、摩擦、关节偏移等）存在不确定性
- 需要设计合适的奖励正则化，避免关节限位、危险动作等损害硬件

二、研究方法与算法原理

2.1 整体技术路线

pipeline：

┌─────────────────────────────────────────────────────────────────┐
│                    预训练阶段（仿真）                             │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  输入：无标签运动数据集 M = {轨迹} + 在线交互数据         │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↓                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  FB-CPR算法（前向-后向表示 + 策略正则化）                │   │
│  │  ├─ 学习前向映射 F(s,a,z) 和后向映射 B(s)               │   │
│  │  ├─ 构建共享潜在空间 Z ⊆ R^d（d维）                     │   │
│  │  ├─ 训练潜在条件策略 π(a|o_H, z)                        │   │
│  │  └─ 使用判别器正则化策略行为，接近运动捕捉数据          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↓                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  关键技术设计                                             │   │
│  │  ├─ 非对称训练：策略仅观测历史，Critic使用特权信息       │   │
│  │  ├─ 大规模并行环境（数千个）+ 大回放缓冲区               │   │
│  │  ├─ 域随机化（质量、摩擦、关节偏移、扰动、传感器噪声）   │   │
│  │  └─ 奖励正则化（关节限位、安全约束）                     │   │
│  └─────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                    零样本推理（真实机器人）                       │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  任务规格化方法（无需重训练）                             │   │
│  │  ├─ 奖励优化：给定奖励函数 r(s) = φ(s)^T z，求解最优z   │   │
│  │  ├─ 目标到达：给定目标状态 s_goal，求解对应的z           │   │
│  │  └─ 运动跟踪：给定运动片段，求解对应轨迹的嵌入z          │   │
│  └─────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                    少样本适应（可选）                             │
│  └─ 通过采样优化在潜在空间Z中搜索更好的z，仅需少量环境交互      │
└─────────────────────────────────────────────────────────────────┘

2.2 算法原理：前向-后向表示（Forward-Backward Representations）

2.2.1 核心数学框架

BFM-Zero 建立在前向-后向表示（FB representations）的理论基础上。该框架学习一个低秩近似策略的动态转移核。

基本分解：学习两个映射函数

前向映射 $\mathcal{S} \times \mathcal{A} \times \mathbb{R}^d \to \mathbb{R}^d$ ：给定状态-动作和潜在变量 $z$ ，预测后续特征
后向映射 $\mathcal{S} \to \mathbb{R}^d$ ：从状态中提取后向特征

使得折扣访问概率分解为：

$Mπz(ds′∣s,a)≃F(s,a,z)⊤B(s′)ρ(ds′)M^{\pi_z}(ds' | s, a) \simeq F(s, a, z)^\top B(s') \rho(ds')$

其中 $Mπz(s′∈X∣s,a):=∑tγtPr⁡(st∈X∣s,a,πz)M^{\pi_z}(s' \in X | s, a) := \sum_t \gamma^t \Pr(s_t \in X | s, a, \pi_z)$ 表示从 $(s, a)$ 出发、遵循策略 $πz\pi_z$ 时，折扣访问概率。

任务特征：定义 $ϕ(s):=(Eρ[B(s)B(s)⊤])−1B(s)\phi(s) := (\mathbb{E}_\rho[B(s)B(s)^\top])^{-1}B(s)$ ，则 $ϕ(s)\phi(s)$ 构成任务特征函数。

线性奖励族：每个 $\in \mathbb{Z}$ 定义线性奖励函数 $rz(s)=ϕ(s)⊤zr_z(s) = \phi(s)^\top z$ ，对应的策略 $πz\pi_z$ 最大化：

$Eρ[∑tγtϕ(st)⊤z∣πz]=F(s,a,z)⊤z\mathbb{E}_\rho\left[\sum_t \gamma^t \phi(s_t)^\top z \mid \pi_z\right] = F(s, a, z)^\top z$

这意味着 $F(s,a,z)⊤zF(s,a,z)^\top z$ 就是策略 $πz\pi_z$ 在奖励 $r_z$ 下的 Q 值函数。

2.2.2 FB-CPR 算法

FB-CPR 是 FB 框架的在线、离线策略扩展，专为物理角色动画设计，具有以下特点：

在线训练：与环境实时交互，不断收集数据
离线策略学习：利用回放缓冲区提高样本效率
判别器正则化：引入潜在条件判别器，使策略行为接近运动捕捉数据集 $M\mathcal{M}$ 中的演示

训练目标：最小化时序差分损失，同时通过判别器损失约束策略生成的轨迹与运动数据分布一致。

2.3 BFM-Zero 预训练的关键设计

为实现真实人形机器人的 sim-to-real 迁移，本文引入了四个关键设计：

2.3.1 非对称训练（Asymmetric Training）

组件	观测信息	作用
策略 $π\pi$	历史观测 $o_{t,H}$ （部分可观测）	模拟真实机器人的感知限制
Critic（F, B）	历史观测 + 特权状态 $s_t$	利用仿真中的完整状态提供精确值估计

优势：缩小策略与 Critic 之间的信息差距，在域随机化下提高策略鲁棒性。

观测定义：

可观测状态 $ot={qt−qˉ,q˙t,ωroott/4,gt}∈R64o_t = \{q_t - \bar{q}, \dot{q}_t, \omega_{\text{root}}^t/4, g_t\} \in \mathbb{R}^{64}$
历史窗口 $ot,H={ot−H,at−H,…,ot}∈R93⋅H+64o_{t,H} = \{o_{t-H}, a_{t-H}, \ldots, o_t\} \in \mathbb{R}^{93 \cdot H + 64}$
特权状态 $st∈R463s_t \in \mathbb{R}^{463}$ （包含根高度、身体姿态、根旋转、线速度和角速度等）

2.3.2 大规模并行训练

环境数量：数千个并行仿真环境
大回放缓冲区：存储大量离线策略交互数据
高 UTD 比率（Update-to-Data）：每次环境步对应多次网络更新
目标：高效训练多样化的策略族，同时保持训练稳定性

2.3.3 域随机化（Domain Randomization）

为防止过拟合仿真动力学，随机化以下物理参数：

连杆质量
摩擦系数
关节偏移
躯干质心位置
外加扰动和传感器噪声

2.3.4 奖励正则化

引入辅助奖励项避免危险行为：

关节限位惩罚
异常姿态惩罚
硬件安全约束

2.4 零样本推理方法

预训练完成后，BFM-Zero 支持三种零样本任务规格化方式：

任务类型	输入	方法	输出
奖励优化	任意奖励函数 $r (s)$	寻找 $z$ 使得 $\approx \phi(s)^\top z$	执行策略 $πz\pi_z$
目标到达	目标状态 $sgoals_{\text{goal}}$	找到 $z$ 最大化 $ϕ(sgoal)⊤z\phi(s_{\text{goal}})^\top z$	执行策略 $πz\pi_z$
运动跟踪	运动片段 $τ\tau$	计算轨迹嵌入 $z$	执行策略 $πz\pi_z$

2.5 少样本适应

当零样本策略表现不满足要求时，通过采样优化在潜在空间 $Z\mathcal{Z}$ 中搜索更优的 $z$ ：

仅需少量环境交互（few episodes）
无需重训练网络参数
可用于适应未见过的、难以通过零样本覆盖的任务

2.6 实验设计

2.6.1 机器人平台

硬件：Unitree G1 人形机器人（29-DoF）
控制：PD 控制器目标位置作为动作空间

2.6.2 仿真实验

基线对比：与现有运动跟踪RL方法对比
消融实验：验证非对称训练、域随机化、奖励正则化等设计选择的必要性
评估指标：跟踪误差、成功率、鲁棒性

2.6.3 真实机器人实验

验证以下能力（如图1所示）：

目标到达：零样本到达指定姿态
运动跟踪：跟踪未见过的运动片段
奖励优化：在给定奖励下优化行为
自然恢复：大扰动后的自主恢复
少样本适应：4kg 负重等新条件下的快速适应
未见运动：零样本执行训练中未见的全身运动

三、主要创新点与学术贡献

3.1 创新点总结

创新点一：首个可零样本提示的真实人形机器人行为基础模型

核心思想：通过无监督RL学习一个共享潜在空间 $Z\mathcal{Z}$ ，将运动、目标、奖励统一嵌入该空间，使单一策略可通过不同的任务规格化方式零样本执行多种下游任务。

创新价值：

首次证明离线无监督RL可以在真实人形机器人上工作
提供统一的、可解释的任务接口（奖励/目标/运动均可转换为 $z$ ）
无需为每个新任务重新训练策略

创新点二：前向-后向表示与运动数据正则化的深度融合

核心思想：在FB-CPR算法基础上，通过潜在条件判别器使无监督RL学习到的策略行为接近运动捕捉数据，避免产生不自然或不可行的动作。

创新价值：

解决了无监督RL策略可能产生“不类人”行为的问题
将物理角色动画中的成功经验引入真实机器人领域

创新点三：针对sim-to-real的系统性工程设计

核心思想：结合非对称训练、大规模并行训练、域随机化和奖励正则化四项关键技术，弥合仿真与真实之间的差距。

创新价值：

非对称训练：策略仅使用历史可观测信息，Critic使用特权信息，兼顾真实部署可行性与值估计准确性
大规模并行：实现高效的无监督预训练
域随机化：提升对物理参数不确定性的鲁棒性
奖励正则化：保护硬件安全

创新点四：零样本+少样本的双阶段适应机制

核心思想：零样本推理快速执行新任务；当零样本性能不足时，通过在潜在空间 $Z\mathcal{Z}$ 中采样优化进行少样本适应，仅需少量环境交互。

创新价值：

结合了零样本的速度和少样本的适应性
适应过程不修改网络权重，仅搜索 $z$ ，计算效率高

3.2 主要学术贡献

开创性：首次在真实人形机器人上实现基于无监督RL的行为基础模型，扩展了RL在机器人领域的应用范式。
统一性：提供了一个统一的框架，使同一策略可以通过奖励、目标状态、运动片段三种方式被提示执行不同任务，无需重训练。
鲁棒性：通过域随机化和非对称训练，策略能够从大扰动中自然恢复（如Fig.1D），并在4kg负重等新条件下通过少样本适应快速调整（如Fig.1E）。
可扩展性：算法设计支持大规模并行训练，为未来扩展到更复杂的人形机器人和更多任务奠定了基础。

3.3 与现有工作的对比

特性	传统RL方法（如PPO运动跟踪）	操作领域VLA模型	BFM-Zero
任务特定性	任务特定，每个策略一个任务	可提示，零样本	可提示，零样本
训练数据	仿真RL交互	人类遥操作演示	无标签运动数据+在线交互
人形机器人适用性	是（但单任务）	否（无动作标签）	是
真实部署验证	有限	广泛（操作）	首次（人形全身上下）
少样本适应	需重训练	需微调	潜在空间搜索

四、技术路线总结

┌─────────────────────────────────────────────────────────────────────────────┐
│                           BFM-Zero 技术架构                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│  输入空间                                                                     │
│  ├─ 无标签运动数据集 M = {轨迹(观测+特权状态)}                                │
│  └─ 在线仿真交互（域随机化环境）                                              │
├─────────────────────────────────────────────────────────────────────────────┤
│  核心算法：FB-CPR                                                            │
│  ├─ 学习前向映射 F(s,a,z) 和后向映射 B(s)                                    │
│  ├─ 构建任务特征 φ(s) = (E[B(s)B(s)^T])^{-1}B(s)                            │
│  ├─ 定义线性奖励族 r_z(s) = φ(s)^T z                                        │
│  ├─ 训练潜在条件策略 π(a|o_H, z)                                            │
│  └─ 判别器正则化：使策略接近运动数据分布                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│  关键工程设计                                                                │
│  ├─ 非对称训练：策略用历史可观测，Critic用特权完整状态                        │
│  ├─ 大规模并行：数千环境，大回放缓冲区，高UTD                                │
│  ├─ 域随机化：质量/摩擦/关节偏移/质心/扰动/噪声                              │
│  └─ 奖励正则化：关节限位、安全约束                                           │
├─────────────────────────────────────────────────────────────────────────────┤
│  推理阶段                                                                     │
│  ├─ 零样本：将任务（奖励/目标/运动）编码为z → 执行π_z                        │
│  └─ 少样本：在Z中采样优化z，仅需少量环境交互                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│  验证平台：Unitree G1 人形机器人（29-DoF）                                   │
│  ├─ 目标到达 ✓  运动跟踪 ✓  奖励优化 ✓                                      │
│  ├─ 自然恢复 ✓  未见运动 ✓  少样本适应（4kg负重）✓                          │
└─────────────────────────────────────────────────────────────────────────────┘

五、局限性与未来方向

潜在空间的语义可解释性仍需提升：虽然论文声称Z空间是平滑且具有语义的，但如何让人类操作者直观地指定一个 $z$ 来生成期望行为，仍然是一个开放问题。
运动数据的依赖性：BFM-Zero依赖无标签运动捕捉数据集来正则化策略行为。对于缺乏此类数据的机器人形态，该方法可能需要额外的数据收集。
计算资源需求：大规模并行训练（数千环境）需要大量计算资源，可能限制部分研究者的复现能力。
任务复杂性边界：当前验证的任务主要集中于运动类任务（跟踪、到达、简单奖励优化），对于需要长期规划或与物体交互的复杂操作任务，框架的适用性尚待验证。
未来方向：
- 将视觉观测集成到框架中，实现视觉-语言-动作的统一行为基础模型
- 探索更高效的潜在空间表示，支持更高维度的任务规格化
- 扩展到双足/四足等多种形态，构建跨形态的行为基础模型
- 结合大语言模型自动将自然语言指令映射到 $z$ ，实现真正的“可提示”人形机器人