BFM-Zero: 一种用于人形机器人控制的可提示行为基础模型【文献解读】

论文标题:BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning

作者:Yitang Li¹, Zhengyi Luo¹, Tonghe Zhang¹, Cunxi Dai¹, Andrea Tirinzoni², Anssi Kanervisto², Haoyang Weng¹, Kris Kitani¹, Mateusz Guzek², Ahmed Touati², Alessandro Lazaric², Matteo Pirotta², Guanya Shi¹

机构:¹Carnegie Mellon University, ²Meta

发表信息:arXiv:2511.04131v1, Nov 6 2025

项目网站:https://lecar-lab.github.io/BFM-Zero/


一、关键科学问题与技术挑战

1.1 核心问题

如何构建一个可提示(promptable)的、能够在真实人形机器人上零样本执行多种下游任务的行为基础模型(Behavioral Foundation Model, BFM)? 本文从无监督强化学习(unsupervised RL)角度出发,解决人形机器人全身上下文中任务统一表示与策略泛化的根本难题。

1.2 技术挑战

  1. 人形机器人行为基础模型的缺失:在机器人操作领域,视觉-语言-动作(VLA)模型已可通过行为克隆从人类演示中学习通用策略。但对于人形机器人全身上下控,不存在现成的关节级动作标签,也无法通过遥操作大规模采集演示数据。这导致行为基础模型在人形机器人领域的发展严重滞后。

  2. 现有RL方法的任务特定性与非适应性:当前最先进的人形机器人RL策略(如基于PPO的运动跟踪)存在三大局限:

    • 任务特定:每个策略仅针对单个运动捕捉片段或单个任务训练,无法泛化
    • 非自适应:训练完成后无法通过微调或组合来执行新任务
    • 缺乏统一接口:没有可解释的目标规格化方法,人类操作者难以直接引导机器人
  3. 无监督RL应用于真实人形机器人的可行性未知

    • 大多数真实机器人部署依赖在线策略(on-policy)训练(主要是PPO),离线无监督RL在真实人形机器人上的应用尚无先例
    • 无监督RL算法能否处理sim-to-real差距动态扰动,在仿真训练和真实推理中保持鲁棒性,尚未被验证
  4. 仿真到真实的迁移障碍

    • 仿真环境中的特权信息(完整状态)在真实机器人上无法获取
    • 物理参数(质量、摩擦、关节偏移等)存在不确定性
    • 需要设计合适的奖励正则化,避免关节限位、危险动作等损害硬件

二、研究方法与算法原理

2.1 整体技术路线

pipeline:
在这里插入图片描述

┌─────────────────────────────────────────────────────────────────┐
│                    预训练阶段(仿真)                             │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  输入:无标签运动数据集 M = {轨迹} + 在线交互数据         │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↓                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  FB-CPR算法(前向-后向表示 + 策略正则化)                │   │
│  │  ├─ 学习前向映射 F(s,a,z) 和后向映射 B(s)               │   │
│  │  ├─ 构建共享潜在空间 Z ⊆ R^d(d维)                     │   │
│  │  ├─ 训练潜在条件策略 π(a|o_H, z)                        │   │
│  │  └─ 使用判别器正则化策略行为,接近运动捕捉数据          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↓                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  关键技术设计                                             │   │
│  │  ├─ 非对称训练:策略仅观测历史,Critic使用特权信息       │   │
│  │  ├─ 大规模并行环境(数千个)+ 大回放缓冲区               │   │
│  │  ├─ 域随机化(质量、摩擦、关节偏移、扰动、传感器噪声)   │   │
│  │  └─ 奖励正则化(关节限位、安全约束)                     │   │
│  └─────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                    零样本推理(真实机器人)                       │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  任务规格化方法(无需重训练)                             │   │
│  │  ├─ 奖励优化:给定奖励函数 r(s) = φ(s)^T z,求解最优z   │   │
│  │  ├─ 目标到达:给定目标状态 s_goal,求解对应的z           │   │
│  │  └─ 运动跟踪:给定运动片段,求解对应轨迹的嵌入z          │   │
│  └─────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                    少样本适应(可选)                             │
│  └─ 通过采样优化在潜在空间Z中搜索更好的z,仅需少量环境交互      │
└─────────────────────────────────────────────────────────────────┘

2.2 算法原理:前向-后向表示(Forward-Backward Representations)

2.2.1 核心数学框架

BFM-Zero 建立在前向-后向表示(FB representations)的理论基础上。该框架学习一个低秩近似策略的动态转移核。

基本分解:学习两个映射函数

  • 前向映射 F:S×A×Rd→RdF: \mathcal{S} \times \mathcal{A} \times \mathbb{R}^d \to \mathbb{R}^dF:S×A×RdRd:给定状态-动作和潜在变量 zzz,预测后续特征
  • 后向映射 B:S→RdB: \mathcal{S} \to \mathbb{R}^dB:SRd:从状态中提取后向特征

使得折扣访问概率分解为:

Mπz(ds′∣s,a)≃F(s,a,z)⊤B(s′)ρ(ds′)M^{\pi_z}(ds' | s, a) \simeq F(s, a, z)^\top B(s') \rho(ds')Mπz(dss,a)F(s,a,z)B(s)ρ(ds)

其中 Mπz(s′∈X∣s,a):=∑tγtPr⁡(st∈X∣s,a,πz)M^{\pi_z}(s' \in X | s, a) := \sum_t \gamma^t \Pr(s_t \in X | s, a, \pi_z)Mπz(sXs,a):=tγtPr(stXs,a,πz) 表示从 (s,a)(s,a)(s,a) 出发、遵循策略 πz\pi_zπz 时,折扣访问概率。

任务特征:定义 ϕ(s):=(Eρ[B(s)B(s)⊤])−1B(s)\phi(s) := (\mathbb{E}_\rho[B(s)B(s)^\top])^{-1}B(s)ϕ(s):=(Eρ[B(s)B(s)])1B(s),则 ϕ(s)\phi(s)ϕ(s) 构成任务特征函数。

线性奖励族:每个 z∈Zz \in \mathbb{Z}zZ 定义线性奖励函数 rz(s)=ϕ(s)⊤zr_z(s) = \phi(s)^\top zrz(s)=ϕ(s)z,对应的策略 πz\pi_zπz 最大化:

Eρ[∑tγtϕ(st)⊤z∣πz]=F(s,a,z)⊤z\mathbb{E}_\rho\left[\sum_t \gamma^t \phi(s_t)^\top z \mid \pi_z\right] = F(s, a, z)^\top zEρ[tγtϕ(st)zπz]=F(s,a,z)z

这意味着 F(s,a,z)⊤zF(s,a,z)^\top zF(s,a,z)z 就是策略 πz\pi_zπz 在奖励 rzr_zrz 下的 Q 值函数。

2.2.2 FB-CPR 算法

FB-CPR 是 FB 框架的在线、离线策略扩展,专为物理角色动画设计,具有以下特点:

  • 在线训练:与环境实时交互,不断收集数据
  • 离线策略学习:利用回放缓冲区提高样本效率
  • 判别器正则化:引入潜在条件判别器,使策略行为接近运动捕捉数据集 M\mathcal{M}M 中的演示

训练目标:最小化时序差分损失,同时通过判别器损失约束策略生成的轨迹与运动数据分布一致。

2.3 BFM-Zero 预训练的关键设计

为实现真实人形机器人的 sim-to-real 迁移,本文引入了四个关键设计:

2.3.1 非对称训练(Asymmetric Training)
组件 观测信息 作用
策略 π\piπ 历史观测 ot,Ho_{t,H}ot,H(部分可观测) 模拟真实机器人的感知限制
Critic(F, B) 历史观测 + 特权状态 sts_tst 利用仿真中的完整状态提供精确值估计

优势:缩小策略与 Critic 之间的信息差距,在域随机化下提高策略鲁棒性。

观测定义

  • 可观测状态 ot={qt−qˉ,q˙t,ωroott/4,gt}∈R64o_t = \{q_t - \bar{q}, \dot{q}_t, \omega_{\text{root}}^t/4, g_t\} \in \mathbb{R}^{64}ot={qtqˉ,q˙t,ωroott/4,gt}R64
  • 历史窗口 ot,H={ot−H,at−H,…,ot}∈R93⋅H+64o_{t,H} = \{o_{t-H}, a_{t-H}, \ldots, o_t\} \in \mathbb{R}^{93 \cdot H + 64}ot,H={otH,atH,,ot}R93H+64
  • 特权状态 st∈R463s_t \in \mathbb{R}^{463}stR463(包含根高度、身体姿态、根旋转、线速度和角速度等)
2.3.2 大规模并行训练
  • 环境数量:数千个并行仿真环境
  • 大回放缓冲区:存储大量离线策略交互数据
  • 高 UTD 比率(Update-to-Data):每次环境步对应多次网络更新
  • 目标:高效训练多样化的策略族,同时保持训练稳定性
2.3.3 域随机化(Domain Randomization)

为防止过拟合仿真动力学,随机化以下物理参数:

  • 连杆质量
  • 摩擦系数
  • 关节偏移
  • 躯干质心位置
  • 外加扰动和传感器噪声
2.3.4 奖励正则化

引入辅助奖励项避免危险行为:

  • 关节限位惩罚
  • 异常姿态惩罚
  • 硬件安全约束

2.4 零样本推理方法

预训练完成后,BFM-Zero 支持三种零样本任务规格化方式:

任务类型 输入 方法 输出
奖励优化 任意奖励函数 r(s)r(s)r(s) 寻找 zzz 使得 r(s)≈ϕ(s)⊤zr(s) \approx \phi(s)^\top zr(s)ϕ(s)z 执行策略 πz\pi_zπz
目标到达 目标状态 sgoals_{\text{goal}}sgoal 找到 zzz 最大化 ϕ(sgoal)⊤z\phi(s_{\text{goal}})^\top zϕ(sgoal)z 执行策略 πz\pi_zπz
运动跟踪 运动片段 τ\tauτ 计算轨迹嵌入 zzz 执行策略 πz\pi_zπz

2.5 少样本适应

当零样本策略表现不满足要求时,通过采样优化在潜在空间 Z\mathcal{Z}Z 中搜索更优的 zzz

  • 仅需少量环境交互(few episodes)
  • 无需重训练网络参数
  • 可用于适应未见过的、难以通过零样本覆盖的任务

2.6 实验设计

2.6.1 机器人平台
  • 硬件:Unitree G1 人形机器人(29-DoF)
  • 控制:PD 控制器目标位置作为动作空间
2.6.2 仿真实验
  • 基线对比:与现有运动跟踪RL方法对比
  • 消融实验:验证非对称训练、域随机化、奖励正则化等设计选择的必要性
  • 评估指标:跟踪误差、成功率、鲁棒性
2.6.3 真实机器人实验

验证以下能力(如图1所示):

  • 目标到达:零样本到达指定姿态
  • 运动跟踪:跟踪未见过的运动片段
  • 奖励优化:在给定奖励下优化行为
  • 自然恢复:大扰动后的自主恢复
  • 少样本适应:4kg 负重等新条件下的快速适应
  • 未见运动:零样本执行训练中未见的全身运动

三、主要创新点与学术贡献

3.1 创新点总结

创新点一:首个可零样本提示的真实人形机器人行为基础模型

核心思想:通过无监督RL学习一个共享潜在空间 Z\mathcal{Z}Z,将运动、目标、奖励统一嵌入该空间,使单一策略可通过不同的任务规格化方式零样本执行多种下游任务。

创新价值

  • 首次证明离线无监督RL可以在真实人形机器人上工作
  • 提供统一的、可解释的任务接口(奖励/目标/运动均可转换为 zzz
  • 无需为每个新任务重新训练策略
创新点二:前向-后向表示与运动数据正则化的深度融合

核心思想:在FB-CPR算法基础上,通过潜在条件判别器使无监督RL学习到的策略行为接近运动捕捉数据,避免产生不自然或不可行的动作。

创新价值

  • 解决了无监督RL策略可能产生“不类人”行为的问题
  • 将物理角色动画中的成功经验引入真实机器人领域
创新点三:针对sim-to-real的系统性工程设计

核心思想:结合非对称训练、大规模并行训练、域随机化和奖励正则化四项关键技术,弥合仿真与真实之间的差距。

创新价值

  • 非对称训练:策略仅使用历史可观测信息,Critic使用特权信息,兼顾真实部署可行性与值估计准确性
  • 大规模并行:实现高效的无监督预训练
  • 域随机化:提升对物理参数不确定性的鲁棒性
  • 奖励正则化:保护硬件安全
创新点四:零样本+少样本的双阶段适应机制

核心思想:零样本推理快速执行新任务;当零样本性能不足时,通过在潜在空间 Z\mathcal{Z}Z 中采样优化进行少样本适应,仅需少量环境交互。

创新价值

  • 结合了零样本的速度和少样本的适应性
  • 适应过程不修改网络权重,仅搜索 zzz,计算效率高

3.2 主要学术贡献

  1. 开创性:首次在真实人形机器人上实现基于无监督RL的行为基础模型,扩展了RL在机器人领域的应用范式。

  2. 统一性:提供了一个统一的框架,使同一策略可以通过奖励、目标状态、运动片段三种方式被提示执行不同任务,无需重训练。

  3. 鲁棒性:通过域随机化和非对称训练,策略能够从大扰动中自然恢复(如Fig.1D),并在4kg负重等新条件下通过少样本适应快速调整(如Fig.1E)。

  4. 可扩展性:算法设计支持大规模并行训练,为未来扩展到更复杂的人形机器人和更多任务奠定了基础。

3.3 与现有工作的对比

特性 传统RL方法(如PPO运动跟踪) 操作领域VLA模型 BFM-Zero
任务特定性 任务特定,每个策略一个任务 可提示,零样本 可提示,零样本
训练数据 仿真RL交互 人类遥操作演示 无标签运动数据+在线交互
人形机器人适用性 是(但单任务) 否(无动作标签)
真实部署验证 有限 广泛(操作) 首次(人形全身上下)
少样本适应 需重训练 需微调 潜在空间搜索

四、技术路线总结

┌─────────────────────────────────────────────────────────────────────────────┐
│                           BFM-Zero 技术架构                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│  输入空间                                                                     │
│  ├─ 无标签运动数据集 M = {轨迹(观测+特权状态)}                                │
│  └─ 在线仿真交互(域随机化环境)                                              │
├─────────────────────────────────────────────────────────────────────────────┤
│  核心算法:FB-CPR                                                            │
│  ├─ 学习前向映射 F(s,a,z) 和后向映射 B(s)                                    │
│  ├─ 构建任务特征 φ(s) = (E[B(s)B(s)^T])^{-1}B(s)                            │
│  ├─ 定义线性奖励族 r_z(s) = φ(s)^T z                                        │
│  ├─ 训练潜在条件策略 π(a|o_H, z)                                            │
│  └─ 判别器正则化:使策略接近运动数据分布                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│  关键工程设计                                                                │
│  ├─ 非对称训练:策略用历史可观测,Critic用特权完整状态                        │
│  ├─ 大规模并行:数千环境,大回放缓冲区,高UTD                                │
│  ├─ 域随机化:质量/摩擦/关节偏移/质心/扰动/噪声                              │
│  └─ 奖励正则化:关节限位、安全约束                                           │
├─────────────────────────────────────────────────────────────────────────────┤
│  推理阶段                                                                     │
│  ├─ 零样本:将任务(奖励/目标/运动)编码为z → 执行π_z                        │
│  └─ 少样本:在Z中采样优化z,仅需少量环境交互                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│  验证平台:Unitree G1 人形机器人(29-DoF)                                   │
│  ├─ 目标到达 ✓  运动跟踪 ✓  奖励优化 ✓                                      │
│  ├─ 自然恢复 ✓  未见运动 ✓  少样本适应(4kg负重)✓                          │
└─────────────────────────────────────────────────────────────────────────────┘

五、局限性与未来方向

  1. 潜在空间的语义可解释性仍需提升:虽然论文声称Z空间是平滑且具有语义的,但如何让人类操作者直观地指定一个zzz来生成期望行为,仍然是一个开放问题。

  2. 运动数据的依赖性:BFM-Zero依赖无标签运动捕捉数据集来正则化策略行为。对于缺乏此类数据的机器人形态,该方法可能需要额外的数据收集。

  3. 计算资源需求:大规模并行训练(数千环境)需要大量计算资源,可能限制部分研究者的复现能力。

  4. 任务复杂性边界:当前验证的任务主要集中于运动类任务(跟踪、到达、简单奖励优化),对于需要长期规划或与物体交互的复杂操作任务,框架的适用性尚待验证。

  5. 未来方向

    • 将视觉观测集成到框架中,实现视觉-语言-动作的统一行为基础模型
    • 探索更高效的潜在空间表示,支持更高维度的任务规格化
    • 扩展到双足/四足等多种形态,构建跨形态的行为基础模型
    • 结合大语言模型自动将自然语言指令映射到zzz,实现真正的“可提示”人形机器人
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐