【学习笔记】MOSAIC：让通用人形机器人“动得稳、跟得准”——从仿真到现实的快速残差适应系统

chase。

378人浏览 · 2026-03-31 13:46:00

chase。 · 2026-03-31 13:46:00 发布

一个策略，两种模式，30 分钟数据，打通仿真与真实人形机器人的运动跟踪与遥操作

🌟 引言

人形机器人要像人一样灵活运动，需要攻克两个关键能力：通用运动跟踪（让机器人学会走路、跑步、跳跃、踢腿等大量动作）和全身遥操作（让人类通过穿戴设备实时控制机器人完成任务）。近年来，强化学习让机器人在仿真环境中的运动指标越来越好——位置误差低至几厘米，成功率接近 100%。然而，当你把这些“学霸”策略部署到真实人形机器人上时，它们常常会莫名其妙地摔倒、原地打转、或者跟不上操作员的动作。

问题出在哪？为什么仿真中的高分选手一到现实就成了“学渣”？

来自北京人工智能研究院、慕尼黑工业大学、清华大学等机构的研究团队给出了答案：真正的瓶颈不是运动数据不够多，而是“接口差距”——不同遥操作设备的延迟、噪声、重定向偏差，会在长时间 locomotion 中累积放大，最终导致失败。

为了解决这个问题，他们提出了 MOSAIC（MOtion tracking System with Adaptive Interface Correction）系统。MOSAIC 的核心思想是：先在大规模多源运动数据上训练一个通用的运动跟踪策略，然后用少量（约 30 分钟）真实遥操作数据训练一个轻量级残差模块，在不破坏通用能力的前提下，快速适应新接口。最终，MOSAIC 让一个策略同时支持离线运动回放和在线遥操作，并在真实 Unitree G1 人形机器人上实现了分钟级的稳定跟踪，甚至能完成跳跃、单腿支撑、跳投等高动态动作。

本文将对 MOSAIC 系统进行深度解析，涵盖其数据构建、奖励设计、残差适应机制、部署框架以及丰富的实验结果，希望能为从事人形机器人和具身智能研究的读者提供实用参考。

背景与动机

从运动模仿到通用跟踪

自 DeepMimic [29] 以来，基于强化学习的运动模仿取得了长足进步。早期工作只能跟踪单个或少量运动片段，随后研究者们逐步扩展到更动态、接触更丰富的动作 [39, 20]。近两年，通用运动跟踪成为新趋势：用一个策略跟踪大规模运动语料库（例如 GMT [2]、Any2Track [47]、UniTracker [41]、KungfuBot2 [5]）。与此同时，全身遥操作系统（如 ExBody [11]、OmniH2O [7]、HumanPlus [4]、TWIST [44]）也蓬勃发展，旨在为移动操作和大规模演示采集提供基础设施。

这两个方向交汇于一个愿景：当运动跟踪足够通用和可靠时，全身遥操作将成为机器人的基础能力。

仿真高分 ≠ 真实好用

然而，研究团队在大量实验中发现，一个在仿真中达到 SOTA 指标的跟踪器，到了真实机器人上却频繁出现：

行走时突然绊倒
身体漂移，无法保持预期的全局轨迹
在高动态动作（如跳跃）中失去平衡

为什么会这样？论文给出了两个核心解释：

数据来源的异质性：不同来源的运动数据（光学动捕、惯性动捕、公开数据集、生成数据）具有不同的噪声、延迟和重定向偏差。训练时的多样性反而让策略难以适应单一接口的稳定需求。
遥操作接口的独特误差：VR 头显、惯性动捕服等设备各有各的延迟（0.2~0.4秒）、丢包、传感器噪声。这些在仿真中通常被简化或忽略，但在真实机器人上会累积成灾难。

关键观察：仿真中，同一个通用跟踪器可以很好地泛化到分布外（OOD）的复杂动作；但在真实机器人上，即使是训练数据中大量存在的“走路”也会失败。这说明问题不是运动多样性不足，而是 “接口差距”。

MOSAIC 正是为填补这个差距而设计的。

系统总览

MOSAIC 是一个 “单策略、双模式” 的全身运动跟踪与遥操作系统，其整体架构如图 2 所示（论文 Fig. 2）。

两种工作模式

模式	输入来源	应用场景
离线运动回放	存储的机器人空间运动片段（.npz）	演示、基准测试、基础动作复现
在线遥操作	实时人体运动流（VR / 惯性动捕）	远程操作、示范数据采集

两种模式共享完全相同的策略接口：在每个控制步，策略只消耗下一帧的参考状态（one-step lookahead），而不需要多步未来窗口。这种设计让策略对延迟和参考信号中断更加鲁棒。

输入与输出

观测空间：包括机器人本体感知（关节位置/速度、基座角速度等，添加噪声）和参考帧信息（参考关节位置/速度、参考锚点朝向等）。策略使用 5 步历史。
动作空间：29 维关节位置目标（对应 Unitree G1 的 29 个自由度）。
控制频率：50 Hz。
底层控制器：关节空间 PD 控制器，带力矩和速度限幅。

仿真和真实机器人使用完全相同的控制栈，确保 sim-to-real 的一致性。

多源运动数据与自适应重采样

数据来源（总计 ~64 小时）

为了训练一个真正通用的运动跟踪器，MOSAIC 汇集了五种来源的数据（表 I）：

数据源	时长	特点
自采光学动捕	3.1 小时	Vicon Nexus，39 标记点，高精度
自采惯性动捕	7.0 小时	IO-AI 15 IMU，用于通用训练
公开数据集 (AMASS+OMOMO)	51 小时	多样化人体运动
GENMO 生成运动	2.2 小时	文本→运动，7 类动作，平面约束
遥操作适应数据	1.0 小时	用于残差适配器训练（VR/惯性）

关键设计：用于通用训练的惯性动捕设备（IO-AI）与最终遥操作测试设备（Noitom）刻意不同。这模拟了真实场景中“训练设备 ≠ 部署设备”的接口差异，也凸显了残差适应模块的必要性。

两级自适应重采样

由于不同运动片段的长度、难度、覆盖率差异巨大，简单的均匀采样会导致训练偏向简单动作。MOSAIC 实现了两级自适应重采样：

运动级采样：每个环境定期被分配一个运动片段。采样概率是三个因素的凸组合：
- 难度：根据该运动的历史失败率（越高越容易被采样）
- 新颖性：根据该运动被分配的次数（越少越容易被采样）
- 均匀项：保证每个运动都有基础概率，防止崩溃
同时引入 warmup 阶段，避免早期随机失败误导难度估计。
运动内采样：每个运动被切分为多个时间 bin（如 0.5 秒一段）。根据每个 bin 的历史失败率，使用 EMA 和核平滑更新采样概率，让策略聚焦于容易失败的关键片段（如转身、触地过渡）。

这种两级机制显著提高了训练效率和对难样本的覆盖。

策略训练与奖励设计

问题建模

运动跟踪被建模为一个部分可观测马尔可夫决策过程（POMDP）。采用 不对称 Actor-Critic：Actor 只能访问有噪声的本体感知和参考信息，而 Critic 在训练时可以使用 privileged 信息（如真实的身体位置、线速度等）。

奖励函数

奖励函数分为三部分：跟踪奖励（全局）、遥操作奖励（世界帧强调）和惩罚项（正则化）。所有跟踪奖励使用指数核：
[
r = w \cdot \exp(-|e|^2 / \sigma^2)
]

关键奖励项（世界帧）

奖励项	权重	标准差	作用
全局锚点位置	0.5	0.3 m	减少根部漂移
全局身体位置	1.0	0.3 m	保持躯干轨迹
全局身体线速度	1.5	1.0 m/s	改善动态一致性
全局脚位置	1.0	0.5 m	增强接触稳定性
全局 VR 设备位置	0.5	0.5 m	针对 VR 接口优化

与以往主要采用机器人坐标系奖励的工作不同，加入世界帧奖励显著减少了长时程 locomotion 的漂移，并提高了高动态动作（跳跃、奔跑）的成功率（见图 3b）。

终止条件

为了保护仿真训练的安全性和效率，设置了多种终止条件：

锚点垂直误差 > 0.25 m
锚点朝向偏差 > 0.8 rad
腕/踝垂直误差 > 0.25 m
运动片段自然结束或达到最大步数（500 步）

域随机化

为了促进 sim-to-real 迁移，训练时对以下参数进行随机化：

静态/动态摩擦系数（0.3~1.6 / 0.3~1.2）
恢复系数（0.0~0.5）
关节默认位置偏移
基座质心偏移
随机外力推挤（每 1-3 秒）

核心创新：残差适配器蒸馏

这是 MOSAIC 最具原创性的部分。设计目标：用少量真实遥操作数据（~30 分钟）快速修正通用策略，而不破坏其原有的广泛运动能力。

基本公式

我们有两个预训练策略：

π_GMT：通用运动跟踪策略（在大规模多源数据上训练，参数冻结）
π_ADAPT：适应策略（仅在遥操作数据集上训练，捕捉特定接口的延迟/噪声特征）

然后训练一个轻量级 残差模块 π_RES，最终的学生策略为：
[
\pi_S(\mathbf{o}t) = \pi{\mathrm{GMT}}(\mathbf{o}t) + \pi{\mathrm{RES}}(\mathbf{o}_t)
]

零偏置初始化

残差模块的最后一层采用 接近零的权重增益 + 零偏置 初始化（借鉴 ResMimic [48]）。这保证了初始的残差输出接近零，早期训练更新是保守的，不会突然破坏基础策略的性能。

双教师行为克隆

蒸馏损失同时拟合两个教师：
[
\mathcal{L}{\mathrm{distill}} = w{\mathrm{GMT}} \mathbb{E}\left[|\pi_S - \pi_{\mathrm{GMT}}|^2\right] + w_{\mathrm{ADAPT}} \mathbb{E}\left[|\pi_S - \pi_{\mathrm{ADAPT}}|^2\right]
]

π_GMT 教师：保持通用运动能力
π_ADAPT 教师：注入接口特定的修正（如延迟补偿、噪声鲁棒性）

这样，残差模块学会了仅在必要时偏离通用策略，从而实现了“即插即用”式的适应。

为什么残差适应优于传统方法？

论文比较了三种策略（表 IV、V）：

方法	原理	问题
微调	继续在遥操作数据上优化 π_GMT	灾难性遗忘，通用跟踪能力大幅下降（E_AP 从 0.82 恶化到 2.76）
持续学习	将遥操作数据混入通用数据继续训练	梯度稀释，提升微小（E_AP 仅从 0.824 降到 0.857）
残差适配器	冻结 π_GMT，只训练残差	✅ 保持通用性（E_AP 0.817），同时大幅降低遥操作误差（E_AP 从 2.935 降到 1.194）

实验结果证明，残差适配器是唯一能同时保持通用运动能力和提升接口适应性的方法。

RobotBridge：统一部署框架

为了让 MOSAIC 能够在不同机器人平台和仿真器之间无缝迁移，团队开发了 RobotBridge 模块化部署框架。其设计理念类似于 RoboJuDo [49]，但具有更强的可扩展性。

主要特点

分层解耦：高层策略代码与底层机器人 SDK 完全分离。策略只通过标准化的 Observation/Action API 与环境交互。
配置驱动：基于 Hydra [40]，通过 YAML 文件或命令行参数即可切换机器人型号（G1 / H1 / H1_2 / PND Adam）、仿真器（MuJoCo / Isaac Lab）或策略（MOSAIC / TWIST / GMT / ASAP / AMO）。
零代码切换：同一个策略二进制文件可以直接在 MuJoCo 仿真中运行，然后部署到真实 Unitree G1 上，无需修改任何代码。
支持多策略集成：已集成了 MOSAIC、TWIST、GMT、ASAP、AMO、BeyondMimic 等多种控制策略，方便公平比较。

RobotBridge 极大地降低了人形机器人算法从仿真到现实的门槛，也是 MOSAIC 能够快速验证大量消融实验的关键基础设施。

实验设计与结果

训练配置

仿真器：Isaac Lab [27] + MuJoCo [34] 物理引擎
硬件：8× NVIDIA A100 GPU，每个 GPU 30,000 并行环境
策略网络：MLP [1024,1024,512,256]，ELU 激活
PPO 超参数：rollout length=24，learning rate=1e-3，γ=0.99，GAE λ=0.95

评估基准

仿真评估：使用 Motion-X-Sub 作为 OOD 测试集（633 个序列，平均 19 秒，共 3.35 小时，过滤了需要环境支撑的动作）。
真实机器人评估：10 分钟留出的 VR 遥操作测试集，包括走路、转弯、蹲起等日常动作。

核心结果

1. 数据源多样性影响（图 3a）

5 源（全部） > 3 源（AMASS+OMOMO+惯性） > 1 源（仅 AMASS）
更多样化的数据显著提升了 OOD 泛化能力和鲁棒性。

2. 奖励设计影响（图 3b）

加入世界帧奖励后，全局锚点位置误差降低约 30%，成功率从 68% 提升至 78%。
纯机器人坐标系奖励会导致长时程漂移，尤其在奔跑和跳跃时容易失败。

3. 训练范式比较（图 3b）

纯 RL 优于 DAgger 蒸馏：蒸馏难以迁移细粒度的全局位置/速度跟踪行为。
纯 RL 的成功率（77.88%）显著高于蒸馏策略（约 70%）。

4. 与基线比较（图 3b，图 4）

MOSAIC 在 E_AP、E_BP、E_EP 等所有指标上均优于 GMT [2] 和 TWIST [44]。
定性结果（图 4）：在高动态动作（如跳跃）中，基线常常无法达到足够的离地高度或落地不稳，而 MOSAIC 能完美跟踪参考轨迹。

5. 残差适应效果（表 IV，表 V）

通用跟踪能力保持（表 IV，Motion-X-Sub）：

配置	E_AP (m) ↓	成功率 ↑
基础模型	0.824	77.88%
微调	2.759 (退化)	40.60%
持续学习	0.857	78.36%
残差适配器	0.817	77.25%

残差适配器保持了与基础模型几乎相同的通用跟踪精度，而微调导致严重退化。

遥操作性能（表 V，VR 数据集）：

配置	E_AP (m) ↓	成功率 ↑
基础模型	2.935	100%
微调	1.411	92%
持续学习	1.725	100%
残差适配器（世界帧）	1.194	100%

残差适配器将遥操作的位置误差降低了约 60%，同时保持了 100% 成功率。

6. 数据规模效应（表 VI）

3 分钟遥操作数据：效果微弱（E_AP 2.825）
15 分钟：显著改善（E_AP 1.569）
30 分钟：最佳（E_AP 1.194）

结论：残差适应需要适量的高质量数据（15-30 分钟），但远少于重新训练通用策略所需的数据量。

7. FLD 周期性运动增强（表 VI 最后一行）

FLD [15] 可以从 3 分钟周期性运动中生成约 10 小时合成数据，但对遥操作误差的改善有限（E_AP 2.93 → 2.93，几乎无变化）。
这表明接口引起的系统误差无法通过增加周期性运动数据来解决，直接接口适应才是正确方向。

延迟分析与实际部署

两种遥操作接口的延迟

接口	端到端延迟	主要贡献阶段
VR（PICO 4 Ultra，5 个追踪带 + 2 手柄）	~0.4 秒	无线传输 + GMR 重定向（0.267 秒）
惯性动捕（Noitom，17 个追踪器）	~0.2 秒	有线传输 + GMR 重定向（0.067 秒）

为了缓解延迟影响，MOSAIC 在机器人机载计算机上实现了 EMA 平滑 和 中央差分速度估计，使参考信号更加平滑。此外，单步参考输入（one-step lookahead）的设计本身也对延迟具有一定鲁棒性。

真实机器人上的表现

在 Unitree G1 上，MOSAIC 成功实现了：

连续 10 分钟以上的稳定遥操作（包括走路、转弯、蹲起）
高动态动作：跳跃、单腿支撑、跳投式动作
离线回放：能够完美复现 Kungfu 式踢腿、跑步、深蹲等多样化运动

视频和定性结果可在项目主页查看：baai-humanoid.github.io/MOSAIC

网络结构消融

论文还比较了三种融合 proprioception 和参考输入的架构（图 S6，表 S7）：

架构	描述	结果
MLP 融合（最终选择）	直接将 proprioception 和参考拼接，通过 MLP 映射到动作	最高奖励和最长 episode 长度
编码器融合（FSQ / VQ-VAE）	先用离散编码器压缩参考，再与 proprioception 拼接	无显著提升，训练成本更高
注意力融合	proprioception 作为 query 去 attend 参考特征	无显著提升

结论：在当前数据规模和机器人运动结构下，MLP 已足够强大，更复杂的融合机制没有带来额外收益。

结论与开源

三个关键洞察

MOSAIC 的研究为通用人形机器人运动跟踪与遥操作提供了三个重要见解：

仿真指标饱和后，真实失败主要来自接口和动力学差距（延迟、噪声、估计偏差），而不是运动多样性不足。因此，sim-to-real 研究应更关注接口建模和适应。
残差适应是连接通用模型与特定接口的最稳定、最样本高效的方式。它比微调和持续学习更安全（不破坏通用能力），且仅需 30 分钟的真实数据即可大幅提升遥操作性能。
周期性运动增强（如 FLD）可以增加数据多样性，但无法替代接口级适应。解决真实问题需要直面真实噪声，而不是在仿真中无限扩展数据。

开源资源（即将发布）

MOSAIC 团队承诺开源以下内容：

训练代码：PPO 训练脚本、两级重采样数据加载器、奖励/终止条件实现、消融工具。
部署框架：RobotBridge 完整代码，支持 MuJoCo 和真实机器人无缝切换。
自采数据：3.1 小时光学动捕 + 7.0 小时惯性动捕（AMASS 格式 + G1 重定向格式），以及 1.0 小时遥操作适应数据。
生成运动：文本提示、过滤后的 GENMO 生成运动、复现脚本。
模型检查点：通用跟踪器、接口适配器、残差模块的预训练权重。
公共数据处理脚本：将 AMASS/OMOMO 重定向到 G1 的标准化流程。

局限性与未来工作

MOSAIC 仍然依赖可靠的低延迟传感和状态估计；对于极端延迟（>0.5 秒）或严重丢包的情况，可能需要更激进的前向预测。此外，当前系统主要针对平面 locomotion，对于上下楼梯、斜坡等非平面地形尚未验证。未来工作可以结合视觉感知和地形估计，进一步扩展 MOSAIC 的适用范围。

写在最后

MOSAIC 不仅是一个高水平的运动跟踪与遥操作系统，更是一套从数据构建、策略训练、残差适应到仿真部署的全栈开源方案。它清楚地告诉我们：在人形机器人领域，解决真实问题往往需要回归真实接口——仿真中的高分只是起点，如何优雅地适应真实世界的噪声和延迟，才是通向可靠机器人的关键。

如果你正在研究人形机器人控制、遥操作或 sim-to-real 迁移，MOSAIC 的思路和开源资源绝对值得深入研究。

项目主页：baai-humanoid.github.io/MOSAIC

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

告别 AI 失忆！基于 Harness 记忆模型，解密 SpreadContext 多实例同步引擎

AtomGit开源社区

一颗10W小模块，为什么能撑起Physical AI的未来？

AtomGit开源社区

知识蒸馏在 sVLM 中的作用及实现方式

小型视觉语言模型（sVLM）知识蒸馏技术综述 sVLM通过视觉编码器+多模态适配器+小型LLM组成，旨在将大模型的多模态能力压缩至移动端设备。知识蒸馏的核心在于利用大模型Teacher的输出、特征和推理偏好训练小模型Student，使其在更低资源下保持视觉问答、OCR和复杂指令跟随等能力。关键技术包括：多模态蒸馏：同时迁移视觉和语言模态表示，改善视觉-语言对齐渐进式训练：采用DPT→SFT→D

AtomGit开源社区

所有评论(0)

查看更多评论

chase。

@weixin_39284111

已为社区贡献5条内容

【学习笔记】MOSAIC：让通用人形机器人“动得稳、跟得准”——从仿真到现实的快速残差适应系统

chase。

🌟 引言

📌 目录

背景与动机

从运动模仿到通用跟踪

仿真高分 ≠ 真实好用

系统总览

两种工作模式

输入与输出

多源运动数据与自适应重采样

数据来源（总计 ~64 小时）

两级自适应重采样

策略训练与奖励设计

问题建模

奖励函数

关键奖励项（世界帧）

终止条件

域随机化

核心创新：残差适配器蒸馏

基本公式

零偏置初始化

双教师行为克隆

为什么残差适应优于传统方法？

RobotBridge：统一部署框架

主要特点

实验设计与结果

训练配置

评估基准

核心结果

1. 数据源多样性影响（图 3a）

2. 奖励设计影响（图 3b）

3. 训练范式比较（图 3b）

4. 与基线比较（图 3b，图 4）

5. 残差适应效果（表 IV，表 V）

6. 数据规模效应（表 VI）

7. FLD 周期性运动增强（表 VI 最后一行）

延迟分析与实际部署

两种遥操作接口的延迟

真实机器人上的表现

网络结构消融

结论与开源

三个关键洞察

开源资源（即将发布）

局限性与未来工作

写在最后

所有评论(0)

温馨提示：您尚未绑定手机号

chase。