机器人从人类视频中学习：综述（上）

硅谷秋水

487人浏览 · 2026-05-17 00:15:00

硅谷秋水 · 2026-05-17 00:15:00 发布

26年4月来自上交大和剑桥大学的论文“Robot Learning from Human Videos: A Survey”。

阻碍具身智能（Embodied AI）与机器人技术进一步发展的关键瓶颈之一，在于如何实现机器人数据的规模化扩展。为应对这一挑战，在海量人类活动视频资源及计算机视觉技术进步的共同推动下，利用人类视频数据来学习机器人操作技能这一研究领域，近年来正受到日益广泛的关注。该研究方向有望使机器人能够从海量且易于获取的人类演示资源中被动地习得技能，从而极大地促进通用型机器人系统的可扩展学习。鉴于此，本综述旨在对机器人领域中基于人类视频的学习技术进行全面且前沿的梳理，重点涵盖“人-机技能迁移”与“数据基础”两大核心议题。首先回顾机器人领域的策略学习基础，随后阐述将人类视频数据整合至机器人学习流程中的基本接口机制。紧接着，构建一套将人类视频转化为机器人技能的分层分类体系，涵盖面向任务、面向观测以及面向动作的三类迁移路径；同时，还对这些迁移路径如何与不同的数据配置及学习范式相耦合，进行跨类别的综合分析。此外，还深入探讨该领域的数据基础，具体包括当前广泛应用的人类视频数据集以及视频生成方案，并对数据集的开发与利用所呈现出的宏观统计趋势进行归纳呈现。最后，着重指出该领域所固有的挑战与局限性，并为未来的研究工作指明潜在的发展方向。

本综述的总体结构如图2所示：分成人机技能迁移和数据基础两个。
请添加图片描述

尽管策略学习范式各异，但机器人通常会接收任务指令、感知周围环境，进而生成动作以完成操作任务。因此，从人类视频中进行学习这一问题，可进一步抽象为：旨在最小化多源的“跨具身差异”。

从人类视频到机器人执行的桥接机制可归纳为三大类：面向任务的迁移、面向观测的迁移以及面向动作的迁移。如图3所示，这些类别对应着六种形式的信息流，包括任务结构、任务意图、转换后的视频、视觉嵌入、affordances以及潜动作。
请添加图片描述

1 面向任务的迁移

面向任务的迁移旨在通过任务指令这一层级，在人类演示视频与机器人执行之间建立桥梁。尽管“野外”场景下的人类视频无法直接为机器人策略学习提供动作标签，但任务的流程组织与目标却可以作为指令，跨越不同的具身（embodiments）进行迁移。因此，此类方法的核心在于从人类视频中提取高层级的任务知识，以此来指导后续的机器人决策过程。在此类桥接机制中，现有方法大致可分为两类：(1) 以任务结构为桥梁：此类方法将人类视频中演示的任务显式地分解为一系列按时间顺序排列的指令；(2) 以任务意图为桥梁：此类方法通过推断全局任务目标或任务阶段转换信号，从而实现迁移，而无需构建完整的指令序列。换言之，任务结构是对任务流程进行显式且按时间序列组织的表征；而任务意图则是对任务目标进行紧凑且隐式的表征。

任务结构

如图4所示，任务结构作为一种“桥梁”，旨在将人类演示视频转化为明确且在时间上具有组织性的中间阶段，供机器人执行前参考（例如，细粒度形式包括：移动至把手上空 → 向下移动 → 闭合夹爪 → 向上移动；粗粒度形式包括：从台面上拾取刀具 → 用刀切卷心菜 → 将刀具放回台面）。它引导机器人在不同阶段遵循预定的任务规划。为便于阐述，将相关方法归类为传统的判别式方法和现代的VLM增强型方法，并如图5所示的时间轴那样，对它们的发展历程进行总结。
请添加图片描述

作为一种桥梁，任务结构在机器人生成动作之前，为其提供显式且按时间序列组织的程序性知识。其演进历程呈现出一条清晰的脉络：从基于规则和判别式的任务分解，逐步过渡至由视觉-语言模型（VLM）增强的任务解析，从而实现更强的可扩展性与更丰富的语义内涵。与此同时，近期的研究工作通过使提取出的任务结构更具直接的可执行性，进一步弥合任务分解与下游执行环节之间的鸿沟。尽管如此，这些方法目前仍主要局限于规划层面运作；因此，它们往往仍需借助额外的“落地”（grounding）模块，方能将抽象的任务结构转化为针对特定具身形态的机器人动作指令。

任务意图

相较于将显式任务结构作为桥梁，以任务意图作为桥梁的方法无需将人类演示视频转化为完整的符号指令序列。相反，如图6所示，该方法从人类视频中提取出更高层级的指导信号，例如全局任务目标及任务阶段转换信号。随后，这些信号可作为任务意图，对机器人的控制过程进行制约与引导。因此，这种桥接机制的核心在于关注“接下来应当达成什么目标”，以及“在跨具身场景下，任务的进展应如何演进”。将相关研究工作归类为“全局意图提取”与“阶段信号生成”两大范畴，具体如图7所示。
请添加图片描述

作为一种桥梁机制，任务意图（Task Intents）缓解对显式解析完整指令序列的严格要求。取而代之，它利用人类演示视频来为机器人控制生成紧凑且高层级的指引。现有方法主要通过提取任务的总体目标，并探究任务进展应如何随时间演变，来实现此类指引的具体实例化。相较于任务结构，任务意图通常更为灵活，且更易于在不同具身形态之间进行迁移，因为它避免了对固定的符号化任务分解方案进行硬性绑定。尽管如此，仍需借助精细设计的机器人学习策略，才能将推断出的任务意图落实为具体的动作规划。

任务导向迁移综述

任务导向迁移提供一种在不同具身形态之间通用性最强的途径，用于在人类演示视频与机器人执行之间建立桥梁。它不要求在观察与动作之间建立直接的一一对应关系，而是在指令层面上提取与任务相关的指导信息——在这一层面上，跨具身形态的知识迁移显得更为自然且可行。从这一视角来看，将“任务结构”作为桥梁，与将“任务意图”作为桥梁，可被视为两种相互补充的方式，用于组织和提炼人类演示视频中的高层级知识。前者侧重于显式的程序分解，从而使迁移所得的知识对于下游的规划任务而言更具可解释性；后者则放宽对完整符号解析的严格要求，转而提供紧凑的指导信号，这往往能为跨领域及长时程的策略自适应提供更大的灵活性。两者的差异本质上反映在“显式性”与“灵活性”之间所存在的一种更广泛的权衡关系。

当前尚存的一个关键瓶颈在于：如何将源自人类演示视频的任务指导信息，以足够的精度与鲁棒性，切实地“落地”并转化为机器人可直接执行的具体行为。未来的进展可能取决于能否将任务导向迁移与“观察导向迁移”及“动作导向迁移”进行更为紧密的耦合。唯有如此，才能将人类演示视频中所蕴含的高层级任务语义，有效地与具备具身感知能力的感知模块以及底层的控制模块相衔接。这种深度的整合，最终或许将决定任务导向迁移究竟是仅仅作为一种辅助规划的工具而存在，抑或是升格为一种更为核心的接口，从而推动机器人从人类演示视频中进行可扩展学习迈向新的台阶。

2 面向观测的迁移

与面向任务的迁移相比，面向观测的迁移侧重于在视觉感知层面架起人类视频与机器人执行之间的桥梁。它并非提取符号化的指令或高层级的意图，而是旨在将原始的人类视频转化为观测表征，使其能够直接兼容机器人的感知与控制流程。人类视频与机器人观测往往在视角、具身外观以及环境条件等方面存在显著差异。因此，此类方法强调生成具有可迁移性的视觉表征，从而实现跨具身感知空间的对齐。具体而言，依据两项准则对现有的面向观测的迁移工作进行归类：(1) 以“转换的视频”为桥梁——即直接将人类视频转化为与具身无关或呈现机器人视角的视觉格式；(2) 以“视觉嵌入”为桥梁——即旨在学习与具身无关的潜视觉表征，从而在共享的特征空间内实现人类与机器人观测的对齐。

转换的视频

连接人类视频与机器人感知最直接的方法，莫过于将人类视频转化为视觉观测，并在转化过程中抑制人类具身的视觉线索（即观测的人体外观）。此外，这些经过转换的观测数据还可以选择性地进一步渲染，以呈现特定的机器人具身形态。据此，将相关方法划分为“具身抑制”与“具身转换”两大类，并如图8所示，按时间轴顺序对这些方法进行了展示。
请添加图片描述

如图9所示是两种转换视频方法的示意图：
请添加图片描述

具身信息抑制：鉴于机器人的观测数据中不包含人类的外观信息，多项研究通过抑制视频中与具身相关的视觉线索，以缩小人类演示与机器人观测之间的形态学鸿沟，如图 9(a) 所示。

具身信息转换：尽管具身信息抑制技术能够移除视频中人类手部及手臂的视觉外观，但在实际执行过程中，机器人的观测数据中仍包含其自身的具身信息。为了进一步缩小人机观测之间的差距，如图 9(b) 所示，多项研究已不再局限于单纯地抑制人类的具身线索。此外，在移除人类形象后，还在视频中植入机械臂，从而实现观测层面的具身转换。

作为一种桥梁，经过转换的视频提供一种最为直接的途径，旨在弥合人类视频与机器人观测之间存在的视觉差异。现有的相关方法主要沿着两条并行路径演进：一是“具身特征抑制”，即在保留与交互相关的场景信息的同时，剔除人类特有的外观视觉线索；二是“具身特征转换”，即在前者基础上进一步从人类视频中合成出与机器人视角相一致的视觉观测。视频生成模型的飞速发展有力地推动这一桥接机制的进步。然而，这些方法在很大程度上仍依赖于视频修补与渲染的质量。因此，由此产生的生成伪影——诸如几何不一致或视角错配等问题——仍可能向下游的机器人策略学习环节传播，尤其是在非受限的“野外”实际应用场景中。

视觉嵌入

为了避免由变换视频引入的显式生成伪影，越来越多的研究转而致力于将人类视频压缩为视觉嵌入。这些嵌入可用于预训练感知模型以支持下游的机器人策略，或用于构建视觉信号以引导机器人的探索过程。据此，将作为桥梁的视觉嵌入划分为两个渐进的类别：“视觉预训练”与“视觉引导”。相关工作的演进历程如图 10 所示。
请添加图片描述

视觉预训练方面分四种方法。

“时序对比学习”（TCL）是在时序维度上预训练感知模型最常用的策略之一。这些工作（Nair et al. 2022; Ma et al. 2022, 2023）将相邻帧的视觉嵌入相互拉近，同时推远在时间轴上相距较远的帧的嵌入，如图 11(a) 所示。因此，感知模型能够从人类活动视频中学习视觉状态是如何伴随时间交互的细粒度演进而发生迁移的。
请添加图片描述

时序对比学习（TCL）致力于在时间维度上对视觉嵌入进行约束。相比之下，“掩码预训练”（MP）范式则侧重于在空间维度上执行图像重构任务（参见图 11(b)），以此对视觉编码器进行预训练。该范式下的相关研究在很大程度上受到掩码自编码器（He et al. 2022）优化原理的启发。

TCL范式通过在时间维度上施加相似性约束来捕获视觉表征，但它并不必然要求编码器去建模人与物体交互背后更深层的物理机制。MP范式通过重构任务来强调对空间信息的理解，但其大多数重构目标仅凭单帧图像中的静态纹理和外观线索即可恢复，无需对潜在的交互动态进行推理。

鉴于上述局限性，另一类研究应运而生，旨在通过“人类视频预测”（HVP）任务来学习视觉嵌入，如图11©所示。这类方法通过基于过去的交互过程来预测未来的观测结果，从而促使视觉编码器不仅能够捕获时空规律，还能捕捉那些与下游机器人操纵任务更为直接相关的物理动态因果关系。HVP范式与“世界模型”（World Models）概念紧密相关，因为世界模型的核心要义，正是预测未来的观测结果将如何基于过去的交互行为及与动作相关的动态机制而演变（Liao et al. 2025; Ye et al. 2026b）。

尽管 HVP 范式通过利用“人类视频预测”目标对视觉编码器进行预训练，从而兼顾了物理维度，但由此产生的视觉嵌入仍编码的是人类的交互行为，而非机器人的交互状态。鉴于在视觉预训练阶段仅能获取人类数据，这不可避免地引发了潜在的形态学鸿沟（Mower et al. 2026）。为了在具身维度上进一步缓解这一问题，部分研究工作将机器人数据整合到针对人类视频的视觉预训练流程之中。如图 11(d) 所示，该范式采用“联合域适应”（JDA）技术，旨在将语义上具有对应关系的人类与机器人观测数据的视觉嵌入，在共享的表征空间中相互拉近。因此，经过预训练的视觉编码器将更适于在下游机器人任务中生成视觉嵌入。

再说视觉引导。

如图11(e)所示，另一条研究路线将重心从视觉编码器的预训练，转移至如何利用源自人类视频的视觉嵌入，直接构建用于引导机器人与环境交互的奖励函数或成本函数。通过视觉预训练获得的编码器，往往可以直接复用于视觉引导范式之中。

作为一种桥梁机制，视觉嵌入通过将人类的观察映射为更易于迁移至机器人学习的潜表征，从而避免经转换后的视频所固有的显式修补与渲染误差。现有的相关方法主要沿着两个互补的方向展开：其一为“视觉预训练”，即通过时序对比学习、掩码预训练、人类视频预测以及联合域适应等手段，从人类视频中习得可复用的感知模型；其二为“视觉引导”，即进一步利用视觉嵌入来为下游的机器人交互任务定义奖励与成本函数。相较于直接使用经转换的视频，这种桥接机制通常更为紧凑，且对于不同具身形态（embodiments）之间存在的视觉外观差异具有更强的鲁棒性。然而，这些学习的表征是否充分保留与任务相关的交互动态及跨具身一致性，从而足以支撑可靠的下游动作规划，这一点目前在很大程度上仍未得到明确证实。

面向观测的迁移综述

面向观测的迁移旨在解决“从人类视频中学习机器人技能”（LfHV）领域中最根本的挑战之一，即如何缩小人类视频与机器人观测数据之间的感知鸿沟。与通过高层任务语义来弥合不同具身形态（embodiments）差异的“面向任务的迁移”相比，面向观测的迁移这一类别在操作层面更贴近于视觉-运动接口。因此，它在决定机器人能否以一种与下游控制任务相兼容的方式来解读人类演示行为方面，发挥着更为直接的作用。从这一视角来看，将“转换的视频”作为桥梁与将“视觉嵌入”作为桥梁，实际上是针对同一问题提出的两种相互补充的解决方案。前者通过显式地将人类观测数据转化为与具身形态无关或与机器人形态相一致的视觉格式，使得迁移的信息更为直观且可直接利用；后者则将人类观测数据压缩至共享的潜空间中，在一定程度上牺牲视觉上的显式性，以换取更高的紧凑性、鲁棒性及灵活性。两者的差异本质上反映在“显式感知对齐”与“隐式表征对齐”之间所做的一种权衡。其中，转换后的视频提供一种更具可解释性的桥梁，而视觉嵌入则提供一种更具可扩展性和通用性的接口。

在这一研究类别中，一个显著的趋势是从单纯的“外观层面对齐”向更深层次的“交互动力学建模”及“跨具身一致性建模”方向转变。早期的研究工作主要致力于抑制那些特定于某种具身形态的外观线索，或是从人类视频中提取通用的视觉特征。而近期的研究方法则日益倾向于融入时间序列预测、人机联合对齐以及“世界模型”等目标函数。这一演变趋势表明，有效的观测迁移不仅要求在视觉外观层面实现匹配，还必须能够捕捉到交互过程在不同具身形态之间随时间演进的动态规律。

鉴于此，面向观测的迁移所面临的核心挑战在于：如何在剔除特定具身形态所带来的干扰因素的同时，最大限度地保留那些与动作执行紧密相关的动力学信息。因此，未来的研究进展可能取决于如何实现“转换后的视频”与“视觉嵌入”技术之间更为紧密的融合。此外，这也可能要求该领域的研究与“面向任务的迁移”建立更强的耦合关系，从而确保感知层面的对齐能够更有效地支撑机器人生成具有可执行性及物理意义的行为动作。

3 面向动作的迁移

与“面向任务的迁移”和“面向观察的迁移”不同，“面向动作的迁移”在动作规划层面，更加直接地在人类视频与机器人执行之间架起桥梁。它致力于从人类视频中提取与动作相关的信息——例如交互示能（interaction affordances）和潜动作（latent actions）——随后将其转化为可执行的指导，并迁移至机器人策略之中。据此，将这一类别划分为两种形式的信息流：一是“以affordance为桥梁”，即从人类演示视频中揭示出显性的几何动作线索；二是“以潜动作为桥梁”，即通过将观察的人类行为压缩为可迁移的动作抽象，从而服务于下游的机器人策略学习。

Affordance

相较于任务指令和视觉嵌入，作为一种桥梁机制，affordances更直接地根植于动作之中。正如 Bahl（2023）所介绍的，源自人类活动视频的affordance明确指出手物交互（HOI）应当在何处发生以及如何发生。换言之，在操纵物体时，affordance明确指示应与物体的哪个部位进行接触，以及应以何种方式进行接触（Kannan，2023）。因此，本综述将affordance广义地具象化为所有可从人类活动视频中提取的、与交互相关的几何与功能信号；这些信号包括：2D/3D 的手部与物体位置信息（例如，运动轨迹、运动流、接触/分离区域）、6D 的手部与物体姿态信息（例如，抓取姿态、序列刚体变换）、手部与物体的几何表征（例如，网格模型、点云、手部参数化模型），以及物体的物理功能属性（例如，4D 物体部件、关节结构、功能关键点）。

HOI分析：在人类视频中，手与物体之间的交互（HOI）从根本上促进affordance的提取。首先是广泛应用的、在二维空间中进行操作的HOI检测方法，如图12(a)-(b)所示。
请添加图片描述

鉴于人与物体之间的交互本质上发生于三维现实环境中，仅凭二维 HOI 分析往往不足以全面刻画其内在的交互细节。因此，存在针对三维手物体重建与姿态估计的各类主流 HOI 分析方法。首先是 LfHV（基于视觉的人手分析）领域中广泛应用且极具潜力的三维人手检测与重建算法，具体如图 12©-(d) 所示。

其次还有LfHV 文献中一些具有代表性的物体重建与位姿估计算法，如图 12(e)-(f) 所示。通常而言，获取可靠的物体重建结果是实现精确物体位姿估计的先决条件。

为了实现更具通用性的无模型6D物体姿态估计，一些研究人员（Bharadhwaj，2024b；Zhu，2024；Haldar&Pinto，2025；Liu，2025a；Tang，2025a）手动将上述2D点跟踪结果提升到具有深度信息或立体三角测量的3D空间，然后从得到的3D物体流中计算刚体变换。然而，也存在一些现成的3D点跟踪方法可以直接生成用于姿态估计的3D物体流。如图12(g)所示，SpatialTracker (Xiao et al. 2024) 和 SpatialTrackerV2 (Xiao et al. 2025) 将视频深度估计整合进一个统一的、基于 Transformer 的跟踪框架中，从而能够直接从人体视频中预测出具有时间一致性的三维点轨迹 (Hsieh et al. 2025; Yoshida et al. 2025b,a)。

如图 12(h)-(i) 所示，HOI分析领域的研究重心近期已开始从静态的三维检测与重建，转向四维（4D）affordance的提取；在这一新范式下，时间演变过程与空间结构被协同建模。此外，四维接触演变重建技术则致力于估计在物体操作过程中，手部与物体之间的接触区域是如何随时间动态变化的 (Cong et al. 2025)。通过引入时间维度信息，这些四维表征相较于静态的人体姿态或接触区域，能够提供更为丰富且详实的affordance线索；这使得该领域成为一个极具潜力的研究方向，有望实现从人体视频中提取出既符合物理规律、又具备实际可执行性的affordance信息。

显而易见，目前已涌现出一个广泛的、基于现成技术的 HOI分析生态系统，旨在支持从人类活动视频中高效提取affordance。具体而言，以 HOI 检测和点追踪为代表的 2D 方法，为在遮挡等充满挑战的条件下识别交互区域及估算物体运动流，提供兼具可扩展性与鲁棒性的工具。作为补充，3D 重建与姿态估算方法进一步将这些交互线索提升为具有空间基础的表征形式，从而得以复原手部运动学特征、物体几何形态及刚体变换信息。而新兴的 4D 重建技术，则进一步综合并丰富affordance中所蕴含的时序信息与物理约束。综合来看，这些即插即用的 2D、3D 及 4D HOI 分析方法，共同构筑一个坚实且实用的技术基础，有力支撑将人类活动视频中的affordance高效迁移至机器人策略这一以动作为导向的转化过程。

鉴于 HOI 分析所提供的affordance（如图 13 所示），依据其与机器人动作的耦合紧密度，对这一基于affordance的桥接机制进行归类；其范畴涵盖从骨干网络优化、奖励塑形、策略条件化，直至直接策略构建的各个层面。所收集相关研究成果的时间轴展示于图 14 中。
请添加图片描述

Affordance蕴含着丰富且显式的手-物体交互模式。因此，它们在人类视频与机器人策略之间提供更多基于动作的迁移信号；在接驳针对affordance的解码器之后，这些信号可用于对机器人策略的主干网络进行预训练。这一桥接机制的总体架构如图13(a)所示。

与利用affordances来预训练机器人策略的主干网络不同，部分研究人员转而采用一种统一的协同训练方案。如图13(b)所示，该方案有助于缓解在随后的机器人微调阶段中，因丢失人类操作先验知识而引发的问题，同时也避免了前述两阶段训练流程中潜在的复合性故障。此外，与基于affordance的预训练方法不同，协同训练往往能直接生成可用于下游机器人操作任务的策略，因为其训练过程中已预先融入针对特定机器人的演示数据。

为了将affordances更紧密地整合到机器人策略学习中，部分研究利用affordance来构建奖励函数，从而直接引导机器人策略的优化。通过评估机器人动作在多大程度上复现从人类视频中观察的affordance模式，这些奖励信号有助于使机器人的动作与人类的交互动态保持一致。与前述基于affordance的主干网络训练方法相比，这种范式能够更直接地影响机器人策略的优化过程。它使得机器人能够在保持与人类交互相接地的同时，通过试错的方式来不断完善自身的行为。图 13© 展示如何利用单一模态的交互信息来构建奖励函数。

如图13(d)所示，越来越多的相关工作将人类视频中手部与目标物体的运动先验相结合来构建奖励函数，而非仅利用单一的运动模态。
与基于affordance的主干网络训练不同，基于affordance的奖励构建方法通过对优化目标本身进行塑形，将affordance融入到机器人学习过程之中。相关研究已从单一模态的运动奖励，演进至更为丰富的“手-物体”奖励设计；后者能够联合编码抓取先验、物体运动、接触几何以及接触力等信息。在“基于人类反馈的辅助学习”（LfHV）场景下，这种设计展现出更强的灵活性，因为机器人能够依据源自人类反馈的优化目标，通过试错的方式不断优化自身的行为表现。

除了作为骨干网络训练的监督信号以及策略优化的奖励信号之外，affordances还可以作为显式条件，更直接地注入到机器人策略之中。该领域现有的绝大多数研究工作都侧重于将预测的未来affordance作为条件，因为这些affordance可充当动作引导信号（即目标），从而在人类视频理解与机器人执行之间建立更为紧密的联系。如图13(e)所示，这种桥接机制同样需要预训练一个affordance预测模型，这与基于affordance的机器人策略骨干网络预训练过程类似。然而，该机制进一步将预测的affordance显式地整合到下游的机器人策略中，而非仅仅利用骨干网络。

与利用预测的affordances作为条件的现有工作相比，少数研究将视频作为额外的提示输入，从而无需额外的预测阶段，即可直接提取affordance作为条件，如图13(f)所示。

与基于affordance的主干网络训练及奖励塑形方法相比，将affordance作为策略的条件，通过将感知交互的几何线索直接注入下游控制环节，在人类演示视频与机器人执行之间建立更为紧密的联系。现有的研究方法已从预测稀疏的未来手部位置及潜在子目标，演进至生成更为密集的运动条件，例如掩码、点轨迹、光流以及结构化图谱等。另有一小部分研究工作直接从人类演示视频中提取affordance信息，将其作为策略学习或执行过程中的提示信号。尽管这种范式相较于主干网络训练及奖励构建，能够提供更为明确的动作指引，但它通常仍需依赖一个独立的功能性预测或提取阶段。在许多情况下，为了将这些条件转化为特定于机器人本体的具身动作，往往还需要额外的机器人演示数据或进行策略自适应调整。

如图 13(g) 所示，源自人类视频的affordances也可直接用于构建机器人策略本身。与上述基于affordance的桥接机制相比，此处的affordance被视为可执行的动作表征；它们可以直接转化为机器人的控制指令。这些方法并非去学习一个以affordance为条件的独立策略，而是将affordance解读为策略的输出空间——在该空间中，预测出的手与物体交互线索（例如手部轨迹、接触点或物体变换）通过重定向、优化或针对特定具身形态的控制器，被映射为机器人的动作。因此，affordance不仅充当着动作指引的角色，更作为机器人行为的核心表征，从而实现从人类视频到机器人执行过程更为直接且以动作为导向的迁移。早期相关研究侧重于以手部为中心的affordance，即便是当物体本身的affordance信息亦可获取时，人类手部的运动依然在策略的落地与执行中占据主导地位。

作为一种桥梁机制，Affordances通过揭示交互应当发生的位置与方式，在人类视频与机器人执行之间构建最明确的动作层接口。相关研究已从提取相对简单的“以手为中心”和“以物体为中心”的线索，演进至能够额外捕捉手与物体之间耦合动态的“以交互为中心”的表征。相应地，affordance在机器人控制中的应用耦合度也日益紧密，其应用范围涵盖从骨干网络预训练与奖励函数构建，到策略条件设定乃至直接生成机器人策略的各个层面。这一演进过程反映出一种明确的趋势：即在跨具身迁移任务中，人们正致力于寻求更具结构性、可执行性及泛化能力的表征形式。鉴于基于affordance的桥接机制在“从人类视频中学习”（LfHV）这一研究领域中构成最大的研究群体，且涉及多样化的人类动作数据提取，基于统计数据，得出以下几项关键发现：

• 用于骨干网络训练的affordance，主要被用作一种可扩展的监督信号。因此，这类affordance表征往往“以手为中心”，且格式相对简单。相比之下，作为机器人策略输入的affordance则最具“执行导向性”，其涵盖的表征形式最为丰富多样，从“以手为中心”到“以物体为中心”，再到“以交互为中心”的各类范式均有涉猎。这一趋势表明，随着affordance在机器人行为塑造过程中所扮演的角色愈发直接，手-物交互（HOI）中蕴含的关系结构也变得愈发重要。
• 基于affordance构建奖励函数的方法，对多模态手-物耦合信息的依赖程度要高得多。与骨干网络训练阶段相比，面向奖励函数构建的方法更频繁地综合利用手部姿态、物体姿态，以及抓取状态、接触区域等显式的交互线索。这一模式表明，奖励函数必须能够评估交互行为是否成功，而不仅仅是评估某种表征形式是否包含丰富的信息。
• 作为策略条件输入的affordance，在所适配的末端执行器类型上呈现出惊人的一致性。具体而言，该类别下的所有代表性研究均针对“平行夹爪”这一类型的末端执行器。这与其他三个类别形成有趣的对比——在其他三个类别中，“灵巧手”类型的末端执行器则频繁出现。这表明，当前的条件（conditional） affordance接口大多呈现出紧凑且低维的特性；相比于灵巧手所需的精细化控制，它们与较为简化的抓手控制流程具有更为天然的兼容性。
• 相反，末端执行器的类型与affordance粒度之间存在着强烈的相关性。采用灵巧手的相关研究往往更倾向于使用高维度的手部表征，例如 MANO 参数、关节角度及指尖位置；而基于平行抓手的方法则更多地依赖于稀疏的手部轨迹、运动流、接触点以及手-物体掩码。这体现了在具身复杂性与affordance紧凑性之间存在着一种权衡关系。

尽管基于affordance迁移技术已取得飞速发展，但其有效性在很大程度上仍取决于可靠的手-物体交互（HOI）分析、精准的空间定位以及稳健的重定向能力。在复杂的操纵任务中——尤其是在存在严重遮挡、视角变化剧烈以及物体与执行器类别高度多样化的“开放世界”场景下——实现上述目标将面临尤为严峻的挑战。

潜动作

相较于那些显式编码几何交互线索的affordances，作为一种桥梁机制的“潜动作”（latent actions）旨在直接从无标注的人类行为视频中，学习紧凑且具有可迁移性的动作先验知识。其典型的范式是采用“潜动作模型”（LAM）：在该模型中，“逆动力学模型”（IDM）通过相邻的观测帧来推断潜动作；而“正向动力学模型”（FDM）则基于当前的观测帧及推断出的潜动作，对未来的观测帧进行重构或预测。FDM所采用的不同重构目标，会进一步引导所学得的潜动作偏向于运动的不同侧面——例如，是侧重于粗粒度的视觉变化，还是侧重于更具任务相关性的动作语义。因此，将这种当前备受关注的、基于潜动作的桥接方法划分为两大类：一类是“基于视觉重构的潜动作学习”，即仅通过重构未来的视觉观测帧来学习潜动作；另一类是“基于视觉与动作联合重构的潜动作学习”，该方法进一步对潜动作施加约束，要求其能够联合地恢复视觉状态的演变过程以及与动作相关的输出结果。相关研究工作的演进历程如图15所示。

请添加图片描述

LAPA（Ye et al. 2024）提供一个从视觉重构中学习隐动作的开创性范例。它通过一个利用基于 VQ-VAE 的视觉重构目标进行训练的编码器，从大规模无标注的人类视频中提取离散的隐动作（参见图 16(a)）。随后，这些隐动作被用作伪动作标签，用于预训练一个隐VLA 模型（参见图 16(b)）。这一机制使得机器人策略在利用机器人演示数据进行微调时，能够从互联网上的人类视频中汲取通用的运动先验知识（参见图 16©）。
请添加图片描述

一些相关工作通过重构额外的动作相关信息，将更为显式的运动动态编码进潜动作中（参见图 16(d)），而非仅仅对帧间差异进行压缩。

此外，部分研究人员明确区分潜表征中与动作相关及无关的成分（参见图 16(e)），从而使所学得的潜动作更具可迁移性，且更具物理基础。
作为一种桥梁机制，隐动作（Latent actions）通过直接从无标注的人类视频中学习可迁移的运动先验，为显式affordance提取提供一种紧凑的替代方案。现有的研究工作已从单纯针对单步隐动作的视觉重建，演进至更为丰富的建模范式。这些较新的范式融合以任务为中心的过滤机制、多视角一致性、深度线索、世界模型构建、自回归隐式规划，以及对本体感知、光流、关键点轨迹和可执行机器人动作等相关信号的联合重建。隐动作学习正逐步摆脱仅仅压缩帧间外观变化的局限，转而致力于捕捉更具结构性、时间连贯性且具备物理基础的动作语义。相较于显式affordance，这种范式在“跨具身”（cross-embodiment）可扩展性方面尤具吸引力，因为它既无需依赖昂贵的几何标注或精细的“人-物交互”（HOI）解析，又能自然地利用大规模的“野外”（in-the-wild）人类视频数据。

尽管如此，该领域仍面临一个重大挑战：如何将与动作相关的动力学特征，从诸如相机自身运动、以及与具身主体无关的背景变化等干扰性视觉因素中有效解耦出来。此外，尽管隐动作能够大规模地捕捉可迁移的运动结构，但若要将其落地并转化为针对特定具身主体的控制指令，仍需额外引入机器人数据的监督信号。在涉及丰富接触交互的场景中，上述问题尤为突出；因为在此类场景下，仅凭原始视频数据，很难学习具有物理意义的隐式动作抽象表示。

面向动作迁移的总结

与“面向任务”和“面向观察”的迁移相比，面向动作的迁移在人类视频与机器人执行之间搭建一座最直接的桥梁。其核心目标不再是理解“应当执行何种任务”或“应当如何感知场景”，而是提取能够更紧密地约束机器人具体动作方式的表征。在此类别中，将Affordances作为桥梁与将“潜动作”（Latent Actions）作为桥梁，代表两种互补的动作迁移理念。基于Affordance的方法强调显式的动作落地（grounding）。它们揭示几何交互线索，例如手部轨迹、物体运动流以及手与物体之间的关系。因此，它们为动作重定向、奖励塑形、策略条件化以及直接策略构建提供了具有可解释性的接口。相比之下，基于潜动作的方法将行为压缩为从大规模视频中学习到的隐动作抽象。它们牺牲了几何上的显式性，以换取更好的可扩展性以及对“野外”（in-the-wild）人类数据的更广泛覆盖。两者的差异本质上反映物理可解释性与数据可扩展性之间的一种权衡：Affordance提供更强的落地基础和可控性，而潜动作则为吸收大规模行为先验知识提供一条更为经济的途径。

该领域的一个明显趋势是，面向动作的迁移正朝着日益结构化且可执行的表征方向演进。基于affordance的方法已从简单的以手部为中心的线索，演化为更丰富的以物体为中心和以交互为中心的表述形式。基于潜动作的方法也已从外观驱动的重建，进步到更具时间连贯性、以任务为中心且融合物理知识的动作抽象。这些进展表明，成功的动作迁移不仅需要捕捉可见的运动模式，还必须保留那些能确保动作在不同具身（embodiments）之间可执行的交互结构。尽管如此，这两个方向目前仍面临一个共同的瓶颈：从人类视频中学习的动作表征，最终必须落地到与机器人兼容的动作空间中，并在此过程中保持物理上的有效性与跨领域的通用性。因此，未来的突破可能取决于如何结合这两种范式的优势。例如，显式的affordance可以对潜动作（latent action）施加更强的物理约束，而潜动作的学习则可以提升基于affordance迁移方法的可扩展性和鲁棒性。这种融合对于将“面向动作的迁移”打造成为一个更可靠的接口——从而实现从人类视频中进行可扩展的机器人学习——而言，或许至关重要。