机器人从人类视频中学习：综述（下）

硅谷秋水

468人浏览 · 2026-05-17 00:15:00

硅谷秋水 · 2026-05-17 00:15:00 发布

26年4月来自上交大和剑桥大学的论文“Robot Learning from Human Videos: A Survey”。

阻碍具身智能（Embodied AI）与机器人技术进一步发展的关键瓶颈之一，在于如何实现机器人数据的规模化扩展。为应对这一挑战，在海量人类活动视频资源及计算机视觉技术进步的共同推动下，利用人类视频数据来学习机器人操作技能这一研究领域，近年来正受到日益广泛的关注。该研究方向有望使机器人能够从海量且易于获取的人类演示资源中被动地习得技能，从而极大地促进通用型机器人系统的可扩展学习。鉴于此，本综述旨在对机器人领域中基于人类视频的学习技术进行全面且前沿的梳理，重点涵盖“人-机技能迁移”与“数据基础”两大核心议题。首先回顾机器人领域的策略学习基础，随后阐述将人类视频数据整合至机器人学习流程中的基本接口机制。紧接着，构建一套将人类视频转化为机器人技能的分层分类体系，涵盖面向任务、面向观测以及面向动作的三类迁移路径；同时，还对这些迁移路径如何与不同的数据配置及学习范式相耦合，进行跨类别的综合分析。此外，还深入探讨该领域的数据基础，具体包括当前广泛应用的人类视频数据集以及视频生成方案，并对数据集的开发与利用所呈现出的宏观统计趋势进行归纳呈现。最后，着重指出该领域所固有的挑战与局限性，并为未来的研究工作指明潜在的发展方向。

请添加图片描述

。。。。。。继续。。。。。。

4 连接不同数据配置与学习范式的桥接机制

上述分类体系是依据从人类视频向机器人传输何种中间信息这一标准进行组织的。一个同样重要的跨类别问题在于：各类桥接机制分别最自然地支持哪种数据配置与学习范式？在数据配置方面，重点关注不同的视角偏好，以及对机器人数据的依赖程度。在学习范式方面，探讨模仿学习、强化学习以及其他相关的策略学习方案。在此依据所综述文献中的主流设计选择，对这两个维度进行分析。

跨数据配置

在数据配置方面，首要的核心区分在于外视视角/exocentric（第三人称）与内视视角/egocentric（第一人称）的人类视频之间。外视视角视频通常能提供更清晰的全局场景布局及多阶段任务语境。因此，当桥接机制在较粗粒度的任务和场景层面上运作时，此类视频显得尤为适用。相比之下，内视视角视频能更直接地呈现手与物体间的接触状态、操作顺序以及第一人称视角的操纵线索。当桥接机制必须保留精细的交互几何信息或精确的动作时序时，此类视频便显得尤为宝贵。此外，另一项区分点在于对机器人数据的依赖程度。部分“从人类视频中学习”（LfHV）的方法旨在仅通过人类视频进行学习，而另一些方法则仍需借助现实世界中的机器人演示或与环境的交互，方能将迁移而来的知识转化为可执行的控制指令。对数据配置的详细分类体系进行归纳，具体涵盖视角类型（即纯外视视频、纯内视视频，以及外视与内视混合的设置）以及对现实世界机器人数据的依赖程度（即“人类视频 + 现实机器人演示”、“人类视频 + 现实交互”，以及“仅限人类视频”）。

三种迁移范式——即面向任务、面向观察和面向动作的迁移——在视角偏好上呈现出显著的差异。如表7所示，“面向任务的迁移”主要依赖于第三人称视角视频（65%），仅有极少部分完全依赖于第一人称视角数据（13%）。这种偏向在结构上是合理的。“面向任务的方法”旨在恢复全局的流程结构、子任务边界以及潜在的意图。从一个稳定的外部视角（即第三人称视角）中推断这些信号更为容易，因为该视角能够保留完整的场景布局，并减少因相机自身移动（egomotion）带来的干扰。相比之下，第一人称视角往往侧重于局部的交互细节，却牺牲了对整体场景上下文的呈现。这使得对长时程任务进行分解变得不那么直观。而混合视角数据所占的比例（22%）进一步表明，近期的研究正日益关注如何在第一人称和第三人称视频之间实现任务层面的泛化能力。
请添加图片描述

与面向任务的迁移相比，面向观察和面向动作的迁移则呈现出以第一人称视角为主导的特征。面向观察的方法明确偏好使用第一人称视角作为数据源，而非第三人称视角（两者比例分别为49%对40%）。这一趋势表明，一旦迁移机制的重心从抽象的任务语义理解转向弥合具体的视觉感知鸿沟，第一人称视角数据的价值便会显著提升。究其原因，机器人通常是在自身相机视野范围内对物体进行操作的；因此，第一人称视角视频能够提供更好的视角匹配，从而更有效地捕捉精细的手部动作模式以及物体的局部外观特征。尽管如此，第三人称视角视频在这一类别中依然保持着极强的竞争力，因为其稳定的视角有助于简化跨场景的转换过程，并便于对任务进度进行估算。在面向动作的迁移中，这种对第一人称视角的偏好表现得尤为突出：在所综述的相关文献中，采用第一人称和第三人称视角作为数据源的比例分别为52%和41%。这种更为强烈的偏好在结构上是符合预期的。一旦迁移机制的重心向可执行的具象动作靠拢，仅仅实现视觉语义层面的对齐便已不再足够；此时，保留动作交互的空间几何关系以及在时间上精准的操纵线索变得愈发重要。在这一类别中，第一人称视角视频的表现自然优于第三人称视角视频，因为它能够提供对手部与物体交互过程以及操纵时序更为贴近、细致的观察视角。这些因素对于学习物体的affordances、潜动作（latent action）模式以及可迁移的动作先验知识至关重要。在涉及灵巧操纵、双手协同作业以及包含丰富接触交互的任务中，这一点体现得尤为明显——在这些任务中，抓取姿态、手腕运动轨迹或物体姿态上哪怕是极其细微的变化，都可能直接决定任务的成败。此外，混合视角动作迁移所占比例极小，这表明在以动作为导向的迁移任务中，同时弥合视角鸿沟与具身鸿沟变得尤为困难。因此，大多数现有方法仍侧重于单一的主导视角。总体而言，面向动作迁移中第一人称视角的这种强势主导地位表明：随着桥接机制日益向机器人控制领域靠拢，视角对齐问题将愈发紧密地与物理交互的保真度相挂钩，而不再仅仅局限于语义层面的感知。

图17所示的流行趋势进一步阐明视角偏好随时间轴演变的具体轨迹。在2022年之前，所综述的文献绝大多数均采用第三人称视角。这一早期趋势反映当时的数据可获取性以及方法论上的便利性。第三人称视角的视频不仅更易于从互联网上搜集，且早已成为动作识别基准测试中的主流数据形式；同时，这类数据也与当时依赖固定摄像头的系统架构更为契合。然而，自2022年起，第一人称视角的数据源呈现出爆发式增长，并迅速跃升为推动该领域发展的主要驱动力。尤为值得注意的是，在2024年之后，第一人称视角的应用率更是呈现出陡峭的上升曲线。这一趋势的形成，得益于大规模第一人称视角数据集（如 Grauman et al. 2021; Liu et al. 2022b; Wang et al. 2023c; Banerjee et al. 2024; Hoque et al. 2025）以及可穿戴设备（如 Vision Pro、Aria）的相继问世，同时也归功于第一人称视角下“人-物交互”（HOI）分析技术的飞速精进（如 Labbé et al. 2022; Wen et al. 2023a, 2024; Pavlakos et al. 2024; Karaev et al. 2024, 2025）。此外，灵巧操作（如 Shaw et al. 2023; Wen et al. 2025; Zhang et al. 2026b）与视觉-语言-动作（VLA）预训练（如 Yuan et al. 2025a; Kareer et al. 2025b; Cheang et al. 2025）这两大前沿领域，均能从第一人称视角的交互数据中汲取养分，从而进一步推动大规模第一人称视角人类活动视频的广泛应用。相比之下，混合采用第一人称与第三人称视角的设置，目前看来主要仍是一种过渡性的设计选择。其有限的长期普及度表明，尽管多视角融合在概念上颇具吸引力，但其低效的数据采集流程，以及在同步与表征对齐方面所涉及的实际成本，依然限制其可扩展性。值得注意的是，在2026年近期关于“大规模人类行为”（LfHV）的研究中，第一人称视角的应用占据绝对主导地位。这一现象凸显第一人称视角数据生态系统的飞速发展，以及针对此类数据所适配算法的日益创新。

请添加图片描述

鉴于人类视频源从根本上被用于降低现实世界机器人数据采集的成本，进一步阐述各类迁移机制在机器人开始学习或执行任务之前，能在多大程度上彻底弥合“具身鸿沟”（embodiment gap）。在此，统计范围限定于那些在原始论文中已通过现实世界机器人实验进行过实际部署验证的研究工作。具体而言，表8展示不同迁移类别对现实世界机器人数据的依赖程度。不难看出，面向任务的迁移（task-oriented transfer）对现实世界机器人数据的依赖性最弱，其中仅依靠“人类视频”（Human Videos Only）的方法占比高达48%。由于任务层面的抽象概念与低层级的具体执行动作之间存在相对较大的语义鸿沟，许多面向任务的方法即便不借助额外的真实机器人演示数据，依然能够保持其有效性——尤其是当其迁移输出结果被用于驱动符号规划、基于视觉-语言模型（VLM）的推理或程序生成模块，而非直接驱动某种学习的视觉运动控制器时（Ding et al. 2024; Chen et al. 2024a, 2025d; Wake et al. 2024; Wang et al. 2024a; Ye et al. 2025a）。这一趋势同时也表明，面向任务的迁移方法往往仅止步于解决“做什么”这一层面的问题，而并未深入触及“特定机器人应如何通过物理动作去完成”这一执行细节。因此，当主要的瓶颈在于语义层面的任务规范设定，而非针对特定具身形态的控制落地（control grounding）时，面向任务的迁移方法在降低对机器人数据需求方面所能发挥的效用最为显著。然而，若涉及复杂环境下的精细化操作任务，则依然需要借助现实世界的机器人数据，方能学习一套行之有效的视觉运动策略。

请添加图片描述

相比之下，面向观测的迁移（observation-oriented transfer）与面向动作的迁移（action-oriented transfer）均对现实世界机器人数据（包括机器人演示与交互数据）表现出更为强烈的依赖性。对于面向观测的方法而言，人类视频主要通过提供经过域适配的观测数据或具有可迁移性的视觉表征，来协助弥合视觉域之间的鸿沟。然而，这些人类视频数据本身通常无法独立决定应如何将这些观测数据映射转化为具体的机器人动作指令。因此，许多此类方法仍需借助处于同一域环境下的机器人演示数据，方能将学习的观测空间有效地落地并转化为可执行的控制指令（Li et al. 2024b, 2025a,c; Lepert et al. 2025a; Jiang et al. 2025）。面向动作的迁移（Action-oriented transfer）在本质上更接近于实际执行层面；然而，大多数相关研究仍未摆脱对机器人数据的依赖。具体而言，尽管研究人员已通过基于affordance的预训练或协同训练（Srirama et al. 2024; Luo et al. 2025; Kareer et al. 2025a; Zhu et al. 2026b）以及“隐动作”（latent actions）（Ye et al. 2024; Chen et al. 2024c, 2025h; Li et al. 2025g）捕捉到人类的动作模式，但这些模式仍需借助机器人动作监督或与真实环境的交互，才能最终落到具体的机器人运动学系统上。尽管如此，在面向动作的迁移这一类别中，涌现出数量最多的“仅凭人类视频进行学习”（LfHV）相关研究，这些研究成功实现仅利用人类视频数据便在真实世界中部署机器人的目标。究其原因，面向动作的方法更有可能生成具有较高可执行性的中间接口——例如运动轨迹和接触区域——这些接口既可以直接进行重定向（retargeting），也可以与通用的现成策略（如 AnyGrasp (Fang et al. 2023b) 和 KAT (Di Palo and Johns 2024)）相结合，从而在无需额外进行真实机器人演示的情况下，直接用于机器人控制（Bahl et al. 2023; Bharadhwaj et al. 2024b; Kuang et al. 2024; Papagiannis et al. 2025; Hsu et al. 2025; Zhang et al. 2025a）。

正如近期研究所示，LfHV 研究社区尚未完全消除对真实机器人数据的需求。尽管有一部分具有重要意义的研究工作确实实现了仅凭人类视频便在真实世界中部署机器人的目标，但其在复杂目标场景下——尤其是面对“分布外”（out-of-distribution）条件时——的鲁棒性仍有待进一步提升。在大多数现有研究中，研究人员依然需要借助真实机器人的演示或交互过程，才能生成具备可行运动学特性及闭环校正能力的、针对特定机器人的控制策略。因此，现有证据表明：人类视频数据确实可以在“具身数据金字塔”（参见图 18）中发挥至关重要的层级作用，但在开发通才智体（generalist agents）这一宏大目标上，它目前尚无法完全取代真实机器人数据。

请添加图片描述

跨学习范式

除了数据配置之外，进一步探讨这些迁移范式家族在学习范式上的差异。学习范式之间的关键区别在于：人类演示视频所提供的信号，究竟是可供策略（Policy）直接利用的信号，还是通过奖励机制或探索先验来间接塑造机器人学习过程的信号。前者自然地契合模仿学习（IL）以及 VLA 风格的监督式后训练范式；而后者则更贴合强化学习（RL）或探索策略的范式。除了这两大主流范式之外，还有相当一部分研究工作致力于将人类演示视频转化为程序、Affordances或其他结构化的中间表示；这些中间表示随后通过重定向、优化或解析式控制器的方式加以部署，而非像 IL 和 RL 那样依赖于端到端学习所得的策略。

在面向任务的迁移场景中，主流范式主要由 IL 风格的建模方式所主导。究其原因，任务结构与任务意图通常是作为高层级的提示、规划方案或子目标规范而存在的，供下游策略据此展开行动；它们并非那种可供直接优化的“密集型目标函数”。

与面向任务的迁移相比，面向观测的迁移在范式上更为灵活。其核心作用在于弥合人机视觉观测之间的鸿沟。因此，根据对视觉表征的不同利用方式，这一桥梁能够自然地支持多种不同的下游范式。

面向动作的迁移涵盖最为广泛的范式范围。该类别中的很大一部分工作仍沿袭着模仿学习的范式。究其原因，在于一旦人类行为视频提供足够丰富的动作相关线索，便可将其更为直接地用作策略学习的动作监督信号，而非像在基于交互的优化过程中那样，仅作为奖励信号来使用。

显而易见，随着观测对齐、affordance提取及潜动作建模技术的不断改进，近期涌现的方法已能够将人类行为视频转化为与机器人相适配的观测数据、伪动作指令以及可执行的中间表示。这使得有监督策略学习及 VLA风格的后训练方法在规模化应用中变得更具可行性。尽管如此，当存在显著的具身鸿沟、交互动态难以进行离线建模，且为确保物理可行性而必须进行在线微调时，强化学习（RL）依然是不可或缺的。因此，LfHV领域未来的一项重要发展方向，在于将基于大规模人类视频的模仿学习（IL）式预训练，与在目标任务环境中基于强化学习的在线改进相结合。这一方向巧妙地统一可扩展的先验知识获取与针对特定任务的物理适应过程。

5 路径选择：有效性、失效模式与实用指南

一个实际问题依然存在：针对一个新的机器人学习任务，究竟应当选择哪一种“桥梁”方法？这一问题的答案与其说是取决于名义上的模型架构，不如说是取决于人类视频数据旨在解决的那个“瓶颈”所在。如果主要瓶颈在于任务规范（即任务定义不明确），那么构建一个高层级的语义桥梁通常便已足够。如果瓶颈在于视觉域的不匹配（即视觉环境差异过大），那么在观测层面上进行对齐将更为适宜。如果瓶颈在于可执行的动作（即缺乏具体的动作指令），那么所选的桥梁必须通过“功能预示”（affordances）和“隐式动作”（latent actions）等手段，进一步向具体的动作执行层面靠拢。表 9 总结这一决策逻辑。

请添加图片描述

因此，某种迁移路径的有效性，主要取决于其与机器人具体动作之间的“距离”。面向任务的迁移之所以有效，是因为语义层面的任务知识在不同的具身形态（embodiments）之间具有极高的可迁移性；然而，正因其与机器人底层控制之间存在一定距离，这类方法在很大程度上依赖于下游的“落地”（grounding）过程。当策略失效的原因归结于视觉域漂移（即视觉环境变化）时，面向观测的迁移方法便能发挥其有效性；但仅凭此类方法本身，尚无法解决“动作缺失”这一根本性问题。基于affordance的迁移方法之所以有效，前提在于其所提取的几何线索必须足够贴近可执行的动作，且在目标机器人的视角及交互几何构型下依然保持其可靠性。面向隐动作的迁移方法之所以能在大规模应用中展现其有效性，是因为它以自监督的动作抽象机制，替代成本高昂的显式人工标注工作。然而，由于其本质上具有隐式性，使得对其可控性及物理落地效果的验证变得更为困难。

这一视角同时也揭示现有文献中各类方法的主要失效模式。那些与具体动作层面距离较远的方法，其失效原因通常归结于“落地不足”（under-grounding）：即机器人虽然理解任务的内涵，却无法将其精确地执行出来。而那些与具体动作层面距离较近的方法，其失效原因通常归结于“落地偏差”（mis-grounding）：即其从人类视频中提取出的运动轨迹、接触线索或隐式动作，虽然在视觉上看似合情合理，却与目标机器人的运动学特性、控制频率、碰撞约束或接触动力学原理相悖。面向观测的迁移方法则处于上述两类方法之间的中间地带，其失效原因往往归结于“虚假的视觉等价性”（false visual equivalence）：即尽管图像或嵌入向量在视觉层面上看似已实现对齐，但这并不意味着其所对应的具体动作也已实现对齐。

在进行实际的方法设计时，一种较为稳妥的策略是：优先选择层级最高（即最抽象）的那种桥梁方法，前提是该方法能够有效地解决当前任务所面临的那个关键性瓶颈。如果机器人本身已具备一套可靠的底层操作原语（manipulation primitives），那么面向任务的迁移方法将为解决新的、具有长时序特性的任务提供一条数据利用效率极高的路径。如果目标任务的定义已十分明确，且相应的控制器也已就绪，但机器人所处的视觉环境与人类视频中的环境之间存在巨大的鸿沟（即视觉域差异巨大），那么面向观测的迁移方法将是更为理想的选择。如果目标行为取决于交互发生的具体地点及方式，则应优先考虑显式affordances，因为它们能够揭示可验证且明确的中间状态。若目标是从多样化的视频数据中训练出一种可扩展的通用策略，那么隐动作（latent actions）或基于affordance监督的 VLA 预训练将更为适用。值得注意的是，为了实现具身落地（embodiment grounding），上述方法应辅以机器人演示或基于交互的微调。在涉及大量物理接触或高风险的场景中，最稳健的流程架构往往采用混合式方案。具体而言，任务层面的规划负责提供时间结构，观测层面的模块用于提升感知能力，动作层面的affordance或隐动作提供运动先验，而强化学习（RL）或闭环控制则负责修正残余的物理不匹配问题。

获取人体视频数据是 LfHV研究的前提。

1 开源数据集

尽管可以通过网络爬虫直接获取海量的人体视频，但研究人员更倾向于有针对性地整理在线视频，或在受控的实验室及日常环境中录制预设脚本的视频。这些努力构建一个丰富的人体视频开源数据集生态系统，有力地推动LfHV 技术的进步。本文系统地汇编这些多样化数据集的集合。与以往的综述及数据集论文（Liu et al. 2022b; Grauman et al. 2021; McCarthy et al. 2025; Eze and Crick 2025; Hoque et al. 2025; Banerjee et al. 2024; Feng et al. 2026）相比，数据集统计分析呈现出以下关键特征：

• 广泛且有据可依的数据集覆盖范围：对 50 个人体视频数据集进行详尽综述，涵盖 2014 至 2026 年间 LfHV 研究领域中被广泛采用或引用的数据集，以及那些在未来应用中具有巨大潜力的新兴数据集。本综述所对比的人体视频数据集数量在现有文献中居首。
• 全面详实的数据集属性报告：对数据集的各项属性进行全面分析，包括帧数与参与者数量、地理覆盖范围、录制模态、采集类型以及标注特征等。这些统计数据有助于未来的 LfHV 研究工作根据其特定的技术需求，选取最为适用的数据集。
• 从时间维度审视数据集发展趋势：按时间顺序分析过去数年间数据集的演变历程，并探讨其发展趋势与未来方向。这有助于研究人员更好地理解数据集的设计选择随时间推移是如何演变的，并为其构建自身数据集指明具有前景的方向。
• 关于数据集普及度的补充分析：最后，还对数据集的使用频率进行补充分析，通过归纳哪些 LfHV 研究曾使用过特定数据集，从而揭示这些数据集在不同 LfHV 研究类别中的普及程度。这有助于未来的数据集构建者识别出：哪些类型的数据集最契合其研究目标，且最有可能在 LfHV相关文献中获得广泛应用。

通过考察人类视频数据集的特性与其发布时间之间的关系，观察到以下时间趋势：

• 视频时长持续庞大。人类视频数据集的总录制时长通常非常巨大，往往达到数百甚至数千小时。这一趋势突显收集人类视频数据的便捷性，并进一步证明其相对于传统机器人演示数据的可扩展性。此外，诸如 HowTo100M (Miech et al. 2019)、EPIC-KITCHENS-100 (Damen et al. 2020)、Panda-70M (Chen et al. 2024b) 和 Action100M (Chen et al. 2026a) 等“野外”（in-the-wild）数据集，其规模通常要大于经过精心策划（curated）的同类数据集；这得益于网络爬取或非脚本化活动录制等更为便捷的收集方式。
• 纯“野外”数据集呈减少趋势。尽管“野外”数据集更易于收集，但近年来其出现的频率有所降低。这表明，尽管可能牺牲非受限真实场景下的多样性，但学术界正日益将数据质量、标注可靠性及可控性置于优先地位。例如，尽管 EgoDex (Hoque et al. 2025)、OakInk2 (Zhan et al. 2024)、TACO (Liu et al. 2024c) 和 HOT3D (Banerjee et al. 2024) 等数据集所涵盖的收集场景均少于 5 个，但许多研究人员仍倾向于利用它们来提取高质量的人体运动数据，以便将其迁移应用于机器人操纵任务中。
• 从独立数据集向混合组合演变。早期的数据集通常作为独立的资源发布，并采用相对固定的采集协议。然而，近期出现一种明显的向混合组合演变的趋势：多个数据集被整合在一起，从而构建出更为全面的训练资源，例如 UniHand 系列数据集 (Luo et al. 2025, 2026a,b)。这种做法不仅降低人类视频数据的收集成本，还显著提升数据在视角、模态及场景等不同维度上的多样性。
• 日益重视精细化的手部标注。近期的数据集（Luo et al. 2025; Hoque et al. 2025; Qiu et al. 2025; Luo et al. 2026b）更加侧重于精细的手部姿态及关节标注。这一趋势反映出人们日益达成共识：准确的手部运动建模对于将人手与物体交互（HOI）的相关知识迁移至机器人操作领域至关重要。此外，随着智能眼镜（例如 Vision Pro 和 Aria）技术的不断发展，利用其内置的追踪算法便能高效地捕捉手部姿态，从而无需额外构建专门的标注流程（Hoque et al. 2025; Chavan et al. 2025; Qiu et al. 2025）。
• 更加贴合任务的语言描述。随着时间的推移，文本标注的内容也变得日益详尽。相较于早期数据集（Kuehne et al. 2014; Caba Heilbron et al. 2015; Goyal et al. 2017）仅以“动词 + 名词”的形式提供粗粒度的动作标签，较新的数据集（Chavan et al. 2025; Zhao et al. 2025a; Chen et al. 2026a）往往包含针对人类行为视频的更为丰富的语言描述与叙述，这使其更适用于语言驱动的机器人学习任务。

在 LfHV（从人类视频中学习）工作的相关文献中，Ego4D (Grauman et al. 2021) 和 EPIC-KITCHENS 系列（包括 EPIC-KITCHENS (Damen et al. 2018) 和 EPIC-KITCHENS-100 (Damen et al. 2020)）是被使用得最为频繁的人类视频数据源。值得注意的是，所有这些数据集均采集于“野外”环境（in the wild），这表明尽管此类数据在可控性上较弱且视觉条件更为嘈杂，但研究界仍明确倾向于使用大规模的自然人类交互数据。这种倾向在面向观察的视觉预训练方法（例如 R3M (Nair et al. 2022)、MVP (Xiao et al. 2022)）以及人类视频转换或生成方法（例如 H2R (Ci et al. 2025)、LVP (Chen et al. 2025a)）中表现得尤为突出；这些方法强烈偏好那些规模宏大、仅包含弱标注且在时间维度上具有高度多样性的数据集。这些现象表明，对于旨在实现泛化能力的表征学习和生成建模任务而言，数据规模与交互多样性往往比局限场景下的精确几何标注更具价值。与这一观察结果相吻合的是，Something-Something (Goyal et al. 2017) 数据集也因其庞大的数据体量及细粒度的动作分类体系而广受欢迎——尽管该数据集中的参与者提供的是经过编排的视频，即他们根据预设的动作模板进行表演录制。

相比之下，那些侧重于动作导向型迁移学习（特别是涉及affordances 的任务）的方法——例如 Uni-Hand (Ma et al. 2025b)、Web2Grasp (Chen et al. 2025f) 和 H-RDT (Bi et al. 2025b)——则更依赖于那些标注信息更为丰富的数据集，如 DexYCB (Chao et al. 2021)、H2O (Kwon et al. 2021)、OakInk2 (Zhan et al. 2024)、EgoDex (Hoque et al. 2025) 和 HOT3D (Banerjee et al. 2024)。与大规模的“野外”视频语料库相比，这些数据集能够为细粒度的人类交互状态提供远为丰富且详实的监督信号。这表明，当迁移目标趋向于可执行的操纵任务时，这些数据集中包含的几何标注（例如显式的手部姿态）将变得愈发重要。它们充当一座更为直接的桥梁，将人类视频与针对特定具身形态的机器人动作规划紧密连接起来。

此外，近期的视觉-语言-动作（VLA）方案（例如 EgoVLA [Yang et al. 2025d]、Being-H0 [Luo et al. 2025]）以及基于隐动作的流水线（例如 GR00T N1 [Bjorck et al. 2025]、LDA-1B [Lyu et al. 2026]）正日益倾向于采用混合数据集的组合形式，而非局限于单一的数据源。诸如 UniHand-1.0 [Luo et al. 2025]、UniHand-2.0 [Luo et al. 2026b] 和 UniHand-Mix [Luo et al. 2026a] 等资源的涌现表明，单一数据集已无法为可扩展的跨具身迁移提供足够广泛的视角、具身形态、手部标注及任务多样性覆盖。通过整合那些具有不同侧重与优势的现有数据集，此类混合数据集能够有效提升数据的多样性以及跨领域的鲁棒性。

2 人类视频生成

若仅依赖开源的人类视频数据集来开发LfHV技术，其发展将受到诸多限制。这些数据源通常受限于已录制完成的有限任务、环境、视角及具身形态。若需手动采集具备特定属性的额外视频，则会大幅增加人力成本。鉴于这一局限性，近期涌现出一批突破传统框架的新工作：它们不再局限于使用现成的人类视频，而是转向从零开始生成人类视频（参见图 19）。通过在可控的任务设置、视角及场景配置下合成人类演示视频，这些方法为扩展 LfHV 所需的人类中心化数据在多样性、覆盖范围及适应性方面，提供一条极具互补价值的途径。
请添加图片描述

针对LfHV任务，人类视频生成正作为一种可扩展的补充手段，逐渐崭露头角，以弥补静态人类视频语料库的不足。该领域现有的研究工作已历经演进：从早期的基于仿真的合成，发展至受语言条件制约的视频生成，并进一步迈向更为结构化的流程——即通过流水线机制，将生成的视频与姿态重定向及光流提取技术相结合。这一研究方向尤具前景，因为它能够将任务与场景的覆盖范围拓展至超越物理录制范畴的广阔领域。尽管当前的零样本视频生成模型在生成人类视频方面，通常能呈现出优于机器人视频的质量（Bharadhwaj et al. 2024a），但其有效性在很大程度上仍取决于以下三大要素：合成交互动态的逼真度、物理基础运动信号提取的可靠性，以及在不同具身形态之间迁移这些信号的鲁棒性。