VLA 方向代表性工作

小怪兽会微笑

342人浏览 · 2026-05-07 16:19:45

小怪兽会微笑 · 2026-05-07 16:19:45 发布

VLA 方向代表性工作

VLA（Vision-Language-Action）模型是目前具身智能（Embodied AI）领域最前沿的方向之一。它的核心理念是将视觉感知（Vision）、**语言理解（Language）和动作执行（Action）**统一在一个端到端的神经网络架构中（通常是 Transformer）。

简单来说，VLA 模型将机器人的动作（如机械臂的位移、旋转、夹取）看作是一种特殊的“语言标记（Tokens）”。通过在海量的互联网图文数据和机器人操作数据上进行联合训练，使模型能够像理解文字一样理解物理世界的操控。

一、 VLA 方向代表性工作

目前的 VLA 研究正朝着“通用机器人大脑”的方向演进，以下是几个里程碑式的工作：

1. RT-2 (Robotics Transformer 2) —— Google DeepMind

这是 VLA 概念的开创性工作。RT-2 将视觉语言模型（VLM，如 PaLI-X）直接转化为 VLA 模型。

核心创新：将动作空间离散化为文本 Token，利用在大规模互联网数据上预训练得到的语义知识来增强机器人的泛化能力。
意义：展示了模型可以从海量文本中学习到物理常识（例如：知道把物体移到“恐龙”旁边，即使训练数据里没有见过恐龙玩具）。

2. OpenVLA —— Stanford, UC Berkeley 等

目前社区最强大的开源 VLA 基础模型。

核心架构：基于 Prismatic VLM（结合了 DinoV2 和 SigLIP 视觉编码器）以及 Llama-2 后端。
特点：在 Open X-Embodiment 数据集上进行微调，支持多种机器人硬件，且提供了一套完整的微调流程，是目前学术界研究 VLA 的首选基座。

3. Octo —— Berkeley, Stanford 等

由 8 家顶尖机构联合推出的通用机器人策略模型。

核心创新：不同于 RT-2 的自回归生成，Octo 采用扩散策略（Diffusion Policy）作为输出头，能够更好地处理连续动作空间和多峰分布。
特点：支持多种观测输入（单目、多目相机）和多种任务指令（语言、目标图）。

二、具身智能数据采集的代表性工作

具身智能面临的最大挑战是“数据荒”。与文本数据不同，高质量的机器人操作数据获取成本极高。目前主要通过以下几种路径解决：

1. 跨平台协同数据集：Open X-Embodiment (RT-X)

这是机器人领域的“ImageNet”时刻。

内容：DeepMind 联合全球 33 个实验室，汇集了 22 种不同机器人形态、100 万个真实操作轨迹。
意义：证明了通过不同机器人数据的混合训练，可以提升单一机器人的性能和泛化能力。

2. 低成本硬件采集：UMI (Universal Manipulation Interface)

核心工作：来自 Stanford (Shuran Song 团队)。
技术细节：通过一个安装在手持夹持器上的运动相机和两个鱼眼镜头，利用 SLAM 技术记录人类手部动作。
优点：极大地降低了数据采集成本。普通人拿着这个设备在家里操作，就能生成可以直接传给机器人学习的数据。

3. 人类视频学习：Ego4D / Holo-Dex

Ego4D：Facebook (Meta) 主导的大规模第一视角视频数据集。虽然不是直接的动作数据，但 VLA 模型可以通过观察人类如何与物体交互来学习先验知识。
Holo-Dex：利用 VR 设备（如 Meta Quest）进行远程操控（Teleoperation）采集高精度的触觉和动作数据。

4. 数据合成与增强：MimicGen

核心思想：利用仿真环境（Simulation），从少量的人类演示（Demonstration）中自动生成大规模的合成数据。
价值：解决了真实采集太慢的问题，通过扰动初始位置和轨迹，将 10 条数据自动扩展成 1000 条高质量数据。

三、总结与前瞻

如果你正关注 VLA 方向，建议深入研究 RT-2 的 Tokenization 方案 以及 OpenVLA 的开源实现。在数据层面，目前行业趋势正从“昂贵的专家示教”转向“低成本人体穿戴设备采集”+“仿真数据合成”。

对于 AI 研究者来说，VLA 的核心难题在于如何建立有效的 $a_t = \pi(s_t, g)$ 映射（其中 $s$ 为多模态状态， $g$ 为目标指令， $a$ 为动作），并解决长序列推理过程中的误差累积问题。

你目前在做 LLM 教育方向的 agent，其实具身智能中的“任务规划（Task Planning）”层与你熟悉的 LLM Agent 非常相似，区别仅在于底层的动作执行器。

核心 VLA 模型 (Vision-Language-Action)

RT-2: Vision-Language-Action Models Transfer Knowledge from Web to Robots
- ArXiv: https://arxiv.org/abs/2307.15818
- Project Page: https://robotics-transformer2.github.io/
- 注：Google DeepMind 的开山之作，重点看它如何将 Action 映射为 Text Tokens。
OpenVLA: An Open-Source Vision-Language-Action Model
- ArXiv: https://arxiv.org/abs/2406.09246
- Project Page: https://openvla.ai/
- 注：目前社区最易用的基座，非常适合作为 PhD 研究的 Baseline。
Octo: An Open-Source Generalist Robot Policy
- ArXiv: https://arxiv.org/abs/2405.12213
- Project Page: https://octo-models.github.io/
- 注：重点关注其 Diffusion Policy 的输出头处理方式。

数据采集与数据集 (Data Collection & Benchmark)

Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- ArXiv: https://arxiv.org/abs/2310.08864
- Project Page: https://robotics-transformer-x.github.io/
- 注：机器人领域的“ImageNet”，跨平台、跨形态数据的集大成者。
UMI: Universal Manipulation Interface: In-The-Wild Robot Teaching Without Measuring The World
- ArXiv: https://arxiv.org/abs/2402.10329
- Project Page: https://umi-gripper.github.io/
- 注：Shuran Song 团队作品，展示了如何用几百美金的 GoPro 方案采集工业级动作数据。
MimicGen: A Data Generation Pipeline for Scalable Robot Learning
- ArXiv: https://arxiv.org/abs/2310.17596
- Project Page: https://mimicgen.github.io/
- 注：NVIDIA 出品，侧重于仿真环境下的数据自动扩增。
Ego4D: Around the World in 3,000 Hours of Egocentric Video
- ArXiv: https://arxiv.org/abs/2110.07058
- Project Page: https://ego4d-data.org/
- 注：Meta 主导，虽然不是直接的 Robot Data，但是 VLA 预训练极其重要的视觉先验来源。

💡 进阶建议（针对 PhD 研究）

如果你对 强化学习优化（PPO/GRPO/DAPO） 有深厚背景，我推荐你额外关注以下两项最近在“动作对齐”上非常有潜力的工作：

Pi0 (Physical Intelligence-0): https://www.physicalintelligence.company/blog/pi0 —— 这是 2024 年底非常火的通用机器人模型，它将预训练和微调（类似 LLM 的 Post-training）流程在机器人上跑通了。
Robo-Reinforce/RL-Fine-tuning: 关注如何将 RLHF 的思路引入 VLA，通过 Reward Model 来修正机器人的轨迹偏移。

考虑到你在做 LLM 的微调和对齐，VLA 的动作空间离散化（Tokenization）和你研究的语言模型对齐在逻辑上是高度相似的，只是损失函数（Loss Function）中可能需要加入对物理约束（如 $\ell_2$ 范数或动作平滑度）的考量。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RT-DETR最新创新改进系列：从YOLO26到RT-DETR的无缝迁移，先搭好基线实验底座，AIFI与RTDETRDecoder协同建模，速度、精度、消融一文理清！【基线先行，改进有据】

本文为 RTDETR 改进系列纯净发布稿，写法采用模块化技术博文形式：先讲痛点，再讲结构，再给配置、训练方式、实验表格和注意事项。全文仅保留技术正文，便于直接发布。摘要本文围绕 RTDETRl 基线展开。该版本属于基线配置方向，目标是在 RTDETR 端到端检测框架中完成可复现、可对照、可训练的结构设计。相比只给模型文件，本文更关注为什么这样改、改在什么位置、如何训练、如何做消融，以及实

AtomGit开源社区

DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现

无论是复杂问题的解答，还是创意内容的生成，都能精准把握用户需求，提供高质量的输出。DeepSeek V4不仅是技术的典范，更是未来人工智能发展的风向标,接下来我将从：代码生成、逻辑推理、数学解题、长文本理解、多模态识别等维度，横向对比 DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现。GPT-4o在表格数据提取上更精准，V4则擅长恢复破损文档的代码缩进结构。在真