0.引言

本文解析具身智能爆火的技术逻辑,以松灵机器人的底盘为例,详解移动底盘对比纯机械臂的优势,结合 ROS2 生态、多款底盘方案与 Mobile ALOHA 落地案例,讲解移动底盘如何支撑 VLA 模型与机器人全域作业

1. 移动底盘为何是具身智能机器人的核心关键载体

随着 LLM、VLM、VLA 等多模态大模型快速迭代,具身智能成为机器人行业焦点。即便 AI 模型拥有强大的推理能力,机器人依旧需要可靠的硬件载体实现环境交互。移动底盘作为连接 AI 决策与物理执行的桥梁,是当前 VLA 机器人落地现实场景的必备核心部件。

因此,在当下这个具身智能百家齐放的今天,一个趋势正在形成 —— 机器人在拥有一双灵巧的手的同时还需要一对能够自由行走的腿。移动底盘正是连接智能决策与真实世界执行的重要桥梁。

2.具身智能爆火:多模态 AI 技术融合驱动行业变革

2.1 行业变迁:从机械臂单点研究到全域具身智能

如果时间拉回到三年前,在各类大语言模型刚刚步入到人们眼前之时,机器人行业主要讨论的话题集中于机械臂控制、SLAM以及强化学习。而今天,几乎所有机器人会议、论坛和创业项目都离不开“具身智能”四个字。

背后的原因并不复杂。下面我将用一个逻辑图的形式进行展示:

首先大模型的出现赋予机器人更强大的大脑,机器人将不再只执行预设程序,而能够理解自然语言指令,并将其拆解为执行的流程框架。接着VLM模型的发展让机器人识别复杂场景及理解任务目标的能力逐渐加强,而VLA模型的出现进一步将视觉输入转化为机器人的动作输出。与此同时,世界模型、强化学习以及Sim2Real技术不断成熟,使得机器人能够在仿真环境中完成大量训练之后,再迁移到真实世界执行任务。

以上技术的融合,共同推动具身智能的发展。

2.2 自主具身智能机器人必备四大核心能力

具身智能并不是所谓单纯由“大模型”+“机器人”拼接在一起的的架构,若想真正搭配一个具备自主能力的机器人,需要同时具备以下四种能力:

(1)感知

机器人需要知道自己看到了什么。

其中包括:

  • 摄像头获取图像

  • 激光雷达感知环境

  • 深度相机获取空间信息

(2)推理

机器人需要理解当前场景。

当用户说:

“帮我把桌子上的矿泉水拿过来”

机器人需要知道:

  • 什么是矿泉水

  • 矿泉水在哪里

  • 自己应该怎样完成任务

(3)行动

理解任务只是第一步。

机器人还必须能够移动到目标位置,并完成抓取、搬运等操作。

(4)学习

现实环境远比实验室环境更复杂,机器人需要通过持续的数据累计不断优化策略,而并非依赖写死的算法。

    3. 移动底盘不可替代:纯机械臂的局限性与行业演进

    3.1 为什么机械臂无法独立完成具身智能任务?

    在具身智能没有爆火之前,基于机械臂的强化学习训练,一直是国内外学者研究的重心,但若一个想实现一个机器人真正自主做出决策,仅依赖机械臂往往是不够的。

    归根到底是由于固定位置的训练,使得模型获得训练数据集受限,制约模型的能力,我们可以看到机械臂的工作范围是有限的,当目标对象超出工作范围,机械臂将无法独立完成工作,例如仍然是命令机器人执行去隔壁会议室拿一瓶矿泉水的工作,这个任务不仅需要包含抓取工作,还涉及到移动到指定的位置,其中需要实现:

    • 搜索目标

    • 自主导航

    • 障碍物识别

    • 路径规划

    3.2 移动操作(Mobile Manipulation):主流机器人架构

    以上的能力都已经超出传统机械臂的范畴,因此行业也逐渐从固定移动向移动操作(Mobile Manipulation)演进。

    所谓Mobile Manipulation,本质上就是:

    移动底盘

    +

    机械臂

    +

    感知系统

    +

    AI模型

    这样的组合让机器人同时拥有:

    • 移动能力

    • 操作能力

    • 环境理解能力

    近年来,无论是高校实验室还是产业界项目,都在逐步采用这一架构。因为对于真实场景来说,大部分任务并不是“抓取”,而是“先找到目标,再完成抓取”,而找到目标这件事,本质上依赖移动能力。

    3.3 移动底盘三大核心价值:感知、运动、数据闭环

    1.拓展全域感知边界,为 VLA 模型供给高质量输入

    机器人获取环境信息的基础是可视、可触。若视觉传感设备固定不动,感知视野会被锁死;搭载移动底盘后,机器人可自主完成三项关键动作:主动靠近作业目标、灵活调整观测视角、自主遍历探索陌生空间。充足多变的环境画面、空间视角素材,能给 VLA 视觉 - 语言 - 动作模型输送更丰富、多元的原始输入,大幅提升模型对真实场景的适配度。

    2.承载长距离运动执行,直接决定任务整体成功率

    绝大多数商业化落地场景都包含长距离移动环节,比如仓储物料转运、楼宇物资配送、实验室辅助服务、厂区园区巡检等。在整套作业流程里,自主导航移动耗费的时长远高于抓取操作环节。行业项目实测数据显示:单次完整移动操作任务中,超80%的工时消耗在移动行进阶段,底盘的稳定性、导航精度、运动性能,会直接左右整套任务能否顺利完成。

    3.打通环境交互的数据闭环,支撑模型持续迭代进化

    数据是驱动具身智能成长的核心燃料,机器人只有持续和真实物理环境交互,才能源源不断产出可用于训练的样本数据。依托移动底盘的行走能力,机器人能够穿梭更多作业场景、接触多样化物件、采集海量完整运动轨迹数据。这些高质量交互样本,是强化学习、模仿学习体系中不可替代的训练资源,支撑整机 AI 策略不断自我优化升级。

    3.4 具身智能机器人底盘怎么选?差速、四驱四转与履带方案对比

    纵观近两年各类机器人开源项目,我们能发现一个高度统一的趋势:绝大多数项目均以 ROS2 作为核心开发框架,整个具身智能框架日趋成熟。

    依托 ROS2 庞大的工具组件库,开发者可直接调用开箱即用的成熟模块,无需重复开发:

    • Navigation2:直接实现机器人自主导航、路径规划与避障

    • MoveIt2:实现机械臂运动规划、抓取姿态控制

    • Gazebo:搭建物理仿真环境,完成真机上线前的功能调试

    • Isaac Sim:支撑高精度数字孪生与大规模 Sim2Real 训练

    • LeRobot:快速搭建模仿学习数据集,适配具身智能训练需求

    基于上述标准模块,科研团队与开发人员不必从零搭建底层驱动、通信、调度框架,可把绝大多数研发重心聚焦在大模型算法优化、具身智能策略迭代与实际业务场景落地之上

    4.场景化选型:三类主流移动底盘对比与适配方案

    若想真正发挥底盘在具身智能领域的应用价值,根据不同场景选择适合的底盘类型必不可少。

    4.1 场景化选型:三类主流移动底盘对比与适配方案

    (1)四轮差速底盘:具身智能开发的经典入门方案

    对于大多数具身智能项目而言,四轮差速底盘通常是最先接触的移动平台。

    其控制原理简单,仅通过左右轮速差即可实现前进、后退和转向,因此拥有成熟的算法生态和大量开源案例。在ROS2环境下,无论是Navigation2导航、SLAM建图还是VLA模型验证,差速底盘都能快速完成部署。

    对于高校实验室、科研团队以及初次开展移动操作(Mobile Manipulation)研究的开发者来说,差速底盘往往能够以较低的学习成本搭建完整的机器人系统。

    典型应用场景包括:

    • 室内自主导航

    • 具身智能算法验证

    • ROS2教学与科研

    • 移动操作机器人原型开发

    典型代表——松灵 SCOUT MINI: 支持 ROS 2,拥有开放的二次开发接口。其出色的越障与爬坡能力,使其不仅适用于室内,也能在轻度户外(草地、砂石路)为 VLA 模型的实车训练提供高质、稳定的数据采集支持。

    (2)四驱四转底盘:面向真实场景部署的全地形方案

    当机器人从实验室走向园区、工厂或户外环境时,地面条件往往不再像室内那样平整。

    减速带、斜坡、碎石路面以及复杂转弯场景,都对机器人底盘提出了更高要求。

    四驱四转底盘通过独立驱动与独立转向结构,使机器人能够兼顾机动性、通过性和稳定性。在狭窄区域转弯、复杂路面通行以及高速移动场景中,相比传统差速底盘拥有更好的运动表现。

    这类底盘特别适用于:

    • 园区配送机器人

    • 户外巡检机器人

    • 智能安防平台

    • 野外数据采集系统

    • 户外具身智能研究

    典型代表——松灵 RANGER MINI 3.0: 将四轮四转的灵活性发挥到极致。在室内货架通道、实验室或医院等逼仄环境中,RANGER MINI 3.0 能在不改变车头朝向的情况下完成横移避障,与 VLA 模型的空间动作规划(Spatial Action Planning)完美契合。

    (3)履带底盘:极端环境下的高通过性选择

    对于楼梯、碎石、泥地、草地等复杂地形而言,传统轮式底盘往往会受到较大限制。

    履带底盘通过增大接地面积和提升地面附着力,能够有效提高机器人在复杂环境中的通过能力。

    虽然其控制和运动学模型相对复杂,转向效率也低于轮式平台,但在极端场景下仍具有不可替代的优势。

    常见应用包括:

    • 特种巡检机器人

    • 应急救援机器人

    • 电力与能源巡检

    • 矿区与隧道作业

    • 复杂户外环境探索

    当项目目标是保证机器人能够“到达目标地点”时,履带底盘往往比运动灵活性更重要。

    典型代表——松灵 BUNKER PRO: 具备 IP67 级高防护防尘防水能力,开放的 ROS 2 接口允许开发者快速挂接多模态感知设备。在极恶劣环境下,BUNKER PRO 能够保障底层物理移动的绝对高可靠性。

    底盘类型

    核心控制原理

    核心优势

    局限性

    适配具身智能场景

    松灵典型代表

    四轮差速

    左右轮速差转向

    算法极其成熟,开源资源多,成本低

    无法平移,越障能力上限较低

    室内算法验证、高校科研、原型开发

    SCOUT MINI

    SCOUT 2.0 TRACER 2.0

    四驱四转

    独立驱动 + 独立转向

    零转向半径,可任意方向平移,灵活性极高

    机械与控制结构复杂,成本较高

    逼仄空间(医院/货架)、复杂园区巡检

    RANGER MINI 3.0

    RANGER DELTA UMR

    履带式

    履带差速驱动

    接地面积大,抓地力极强,超强越障与防尘防水

    转向效率低,对地面有一定损耗

    极端户外(泥地/楼梯/特种巡检)

    BUNKER PRO 2.0 BUNKER MINI 2.0

    4.2 Mobile ALOHA 移动操作机器人落地实践

    上文提到数据质量决定一个训练模型的上限以及可以泛化的场景,因此为获得高质多维数据,当下行业越来越多使用移动机器人进行数采。

    传统机器人开发中的模仿学习数采方法通常采用:

    桌面 + 固定视角 + 固定工作空间

    而斯坦福大学在2024年提出的Mobile ALOHA方案收集数据的视角则采用:

    房间 + 走廊 + 柜子 + 电梯 + 厨房 + 变化视角

    获得的数据类型则转变为 Whole-body Data,而不单纯的为机械臂数据。

    在该项目中,研究团队基于松灵机器人TRACER移动底盘与松灵PiPER系列双臂机械臂构建全身远程操作系统,通过人类示范采集高质量移动操作数据,并利用模仿学习训练机器人自主执行任务。机器人不仅能够完成传统桌面操作,还能够自主导航至目标区域,完成开柜门取放锅具、厨房烹饪、清洗餐具以及呼叫和乘坐电梯等涉及移动、感知、决策和双臂协同操作的复杂任务。相比传统固定工作站机器人,TRACER提供了环境探索、自主移动和任务扩展能力,Piper则负责精细抓取与双臂协同操作,两者结合形成了“移动能力+操作能力”的完整具身智能载体。

    ALOHA的出现验证了基于ROS2生态的低成本移动操作平台同样能够支撑高质量数据采集、模仿学习训练以及自主任务执行,为LeRobot、OpenVLA等新一代具身智能框架提供了真实世界的数据来源和部署平台,也为高校、科研机构及企业构建具身智能机器人系统提供了可复制、可落地的参考方案。

    5.总结:移动底盘成为具身智能长期发展的基础设施

    过去机器人行业关注的是:“机器人能不能抓住物体?”,未来行业更关注的是:“机器人能不能找到物体、接近物体、抓住物体,并完成后续任务?”从这个角度来看,移动能力已经不再是附加功能,而是具身智能的重要组成部分。随着VLA、世界模型和强化学习技术不断发展,机器人将逐渐从固定工作站走向开放环境。而移动底盘,也将从传统意义上的“底层执行机构”,演变为具身智能系统中不可或缺的核心基础设施。

    对于正在开展具身智能研发的团队来说,选择合适的移动平台、构建稳定的ROS2生态,并尽早建立移动操作能力,或许比单纯追逐最新模型更重要。

    FAQ

    Q1:具身智能机器人一定需要移动底盘吗?

    不一定。

    对于固定工位抓取任务,仅机械臂即可完成。

    但对于仓储配送、家庭服务、实验室辅助等开放场景任务,机器人必须具备移动能力,因此移动底盘成为主流方案。

    Q2:Mobile Manipulation是什么?

    Mobile Manipulation指:

    移动底盘 + 机械臂 + 感知系统 + AI模型

    使机器人同时具备:

    • 移动能力

    • 感知能力

    • 操作能力

    • 学习能力

    Q3:ROS2为什么成为具身智能标准?

    原因包括:

    • Navigation2

    • MoveIt2

    • Gazebo

    • Isaac Sim

    • LeRobot

    形成完整开发生态。

    Q4:Mobile ALOHA为什么重要?

    因为首次验证:

    Whole-body Data

    比桌面操作数据具有更强泛化能力。

    Logo

    AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

    更多推荐