0基础开始VLA复现

m0_68439440

293人浏览 · 2026-04-24 22:17:08

m0_68439440 · 2026-04-24 22:17:08 发布

1.首先先写直觉的东西

Github：外国代码创意工坊+百度网盘大部分代码、学习路线东西上面都有免费下载红色圈点击code 再点download zip下载当前界面的代码的压缩包蓝色圈结合git clone指令来在终端里完成这一操作

Hugging Face：Github大模型版里面有你可以调用的大模型和数据集但是有些数据集你得登录才能有权限下载目前最常用的方式是在终端登陆你的密钥真正训练的时候你本地的文件夹其实并没有大模型的细节代码但是通过你的秘钥允许你自动登录网站去调用别人在网站上的大模型代码数据集也是同理

Lerobot：一家做机械臂的厂子（小组？）有便宜的机械臂让我也能用开放了很多方法和权重统一了平台让你可以模块化的复现VLA

arXiv：前沿技术都会在这个网站发论文但是和IEEE系列期刊论文不一样的是这里的东西更像是工程师写的不是学者不会对一个方法的细节做出特别详细的讲解和稳定性分析这类的但是会很看重实验方面的东西对于我这个小白来说实在是很友好 ai辅助阅读效率很高

git：共享文档+游戏存档命令结合网址能够0操作把别人的东西克隆下来别人更新了你这边自动更新你自己整坏了还能读自己的或者别人的档爽哦

wandb:权重与偏置和终端终端里登录wandb的秘钥可以在网站上自动调取你训练的数据生成可视化图像非常方便你自己看效果也能看你电脑的负载等（在云服务器上用的多）

2.然后是具体的问题：

1.网络代理(不让说=）)

总结：

hugging face用中国台湾节点可以很方便的打开和注册但在终端使用前一般会加上指令

设置huggingface镜像 export HF_ENDPOINT=https://hf-mirror.com 免得你去官网慢

2.复现教程

纯仿真

首先只需要一台电脑和网络就可以完成的

跟随教程：https://github.com/datawhalechina/every-embodied

直接看这个先做出来东西吸引兴趣才有继续学习的动力忽视最上面的两个链接不用下载什么都不懂的前提下推荐全选文档复制给ai让他教你怎么做你俩对话就行了这个链接我目前只做了一个这个smolvla的仿真基本上就是无情的代码复制工具之所以做这个是想看看 libero仿真长什么样

数据集：我是下载到本地了

data：机械臂运动轨迹 meta：每个数据的杂项信息 video：存两个视角的视频

wrist：腕部你是机械爪另一个：你是观察者也是世界坐标系

上面就是libero仿真的界面

训练脚本（微调）

python -m lerobot.scripts.train \                                      ----运行的脚本
--policy.type=/home/vipuser/117models/smolvla_base \                   ----采用的VLA
  --policy.load_vlm_weights True \                              ----用别人准备好的权重
  --dataset.repo_id=/home/vipuser/117models/aopoli-lv-libero \         ----数据集地址
  --batch_size=64 \                                               ----越大硬件要求越大
  --steps=200000 \                                                       ----训练多久
  --wandb.enable=true \                                           ----要不要网页可视化
  --save_freq 10000 \                                                ----多久存一次档
  --output_dir=/home/vipuser/517robo/libero-        smolvla/model_outputs/train/libero_smolvla_scratch \            ----训练好的权重放哪里
  --job_name=libero_smolvla_scratch_ckk \                                   ----起名
  --policy.push_to_hub=False                                   ----要不要上传github上

最需要注意的是第一行看清楚用的是哪个脚本出问题了就去找这个脚本看看里面的参数什么含义

这一部分出问题就交给ai去debug

推理

文档里有

最后结果就是本地4060laptop gpu跑 10000 step batch 8 跑完的参数最后loss在0.1左右权重拿回去推理有15%的成功率（3/20）你仔细研究肯定做的比我好我只跑完这一次没跑了

实机+本地

https://github.com/box2ai-robotics b站： https://www.bilibili.com/video/BV1nQw KeJEL6

博主盒子桥我懒得折腾硬件直接在他这里买了单只机械臂lerobot soarm100加joycon控制的方案 1400左右

具体的流程可以看他视频但是注意他只配了一个摄像头 这个按下后面再表

可以完全跟着readme_zh文档走你就能实现 键盘控制/joycon控制 mujoco仿真下的机械臂

mujoco大概长这样（我的打不开了网上拿的图）

这套方法大概流程如下

完整跟着这套流程下来你就大概知道工作流程大概是什么了我的总结是

1.控制机械臂采集实机数据集
2.数据集送给VLA模型让他自己学习什么图像对应什么动作从图像输入直接得到关节输出

3.关节输出直接喂给机械臂去执行动作

实现最简单 视觉到动作流程

实际操作tips：joycon感觉控制不好使就是没电了去充电再一个就是最好直接对着电脑的蓝牙发射模块用有时候莫名其妙左右方向反了就先复位再重新录数据集想要增加控制精准度推荐joycon放在水平面上先移动到目标附近了再拿起来精细控制免得中途就开始出错

实机+云服务器

上述的流程有以下的缺点：

就一个摄像头视觉得到信息太少了模型能学到的东西就少就不厉害
架构有点老了不太跟得上现在的发展只学这个没人要 =(
本地跑的吭哧瘪肚（smolvla那个）再厉害的框架我gpu跟不上就训那几步那点大小的batch训出来的权重肯定不会好
joycon控制实际上不是最优解富哥们都是两个机械臂一主一从从臂能很好的采集到人手的控制数据比joycon好使又好玩超级富哥们都是买的更厉害的机械臂硬件的限制还是很大

于是我开始尝试smolvla+joyco控制+云服务器计算的方法（我是穷哥们）

场景是抓取与放置

首当其冲的就是解决摄像头问题

一个腕部摄像头收集的数据不够我就加一个全局摄像头这才是标准流程

购买了一个海康威视的摄像头绑到了头顶确保其能看见我的机械臂和训练目标

下面是布置路径

全局摄像头绑在一个固定的位置就不要动了！（我是固定在了折叠小灯的上面胶带固定）