1.首先先写直觉的东西

Github:外国代码创意工坊+百度网盘 大部分代码、学习路线东西上面都有 免费下载 红色圈 点击code 再点download zip下载当前界面的代码的压缩包 蓝色圈 结合git clone指令来在终端里完成这一操作

Hugging Face:Github大模型版 里面有你可以调用的大模型和数据集 但是有些数据集你得登录才能有权限下载 目前最常用的方式是在终端登陆你的密钥 真正训练的时候你本地的文件夹其实并没有大模型的细节代码 但是通过你的秘钥 允许你自动登录网站去调用别人在网站上的大模型代码 数据集也是同理 

Lerobot:一家做机械臂的厂子(小组?) 有便宜的机械臂 让我也能用 开放了很多方法和权重 统一了平台 让你可以模块化的复现VLA

arXiv:前沿技术都会在这个网站发论文 但是和IEEE系列期刊论文不一样的是 这里的东西更像是工程师写的 不是学者 不会对一个方法的细节做出特别详细的讲解和稳定性分析这类的 但是会很看重实验方面的东西 对于我这个小白来说实在是很友好 ai辅助阅读效率很高

git:共享文档+游戏存档命令  结合网址能够0操作把别人的东西克隆下来 别人更新了你这边自动更新 你自己整坏了还能读自己的或者别人的档 爽哦

wandb:权重 与 偏置 和终端 终端里登录wandb的秘钥 可以在网站上自动调取你训练的数据 生成可视化图像 非常方便你自己看效果 也能看你电脑的负载等(在云服务器上用的多)

2.然后是具体的问题:

1.网络代理(不让说=))

总结:

hugging face用中国台湾节点可以很方便的打开和注册 但在终端使用前一般会加上指令

设置huggingface镜像 export HF_ENDPOINT=https://hf-mirror.com 免得你去官网慢

2.复现教程

纯仿真

首先 只需要一台电脑和网络就可以完成的

跟随教程:https://github.com/datawhalechina/every-embodied

直接看这个 先做出来东西吸引兴趣 才有继续学习的动力 忽视最上面的两个链接 不用下载 什么都不懂的前提下 推荐全选文档 复制给ai让他教你怎么做 你俩对话就行了 这个链接我目前只做了一个这个smolvla的仿真 基本上就是无情的代码复制工具 之所以做这个是想看看 libero仿真长什么样

数据集:我是下载到本地了

data:机械臂运动轨迹                  meta:每个数据的杂项信息              video:存两个视角的视频

wrist:腕部 你是机械爪                                                           另一个:你是观察者 也是世界坐标系

上面就是libero仿真的界面

训练脚本(微调)

python -m lerobot.scripts.train \                                      ----运行的脚本
--policy.type=/home/vipuser/117models/smolvla_base \                   ----采用的VLA
  --policy.load_vlm_weights True \                              ----用别人准备好的权重
  --dataset.repo_id=/home/vipuser/117models/aopoli-lv-libero \         ----数据集地址
  --batch_size=64 \                                               ----越大硬件要求越大
  --steps=200000 \                                                       ----训练多久
  --wandb.enable=true \                                           ----要不要网页可视化
  --save_freq 10000 \                                                ----多久存一次档
  --output_dir=/home/vipuser/517robo/libero-        smolvla/model_outputs/train/libero_smolvla_scratch \            ----训练好的权重放哪里
  --job_name=libero_smolvla_scratch_ckk \                                   ----起名
  --policy.push_to_hub=False                                   ----要不要上传github上

最需要注意的是第一行 看清楚用的是哪个脚本 出问题了就去找这个脚本 看看里面的参数什么含义

这一部分出问题就交给ai去debug

推理 

文档里有

最后结果 就是本地4060laptop gpu跑 10000 step batch 8 跑完的参数最后loss在0.1左右 权重拿回去推理有15%的成功率(3/20)你仔细研究肯定做的比我好 我只跑完这一次没跑了

实机+本地

https://github.com/box2ai-robotics   b站: https://www.bilibili.com/video/BV1nQw KeJEL6

博主盒子桥 我懒得折腾硬件 直接在他这里买了单只机械臂lerobot soarm100加joycon控制的方案 1400左右

具体的流程可以看他视频 但是注意 他只配了一个摄像头 这个按下后面再表

可以完全跟着readme_zh文档走 你就能实现 键盘控制/joycon控制 mujoco仿真下的机械臂

mujoco大概长这样 (我的打不开了 网上拿的图)

这套方法大概流程如下

完整跟着这套流程下来你就大概知道工作流程大概是什么了 我的总结是
 

1.控制机械臂采集实机数据集
2.数据集送给VLA模型 让他自己学习什么图像对应什么动作 从图像输入直接得到关节输出

3.关节输出直接喂给机械臂去执行动作

实现最简单 视觉到动作流程

实际操作tips:joycon感觉控制不好使就是没电了 去充电 再一个就是最好直接对着电脑的蓝牙发射模块用 有时候莫名其妙左右方向反了就先复位再重新录数据集 想要增加控制精准度推荐joycon放在水平面上 先移动到目标附近了再拿起来精细控制 免得中途就开始出错

实机+云服务器

上述的流程有以下的缺点:

  1. 就一个摄像头 视觉得到信息太少了 模型能学到的东西就少 就不厉害
  2. 架构有点老了 不太跟得上现在的发展 只学这个没人要 =(
  3. 本地跑的吭哧瘪肚(smolvla那个)再厉害的框架我gpu跟不上 就训那几步 那点大小的batch训出来的权重肯定不会好 
  4. joycon控制实际上不是最优解 富哥们都是两个机械臂一主一从 从臂能很好的采集到人手的控制数据 比joycon好使又好玩 超级富哥们都是买的更厉害的机械臂 硬件的限制还是很大

于是我开始尝试smolvla+joyco控制+云服务器计算 的方法(我是穷哥们)

场景是抓取与放置

首当其冲的就是解决摄像头问题

一个腕部摄像头收集的数据不够我就加一个全局摄像头 这才是标准流程

购买了一个海康威视的摄像头绑到了头顶 确保其能看见我的机械臂和训练目标

下面是布置路径

全局摄像头绑在一个固定的位置就不要动了!(我是固定在了折叠小灯的上面 胶带固定)

抓取目的地 也不要动了 我的方案是一次性纸盘子 中间掏洞 桌面粘胶带确定死点位置

最终效果如图:

全局:                                                                                        腕部:

剩下的我下次再更(4.28)

目前的计划是复现虚拟环境下(libero)的smolvla(网上的数据集)  然后实际场景再次用smolvla实现分类挑拣任务(自己手动采集)后面有时间就在虚拟环境下复现openvla和pi0 然后就投简历实习

之前买了 lerobot so arm 100 机械臂800块 用的是别人整好的 joycon控制方案 总共花了1300左右 自己整了一段时间 能够用键盘和手柄这两种控制方式 实现mujoco和实际机械臂的控制 目前感觉还行

截止到发文日期刚刚在本地(4060 laptop)跑完了10000轮的大脑训练 得到了权重文件 损失在0.1左右 虚拟环境下成功率在15%左右 (10任务每任务2次尝试 最后成功了3次)学习的文档链接什么的放在后面 大家有需要自取 我后面有空再更新踩过的坑什么的

https://github.com/datawhalechina/every-embodied(别全跟 自己取舍 喂给ai辅助最佳)

PS:五一放假我们能放3天 耶!!!!!!!!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐