【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction
·
快速了解部分
基础信息(英文):
- 题目: GEN-0: Embodied Foundation Models That Scale with Physical Interaction
- 时间: 2025.11
- 机构: Generalist AI
- 3个英文关键词: Embodied Foundation Models, Scaling Laws, Harmonic Reasoning

1句话通俗总结本文干了什么事情
本文提出了GEN-0,一种通过海量真实物理交互数据进行预训练的具身基础模型,旨在建立机器人领域的“扩展定律”,实现机器人智能随数据和算力增加而可预测地提升。
研究痛点:现有研究不足 / 要解决的具体问题
- 缺乏扩展定律:机器人领域缺乏类似LLM的Scaling Laws,无法预测智能如何随数据/算力增长。
- 数据瓶颈:以往机器人模型受限于数据量不足,且难以处理海量数据。
- 小模型僵化:研究发现小参数模型(如1B)在面对海量数据时会出现“骨化”现象,无法继续学习。
核心方法:关键技术、模型或研究设计(简要)
- 海量真实数据:构建了包含27万+小时真实世界操作数据的训练集。
- 相位推理:设计了一种能让模型在实时物理世界中边思考边行动的训练机制。
- 大模型架构:验证了模型需要达到一定规模(7B+参数)才能有效吸收物理交互数据。
深入了解部分
作者想要表达什么
作者试图证明机器人智能也可以像大语言模型一样,通过“暴力美学”(Scaling Laws)实现突破。只要拥有足够多的真实物理交互数据和足够大的模型规模(7B以上),机器人就能习得通用的物理常识和技能,而不再受限于特定任务的编程。
相比前人创新在哪里
- 首次观测到“骨化”相变:在机器人领域首次观察到小模型在大数据下“学不动”的现象,证明了大模型(7B+)的必要性。
- 确立机器人扩展定律:量化证明了预训练数据量、模型大小与下游任务成功率之间的幂律关系。
- 真实世界数据规模:使用了远超以往规模的真实世界(而非模拟)操作数据。
解决方法/算法的通俗解释
GEN-0就像是给机器人装了一个“大脑”,这个大脑不是针对某一个特定动作训练的,而是看过了几十万小时的人类操作视频和数据。
- 相位推理:它能像人一样,在动作进行时同步思考下一步怎么动,而不是像以前那样必须停下来思考再行动。
- 扩展定律:只要给它看更多的视频(数据)和把大脑造得更大(参数),它的操作能力就会稳定地变强。
解决方法的具体做法
- 数据收集:建立全球网络,收集了270,000小时的真实世界操作数据(包括家庭、仓库等),并以每周10,000小时的速度增长。
- 模型训练:
- 使用不同规模(1B, 6B, 7B)的模型进行对比。
- 采用“相位推理”训练方式,处理感知和行动的异步流。
- 迁移学习:在大规模预训练后,仅用少量特定任务数据(Post-training)进行微调,即可在新任务上达到高成功率(99%)。
基于前人的哪些方法
- Vision-Language Models:基于现有的视觉语言预训练模型基础。
- PaLM-E:参考了具身多模态语言模型的设计思路。
- LLM Scaling Laws:借鉴了Kaplan等人关于神经语言模型扩展定律的理论。
实验设置、数据、评估方式、结论
- 数据:270,000+小时真实操作数据。测试了16组不同任务(如叠衣服、装相机、分拣乐高)。
- 评估:使用“下一动作预测误差”和“真实机器人任务成功率”作为指标。
- 结论:
- 1B模型在数据过载时出现骨化,性能停滞。
- 7B+模型性能随数据增加持续提升。
- 预训练数据越多,下游任务所需微调数据越少,成功率越高(最高达99%)。
提到的同类工作
- PaLM-E:具身多模态语言模型。
- Figure 01 / Helix:视觉-语言-行动模型。
- Droid:机器人数据集或相关技术。
和本文相关性最高的3个文献
- PaLM-E: An Embodied Multimodal Language Model (Driess et al., 2023)
- Scaling Laws for Neural Language Models (Kaplan and McCandlish et al., 2021)
- Real-Time Execution of Action Chunking Flow Policies (Black et al., 2025)
我的
重点就是Scaling law验证。数据越多越好,模型7B至少。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)