【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction

萌新一个啥都不会

113人浏览 · 2026-05-21 17:27:02

萌新一个啥都不会 · 2026-05-21 17:27:02 发布

快速了解部分

基础信息（英文）：

题目: GEN-0: Embodied Foundation Models That Scale with Physical Interaction
时间: 2025.11
机构: Generalist AI
3个英文关键词: Embodied Foundation Models, Scaling Laws, Harmonic Reasoning

1句话通俗总结本文干了什么事情

本文提出了GEN-0，一种通过海量真实物理交互数据进行预训练的具身基础模型，旨在建立机器人领域的“扩展定律”，实现机器人智能随数据和算力增加而可预测地提升。

研究痛点：现有研究不足 / 要解决的具体问题

缺乏扩展定律：机器人领域缺乏类似LLM的Scaling Laws，无法预测智能如何随数据/算力增长。
数据瓶颈：以往机器人模型受限于数据量不足，且难以处理海量数据。
小模型僵化：研究发现小参数模型（如1B）在面对海量数据时会出现“骨化”现象，无法继续学习。

核心方法：关键技术、模型或研究设计（简要）

海量真实数据：构建了包含27万+小时真实世界操作数据的训练集。
相位推理：设计了一种能让模型在实时物理世界中边思考边行动的训练机制。
大模型架构：验证了模型需要达到一定规模（7B+参数）才能有效吸收物理交互数据。

深入了解部分

作者想要表达什么

作者试图证明机器人智能也可以像大语言模型一样，通过“暴力美学”（Scaling Laws）实现突破。只要拥有足够多的真实物理交互数据和足够大的模型规模（7B以上），机器人就能习得通用的物理常识和技能，而不再受限于特定任务的编程。

相比前人创新在哪里

首次观测到“骨化”相变：在机器人领域首次观察到小模型在大数据下“学不动”的现象，证明了大模型（7B+）的必要性。
确立机器人扩展定律：量化证明了预训练数据量、模型大小与下游任务成功率之间的幂律关系。
真实世界数据规模：使用了远超以往规模的真实世界（而非模拟）操作数据。

解决方法/算法的通俗解释

GEN-0就像是给机器人装了一个“大脑”，这个大脑不是针对某一个特定动作训练的，而是看过了几十万小时的人类操作视频和数据。

相位推理：它能像人一样，在动作进行时同步思考下一步怎么动，而不是像以前那样必须停下来思考再行动。
扩展定律：只要给它看更多的视频（数据）和把大脑造得更大（参数），它的操作能力就会稳定地变强。

解决方法的具体做法

数据收集：建立全球网络，收集了270,000小时的真实世界操作数据（包括家庭、仓库等），并以每周10,000小时的速度增长。
模型训练：
- 使用不同规模（1B, 6B, 7B）的模型进行对比。
- 采用“相位推理”训练方式，处理感知和行动的异步流。
迁移学习：在大规模预训练后，仅用少量特定任务数据（Post-training）进行微调，即可在新任务上达到高成功率（99%）。

基于前人的哪些方法

Vision-Language Models：基于现有的视觉语言预训练模型基础。
PaLM-E：参考了具身多模态语言模型的设计思路。
LLM Scaling Laws：借鉴了Kaplan等人关于神经语言模型扩展定律的理论。

实验设置、数据、评估方式、结论

数据：270,000+小时真实操作数据。测试了16组不同任务（如叠衣服、装相机、分拣乐高）。
评估：使用“下一动作预测误差”和“真实机器人任务成功率”作为指标。
结论：
- 1B模型在数据过载时出现骨化，性能停滞。
- 7B+模型性能随数据增加持续提升。
- 预训练数据越多，下游任务所需微调数据越少，成功率越高（最高达99%）。

提到的同类工作

PaLM-E：具身多模态语言模型。
Figure 01 / Helix：视觉-语言-行动模型。
Droid：机器人数据集或相关技术。

和本文相关性最高的3个文献

PaLM-E: An Embodied Multimodal Language Model (Driess et al., 2023)
Scaling Laws for Neural Language Models (Kaplan and McCandlish et al., 2021)
Real-Time Execution of Action Chunking Flow Policies (Black et al., 2025)

我的

重点就是Scaling law验证。数据越多越好，模型7B至少。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

灵境AI-大模型介绍系列：GPT-5.5重塑专业AI体验，解锁高效工作新范式

从被动应答工具到主动思考智能体，GPT-5.5 实现跨越式升级！不止是参数迭代，更是直接颠覆普通人的工作模式。清晰需求+附件赋能+实时联网，一套组合拳下来，轻松搞定各类复杂工作，生产力直接拉满！AI增效时代已然来临！GPT-5.5 用全方位硬核升级，打破传统AI的所有短板，大幅降低专业工作门槛。不管是职场新人、资深从业者还是内容创作者，都能靠它极速提质增效，玩转全新人机协作，开启人人可复刻的开挂工

AtomGit开源社区

CANN ops-transformer：MoE 路由算子的负载均衡策略

AtomGit开源社区

GEFCom2012 负荷预测数据集介绍

GEFCom2012负荷预测数据集简介该数据集来自2012年全球能源预测竞赛，包含美国某电力公司20个区域及系统总负荷的每小时电力数据（单位：kW）。数据集分为训练期（2004-2008年）和预测期（2008年7月1周），包含负荷历史数据、气温数据、节假日信息及基准模型预测结果。主要特点包括：需同时预测21条时间序列包含8个回测周和1个预测周任务采用加权均方根误差(WRMSE)评分，不同任