人工智能的浪潮奔涌向前,数据已成为驱动产业创新与模型进化的核心生产要素,而开源数据集更是AI研发、模型训练与场景落地的关键基石。为破解数据孤岛、标准不一等行业痛点,推动开源技术与人工智能数据要素深度融合,3月16日下午,开放原子“园区行”(上海站)——开源数据集专场在上海市徐汇区漕河泾会议中心隆重举行。本次活动由开放原子开源基金会主办,联合多家单位共同承办,OpenLoong 作为代表项目之一亮相现场,深度参与了交流展示与专题分享


开源数据集工作组启动,规则先行破解行业痛点

活动伊始,工业和信息化部、上海市经信委、徐汇区政府及开放原子开源基金会等领导出席并致辞。各方一致认为,数据已成为人工智能发展的战略资源,开源是加速数据流通、降低研发门槛、激发创新的核心路径。上海正加快开源体系建设,2025年已实现百万条思维链数据及 OpenLoong 社区超十万条动作数据开源。开放原子开源基金会表示,本次“园区行”聚焦开源数据集是夯实数据要素基础的重要举措,呼吁政企学研力量共同加入开源生态,推动开源数据与人工智能深度融合。

活动现场,由开放原子开源基金会牵头的开源数据集工作组正式启动。OpenLoong 开源社区作为工作组成员单位深度参与其中,将依托其人形机器人动作数据开源积累,助力工作组推进数据标准建设与生态协同。同时,工作组将秉持规则先行、技术引领的原则,系统性推进技术规范、标准体系与安全合规建设,破解行业标准不统一、生态协同不足等痛点,助力我国开源数据生态高质量发展。未来,上海将持续支持开源数据生态建设,推动高质量数据集的标准制定与开放共享,为全球人工智能产业发展贡献中国智慧

图片


白虎-VTouch多模态数据助力赋能具身智能

在技术分享环节,国家地方共建人形机器人创新中心(以下简称“国地中心”)人形研发部的Yan老师带来了题为《白虎-VTouch多模态数据助力赋能具身智能》的精彩分享,详细介绍了这一全新开源数据集的核心价值与多元应用场景。

图片

演讲指出,当前具身智能发育面临的一大痛点是缺乏大规模、完整多模态的交互数据,尤其是物理接触层面的感知信息。白虎-VTouch数据集正是针对这一空白而设计,通过多种形态机器人的真实系统化物理交互采集数据,并采用双时间戳技术,确保视觉、触觉、力觉等多模态传感信息的时序精准对齐。

高保真视触觉感知技术是数据集的一大亮点。团队联合MIT采用其首创的视触觉传感器路线,提供高分辨率、高刷新率和高保真的触觉感知能力,让机器人不仅能“看见”物体,还能“感受”接触时的细微物理变化,为精细操作任务的泛化学习提供了关键数据支撑。

图片

白虎-VTouch采用了矩阵式任务构建新范式,实现“数据规模化生成+能力结构化覆盖+泛化学习路径可控”的统一闭环。任务场景覆盖家政家居、工业制造、商超餐饮以及特殊作业等常见应用领域,尤其针对接触密集型任务(如抓取柔软物体、装配精密部件)进行了系统化设计。引入视触觉后,机器人能够获得更完整、连续的接触状态描述,从而大幅提升操作的成功率和适应性。

此外,白虎-VTouch数据集覆盖了手持夹爪、轮臂机器人及双足机器人三种形态,构成从“以人为主”向“完全自主”演进的具身智能谱系。通过在此路径上采集数据,团队旨在让模型超越“感知-动作”的简单映射,习得通用的具身认知能力。

为验证这一路径,团队构建了跨本体多层次交互理解标注体系,通过多模态语义联合建模实现深层表征学习。该体系分为三个层次:

1. 抽象思维层:理解“为什么”

以矩阵化任务设计取代零散堆叠,使模型学习思维链规律,而非单纯的数据映射。

2. 动作逻辑层:明白“怎么做”

通过原子动作原语与自然语言指令,将长流程任务结构化拆解,支撑策略执行。

3. 物理状态层:感受“做什么”

借助视触觉增强信息,深化机器人对自身状态的感知,确保交互一致性。

这一多层次标注体系为VTLA模型提供了高质量数据支撑,让机器人不仅能“看见”世界,更能“理解”任务、“感知”交互,为具身智能从感知迈向认知奠定基础。

图片

目前,白虎-VTouch数据集已在OpenLoong开源社区 及 AtomGit平台同步 开放下载,未来,团队将继续推进基于该数据集的VTouch研究框架,构建面向多种机器人本体的统一数据格式与控制接口,促进数据与模型的广泛落地。


多维视角激荡,共话数据未来

在白虎-VTouch的分享之外,来自各领域的专家和企业代表也带来了干货满满的报告,从产业链、标准体系、模型实践到学术前沿,勾勒出数据驱动的人工智能新图景。其中,乐聚智能、中国信息通信研究院、上海库帕思、上海蚂蚁灵波、同济大学、百度文心数据生态中心、上海安势信息等机构分别围绕人形机器人数据产业生态建设、数据集治理、语料体系建设、具身模型实践、长序列任务规划、数据生态共建、开源选型评估等话题分享了前沿成果,共同呈现了数据驱动人工智能发展的多元格局。


开源同行,共筑未来 

数据是新时代的石油,而开源则是点燃石油的火种。OpenLoong 开源社区作为国家地方共建人形机器人创新中心倾力打造的开放平台,始终致力于推动具身智能领域的技术共享与生态共建。从控制系统开源到高质量数据集发布,OpenLoong正逐步构建起“标准+工具+平台+社区”的完整体系,为全球开发者提供坚实的技术底座。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐