博鳌激辩机器人伦理责任，阿里高德140亿参数世界模型攻克物理悖论

牛喀具身智能社区

471人浏览 · 2026-03-27 15:05:36

牛喀具身智能社区 · 2026-03-27 15:05:36 发布

1. 博鳌论坛激辩人机伦理：机器人“犯错”谁来担责？

牛喀网获悉，在博鳌亚洲论坛2026年年会“人形机器人的进阶与飞跃”分论坛上，一个尖锐的议题引发全场热议：当机器人进入家庭、职场与公共空间，如果它们“犯错”，谁来负责？商汤联合创始人王晓刚指出，机器人比自动驾驶更复杂，后者有紧急制动系统，而人机交互是近距离的，传统传感器无法感知突发危险，行业亟需为机器人装上“安全皮肤”。

vivo机器人Lab首席科学家邵浩则从产品设计角度提出解决方案，强调要在硬件设计阶段就纳入物理围栏、即停机制等安全考量。他同时警示了一个更隐蔽的风险：间接伤害。他举例称，用户无法命令机器人直接伤人，但可以通过让机器人“握住刀柄并以极快速度移动到某位置”的方式造成伤害。

新西兰前总理希普利则在论坛上抛出了更深层的伦理拷问：数据整合过程中的个人权益保护如何保障？她指出，每个人贡献的视频数据都在用于机器人训练，但过程中从未有过许可程序或知情同意。星动纪元创始人陈建宇给出了明确的“三原则”：目标由人设定、规则由人界定、责任由人承担。

2. 阿里高德发布140亿参数世界模型ABot-PhysWorld，物理真实性超越Sora

牛喀网获悉，阿里巴巴高德团队正式发布了ABot-PhysWorld，这是一个基于140亿参数DiffusionTransformer构建的物理对齐交互式世界模型。该研究直击当前视频生成模型的核心痛点——视觉美学与物理法则的背离，针对Sora等顶尖模型频繁出现的物体穿模、违反重力等物理谬误，从数据、训练、控制、评测四个维度进行了系统性革新。

该模型的突破性创新在于引入了“物理偏好对齐”机制。研究团队构建了一个解耦的VLM判别器，让一个视觉语言模型动态生成任务相关的物理问题清单，另一个模型则对候选视频进行“打分”，通过Diffusion-DPO算法引导模型生成更符合物理规律的视频。在数据层面，团队精心筛选了包含三百万个真实世界操控视频的数据集，并通过分层分布均衡策略确保多样性与稀有场景覆盖。

实验结果显示，ABot-PhysWorld在PBench基准测试中的领域得分达到0.9306，显著超越Veo3.1和Sorav2Pro等顶尖模型。在团队自建的零样本评测基准EZSbench中，该模型同样拔得头筹，展现了强大的分布外泛化能力，为构建真正能在物理世界中部署的通用机器人智能体奠定了基础。

3. 智元机器人高管发声：VLA与世界模型非替代关系，融合协同是未来方向

牛喀网获悉，智元机器人Genie业务部生态及解决方案总监沈咏剑在接受媒体采访时，对具身智能领域持续已久的VLA与世界模型路线之争给出了明确回应。沈咏剑指出，从长期趋势看，世界模型与VLA并不一定是替代关系，未来存在结合的可能。他解释称，从解决问题的层面上来说，二者有可能会有融合或合作的状态，不算是替代和被替代的关系。

这一表态与智元近期公开的技术布局高度一致。2024年底，智元推出包含超100万条轨迹的AgiBotWorld数据集；2025年3月发布首个通用具身基座模型GenieOperator-1；2026年1月又推出了第二代一体化具身大小脑系统GenieReasoner。与此同时，智元发起的ICRA2026赛事也设置了“推理-操作”和“世界模型”两大核心赛道，前者考核机器人的任务理解与执行能力，后者聚焦具身智能中的生成与预测能力。

沈咏剑进一步阐释了世界模型的核心内涵：基于当前可见的多模态信息，判断下一时刻可能发生什么，或者在接收到任务指令后，推演机器人自身及周围环境接下来会发生怎样的变化。这与VLA的范式并不完全相同，是相对独立的一条技术路线，但两者协同将能更好地解决长时序复杂任务。

4. 地平线发布全栈开源VLA基座模型HoloBrain-0，0.2B轻量版实现端侧高效部署

牛喀网获悉，在第四届具身智能机器人产业发展论坛上，地平线研究院正式发布了全栈开源的VLA基座模型HoloBrain-0。该模型的核心创新在于“本体感知”架构，通过将多视角相机的图像特征与机器人的6D位姿统一投影到共同坐标系下，使模型能够学习到对齐的空间表征，从而支持包括人类操作视频在内的更广泛数据类型。

地平线研究院机器人实验室具身操作方向负责人林天威在演讲中指出，当前主流VLA模型多采用从视觉到动作的“黑盒”端到端学习，忽略了机器人本体信息，导致泛化能力弱。HoloBrain-0内置了“空间增强器”，通过相机内外参和深度信息提升三维空间感知能力，并设计了“混合相对动作空间”同步输出关节相对转角和末端执行器相对运动。

除了模型本身，地平线还开源了全栈基建框架RoboOrchard，提供从数据采集、模型训练到部署的一站式解决方案。HoloBrain-0提供0.2B轻量版和1.1B版两个预训练模型，其中0.2B版本以极小参数量证明了在端侧芯片高效部署复杂VLA模型的可行性。在仿真RoboTwin2.0基准测试的50项任务中，两个版本的平均成功率均超过90%。

5. CVPR2026录用成果揭示世界模型新范式：双曲空间规划与4D几何控制成突破口

牛喀网获悉，随着CVPR2026录用结果的公布，世界模型与具身智能深度融合的趋势愈发清晰。多项入选研究正在突破传统视频生成框架，通过引入几何约束、4D时空控制以及从大规模真实世界视频中学习，让模型掌握物体间交互规律与长时序操作逻辑。

其中，复旦大学与腾讯PCGARCLab等机构提出的VerseCrafter，首创了4D几何控制技术。该研究抛弃了传统的2D控制信号，改用“静态背景点云”加每个物体的“3D高斯轨迹”来编码世界状态，并通过轻量级几何适配器将复杂的几何信号注入视频扩散模型，在复杂多目标运动控制任务中展现出碾压级控制力。

澳大利亚国立大学与MBZUAI提出的GeoWorld则走了一条更理论化的路径。研究团队摒弃了传统世界模型使用的平坦欧几里得空间，将潜在表示投影到Poincaré球双曲流形上，让距离自然编码状态之间的层次关系。在CrossTask和COIN等视觉规划基准测试中，GeoWorld在3步和4步规划任务上分别提升约3%和2%的成功率。

6. 它石智航CEO陈亦伦GTC首秀，AWE3.0确立物理AI新路线，摘得吉尼斯世界纪录

牛喀网获悉，在英伟达GTC2026大会上，它石智航创始人兼CEO陈亦伦博士面向全球首次系统性披露了通用具身大模型AWE3.0的完整技术架构。这场演讲恰逢特斯拉、PhysicalIntelligence等巨头围绕数据采集路线、仿真策略、大脑架构等议题激烈辩论之后，陈亦伦用可验证的技术成果和世界纪录级的应用表现，为行业路线之争画下了句号。

AWE3.0的核心架构以视觉、语言、触觉、动作为统一输入，构建了一个能够真正理解和操作物理世界的智能系统。该模型实现了三项关键性技术创新：全视角通感决策、高密度触觉感知、隐空间丝滑动作，每一项都直击当前具身智能发展的核心痛点。

在数据范式上，它石智航提出了与众不同的“HumanCentric”理念。陈亦伦指出，构建通用物理智能的关键是让模型学习人类在真实环境中的自然行为，而不是用遥操或仿真数据得到一个头重脚轻的VLA模型。为此，公司自主研发了SenseHub数据采集套件，践行“你工作、我记录”的数据采集哲学。基于AWE3.0赋能的高精度操作能力，它石智航于2026年3月10日成功获得“机器人在一小时内装配亚毫米级线束最多次数”的吉尼斯世界纪录称号。

7. 卧安机器人发布上市首份年报，净利润激增超十倍，“一脑多形”战略加速落地

牛喀网获悉，卧安机器人发布了其登陆港交所以来的首份业绩公告，财务数据展现出强劲的增长势头。2025年，公司实现营业收入9.0亿元人民币，同比增长47.7%；经调整净利润达1276.6万元，同比大幅增长10.53倍。这一业绩增长主要得益于其“一脑多形”核心战略的加速落地，特别是在日本、欧洲与北美等海外市场的深耕，其中欧洲市场收入增长57.9%，德国市场更是实现108.9%的翻倍增长。

在技术层面，公司重点推进了具身大脑VLA模型在家庭服务机器人上的落地，围绕真实家庭环境构建感知-理解-动作决策闭环，强化机器人在取放、收纳等任务中的执行能力。通过统一的任务表达、技能抽象与动作决策框架，将家庭服务机器人的核心能力建设系统性地纳入统一大脑体系。

公司践行“以算法定义硬件”的核心技术理念，自主研发了基于RGB摄像头的三维感知算法，成功摆脱对高成本激光雷达的依赖，大幅降低了多形态机器人规模化部署的感知门槛。其AI网球机器人Acemate更入选《时代》周刊“2025年度最佳发明”，展示了其在运动场景中的商业化潜力。