新加坡南洋理工大学:让AI通过一张照片学会“拆解“并让物体动起来

这项由新加坡南洋理工大学S-Lab实验室领导的突破性研究发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603.19231v1),标志着人工智能理解和重建三维世界能力的重大飞跃。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们看到一张椅子的照片时,我们的大脑会自动理解这把椅子是如何构成的:哪些部分可以移动,如何移动,各个部分之间的关系是什么。对人类来说这些似乎毫不费力,但对计算机来说,这却是一个极其复杂的挑战。就像让一个从未见过钟表的外星人仅通过一张照片就理解齿轮如何转动、指针如何移动一样困难。
研究团队开发了一个名为"MonoArt"的人工智能系统,这个系统就像一位经验丰富的工程师,能够仅仅通过观察一张物体的照片,就准确推断出这个物体的三维结构、各个部分如何连接,以及它们能够如何运动。更令人惊叹的是,这个系统不仅能"看懂"物体,还能生成完整的三维模型,这些模型可以直接用于机器人操作和虚拟环境中。
这项技术的突破性在于它采用了一种全新的"渐进式结构推理"方法。与传统方法需要多个视角的照片或复杂的先验知识不同,MonoArt仅需要一张普通照片就能完成整个分析过程。在权威的PartNet-Mobility数据集测试中,该系统不仅在重建精度上达到了最高水平,而且推理速度比现有最先进方法快了十倍以上。
一、人工智能的"透视眼":理解物体的挑战
当你打开一个笔记本电脑时,这个动作看起来简单,但其中包含着极其复杂的空间关系理解。屏幕部分相对于键盘部分绕着铰链轴旋转,这个旋转有特定的角度限制,各个部分之间有明确的父子关系。对人类大脑来说,这些理解几乎是瞬间完成的,但对人工智能系统来说,这需要解决多个层次的复杂问题。
传统的三维重建技术就像盲人摸象,只能处理静态的、不会动的物体。当面对可活动的物体时,这些技术就显得力不从心。它们无法理解哪些部分可以移动,如何移动,更无法预测物体在不同状态下的样子。这就好比只能画出汽车的静态图片,却不知道方向盘可以转动、车门可以开关的画家。
现有的解决方案主要分为三类。第一类方法需要拍摄物体在不同运动状态下的多张照片,比如拍摄一扇门从关闭到完全打开的整个过程。这种方法虽然准确,但在实际应用中很难获得这样完整的图片序列。第二类方法试图从预先建立的零件库中寻找相似的组件来拼装物体,但这种"积木式"的方法往往导致纹理不匹配和几何不准确的问题。第三类最新方法试图通过生成辅助视频或依赖大型语言模型来获得运动信息,但这些方法要么计算复杂度极高,要么依赖于手工制作的先验知识,限制了它们的泛化能力。
这种困境反映了一个根本问题:缺乏内在的三维理解能力。现有方法大多依赖外部线索来推断物体的运动特性,而没有从根本上理解物体的空间结构和运动规律。就像一个人只能通过查阅说明书才知道如何操作机器,而不能通过观察就理解机器的工作原理。
二、MonoArt的"侦探式"推理过程
面对这些挑战,研究团队开发了MonoArt系统,它的工作方式就像一位经验丰富的机械工程师在分析一个未知装置。这个系统不是试图一步到位地预测物体的运动特性,而是采用了一种"层层递进"的分析策略,逐步从基础的几何信息推进到复杂的运动理解。
整个推理过程可以比作一次精心组织的考古发掘。首先,系统使用TRELLIS-based 3D Generator作为"地质勘探工具",从输入的照片中重建出物体的基本几何形状,就像考古学家首先确定遗迹的整体轮廓。这个模块基于先进的TRELLIS架构,能够生成稳定的三维几何基础,为后续的分析提供可靠的空间参考框架。
接下来,Part-aware Semantic Reasoner开始发挥作用,它就像一位专业的文物分析师,能够识别出这个三维形状中哪些区域属于不同的功能部件。这个模块的关键创新在于它不仅仅进行简单的几何分割,而是学习具有运动感知能力的部件表示。通过将几何对齐的点特征投影到三个正交平面上,系统能够整合全局空间上下文信息,同时保持几何结构的精确性。随后的Part Contrast Transformer进一步处理这些特征,使得属于同一可动部件的区域在特征空间中聚集,而不同部件则被明确分离。
第三个阶段由Dual-Query Motion Decoder负责,这个模块的工作方式颇为巧妙。它认识到理解物体运动需要同时回答两个问题:什么构成可移动部件(语义问题)以及这些部件的运动锚点在哪里(几何问题)。为了解决这个双重挑战,系统采用了一种"双查询"机制,分别使用内容查询来编码部件的语义信息,使用位置查询来表示空间运动锚点。这两类查询通过多层注意力机制进行迭代细化,逐步完善对物体运动特性的理解。
最后,Kinematic Estimator充当"运动规律总结师"的角色,将前面阶段获得的结构化表示转换为具体的物理参数。这包括预测每个部件的运动类型(比如旋转、平移或固定)、运动轴线、运动起点、以及运动范围限制。同时,系统还需要推断各个部件之间的层次关系,构建出完整的运动学树结构,确保生成的模型在物理上是合理的。
这种渐进式的推理策略的优势在于,每个阶段都专注于解决特定层次的问题,避免了直接从图像特征跳跃到复杂运动参数可能带来的不稳定性。就像盖房子需要先打地基、再建框架、最后装修细节一样,MonoArt通过这种分层方法实现了稳定而准确的物体理解。
三、技术细节的巧妙设计
MonoArt系统的每个组件都包含了精心设计的技术细节,这些设计共同保证了系统的高效性和准确性。在Part-aware Semantic Reasoner中,系统首先对重建的三维网格表面均匀采样10万个点,这些点就像是物体表面的"传感器",用于捕捉局部几何信息。通过三线性插值技术,系统将稀疏体素特征转换为连续的表面对齐特征,确保几何信息的平滑过渡。
三平面投影技术是该系统的一个关键创新。系统将三维空间中的点特征投影到三个相互垂直的平面(XY、YZ、ZX平面)上,这种方法既保留了全局空间上下文,又避免了直接处理三维体积数据的计算复杂性。随后的Part Contrast Transformer通过自注意力机制处理这些平面特征,学习跨平面的全局交互,最终为每个表面点生成具有运动感知能力的特征表示。
在训练监督方面,系统采用了三元组对比损失来确保属于同一运动部件的点在特征空间中彼此接近,而属于不同部件的点则被推开。这种监督策略使得学到的特征天然地具有运动相关的语义含义,为后续的运动推理奠定了坚实基础。
Dual-Query Motion Decoder的设计体现了深度学习中"解耦表示"的重要思想。系统使用100个双查询对,每个对包含一个内容查询(编码部件语义)和一个位置查询(表示空间锚点)。这些查询首先从全局物体上下文中初始化,然后通过6层refinement块进行迭代优化。每层中,查询首先通过自注意力建模部件间交互,然后通过交叉注意力从视觉特征中检索相关信息。
位置查询采用残差更新机制,即每次更新都是在前一次位置基础上的增量修正,这种设计有助于训练稳定性。内容查询则与预训练的CLIP文本嵌入进行融合,利用大规模视觉-语言预训练的语义先验来增强部件识别能力。系统还预测每个查询的置信度分数,用于在推理时自动过滤无效的部件假设。
Kinematic Estimator将优化后的双查询转换为具体的关节参数。位置查询直接解释为部件质心,而部件掩码通过查询-点匹配获得。系统预测四类关节参数:关节类型(固定、旋转、平移、连续),关节轴线(单位方向向量),关节枢轴点(运动轴通过的点),以及运动限制(由中心和对称跨度参数化)。
在运动学树构建方面,系统计算部件间的成对亲和度来建模潜在的父子关系。这个亲和度基于可学习的兼容性矩阵,该矩阵捕捉了数据驱动的类别级依附先验。通过对候选父节点的分数进行归一化,系统为每个部件选择最可能的父节点,同时确保生成的树结构满足单根无环约束。
四、训练策略的精心安排
MonoArt的训练过程采用了一种分阶段的策略,这种安排就像培养一位专业技师,需要先掌握基础技能,再逐步学习高级操作。整个训练分为四个阶段,每个阶段都有明确的学习目标和监督信号。
第一阶段专门预热Part-aware Semantic Reasoner,使用三元组监督学习具有运动感知能力的部件嵌入。在这个阶段,系统冻结TRELLIS骨干网络和所有下游模块,专注于学习区分不同运动部件的特征表示。训练持续100个周期,使用的损失函数基于三元组对比学习,确保同一部件内的点特征彼此相似,不同部件的点特征彼此分离。
第二阶段冻结语义推理器,训练双查询初始化分支。这个阶段的目标是学习从全局物体特征中生成合理的初始查询。系统使用物体类别监督来指导这个过程,训练20个周期。这种分阶段的策略避免了在早期训练中同时优化过多参数可能导致的不稳定性。
第三阶段是核心的联合优化阶段,同时训练Part-aware Semantic Reasoner、Dual-Query Motion Decoder和Articulation Parameter Regressor。这个阶段持续100个周期,使用多个损失函数的加权组合,包括三元组损失、掩码损失、置信度损失和运动损失。特别地,运动损失的权重在前40个周期内线性增加,这种课程学习策略帮助模型逐步适应复杂的运动参数预测任务。
第四阶段冻结前面的所有模块,专门训练Kinematic Tree Predictor。这个阶段持续30个周期,使用结构损失来学习部件间的父子关系。这种分离训练策略确保运动学树的学习不会干扰前面已经收敛的特征表示和运动参数预测。
在损失函数设计上,系统使用了多种监督信号的精心组合。掩码损失结合了焦点损失和Dice损失,前者处理类别不平衡问题,后者直接优化分割质量。置信度损失采用Quality Focal Loss的形式,监督目标是预测掩码与真值掩码的IoU,这样设计使得置信度分数能够真实反映预测质量。
运动损失包含四个子项:关节类型使用交叉熵损失,轴线方向使用无符号余弦相似度,运动起点使用L1距离,运动范围使用中心-跨度参数化的L1损失。这种多目标优化确保了预测的运动参数在各个维度上都是准确的。
五、实验验证与性能对比
研究团队在PartNet-Mobility数据集上进行了全面的实验验证,这个数据集包含约2000个带有部件级几何和关节标注的活动物体,涵盖固定、平移、旋转和连续四种关节类型。实验采用了两种评估设置:一种是遵循SINGAPO方法的7类别设置(存储、桌子、冰箱、洗碗机、烤箱、洗衣机和微波炉),另一种是遵循PhysX-Anything的完整46类别设置,用于评估大规模多类别泛化能力。
评估指标分为两大类:几何重建质量和运动学预测准确性。几何评估包括Chamfer距离、F-Score、PSNR和CLIP相似度四个指标。系统为每个形状沿预测运动范围均匀采样六个关节状态,生成对应的网格,所有指标都在每个状态下计算并在状态间平均。在外观评估中,系统渲染预测和真值网格在六个关节状态下的图像,每个状态从单位球面采样10个随机视点,总共60张图像用于计算平均PSNR和CLIP相似度。
运动学评估包括类型准确性、轴线方向误差和枢轴距离误差三个指标。预测部件首先与真值部件进行二分图匹配建立一一对应关系。类型准确性衡量关节类型分类的正确性。轴线方向误差定义为预测和真值运动轴之间的角度偏差,考虑轴线的双向性取最小角度。枢轴距离误差衡量预测关节枢轴到真值枢轴的距离,使用特殊的几何公式确保测量的是垂直于轴线方向的距离。
实验结果显示,MonoArt在所有评估指标上都达到了最先进的性能。在7类别设置中,相比于之前的最佳方法SINGAPO,MonoArt将Chamfer距离从1.26降至0.77,F-Score从0.572提升至0.728,PSNR从15.22提升至17.55,关节类型准确性从77.12%提升至88.26%,轴线误差从0.493降至0.209,枢轴误差从0.201降至0.085。这些提升表明系统在几何重建和运动理解两方面都实现了显著改进。
在完整46类别设置中,MonoArt同样保持了最优性能,相比PhysX-Anything,F-Score从0.531提升至0.670,关节类型准确性从63.35%提升至67.47%,枢轴误差从0.173降至0.108,降幅超过40%。这种跨大规模类别的稳定优势证明了系统的强泛化能力。
特别值得注意的是推理效率的巨大提升。MonoArt的单次推理时间仅为20.5秒,其中18.2秒用于TRELLIS的3D重建,关节推理和后处理仅增加微小开销。相比之下,Articulate-Anything需要229.9秒,PhysX-Anything需要256.8秒,MonoArt实现了超过10倍的速度提升,同时保持更高的精度。
六、现实世界的应用潜力
为了验证系统在现实场景中的实用性,研究团队收集了约100张来自互联网的真实世界图像,涵盖常见的日常活动物体。这些图像包含不同光照条件、背景环境和拍摄角度的挑战,更接近实际应用场景。定性结果表明,尽管主要在合成数据上训练,MonoArt仍能在真实图像上产生连贯的几何和合理的关节预测。
研究团队还组织了一项涉及20名参与者的用户研究,评估生成关节的几何和运动学质量。参与者在两个1-5分的量表上对渲染视频进行评分。MonoArt获得了最高分数(4.63/4.37),显著优于PhysX-Anything(3.34/3.12)、SINGAPO(2.55/2.87)等竞争方法,验证了系统在主观质量上的优势。
在机器人操作应用方面,MonoArt推断的关节轴线、关节类型和运动限制可直接用于机器人控制,这些结构化的运动学先验将单目观察转换为可操作的参数,支持运动推理和交互规划,无需手动关节标注。团队将真实图像重建的活动物体导入IsaacSim物理仿真环境,展示了仿真就绪的资产可直接被Franka机械臂操作进行抓取和开启等接触丰富的任务,无需额外建模,证明了从真实到仿真的实用管道。
在活动场景重建方面,MonoArt可以增强MIDI和SAM 3D等静态场景重建方法。这些方法提供带有每物体掩码和6D姿态的静态场景重建,基于这些输出,系统用MonoArt重建每个掩码物体实例以恢复几何和关节参数,然后使用估计的6D姿态将重建的活动物体放回场景,产生连贯的活动场景,无需额外手动建模。这种简单的物体级增强将刚性场景重建转换为功能可操作的环境,其中活动物体保持运动学结构同时与全局布局保持一致。
七、深度分析与消融实验
为了深入理解系统各组件的贡献,研究团队进行了详尽的消融实验。这些实验就像精密的外科手术,逐个移除或修改系统的不同部分,观察对整体性能的影响,从而揭示每个设计选择的重要性。
在Part-aware Semantic Reasoner的消融实验中,移除整个模块导致几何和运动学性能的显著下降,特别是关节类型准确性从67.47%骤降至24.72%,枢轴预测误差从0.108增至0.237,证实了其在运动感知部件推理中的关键作用。当保留模块但移除监督时,性能仍然较差,说明仅有架构而无合适训练是不够的。
比较不同监督策略的效果时,使用交叉熵监督比三元组监督效果更差,移除监督则进一步恶化结果。三元组监督在所有指标上都实现了最佳性能,突出了区分性和运动一致性部件表示的重要性。可视化分析显示,没有监督的特征缺乏部件区分性,交叉熵监督产生部分分离的聚类,而三元组监督产生紧凑且良好分离的部件特征。
在Dual-Query Motion Decoder的消融实验中,禁用双查询初始化并随机初始化查询会降低几何和运动学性能,显示了知情查询初始化的重要性。仅对一个分支应用残差更新是次优的,而同时更新位置和内容查询实现最佳性能,突出了联合细化的必要性。增加细化层数可改善结果直至L=6,更深的模型(如L=9)导致性能下降,表明存在过拟合风险。
在Kinematic Estimator的消融中,使用残差公式回归关节原点(mo = QL_p + Δo)明显优于直接预测,显示了基于质心的残差预测的益处。排除点嵌入H也导致显著性能下降,表明其对参数回归的重要性。同时使用基于QL_p的残差预测和H获得最佳结果。
这些消融实验清楚地表明,MonoArt的高性能源于各个组件的协同作用,每个设计选择都有其明确的技术原理和性能贡献。移除任何关键组件都会导致性能的显著下降,证明了系统设计的整体性和必要性。
八、技术局限与未来展望
尽管MonoArt在活动物体重建方面取得了显著进展,但研究团队诚实地指出了当前技术的一些局限性。这些局限为未来的研究指明了改进方向,也为其他研究者提供了宝贵的经验教训。
首先,系统在处理附着在大物体上的极小部件时仍然困难,比如打印机上的微小按钮。由于在整个形状上进行均匀点采样,这些小组件可能只接收稀疏覆盖,使得它们的特征缺乏区分性且容易过度平滑。因此,在极端尺度不平衡情况下的关节很难可靠地分割和参数化。这个问题反映了当前采样策略的局限性,未来可能需要开发更智能的自适应采样方法。
其次,MonoArt依赖于学习到的部件-整体关系的结构先验,这可能无法完全泛化到具有新颖拓扑或不常见关节模式的物体。对于这种未见过的物体配置,预测的运动参数(如轴线或范围)可能不够准确,即使部件分割仍然合理。这个问题突出了在更多样化数据上训练的必要性,以及开发更具泛化能力的结构推理方法的重要性。
另一个需要注意的方面是计算效率。虽然MonoArt相比现有方法已经实现了显著的速度提升,但20.5秒的推理时间仍然限制了某些实时应用的可能性。其中大部分时间(18.2秒)用于TRELLIS的3D重建,这表明进一步的效率改进可能需要在基础3D生成模块上进行优化。
在训练数据方面,系统主要在合成数据上训练,虽然在真实图像上表现良好,但仍存在域偏移的问题。不同的光照条件、材质特性、背景干扰等真实世界因素可能影响系统的性能。未来的工作可能需要收集更多真实世界的标注数据,或者开发更有效的域适应技术。
此外,当前系统主要关注相对简单的关节类型(固定、旋转、平移、连续),对于更复杂的机械机构(如齿轮传动、连杆机构等)的处理能力有限。扩展到更复杂的运动学约束将是一个有趣的未来研究方向。
尽管存在这些局限,MonoArt代表了单目活动物体重建领域的重要进展。它证明了通过适当的结构化推理,可以在不依赖多视图监督或外部运动模板的情况下实现高质量的关节重建。这为未来的研究奠定了坚实的基础,也为相关应用领域提供了实用的技术解决方案。
说到底,这项研究最令人兴奋的地方在于它展示了人工智能理解三维世界的一种全新可能性。就像人类通过观察就能直观理解物体的结构和功能一样,MonoArt让计算机获得了类似的"直觉"。这种能力不仅在机器人学、计算机图形学等技术领域有重要应用,更为人工智能向真正的智能系统发展提供了新的思路。
当然,从实验室的突破到实际应用还有一段路要走,但这项研究已经为我们展示了一个充满可能性的未来:在这个未来里,机器能够像人类一样理解和操作我们周围的物理世界。对于普通人来说,这可能意味着更智能的家用机器人、更逼真的虚拟环境,以及更直观的人机交互方式。研究团队的这一贡献,无疑在人工智能的发展史上留下了重要的一笔。
Q&A
Q1:MonoArt技术能用一张照片做什么?
A:MonoArt可以仅从一张普通照片重建出物体的完整三维模型,并准确理解物体各个部分如何运动。比如看到一张椅子照片,它不仅能重建出三维椅子,还能知道哪些部分是可以旋转或移动的,以及如何移动。这些重建的模型可以直接用于机器人操作和虚拟环境中。
Q2:MonoArt比现有技术好在哪里?
A:传统方法要么需要多张照片,要么依赖预建的零件库,要么计算时间很长。MonoArt只需要一张照片就能工作,而且速度比最先进的方法快10倍以上,重建精度也更高。在权威测试中,它的F-Score达到0.728,关节类型识别准确率达到88.26%,都是目前最好的水平。
Q3:MonoArt技术有什么实际用途?
A:这项技术有很多实际应用。在机器人领域,可以帮助机器人理解如何操作日常物品;在虚拟现实中,可以快速创建可交互的三维环境;在游戏开发中,可以自动生成逼真的可动物体。研究团队已经成功将重建的物体导入机器人仿真环境,让机械臂能直接操作这些虚拟物体。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)