我自己的原文哦~                                       https://blog.51cto.com/whaosoft143/14345147

#xxx

....

#xxx

....

#Synthesis4AD

可合成一切3D异常!华科大等提出Synthesis4AD,利用多维几何基元算法和多模态大模型实现一站式3D异常合成与检测

在 3D 工业缺陷检测中,“异常样本稀缺”和“长尾分布”一直是实际落地的痛点。仅仅依靠正常样本进行无监督训练,模型往往难以对真实世界中复杂的物理损伤建立起有效的特征表达。

为了解决这一问题,来自华中科技大学、湖南大学、南洋理工大学、宁德时代的研究团队联合提出了 Synthesis4AD——基于高保真异常合成的端到端3D异常检测框架。它摒弃了传统的简单几何扰动,转而利用1D/2D/3D几何基元,从物理同构角度合成高保真度的复杂缺陷。

相关代码与工具现已全面开源!

为了方便大家使用和二次开发,团队开源了丰富的工具链:

3D-DefectStudio 软件:提供直观的交互式异常合成平台

MPAS 核心方法库:已封装,开发者可以通过API轻松调用进行数据生成

端到端检测平台:集成了检测算法,支持从“数据合成”到“在线推理”的一键打通与快速部署

GUI

  • 论文标题:Synthesis4AD: Synthetic Anomalies are All You Need for 3D Anomaly Detection
  • 作者:Yihan Sun∗, Yuqi Cheng∗, Junjie Zu, Yuxiang Tan, Guoyang Xie, Yucheng Wang, Yunkang Cao†, Weiming Shen†
  • 机构:华中科技大学、湖南大学、南洋理工大学、宁德时代
  • 论文地址:https://arxiv.org/abs/2604.04658
  • 代码仓库:https://github.com/hustCYQ/Synthesis4AD
  • 关键词:3D 异常检测,异常合成,多模态大语言模型

01 MPAS异常合成方法

以往的3D异常合成往往依赖单一的局部扰动,生成的缺陷极度缺乏真实的物理机制。为此,研究团队提出了MPAS(多维基元引导异常合成)框架,实现了从“启发式局部扰动”到“物理同构几何建模”的根本转变,该方法利用不同维度的几何基元,赋予了合成缺陷极高的真实度:

  • (1)1D 基元(点/线引导): 摆脱固定形状的限制。通过多锚点和测地线路径,MPAS 能够合成穿越复杂表面拓扑的连续形变、划痕或凹槽,完美模拟工业零件真实的随机刮擦损伤。
  • (2)2D 基元(平面引导): 引入平面空间约束。系统会提取平面与点云的相交带作为“铰链”或“断裂带”,从而生成宏观的结构弯曲与不规则裂纹。
  • (3)3D 基元(凸包引导): 应对最复杂的形变。利用随机锚点构建空间凸包,圈定出边界不规则的自适应表面区域,进而注入参数化的自由形态畸变,逼真还原复杂拓扑形变。

MPAS

研究团队将真实的工业缺陷(绿底模型)与 MPAS 生成的缺陷(蓝底模型)进行了深度对比:

  • 逼真的物理还原(第一、二行):当 MPAS 合成同类缺陷时,放大细节可以发现,其生成的形变与边界轮廓与真实缺陷高度吻合,在几何层面上完美复刻了真实的物理形态。
  • 超越现实的多样性(第三、四行):MPAS 并不仅局限于“一比一”复刻,它能够创造出包含多种变形模式、更为复杂且异质的“复合型异常”。这极大丰富了异常数据的分布空间,有效弥补了真实缺陷样本单一的短板,为下游的检测模型提供了更高质量的训练样本。

02 Synthesis4AD系统

有了高质量的异常数据,如何将其无缝转化为强大的检测能力?研究团队构建了 Synthesis4AD——一个将异常合成、检测器训练与在线推理融为一体的端到端框架。它包含三大核心阶段:

Stage I: 大模型驱动的知识合成

系统引入多模态大语言模型(MLLM),自动解析产品的多维设计信息(包括多视角图像、文本规范、专家先验知识)。MLLM 会将这些抽象的工业知识转化为可执行的几何指令,直接驱动后端 3D-DefectStudio 软件自动、大规模地注入缺陷,并同步生成高精度的点级掩码。

Stage II: 基于 SDN 的稳健特征学习

现实中的工业点云往往在尺度和密度上差异巨大,直接导致训练极不稳定。为此,团队引入了空间分布归一化(SDN)。SDN 将不同类别的点云统一映射到规范的单位球空间中,并结合统一的体素降采样。再辅以几何保真的数据增强(如随机旋转、噪声微扰、点随机丢弃),降低了模型对绝对坐标的敏感度,提升了跨类别泛化能力。

Stage III: 在线推理与精准定位

在实际部署时,扫描到的测试点云经过与训练时一致的归一化处理后,输入到训练好的网络中 。系统在特征空间中采用原型匹配策略 ,计算出对象级异常分数与点级异常图。

03 Synthesis4AD评估结果

1.  公开数据集基准测试

研究团队在两个公开的 3D 异常检测数据集(Real3D-AD 和 MulSen-AD)上进行了测试 :

  • Real3D-AD 数据集:Synthesis4AD 取得了最佳的平均性能,达到了80.9% O-ROC和 84.8% P-ROC;
  • MulSen-AD 数据集:同样刷新了最优记录,取得了 89.6% O-ROC 和 72.0% P-ROC 的最佳平均表现。

定性分析:与现有方法相比,Synthesis4AD生成的异常热力图更加紧凑,且与真实缺陷区域对齐。

2.  真实工业零件数据集评估

为了验证系统在实际场景中的可用性,团队使用 3D 扫描仪采集了真实的工业零件数据集(包含齿轮、活塞、连杆等6个类别):

在真实的工业扫描数据下,Synthesis4AD 的平均性能达到了惊人的 95.9% O-ROC 和 73.8% P-ROC;相比之前的SOTA方法,检测准确率和定位准确率分别大幅提升了13.1%和8.0%。

结语

Synthesis4AD的发布为工业异常检测提供了一个极具扩展性与实用价值的开源范式,它打通了从“大规模逼真异常合成”、“特征学习”到“在线部署推理”的完整闭环。这使得利用合成数据来攻克3D质检中“缺陷样本稀缺”与“长尾分布”的真实落地痛点成为了可能。无论在学术界还是工业界,这项兼具理论创新与工程价值的工作都绝对值得一试!

....

#SentiAvatar

不止动起来:SentiAvatar重新定义3D数字人动作生成范式

当你和 3D 数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入 “恐怖谷”。

问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。

当前大多数 3D 数字人的动作生成仍停留在通用动作拼接层面,难以承载复杂语义与情绪表达。而这种自然、连贯且富有情绪的表现力对 3D 数字角色至关重要:数字人需要它来建立信任,机器人需要它来与人类协作,游戏则需要它让角色更加生动。

AI 初创公司 SentiPulse 联合中国人民大学高瓴人工智能学院博士生团队的最新研究,提出了一套 3D 数字人动作生成新范式 SentiAvatar,它是用于构建具备表现力的交互式 3D 数字人框架。团队基于此打造了虚拟角色 SUSU,使其能够实时进行语言表达、动作表现与情绪传达。

SentiPulse

,赞27

今天,SentiAvatar 框架、3D 数字人 SUSU 角色模型及高质量动作数据集 SuSuInterActs 全球同步开源。

  • 论文标题:SentiAvatar: Towards Expressive and Interactive Digital Humans
  • 论文地址:https://arxiv.org/abs/2604.02908
  • 项目主页:https://sentiavatar.github.io/

一眼假的 3D 数字人

困在三个 "无人区"

让 3D 数字人在真实对话中自然地手舞足蹈,听起来只是一个工程问题,但它实际上横跨了三个长期未被同时解决的研究缺口:

第一,高质量数据荒。现有数据集要么以英语语料为主,要么缺乏与动作同步的面部表情,中文对话场景下的高质量全身动作数据几乎空白。

第二,复合语义动作漂移。当描述从简单的“挥手”变成“无奈地耸肩”、“认同地点头” 这种复合语义时,模型的理解能力急剧退化。

第三,对话节奏错乱。模型生成的动作要么像机器人一样匀速机械,要么和语音的重音、停顿完全错位。

能不能让数字人既理解“要说什么”,又能做出能跟上说话的节奏的流畅动作?

问题本质

语义与韵律是两个时间尺度的问题

现有方法在对话驱动的动作生成上陷入两难:全局语义对齐要求模型理解句子级的行为语义,如:无奈地耸肩,并生成宏观动作结构;帧级韵律对齐则要求动作的速度起伏精确响应语音的重音、停顿与节律变化。两者分别工作在句子级和帧级两个时间尺度,单一模型难以兼顾。

以往的共语音手势生成方法(EMAGE、TalkShow 等)将动作视为音频的低阶反射,缺乏句子级语义规划;而文本驱动的动作生成方法(T2M-GPT、MoMask 等)则完全丢弃了音频信号,无法捕捉语音韵律对动作时序的精细调制。

SentiAvatar 的出发点正是将这两个目标解耦,将句子级语义规划与帧级韵律驱动分阶段处理,而非强行塞进一个端到端模型。

SentiAvatar

3D 数字人动作生成新范式

图片

为了解决以上问题,SentiPulse 团队基于统一技术框架 SentiAvatar 打造了虚拟角色 SUSU,并构建 SuSuInterActs 数据集(包含 2.1 万段片段,总计 37 小时),该对话语料通过光学动捕技术采集,围绕单一角色,包含同步的语音、全身动作与面部表情。其次,在超过 20 万条动作序列上预训练了一个动作基础模型 Motion Foundation Model ,使其具备丰富的动作先验,能力远超对话场景本身。在此基础上,团队创新提出了一种全新的模型架构 plan-then-infill ,将句子级语义规划与逐帧的韵律驱动插值解耦,从而使生成的动作既符合语义,又在节奏上与语音高度一致。

SuSuInterActs 数据集

数据瓶颈是 SentiAvatar 解决的一个硬核问题。现有共语音数据集的两个主要局限:1) 以英语为主 2)缺乏同步的面部表情数据,在中文对话场景下尤为突出。

SentiPulse 围绕单一虚拟角色 SUSU(22 岁,温柔活泼,情感丰富),从头构建了 SuSuInterActs 数据集。该数据集包含 2.1 万段片段、37 小时的多模态对话语料,涵盖同步语音、行为标注文本、全身动作与面部表情。

图片

数据采集流程分四步:

  1. 角色与场景设计。
  2. LLM 生成带行为标注的对话脚本,比如:动作 “摊手无奈”、表情 “担忧” 等标签。
  3. 专业动捕演员使用青瞳光学动捕系统+MANUS 手套+iPhone ARKit 系统完整录制。
  4. 后处理与时间对齐(统一帧率 20FPS,帧级同步)。

最终数据集规模:21,133 条片段,36.9 小时,覆盖日常聊天、情感支持、趣味互动等多类场景。每条样本包含四路同步模态:中文对话文本(含行为语义标注)、语音音频(WAV)、全身骨骼动作(63 关节,6D 旋转表示)、面部混合形状系数(blendshape coefficient)(51 维 ARKit 参数)。其中 14,278 条含非默认动作标注,9,412 条含非默认表情标注。

聚焦单一角色是一个有意为之的设计选择,相比 BEAT2 等多角色数据集,它带来了更一致的行为模式,有利于角色特定的动作与表情风格学习。

动作基础模型:200K 序列的异质预训练

对话数据集的动作分布天然受限于对话场景。团队在预训练阶段引入了自研的 Motion Foundation Model 动作基础模型,在 200K + 条异质动作序列(约 676 小时)上训练通用运动先验。数据来源如下:

图片

蒸馏流程值得关注:通过挖掘原子动词、LLM 扩展同义短语、组合模板生成复合动作描述(最多 4 个动作),以及引入奥运运动、仿生动作等专项类别,系统性地扩展了动作先验的覆盖边界。

基础模型以 Qwen-0.5B 为骨干,扩展词表至包含 2,048 个动作 Token(R-VQVAE,4 层残差量化,每层码本 512)和音频 Token(HuBERT K-means 量化)。预训练任务为文本-动作生成,所有文本描述统一翻译为中文,保持语言空间一致性。

核心架构 plan-then-infill

用对话生成动作的核心在于理解高层语义意图,模型需要先知道 “做什么动作”,再决定 “如何逐帧执行”,这一过程建模是一个规划问题。SentiAvatar 采用双通道并行架构 plan-then-infill,身体动作与面部表情分离处理,身体动作通道由两个串联阶段构成。

1. 身体动作通道

图片

第一阶段,LLM 语义规划器接收行为标签文本和稀疏音频 Token,输出稀疏关键帧动作 Token 序列。为支持多轮流式连续生成,模型以前一句话的最后两个关键帧音频 - 动作 Token 对作为上下文前缀,从下一个关键帧位置续写,实现无缝跨句过渡。

第二阶段,Body Infill Transformer 在相邻关键帧之间填入中间 3 帧,以逐帧 HuBERT 连续特征(768 维,20FPS)作为条件信号。模型采用 5 帧滑动窗口,首尾帧已知,预测中间 3 帧(12 个动作 Token)。推理时使用迭代置信度解码策略(默认 6 步),逐步接受高置信度预测,避免一次性预测的质量退化。

2. 面部表情通道

直接绕过 LLM 规划阶段,面部表情的动态与语音韵律高度耦合,无需句子级语义规划。Face Infill Transformer 结构与 Body Infill Transformer 类似,但操作 2Token / 帧的面部离散表示,直接从音频特征生成面部 Token,再由 Face R-VQVAE 解码为 51 维 ARKit 混合形状系数序列。

两通道共享 HuBERT 特征提取,端到端延迟约 0.53 秒生成 6 秒动作,支持无限多轮流式输出。

实时性能:0.3 秒内生成 6 秒输出

FGD/BC 双刷 SOTA

整体实验结果:跨数据集均达最优水平

实验结果表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 两个数据集上均达到了当前最优水平。

  • 在自建 SuSuInterActs 测试集上,SentiAvatar 的文本 - 动作检索召回率 R@1 达 43.64%,接近次优基线 T2M-GPT(23.12%)的两倍,FID 降至 8.912(对比:T2M-GPT 67.78,EMAGE 441.6)。
  • 在跨数据集评测 BEATv2 上,SentiAvatar 以 FGD 4.941、BC 8.078 同时刷新两项指标的 SOTA ,超越此前最优的 Language-of-Motion(FGD 5.301)和 SynTalker(BC 7.971),验证了方法的跨语言、跨数据集泛化能力。
  • SentiAvatar 在所有生成方法中取得最低 ESD(0.456 秒,真实动作基准为 0.308 秒)。

注:评测指标 ESD(Event Sync Distance),是一种用于衡量生成动作与驱动信号(如语音节奏)之间时间同步性的客观评测指标,它直接反映了数字人或机器人的动作是否 “对得上拍子”。

定性分析结果:SentiAvatar 动作生成效果最佳

团队将 SentiAvatar 与几种 3D 动作生成主流 AI 模型进行对比。下图中每一行展示特定动作与语音的关键帧序列,相同颜色的文字和箭头代表同一时间,红色箭头表示动作错误。

图片

多模型对比结果:SentiAvatar 呈现出最自然的生成效果,动作语义正确,并且在时间上与音频波形高度对齐。MoMask 能够从文本标签中部分捕捉动作语义,但由于无法获取语音信息,生成的动作节奏较为静态,且与音频不存在对应关系。MEAGE 可以生成与音频同步的动作,但动作较为通用,忽略了标签中指定的语义意图。AT2M-GPT 尽管能同时接受音频和文本输入,但常常会误解动作语义。HunYuan-Motion 因未基于高质量动捕数据进行训练,生成结果中存在明显的身体畸形和不自然姿态,整体表现最差。

消融实验结果:验证核心架构各部分不可替代

在架构消融实验中,移除 LLM 规划器会导致性能大幅下降:R@1 从 43.64% 骤降至 28.06%,FID 从 8.912 劣化至 27.567,说明句子语义规划至关重要;移除 Infill Transformer 同样会导致所有指标下降,R@1 降至 27.52%,ESD 恶化至 0.503 秒,因为仅依赖稀疏关键帧会产生不连续、节奏不自然的动作。

音频条件消融进一步揭示,Infill Transformer 中的连续 HuBERT 特征是帧级同步的主要驱动力,而 LLM 中的离散音频 Token 则更多贡献于整体动作质量和节律规划,验证了 “粗粒度音频规划+细粒度音频对齐” 的协同效果。

在实验能力外,工程落地能力同样关键。SentiAvatar 实现了 0.3 秒内生成 6 秒动作序列,支持无限轮次的流式交互。这意味着数字人可以在实时对话中持续生成连贯的动作与表情,无需等待整句结束再批量处理。

开源与未来

从 "数字人" 到下一代 "数字生命"

今天,SentiAvatar 框架、SuSuInterActs 数据集及预训练模型重磅开源,上线 GitHub。SentiPulse 团队邀请全球对 3D 动作生成感兴趣的研究机构、开发者,共同突破 3D 数字人技术与应用的新边界。

SentiPulse 看到的未来不止于此。当前 3D 数字人的竞争焦点仍在数字人的视觉形象和基础语音动作能力,下一步技术跃迁,是构建像人一样的认知和表达能力:更完整的表达模型、更统一的人格系统、更长期的交互记忆。3D 数字人未来的竞争重心,将不再是谁渲染得更真实,而是谁能构建更完整的认知-表达闭环。

当数字人不再只是 "提线木偶",而是能感知语境、理解情绪、主动表达的交互主体,人机关系的底层逻辑将被重写,下一代 “数字生命” 也即将走进现实。

....

#Fast-SAM3D

Fast-SAM3D开源!单图 3D 重建提速 2.67 倍

在 3D 生成和重建领域,如何从单张图片快速生成高质量的 3D 模型一直是开发者关注的焦点。去年的 SAM3D(Segment Anything Model for 3D Reconstruction)凭借其强大的开放世界重建能力惊艳了业界,但它缓慢的推理速度也让不少实际应用场景感到“压力山大”。

最近,来自中国科学院计算技术研究所苏黎世联邦理工学院上海交通大学等机构的研究者们推出了Fast-SAM3D。这个名字非常直观,“Fast” 表达了其核心使命:在完全保留原有 SAM3D 强大重建能力的基础上,通过系统性的优化实现大幅度推理加速。它不仅让“万物皆可 3D 化”变得更加高效,更在速度与质量之间找到了一个新的 帕累托前沿(Pareto Frontier)

  • 论文地址:https://arxiv.org/abs/2602.05293
  • 项目主页:https://github.com/wlfeng0509/Fast-SAM3D
  • 代码仓库:https://github.com/wlfeng0509/Fast-SAM3D (已开源)
  • 主要机构:中国科学院计算技术研究所、中国科学院大学、中国矿业大学(北京)、苏黎世联邦理工学院、纽约市立大学、上海交通大学

背景与动机:为什么 SAM3D 这么慢?

SAM3D 采用的是一个两阶段的“粗到精”(Coarse-to-Fine)架构。虽然重建质量极佳,但其推理延迟主要被三个部分占据:稀疏结构(Sparse Structure, SS)生成器稀疏潜变量(Sparse Latent, SLaT)生成器,以及最后的 Mesh 解码器

作者通过对 SAM3D 的推理特性进行系统性画像(Profiling),发现其端到端延迟分布非常不均。如表 1 所示,SS 生成器和 SLaT 生成器的迭代去噪过程,以及 Mesh 解码器处理超长 Token 序列的计算开销,是导致模型“跑不动”的元凶。

表 1 展示了 SAM3D 各模块的参数量、Token 长度及推理时间。

更深入的分析发现,传统的加速手段(如均匀跳步或随机 Token 剪枝)在 SAM3D 上表现得很“脆”,容易导致模型崩溃。这是因为 3D 重建过程中存在严重的 多级异构性(Multi-level Heterogeneity)

  1. 运动异构性(Kinematic Distinctiveness):物体的形状(Shape)演化是平滑的,但布局(Layout,如姿态、旋转)却非常敏感,稍微的跳步就可能导致物体“飘”了。
  2. 细化稀疏性(Intrinsic Sparsity):在纹理细化阶段,大部分平滑表面其实不需要频繁更新,只有高熵区域(如边缘、接缝)需要精修。
  3. 谱域异构性(Spectral Variance):简单的几何体(如杯子)和复杂的几何体(如龙雕塑)对解码分辨率的需求完全不同。

基于这些洞察,Fast-SAM3D 并没有采取“一刀切”的暴力方案,而是提出了三个针对性的模块来动态对齐计算量。

图 1 展示了 Fast-SAM3D 在保持几何忠实度的同时,将场景推理速度提升了 2.01×,单对象提速达 2.67×。

方法详解:三大模块如何协同发力?

Fast-SAM3D 的核心思想非常“聪明”:非均匀地分配计算资源,匹配不同阶段的难度和不同实例的复杂度。

图 2 展示了 Fast-SAM3D 的整体架构,包含模态感知步长缓存、时空 Token 雕刻和谱域感知 Token 聚合三个核心阶段。

1. 模态感知步长缓存(Modality-Aware Step Caching, MASC)

在第一阶段的 SS 生成器中,模型需要同时预测 3D 形状 Token  和布局 Token 。作者发现,形状 Token 的演化路径很平滑,可以用线性外推来加速;但布局 Token 却波动剧烈。

  • 输入:当前去噪步  的潜变量 。
  • 形状 Token 处理:利用相邻两步的差值计算局部趋势 ,在跳步时使用一阶泰勒展开(Taylor Expansion)预测未来状态:
  • 布局 Token 处理:引入了 动量锚点平滑(Momentum-Anchored Smoothing)。通过引入最近一次完整计算的“锚点(Anchor)”,有效地抑制了高频抖动:
  • 输出:预测的形状与布局 Token,确保了物体在加速生成过程中姿态依然稳如泰山。

图 4 对比了形状 Token 和布局 Token 的更新轨迹,可见布局 Token 的波动性远高于形状 Token。

2. 联合时空 Token 雕刻(Joint Spatiotemporal Token Carving, JSTC)

进入第二阶段的 SLaT 生成器,主要任务是细化纹理。作者观察到,只有高熵区域需要持续更新。

  • 输入:SLaT 生成器的中间特征。
  • 统一显著性评分:结合时间显著性(更新幅度  和突变 )与空间显著性(通过 快速傅里叶变换(Fast Fourier Transform, FFT) 计算的频率复杂度 ):
  • 策略:只保留评分最高的 Top-K 个活跃 Token 进行计算。同时引入 曲率感知(Curvature-aware) 的动态缓存,当扩散轨迹曲率较小时,直接复用之前的切线更新。
  • 输出:精简后的活跃 Token 集合,极大地减少了冗余的“无效加班”。

图 5 显示,显著的更新在空间上是高度稀疏的,作者提出的统一显著性图能准确捕捉这些关键区域。

3. 谱域感知 Token 聚合(Spectral-Aware Token Aggregation, SATA)

最后是 Mesh 解码阶段。Fast-SAM3D 引入了 谱域复杂度分析 来替代传统的均匀下采样。

  • 输入:2D 掩码  和 3D 粗结构 。
  • 复杂度计算:计算 高频能量占比(High-Frequency Energy Ratio, HFER)。如果是简单的杯子,就用大步长聚合;如果是复杂的龙雕塑,则保留高分辨率 Token。
  • 坐标量化与聚合:根据自适应步长  对 3D Token 坐标进行量化:
    并使用 Max Pooling 聚合特征。
  • 输出:自适应下采样后的 Token 序列,在加速解码的同时完美保留了细节。

图 6 展示了简单物体与复杂物体在谱域上的巨大差异。

实验结果:又快又准的 Pareto 新标杆

研究团队在 Toys4K、ADT 和 ISO3D 等多个权威数据集上进行了详尽的测试,结果非常令人振奋:

  • 加速性能爆发:相比于原始 SAM3D,Fast-SAM3D 在场景生成上实现了 2.01× 的加速,在单对象生成上更是达到了 2.67× 的惊人提速。
  • 精度不降反升:这是一个非常有趣的发现。Fast-SAM3D 的几何精度(F1@0.05 指标)竟然略高于原模型(92.59 vs 92.34)。作者分析认为,显著性雕刻机制其实起到了一种“空间滤波器”的作用,它主动剔除了扩散过程中的高频随机噪声,让生成的表面更平滑。
  • 稳定性完胜:相比于 TaylorSeer、EasyCache 等通用加速方案,Fast-SAM3D 在保持布局一致性方面具有压倒性优势,有效解决了加速后物体容易出现的“变形”问题。

表 2 显示,Fast-SAM3D 在各项指标上均达到了最优,实现了速度与质量的平衡。

图 7 的视觉对比清晰地显示,其他加速方法出现了结构坍塌或语义漂移,而 Fast-SAM3D 的结果与原图几乎无异。

写在最后

Fast-SAM3D 是一个 Training-free(无需训练) 的框架,这意味着开发者可以直接将其应用到现有的 SAM3D 权重上,即插即用,非常友好。

说实话,Fast-SAM3D 的成功给了我们一个很重要的启发:对于复杂的 3D 扩散模型,“暴力”地减少计算量往往会破坏精妙的几何平衡。通过深入理解 3D 数据在形状、布局、纹理和谱域上的异构特性,我们可以实现更加“优雅”且高效的加速。这种“因地制宜”的优化思路,或许是未来大规模生成式模型走向实时化的关键路径。

....

#Efficient-LVSM

复旦上交大联合提出 Efficient-LVSM,开启 3D 视角合成线性时代

在 3D 视觉领域,如何从几张随手拍的照片中合成出丝滑的任意视角图像,一直是研究者们追逐的“圣杯”。从早期的 NeRF 到后来的 3D 高斯溅射(3DGS),虽然效果惊艳,但往往需要针对每个场景进行繁琐的优化。直到大视角合成模型(Large View Synthesis Model, LVSM, ICLR 2025 Oral)的出现,这种“geometry-free”(无显式几何)的端到端生成范式,让我们看到了通用 3D 先验的巨大潜力。

然而,第一代 LVSM 并非完美。它采用了一种“大一统”的 Transformer 架构,把所有的输入视角和目标查询全都塞进一个序列里。这种全自注意力机制虽然简单,却带来了沉重的计算负担:计算量随视角数量呈二次方增长。今天我们要聊的这篇论文,正是针对这一痛点提出的进化版——Efficient-LVSM(高效大视角合成模型)。

该模型由复旦大学和上海交通大学的研究团队联合提出。作者通过一种名为“解耦协同细化注意力(Decoupled Co-Refinement Attention)”的新架构,成功将计算复杂度从二次方降到了线性,不仅跑得更快,效果甚至更好。

  • 论文地址:https://arxiv.org/abs/2602.06478
  • 项目主页:https://efficient-lvsm.github.io
  • 代码仓库:https://github.com/ayakaee/efficient-lvsm(已开源)
  • 录用信息:ICLR 2026
  • 主要机构:复旦大学可靠xx智能研究院(TEAI)、上海交通大学

为什么之前的模型“跑不动”了?

在深入 Efficient-LVSM 之前,我们得先看看它的前辈 LVSM 遇到了什么麻烦。

传统的 LVSM 就像是一个不分工的团队,所有的输入图像块(Tokens)和目标视角查询全都混在一起做自注意力计算。这会带来两个严重问题:

  1. 效率黑洞:如果你想用 10 张图合成 10 个新视角,全自注意力的计算量是巨大的。而且,每增加一个输入视角,计算成本快速增长( 复杂度)。
  2. 角色混乱:输入图像包含丰富的语义和几何信息,而目标查询起初只是一个“位姿占位符”。强行让它们共享同一套参数进行处理,其实限制了模型对不同任务的专业化理解。

图 1:不同潜空间视角合成范式的对比,Efficient-LVSM 实现了输入与目标的彻底解耦

如上图所示,相比于传统的 (a) 编码器-解码器或 (b) 纯解码器结构,(c) Efficient-LVSM 选择了将输入流和目标流彻底解耦,避免了 Token 的重复计算。

方法详解:双流解耦与协同细化

Efficient-LVSM 的核心思想非常直观:让专业的人做专业的事。

1. 输入输出流程

模型的输入包括  张已知位姿的参考图像 ,以及  个想要合成的目标视角位姿 。

  • 输入端:图像被切成小块(Patches),与经过 Plücker 射线嵌入(Plücker Ray Embedding)编码的位姿信息融合,变成输入 Token 。
  • 目标端:仅根据目标位姿生成查询 Token 。
  • 输出端:解码后的特征经过一个简单的线性层和 Sigmoid 函数,直接还原成 RGB 像素。

2. 双流架构设计

为了解决复杂度问题,作者设计了两个并行的流:

  • 输入编码器(Input Encoder):它只负责处理参考图像。关键点在于,它采用的是“视角内自注意力(Intra-view Self-attention)”,即每个视角的图像块只在自己内部交流。这样,处理  个视角的复杂度就变成了线性的 。
  • 目标解码器(Target Decoder):它负责生成新图像。它会交替进行两种操作:先通过自注意力整合目标视角内部的信息,再通过跨注意力(Cross-attention)去查询输入编码器里的特征。

图 2:Efficient-LVSM 模型结构详解

3. 协同细化(Co-Refinement)

很多模型只在最后一步才进行特征交换,但 Efficient-LVSM 认为这样会丢失细节。作者提出了“协同细化”机制:在 Transformer 的每一层,解码器都会去查询编码器对应层的特征。

这种逐层互动的巧妙之处在于,早期的层可以传递细粒度的纹理,而晚期的层则传递高层语义,从而让生成的图像既清晰又准确。

图 9:详细的数据流与层级架构图

4. REPA:借助预训练大模型的‘知识’蒸馏”

为了进一步提升画质,作者引入了 表征对齐(Representation Alignment, REPA)技术。在训练阶段,模型会强迫自己的特征去对齐预训练大模型(如 DINOv3)的特征。 最妙的是,这些额外的投影层和教师模型仅在训练时使用,推理时完全丢弃。这意味着你不需要支付任何额外的推理成本,就能获得更强的语义理解能力。

图 4:REPA 技术显著增强了模型对场景语义的捕捉能力

实验结果:又快又好的性能怪兽

在 RealEstate10K(场景级)和 Objaverse(物体级)等多个基准测试中,Efficient-LVSM 展现出了极强的统治力。

  • 画质新高:在 RealEstate10K 上,它取得了 29.86 dB 的 PSNR,超过了之前的 SOTA 模型 LVSM(29.67 dB)和 GS-LRM(28.10 dB)。
  • 推理提速:这是最惊人的部分。在处理 16 个输入视角时,它的推理速度比 LVSM 快了 14.9 倍,显存占用减少了 50%。
  • 训练减半:达到同样的性能,它只需要 LVSM 50% 的训练时间。

从可视化对比中也可以清晰地看到,Efficient-LVSM 生成的图像在细节边缘和纹理清晰度上明显优于对比方法,减少了常见的模糊感。

图 5:场景级与物体级视角合成的视觉对比

深度分析:特征到底发生了什么变化?

为了理解协同细化机制的有效性,作者对不同层的特征进行PCA 可视化分析。

图 8:不同层特征的 PCA 可视化,展示了从边缘到语义再到像素的演变

我们可以观察到,在第一层(Layer 1),特征主要集中在边缘和轮廓;到了中间层(Layer 6),语义信息变得非常丰富;而到了最后一层(Layer 12),特征已经非常接近最终的 RGB 图像。这种演进过程证明了双流架构在每一层都在有效地提取并融合信息。

开源实践:KV-Cache 带来的无限可能

对于开发者来说,Efficient-LVSM 最实用的特性莫过于对 KV-Cache 的支持。

由于输入和目标流是解耦的,当你增加一个新的输入视角时,模型不需要重新计算之前视角的特征,只需要计算新视角并存入缓存即可。

  • 增量推理:在交互式应用中,随着用户不断补充照片,系统的响应速度几乎是恒定的。
  • 算力友好:虽然训练使用了 64 张 A100,但得益于高效的设计,推理端在单张 3090 甚至更低配置的显卡上都能获得极佳的体验。

图 10:KV-Cache 支持下的增量推理流程

写在最后

Efficient-LVSM 的成功给我们带来了一个重要的启示:在追求“大模型”和“通用性”的道路上,通过对注意力机制的精细解耦和层级化的信息传递,我们完全可以在降低计算门槛的同时,推高性能的上限。

这种“geometry-free”的路径,避开了复杂的 3D 渲染公式,让模型直接在潜空间学习 3D 规律。

如果你对 3D 重建或视角合成感兴趣,非常推荐去尝试一下作者开源的代码。

....

#Nix and Fix

1000倍压缩!TUM用扩散模型让3D高斯溅射迈入“0.1MB时代”

3D高斯溅射(3D Gaussian Splatting, 3DGS)凭借其惊人的实时渲染速度,彻底改变了神经渲染领域。然而,这种“快”是有代价的:为了描述一个复杂的场景,往往需要存储数百万个带有颜色、位置和形状属性的高斯基元,动辄几百MB甚至上GB的存储需求,让它在移动端应用或沉浸式通信中显得有些“臃肿”。

为了解决这一痛点,来自德国慕尼黑工业大学(TUM)和法国巴黎理工学院的研究团队提出了一个极具创意的方案:NiFi。该模型被命名为 “NiFi”,是 “Nix and Fix” 的缩写,寓意非常直观——先大幅度“砍掉”(Nix)多余的高斯参数,再利用扩散模型强大的生成能力把渲染出的残缺图像“修”好(Fix)。这种“以算力换带宽”的思路,成功将 3DGS 的压缩率推向了惊人的 1000倍

  • 论文标题: Nix and Fix: Targeting 1000x Compression of 3D Gaussian Splatting with Diffusion Models
  • 论文地址: https://arxiv.org/abs/2602.04549

极低比特率下的“崩坏”挑战

在 3DGS 压缩领域,现有的方法如剪枝(Pruning)、量化(Quantization)和熵编码(Entropy Coding)已经能实现约 100 倍的压缩。但当研究者试图追求更极致的压缩(例如将 500MB 的场景压到 0.5MB 以内)时,问题出现了。

由于底层 3D 表示被过度简化,渲染出的图像会出现复杂的伪影。这不仅仅是简单的模糊,还包括几何结构的缺失、纹理的破碎以及光照辐射度的失真。如下图所示,在极低速率下,原本清晰的自行车和室内场景变得支离破碎。

传统的 2D 图像修复方法,如经典的三维块匹配滤波(Block-Matching and 3D filtering, BM3D)或普通的卷积神经网络(Convolutional Neural Networks, CNN),在面对这种由于 3D 结构崩坏导致的复合伪影时,往往显得力不从心。于是,研究者们将目光投向了近年来大火的潜在扩散模型(Latent Diffusion Models, LDM),试图利用其强大的自然图像先验来填补缺失的信息。

方法详解:NiFi 的“手术刀”与“缝合术”

NiFi 的核心思想不再纠结于如何在 3D 空间完美保留每一个高斯球,而是允许 3D 端“摆烂”,通过 2D 端的强大后处理来“化腐朽为神奇”。整个流程分为三个阶段:伪影合成、修复训练和在线推理。

1. 伪影合成(Artifact Synthesis)

为了训练修复模型,研究者首先需要构建一个“崩坏数据集”。他们利用现有的压缩技术 GoDe,在三个不同的极低速率下对 3DGS 模型进行处理。

  • 剪枝(Nixing):基于渲染损失对属性的梯度  进行排序,剔除贡献最小的基元。
  • 量化与编码:对剩余属性进行 8-bit 量化并配合熵编码。 通过这种方式,生成了成对的“退化图像 ”和“高质量原图 ”,作为后续修复模型的训练基石。

2. 伪影修复(Artifact Restoration)

NiFi 并没有使用传统的多次迭代去噪,而是采用了一种基于 变分扩散蒸馏(Variational Diffusion Distillation, VDD)的一步修复框架。

  • 一步推理(One-step Inference):利用预训练的 Stable Diffusion 3 (SD3) 作为骨干网络 ,通过低秩适配器(Low-Rank Adapter, LoRA) 进行微调。在推理时,模型只需要一步就能从退化图像中恢复出清晰图像。
  •  映射技巧:这是 NiFi 的一个精妙之处。它并不直接从纯噪声开始生成,也不直接从退化图像开始修,而是将退化图像的潜变量映射到扩散轨迹的一个中间步骤 (论文中设定为 199)。这样做可以利用扩散模型的随机多样性,更好地填补缺失的纹理细节。

其修复过程可以表示为:

其中  是通过前向扩散得到的中间态, 则是带有适配器的去噪器。

3. 分布匹配与感知优化

为了让修复后的图像看起来更真实,NiFi 引入了修复分布匹配(Restoring Distribution Matching)。

在训练阶段,NiFi 维护了两个适配器:

  1. 生成适配器 :负责产生修复图像 。
  2. 评论家适配器 :负责学习修复后图像的分布 。

通过最小化 KL 散度,引导修复后的图像分布向真实自然图像分布  靠拢。同时,为了保证保真度,作者还加入了一个关键的感知匹配(Perceptual Matching)步骤,结合了  损失和 学习感知图像补丁相似度(Learned Perceptual Image Patch Similarity, LPIPS):

这种双适配器的设计,既保证了生成图像的“画质”,又兼顾了与原图的“神似”。

实验结果:近千倍压缩下的视觉盛宴

研究团队在 Mip-NeRF360Tanks & Temples 和 DeepBlending 等主流数据集上进行了严苛的测试。

在DeepBlending数据集上,在感知质量与3DGS-30K相当的情况下,所提出方法将码率从555 MB降低至0.599 MB,实现了927倍的压缩。

从下表的定量对比可以看到,NiFi 在 LPIPS 和 DISTS(深度图像结构相似度)指标上均显著优于其他基准方法。即便对比专门为 3DGS 设计的修复方法 Difix3D,NiFi 在极低比特率下的表现也更加稳健。

从定性对比图可以看到,相比于传统的修复方法(如 BM3D、SwinIR)甚至是专门的 3DGS 修复方法(如 Difix3D),NiFi 恢复出的纹理更加细腻,光影效果也更接近真实场景(Ground Truth)。

在硬件资源方面,该模型在 NVIDIA H200 GPU 上完成了约 6 万步的训练,耗时约 2 天。虽然推理时增加了一层扩散模型的计算开销,但对于追求极致带宽节省的场景(如通过 5G 网络传输复杂的 3D 场景)来说,这种“以算力换带宽”的权衡显然是极具前瞻性的。

写在最后

NiFi 的出现为 3D 场景的存储和传输开辟了新思路。它告诉我们,当 3D 端的压缩达到物理极限时,利用 2D 端的生成式 AI 能够突破瓶颈,实现某种意义上的“降维打击”。

说实话,这种思路非常有意思。在过去,我们总是在想怎么把 3D 几何压得更准,而 NiFi 却选择相信扩散模型的“想象力”。当然,NiFi 目前也并非完美。作者在文中指出,模型在处理某些极高频的细节(如自行车场景中的草地)时,有时会因为“用力过猛”而产生过度增强的伪影。这或许是未来生成式修复技术需要进一步攻克的方向。

这种“先极度压缩、再生成式修复”的范式,是否会成为未来 3D 资产传输的主流?欢迎在评论区分享你的看法。

....

#GuideFlow3D

效果拔群!GuideFlow3D:基于Rectified流的3D风格迁移框架

斯坦福与巴黎高科NeurIPS’25提出GuideFlow3D:无需微调,在推理阶段用部件感知外观损失和自相似结构损失双信号引导Rectified Flow,跨几何差异完成3D纹理/细节迁移,GPT-5人类排序六项指标均夺魁,代码已开源。

随着3D生成技术的迅猛发展,数字内容创作在游戏开发、增强现实等领域的应用愈加广泛,尤其是将外观(包括纹理和精细几何细节)迁移到3D资产的需求也日益迫切。然而,现有方法在输入与参考对象几何差异较大时,往往难以协调全局结构保持与局部细节迁移之间的平衡,从而导致生成的结果失真

本文介绍了一项由斯坦福大学和巴黎高科等研究团队共同完成的工作,该工作已发表在2025年人工智能顶级会议NeurIPS上。研究团队提出了一种优化引导的Rectified Flow方法GuideFlow3D,旨在无需微调预训练模型的情况下,在推理阶段精确调控3D外观的迁移效果。其核心创新在于构建了两种独立且互补的引导损失信号

  1. 部件感知外观损失,确保外观与语义部件对齐,严格控制几何与外观的不一致性;
  2. 自相似结构损失可以保持纹理与目标几何的适配性,增强细节的丰富性。

GuideFlow3D不仅有效地解决了外观迁移中的几何不一致问题,还赋予了用户高度的可控性,使得用户能够根据外观源模态(图像/文本/3D模型)灵活选择迁移策略

01 研究背景

在游戏开发、增强现实与数字内容创作等领域,实现高质量的三维外观迁移已成为行业发展的迫切需求。尽管2D风格迁移技术已相对成熟,但其在3D场景下的扩展仍面临多重挑战:

  1. 三维数据表示(如点云、网格、隐式场)具有不规则性与结构稀疏性,难以像二维图像那样进行规整化处理;
  2. 当输入模型与外观源对象之间存在显著几何差异时,现有方法往往难以在保持目标结构一致性的同时,实现细节的完整迁移;
  3. 外观源本身具有多模态特性(如三维网格、二维图像或文本描述),如何构建统一框架以支持跨模态的高质量迁移,仍是当前研究中的关键难题。

此外,尽管目前已有不同的方法被提出以应对上述挑战,但在实际应用中仍存在明显的局限性。基于多视图的方法将3D问题转化为多视角2D生成任务,但由于不同视图之间的生成结果难以保持几何一致性,这常常导致结构失真和不一致。而直接应用预训练的3D生成模型则容易受到训练数据分布的限制,在输入与外观源几何差异较大时,往往生成结果的质量下降、泛化能力不足,难以实现细粒度控制。

图片

本文的核心研究目标是突破现有方法的瓶颈,提出了一种无需重新训练的3D外观迁移框架GuideFlow3D。如上图所示,在保持其整体几何结构的前提下,有效迁移外观对象的纹理与局部几何细节,例如左上角桌子的圆角边缘得以自然重现,右上角床的底座与床垫之间的结构特征也被准确区分与保留。

02 本文方法

下图展示了GuideFlow3D的整体框架。给定输入3D对象网格  与外观对象  ,GuideFlow3D旨在基于  修改  的外观,同时严格保持  的几何结构,其中  可表示为图像-网格对或文本

图片

该框架引入了Rectified Flow来解决外观迁移问题:首先构造结构化潜变量作为核心表示载体,通过部件感知外观损失  和自相似结构损失  对预训练Rectified Flow模型  的采样过程进行引导,最终经过解码器  生成保留输入几何、融合外观细节的3D模型。

2.1 结构化潜在表示

本文基于Trellis模型[1]采用结构化潜变量来表示3D对象  。其形式化定义为:

其中, 是指第  个活跃体素在3D网格中的位置坐标, 是与该体素相关联的潜在特征。

2.2 两种引导损失函数

为了实现更精细的生成和控制效果,作者分别定义了两个不同的优化目标,用于引导潜在特征在不同输入条件下的更新方向。下图(a)和(b)分别展示了部件感知外观损失和自相似结构损失这两种优化模式。

图片

  1. 部件感知外观损失:当外观对象  以图像-网格对的形式提供时,采用 PartField[2]方法对输入网格  和外观网格  进行分割,将两者分解为语义一致的部件。然后,基于这些部件标签,针对查询对象的每个潜特征  ,在外观对象的潜特征集  中寻找其对应部件内的最近邻潜特征  ,其可以形式化表达为:

  1. 自相似结构损失:当外观对象  仅以图像或文本形式提供时,采用该目标进行优化。其核心思想是在没有明确的3D外观参考情况下,依赖对象自身的结构先验。具体而言,通过几何特征聚类将输入网格的体素划分为不同的部件,并利用对比损失确保同一部件内体素特征相似,且不同部件间特征有区分度。为此,作者首先对输入网格  进行几何聚类(例如,使用 PartField 特征进行 K-means 聚类),将体素划分为不同的簇  ,每个簇代表一个语义部件。分子项鼓励同一部件内体素特征相似(正样本),分母项鼓励不同部件间特征差异(负样本)。

2.3 Rectified Flow的采样过程

Rectified Flow通常由两个过程组成:前向过程(将样本从数据分布映射到噪声)和反向过程(将噪声样本映射回数据分布)。GuideFlow3D在反向过程引入外观和结构的引导信号来优化潜在空间。具体来说,框架采用以下更新规则:

其中, 是Rectified Flow模型的输出, 是由引导函数提供的额外优化项(包括部件感知外观损失和自相似性结构损失), 是时间步长。

03 实验结果

针对现有公开数据集中缺乏专门面向跨几何外观迁移任务的benchmarks,作者首先构建了一个全新的评估数据集。该数据集整合了程序化生成的简单三维对象与来自ABO数据集的复杂模型,覆盖床、橱柜、椅子、桌子和沙发五类核心家具类别,并设计了四类迁移场景(同类/跨类、简单-复杂/复杂-复杂),每类包含250组输入-外观对象配对。

在评估方法上,为解决缺乏真实标注数据的问题,作者提出了基于GPT-5的人类排序体系,从风格保真度、结构清晰度、风格整合度、细节质量、形状适应性和整体质量六个维度对生成结果进行两两比较排序。这一评估机制的有效性通过了59人规模的用户研究验证,结果显示其与人类审美判断具有高度一致性。实验选取了五类代表性基线方法进行对比,包括基于基础UV纹理映射的UV Nearest Neighbor、结合二维风格迁移与三维重建的Image-to-3D、采用边缘感知条件扩散的EasiTex、无引导的流模型Trellis,以及文本引导的Text-to-3D模型,确保了对比实验的全面性。

3.1 定量评估

图片

上表展示了GuideFlow3D在图像和文本两种条件下外观迁移任务中的综合性能评估结果。在图像条件(使用外观损失)下,该方法在风格保真度、结构清晰度等所有六个评估指标上均取得最佳排名,特别是在风格整合和细节质量方面表现突出。在文本条件(使用结构损失)下,该方法同样保持领先,显示出其通过自相似性约束保持几何合理性的能力。

图片

上表展示了GuideFlow3D在简单和复杂同类物体外观迁移任务中基于GPT指标的定量评估结果。该实验设置了简单-复杂、复杂-复杂两种几何组合,并分别测试了同类与跨类迁移场景。结果表明,该方法在所有设置下均保持最优性能,特别是在几何差异显著的简单-复杂跨类迁移中优势最为突出,验证了其引导机制能有效解耦外观与结构,对几何和语义变化具有强鲁棒性。

3.2 定性评估

图片

上图通过定性对比直观展示了不同方法在3D外观迁移任务中的视觉表现该图包含同类物体迁移(椅子->椅子)和跨类物体迁移(柜->双层床)两个典型场景。结果显示对比baseline方法均存在明显缺陷,例如,MambaST出现纹理混合,EasiTex存在纹理缺失与重复,Cross Image Attention遗漏关键细节。而GuideFlow3D在保持输入物体原始几何结构(如床架侧边空洞、椅子扶手形态)的同时,成功实现了外观纹理的高质量迁移。

图片

上图进一步展示了GuideFlow3D在跨类别场景下的外观迁移能力。GuideFlow3D能实现部件级语义映射(如将动物腿部特征对应到家具腿部,柜子把手对应到飞机螺旋桨),在保持目标物体整体结构的同时,完成既符合语义逻辑又保持视觉连贯的纹理与几何细节迁移。通过与Trellis基线结果的直接对比(图中小插图),凸显了GuideFlow3D高效的几何感知能力。

04 总结

本文提出了一种无需重新训练的3D外观迁移框架GuideFlow3D,通过优化引导的Rectified Flow机制,实现了在推理阶段对生成过程的精准控制。在优化过程中,框架引入了两种互补的引导信号,部件感知外观损失和自相似结构损失,确保在保留输入几何形态的同时,精准地迁移外观细节。该方法支持多模态输入(如网格、图像、文本),并允许用户灵活控制迁移的范围,例如基于网格进行“几何+纹理”迁移,或基于图像/文本进行“仅纹理”迁移。为更好地评估迁移效果,本文还提出了一种符合人类感知的评估体系,有效解决了传统指标在无标签场景下的局限性。这一方法将推动3D内容创作向更加高效和可控的方向发展。

参考

[1] Xiang, Jianfeng, et al. "Structured 3d latents for scalable and versatile 3d generation." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.

[2] Liu M, Uy M A, Xiang D, et al. Partfield: Learning 3d feature fields for part segmentation and beyond[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025: 9704-9715.

llustration From IconScout By IconScout Store

...

#AR3D-R1

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!

来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了 AR3D-R1,这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准,并提出 Hi-GRPO——一种层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化 3D 生成。同时引入全新基准 MME-3DR,用于评估 3D 生成模型的隐式推理能力。

实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升,达到 0.156 和 29.3 的优异成绩。

  • 论文标题:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
  • 代码链接:https://github.com/Ivan-Tang-3D/3DGen-R1
  • 论文链接:https://arxiv.org/pdf/2512.10949

图片

强化学习应用于 3D 生成的挑战

图片

强化学习在大语言模型(如 DeepSeek-R1)和 2D 图像生成中已被证明能够有效提升模型性能,但将 RL 应用于 3D 生成仍面临独特挑战:

  • 空间复杂性更高:3D 物体需要同时保持全局几何一致性和局部纹理精细度,比 2D 图像的空间复杂性高出一个维度。
  • 奖励设计困难:如何设计既能评估全局结构又能捕捉局部细节的奖励函数是关键难题。
  • 现有基准局限:当前的文本到 3D 基准主要关注物体多样性,无法有效评估模型的隐式推理能力。
  • 算法敏感性:3D 生成对奖励设计和 RL 算法的选择高度敏感,需要系统性的研究来指导实践。

在此前的工作中,3D 模型大多停留在「预训练 + 微调」框架,真正将 RL 引入 3D 生成的一步,还无人系统迈出。

从「推理」到「造物」:

AR3D-R1 的整体框架

AR3D-R1 构建在离散 3D 生成模型 ShapeLLM-Omni 之上,引入了一个推理驱动的 3D 生成流程:

  • 先想一想:模型会先根据文本提示生成一段高层语义推理(类似 CoT),规划出物体的大致结构、关系与风格。
  • 再动手造:随后,推理结果会作为「中间规划」,直接指导离散 token 的 3D 生成过程。

这让 AR3D-R1 不再是「凭本能画 3D」,而是先构思、再搭骨架、最后上细节——真正把 RL 驱动的「会想」能力,迁移到了「会造」的 3D 世界里。

奖励设计与 RL 算法的系统性研究

在奖励设计方面,研究者评估了多个奖励维度和模型选择,得出以下关键发现:

图片

  • 人类偏好对齐至关重要:与人类审美偏好对齐的奖励信号能够显著提升生成质量。
  • 通用多模态模型具有鲁棒性:令人惊讶的是,通用多模态模型在评估 3D 相关属性时表现出强大的鲁棒性,有时甚至优于专门的 3D 评估模型。

图片

在 RL 算法研究方面,研究者深入分析了 GRPO 的多个变体,包括标准 GRPO、引入 token 级平均与动态采样的 DAPO,和更偏序列级操作的 GSPO 等:

  • Token 级优化更有效:相比响应级优化,token 级别的损失平均能更好地捕捉生成过程中的全局结构差异。
  • 动态采样策略足以稳定训练:对于文本到 3D 生成任务,无需复杂的训练稳定技术。
  • 数据规模和迭代次数的扩展均能有效提升性能:但一味堆叠 RL 迭代反而可能引入过拟合或模式崩塌,需要精细校准。

这些发现为 3D 生成中的 RL 应用提供了系统性指导。

Hi-GRPO:层次化强化学习范式

图片

受 3D 生成自然层次结构的启发——模型首先构建全局几何,然后精修局部纹理(这与人类 3D 感知过程一致),研究者提出了 Hi-GRPO(Hierarchical GRPO)层次化强化学习范式。

Hi-GRPO 的核心思想是在单次迭代中联合优化层次化 3D 生成:

  • 全局规划阶段:模型首先针对文本提示进行全局结构规划,生成高层语义推理来指导粗糙形状生成。
  • 局部精修阶段:模型接收初始推理结果和原始文本提示,生成纹理精细化的 3D 物体。
  • 专用奖励集成:为粗糙阶段和精修阶段分别设计专门的奖励模型集成,计算组相对奖励来优化两个阶段。

通过这种层次化设计,Hi-GRPO 能够在保证全局几何一致性的同时,精细优化局部纹理细节,实现从粗到精的渐进式 3D 生成。

MME-3DR:评估 3D 生成推理能力的新基准

图片

现有的文本到 3D 基准,更多考察的是物体多样性,而不是推理能力。模型在简单 prompt 上表现不错,但一遇到复杂要求就频频「翻车」。为此,论文提出了全新的推理型 3D 基准 MME-3DR,覆盖五大高难类别:

  • 空间与结构几何(复杂构型、相对位置关系)
  • 机械可供性(能不能「看起来就能动起来」)
  • 生物与有机形状
  • 依赖世界知识的罕见物体
  • 风格化表达(风格、材质、抽象度的综合控制)

在这一更苛刻的场景下:传统 text-to-3D 模型普遍出现崩塌,要么结构错乱,要么风格跑偏。而 RL 训练之后的 AR3D-R1 在五大类别上都有明显提升,同时在多个 benchmark 上超越 Trellis 等模型,展现出更强的隐式 3D 推理能力。

定性定量分析

图片

图片

定量实验结果表明,AR3D-R1 在多个指标上取得了显著提升:

  • Kernel Distance 达到 0.156,表明生成的 3D 物体分布与真实数据分布高度接近。
  • CLIP Score 达到 29.3,表明生成结果与文本提示的语义对齐质量显著提升。
  • 在 Toys4K 等现有数据集和新引入的 MME-3DR 基准上均展现出优越性能,在几何一致性和纹理质量方面均有明显改进。

图片

定性实验中,研究者展示了 AR3D-R1 在推理过程中清晰的从粗到精进展。模型首先构建合理的全局几何结构,然后逐步添加细节纹理,生成高质量的 3D 物体。可视化结果验证了 Hi-GRPO 层次化范式和专用奖励集成策略在提升 3D 生成质量方面的有效性。

AR3D-R1 的成功标志着强化学习在文本到 3D 生成领域的首次系统性突破,为构建更智能、更具推理能力的 3D 生成模型开辟了新方向。未来,这样的能力可以自然延伸到:

  • xx智能与机器人:从自然语言到 3D 场景再到交互决策。
  • 游戏与内容创作:快速生成结构合理、细节丰富的 3D 资源。
  • AR/VR 与数字孪生:在复杂约束和多模态反馈下进行 3D 推理与生成。

....

#ReCamDriving

中山&港科纯视觉方案:3DGS实现高精轨迹视频生成

图片

 不修图、不依赖LiDAR 

在自动驾驶领域,多轨迹、多视角的视频数据几乎是刚需。

它不仅决定了 3D 重建的完整性,也直接影响世界模型和规划系统的泛化能力。但现实很骨感:

真实世界里,想采集同一条道路、不同横向位置、严格同步的多条驾驶视频,成本极高。要么多车协同,要么反复跑同一路段,还会带来时间、动态目标不一致的问题。于是,研究者开始尝试:

能不能只用一条真实驾驶视频,自动“生成”另一条相邻轨迹的视频?

看似简单,实际却踩了两个大坑:

  • 一类方法先重建 3D,再“修补”新视角画面,结果一遇到复杂伪影就失效;
  • 另一类方法用 LiDAR 来辅助相机控制,但 LiDAR 本身稀疏、不完整,远处和遮挡区域尤其容易出问题。

中山大学与香港科技大学提出了ReCamDriving,一个完全基于视觉、却能精确控制相机轨迹的新轨迹视频生成方法。

不修补、不靠 LiDAR,直接换一种相机控制思路。

标题:ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory VideoGeneration

链接:​https://arxiv.org/pdf/2512.03621​

项目页面:​https://recamdriving.github.io/​

1  与其修画面,不如教模型

真正理解“相机怎么动”

作者首先指出一个关键问题:

很多“新轨迹生成”方法,本质上是在做画面修复,而不是视角变换。修复型方法通常是:

先用 NeRF 或 3D Gaussian Splatting 渲染新视角,再用扩散模型把伪影“补干净”。

问题在于,这些伪影在不同场景、不同视角下变化巨大,模型学到的只是局部修补经验,一旦分布变化就容易翻车。另一条路是相机可控的视频生成

直接告诉模型“相机从这里动到那里”,让它生成对应视频。

但只靠相机位姿,模型很难真正对齐几何结构,于是有人引入 LiDAR 投影作为几何约束。可 LiDAR 的问题同样明显:

远处稀疏、遮挡缺失、背景不完整,反而会把模型带偏。ReCamDriving 的核心想法是一个“反直觉”的选择:

3DGS 的几何精度不如 LiDAR,但它是“密集、完整、覆盖全场景”的。

于是他们干脆放弃 LiDAR,把 新轨迹的 3DGS 渲染结果,作为相机控制和结构引导信号。

为了避免模型退化成“只会修补 3DGS 伪影”,作者设计了一套两阶段训练策略

  • 第一阶段,只教模型理解“相机怎么从原轨迹变到目标轨迹”;
  • 第二阶段,在不破坏已有能力的前提下,引入 3DGS 渲染,做精细的几何与视角约束。​

这套设计,决定了 ReCamDriving 不是在“修画面”,而是在重新生成一条合理的新轨迹视频。

图片

图1|基于“重建后修复”的方法(如 Difix3D+)在遇到新的相机视角时,往往会出现明显的渲染伪影,尤其在复杂场景中难以稳定修复。依赖 LiDAR 的相机可控生成方法(如 StreetCrafter)虽然引入了几何约束,但由于 LiDAR 在远处和遮挡区域本身信息稀疏、不完整,生成结果仍然容易出现几何不一致的问题。相比之下,ReCamDriving 采用由粗到细的两阶段训练策略,利用新轨迹 3D Gaussian Splatting(3DGS)渲染所提供的密集、完整的场景结构信息,实现了更精确的相机控制和更一致的三维结构生成效果

2 技术亮点三连

 用 3DGS,替代 LiDAR 做相机控制

不同于以往依赖 LiDAR 投影的方法,ReCamDriving 选择了 3D Gaussian Splatting 渲染作为相机控制条件。

虽然单点精度不如 LiDAR,但 3DGS 提供的是密集、连续、全场景覆盖的结构信息。

这种结构信号在远处区域、遮挡位置反而更稳定,能持续为模型提供几何约束。

实验也显示,在横向偏移较大的新轨迹生成中,3DGS 条件比 LiDAR 更稳,几何一致性下降得更慢。

图片

图2|ReCamDriving 的整体方法框架示意图。该方法采用两阶段训练策略,以实现精确且结构一致的新轨迹视频生成。在第一阶段,模型仅基于原始轨迹视频和相对相机位姿进行训练,重点学习基本的视角变换能力。在第二阶段,第一阶段的核心参数被冻结,并引入额外的注意力模块,将新轨迹的 3DGS 渲染结果作为结构引导信号,用于更精细的视角控制和几何约束。图中用蓝色虚线标出了在两个阶段之间共享的网络模块

 两阶段训练,防止模型“学歪”

如果一开始就把 3DGS 渲染喂给模型,模型很容易退化成“伪影修复器”。

为此,作者采用了先粗后细的两阶段训练

  • 第一阶段只用相对相机位姿,建立基本的视角变换能力;
  • 第二阶段冻结核心结构,引入 3DGS 特征,通过额外注意力模块进行精细引导。​

这种设计让模型始终围绕“相机重定位”这个目标,而不是被 3DGS 的伪影牵着走。

图片

图3|训练与推理阶段相机轨迹变换方式的对比,以及本文采用的数据构造策略。(a–b) 展示了以往方法中训练阶段与推理阶段在相机轨迹变换模式上的不一致问题,这种不匹配会导致模型在生成新轨迹时表现不稳定。(c) 展示了 ReCamDriving 的训练与推理数据策略:通过 3DGS 渲染构造跨轨迹的数据对,使模型在训练阶段接触到与推理阶段一致的相机变换模式,从而提升对横向新轨迹生成的鲁棒性

 跨轨迹数据构造,解决“没真值”的老问题

现实驾驶数据几乎都是单轨迹,没有真实的新轨迹视频作为监督。

作者提出了一种巧妙的 跨轨迹数据构造策略

  • 用 3DGS 渲染生成“横向偏移”的新轨迹视频,作为输入;
  • 用原始真实视频作为监督信号。​

这样,模型在训练时学到的相机变换模式,与推理时完全一致。

基于这一策略,作者构建了​ParaDrive 数据集,包含 110K 以上的平行轨迹视频对,为后续研究提供了重要基础。

图片

图4|训练阶段使用的数据配对方式示意图。在训练过程中,模型以新轨迹的 3D Gaussian Splatting 渲染结果(约 30,000 次迭代后)作为源输入,用来模拟需要生成的新视角视频;同时,将原始轨迹在不同训练阶段(100、500 或 1,000 次迭代)下得到的 3DGS 渲染结果作为相机控制与几何条件,引导模型学习不同精度下的视角约束;最终,以原始轨迹对应的真实拍摄视频作为监督信号,确保生成结果在结构和外观上与真实场景保持一致

3

实验与表现

实验部分,作者主要从三点验证方法有效性:

相机控制精度:在 Waymo 和 nuScenes 上,ReCamDriving 的相机位姿误差显著低于修复型方法和 LiDAR 条件方法。

图片

图5|在 Waymo Open Dataset(WOD)上的定量对比结果。该表从视觉质量、相机控制精度和视角一致性等多个指标,对比了不同方法在新轨迹生成任务中的表现。其中,加粗数值表示最优结果,下划线表示次优结果

视角与几何一致性:随着横向偏移增大,其他方法的结构一致性快速下降,而 ReCamDriving 下降更缓,表现更稳定。

图片

图6|在 nuScenes 数据集上的新轨迹视频生成平均性能对比。该表展示了不同方法在视觉质量和视角一致性相关指标上的整体表现,用于验证方法在不同自动驾驶数据集上的泛化能力

视觉结果:在车道线、路面标记、远处建筑等细结构区域,生成结果保持连续,不容易出现“漂移”和断裂。尤其是在大幅横向偏移时,LiDAR 方法常因投影稀疏而失败,而​ReCamDriving 依然能维持整体结构。

图片

图7|在 Waymo Open Dataset(WOD)上的定性结果对比。该图对比了不同方法在新轨迹生成任务中的视觉效果。其中,ReCamDriving 和 Difix3D+ 都使用 DriveStudio 生成的新轨迹 3DGS 渲染结果作为输入,但前者将其用于相机控制,而后者主要用于画面修复。

4

总结

ReCamDriving 代表了一种清晰的趋势:

新轨迹视频生成,不该只是事后修补,而应回到“相机与几何关系”的本质建模。

通过引入 3DGS 作为结构条件,并配合合理的训练策略和数据构造方式,作者在不依赖 LiDAR 的情况下,实现了稳定、可控的新轨迹生成。

这不仅对自动驾驶数据扩充有价值,也为世界模型训练、仿真数据生成提供了新的思路。

...

#CoherentGS

打破恶性循环!CoherentGS:稀疏模糊图像也能高清重建

3D高斯 splatting(3DGS)能生成超逼真的3D场景,但它有个短板——依赖密集、清晰的输入图像。而现实中手持拍摄的照片往往又少又模糊,这会形成一个“恶性循环”:稀疏视图缺乏多视角约束,没法消除运动模糊;而运动模糊又会抹掉细节,让仅有的几个视图难以对齐,最终重建出的3D场景要么支离破碎,要么满是噪点。

北京大学团队推出的CoherentGS,很好的打破了这个循环!它靠“双先验引导”策略,只用3~9张稀疏模糊的照片,就能重建出高清、连贯的3D场景。不管是手持拍摄的模糊素材,还是视角稀少的场景,都能轻松应对。

CoherentGS的突破,是同时解决“去模糊”和“补全几何”两个核心问题,用双先验协同引导优化,让稀疏模糊的输入也能产出高质量3D重建。

核心框架:双先验联手,破解双重难题

图3. CoherentGS系统

图3是CoherentGS的整体流程,左侧是用COLMAP初始化高斯和相机位姿;上方通过去模糊先验恢复高频细节,用物理曝光轨迹建模模糊合成;下方通过扩散先验补全几何结构,结合一致性引导的相机探索和深度正则化。

这张图直接体现CoherentGS的核心优势:不只是简单去模糊或补全,而是将两者融入3D高斯优化的全流程,确保重建结果既清晰又连贯

CoherentGS的核心秘诀:四大关键技术

CoherentGS的强大,源于“双先验引导+智能探索+联合优化”的全流程设计,每一步都针对性解决稀疏模糊重建的痛点。

1. 去模糊先验:恢复清晰细节,提供 photometric 引导

上图展示了去模糊先验的效果,左侧是模糊输入,中间是去模糊后的清晰图像,右侧是真实清晰图。

要重建清晰3D,首先得从模糊照片中提取可靠细节,但单一图像去模糊容易引入不一致。CoherentGS的解决方案是:

  • 物理模糊建模:把模糊图像建模为相机曝光时间内的多帧清晰图像叠加,通过优化相机起始和结束位姿,模拟真实模糊形成过程:其中是曝光时间内的插值位姿,是对应清晰渲染图,是合成的模糊图,与真实模糊图对比优化;
  • 感知蒸馏去模糊:用预训练去模糊模型生成清晰伪标签,再通过VGG特征提取器,在特征层面引导3D高斯渲染出高频细节,避免像素级对齐导致的几何失真。

2. 扩散先验:补全几何空缺,确保全局连贯

而对比t-SNE分布,BAD-Gaussians的高斯分布呈碎片化聚类,CoherentGS的高斯分布全局连贯。

稀疏视图会留下大量未观测区域,CoherentGS用扩散模型补全这些“盲区”:

  • 单步去噪引导:把3D高斯渲染的图像输入扩散模型,得到结构完整的补全图像,再通过特征蒸馏损失引导高斯优化,让未观测区域的几何更合理:其中是扩散模型补全的图像,固定扩散模型输出,确保梯度只流向3D高斯;
  • 避免 hallucinate:扩散模型不是无约束生成,而是以已有视图为参考,保证补全的结构与真实场景一致,不凭空捏造细节。

3. 一致性引导相机探索:智能选视角,高效补全

图4. 左侧是传统线性插值视角,多样性不足;右侧是CoherentGS的一致性引导探索,只选择“可恢复且有价值”的视角。

盲目增加视角会导致优化低效或 hallucinate,CoherentGS的相机探索策略更聪明:

  • 场景自适应归一化:计算训练视图的扩散一致性基线,量化新视角的“可恢复性”;
  • 带通选择:只保留“偏差适中”的视角——既不与已有视图重复,又不会超出扩散模型的恢复能力,确保每个新增视角都能有效提升3D一致性。

4. 联合优化:几何正则化,避免失真

对比深度图,BAD-Gaussians深度平滑无层次,Difix3D+有噪点,CoherentGS的深度连续、层次清晰。

为了让重建的几何更可靠,CoherentGS加入了关键约束:

  • 深度正则化损失:对渲染的深度图施加平滑约束,避免稀疏区域出现碎片化或漂浮 artifacts:
  • 复合损失函数:将模糊重建损失、去模糊感知损失、扩散几何损失和深度正则化损失结合,全面约束优化过程,既保清晰又保连贯。

实战验证:稀疏模糊素材也能出精品

1. 定量指标:全面领先现有方法

在Deblur-NeRF和DL3DV-BLUR数据集上,CoherentGS在3~9张稀疏模糊输入下,PSNR比BAD-Gaussians最高提升2.78 dB,LPIPS降低40%以上,不管是合成场景还是真实户外场景,都保持领先优势。

2. 定性效果:细节清晰,结构连贯

图5说明:对比Deblur-NeRF数据集的重建效果,CoherentGS能恢复纹理细节和清晰边缘,其他方法要么模糊要么结构破碎;

图6说明:展示户外DL3DV-BLUR数据集的重建结果,CoherentGS在复杂场景中仍能保持视图一致,无明显 artifacts。

从可视化结果能看出,CoherentGS重建的场景不仅没有运动模糊残留,还能补全稀疏视角未覆盖的区域,生成的3D结构连贯、细节丰富,完全看不出是从几张模糊照片重建而来。

3. 频谱分析:还原真实细节

图7说明:对比频率谱,CoherentGS的频谱与真实场景高度吻合,保留了自然的高频细节;BAD-Gaussians高频衰减严重,GenFusion有定向 artifacts。

频率分析证明,CoherentGS恢复的细节是真实有效的,不是扩散模型凭空生成的“虚假纹理”,真正做到了“补全不造假”。

总结:3D重建进入“少图模糊也能打”时代

CoherentGS最核心的价值,是打破了3D高斯重建对密集清晰输入的依赖:

  • 双先验协同:去模糊先验提细节,扩散先验补几何,同时破解双重难题;
  • 智能视角探索:不盲目增加视角,只选“有用且可恢复”的视角,提升优化效率;
  • 几何正则化:避免稀疏场景的碎片化和漂浮 artifacts,保证结构连贯。

未来,CoherentGS还可扩展到散焦模糊、曝光异常等更多真实拍摄场景,进一步降低3D重建的素材门槛。

...

#TD-Attn

南信大&清华提出TD-Attn,用3D注意力解决文本生成3D模型的多面Janus问题

  • 标题:Debiasing Diffusion Priors via 3D Attention for Consistent Gaussian Splatting
  • 机构:南京信息工程大学,清华大学
  • 作者:金世龙,段皓然,华立涛,黄文韬,周媛(通讯作者)
  • 论文地址:https://arxiv.org/pdf/2512.07345
  • 代码仓库:https://github.com/kimslong/AAAI26-TDAttn
  • 关键词:3D Gaussian Splatting, Text-to-3D, Attention Mechanism, Multi-view Consistency
  • 录用会议:AAAI 2026

🎯一句话总结

我们提出了一个即插即用的框架TD-Attn,通过构建3D注意力高斯,彻底解决了文本生成3D模型时的Janus问题(多面孔/多头怪),以及3D编辑中的语义混淆问题。

🤔 问题背景:AI生成3D模型为什么会长"两张脸"?

想象一下,你用AI生成一只皮卡丘的3D模型,结果从正面看是可爱的皮卡丘脸,转到背面却又出现了一张脸——这就是业界头疼的"Janus问题"(多面神问题)。

更糟糕的是,生成的3D模型可能出现:

  • ❌ 多余的肢体(4条腿的人)
  • ❌ 重复的五官(2个耳朵变成4个)
  • ❌ 前后视角完全不一致的外观

根本原因:现有的文本生成图像(T2I)模型在训练时,数据集存在严重的视角偏好(view bias)——比如"皮卡丘"的训练图片90%都是正面照。所以AI即使被要求生成"背面视角",依然会不自觉地生成正面特征。

💡 核心创新:3D注意力高斯

我们的核心思想是:既然2D注意力会被视角偏好污染,那就直接在3D空间构建注意力!

1️⃣ 3D-AAG模块:构建视角一致的3D注意力高斯

传统方法在每个视角独立计算注意力图,导致不同视角之间信息割裂。我们的方法:

多视角2D注意力图 → 逆向投影到3DGS → 累积权重 → 3D注意力高斯
                                    ↓
                    引导2D注意力 ← 从3D渲染注意力图

数学本质

我们从数学上证明了Janus问题的根源:

当目标视角​​v*​​​远离先验视角​​v_prior​​时,会产生巨大的负梯度

这个负梯度对应着我们在CA图中观察到的异常注意力聚焦区域,导致模型生成扭曲的内容。

Step 1:构建3D注意力高斯

累积所有视角的注意力权重到每个3D高斯上

Step 2:用3D注意力约束2D注意力

确保每个视角的2D注意力都与3D一致

2️⃣ HAM模块:层级注意力调制,精准控制语义

不同的UNet层对视角偏好的响应程度不同。HAM通过语义引导树(SGT)定位并增强视角相关的注意力层:

应用场景1 - 解决Janus问题

  • 识别哪些UNet层被"正面偏好"主导
  • 定向增强"背面视角"的语义权重
  • 生成的注意力图用于构建更一致的3D注意力高斯

应用场景2 - 解决语义模糊

  • 编辑提示:"把这棵盆景的花变成杏色(apricot color)"
  • ❌ 传统方法:把"apricot"理解成植物,生成杏树果实
  • ✅ 我们的方法:定位"color"语义,抑制"plant"语义,正确理解为颜色

核心机制:语义定位 + 权重调制

Step 1:定位高响应层 HAM需要找出哪些注意力头和UNet层对目标语义(如"back view")响应最强。

(1) 注意力头层面的语义定位:

  • :第个注意力头的查询矩阵(来自图像特征)
  • :语义词的键矩阵(从语义引导树SGT中采样的实例词)
  • :标准的注意力相似度计算
  • :找出第个注意力头对哪个子类语义响应最强 输出: 头级权重矩阵

(2) UNet层级层面的语义定位:

  • :属于语义类别的所有实例词集合
  • :第层中所有注意力头的集合
  • 双重求和:对同一语义类别的多个实例词 + 同一层的多个注意力头进行聚合
  • :找出第层对哪个语义类别响应最强 输出: 层级权重矩阵 通俗理解:就像给UNet做"语义CT扫描",精确定位哪些层、哪些注意力头对"back view"这个语义最敏感。

Step 2:调制注意力计算

通俗解释

  • :原始注意力(可能被"正面偏好"污染)
  • :层级权重(这一层对目标语义类别的响应度)
  • :注意力头权重(这个头对目标语义的响应度)
  • :调制强度系数
  • :调制后的注意力(增强目标语义,抑制偏好)

🚀 通用性:即插即用的插件

TD-Attn可以无缝集成到现有的3D生成/编辑框架:

✅ 3D生成:DreamScene、LucidDreamer、GCS-BEG
✅ 3D编辑:EditSplat ✅ 无需重新训练:直接在推理阶段使用

🎨 效果展示

生成任务定量结果

消融实验:

💬 讨论交流

如果你对以下话题感兴趣,欢迎在评论区讨论:

  1. 3D生成中遇到的其他一致性问题
  2. 注意力机制在3D任务中的应用前景
  3. 如何进一步提升3D编辑的语义精准度

我们正在寻求合作推广,如果您对这项工作感兴趣,欢迎联系! 📧

关键词标签:#3D生成 #Gaussian_Splatting #注意力机制 #Janus问题 #文本生成3D #AIGC

...

#HRM²Avatar

只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。

我们是淘宝技术 - Meta 技术团队,在 3D、XR、3D 真人数字人和三维重建等方向拥有深厚的技术积累和业务沉淀,我们自研了专业的多视角拍摄影棚,在今年 CVPR 2025 会议上作为 Highlight Paper 发表了 TaoAvatar ,并在淘宝未来旗舰店中实现了业内首个 3D 真人导购体验,下面视频展示了杭州西溪园区 C 区淘宝未来旗舰店的精彩瞬间,欢迎大家到来访园区进行体验。

以下视频来源于

大淘宝技术

,时长01:14

今年我们团队迎来另一个重要里程碑:我们撰写的针对移动端的高保真实时 3D 数字人重建与渲染系统论文首次登录了国际顶级计算机图形学会议 SIGGRAPH Asia!这是我们技术实力的一次正式 “官宣”,也是我们在 3D/XR 方向长期投入的阶段性成果展示。

我们研发的基于手机单目视频生成高保真且可实时驱动的 3D 数字人的系统名叫 HRM²Avatar ,不同于依赖多相机阵列或深度硬件的方案,其在普通手机拍摄条件下重建人物形体、服饰结构以及细节级外观表达,并支持在移动设备上实时渲染与动画驱动。系统采用显式服装网格与高斯表示相结合的建模方式:网格提供稳定的结构与可控性,高斯则用于呈现褶皱、材质和光照变化等细节,使虚拟人在不同姿态下依旧保持连续、自然的外观表现。此外,基于轻量化推理设计与移动端渲染优化策略,生成的数字人可在手机、头显等移动设备上流畅运行。实验结果表明,我们的系统在视觉真实感、跨姿态一致性以及移动端实时渲染之间取得了良好平衡。

  • 论文主页:https://acennr-engine.github.io/HRM2Avatar/
  • TaoAvatar 主页:https://pixelai-team.github.io/TaoAvatar/
  • Taobao3D GitHub 仓库:https://github.com/alibaba/Taobao3D
  • MNN GitHub 仓库:https://github.com/alibaba/MNN

问题定义

图片

HRM²Avatar整体框架

想生成一个真实又能动的 3D 数字人,听起来很酷,但门槛非常高,现在高精度建模方式如 TaoAvatar、CodecAvatar 等,通常需要使用昂贵的三维重建设备。这些系统确实效果好,但搭建复杂、调试困难,还很难携带出实验室,普通人几乎无法自己操作。而我们正是从 “普通人也能用” 的角度出发,重新思考:如何只用一部手机,就能创建和渲染高质量 3D 数字人?

但是仅使用手机条件下,会存在多个关键难题:

  • 几何与局部细节缺失:由于手机拍摄距离远、视角有限,衣物褶皱、材质结构、头发等高频细节难以稳定恢复;
  • 外观-动作耦合:外观变化、布料形变、光照变化与姿态变化混杂,导致姿势相关的形变与光照难以独立建模;
  • 实时推理受限:尽管神经渲染与 3DGS 表示提升了表达能力,但许多方法仍依赖高性能桌面级 GPU 实现实时驱动,在移动端设备上运行仍具有挑战。

因此,如何在仅依赖手机单目输入的条件下,重建高保真、可动画的数字人,并实现移动端实时渲染,仍是一个尚未充分解决的问题。

方法概览

基于上述挑战,我们提出了针对移动端的高保真实时 3D 数字人重建与渲染系统 HRM²Avatar,核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端设备的高效渲染优化策略,在保证外观质量与动态表现的同时,实现从扫描到实时驱动的完整重建流程。

图片

HRM²Avatar 流程概览

核心模块包括:

  • 手机扫描采集,采用静态与动态结合的手机扫描方式,同时获取全身结构与局部细节变化,为后续动态建模提供可靠外观与姿态变化信号。
  • 表征与重建,系统构建可动画的穿衣人体模型,并采用显式网格与高斯的混合表达方式:网格提供稳定的结构与动画一致性,而高斯用于建模随姿态变化的细节与光照(姿态相关的形变和阴影建模),从而在运动过程中保持材质、细节与视觉一致性。
  • 移动端渲染,结合轻量化推理模型和面向移动设备的渲染优化策略,生成的数字人可在手机等设备上实现实时驱动与高质量显示。

采集与预处理

系统在进入重建阶段前,需要将手机扫描得到的视频转换为结构一致、可用于建模的输入数据,过程包括拍摄协议、相机与人体参数初始化,以及服饰网格提取。

拍摄协议

以下视频来源于

大淘宝技术

,时长00:22

采集采用双序列拍摄方式,包括静态扫描和动态扫描。静态扫描阶段,用户保持相对固定姿态,手机围绕身体移动拍摄,覆盖全身结构和局部纹理细节。动态扫描阶段,用户执行自然动作,用于捕捉衣物褶皱、遮挡变化和光照响应。该流程无需额外硬件或标记,可在单目条件下提供重建与动态建模所需的信号。

初始相机参数和姿态估计

系统对采集到的静态序列和动态序列进行处理,以获得后续重建所需的相机参数和初始人体姿态估计,其中静态序列是核心阶段。

静态序列

图片

静态序列由近景(Close-up)与全身(Full-body)两类图像组成,它们承担不同但互补的作用:

  • 全身帧

全身视角提供稳定的人体轮廓与结构,使系统能够估计初始人体姿态参数。该姿态不仅用于静态阶段的重建,还作为动态序列处理时的参考姿态来源。

  • 近景帧

此类帧主要覆盖局部区域,如头部、胸部或衣物细节,视野中人体结构比例有限,因此通常无法检测到可靠的人体关键点,也无法直接推断出合理姿态。然而,这些图像对于恢复高频纹理和几何区域至关重要。为了使这些帧参与建模,我们对近景与全身帧联合运行SfM,并利用跨尺度视角一致性来稳定近景帧的相机轨迹。

通过联合利用近景与全身帧,系统既获得了稳定的相机轨迹,也为后续网格重建与动态建模奠定了可靠的初始化条件。

动态序列

在动态序列中,系统不再更新形体参数,而是直接使用静态阶段得到的 SMPL-X 身体参数作为固定模板。在此基础上,仅对每一帧估计姿态变化,用于捕获随动作产生的衣物变形、遮挡变化和光照响应。

服饰网格提取

图片

HRM²Avatar 服饰网格提取流程

在获得相机与姿态初始化后,系统从静态序列中构建可动画的穿衣人体网格。这一过程包括以下步骤:

1. 几何重建,使用静态序列图像运行 NeuS2,生成服饰表面的几何代理,用于提供连续且高质量的体表结构。

2. 服装区域提取,通过语义分割引导从代理几何中提取衣物区域,确保服饰边界清晰,避免身体与衣物表面混合。

3. 重拓扑与蒙皮绑定,对提取的服饰网格进行重网格化,并将其转移至与身体一致的蒙皮权重体系,使其具备一致的动画控制结构。

4. 绑定对齐,将绑定后的网格逆皮肤回归到绑定模板姿态,得到拓扑干净、结构一致、可绑定动画的最终服饰网格。

生成的穿衣人体网格作为几何基底参与后续混合表示学习,并用于支持姿态变化下的外观建模与实时动画驱动。

实时可驱动的数字人重建

为了重建实时可驱动的数字人,我们着重从混合表示,几何生成,动态光照建模,训练流程,轻量网络蒸馏五个方面进行了细致的考虑和设计。

混合表示

图片

HRM²Avatar 混合表达

在穿衣人体网格上,我们为每个三角形附着高斯点,构建混合数字人表征:

1. 高斯位置与绑定

每个高斯用重心坐标和法向在三角形上定位:

图片

其中 

图片

为三角形顶点, n 为三角形法向, (u,v,w) 为局部参数。

2. 协方差构造

高斯的尺度由三角形雅可比矩阵、旋转和缩放组合得到:

图片

其中 

图片

为参考与当前三角形的边向量矩阵, R 为局部旋转, S 为对角缩放矩阵。

3. 可见性与语义分区

每个高斯关联可见性标记,仅在三角形朝向视点时参与渲染。基于语义分割,将高斯分为两个区域:

  • 头发区域,使用 3DGS 建模软性过渡,
  • 非头发区域,使用 2DGS 贴合网格表面。

该混合表示在保持结构约束的同时,为后续姿态相关的形变与光照建模提供了可控的高斯参数空间。

几何生成

图片

HRM²Avatar 几何生成模块

最终数字人的几何基于带服饰的模板网格 

图片

,并通过三类偏移量组合得到:

图片

其中偏移量定义为:

图片

  • 图片

  • :静态偏移,与姿势无关,用于补全基础形状和服饰结构;
  • 图片

  • :姿态相关偏移,与姿势相关,用于表达随动作变化的可预测几何形变;
  • 图片

  • :逐帧残差,用于补足前两项未覆盖的更细粒度形变,包括局部精细变化和随动作产生的服饰动态(如衣物轻微摆动)。

其中 

图片

 和 

图片

 定义在隐式空间中,并通过 LS (⋅) 映射到欧式偏移以提升训练稳定性和收敛速度,而 

图片

 拥有更大的自由度,用于增强最终几何表达能力。

动态光照建模

图片

HRM²Avatar动态光照建模

人体姿态变化会导致光照分布发生变化,例如阴影位置偏移、局部亮度变化等。为建模这种随动作变化的光照效应,我们引入一个轻量化的单通道姿态相关光照项,用于描述运动驱动的光照变化特征。

渲染过程中,高斯的外观属性会与该光照项进行调制,最终颜色计算如下:

图片

其中 

图片

为逐帧学习的光照系数,ϕ(⋅) 表示基于方向与球谐编码的外观解码。引入动态光照建模后,数字人能够在不同姿态下保持更自然的光照一致性,避免出现“无光照变化”的静态外观,使渲染结果更贴近真实运动表现。

训练流程

图片

HRM²Avatar训练流程

系统的完整优化过程如图所示。训练阶段同时使用近景与全身图像作为监督信号,其中近景提供更强的外观约束,全身图像用于保持整体一致性。模型渲染结果与输入图像通过多种监督方式进行对齐,包括:

  • 颜色一致性监督,
  • 语义掩码约束,
  • 身体与服饰区域的碰撞约束,
  • 几何与参数平滑正则化。

在优化策略上,高斯属性、几何偏移与光照参数从零开始训练,而相机姿态与人体姿势只进行轻量微调,用于消除残余配准误差,而非重新估计结构。经过训练,系统得到姿态无关的高斯表示,以及针对每一帧的几何形变与光照变化,从而支持后续实时驱动与渲染。

轻量网络蒸馏

图片

HRM²Avatar网络蒸馏模块

在重建阶段,我们已经获得了逐帧的姿态、几何偏移和光照参数。基于这些结果,我们采用蒸馏方式训练一个轻量级的预测网络,使其学习姿态到几何形变与光照变化的映射关系。训练完成后,系统不再依赖逐帧重建数据,仅输入姿态即可实时预测对应的几何偏移与光照参数,从而支持移动端的实时驱动与渲染。

高性能移动端实时渲染

为了实现移动端实时运行,我们对渲染阶段进行了系统性优化,包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染。该设计避免了传统 3DGS 渲染中高带宽、高冗余计算的瓶颈,使最终数字人能够在手机上稳定运行。

图片

HRM²Avatar实时渲染模块

层级裁剪

为了尽量减少无效高斯的冗余计算,系统采用多级裁剪策略:

  • 网格级视锥裁剪(CPU 侧):剔除完全不在视野范围内的身体部件;
  • 三角片级背面裁剪(GPU 侧):丢弃背对摄像机的三角面;
  • 高斯级视锥裁剪(GPU 侧):进一步剔除不可见的高斯实例。

这种多级裁剪方式显著减少了需要参与排序与渲染的高斯数量,极大地提升了渲染效率。

投影

对于参与渲染的高斯点,我们采用基于需求的精简投影流程:

  • 按需解码存储块,避免一次性展开全部数据;
  • 优先提取空间位置和索引用于可见性判断;
  • 仅对可见高斯点进行完整属性解码(旋转、尺度、不透明度、球谐系数等)。

这种按需处理方式有效降低了解码带宽开销。

排序

渲染高斯需要按深度顺序合成。我们采用量化排序以提升效率:

  • 将连续深度范围映射至紧凑区间;
  • 使用 16 Bit 或 12 Bit 深度存储替代 32Bit 浮点;
  • 结合 GPU 并行 Radix Sort 与硬件 Wave 操作加速排序。
  • 该方法在保持排序精度的同时,大幅减少排序负担和显存带宽使用。

渲染

最终渲染阶段使用 GPU 的硬件栅格化,对每个高斯生成面元并进行屏幕合成。为进一步提升性能和视觉质量,我们采用:

  • 自适应面元缩放:在保证外观一致的前提下缩小面元面积;
  • 基于透明度修剪:剔除贡献极小的边界像素;
  • 反向透明度估计:根据高斯分布推断最小必要面元尺寸。

这些策略使系统在有限算力环境下仍能保持高质量渲染。

通过上述优化,数字人渲染不依赖实时体渲染混合或高开销着色器,而采用紧凑、高度可并行、缓存友好的绘制方式,最终达成在移动端平台上的实时表现。

结果展示

AR|MR效果

,时长01:17

与现有方法对比

我们在自构的服饰人体数据上对 HRM²Avatar 进行了系统评测,并与现有单目输入条件下的可动画数字人方法进行了对比,包括基于隐式场、可动画神经表示以及基于高斯表示的方案。对比实验主要关注两个方面:静态重建质量与姿态驱动下的外观一致性。

图片

从定性结果可以观察到,在仅使用单目输入的条件下,现有方法在衣物边界、高频纹理和细节区域(如褶皱、印花、层次结构等)往往表现较弱,容易出现模糊化或纹理漂移,而 HRM²Avatar 依托显式衣物网格与高斯表示相结合的结构,能够保持更稳定的视觉细节和结构表达。尤其在跨视角与跨姿态驱动条件下,我们的方法在外观一致性上表现更稳定,未出现明显的拉伸或表面扭曲伪影。

,时长00:43

在客观指标上,我们使用 PSNR、SSIM 和 LPIPS 对方法进行量化比较。结果表明,HRM²Avatar 在所有指标上均取得更优表现:在 LPIPS 上分数更低,而在 PSNR 和 SSIM 上更高,显示出更清晰的纹理保留和更稳定的结构一致性。值得注意的是,即使在新的姿态条件下,这一优势仍然保持,说明所建模的姿态相关的外表建模能够有效避免纹理漂移并提升跨姿态一致性。

图片

我们进一步在 Neuman 数据集上评估了 HRM²Avatar 的泛化性能。该数据集包含更复杂的服饰结构与动态动作模式,可用于验证方法在非自采场景下的适应能力。

图片

图片

在 Neuman 数据集上,我们进一步评估了模型的泛化表现。该数据集包含更丰富的动态动作与服饰外观变化,可用于检验模型在非自采场景下的稳定性。从定性结果来看,现有方法在快速动作或较大姿态变化条件下,容易出现纹理模糊、漂移或表面结构不稳定等现象,而HRM²Avatar 能保持较为稳定的外观呈现,服饰细节在动作驱动过程中仍具备可辨识度。同时,在袖口、褶皱等高频区域,模型能够维持视觉上连续且合理的外观变化。值得注意的是,即使目标姿态未在扫描序列中出现,基于两阶段采集策略学习的姿态相关的外表建模仍能生成与动作一致的外观响应,没有出现明显视觉断层或重建不连续情况。

总体而言,Neuman 数据集实验表明,在具有动作变化和服饰结构复杂性的场景中,模型能够保持重建外观与姿态一致性,并具备跨姿态条件下的稳定表现。

消融实验

我们进一步进行了消融实验,以验证系统中各个组成模块对最终效果的影响。实验依次移除关键设计,包括显式服装网格、姿态相关的外表建模以及两阶段扫描协议,并在相同条件下比较生成结果。

图片

从定性结果可以看到,当移除显式服装网格时,重建表面在服饰边界区域出现不连续或拓扑模糊的情况,且局部细节难以保持一致。进一步移除姿态相关的外表建模后,模型在动作变化过程中易产生纹理漂移或不稳定现象,尤其在手臂抬起等较大姿态变化阶段更为明显。此外,若不采用两阶段扫描采集策略,仅依赖单序列输入,模型在训练阶段难以获得可靠的静态参考,表现为纹理分辨率下降以及动作驱动时局部外观变化不合理。

总体来看,消融实验表明,各设计模块在系统中均发挥必要作用:显式服装网格用于提供稳定的拓扑结构,姿态相关的外表建模对于跨姿态一致性至关重要,而两阶段扫描策略为重建细节和外观稳定性提供有效约束。

性能表现

我们评估了 HRM²Avatar 在移动端设备上的运行表现,并在 iPhone 15 Pro Max 与 Apple Vision Pro 上进行了实时驱动测试。实验使用相同渲染配置,并控制高斯数量以验证模型在不同数字人规模下的运行稳定性。

图片

在单个数字人配置下(约 53 万高斯点),系统能够在 iPhone 15 Pro Max 上以 2K 分辨率、120 FPS 稳定运行;多数字人场景下仍可保持实时表现,例如同时渲染三个数字人时,可达到 2K@30 FPS。在 Apple Vision Pro 上,系统同样实现了 2K@90 FPS 的实时渲染效果。

图片

我们进一步分析了各渲染优化策略对系统性能的影响,包括分级裁剪(Hierarchical Culling)、按需属性解码(On-demand Decoding)、深度量化排序(Depth Quantization)以及单通道视图渲染等策略。实验结果表明,这些设计能够有效降低计算与内存开销,使混合的高斯和网格表示能够在移动硬件上实现实时驱动。

整体来看,性能测试表明 HRM²Avatar 能够在移动设备上维持稳定的实时运行表现,同时兼顾高分辨率渲染质量与系统响应延迟,为实际交互场景部署提供可行性基础。

总结与展望

围绕 “让普通人也能拥有高质量数字人” 这一目标,我们提出了 HRM²Avatar,一种基于手机单目扫描,即可生成可动画、高保真数字人的系统方案。在真实应用场景中,HRM²Avatar 能够应对不同服饰结构、姿态变化与光照条件,在稳定性和一致性方面表现良好,为移动端数字人应用提供了可行技术路径。

我们也客观看待当前技术阶段,作为一项前沿探索,HRM²Avatar 仍然存在进一步优化空间。例如对于结构复杂或非固定拓扑的服饰(如飘带、宽松衣物等),重建精度仍有改善余地,此外在极端光照或动态遮挡场景下,效果仍有提升空间。这些也正是我们下一阶段持续投入攻关的方向。

HRM²Avatar 并不是 “终点”,而是我们推动:数字人从专业设备走向普通用户,从实验室能力走向真实应用场景过程中的一个重要里程碑。我们相信,随着算法、模型工程与硬件能力的共同进化,高质量、实时、可普及的数字人体验,将不再遥远。

团队介绍

我们是大淘宝技术 Meta Team,负责面向消费场景的 3D/XR 基础技术建设和创新应用探索,通过技术和应用创新找到以手机及 XR 新设备为载体的消费购物 3D/XR 新体验。团队在端智能、商品三维重建、3D 引擎、XR 引擎等方面有深厚的技术积累,同时在 OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI、SIGGRAPH 等顶级学术会议和期刊上发表了多篇论文。

...

#LiteGS

摩尔线程赢图形顶会3DGS挑战赛大奖,自研LiteGS全面开源

12 月 17 日,在香港举办的全球图形学领域备受瞩目的顶级学术盛会 SIGGRAPH Asia 2025 上,摩尔线程在 3D Gaussian Splatting Reconstruction Challenge(3DGS 重建挑战赛)中凭借自研技术 LiteGS 出色的算法实力和软硬件协同优化能力,斩获大赛银奖,再次证明摩尔线程在新一代图形渲染技术上的深度积累与学术界的高度认可。 

3DGS:下一代图形渲染的范式革命

开启 AI 加速的高效渲染时代

3D Gaussian Splatting(3DGS,三维高斯溅射)是 2023 年提出的一项革命性 3D 场景表示与渲染技术,以可参数化的 3D 高斯分布为核心,实现了画质、效率与资源占用之间的卓越平衡。与传统 NeRF 相比,3DGS 在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍,并在光线追踪、VR/AR 实时渲染、多模态融合等方向展现出极强的适应性与扩展性。

图片

(* 上图仅作示意)

作为近年来快速发展的神经渲染技术,3DGS 不仅在三维重建与实时渲染等方向展现出卓越优势,也在更广泛的 AI 场景中具备潜在的基础价值。尤其是在xx智能(Embodied AI)等需要智能体理解并与真实环境交互的前沿领域,高质量、低延迟的三维环境建模至关重要。3DGS 以其高保真场景显示、快速优化能力和轻量级结构,为构建准确的世界模型提供了可靠支撑,有助于提升路径规划、环境感知和复杂操作任务的能力。随着 AI 技术向 “理解并操作真实世界” 方向不断延展,3DGS 正逐渐成为xx智能训练场景中的关键基础技术之一。

正因其对未来图形学技术路线的关键意义,3DGS 已成为全球学术界与产业界竞相投入的研究方向,受到 SIGGRAPH Asia 等权威机构的高度关注。

极致挑战:60 秒高质量重建

推动 3DGS 技术走向实用化临界点

本次竞赛为参赛团队设置了极具挑战性的任务:参赛者需在 60 秒内,基于主办方提供的真实终端视频序列(10–30 秒)、存在误差的相机轨迹以及终端 SLAM 点云,在极短时间内完成完整的 3DGS 高质量重建。

图片

主办方以 PSNR(重建质量)与重建速度为综合评价指标,力求在完全公开、公正的条件下得出权威排名。

图片

目前 3D Gaussian Splatting Reconstruction Challenge(3DGS 重建挑战赛)的结果及数据集已向全球公开,相关资料可在 SIGGRAPH Asia 官方网站获取。

地址:https://gaplab.cuhk.edu.cn/projects/gsRaceSIGA2025/

摩尔线程的技术答卷

以全栈能力实现精度与速度的极致平衡

摩尔线程 AI 团队以参赛编号 “MT-AI” 进入决赛阶段,在重建精度与效率两项指标上取得均衡且亮眼的表现:

  • 平均 PSNR:27.58(位列前三)
  • 重建耗时:34 秒(显著领先多数队伍)

凭借行业领先的 3DGS 算法构建能力与软硬件协同优化优势,摩尔线程最终获得二等奖(银牌)的优秀成绩。

图片

开放协作

摩尔线程开源 3DGS 基础库 LiteGS

作为一种新兴的场景表示与新视角合成技术,3DGS 凭借高渲染质量与实时渲染速度,在计算机图形学与视觉领域实现了显著突破。该技术通过数以百万计的各向异性三维高斯基元来表示三维场景,以实现逼真的渲染效果,并在自动驾驶、虚拟现实、数字孪生等领域展现出巨大潜力。然而,尽管 3DGS 的渲染速度极快,其训练过程却往往需要数十分钟甚至数小时,成为制约其广泛应用的主要瓶颈。现有优化方案往往仅从单一层面入手,难以系统性地解决训练过程中的性能制约。

为此,摩尔线程自主研发了 3DGS 基础库 LiteGS,首次实现了从底层 GPU 系统、中层数据管理到高层算法设计的全链路协同优化:

  • 在 GPU 系统层面,摩尔线程创新提出基于 “One Warp Per Tile” 原则的 “Warp-Based Raster” 新范式,将梯度聚合简化为一次 Warp 内归约,并结合扫描线算法与混合精度策略,大幅降低梯度计算开销,同时实现高效的像素级统计能力;
  • 在数据管理层,引入 “聚类-剔除-压缩” 流水线,借助 Morton 编码以极低开销对高斯基元进行动态空间重排,显著提升数据局部性,减少缓存失效与 Warp 分支;
  • 在算法设计层,摒弃原有模糊的度量指标,采用更为鲁棒的像素不透明度梯度方差作为致密化的核心判据,精准识别欠拟合区域,其轻量化计算直接受益于底层光栅化器的高效统计支持。

图片

图片

通过系统与算法的协同优化,LiteGS 在训练效率与重建质量上均实现显著领先,树立了该领域新的性能标杆。

  • 在达到与当前质量最优方案同等水平时,LiteGS 可获得高达 10.8 倍的训练加速,且参数量减少一半以上。
  • 在相同参数量下,LiteGS 在 PSNR 指标上超出主流方案 0.2–0.4 dB,训练时间缩短 3.8 至 7 倍。
  • 针对轻量化模型,LiteGS 仅需原版 3DGS 约 10% 的训练时间与 20% 的参数量,即可实现同等质量,展现出卓越的工程实用性与技术前瞻性。

目前,LiteGS 已在 GitHub 平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进。

开源地址:https://github.com/MooreThreads/LiteGS

摩尔线程此次在国际图形学顶会赛事上的获奖,不止是一次竞赛胜利,更是准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现。作为图形学领域未来发展的重要方向,3DGS 技术对算法与硬件协同提出了极高要求。摩尔线程通过创新的算法设计、深度优化的自研硬件以及高效的软硬件协同,在本次赛事中展现了卓越的综合能力。这一成就,印证了摩尔线程在图形智能计算领域技术路径的前瞻性与工程可行性,并体现了公司将前沿研究快速转化为实践成果的强大执行力。

2025 年 12 月 20 日 - 21 日,摩尔线程将于首届 MUSA 开发者大会设立技术专题,深入探讨 3DGS 等图形智能技术如何塑造未来,赋能xx智能等前沿领域,诚邀您共同关注与探讨。

...

#VGGT4D

无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力?

来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。

图片

,时长00:18

作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。

  • 论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 论文链接:https://arxiv.org/abs/2511.19971
  • 项目主页: https://3dagentworld.github.io/vggt4d/
  • 代码链接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年来,以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而,面对包含移动物体(如行人、车辆)的动态 4D 场景时,这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。

现有的解决方案通常面临两类挑战:

  • 计算或训练成本高:依赖繁重的测试时优化 (Test-time Optimization) 或需要在大规模 4D 数据集上进行微调。
  • 依赖外部先验:通常需要引入光流、深度估计或语义分割等额外模块,增加了系统的复杂性。

VGGT4D 的核心设想:能否在不进行额外训练的前提下,直接从预训练的 3D 基础模型中挖掘出 4D 感知能力?

核心洞察:VGGT 内部的潜在运动线索

研究人员对 VGGT 的注意力机制进行了可视化分析,观察到一个关键现象:VGGT 的不同网络层对动态区域表现出截然不同的响应模式。

  • 浅层网络:倾向于捕捉语义上显著的动态物体。
  • 深层网络:则逐渐抑制几何不一致的区域。

图片

这一发现表明,VGGT 虽然是基于静态假设训练的,但其内部实际上已经 隐式编码 了丰富的动态线索。

然而,直接利用标准的注意力图 

图片

 效果并不理想,因为它混合了纹理、语义和运动信息,导致信噪比低,使得 Easi3R 等基于 Epipolar 假设的方法在 VGGT 架构上失效。

方法论:潜在运动线索的挖掘与解耦

VGGT4D 的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制。该方法深入特征流形内部,利用 Gram 矩阵和梯度流实现了高精度的动静分离。

图片

跨越投影间隙:基于 Gram 相似度的特征挖掘

研究团队首先分析了标准注意力图 

图片

 的局限性。由于 Q(Query)和 K(Key)向量来自异构的投影头,其特征分布存在天然的分布间隙(Distributional Gap),导致 Cross-Attention 主要响应语义对齐,而运动引起的微小特征扰动容易被掩盖。

为解决此问题,VGGT4D 引入了自相似性 Gram 矩阵来替代。通过在同构潜在分布内计算相似度,运动引起的方差成为了主导信号。模型通过在时间窗口 

图片

 内聚合不同层级的统计矩(均值 S 与方差 V),构建了动态显著性场:

图片

基于投影雅可比矩阵的梯度流精修

为了解决 Attention Map 分辨率不足导致的边界模糊问题,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。

定义 3D 点在视点 i 下的几何投影残差 

图片

 ,该残差关于 3D 坐标的梯度 

图片

 包含了极强的边界信息。由于该梯度依赖于投影雅可比矩阵(Projection Jacobians)和深度图的空间梯度,在动态物体边缘处会呈现显著的高频响应。聚合后的梯度能量函数如下所示,结合光度残差项,实现了对动态掩膜的亚像素级锐化:

图片

分布内早期掩膜策略(In-Distribution Early-Stage Masking)

在推理阶段,直接的全层掩膜(Full Masking)会将模型推向分布外(OOD)状态,导致性能下降。

VGGT4D 提出了一种早期阶段干预策略:仅在浅层抑制动态 Token 的 Key 向量。这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层 Transformer Block 依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性。

实验验证

研究团队针对动态物体分割、相机位姿估计和 4D 点云重建三大核心任务,在六个基准数据集上进行了详尽的定量和定性评估。

核心组件评估:动态物体分割性能

实验首先评估了该方法的核心组件:动态物体分割。

定量分析:VGGT4D 显著优于其他所有变体,在 DAVIS-2016 和 DAVIS-2017 数据集上均达到了最优性能。值得强调的是,即使没有经过任何 4D 特定的训练,该方法仅基于预训练的 VGGT 模型即可取得优异结果。虽然 

图片

 在 DAVIS-all 数据集上表现出具有竞争力的召回率,但这主要得益于 MonST3R 在光流上的后训练,而 VGGT4D 无需训练。

图片

定性分析:定性结果清晰地展示了基线方法的不足:Easi3R 的掩码较为粗糙且遗漏细节;DAS3R 倾向于过度分割并渗入静态背景;MonST3R 则常常分割不足。相比之下,VGGT4D 生成的掩码更加准确,且边界更加清晰。这些结果有力地验证了研究团队的假设:VGGT 的 Gram 相似度统计信息中嵌入了丰富的、可提取的运动线索。

图片

鲁棒性验证:相机位姿估计

强大的基线与持续改进:数据表明,原始 VGGT 已经是一个非常强大的基线,其自身就优于 MonST3R、DAS3R 等许多专门的 4D 重建方法。这表明 VGGT 的预训练隐式地使其对动态物体具有一定的鲁棒性。然而,这种鲁棒性并不完美。 VGGT4D 在所有数据集上均持续改进了这一强大的 VGGT 基线。例如在 VKITTI 数据集上,VGGT4D 的 ATE 仅为 0.164,而 MonST3R 高达 2.272。

图片

长序列鲁棒性突破:在极具挑战性的长序列 Point Odyssey 基准测试中,VGGT4D 在所有指标上均取得了最佳结果,同时保持了高度效率。许多其他 4D 方法由于内存不足(OOM)错误甚至无法在该 500 帧序列上运行。这表明 VGGT4D 提出的显式、无需训练的动态 - 静态分离方法成功地识别并消除了由运动引起的残余位姿不一致性,从而实现了更稳定、更准确的相机轨迹,尤其是在长且复杂的序列上。

图片

最终目标:4D 点云重建质量实验

在 DyCheck 数据集上的评估显示,VGGT4D 在所有重建指标(准确度、完整度和距离)上均取得了最佳性能。与 VGGT 基线相比,中位准确度误差从 0.009 降低到 0.004,平均距离从 0.150 降低到 0.123。这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量。

图片

图片

结语

VGGT4D 提出了一种无需训练的新范式,成功将 3D 基础模型的能力扩展至 4D 动态场景。该工作证明了通过合理挖掘模型内部的 Gram 相似度统计特性,可以有效解耦动态与静态信息。这不仅为低成本的 4D 重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力。

...

#iREPA

Adobe联合NYU提出iREPA:3 行代码,重塑生成模型“表征对齐”,空间结构才是关键!

  • 论文标题:What matters for Representation Alignment: Global Information or Spatial Structure?
  • 论文作者:Jaskirat Singh, Xingjian Leng, Zongze Wu, Liang Zheng, Richard Zhang, Eli Shechtman, Saining Xie
  • 作者机构:Adobe Research; ANU (澳大利亚国立大学); New York University (纽约大学)
  • 论文地址:https://arxiv.org/abs/2512.10794
  • 项目主页:https://end2end-diffusion.github.io/irepa
  • 代码仓库(很受关注!开源几小时,星标直线上升中):https://github.com/end2end-diffusion/irepa

大家好,今天要分享的这篇论文非常有趣,它可能会改变我们对扩散模型训练中“表征对齐”(Representation Alignment)的认知。

在扩散模型的训练中,引入预训练视觉编码器(如 DINOv2, CLIP)的特征来指导生成模型,已经成为一种加速收敛、提升质量的主流手段(如 REPA 方法)。长期以来,大家普遍认为:预训练编码器的 ImageNet 分类精度越高(代表全局语义信息越强),对生成模型的帮助就越大。

然而,来自 Adobe Research、澳大利亚国立大学和纽约大学的研究者们说:“No,你们可能搞错了。”

这篇题为 "What matters for Representation Alignment: Global Information or Spatial Structure?" 的论文,通过大规模实证分析得出了一个颠覆性的结论:决定生成质量的关键不是全局语义信息(Global Semantic Information),而是空间结构(Spatial Structure)。

基于这一发现,作者提出了一种极其简单的改进方法 —— iREPA,仅需不到 4 行代码的修改,就能在各种设置下显著提升扩散模型的训练效率和生成效果。

颠覆常识:ImageNet 精度高  生成效果好

研究团队首先对 27 种不同的视觉编码器进行了大规模分析,发现了一些令人惊讶的现象:

  1. 高精度模型的生成效果反而差:比如 PE-Core-G 模型在 ImageNet 上的 Linear Probing 准确率高达 82.8%,但用它做 REPA 对齐训练出的生成模型,FID 分数(越低越好)反而比准确率只有 53.1% 的 PE-Spatial-B 模型要差。
  2. “弱”模型表现惊人:SAM2(Segment Anything Model 2)的 ImageNet 分类精度极低(只有约 24%),但用它辅助训练的扩散模型,生成效果却优于很多 ImageNet 精度 60%+ 的编码器。
  3. 大模型不一定更好:同一家族的模型,参数量变大(如 DINOv2-L vs DINOv2-G),ImageNet 精度提升了,但生成质量往往持平甚至变差。

为了进一步验证,研究者还做了一个“捣乱”实验:人为地把全局语义信息(CLS Token)混合到局部 Patch Token 中。结果发现,随着混合比例增加,Linear Probing 精度稳步上升,但生成模型的 FID 却越来越差!

这一切都指向一个结论:盲目追求全局语义信息,可能会损害对生成模型至关重要的空间特征。

核心发现:空间结构才是王道

如果不是全局语义,那什么才是关键?作者提出,空间结构(Spatial Structure)——即 Patch Token 之间的成对余弦相似度关系——才是决定性因素。

为了量化这一点,作者引入了几种简单的空间自相似性度量指标(Spatial Self-Similarity Metrics),例如:

  • LDS (Local vs. Distant Similarity) :衡量近距离 Patch 的相似度是否显著高于远距离 Patch。
  • SSM (Spatial Structure Metric) :基于语义区域的相似度分析。

相关性分析的结果令人震惊:

  • Linear Probing 精度与生成质量(FID)的相关系数仅为 0.26(弱相关)。
  • 而空间结构指标(LDS, SSM 等)与生成质量的相关系数高达 0.85 以上(强相关)!

这意味着,一个能够很好地保留图像局部空间关系(比如番茄是圆的、红的,且纹理连续)的编码器,远比一个能准确告诉你“这是一张番茄图”的编码器,对扩散模型更有帮助。

iREPA:不到 4 行代码的极简改进

基于“空间结构最重要”的洞察,作者提出了 iREPA,对原有的 REPA 方法做了两点极简的改动,旨在强化空间信息的传输

1. 用卷积代替 MLP 投影 (Convolutional Projection)

原本的 REPA 使用 MLP 将扩散模型的特征映射到目标编码器的维度。作者指出,MLP 是空间无关的,容易丢失空间信息。改进:改用一个简单的  卷积层。卷积具有天然的空间归纳偏置,能更好地保留局部空间关系。

# Before: MLP
proj_layer = nn.Linear(D_in, D_out)

# After: Conv (iREPA)
proj_layer = nn.Conv2d(D_in, D_out, kernel_size=3, padding=1)

2. 空间归一化 (Spatial Normalization)

预训练编码器(特别是像 DINOv2 这种)的 Patch Token 往往包含很强的全局成分(Global Component),导致不同区域的 Token 相似度过高(比如前景和背景都很像),降低了空间对比度。改进:对目标特征进行空间归一化,减去空间均值并除以标准差。这相当于移除了“共有”的全局信息,突出了“特有”的局部空间结构。

# iREPA: Spatial normalization on encoder features [B, T, D]
x = x - gamma * x.mean(dim=1, keepdim=True)
x = x / (x.std(dim=1, keepdim=True) + 1e-6)

就是这么简单!这就是 iREPA 的全部秘诀。

实验结果:全面提升

虽然改动极小,但效果却非常显著。作者在 ImageNet-256 和 ImageNet-512 等任务上进行了广泛验证:

  • 收敛速度大幅提升:如图 7 所示,使用 iREPA 后,FID 下降曲线明显更陡峭,收敛速度显著快于基线 REPA。
  • 生成质量一致改善:无论是使用 DINOv2、DINOv3、WebSSL 还是 CLIP 作为编码器,iREPA 都能稳定提升生成指标(FID, IS)。
  • 跨模型、跨方法通用:这些改进不仅适用于标准的 SiT 模型,也适用于 REPA-E、MeanFlow、JiT 等不同的训练范式,以及不同大小的模型(SiT-B 到 SiT-XL)。

此外,消融实验表明,卷积投影和空间归一化这两个组件缺一不可,二者结合效果最好(见 Table 2)。

总结与思考

这篇文章虽然方法简单,但其贡献在于捅破了一层窗户纸。它强有力地证明了在生成任务中,我们应该重新审视预训练特征的价值——结构重于语义。

...

#E-RayZer

仅用视频训练,3D视觉自监督模型终获成功

介绍一篇今天刚挂在arXiv上的重磅论文——E-RayZer,它可能将成为3D视觉领域的一个重要里程碑。

我们知道,在大语言模型(LLM)和2D视觉领域,自监督预训练(Self-supervised Pre-training)早就称王称霸了(想想BERT、GPT、MAE、DINO)。只要把海量数据喂进去,模型自己就能学会理解语言或图像。

但在3D视觉领域,事情就没那么简单了。主流方法(如VGGT, DUSt3R)仍然极度依赖COLMAP生成的伪标签(即Pose和Dense Depth)进行监督训练。这就像是还在用“有监督学习”的旧地图,试图寻找通往“3D大模型”的新大陆。

来自 Adobe Research 和 CMU 等机构的研究者们针对该问题给出了一个看起来很有前途的方案。

  • 论文标题:E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
  • 论文作者:Qitao Zhao, Hao Tan, Qianqian Wang, Sai Bi, Kai Zhang, Kalyan Sunkavalli, Shubham Tulsiani, Hanwen Jiang
  • 作者机构:卡内基梅隆大学; Adobe Research;哈佛大学
  • 论文地址:https://arxiv.org/abs/2512.10950
  • 项目主页:https://qitaozhao.github.io/E-RayZer

他们提出了 E-RayZer——世界上第一个真正意义上的自监督前馈3D高斯重建模型。它不需要任何3D标注(Pose、Depth统统不要),仅凭海量无标签视频,就能通过显式几何(Explicit Geometry)的约束,“自学”成才,理解三维世界。

更令人震惊的是,作为一个自监督模型,它不仅在3D重建和Pose估计上超越了它的前辈 RayZer(隐式3D方法),甚至在很多指标上打平甚至超越了全监督学习的SOTA模型(如VGGT)

为什么要“显式”?E-RayZer 的核心洞察

E-RayZer 的前身是一个叫 RayZer 的工作。RayZer 虽然也是自监督的,但它走的是隐式(Implicit)路线:在Latent Space里通过Transformer做新视图合成(Novel View Synthesis)。

这听起来很美好,但 RayZer 有个致命弱点:它太像一个“视频插帧”模型了。它学会了怎么在两个视角之间平滑过渡,但它并没有真正理解3D几何。它的“3D意识”是肤浅的,生成的Pose空间也乱七八糟,无法解释。

E-RayZer 中的 "E" 代表 "Explicit"(显式)

作者认为:3D归纳偏置(Inductive Bias)是必须的,但不能通过强监督标签给,而要通过模型架构本身给。

于是,E-RayZer 做了一个关键改变:直接预测显式的3D高斯(3D Gaussians)

  • 输入:一堆无姿态的图片。
  • 中间:预测相机姿态(Pose)和 3D Gaussians(位置、旋转、颜色、不透明度)。
  • 输出:把这些 Gaussians 渲染回图片,计算光度误差(Photometric Loss)作为自监督信号。

因为3D Gaussians遵循物理渲染法则,模型如果想让渲染出来的图片对得上,它就必须被迫学会正确的3D几何结构,而不是像 RayZer 那样靠“插帧”作弊。

自监督训练的拦路虎与解法:视觉重叠课程学习

虽然显式3D是个好主意,但训练起来极其困难。RayZer 的论文里就提到,如果直接上显式3D,模型根本不收敛。

E-RayZer 的另一大贡献是提出了一套能够让模型走上“正道”的细粒度课程学习(Fine-grained Curriculum)策略。

这套策略的核心是一个概念:视觉重叠(Visual Overlap)

作者发现,单纯按“帧间隔”来安排训练难度是不靠谱的。因为有的视频动得快,有的动得慢(如图3所示)。E-RayZer 提出用“视觉重叠度”来动态调整训练难度:

  1. Start Easy:先从重叠度极高(几乎没动)的帧开始训练。这时候模型很容易猜对Pose,不容易跑偏。
  2. Go Hard:随着训练进行,逐渐降低重叠度要求,让模型挑战大基线、大视角的重建。

为了实现全自动,作者甚至设计了两种无需人工标注的重叠度计算方法:

  • Geometric Overlap (基于 UFM 的这视域)
  • Semantic Overlap (基于 DINOv2 的余弦相似度)

这套课程学习策略不仅让 E-RayZer 起死回生(成功收敛),还让它具备了极强的数据扩展性(Scalability),可以混合七八个不同的数据集(DL3DV, RE10K, ScanNet++ 等)一起训练。

实验结果:全方位碾压

E-RayZer 的表现可以用“令人咋舌”来形容。

1. 吊打前任 RayZer

在自监督Pose估计上,E-RayZer 相比 RayZer 简直是降维打击。

  • 在ScanNet++上,RayZer 的 Pose Accuracy (@15°) 是 0.7,而 E-RayZer 是 33.6
  • 在DL3DV上,RayZer 是 0.6,E-RayZer 是 88.4。 这证明了 Explicit 3D Geometry 确实带来了真正的物理理解。

2. 硬刚监督学习 SOTA (VGGT)

更离谱的是,E-RayZer(自监督)在很多OutOfDomain数据集上,表现甚至超过了 VGGT(全监督)。

  • 在 7-Scenes, BlendedMVS, ScanNet++ 等数据集的零样本测试中,E-RayZer 的姿态精度经常优于 VGGT*。
  • 而且,如果你拿 E-RayZer 的权重去微调 VGGT,效果会进一步大幅提升(上表第三行)。这说明自监督学到的特征和监督学习是互补的。

3. 最强 3D 视觉预训练模型

作者还将 E-RayZer 的 Encoder 拿出来做 Downstream Tasks(深度估计、Pose回归等),并与 DINOv3, CroCo v2, VideoMAE V2 等顶流预训练模型对比。 结果(见上表)显而易见:E-RayZer 全面大幅的毫无争议的胜出

  • 在 ScanNet++ 深度估计上,E-RayZer (Frozen) 的 AbsRel 误差仅为 0.116,远好于 RayZer (0.161) 和 VideoMAE V2 (0.175)。

这标志着:3D视觉社区终于迎来适合自己的自监督基础模型!

一点思考

文本的自监督学习,带来了GPT系列极大的成功,图像的自监督学习让视觉社区各种下游任务受益,而本文提出的通过视频训练3D视觉的自监督模型 E-RayZer,可能会很快启发和惠及整个3D视觉领域的各种任务。

作者已经把代码开源了:

...

#FaithFusion

即插即用的生成重建统一框架(百度&南大)

破解核心痛点:生成式重建中的几何一致性与创造性平衡

图片

无论是物体级还是场景级三维任务,“重建” 与 “生成” 的融合始终面临核心矛盾:如何兼顾生成的创造性与多样性,同时保障几何重建对原始观测的保真度。在三维场景重建领域,3D 高斯泼溅(3DGS)的高保真几何能力与扩散模型(Diffusion)的外观生成能力结合,已是新视角合成的主流路径,但因缺乏像素级、3D 空间一致的编辑准则,常出现过修复(篡改可信区域)和几何漂移(未观测区域失真)问题。

为缓解这一矛盾,现有方法多采用 “外部约束” 范式:要么从生成侧引入 LiDAR、HDMap 等外部先验限制 Diffusion 自由度,要么改造 3DGS 重建侧强化保真。但这类方案依赖额外输入或定制化改造,既抬高落地成本,也限制了通用性。

FaithFusion 的核心突破的是跳出 “外部依赖”,从 3DGS 模型自身挖掘内在指导信号。其摒弃经验性启发式规则,引入像素级预期信息增益(EIG) 这一信息论指标作为融合策略 ——EIG 量化 “对 3DGS 像素进行 Diffusion 编辑后,能带来的几何 / 外观信息价值增量”,将人工经验决策转化为可计算的客观标准。

在框架中,EIG 扮演 “精准指挥家” 角色,通过双向加权闭环实现 “生成 / 保持” 精准决策:生成侧以 EIG 为空间先验,抑制低增益可信区域编辑、保留几何,同时引导 Diffusion 聚焦高增益缺陷区域进行创造性修复;重建侧将 EIG 作为像素级损失权重,降低低增益区域监督强度,让 3DGS 优先吸收高价值修复信息,避免被噪声干扰。这一策略不仅解决了 “保真 - 创造” 平衡问题,更让 FaithFusion 成为无需额外条件即插即用的通用框架 —— 无需改造 3DGS 即可适配多维度任务,性能比肩甚至超越依赖外部先验的复杂方法,且在 Waymo 街景外扩任务中实现 SOTA 性能。

从更广视角看,FaithFusion 的思路可迁移至图像 / 视频修复、Text-to-3D/4D 等需 “保持观测稳定 + 引入生成能力” 的场景,尤其适用于三维目标不可见区域补全、场景迭代外扩等需求。目前其代码已完全开源,可直接适配各类三维任务。

论文名称: FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

论文地址:​​ https://arxiv.org/abs/2511.21113​​

项目主页:​​ https://shalfun.github.io/faithfusion​​

代码链接:​​ https://github.com/wangyuanbiubiubiu/FaithFusion​​

FaithFusion的核心技术:EIG驱动的三阶段执行框架

FaithFusion 的关键突破在于将抽象的像素级预期信息增益(EIG)概念转化为可实际运行的技术架构——通过 EIGent 模块和渐进式训练循环,将信息论的理论指导转化为“精准修复、保真重建”的实际效果。

图片

预期信息增益 (EIG):从理论到应用的三层递进推导

EIG 是整个框架的核心指导机制,其核心作用是精准评估每个像素的 3DGS 渲染可信度与修复必要性——本质上是量化“Diffusion 修复结果能为 3DGS 模型参数减少多少不确定性”,为“应该生成新内容还是保留原有信息”提供理论依据。整个推导过程严格遵循补充材料 A.3 的逻辑体系,通过三个关键步骤完成从理论到实际应用的闭环:

核心挑战:传统 EIG 依赖 GT 导致无法实际应用

EIG 的本质是 3DGS 模型参数 Ω 与新观测数据(真实 GT 像素 )之间的互信息:

图片

在原始定义中,EIG 的计算必须依赖真实观测数据(GT) 来衡量“新观测带来的不确定性降低程度”——但在新视角合成场景中,GT 数据是完全不可获取的(我们的目标正是生成这些未观测的视角)。这是我们需要解决的首要技术障碍。

第一步推导:GT 替代方案的构建

这是 FaithFusion 能够落地应用的核心前提!我们通过拉普拉斯近似方法,实现了从“依赖 GT”到“依赖 3DGS 渲染结果”的关键转变——首先将 3DGS 参数的后验分布建模为高斯分布 ,此时 3DGS 的渲染结果  成为参数的确定性函数;由于渲染结果与 GT 共享相同的参数依赖关系,其对应的 Fisher 信息可以等价地反映参数的不确定性,因此可以直接作为“真实观测 GT 的替代”;最终,EIG 的计算完全摆脱了对 GT 的依赖,仅通过 3DGS 自身的渲染结果和参数 Hessian 矩阵就能完成!

第二步推导:熵值的工程化近似

解决了 GT 依赖问题后,下一步是让计算变得可行!我们基于高斯后验分布的假设,代入高斯分布的微分熵公式 ,将抽象的熵值概念转化为可计算的矩阵行列式形式;同时清晰地区分了“先验观测信息”(对应参数的初始不确定性)和“后验观测信息”(融合修复后获得的新信息),最终得到简化后的 EIG 表达式,使复杂的不确定性计算变得在工程上可实现!

图片

第三步推导:像素级计算的实现

这一步直接实现了“精准到像素”的指导机制!我们首先利用 log-det 不等式,将 EIG 近似为“参数协方差矩阵与观测 Fisher 信息矩阵乘积的迹”,大幅降低了计算复杂度;然后借助 Fisher 信息的可加性原理,将全局 EIG 分解为每个像素的局部贡献——沿着每条渲染光线累积 3D 高斯基元的 Fisher 信息,使每个像素的 EIG 值都能精准对应其在 3D 几何层面的不确定性,最终得到像素级的计算公式:

图片

实验验证:EIG 替代方案与重建质量高度相关

理论分析再完善,实验验证才是最有力的证明!下图清晰地展示了:EIG 与新视角合成质量(PSNR)之间存在高度相关性,高 EIG 值对应着伪影、未观测区域等低质量区域,而低 EIG 值则对应着高置信度的清晰区域;当我们掩盖掉高 EIG 区域的像素后,图像质量得到了显著提升!这双重验证结果表明,我们提出的 EIG 替代方案完全有效,无需 GT 数据也能精准捕捉 3DGS 重建中的缺陷,成为“哪些区域需要修复、哪些区域应该保留”的智能决策依据!

图片

EIGent 模块:双分支智能修复引擎

EIGent 是实现 EIG 策略的“技术载体”,是一个专门为像素级引导设计的双分支神经网络架构。它不只是一个简单的修复工具,而是一个受 EIG 信号直接调控的“智能修复系统”,旨在充分利用 Video DiT 强大生成能力的同时,通过 EIG 信号精确界定生成边界,避免无意义的“凭空捏造”。

图片

  • 核心工作原理:输入 3DGS 渲染图像和对应的 EIG 图,动态生成编辑掩码 M——高 EIG 区域被标记为可编辑区域,低 EIG 区域则被标记为保护区域,从根本上杜绝了过修复问题;
  • EIGent 内部配备了一个轻量级的上下文编码器(Context Encoder)用于提取稳定的背景特征。EIG 图在此处被转化为二值掩码 M,用于隔离高不确定性区域,防止其影响稳定的背景上下文。这一设计确保模型仅在“真正需要修复”的区域发挥创造力,而在“信息可靠”的区域严格保持原有内容。
  • 双分支结构设计:
  • 为了弥补 Video DiT 在精细纹理生成上的不足,EIGent 引入了 DIFIX3D+ 提供的潜在特征作为辅助修复线索。这相当于为生成模型配备了一个“细节增强器”,确保生成的车道线、路面纹理等细微结构具有高度的真实感。
  • 该分支采用预训练的 Video DiT 作为主干网络,负责处理高层语义信息和时空连贯性。它通过交叉注意力机制接收来自 Context 分支的特征输入,确保生成的内容在时间维度上平滑过渡,有效解决了传统单帧修复方法容易导致的画面闪烁问题。
  1. 粗粒度修复分支(Video DiT):确保连续帧之间的时空一致性,避免修复结果出现跳变;
  2. 细粒度增强分支(DIFIX3D+):提升单帧图像的感知质量,细化纹理细节;
  • 技术优势:无需任何额外的先验信息,仅凭 EIG 替代信号就能实现精准的“修复/保留”决策。

三阶段渐进式训练循环:安全的知识融合机制

如何将 EIGent 修复后的优质图像信息有效整合到 3DGS 模型中,同时确保不破坏已有的精确几何结构?FaithFusion 设计了一套创新的渐进式知识融合循环(Progressive Knowledge Integration),通过迭代优化过程,将 Diffusion 模型的修复能力“无几何漂移”地迁移到 3DGS 中。

  1. 新视角渲染与问题定位:从当前的 3DGS 模型中渲染出目标偏移视角(例如向左/向右偏移 3m/6m 的车道场景)的图像,并同步计算每个像素的 EIG 值。这一过程相当于对 3DGS 模型进行一次全面的“诊断扫描”,生成的 EIG 图就像一张“问题定位地图”,精确标记出哪些区域是“信息盲区”(高不确定性区域),哪些区域是“信息可靠区”(低不确定性区域)。
  2. EIG引导的精准修复:将上一步得到的“渲染图像 + EIG 图”输入到 EIGent 模块中,EIGent 仅对高 EIG 区域进行针对性修复,输出与原始几何结构高度一致的修复图像(伪GT)。生成的修复图像既包含了 Diffusion 模型生成的合理细节,又严格保持了 3DGS 原有的几何投影关系,实现了修复内容与原始结构的精准对齐。
  3. 基于EIG的智能模型更新
    这是防止几何漂移的关键环节。我们不采用直接用修复图监督 3DGS 的简单方式,而是引入了基于 EIG 的自适应加权损失函数:

  • (归一化 EIG 权重):这是智能更新的核心控制因子。
  • 高 EIG 区域:分配较高的损失权重,促使 3DGS 模型优先学习 EIGent 生成的高质量修复信息,有效填补未观测区域的知识空白。
  • 低 EIG 区域:分配极低的损失权重,防止 3DGS 模型“遗忘”已有的准确几何知识,同时避免 Diffusion 模型的微小噪声对可靠区域造成干扰。

为了进一步增强几何结构的稳定性,我们还引入了稀疏深度监督机制,最终的总损失函数为:

通过这种“渲染诊断 -> 精准修复 -> 智能更新”的闭环机制,FaithFusion 实现了生成能力向重建模型的无缝迁移,在每一次迭代中持续提升模型的几何稳定性和外观保真度。

SOTA 性能验证

为了验证 FaithFusion 的硬实力,作者在 Waymo Open Dataset 上进行了严苛的测试,特别是在极具挑战性的 6米大偏移变道(Lane Shift @ 6m) 任务上进行了全面对比。

  1. 定量指标:实验对比了包括 OmniRe、FreeVS 以及最新的融合方法 ReconDreamer++、DIFIX3D+。如Table 1所示:
  • FID (图像质量):在 6m 偏移下,FaithFusion 的 FID 降至 107.47 ,比次优的 DIFIX3D+ (111.92) 和 ReconDreamer++ (115+) 都有显著下降。这说明生成的图像更逼真、伪影更少。
  • NTA-IoU (动态物体一致性) & NTL-IoU (车道线几何一致性):这两项指标分别达到了 0.517 和 55.78 ,均达到 SOTA 水平。这证明 FaithFusion 不仅“画得好看”,而且“位置画得准”,没有发生车辆漂移或车道线扭曲。

图片

  1. 定性对比:在 6m 变道这种极端视角下,现有方法往往会出现严重的几何崩坏。从可视化结果可以看出:
  • ReconDreamer++ 等方法:出现了明显的地面弯曲(Ground Bending)、建筑物歪斜以及语义不一致(如路面莫名出现白色伪影)。
  • FaithFusion:引入 EIG 引导后,低质量的过修复被显著抑制;最终版本实现了全局的几何稳定性和纹理保真,能够生成清晰的车道线和正确的路沿结构,彻底解决了“由于生成而导致的几何漂移”问题 。

图片

  1. 消融实验-EIG的'魔力':为了更精准地量化各组件的贡献,作者并未止步于全局指标,而是利用 EIG 将图像划分为 欠约束区域 (UCR) 和 高置信度区域 (HPR),引入了细粒度的 FID-UCR 和 FID-HPR 指标。

图片

基于该评估标准,实验进一步证明,仅引入 EIG 引导(+EIG w/ DIFIX3D+)就能使 FID 下降约 1.23;而引入完整的 EIGent 双分支后,FID 进一步大幅下降 。这充分证明了 EIG 作为“信息论指挥棒”在平衡重建与生成中的核心作用。

图片

可视化表现

口说无凭,直接看图。以下 GIF 展示了 FaithFusion 在 Waymo 场景下进行 3米 和 6米 虚拟变道的效果。注意观察画面边缘的未观测区域,FaithFusion 能够生成极其稳定的几何结构。

图片

sample 005 Lane Shift @ 3m

图片

sample 005 Lane Shift @ 6m

图片

sample 018 Lane Shift @ 3m

图片

sample 018 Lane Shift @ 6m

图片

sample 027 Lane Shift @ 3m

图片

sample 027 Lane Shift @ 6m

图片

图片

图片

不同方法在 Lane Shift @ 6m结果对比

结论与展望

FaithFusion 提出了一种全新的视角——用信息论指标(EIG)来统一重建与生成。它证明了我们不需要堆砌昂贵的外部先验(LiDAR/HDMap),仅挖掘模型内部的不确定性,就能实现高质量的可控生成。

延伸思考:FaithFusion 的 EIG 打通了与主动建图的技术关联——二者核心都是 “基于信息增益的智能决策”!主动建图靠量化视角信息增益选最优观测,EIG 则聚焦像素级修复价值,同源同宗的逻辑让提效策略完全可迁移:比如借鉴 “视角选择” 做修复区域优先级排序,用 “信息增益阈值” 实现迭代智能终止,靠 “多视角协同” 提升全局一致性。这波跨领域联动,有望让渐进式修复从 “盲目迭代” 升级为 “精准高效”,进一步释放 EIG 的价值!

...

#OmniVGGT

VGGT再升级,支持任意模态输入!视觉三维重建新SOTA!

OmniVGGT 通过轻量 GeoAdapter 零卷积注入相机参数/深度等任意模态,RGB 即刷新单目深度、位姿与重建 SOTA,加 30% 深度再降 69% AbsRel,推理比 Pow3R 快 30 倍。

标题:OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

作者:Haosong Peng, Hao Li, Yalun Dai, Yushi Lan, Yihang Luo, Tianyu Qi, Zhengshen Zhang, Yufeng Zhan, Junfei Zhang, Wenchao Xu, Ziwei Liu

来源:arxiv 2025

论文链接:​https://arxiv.org/abs/2511.10560​

代码链接:​https://livioni.github.io/OmniVGGT-official​

概述

通用 3D 基础模型已开启统一各类视觉任务的趋势,但多数模型仅采用 RGB 图像输入,忽略了易于获取的几何线索(如相机内参、位姿和深度图)。

与大型语言模型革新自然语言处理领域类似,构建通用 3D 感知模型(如 VGGT)正成为 3D 视觉领域的新范式。不同于传统方法专注于解决特定任务(如单目和立体深度估计、位姿估计或新视角合成),近期方法已展示出通过前馈架构统一处理所有这些任务的巨大潜力。尽管这些通用解决方案旨在为各类 3D 下游任务建立统一表征,但它们通常忽视了对多样化输入模态的统一。

多数方法仅限于接受 RGB 图像输入,忽略了 3D 视觉中常见的丰富多模态输入(如深度图和相机位姿)。Pow3R尝试整合多模态输入,但最多仅能处理两种输入。然而,在实际 3D 视觉应用中,往往可获取任意数量的多模态输入。因此,能否无缝利用这些可获取的多模态输入提升模型性能至关重要。

为解决这一问题,本文提出 OmniVGGT,其灵活的输入方案可在有可用信息时利用任意数量的各类几何模态。首先,本文引入轻量级 GeoAdapter,有效整合几何线索(深度和相机参数)。一个关键挑战在于这些模态的特性差异:与提供密集逐像素空间线索的深度图不同,相机位姿是全局属性。

因此,直接注入编码后的 3D 相机信息可能破坏大规模基础模型的特征空间,导致训练初期出现严重问题。为缓解这一问题并保留基础模型的高质量特征表征,本文采用零卷积处理相机位姿,使适配器参数从零开始逐步初始化。该策略确保了训练稳定性,维持了基础模型的优异表征能力,且新增计算开销微乎其微。

本文的轻量级设计保证了即使添加多个输入,OmniVGGT 的推理速度仍与原始 VGGT 相当。其次,借助随机多模态融合策略,OmniVGGT 在测试时可利用任意数量的几何模态输入,与原始 VGGT 和 Pow3R 相比,实用性和通用性显著提升。值得注意的是,该随机策略使模型能从多样化辅助模态中学习更具泛化性和鲁棒性的 3D 空间表征,而非仅仅拟合额外的 3D 信息。

在各类 3D 视觉任务(如单目 / 多视图深度估计、多视图立体匹配和相机位姿估计)上的大量实验表明,本文的方法不仅在提供辅助模态输入时显著优于现有方法,仅用 RGB 输入时也超越了最先进方法。此外,为充分验证模型的实用价值,本文将 OmniVGGT 与 VLA 模型集成,并进行了大量机器人操作实验。评估结果显示,增强后的 VLA 模型与基于点云的原始基线模型相比,具备更优的空间理解能力,同时能够利用可获取的辅助输入(如深度),在机器人任务中实现稳定性能提升。

01 方法

1.1 OmniVGGT 概述

图2. OmniVGGT概述

图2. OmniVGGT概述

如图 2 所示,OmniVGGT 接收图像集,以及任意数量的辅助输入(如相机参数和深度图),以指导更精确、鲁棒的 3D 场景重建。每张图像可能关联已知相机参数(即内参和位姿),或已知深度图及对应的有效深度掩码。所有图像同时输入 OmniVGGT 网络,该网络充分利用可用的相机参数和深度图,以端到端方式输出预测的 3D 点图、完整的相机位姿和内参、深度图以及对应的置信度图。

1.2 用于随机多模态输入的 GeoAdapter

本文的轻量级 GeoAdapter 由相机适配器和深度适配器组成,两者均包含辅助几何信息归一化、编码和注入步骤,可将先验信息无缝整合到编码器中,实现更有效的特征融合。

1.2.1 相机适配器

首先,给定一组相机内参和位姿,本文先将坐标系原点与第一个相机对齐,然后计算其余相机到原点的平均距离,作为缩放因子对所有相机位姿进行归一化。公式如下:

图片

其次,将内参和归一化后的位姿参数化为特征向量 K, G,得到g= q, t, f,其中q表示旋转四元数,t 表示平移向量,f 表示视场角。之后,将 g 输入专用相机编码器,得到辅助相机令牌:

图片

对于无相机信息的图像,使用零向量作为相机占位符令牌,替代缺失的辅助相机令牌。第三,将所有辅助相机令牌通过零卷积层,然后将处理后的令牌与原始相机令牌相加:

图片

其中mi是二进制指示符,图像有辅助相机参数时为 1,否则为 0。

1.2.2 深度适配器

首先,对辅助深度图进行批次级归一化。对于每个深度图,利用对应的掩码识别有效像素,然后通过批次中所有有效像素的平均深度值对有效深度进行归一化,并沿通道维度拼接:

图片

其次,将 X 输入深度编码器,得到辅助深度令牌。该编码器包含一个专用卷积层,用于对 X 进行令牌化,并与空间令牌的维度对齐:

图片

对于无参考深度信息的图像,使用单独的深度占位符令牌替代。第三,将辅助深度令牌和占位符令牌直接添加到对应的空间令牌中:

图片

其中ni是二进制指示符,图像有辅助深度图时为 1,否则为 0。通过大量消融实验发现,在深度分支上添加额外的零卷积层是多余的,因为这会破坏深度信息的有效整合。

02 实验

2.1 数据集

本文使用 19 个公开数据集的图像训练模型,包括:ARKitScenes、BlendedMVS、DL3DV、Dynamic Replica、HyperSim、Kubric、MapFree、MegaDepth、Matterport 3D、MVS-Synth、ScanNet、ScanNet++、Spring、TartanAir、UASOL、Unreal 4K、Virtual KITTI、Waymo、WildRGBD。这些数据集涵盖合成和真实世界内容、室内和室外环境以及静态和动态场景,多样化的构成确保了 OmniVGGT 的强泛化能力。

2.2 评估指标

深度评估采用绝对相对误差(Abs Rel)和内点比例;相机位姿估计采用相对旋转精度(RRA)和相对平移精度(RTA),分别计算每对图像的旋转和平移相对角度误差,AUC 为不同阈值下 RRA 和 RTA 最小值的精度阈值曲线下面积;3D 重建采用标准指标精度(Acc)、完整性(Comp)和法向一致性(NC)。

表1.辅助信息注入的影响

表1.辅助信息注入的影响

图3. OmniVGGT与不同辅助信息的可视化结果

图3. OmniVGGT与不同辅助信息的可视化结果

2.3 辅助信息引导

本文在 Sintel 数据集上进行零样本评估,以展示注入任意比例辅助信息对相机位姿和深度预测的影响。具体而言,从 100 个场景中随机采样 10 张图像,所有图像调整为固定宽度 518 像素,宽高比调整为与训练时最接近的比例,报告所有样本的平均值。

如表 1 所示,即使在无辅助信息的情况下,本文的方法也优于 VGGT 基线。此外,本文的方法具有强可扩展性,随着可用真实相机或深度信息比例的增加,所有指标均持续提升。例如,仅融入 30% 的深度信息,绝对相对误差(Abs. Rel)就降低了 69.71%。而且,融入辅助深度信息时,本文的方法在位姿估计上也取得了显著提升。这进一步表明,本文的方法通过辅助线索增强了空间表征的准确性,而非仅仅学习从输入到输出的直接映射。

图 3 的定性结果进一步证实了这一观察:提供辅助位姿信息不仅能得到更准确的位姿预测,还能生成更真实的几何表征;同时,提供辅助深度信息可增强几何细节,提高多视图位姿对齐精度。

2.4 单目深度估计

本文在 Sintel、Bonn和 NYU-v2 数据集上评估单目深度估计性能。这些数据集涵盖动态和静态、室内和室外、真实和合成数据,均未用于训练,适合评估不同领域的零样本性能。

表2.单帧深度评估

表2.单帧深度评估

如表 2 所示,本文的方法在 Sintel 和 NYU-v2 数据集上均取得了优异性能,即使无任何辅助信息,深度估计的指标也比基线分别提升 0.5 和 1.0。

2.5 多视图深度估计

本文在 ScanNet 、ETH3D 、DTU 和 Tanks and Temples 数据集上评估多视图深度性能。

表3.多视图深度评估

表3.多视图深度评估

详细结果如表 3 所示,本文的方法在准确性和鲁棒性上均持续优于现有方法。无任何辅助信息时,在 ScanNet 数据集上已取得优异结果,在 ETH3D 和 DTU 数据集上的得分与现有方法相当或更优。此外,融入辅助深度监督(w/D)后,所有数据集的性能均显著提升,在 ETH3D 和 DTU 数据集上达到近乎完美的相关性。

2.6 相机位姿估计

本文在 Co3Dv2 和 RealEstate10K 数据集上评估 OmniVGGT 的相机位姿预测性能。

表4. RealEstate10K 和CO3Dv2 数据集上的摄像机姿态估计

表4. RealEstate10K 和CO3Dv2 数据集上的摄像机姿态估计

如表 4 所示,在仅使用 RGB 输入的情况下,OmniVGGT 优于最先进的 VGGT 方法,并显著超越所有其他基线。此外,当有辅助输入可用时,OmniVGGT 表现出稳定的性能提升。值得注意的是,这种优异性能是在前所未有的灵活性和效率下实现的:OmniVGGT 是首个能接受任意数量辅助输入的模型,且运行速度比 Pow3R 快约 30 倍。

2.7 3D 重建

本文在 7-Scenes 基准测试上评估场景级 3D 重建性能。该基准测试中,每个场景包含 3-5 张稀疏拍摄的帧,视图间重叠极少或无重叠。

图4. 7-Scenes、NRGBD和ETH 3D数据集的视觉比较

图4. 7-Scenes、NRGBD和ETH 3D数据集的视觉比较

表5. 7-Scenes数据集上的3D重建

表5. 7-Scenes数据集上的3D重建

如表 5 所示,在仅使用 RGB 输入的情况下,OmniVGGT 与现有的最先进模型 VGGT 性能相当。此外,当有辅助输入(如深度和相机参数)可用时,性能显著提升,大幅超越所有现有基线。

值得注意的是,融入相机参数后,与基线 OmniVGGT 相比,性能提升了 65.4%(指标从 0.104 提升至 0.036)。本文认为这得益于 7-Scenes 数据集的极端图像稀疏性(如图 4 所示),这种稀疏性使得从零开始的相机位姿估计异常困难,并造成了严重的性能瓶颈。本文的方法通过利用可获取的相机位姿信息,有效克服了这一瓶颈。

03 结论

本文提出了 OmniVGGT,一种统一的前馈模型,能够处理多样化的输入模态,适用于各类 3D 任务。本文的模型可灵活容纳任意数量的图像、辅助信息和输入组合,在从重建到机器人操作的多个任务中取得了最先进的性能,同时保持了较高的推理效率。本文的研究结果表明,在统一架构中整合多模态信息,能够显著推动 3D 基础模型的发展。

...

#4DSloMo

30FPS普通相机恢复200FPS细节,4D重建方案来了

本文第一作者陈羽田,香港中文大学 MMLab 博士二年级在读,研究方向为三维重建与生成,导师为薛天帆教授。个人主页:https://yutian10.github.io

当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难题。

,时长00:11

然而,受限于硬件成本与数据传输带宽,目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS;相比之下,传统高速摄影通常需要 120 FPS 乃至更高。简单升级相机硬件不仅价格高昂,还会带来指数级增长的数据通量,难以在大规模部署中落地。另一条改变的思路是在重建阶段 “补帧”。近期,例如 4D 高斯溅射(4D Gaussian Splatting)等动态场景重建方法能在简单运动中通过稀疏时序输入合成连续帧,变相提升帧率,但面对布料摆动、高速旋转等非线性复杂运动,中间帧仍会出现运动不连续、伪影明显的问题。

于是,一个自然且关键的问题被提出:能否仅利用低帧率相机阵列,准确恢复出高质量的高速运动 4D 模型?正是在这一动机下,我们提出 “异步采集 + 视频扩散模型修复” 的软硬协同解决方案,为高速 4D 重建开辟了一条低成本、高质量的新路径,实现了仅利用 30 FPS 的普通相机,恢复出相当于 100-200 FPS 的高质量动态细节。

,时长01:21

  • 论文标题:4DSloMo: 4D Reconstruction for High Speed Scene 
  • with Asynchronous Capture
  • 项目主页:https://openimaginglab.github.io/4DSloMo
  • 论文:https://arxiv.org/pdf/2507.05163
  • 代码:https://github.com/OpenImagingLab/4DSloMo

硬件革新:异步捕捉,让相机 “错峰拍摄”

核心思路,是突破单个相机的速度瓶颈,通过让多个相机协同工作,实现一种 “接力式” 的拍摄方案。传统的捕捉方案是让相机阵列的所有相机在同一时刻拍照。而本文的异步捕捉 (Asynchronous Capture) 方案,则是人为地给不同相机或相机组设置一个微小的启动延迟。

图片

传统同步方案(左),所有相机在同一时间点(如 t=0, t=0.04s)捕捉。我们的异步方案(右),通过错开相机 2 的启动时间,在 0s 和 0.04s 之间插入了一个新的捕捉点(t=0.02s),有效帧率直接翻倍。

想象一下,8 台 25 FPS 的相机,如果我们将它们分成 4 组,每组交替启动,就能将时间切片切得更细,实现 100 FPS 的有效捕捉帧率;如果分成 8 组,甚至能达到 200 FPS!整个过程无需任何额外的硬件成本,却在时间维度上获得了前所未有的信息密度。

软件革新:视频扩散模型,为 4D 重建 “精装修”

异步捕捉虽然解决了时间分辨率的问题,但也带来了一个新的挑战:在任何一个特定的时间点,参与拍摄的相机数量变少了,这会导致 “稀疏视角” 问题,从而在初步的 4D 重建结果中产生 “浮块” 等视觉伪影。为了解决这个问题,我们训练了一个专门用于修复 4D 重建伪影的视频扩散模型 (Artifact-fix Video Diffusion Model)。

图片

该模型的核心功能是接收一个包含重建伪影的视频作为输入 ,并生成一个精修后的高质量视频作为输出。这里的关键思想是,作为输入的视频虽然在视觉上不完美,但它为扩散模型提供了修复所需的关键时空上下文 (Spatio-temporal Context)—— 即场景的正确空间结构和物体的核心运动信息。模型利用这些上下文作为引导,专注于去除伪影并补全细节。

为了实现这一功能,我们构建了一个针对性的训练数据集。我们通过在高质量的 4D 数据上模拟异步捕捉过程,生成包含典型伪影的降质视频 。随后,我们将这些降质视频与原始的真值视频 (Ground Truth) 配对,通过对一个大规模预训练视频模型进行微调 (Fine-tuning),使其学习从包含伪影的输入到清晰输出的映射关系。

与常见的图像扩散模型相比,我们使用视频模型的核心优势在于保证 “时间一致性 (Temporal Consistency)”。逐帧修复容易在连续帧之间引入纹理闪烁等不一致问题,而我们的视频模型能够利用时序先验,在去除伪影的同时,生成在时间维度上连贯、平滑的动态结果。

整体流程:一个 “重建 - 优化” 的迭代框架

我们的方法将硬件捕捉与 AI 算法相结合,构建了一个迭代式的优化框架:

1. 初步重建 (Initial Reconstruction):首先,利用异步捕捉的视频数据,重建一个初步的 4D 高斯模型。该模型能捕捉高速动态,但存在视觉伪影。

2. 生成伪真值 (Pseudo Ground Truth Generation):接着,使用初步模型渲染出包含伪影的视频。这些视频将作为我们视频扩散模型的条件输入。

3. 视频增强 (Video Enhancement):将渲染视频送入视频扩散模型。模型负责去除伪影并提升视频质量,输出增强后的视频。

4. 模型优化 (Model Optimization):最后,将增强后的高质量视频作为新的监督信号 (Supervision Signal),用于进一步优化 4D 高斯模型,从而显著提升最终的重建质量。

图片

整体框架:异步视频 → 初步重建 → 视频增强 → 优化 4D 模型。

方法效果

在 DNA-Rendering 和 Neural3DV 两大公开数据集的测试中,我们的方法在峰值信噪比(PSNR)、结构相似性(SSIM)和感知质量(LPIPS)三项核心指标上,超越了包括 K-Planes, 4DGS, GS4D 在内的多种当前顶尖(SOTA)方法。

图片

图片

,时长00:06

为了在真实世界中验证我们的想法,我们专门搭建了一套包含 12 个 25 FPS 相机的多视角捕捉系统。实验证明,即使在真实、复杂的异步捕捉环境下,我们的方法依然能够稳健地重建出高质量、时空一致的 4D 内容。

,时长00:07

,时长00:06

...

#StereoWorld

妙用视频生成模型,2D视频转成高质量3D立体视频

立体3D视频可以在用户佩戴Apple Vision Pro 类XR设备时,模仿人类双眼观察世界的方式(左眼和右眼从两个略微不同的角度观察世界,大脑会将这两幅图像进行处理和融合,从而产生深度感),获得更加沉浸的观看感受。

但制作高质量的立体视频,通常需要专业的双摄像设备,成本高昂、流程复杂,对普通创作者来说门槛不低。

那有没有可能,把我们手机里、网络上存量巨大的普通2D视频,直接变成效果逼真的3D立体视频呢?这正是本文要介绍的“StereoWorld”想要解决的问题。

来自北京交通大学、多伦多大学等机构的研究者们提出了一个端到端的框架,能够将任意单目视频(也就是我们常见的2D视频)转换成具有出色视觉保真度和几何一致性的立体视频。

简单来说,它的核心思想就是利用一个预训练的视频生成模型,通过一种巧妙的“几何感知”方法,不仅生成右眼的画面,还确保这个画面和左眼(原始视频)组合起来时,能形成稳定、舒适的3D效果。

  • 论文标题:StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
  • 作者:Ke Xing, Xiaojie Jin, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Yao Zhao, Yunchao Wei
  • 机构:北京交通大学,Dzine AI,多伦多大学
  • 论文地址:https://arxiv.org/abs/2512.09363
  • 项目主页:https://ke-xing.github.io/StereoWorld/

当前技术的困境

在StereoWorld之前,将2D视频转为3D主要有两条技术路线。

第一种是“三维重建”的思路,比如用经典的SfM(Structure-from-Motion)或者酷炫的NeRF、3D高斯溅射等技术,先尝试把视频里的场景恢复成3D模型,然后再从一个新的视角(右眼位置)渲染出画面。听起来很完美,但在真实世界的动态、复杂的视频面前,这种方法很容易因为相机位姿估计不准或者物体运动,导致生成的3D效果不稳定,看着头晕。

第二种是目前更主流的“深度-扭曲-修复”管线。它先估计出视频每一帧的深度图,然后根据深度信息将左眼图像“扭曲”到右眼的位置,最后用一个修复模型(通常是扩散模型)来填充扭曲后产生的空白区域。这个方法虽然直接,但“修复”这一步和“立体几何”是脱节的,很容易破坏像素级别的对应关系,导致纹理细节错乱、时序上闪烁等问题。

StereoWorld则另辟蹊径,它认为不应该将生成过程割裂开,而是要让模型在生成右眼画面的同时,就直接“感知”到3D几何结构。

StereoWorld的核心方法

为了实现这个目标,研究者们设计了一个精巧的框架。整个过程可以理解为,模型以左眼视频作为输入,直接端到端地生成对应的右眼视频。

其成功的关键在于一种被称为“几何感知正则化” (Geometry-aware Regularization)的训练策略。这个策略包含两个互补的部分:视差监督和深度监督。

视差监督 (Disparity Supervision)

为了让生成的右眼画面和左眼形成准确的立体对应,模型在训练时会引入一个轻量级的、可微分的“立体投影仪”。这个投影仪会实时估计输入左眼画面和生成右眼画面之间的视差图,并与一个预先计算好的“真实”视差图进行比较,通过一个损失函数  来惩罚偏差。

这个损失函数能够显式地引导模型去学习左右视图之间的几何对应关系,从而生成几何上一致的立体视频。

深度监督 (Depth Supervision)

然而,只靠视差监督还不够。因为当相机水平移动拍摄左右眼视图时,总会有一些区域只在其中一个视图中可见,我们称之为“非重叠区域”。视差只能处理重叠的部分,对这些新出现的区域就无能为力了。

为了解决这个问题,研究者们引入了额外的深度监督。他们让模型不仅要生成右眼的RGB图像,还要同时预测出右眼的深度图。通过一个专门的深度损失 ,来保证生成的场景结构是合理的。

为了让模型能同时处理好RGB和深度这两种不同的数据分布,他们还对网络结构做了个小改动:在DiT(Diffusion Transformer)模型的最后几层,将参数复制成两个独立的分支,一个专门负责RGB,另一个专门负责深度。这样一来,模型既能学习共享的底层特征,又能在高层对纹理和结构进行精细化的分工处理。

最终,总的训练目标函数是三者的结合:

这种集成式的目标函数,共同促进了视觉保真度和几何正确性,让生成的3D视频既好看又真实。

处理高分辨率和长视频

模型训练时的分辨率是480p,时长也只有几秒。为了能处理更高分辨率、更长的视频,StereoWorld采用了两种“切片”策略。

  • 空间切片:对于高分辨率视频,先将其编码到隐空间,然后切成带重叠的小块。每个小块独立进行去噪生成,最后再拼接融合起来。这样就实现了高效的高分辨率合成。
  • 时间切片:对于长视频,同样是切分成带重叠的片段。前一个片段的最后几帧会被用来引导后一个片段的生成,像接力一样,保证了时间上的连贯性。

海量数据与惊艳效果

高质量的训练数据是成功的关键。现有的立体数据集要么是为自动驾驶等任务设计的,相机基线(可以理解为“眼间距”)过大,不符合人眼观看习惯;要么就是不公开。

为此,团队下大力气构建了一个全新的、专为人类感知优化的立体视频数据集——StereoWorld-11M。他们从网上收集了上百部高清蓝光3D电影,涵盖了动画、写实、科幻等多种类型,经过清洗和处理,最终得到了一个包含超过 1100万帧、与自然人眼瞳距(IPD)对齐的高质量数据集。这是目前第一个如此大规模且符合人类观看习惯的公开立体视频数据集。

有了强大的方法和海量的数据,StereoWorld的效果自然非常出色。

从定性对比来看,无论是细节保留、与左眼的视觉一致性,还是非常考验模型能力的文字渲染,StereoWorld都全面优于之前的方法。

从定量结果来看,基于图像的基线方法GenStereo和无训练方法SVG的综合得分最低,这与定性观察结果一致。

在时间维度上,其他方法可能会出现闪烁或不稳定的情况,而StereoWorld则保持了卓越的时间一致性,画面流畅自然。

写在最后

总而言之,StereoWorld的出现,为我们提供了一个将海量2D视频资源转化为沉浸式3D体验的新思路。它通过创新的几何感知正则化和专门构建的大规模数据集,显著提升了单目到立体视频生成的质量和真实感。不过文中称速度还需要进一步优化,目前的模型转一段几秒钟的视频需要6分钟。

最后我们来看看生成的效果吧:

...

#AutoSeg3D

中科院新作AutoSeg3D:在线分割一切3D物体,超越ESAM!

AutoSeg3D把在线3D分割重构成实例跟踪,用长-短期记忆查询流统一维护ID与特征,再辅以空间一致性学习抑制VFM过分割,在ScanNet200上比ESAM提升2.8 AP且保持实时。

论文信息

标题:Online Segment Any 3D Thing as Instance Tracking

作者:Hanshi Wang, Zijian Cai, Jin Gao, Yiwei Zhang, Weiming Hu, Ke Wang, Zhipeng Zhang

原文链接:​​https://arxiv.org/abs/2512.07599​

代码链接:​​https://github.com/AutoLab-SAI-SJTU/AutoSeg3D​

01 导读

在线、实时且细粒度的3D分割技术,是xxx智能体感知并理解其所处运行环境的基本能力。近期的研究进展采用了预定义的对象查询机制,从被转化为3D点云的视觉基础模型输出中提取语义信息,从而通过这些查询之间的交互实现空间信息的传播。然而,感知本身是一个动态的过程,因此时间维度在这些基于查询的算法体系中虽然至关重要,却常常被忽视。

因此,为了进一步提升xxx智能体的时间环境感知能力,我们将在线3D分割重新定义为实例跟踪问题(即AutoSeg3D模型)。我们的核心策略是利用对象查询来实现时间信息的传播:长期存在的实例关联关系有助于保持特征及对象身份的一致性,而短期的实例更新则能够丰富实时的观测数据。鉴于在xxx机器人技术中,视角的变化往往会导致不同帧间对象可见性的差异,这种机制能够帮助模型在无法获得完整瞬时视图的情况下,形成对对象的全面理解。

此外,我们还引入了空间一致性学习机制,以弥补视觉基础模型本身存在的信息碎片化问题,从而为长期及短期的时间学习过程提供更加全面的数据支持。这些基于稀疏对象查询的时间信息交换与一致性学习机制,不仅提升了空间理解能力,还有效减轻了密集3D点云交互所带来的计算负担。我们的方法代表了当前这一领域的技术前沿,在ScanNet200数据集上的性能比ESAM模型高出2.8个AP值,并且在ScanNet、SceneNN以及3RScan数据集上也取得了稳定的优异成绩。

02 效果展示

ScanNet200数据集上的分割结果:

图片

03 引言

具备在线、实时且细粒度的三维实例分割能力,是xxx智能体感知和理解其操作环境的基础。自主机器人和xxx助手越来越依赖此类系统来探索复杂场景并与之交互。早期的方法主要采用离线模式,即在处理之前先积累完整的点云数据,这会导致极高的延迟和内存成本。为了追求更快的在线感知能力,近期的研究开始探索借助视觉基础模型(Vision Foundation Models,VFMs,如 SAM)的模式。

现有的在线 VFM 辅助模型被设计为处理流式输入,其流程是先用 VFM 初步预测分割结果,随后将生成的掩码和记录的深度信息提升为超点表示。然而,这些流程只是简单地将全局点特征跨扫描进行拼接,而忽略了实例级的时间建模,这加剧了 VFM 导致的碎片化和过度分割问题。事后非极大值抑制(non-maximum suppression)只能部分纠正这些错误,并且会意外地导致有效信息的丢失。

为了解决这些局限性,我们从在线感知中维持时间一致性的既定方法中汲取灵感。例如,经典的多目标跟踪(Multi-Object Tracking,MOT)方法通过利用空间连续性和外观相似性来关联跨帧的检测结果,从而实现一致的标识分配。类似地,视频实例分割框架(如 VisTR)和三维检测模型(如 Sparse4D)采用基于查询的记忆库,随时间传播和更新对象特征,使每个实例能够保持对遮挡和部分视图的鲁棒的持久表示。支撑这些不同方法的核心设计原则是,在时间序列中显式地维护和演变实例特定的表示。受此模式的启发,我们将在线三维实例分割重新定义为实例跟踪任务。通过将对象级的时间先验直接集成到分割流程中,我们的方法旨在同时纠正过度分割错误并强制保持标识一致性,从而显著提高整体分割性能和鲁棒性。

更具体地说,我们引入了一种新颖的、以跟踪为中心的流程,直接解决了基于 VFM 的方法的两个核心局限性。我们的框架分解为三个轻量级且协同的模块。

首先,长期记忆(Long-Term Memory,LTM)维护一个有界的跟踪库,并采用基于置信度门控亲和矩阵的匈牙利分配算法,以恒定的开销在长时间遮挡后恢复标识。

其次,短期记忆(Short-Term Memory,STM)通过距离感知的跨帧注意力机制优化实例嵌入,以注入即时时间上下文,同时过滤掉背景噪声。

第三,空间一致性学习(Spatial Consistency Learning,SCL)在推理时通过联合推理二维外观和三维几何信息来合并高亲和力的掩码片段,同时在训练时采用一对多片段监督来减轻过度分割,并为 LTM 和 STM 生成连贯、高保真的查询。

这些组件共同构成了一个连贯的实时三维实例分割系统,该系统在跨帧中强制保持一致的对象标识,注入即时时间上下文,同时过滤掉背景噪声,并合并高亲和力片段以直接抵消 VFM 过度分割。通过集成这些模块,我们的框架在保持实时吞吐量的同时,在 ScanNet200上相比近期的 ESAM实现了 2.8 AP 的提升。在 ScanNet200 和 ScanNet上进行的广泛评估,以及在 SceneNN 和 3RScan 上进行的零样本评估,均显示出一致的性能提升。

04 主要贡献

我们的贡献如下:1)我们将在线三维实例分割重新定义为一个连续的实例跟踪问题,在一个统一框架内将每个由 VFM 得到的掩码视为一个跟踪查询。2)我们提出了一种轻量级架构,包含三个协同模块,其中 LTM 跨帧传播标识以确保连续性,STM 注入短期时间上下文同时过滤背景噪声,SCL 合并重叠片段以抵消过度分割并丰富实例嵌入。3)我们的框架在 ScanNet200、ScanNet、SceneNN 和 3RScan 上取得了新的最优结果,同时保持了实时吞吐量,消融研究验证了每个组件的贡献。

05 方法

图 1 展示了我们以跟踪为中心的在线三维分割框架。该设计灵感来自大脑的互补学习系统。具体而言,海马体能够快速形成情景记忆,从而能够快速适应新环境并与近期经验进行交互,而新皮层则通过缓慢的、累积的学习将这些短暂痕迹整合为持久的表示,从而产生稳定的知识存储。这种双重机制不仅增强了适应性,还确保了记忆的一致性和持久性。

与此类似,我们将框架分解为用于实例关联的长期记忆和用于实例更新的短期记忆,由三个轻量级但协同的模块实现:1)长期记忆(LTM),可在长时间内匹配实例标识,实现长时间遮挡后的恢复。2)短期记忆(STM),通过从紧邻的前一帧获取信息来递归更新每个实例的表示。3)空间一致性学习(SCL)包括推理时的基于学习的掩码集成和训练时的实例一致性掩码监督,分别抵消 VFM 固有的过度分割问题,从而减少查询冗余,并为 STM 和 LTM 提供连贯、高保真的掩码表示。

06 实验结果

无类别设置下在 ScanNet200 上的结果。表 1 详细列出了在 ScanNet200 上的无类别结果,证明了我们的方法优于现有的最优方法。具体而言,当 SAM 作为二维分割模型时,与近期的 ESAM相比,我们的方法在 AP 上提升了 3.3,在 AP50 上提升了 3.0,在 AP25 上提升了 1.4。即使使用更轻量级的二维分割模型(如 FastSAM),我们的方法仍能取得一致的性能提升,这凸显了我们方法的有效性和泛化能力。

在 ScanNet 和 SceneNN 上的结果。遵循 ESAM的实验设置,表 2 报告了我们的方法在 ScanNet 上训练后,在 ScanNet 和 SceneNN 上进行评估的结果,以评估其泛化性能。在多个评估指标和数据集上的显著提升有力地证明了我们方法的有效性和泛化能力。具体而言,与 ESAM 相比,我们的方法在 ScanNet 评估中在 AP 上提升了 1.8,在 AP50 上提升了 2.9,在 AP25 上提升了 2.2。

在 SceneNN 和 3RScan 上的结果。表 3 报告了我们的方法在 ScanNet200 上训练后,在 SceneNN 和 3RScan 上进行评估的结果,这再次证明了其强大的泛化能力。我们的方法超越了先前的方法,在 AP50 和 AP25 分数上取得了显著更高的成绩。这凸显了我们方法在机器人应用中的有效性和适应性。

图片

07 总结 & 未来工作

在本文中,我们提出了一种新颖的、以跟踪为中心的框架,用于在线、实时且细粒度的三维实例分割。通过将该任务重新定义为连续的实例跟踪,我们的方法集成了长期记忆以实现鲁棒的标识传播、短期记忆以获取即时时间上下文,以及空间一致性学习以抑制过度分割。在多个基准上的广泛实验表明,我们的轻量级系统在保持实时效率的同时实现了最优的准确率。局限性。我们和先前的方法均未对移动对象的相对运动进行显式建模。我们将此留待未来研究。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

...

#UniMo

清华&美团联手提出UniMo:首次统一2D视频与3D运动,实现“边看边动”的AIGC新范式

大家好,今天想和大家聊一篇非常有意思的新工作,它来自清华大学和美团的研究团队。这篇名为《UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework》的论文,如同它的名字一样,旨在统一两种看似不同却又紧密相关的数据模态:2D 人体视频和 3D 人体动作。

简单来说,以往的模型要么是根据动作生成视频,要么是从视频里捕捉动作,两者通常是独立的任务。而 UniMo 创新地提出了一个统一的自回归框架,第一次实现了在一个模型里同时对这两种信息进行建模、理解乃至共同生成。你可以想象一下,这个模型不仅能“看懂”视频里的人在做什么,还能同步生成这个人的三维骨骼动画,反之亦然。

  • 论文标题: UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework
  • 作者团队: Youxin Pang, Yong Zhang, Ruizhi Shao, Xiang Deng, Feng Gao, Xu Xiaoming, Xiaoming Wei, Yebin Liu
  • 所属机构: 清华大学, 美团
  • 论文地址: https://arxiv.org/abs/2512.03918
  • 项目主页: https://carlyx.github.io/UniMo/

    ,时长00:08

研究背景:为何要统一视频与动作?

在数字人、虚拟现实和人机交互等领域,视频和3D动作的结合至关重要。传统的视频合成方法,通常需要一个3D动作序列(比如骨骼动画)作为“剧本”,然后渲染出对应的视频。反过来,动作捕捉技术则是从视频中反向推断出人的3D姿态。

这些方法虽然很强大,但都有一个共同点:它们是“单行道”。要么是动作驱动视频,要么是视频生成动作。两种模态没有在一个统一的框架下进行联合优化。这就好比一个翻译家,要么只能把中文翻译成英文,要么只能把英文翻译成中文,却无法在两种语言之间自由思考和切换。这种分离限制了模型对人类行为更深层次的理解和生成能力。

此外,2D视频(像素空间)和3D动作(基于坐标的结构化数据)在数据结构和分布上存在巨大差异,直接将它们“捏”在一起非常困难。UniMo 要解决的,正是这个棘手的挑战。

UniMo的核心方法:统一、分词与自回归

受到大语言模型(LLM)处理不同模态(如文本、图像)能力的启发,UniMo 设计了一套精巧的方案,可以总结为几个关键点。

1. 创新的3D动作分词器 (3D Motion Tokenizer)

要让 Transformer 模型理解 3D 动作,首先得把连续的动作数据转换成离散的“词元”(Token)。为此,作者设计了一个专门的 3D 动作分词器。它采用了一种类似 VQ-VAE 的架构,包含一个运动编码器、一个可学习的码本(Codebook)和多个“专家解码器”。

这个分词器的输入是原始的 3D 动作参数(SMPL-X 格式),输出是量化后的离散动作词元。其训练目标是最小化一个损失函数 ,该函数包含三部分:

  •  是重建损失,采用 L1 损失来衡量解码器重建的动作  与真实动作  之间的差异,确保了重建的准确性。
  • 后两项是码本(Codebook)的“承诺损失”(commitment loss),用于更新码本向量  和编码器输出的特征 ,确保编码器输出能稳定地匹配到码本中的向量。 代表停止梯度操作。

特别之处在于,它的解码器由多个专家组成,分别负责重建身体形态(shape)、位移(translation)、全局朝向(orientation)和身体姿态(pose)等不同部分。这种设计保证了从词元重建回 3D 动作时的准确性。实验证明,这个分词器的重建误差极低,为后续的统一建模打下了坚实基础。

2. 统一的序列建模 (Unified Sequence Modeling)

有了视频分词器(直接沿用 Cosmos 的)和上面提到的 3D 动作分词器,UniMo 就可以把视频和动作都看作是一串串的“词元”了。接下来,就是如何让一个模型同时处理这两串序列。

UniMo 在一个框架内同时处理两个任务,并通过特殊的序列格式来区分:

  • V2M (Video-to-Motion): 输入视频,理解并捕捉动作。序列格式为:
    其中 ​​​T1​​​ 是任务标识符,​​Vt​​​ 是视频词元,​​STG​​​ 是生成开始的标志,​​Mt​​ 是模型需要预测的动作词元。
  • I2VM (Image-to-Video-and-Motion): 输入图像,联合生成视频和动作。序列被组织成视频和动作交错的形式:
    其中 ​​​T2​​​ 是任务标识符,​​It​​ 是图像词元。这种交错生成的方式,使得模型在生成下一个时间步时,可以同时参考前一步的视频和动作信息,极大地增强了两种模态之间的关联性。

同时,为了解决视频和动作词元分布差异大的问题,UniMo 为它们设置了独立的词汇嵌入层(Vocabulary Embedding Layers),避免了“鸡同鸭讲”的尴尬。

3. 自回归训练与损失函数

整个 UniMo 框架采用自回归(Autoregressive, AR)的方式进行训练,其核心思想是根据所有前面的已知词元来预测下一个词元。训练过程分为两个阶段:首先是端到端地训练 3D 动作分词器,然后将其参数冻结,为第二阶段的自回归模型提供动作词元。

在第二阶段,自回归模型通过最小化交叉熵损失来进行优化,其目标函数  如下:

这个公式的含义是,最大化在给定条件 (例如V2M任务中的视频词元,或I2VM任务中的图像词元)和所有已生成的词元的情况下,生成正确目标词元  的对数概率。通过这种方式,模型学会了在生成(I2VM)和理解(V2M)之间找到一种协同作用。消融实验也证明,这种联合训练的效果优于只训练单一任务的模型。

实验效果如何?

UniMo 的实验结果相当亮眼,证明了其统一建模的有效性。

在 I2VM 任务中,与只生成视频的基线模型(Cosmos)相比,UniMo 不仅能生成高质量的视频,还能同时产出与之高度一致的 3D 动作。从下方的对比可以看出,UniMo 生成的动作(左上角渲染)与视频内容完美匹配,而基线模型则不具备此功能。在视频质量(VBench评估)和生成动作的多样性上,UniMo 也全面超越了基线。

在 V2M 任务中,即传统的视频动作捕捉,UniMo 的表现也达到了与当前顶尖方法(如 4DHumans)相媲美的水平。这表明,即便是在一个更复杂的统一框架下,其“专业能力”也并未下降。

消融实验进一步验证了模型设计的合理性。例如,如果不使用独立的嵌入层(Uni-Embed.),生成质量会明显下降,证明了区分模态分布的重要性。同样,联合训练(Our)的效果也优于单任务训练(Only I2VM/Only V2M)。

总结与展望

总的来说,UniMo 的工作为我们打开了一扇新的大门。它不再将视频和3D动作视为两个独立的任务,而是将它们统一在一个 LLM 风格的框架下,实现了同步生成和理解。这种统一建模的思想,不仅提升了两种模态之间的一致性,也为未来整合更多以人为中心的信息(如语音、文本、交互)到大型多模态模型中铺平了道路。

或许在不久的将来,我们就能看到能够与虚拟人进行更自然、更全面的交互的AI应用了。

...

#HouseLayout3D

ETHZ&谷歌&斯坦福NeurIPS 2025新研究:从几张图片恢复建筑的三维CAD结构,代码和数据将开源

  • 论文标题: HouseLayout3D: A Benchmark and Training-Free Baseline for 3D Layout Estimation in the Wild
  • 作者: Valentin Bieri, Marie-Julie Rakotosaona, Keisuke Tateno, Francis Engelmann, Leonidas Guibas
  • 机构: 苏黎世联邦理工学院、谷歌、斯坦福大学
  • 会议: NeurIPS 2025 (Datasets and Benchmarks Track)
  • 论文地址: https://arxiv.org/abs/2512.02450
  • 项目主页: https://houselayout3d.github.io
  • 代码仓库: https://github.com/houselayout3d/houselayout3d

大家好!今天想和大家聊一篇非常有趣的工作,来自谷歌、苏黎世联邦理工学院和斯坦福大学的研究者们,它发表在今年的NeurIPS数据集与基准测试方向上。这项研究直击当前建筑3D布局估计领域的一个核心痛点:现有模型大多在简单的单层或单房间合成数据上训练,一遇到真实世界里复杂的多层建筑就“水土不服”。

为了解决这个问题,他们做了两大工作:第一,发布了一个名为HouseLayout3D的全新基准数据集,专门针对真实世界的大型多层建筑。第二,提出了一个叫MultiFloor3D的无训练基线方法,效果惊人地好,甚至在多个指标上超越了现有的需要大量训练的深度学习模型。

研究背景:从单间到整栋楼的跨越

3D布局估计,通俗讲就是让计算机看懂一个空间的结构,比如墙壁、地板、天花板、门窗在哪里,把这些信息抽象成几何多边形。这对于机器人导航、增强现实、室内设计等应用至关重要。

目前的主流方法,比如RoomFormer和SceneScript,通常依赖于在合成数据集(如Structured3D)上进行监督学习。这些数据集虽然规模大,但场景相对简单,大多是单个房间或者小公寓。这就导致了一个问题:当模型面对真实世界里有楼梯、有多个楼层的大房子时,它们就很难处理了。

现有的一个“曲线救国”的办法是,先把一个大建筑手动或自动切分成一个个独立的楼层,单独处理完再拼起来。但这样做会丢失全局的空间上下文信息。比如,楼梯是连接不同楼层的关键结构,如果把楼层分开了,模型就很难理解楼梯的作用,也无法构建一个完整的、连贯的建筑结构。

正是为了填补这一空白,研究者们构建了HouseLayout3D数据集,希望推动3D布局估计技术从“单间”思维真正走向“整栋楼”的全局理解。

HouseLayout3D:首个真实多层建筑布局基准

HouseLayout3D是第一个专为大型、多层建筑3D布局估计设计的真实世界基准。它基于著名的Matterport3D (MP3D)数据集,通过手工标注的方式为真实的3D扫描模型创建了高质量的CAD级别布局注释。

HouseLayout3D数据集的规模和细节都相当可观:

  • 建筑数量:包含 16 栋建筑
  • 独立楼层:共 33 个独立楼层
  • 房间数量:共 317 个房间
  • RGB-D帧数:超过 26,000 帧
  • 注释元素292 扇门、379 扇窗户、34 段楼梯
  • 建筑层数:每栋建筑包含 1 到 5 层,每个建筑有 4 到 40 个房间。

特色非常鲜明:

  • 真实世界与大规模: 所有数据都源于真实的3D扫描,而不是人工合成。
  • 多楼层结构: 包含了复杂的跨楼层建筑,以及连接它们的楼梯。
  • 精细化标注: 不仅有墙体、地板、天花板,还精确标注了门、窗和楼梯的位置和几何形状。

如下表所示,HouseLayout3D在多项关键特性上都填补了现有数据集的空白。

MultiFloor3D:无需训练的强大基线方法

有了新的“考场”,还需要新的“考生”。研究者们提出的MultiFloor3D就是一个非常特别的考生——它不需要任何训练。这个方法巧妙地整合了近年来场景理解领域的一些成熟技术,通过一个四阶段的流程来生成3D布局。

整个流程的输入仅仅是场景的一组RGB图像,输出则是一个由多边形表示的、带有语义标签(墙、地板、门等)的3D布局。

1. 从图像到网格:三维重建

第一步,利用现成的技术(如DN-Splatter)从多张2D图像重建出场景的密集三维网格(Mesh)和深度图。这是后续所有处理的基础。

2. 提取骨架:识别核心结构

第二步,从重建的网格中提取出布局的“骨架”。这里,研究者们首先使用一个强大的图像分割模型(OneFormer)对输入图像进行语义分割,识别出墙壁、天花板、地板等“结构性组件”,以及家具、窗户、楼梯等其他元素。然后,通过将2D分割结果反投影到3D网格上,为网格的每个部分赋予语义标签。最后,筛选出墙、地、顶等主要结构,形成布局骨架。

3. 优化原型:填补缺失与修正瑕疵

从三维扫描数据中直接提取的骨架往往是不完美的,比如存在因为家具遮挡造成的空洞,或者窗户区域的几何信息缺失。

第三步是整个方法的核心,即通过一个优化过程,将不完美的“骨架”变成一个完整、连续的“布局原型”。研究者们将骨架初始化为一组3D多边形 ,然后通过梯度下降来优化这些多边形的顶点位置和所在的平面方程。优化的目标函数主要由三部分构成:

  • : 几何保真项,确保优化后的布局能准确地重建原始场景的几何形状,并且不会侵占已观测到的“空旷空间”。
  • : 连通性项,鼓励不同多边形之间紧密连接,消除微小的缝隙,形成连续的表面。
  • : 简洁性项,鼓励多边形共享边界,从而简化模型,去除冗余的边界。

最终的损失函数是这三项的加权和:。

具体的损失函数定义如下:

几何损失  由两部分组成:

  1. 代理损失 :惩罚布局骨架的顶点到最近多边形表面的距离,确保原型贴近原始观测。
  2. 空旷空间损失 :惩罚多边形与相机视线(代表已观测的空旷区域)的交叉。

连通性损失  惩罚每个多边形的顶点到其他多边形表面的距离,促进面与面之间的无缝连接。

简洁性损失  惩罚那些不被共享的边的长度,促使模型用更少的顶点和共享边来表示场景。

通过这个精巧的优化过程,模型能够智能地“脑补”出被遮挡的墙面和地面,修正几何错误,得到一个高质量的布局原型。

上图直观地展示了不同损失项的作用。例如,缺少  会导致多边形之间出现缝隙;缺少  则会使边界变得“犬牙交错”。

4. 生成场景图:从几何到语义

最后一步,将优化好的布局原型解析成一个结构化的场景图(Scene Graph)。这个图的节点代表房间,边代表人与人之间的连接(如门、楼梯)。

这个过程也很有意思:

  • 楼层识别: 根据布局原型中被标记为“地板”的多边形,聚类出不同的楼层。
  • 房间分割: 对每个楼层,结合地板和天花板信息生成2D平面图,再利用现有的房间分割算法(如Hov-SG)将其切分成不同的房间。
  • 回到3D: 最后,通过一个巧妙的“房间拉伸”算法,将每个房间的2D平面图拉伸回3D,形成一个封闭的房间壳体。这个算法会智能地将2D地板的每个三角面片拉伸到对应的天花板平面上。

通过这四步,MultiFloor3D就能够从一堆无序的图片中,重建出整个建筑的结构化3D布局。

实验结果:零训练吊打全场?

研究团队在HouseLayout3DScanNet++数据集上对MultiFloor3D进行了广泛的实验评估,并与RoomFormerSceneScriptSOTA方法进行了比较。

HouseLayout3D数据集上的表现

上表展示了在HouseLayout3D数据集上的F1分数和深度指标结果。尽管基线模型(RoomFormer和SceneScript)是针对单层或单房间设计的,并且通常在大型合成数据集上训练,但MultiFloor3D作为无需训练的方法,在所有评估指标上都显著优于现有SOTA方法。尤其值得注意的是,MultiFloor3D是唯一能够准确预测楼梯结构的方法,这凸显了其在处理多楼层复杂结构上的独特优势。

ScanNet++数据集上的表现

ScanNet++数据集上,由于缺乏布局注释,研究团队使用深度精度作为布局估计误差的近似指标。

从上表可以看出,MultiFloor3DScanNet++数据集上同样超越了基线方法,尤其是在和深度精度指标上达到了67.884.7。这表明即便是在没有显式布局标注的数据集上,MultiFloor3D也能提供更准确的几何表示。

潜在应用:与大语言模型结合实现导航

论文还展示了全建筑3D布局的一个潜在应用:结合大语言模型 (LLM) 实现导航。如上图所示,通过将3D场景图(包含房间、门、楼梯等连接信息)以JSON格式输入给LLM,并提出导航指令,LLM可以生成逐向的导航指引。这为未来的智能导航、机器人路径规划等应用打开了新的可能性。

总结与思考

HouseLayout3DMultiFloor3D的发布,无疑是3D布局估计领域的一个重要里程碑。它不仅提供了一个更贴近真实世界复杂性的数据集,弥补了现有数据集的不足,更通过一个无需训练且性能优异的基线,展示了解决多层建筑布局估计问题的巨大潜力。

可能这一方向比较小众,但对于关心这一领域的研究者来说,这应该是一个不容忽视的进展。

...

#RobustVGGT

RobustVGGT来了!不惧噪声,显著提升3D重建鲁棒性

  • 论文标题: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
  • 论文作者: Jisang Han, Sunghwan Hong, Jaewoo Jung, Wooseok Jang, Honggyu An, Qianqian Wang, Seungryong Kim, Chen Feng
  • 作者机构: 韩国科学技术院;纽约大学;苏黎世联邦理工学院;加州大学伯克利分校
  • 论文地址: https://arxiv.org/abs/2512.04012
  • 项目主页: https://cvlab-kaist.github.io/RobustVGGT/
  • 代码仓库: https://github.com/cvlab-kaist/robustvggt

研究背景与挑战

在复杂的现实世界中,从海量图像中重建三维场景一直是个挑战,特别是当这些图像质量参差不齐,混杂着无关的“噪声”视图时。今天我们要聊的这篇论文——Emergent Outlier View Rejection in Visual Geometry Grounded Transformers,就为这个问题提供了一个优雅而高效的解决方案。它揭示了现有模型中一个惊人的“天赋”,让我们无需额外训练,就能大幅提升三维重建的鲁棒性。

我们知道,从多张照片重建三维物体或场景(Multi-view 3D reconstruction),是计算机视觉领域一个非常核心的问题。从自动驾驶到增强现实(AR/VR),都离不开它。传统的SfM(Structure-from-Motion)管线,比如大名鼎鼎的COLMAP,在处理那些“脏乱差”的野外图像集时,表现得相当老练。它们有一套成熟的“排雷”机制:几何验证、RANSAC算法剔除离群点等等,能有效过滤掉那些不一致的视图。

然而,近年来兴起的前向3D重建模型,比如VGGT(Visual Geometry Grounded Transformer),虽然在速度和性能上取得了显著进步,却普遍缺少这种显式的离群视图剔除机制。这就导致了一个问题:当输入图像中混入了无关的背景、模糊的照片或完全不搭边的“捣乱分子”时(就像我们从网上随手一搜图片,总会遇到不相关的结果一样),这些模型就容易“翻车”,重建出的三维结构会变得很糟糕,出现很多噪声和伪影。

如上图所示,当输入图像集中包含分散图像时,如果不进行过滤,VGGT管线会产生噪声几何和最终重建中的可见伪影(a)。

一些人可能会想到,是不是可以用预测的每像素置信度图来过滤掉不可靠的深度点呢?可惜,论文指出,这些置信度是“事后诸葛亮”,只作用于点级别,并不能从根本上过滤掉整个离群视图。结果就是,模型依然会尝试重建所有图像,导致错误的视图扭曲了姿态估计,破坏了恢复的三维几何结构。

上图展示了VGGT重建的结果。尽管VGGT预测了每像素置信度图来降低不可靠深度的权重,但这种信号只在点级别上起作用,并不能过滤视图。因此,分散图像仍然会被重建,导致虚假内容破坏恢复的几何形状。

核心发现与方法:VGGT的“涌现式”智慧

这篇论文最引人入胜的地方在于,它发现了一个惊人的“涌现式”属性:VGGT模型,即便在没有任何显式离群剔除机制或噪声感知训练的情况下,竟然能够内在地区分出那些“捣乱”的离群图像!

通过对VGGT内部机制的深入分析,研究人员发现,在模型的特定层(特别是最后的几层),其内部的注意力(attention)和特征表示(feature representations)会自然而然地表现出对离群视图的抑制行为。也就是说,模型在处理过程中,会默默地“重视”那些几何一致的视图,同时“忽略”那些不一致的干扰项。

上图显示了层级分析的结果。研究人员衡量了VGGT所有层中干净视图和分散视图在注意力及特征相似性方面的差距。结果表明,这种分离随着深度的增加而增大,并在最后一层达到峰值,这表明模型具有涌现的噪声抑制能力。

上图是特征/注意力可视化。我们看到,VGGT最后一层的跨视图注意力图和中间特征相似性图,对于混合了干净和分散图像的集合,都能清晰地抑制分散视图(红色框标记),揭示了模型涌现的视图选择性。

基于这一发现,作者提出了一种简单、免训练(training-free)的视图过滤机制——RobustVGGT。它不需要对VGGT模型进行任何架构修改或重新训练。具体来说,RobustVGGT利用两种内部表示来衡量视图之间的相关性:

  • 注意力分数(Attention score): 通过计算查询图像(query image)与上下文图像(context image)之间在模型最终注意力层上的平均注意力权重来判断。
  • 特征相似度分数(Feature similarity score): 通过计算最终层输出的中间密集特征图之间的余弦相似度(cosine similarity)来衡量。
    其中,。

上图展示了RobustVGGT的框架概览。它通过两种探针(跨视图注意力和中间密集特征的余弦相似度)从VGGT的内部表示中计算每视图的相关性。然后,使用一个单一的全局阈值来过滤分散图像,并将过滤后的图像集重新送入VGGT进行重建,整个过程无需重新训练或修改架构。

当这些分数低于一个预设的单一全局阈值时,对应的视图就会被认为是离群点并被剔除。过滤后的图像集再重新送回VGGT进行三维重建,从而得到更干净、更稳定的结果。论文提出了两个变体:RobustVGGT-(基于注意力分数)和RobustVGGT-(基于特征相似度分数)。

实验验证与效果

为了全面验证RobustVGGT的效果,研究人员在多个数据集上进行了广泛的实验,包括:

  • Phototourism: 包含互联网收集的、具有复杂外观变化和瞬态物体的图像。
  • On-the-Go: 随意拍摄的室内/室外序列,包含运动模糊、遮挡和不均匀的视角覆盖。
  • RobustNeRF: 专门用于测试离群剔除能力的、带有干扰图像的增强场景。
  • ETH3D: 高质量的多视图基准,用于评估几何精度。

实验结果令人印象深刻:

  • 姿态估计与深度估计显著提升: 在相机姿态估计(Camera Pose Estimation)和多视图深度估计(Multi-view Depth Estimation)这两个核心任务上,RobustVGGT在不同噪声水平下都显著优于原始VGGT和各种预过滤基线。例如,在Phototourism数据集上,RobustVGGT-的平均ATE(Absolute Trajectory Error)从VGGT的0.3504降低到0.2650,RPE也从0.5172降低到0.3953。在ETH3D数据集上,RobustVGGT-的平均AbsRel从0.0419降低到0.0301,从0.9730提升到0.9829

上表显示了不同噪声水平下的相机姿态估计结果。

上表是多视图深度估计结果。

  • 对噪声的鲁棒性: 随着噪声视图比例的增加,原始VGGT的性能会明显下降,而RobustVGGT则能保持稳定的高性能。

上图展示了相机ATE(绝对轨迹误差)与噪声水平的关系。没有明确视图过滤的VGGT模型,其性能会随着噪声视图数量的增加而下降。而我们的方法能够实现鲁棒的三维重建。

  • 高质量的点云重建: 从可视化结果来看,原始VGGT在存在干扰视图时会产生严重退化的点云,而RobustVGGT则能生成更清晰、更可靠的三维结构。

上图对比了VGGT和RobustVGGT-生成的点图。

上图展示了VGGT和RobustVGGT在互联网图像上生成的点图,可以看到RobustVGGT的优越性。

上图展示了相机轨迹预测的定性结果。

上图是多视图深度估计的定性结果。

写在最后

这篇论文告诉我们,像VGGT这样的前向3D重建模型,并非对噪声束手无策,其内部机制在无形中就已经具备了识别并抑制离群视图的能力。通过简单地利用这些“涌现式”的内部信号,我们就能在不增加训练成本、不修改模型架构的前提下,显著提升模型在复杂野外场景下的三维重建鲁棒性和实用性。

“它本来就很强”,VGGT自己就知道谁是噪声!

...

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐