一、论文基本信息

论文标题:More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

作者:Hongkai Lin, Dingkang Liang, Mingyang Du, Xin Zhou, Xiang Bai

机构:华中科技大学 (Huazhong University of Science and Technology)

发表会议:NeurIPS 2025

论文链接:https://arxiv.org/abs/2510.23574

项目主页:https://h-embodvis.github.io/MERGE/

代码仓库:https://github.com/H-EmbodVis/MERGE

二、研究背景

近年来,文生图(Text-to-Image, T2I)扩散模型取得了令人瞩目的快速发展。以Stable Diffusion、FLUX、PixArt等为代表的预训练模型,不仅在图像生成质量上实现了质的飞跃,更展现出对视觉世界的深层理解能力。这些模型通过在海量图文对上进行大规模预训练,学习到了丰富的视觉先验知识,包括对物体形状、空间关系、光照条件、纹理细节等多层次视觉信息的理解。这种强大的表征能力使得研究者开始思考:这些预训练模型是否不仅仅能够“生成”图像,还能被用于“理解”图像?

这一思考催生了生成式深度估计(Generative Depth Estimation)这一新兴研究方向。以Marigold为代表的方法率先证明了预训练T2I模型蕴含的视觉先验可以被有效迁移到深度估计等下游感知任务中。Marigold通过对预训练模型进行全参数微调,使其从图像生成器转变为深度估计器,在零样本设置下取得了令人印象深刻的结果。这一发现揭示了扩散模型作为通用视觉基础模型的巨大潜力,引发了学术界对扩散模型感知能力的广泛探索。

然而,这一研究方向面临着一个核心矛盾:全参微调会导致严重的“灾难性遗忘”(Catastrophic Forgetting)问题。当研究者对预训练T2I模型进行全参数微调以适应深度估计任务时,模型原有的图像生成能力会遭到严重破坏。换言之,模型在学会了“看”之后,便忘记了如何“画”。这种能力的丧失不仅令人遗憾,更从根本上限制了模型的应用场景——一个只能做深度估计而不能生成图像的模型,其价值远不如一个同时具备两种能力的模型。

为解决这一矛盾,研究者们提出了多种方案,但各有局限。第一种是双模型并行范式,以JointNet为代表,该方法同时维护一个生成模型和一个感知模型,通过共享部分参数来兼顾两种能力。然而,这种方案需要运行两个独立模型,计算开销和存储开销均翻倍,在实际部署中面临严峻挑战。第二种是大规模重训练范式,以OneDiffusion为代表,该方法试图通过在包含生成和感知数据的超大规模混合数据集上重新训练模型来实现能力统一。但这种方法需要约1亿样本量的训练数据,数据和算力门槛极高,普通实验室难以复现。

面对上述困境,来自华中科技大学的研究团队提出了一个根本性的问题:能否在不损害生成能力的前提下,释放预训练T2I模型中潜藏的感知能力?这一问题直接催生了MERGE(More than GEneration and depth estimation)方法,该方法以优雅的“即插即用”范式,实现了生成与感知的无损统一。

三、核心方法详解

3.1 核心思想:“释放”而非“替换”

MERGE的核心思想可以用一个简洁的比喻来概括:感知能力就像是一把被锁在预训练T2I模型内部的钥匙,它已经存在,只是需要找到正确的方式去“释放”它。与Marigold等全参微调方法不同,MERGE并不试图“替换”模型的能力——即将一个生成器改造成一个感知器——而是致力于在保留模型原有生成能力的同时,“解锁”其潜藏的感知能力。这一思想的理论基础在于:预训练T2I模型在大规模图文数据上学习到的视觉表征,天然包含了对三维空间结构的理解,这种理解是深度估计等感知任务所需的核心能力。

基于这一洞察,MERGE采用了一种极其简洁的策略:保持预训练模型完全冻结(fixed),不修改任何原始参数。这意味着模型经过大规模预训练获得的生成能力被完整保留,不会因为任何参数修改而遭到破坏。所有的任务适配工作都通过外部引入的轻量级模块来完成,从而实现了对原始模型的“零侵入”。

3.2 可插拔转换器(Pluggable Converter)

为实现上述“零侵入”的能力扩展,MERGE设计了核心组件——可插拔转换器(Pluggable Converter)。这是一个轻量级的、可学习的模块,其设计灵感来源于适配器(Adapter)架构,但进行了针对性的优化和改进。转换器的作用是在不修改预训练模型参数的前提下,引导模型的特征流朝着适合深度估计任务的方向调整。

具体而言,转换器被设计为可以灵活地接入预训练模型的特征流中。当需要执行深度估计任务时,转换器被激活并插入到预训练模型的各层之间,对中间特征进行轻量级的调制,引导模型输出深度图而非彩色图像。当需要执行图像生成任务时,转换器被简单地跳过(bypassed),模型恢复到完全原始的状态,生成质量不受任何影响。这种“即插即用”的设计彻底解决了“灾难性遗忘”问题——因为原始模型的参数从未被修改,所以不存在遗忘的可能。

从技术实现角度来看,转换器通常采用轻量级的适配器结构,可能包含少量的线性层、归一化层和激活函数。其参数量远小于预训练模型本身,但足以对特征流进行有效的任务导向调制。这种设计在保持功能有效性的同时,确保了极高的参数效率。

3.3 组重用机制(Group Reuse Mechanism, GRE)

虽然转换器的设计已经相当轻量,但MERGE的研究者进一步观察到:在T2I扩散模型的架构中,相邻层的特征表示往往具有高度相似性。这一观察为参数效率的进一步提升提供了重要线索。基于此,MERGE提出了组重用机制(Group Reuse Mechanism, GRE),其核心思想是让一个组内的多个层共享同一个转换器。

具体来说,GRE将预训练模型的层划分为若干组(group),每组包含多个特征相似的连续层。同一组内的所有层共享一个转换器实例,而非每层配备独立的转换器。这种分组共享策略极大地减少了需要额外学习的参数数量。实验表明,通过合理的分组策略,GRE可以在几乎不损失性能的前提下,将额外参数量降低到仅占预训练模型的约12%。这一数字远低于全参微调方法(100%参数需要更新)和传统适配器方法(通常需要20%-30%的额外参数),体现了极致的参数效率。

GRE的设计不仅减少了参数量,还带来了额外的优势:更少的参数意味着更低的过拟合风险,使得模型在小规模训练数据上也能取得良好的性能。同时,共享参数的转换器在一定程度上起到了正则化的作用,提高了模型的泛化能力。

3.4 训练与推理流程

MERGE的训练流程简洁而高效。在训练阶段,预训练T2I模型的所有参数被完全冻结,仅训练可插拔转换器的参数。训练数据为标准的深度估计数据集,包含图像-深度图配对。模型接收输入图像,通过预训练模型的特征提取管道,在特征流中经过转换器的调制,最终输出预测的深度图。损失函数采用标准的深度估计损失,如L1损失或SILog损失等,用于度量预测深度图与真实深度图之间的差异。由于仅训练转换器参数,训练过程所需的计算资源和存储资源远低于全参微调方法。

在推理阶段,MERGE支持两种模式的灵活切换。在深度估计模式下,转换器被激活,输入图像经过预训练模型和转换器的联合处理,输出深度图。在图像生成模式下,转换器被跳过,模型完全恢复到预训练状态,可以像原始T2I模型一样根据文本提示生成高质量图像。两种模式之间的切换是即时的、无损的,不需要任何额外的适配或校准步骤。这种无缝切换能力是MERGE区别于所有现有方法的核心优势。

3.5 技术细节

在具体实现上,MERGE基于PixArt和FLUX.1等主流预训练T2I模型进行构建。PixArt是一个基于Transformer架构的高质量文生图模型,FLUX.1则是Black Forest Labs推出的新一代文生图模型,两者均展现了卓越的生成质量和视觉理解能力。MERGE的转换器设计采用了轻量级适配器结构,通常包含下投影层、非线性激活函数和上投影层,形成一个瓶颈式的特征调制模块。损失函数方面,MERGE采用了深度估计领域广泛使用的损失函数组合,包括L1损失和尺度不变对数损失(Scale-Invariant Log Loss, SILog),以确保预测深度图在绝对值和相对关系上均能与真实深度图对齐。

四、实验结果分析

4.1 零样本深度估计

在零样本深度估计这一核心评估维度上,MERGE展现出了卓越的竞争力。在NYUv2这一广泛使用的室内深度估计基准上,MERGE-L(基于FLUX.1的大规模版本)超越了此前由OneDiffusion保持的最优结果。这一成就尤为令人印象深刻,因为MERGE-L的训练数据量仅为OneDiffusion的千分之一——约7.4万样本对比OneDiffusion所需的1亿样本。同时,MERGE-L的可训练参数仅为OneDiffusion的一半左右。这意味着MERGE以极小的数据和计算代价,实现了超越大规模训练方法的效果,充分验证了“释放先验”策略的有效性。

在多个权威基准上的综合评估中,MERGE均取得了SOTA或与现有最优方法高度可比的结果。这些基准涵盖了室内场景(NYUv2、ScanNet)、室外场景(KITTI)以及通用场景(ETH3D)等多种设定,证明了MERGE的深度估计能力不受场景类型的限制。

4.2 参数效率

参数效率是MERGE的另一大亮点。与采用全参微调策略的Marigold相比,MERGE-B(基于PixArt的基础版本)仅使用了约18%的可训练参数,却取得了高度可比的深度估计性能。更重要的是,Marigold在微调后完全丧失了图像生成能力,而MERGE-B在取得相当感知性能的同时,完整保留了模型的生成能力。这一对比鲜明地展示了“即插即用”范式相对于“全参微调”范式的优势:以更少的参数代价,实现更全面的能力覆盖。

4.3 泛化能力

为验证MERGE框架的普适性,研究者还将该方法成功应用于表面法线估计(Surface Normal Estimation)任务。实验结果表明,MERGE在法线估计任务上同样取得了优异的性能,证明了该框架并非针对深度估计这一特定任务的“特解”,而是一种通用的能力扩展范式。这一发现为构建模块化、可扩展的统一感知系统提供了新的见解——未来可以通过为不同的感知任务设计专用的转换器,实现一个基础模型支撑多种感知任务的愿景。

4.4 定性结果

从定性分析的角度来看,MERGE生成的深度图在视觉质量上表现出色。与现有方法相比,MERGE的深度图在细节上更加清晰准确,能够更好地捕捉物体的边界、纹理和空间层次关系。特别是在处理中空区域、反光表面、透明物体等传统深度估计难题上,MERGE展现出了强大的鲁棒性。这些定性结果进一步印证了预训练T2I模型中蕴含的丰富视觉先验对于感知任务的价值,以及MERGE方法在有效释放这些先验方面的成功。

五、与相关工作的对比

在生成式深度估计领域,MERGE与多种代表性方法形成了有意义的对比。与Marigold相比,Marigold开创性地证明了预训练T2I模型可用于深度估计,但其全参微调策略导致模型丧失了生成能力。MERGE通过可插拔转换器完美解决了这一问题,在保持相当感知性能的同时,完整保留了生成能力。

与JointNet相比,JointNet采用双模型并行方案,同时维护生成模型和感知模型,虽然兼顾了两种能力,但计算和存储开销翻倍,实际部署成本高昂。MERGE仅需一个模型加轻量级转换器,在推理时根据任务需求灵活切换,效率远高于双模型方案。

与OneDiffusion相比,OneDiffusion试图通过在1亿混合样本上从零训练来实现能力统一,虽然效果优异,但数据和算力门槛极高。MERGE仅需7.4万样本,数据需求降低了三个数量级,同时取得了可比甚至更优的结果。此外,与基于流匹配的DepthFM和基于注意力机制的GeoWizard等专门化方法相比,MERGE的独特优势在于其“即插即用”的范式——参数高效、无损切换、易于扩展,代表了扩散模型能力扩展的一种新方向。

六、优缺点分析

优点

1. “即插即用”范式优雅简洁,实现了生成与感知的无损统一,从根本上解决了灾难性遗忘问题。

2. 仅增加约12%可训练参数,实现了极致的参数效率,远低于全参微调和传统适配器方法。

3. 完整保留预训练模型的原始生成能力,两种模式之间无缝切换,无需额外校准。

4. 框架具有普适性,可扩展到深度估计以外的其他感知任务(如表面法线估计),展现了通用性。

5. 训练数据需求极低(7.4万 vs 1亿),大幅降低了研究门槛和计算成本。

6. 代码已开源,可复现性好,便于社区在此基础上进行进一步研究和应用。

缺点

1. 深度估计性能仍略逊于专门的全参微调方法,在某些细节场景上还有提升空间。

2. 转换器的设计可能需要针对不同预训练模型(如PixArt vs FLUX)进行针对性调整和优化。

3. 论文主要在零样本设置下进行评估,少样本和全样本设置下的表现尚未充分探索。

4. 推理时需要额外的转换器计算,虽然开销很小,但在极端延迟敏感场景下仍需考虑。

七、个人见解和未来展望

MERGE所代表的“释放先验”范式,与“重建模型”范式形成了鲜明对比。传统的全参微调和大规模重训练方法试图通过修改或重建模型来实现能力扩展,而MERGE则选择了一种更可持续、更模块化的路径——在不触碰基础模型的前提下,通过外部模块来解锁和扩展其能力。这一思想与大模型时代“基础模型+插件”的发展趋势高度契合,预示着AI模型能力扩展方式的一次范式转变。

对大模型应用范式而言,MERGE提供了重要启示:从破坏性微调转向非破坏性的能力扩展。过去的研究往往默认“要获得新能力就必须牺牲旧能力”,但MERGE证明了这一假设并非不可打破。这一洞见不仅适用于扩散模型,也可能推广到大型语言模型和其他基础模型的能力扩展中。

“即插即用”范式的潜力令人期待。可以想象,未来的基础模型将配备各种“技能模块”——深度估计模块、语义分割模块、边缘检测模块等——用户可以根据具体需求按需加载,就像为智能手机安装应用程序一样灵活便捷。这种模块化的能力扩展方式将极大降低AI技术的使用门槛,推动AI技术的普及和应用。

从技术脉络来看,MERGE的思想与LoRA等参数高效微调(PEFT)方法一脉相承,但更进一步实现了“无损切换”——不仅减少了需要训练的参数,更重要的是实现了生成与感知两种能力之间的无损共存。这一进步使得MERGE超越了传统PEFT方法的范畴,代表了一种新的模型能力扩展范式。

展望未来,MERGE的研究方向可以从以下几个维度展开:第一,扩展到更多感知任务,如语义分割、法线估计、边缘检测、光流估计等,验证框架的通用性;第二,探索多任务联合的即插即用框架,使多个转换器可以协同工作,实现多任务联合推理;第三,研究转换器的自动搜索和设计,利用神经架构搜索(NAS)等技术自动发现最优的转换器结构;第四,结合视频扩散模型实现时序一致的深度估计,将静态深度估计扩展到动态视频场景;第五,探索在3D生成和重建中的应用,利用释放的感知能力提升3D内容的生成质量。

对研究者而言,MERGE的成功强烈建议我们关注“即插即用”这一新兴范式。在未来的研究中,与其思考如何通过微调来改造基础模型,不如思考如何在不破坏基础模型的前提下扩展其能力。这一思路不仅更加优雅,也更符合工程实践的需求,有望成为大模型时代能力扩展的主流范式之一。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐