(Arxiv-2026)SpatialEdit: 细粒度图像空间编辑基准测试
SpatialEdit: 细粒度图像空间编辑基准测试
paper title:SpatialEdit- Benchmarking Fine-Grained Image Spatial Editing
paper是HKU发布在Arxiv 2026的工作
Code:链接

摘要
图像空间编辑执行几何驱动的变换,允许对物体布局和相机视角进行精确控制。当前模型不足以处理细粒度的空间操控,这促使我们需要一个专门的评估套件。我们的贡献如下:(i) 我们引入SpatialEdit-Bench,一个完整的基准测试,通过联合测量视点重建和构图分析来评估空间编辑的感知合理性和几何保真度。(ii) 为解决可扩展训练的数据瓶颈,我们构建了SpatialEdit-500k,一个通过可控Blender管线生成的合成数据集,该管线在多样化背景和系统性相机轨迹上渲染物体,为物体中心和相机中心操作提供精确的ground-truth变换。(iii) 基于这些数据,我们开发了SpatialEdit-16B,一个细粒度空间编辑的基线模型。我们的方法在通用编辑上取得了有竞争力的性能,同时在空间操控任务上大幅超越先前方法。
关键词:细粒度空间编辑 · 几何感知基准测试 · 合成数据集管线
1 引言
现代图像编辑正在迅速从改变什么(例如添加、删除、替换和风格化)转向在3D空间中改变在哪里以及如何改变。我们将这种能力称为图像空间编辑:通过应用几何驱动的变换而非外观编辑来编辑图像。具体而言,空间编辑涵盖两个互补的轴(图1):相机中心视角操控(例如偏航、俯仰和缩放)和物体中心操控(例如在用户指定的框内平移/缩放物体,或将物体旋转到期望的规范视角)。这一功能对于世界建模和具身感知管线越来越重要,其中可控视点变化和物体重配置是交互式内容创建、仿真和下游3D推理的先决条件。
尽管基于用户指令的图像生成取得了快速进展,精确的空间控制仍然脆弱。现有系统存在三种常见的失败模式。首先,许多空间条件化的世界模型或视频生成管线需要专家输入,如完整的6-DoF相机轨迹,这为典型的图像编辑场景造成了陡峭的可用性障碍。其次,强大的通用指令编辑器通常擅长语义编辑,但经常遗漏度量或视点意图——例如"将相机向右旋转90°"或"旋转物体以显示其右前方"——产生看起来合理但空间上不正确的输出。第三,一些方法融入了空间推理,但通常范围狭窄(一种操作或一种设置),无法泛化到真实用户需求的多样化操作集。这些局限性共同表明"语义对齐"和"忠实几何符合"之间存在差距。
这一差距持续存在的一个关键原因是空间编辑的评估仍然不完善,如表1所示。当指标无法可靠区分"看起来对"和"确实对"时,模型迭代变得嘈杂且进展难以衡量。为此,我们引入SpatialEdit-Bench,一个涵盖物体级和相机级空间编辑的基准测试,配合针对视点变化定制的几何感知评估。除了基于检测器驱动的构图和构图分析(我们的Framing Error: FE),我们还通过在3D空间中重建相机位姿来量化视点误差(VE),从而直接检查编辑结果是否匹配预期的几何变换。在具有细粒度位姿变化的受控验证中,这些指标显示出比先前工作中使用的视觉语言模型判断明显更高的可靠性,凸显了几何敏感评估对于诊断真正空间能力的必要性。

然而,仅有基准测试是不够的——训练数据是细粒度空间编辑的真正瓶颈。这类数据难以大规模获取,因为它需要具有已知几何变换的配对图像、跨编辑的一致物体身份、忠实且无歧义的指令,同时涵盖广泛的场景、物体类别和相机配置。为解决这个问题,我们在Blender中构建了一个可扩展且可控的数据引擎,用于合成配对监督及相应的文本指令。对于物体级空间编辑,我们从八个预设视点渲染大量GLB资产集合来生成源图像。然后我们使用VLM来验证正面视图的可用性并分配物体名称,SAM3对每个物体进行分割以生成掩码标签。接下来,我们使用高质量的文生图模型生成多样化的背景,并将渲染的物体修复到这些背景中,产生具有ground-truth空间意图的逼真编辑图像。对于相机级编辑,我们策划了丰富的室内外场景集合,选择显著物体作为焦点目标,并通过变化偏航、俯仰和缩放系统地采样相机位姿。我们进一步使用VLM生成具有准确视点变化的配对图像,并产生支持灵活相机中心编辑的自然语言指令。如图2所示,生成的SpatialEdit-500k实现了高多样性和跨任务类型的均衡分布。基于这些数据,我们开发了SpatialEdit-16B,一个细粒度空间编辑模型,它结合了预训练的多模态编码器和MM-DiT解码器。我们首先通过在开源编辑数据上预训练确保强大的通用编辑行为,然后使用参数高效微调(LoRA)在SpatialEdit-500k上进行专业化。经验上,这一策略产生了一个在通用编辑基准上具有竞争力的模型,同时在空间任务上大幅改进——恰恰是先前系统最常失败的领域。
为评估我们的方法,我们同时使用公开可用的GEdit和我们新引入的SpatialEdit-Bench进行通用和空间编辑任务评估。具体而言,在保持通用编辑可比性能的同时(GEdit-Bench上7.52),我们的方法通过持续训练获得了精确编辑能力(如图1所示),在移动和旋转分数上分别超越当前开源最先进模型LongCatImage-Edit 0.300和0.127个点,同时在相机控制上达到最低误差。此外,基于视频的世界模型在通过文本指令执行细粒度空间操控方面明显逊于图像空间编辑模型。另外,我们的模型还可以作为单视图重建的实用增强工具。

2 相关工作
图像编辑与生成模型。基于扩散的生成模型极大地提高了图像编辑的保真度和可控性。基于指令的编辑根据自然语言指令修改图像,同时保持整体语义,但依赖于大规模的指令忠实监督。早期管线如InstructP2P结合提示工程和扩散编辑算子如Prompt-to-Prompt(构建在潜扩散之上),后来的工作通过人工编辑、基于修复的合成、合成和专家模型编排来扩展训练数据。最近的统一框架进一步支持更丰富的指令和多任务编辑。除了纯文本条件化,基于参考的方法提高了可控性,而后来的方法引入了轻量级视觉适配器。更近期的系统将参考图像编码为DiT中的视觉token,采用transformer骨干如DiT来提高可扩展性和条件化灵活性。
空间感知视觉操控。空间条件化生成建模的最新进展表明,显式空间控制可以大规模学习。先前工作通过相机运动或6-DoF条件化探索了可控视点操控(MotionCtrl、CameraCtrl、CVD),相机感知DiT架构(AC3D),以及更通用的控制接口(OminiControl)。其他方法融入了几何线索如密集点轨迹,在GS-DiT和Diffusion-as-Shader中实现几何感知生成。使用模拟数据(Kubric)的相机轨迹操控和新视角合成在GCD中被探索,而Recapture研究了基于适应的真实图像相机控制。然而,空间操控的评估仍然有限,因为现有基准依赖于粗糙的指标或语义对齐检查。我们通过引入具有ground-truth几何标注和几何感知指标的统一基准来解决这一问题,该指标显式测量变换精度和视点正确性。
3 图像空间编辑
3.1 重新审视图像空间操控
图像空间操控传统上使用显式几何约束来制定(例如视图合成和位姿条件生成),但现代遵循指令的编辑模型仅从语言监督就被期望执行它,暴露了语义对齐和几何符合之间的关键不匹配。在实践中,输出通常看起来合理但违反度量意图,特别是对于细粒度相机操作(偏航/俯仰/缩放)和规范物体重定向。相机中心视角操控需要全局一致的重投影和构图一致性,而物体中心操控需要局部的、身份保持的变换,与背景解耦。这促使我们将空间操控重新审视为一种一流的图像编辑能力,具有(i)统一的任务定义,涵盖相机和物体级控制,(ii)几何感知评估,能区分"看起来对"和"确实对"(例如视点和构图敏感指标),(iii)可扩展的配对监督,具有无歧义的变换意图。因此,它直接指导了我们的基准测试、数据引擎和模型设计。
3.2 任务定义
为弥合语义意图和几何精度之间的差距,我们将空间编辑分为两个主要轴:物体中心操控和相机中心视角控制。
物体级空间操控。我们旨在编辑图像中的个别物体,包括平移(重新定位)、缩放(调整大小)和旋转(方向变化),同时维持场景一致性。为实现细粒度控制,我们使用红色边界框来定义目标平移和缩放操作。用户可以通过文本指令或直接在画布上绘制目标矩形来约束物体移动和调整大小。对于方向,我们将物体朝向离散化为八个规范视点:右、右前、前、左前、左、左后、后和右后。
相机级视角控制。此任务涉及操控全局成像视角来合成新视点,而不改变底层场景内容。我们通过三个自由度参数化这个空间:(i) 俯仰和偏航:我们以15°间隔离散化垂直倾斜(俯仰),以45°增量离散化水平平移(偏航)。这个网格提供了实际相机轨迹的全面覆盖。(ii) 缩放:焦距变化被建模为朝向或远离焦点的运动。通过统一这些参数,我们的框架将编辑任务从2D图像到图像的映射提升为几何感知变换,有效地将场景建模为具有显式定义的相机和物体状态的3D环境。
3.3 SpatialEdit-500k数据集
本节主要介绍我们如何收集和创建支持图像空间编辑的数据集。

物体中心数据生成管线。为构建具有可控视点和空间变化的高质量物体中心数据集,我们设计了一个多阶段数据管理管线。如图3左侧所示,我们的管线逐步过滤、增强和标注3D资产,以确保几何一致性、可辨识度和空间多样性。整体过程包含多个阶段,如下所述。
我们从TexVerse策划的变体GLB资产开始,在Blender中以预定义的正面朝前相机配置渲染它们,固定相机内参和物体对齐以确保一致的正面视图。为保证视图正确性并移除歧义资产,我们使用先进的视觉语言模型验证每个渲染图像对应有效正面视图且展现最小侧视特征,丢弃不满足这些标准的资产。对于每个保留的GLB模型,我们在物体周围渲染八个均匀分布的视点,同时保持一致的相机内参。然后我们应用Segment Anything Model (SAM3)来获取每个视图的物体掩码,使用TexVerse标题的第一句作为文本提示来验证正确的物体定位和分割;未通过此检查的视图被移除。为引入空间多样性,我们在Blender中为每个有效视图生成八个额外的具有随机化平移和缩放因子的渲染,并重新应用SAM3验证扰动后的物体仍然可见且完全包含在图像帧内,保留至少有一个有效渲染的样本。对于每个规范正面视图,我们使用Nano-Pro合成语义兼容的背景图像,以物体外观为条件。我们将这些背景与验证后的多视图图像及其空间扰动变体合成,融合前景物体同时保持几何一致性。最后,我们将已知的3D边界框投影到图像平面以获取每个变换物体的精确2D边界框标注。
相机中心数据生成管线。如图3右侧所示,我们建立了一个高保真3D仿真环境来系统地采样视点操控的相机轨迹。我们首先构建了一个大规模的高质量3D场景池,包含具有语义一致物体布局和物理合理几何的多样化室内外场景。对于每个场景,我们手动选择 N s c e n e t a r g e t N_{scene}^{target} Nscenetarget 个视觉显著物体作为相机焦点目标,确保所选物体在场景中可辨识且充分暴露。这些物体作为定义相机视点变化的锚点。我们使用三个自由度参数化相对于焦点物体的相机运动:偏航、俯仰和距离,对应于水平环绕、垂直倾斜和缩放等常见相机操作。使用Blender,我们通过遍历这些参数的预定义范围系统地采样每个焦点物体周围的相机位姿,同时保持相机内参固定。每个采样位姿用于渲染候选场景图像,产生多样化视点同时保持底层场景配置和物体布局。
为确保数据集可靠性,我们应用双分支质量过滤管线来移除无效渲染。一个分支使用基于YOLO的检测器验证焦点物体的可见性并丢弃物体缺失、严重遮挡或截断的图像。另一个分支使用视觉语言模型QwenVL-30B评估语义和几何合理性,过滤掉展现网格互穿、极端或非自然视点、或视觉上无意义场景构图的渲染。对于每个有效渲染,我们记录原始相机参数 ( θ y , θ p , d ) (\theta_y, \theta_p, d) (θy,θp,d) 并通过采样与同一焦点物体关联的两个位姿来构建视点对,计算它们的相对变换 ( Δ θ y , Δ θ p , Δ d ) (\Delta\theta_y, \Delta\theta_p, \Delta d) (Δθy,Δθp,Δd)。这些变换首先被转换为描述视点变化的模板化相机编辑指令。我们进一步提供类人指令以及简洁的目标场景描述,作为降低几何编辑难度的提示增强器。生成的数据集包含高质量图像对,具有受控相机变换、关联的相机参数和多样化自然语言指令,支持相机中心空间编辑能力的系统评估。
3.4 SpatialEdit-Bench
为严格评估图像空间编辑,我们构建了一个聚焦于空间变换任务的基准测试,联合测量几何精度、语义一致性和结构保持。不同于以外观变化为中心的传统编辑基准,我们的基准强调空间操作如物体缩放、平移、旋转和相机视点调整。
物体级任务评估指标。由于我们将物体级操控分为物体移动和旋转,对于物体移动分支,我们可以仅使用检测模型来准确评估。
移动分数。为定量验证预测的物体位置是否满足规定的绝对空间约束,我们首先使用检测模型计算IoU。然而,仅有几何正确性是不够的,因为空间平移可能引入语义伪影或上下文不一致。因此,我们进一步引入VLM来计算物体一致性分数 S o c ∈ [ 0 , 1 ] S_{oc} \in [0,1] Soc∈[0,1],它评估变换后的主体完整性和环境连贯性。然后移动分数定义为:
M S = I o U ( b g t , b p r e d ) ⋅ S o c MS = \sqrt{IoU(b_{gt}, b_{pred}) \cdot S_{oc}} MS=IoU(bgt,bpred)⋅Soc
几何均值的形式强制空间精度和语义保真度之间的乘性耦合,从而惩罚不平衡。
旋转分数。对于物体旋转分支, I p r e d ~ \widetilde{I_{pred}} Ipred 表示应用了由偏航 θ \theta θ 和俯仰 ϕ \phi ϕ 参数化的视点变换后的图像。由于旋转正确性本质上是视点敏感的且难以几何定位,我们使用先进的闭源VLM来估计视点正确性分数 S v i e w S_{view} Sview,它衡量渲染视角是否匹配指定的角度配置。为进一步防止旋转过程中引入的外观漂移或结构畸变,我们还通过同一VLM计算一致性分数 S c o n s S_{cons} Scons。最终旋转分数定义为:
R S = S v i e w ⋅ S c o n s RS = \sqrt{S_{view} \cdot S_{cons}} RS=Sview⋅Scons
这种乘性设计也同时强制视点正确性和语义连续性,防止忽视物体身份或场景合理性的平凡视点幻觉。
相机级任务评估指标。给定源、ground-truth和预测视图的三元组 ( I s r c , I g t , I p r e d ) (\mathcal{I}_{src}, \mathcal{I}_{gt}, \mathcal{I}_{pred}) (Isrc,Igt,Ipred),我们旨在从两个互补方面评估相机级编辑:(i) 图像平面中的构图误差(FE)(焦点物体应保持可见且具有正确构图),(ii) 相机外参方面的视点误差(VE)(预测的相机位姿应在场景尺度内匹配目标位姿)。因此我们采用双指标协议,使用YOLO的基于检测器的指标和VGGT的几何感知指标。
视点误差。具体而言,为以几何感知方式测量视点正确性,我们使用VGGT,它是一个前馈transformer,直接从单张或一组多视角图像输入推断场景的关键3D属性,包括相机参数(内参/外参)、深度图、点图和3D点轨迹。它以全局一致的3D表示建模场景,而非依赖纯2D外观线索。在我们的评估中,VGGT以 ( I s r c , I g t , I p r e d ) (\mathcal{I}_{src}, \mathcal{I}_{gt}, \mathcal{I}_{pred}) (Isrc,Igt,Ipred) 作为输入并返回估计的世界到相机外参:
( R ~ s r c , t s r c ) , ( R ~ g t , t g t ) , ( R ~ p r e d , t p r e d ) = f V G G T ( I s r c , I g t , I p r e d ) (\widetilde{\mathcal{R}}_{src}, t_{src}), (\widetilde{\mathcal{R}}_{gt}, t_{gt}), (\widetilde{\mathcal{R}}_{pred}, t_{pred}) = f_{VGGT}(\mathcal{I}_{src}, \mathcal{I}_{gt}, \mathcal{I}_{pred}) (R src,tsrc),(R gt,tgt),(R pred,tpred)=fVGGT(Isrc,Igt,Ipred)
由此我们在世界坐标中计算相机中心:
C = − R ~ ⊤ t , R ~ = ( R ~ s r c , R ~ g t , R ~ p r e d ) , t = ( t s r c , t g t , t p r e d ) \mathbf{C} = -\widetilde{\mathbf{R}}^\top \mathbf{t}, \quad \widetilde{\mathbf{R}} = (\widetilde{\mathcal{R}}_{src}, \widetilde{\mathcal{R}}_{gt}, \widetilde{\mathcal{R}}_{pred}), \quad \mathbf{t} = (t_{src}, t_{gt}, t_{pred}) C=−R ⊤t,R =(R src,R gt,R pred),t=(tsrc,tgt,tpred)
然后我们计算基线归一化平移误差(消除对全局场景尺度的敏感性)和基于SO(3)上测地距离的旋转误差:
ϵ x y z = ∥ C p r e d − C g t ∥ 2 ∥ C g t − C s r c ∥ 2 + ε \epsilon_{xyz} = \frac{\|\mathcal{C}_{pred} - \mathcal{C}_{gt}\|_2}{\|\mathcal{C}_{gt} - \mathcal{C}_{src}\|_2 + \varepsilon} ϵxyz=∥Cgt−Csrc∥2+ε∥Cpred−Cgt∥2
ϵ r o t = 1 90 d g e o ( R ~ p r e d , R ~ g t ) \epsilon_{rot} = \frac{1}{90} d_{geo}\left(\widetilde{\mathcal{R}}_{pred}, \widetilde{\mathcal{R}}_{gt}\right) ϵrot=901dgeo(R pred,R gt)
d g e o ( x 1 , x 2 ) = arccos ( Tr ( x 1 ⊤ x 2 ) − 1 2 ) ⋅ 180 π d_{geo}(x_1, x_2) = \arccos\left(\frac{\text{Tr}(x_1^\top x_2) - 1}{2}\right) \cdot \frac{180}{\pi} dgeo(x1,x2)=arccos(2Tr(x1⊤x2)−1)⋅π180
最终,我们将它们聚合为单一位姿误差:
V E = 1 2 ( ϵ x y z + ϵ r o t ) VE = \frac{1}{2}(\epsilon_{xyz} + \epsilon_{rot}) VE=21(ϵxyz+ϵrot)
其中更低的VE表示更准确的相机视点编辑。
构图误差。仅用视点误差计算可能无法反映编辑输出在相机运动下是否保持有意义的空间布局(例如,物体可能漂移到不正确位置或场景结构可能变形)。因此我们引入基于检测的物体中心空间一致性指标(FE: Framing Error)。我们首先引入角度一致性。设 O g t = { o 1 g t , … , o n g t } \mathcal{O}_{gt} = \{o_1^{gt}, \ldots, o_n^{gt}\} Ogt={o1gt,…,ongt} 和 O p r e d = { o 1 p r e d , … , o n p r e d } \mathcal{O}_{pred} = \{o_1^{pred}, \ldots, o_n^{pred}\} Opred={o1pred,…,onpred} 分别表示在 I g t \mathcal{I}_{gt} Igt 和 I p r e d \mathcal{I}_{pred} Ipred 中检测到的物体集合。对于每个物体,我们从图像中心到物体边界框中心 ( u , v ) (u,v) (u,v) 计算射线方向:
r ( u , v ) = [ ( u − c x ) / f , ( v − c y ) / f , 1 ] ⊤ ∥ [ ( u − c x ) / f , ( v − c y ) / f , 1 ] ∥ \mathbf{r}(u,v) = \frac{[(u-c_x)/f, (v-c_y)/f, 1]^\top}{\|[(u-c_x)/f, (v-c_y)/f, 1]\|} r(u,v)=∥[(u−cx)/f,(v−cy)/f,1]∥[(u−cx)/f,(v−cy)/f,1]⊤
其中 ( c x , c y ) (c_x, c_y) (cx,cy) 是图像中心, f f f 是焦距。我们通过匈牙利匹配算法在 O g t \mathcal{O}_{gt} Ogt 和 O p r e d \mathcal{O}_{pred} Opred 之间建立对应关系,最小化射线角度和面积比之和。设 M = { ( i , j ) } \mathcal{M} = \{(i,j)\} M={(i,j)} 为匹配物体对集合。我们计算平均射线角度差 ϵ r a g \epsilon_{rag} ϵrag 为:
ϵ r a g = 1 ∣ M ∣ ∑ ( i , j ) ∈ M arccos ( r i g t ⋅ r j p r e d ) × 180 π \epsilon_{rag} = \frac{1}{|\mathcal{M}|} \sum_{(i,j) \in \mathcal{M}} \arccos(\mathbf{r}_i^{gt} \cdot \mathbf{r}_j^{pred}) \times \frac{180}{\pi} ϵrag=∣M∣1(i,j)∈M∑arccos(rigt⋅rjpred)×π180
其中更低的值表示预测和目标物体布局之间更好的空间对齐。此外,我们验证预测图像是否相对于源展现了正确的缩放变化以响应缩放编辑命令。设 M z o o m \mathcal{M}_{zoom} Mzoom 为 I s r c \mathcal{I}_{src} Isrc 和 I p r e d \mathcal{I}_{pred} Ipred 之间的匹配物体对。给定命令指定的距离变化 Δ d \Delta d Δd(负值表示zoom-in,正值表示zoom-out),我们计算缩放方向误差:
ϵ z d e = I [ F ~ i , j m e d ( 1 2 log ( ∣ b j p r e d ∣ ∣ b i s r c ∣ ) ) × Δ d > 0 ] \epsilon_{zde} = \mathbb{I}\left[\widetilde{F}_{i,j}^{med}\left(\frac{1}{2}\log\left(\frac{|b_j^{pred}|}{|b_i^{src}|}\right)\right) \times \Delta d > 0\right] ϵzde=I[F i,jmed(21log(∣bisrc∣∣bjpred∣))×Δd>0]
其中 ∣ b ∣ |b| ∣b∣ 表示边界框面积, I [ ⋅ ] \mathbb{I}[\cdot] I[⋅] 是指示函数, F ~ i , j m e d \widetilde{F}_{i,j}^{med} F i,jmed 表示中位数函数。这个二值指标确保zoom-in命令( Δ d < 0 \Delta d < 0 Δd<0)产生更大物体( s l o g > 0 s_{log} > 0 slog>0),反之亦然。最终,构图误差可表述为:
F E = 1 2 ( ϵ r a g + ϵ z d e ) FE = \frac{1}{2}(\epsilon_{rag} + \epsilon_{zde}) FE=21(ϵrag+ϵzde)
4 图像空间编辑模型
如图4所示,我们采用级联编辑管线。给定一条指令和一张参考图像,视觉语言模型产生语义嵌入作为全局条件化。图像被编码为VAE潜变量,MMDiT在多模态引导下对其去噪以获得编辑后的潜变量,再由VAE解码为最终输出。训练分两个阶段进行:(1) 通过在公开编辑数据上微调使模型适应图像编辑,(2) 通过在我们策划的数据集上进行LoRA后调优来专业化于图像空间编辑场景,在保持通用先验的同时提高变换控制能力。

5 实验
5.1 训练细节
我们在开源编辑数据集和专有内部数据上预训练模型,明确排除空间编辑样本(详见补充材料)。训练使用AdamW优化器, β 1 = 0.9 \beta_1 = 0.9 β1=0.9, β 2 = 0.95 \beta_2 = 0.95 β2=0.95,学习率为 1 × 10 − 4 1 \times 10^{-4} 1×10−4,并在前1000次迭代上进行线性预热。
5.2 定量结果

Table 2: Performance comparison on proposed SpatialEdit-Bench.
图像空间编辑性能。如表2所示,我们的SpatialEdit在物体级和相机级指标上均取得了最佳整体性能。对于物体级任务,我们的SpatialEdit以0.673的移动分数显著超越所有基线,同时保持有竞争力的物体旋转分数(0.632)。另一方面,SpatialEdit产生了最低的视点误差(0.243)和构图误差(0.527),将当前SOTA方法LongCatImage-Edit在整体相机误差指标上提升了0.358。我们进一步评估闭源世界模型在通过文本指令进行精确相机视点控制上的表现,通过采样生成视频的最后一帧。结果表明它们的性能弱于主流图像编辑模型,可能是由于在视频生成过程中维持一致相机运动的挑战。
通用编辑性能。为验证我们模型在预训练阶段的通用编辑能力,我们在GEdit上进行评估,如表5所示。在开源模型中,SpatialEdit取得了有竞争力的性能,为后续空间编辑任务的微调提供了坚实基础。



5.3 消融研究
训练数据组合。如表3所示,多任务混合训练比单任务训练收敛更可靠。Mov+Rot提升了两个物体指标(0.657/0.632),添加Cam进一步改善Mov并降低相机误差(Mov+Cam: 0.665, Cam: 0.402)。在所有三个任务上训练产生最佳整体权衡(Mov: 0.673, Rot: 0.632, Cam: 0.385),表明来自共享空间监督的正向迁移。

相机评估指标。我们渲染同一场景的 n n n 个细粒度视图,固定一个作为ground-truth,将其余视图视为具有已知排序的伪编辑。每个指标对这些视图进行打分和排序;然后我们计算预测排名和真实排名之间的Spearman相关性(表4)。VE达到最高相关性,其次是FE,两者都大幅超越GPT,支持VE用于相机评估的可靠性。

5.4 定性结果
图5比较了相机视角操控(zoom-out、偏航/俯仰变化和旋转/倾斜)。SpatialEdit更忠实地遵循请求的视点偏移,同时比先前基线更好地保持场景几何并减少畸变(例如纹理拉伸、边界漂移和幻觉)。此外,图6评估了物体级编辑(将物品移动到目标区域并旋转物体到指定视角)。竞争方法经常留下伪影或改变背景,而SpatialEdit以更高的物体保真度和更强的背景保持执行更清晰的编辑,产生更好的准确度-保持权衡。
5.5 单视图重建增强工具
我们提出了一个管线,使用SpatialEdit在多视图观测不可用时改善3D重建。如图7所示,单视图输入受到深度-尺度歧义和缺失几何线索的困扰。通过编辑相机来合成新视点,我们的方法添加了几何约束,导致更准确、结构一致和详细的重建。

6 结论
我们提出了一种细粒度空间图像编辑范式,其中编辑由物体操控和相机视点的显式几何控制组成。为进行严格评估,我们引入SpatialEdit-Bench,通过联合测量视点重建和构图分析的感知合理性和几何保真度来提高评估可靠性。为缓解数据瓶颈,我们构建了SpatialEdit-500k,一个具有多样化场景和3D资产的受控Blender数据集。利用这些数据,我们开发了SpatialEdit-16B,一个在通用编辑上保持竞争力同时在挑战性空间操控任务上大幅推进性能的强基线。我们希望我们的基准、数据集和模型将支持可复现的进展,并激励未来工作更紧密地将几何推理与高质量图像合成耦合。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)