论文笔记（八十五）SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation

墨绿色的摆渡人

541人浏览 · 2025-06-20 02:17:26

墨绿色的摆渡人 · 2025-06-20 02:17:26 发布

@[TOC](SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation)

文章概括

引用：

@article{jiang2023se,
  title={Se (3) diffusion model-based point cloud registration for robust 6d object pose estimation},
  author={Jiang, Haobo and Salzmann, Mathieu and Dang, Zheng and Xie, Jin and Yang, Jian},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  pages={21285--21297},
  year={2023}
}

Jiang, H., Salzmann, M., Dang, Z., Xie, J. and Yang, J., 2023. Se (3) diffusion model-based point cloud registration for robust 6d object pose estimation. Advances in Neural Information Processing Systems, 36, pp.21285-21297.

主页： https://proceedings.neurips.cc/paper_files/paper/2023/hash/43069caa6776eac8bca4bfd74d4a476d-Abstract-Conference.html
原文： https://proceedings.neurips.cc/paper_files/paper/2023/file/43069caa6776eac8bca4bfd74d4a476d-Paper-Conference.pdf
代码、数据和视频： https://github.com/Jiang-HB/DiffusionReg

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

摘要

在本文中，我们介绍了一种基于 $SE (3)$ 扩散模型的点云配准框架，用于现实场景中的 6D 物体位姿估计。我们的方法将三维配准任务表述为一个去噪扩散过程，该过程逐步优化源点云的位姿，以实现与模型点云的精确对齐。在训练我们的框架时，涉及两个过程： $SE (3)$ 扩散过程和 $SE (3)$ 逆过程。 $SE (3)$ 扩散过程通过持续注入噪声（扰动变换），逐步扰动一对点云的最优刚性变换。相比之下， $SE (3)$ 逆过程则专注于学习一个去噪网络，该网络逐步精炼带噪变换，使其逐渐逼近用于精确位姿估计的最优变换。与在欧氏线性空间中使用的标准扩散模型不同，我们的扩散模型在 $SE (3)$ 流形上运行。这就需要利用与 $SE (3)$ 相关联的线性李代数 $se (3)$ ，以在扩散和逆过程期间约束变换的过渡。此外，为了有效地训练我们的去噪网络，我们推导了一个针对配准任务的变分下界，作为模型学习的优化目标。进一步地，我们展示了可以利用一个替代的配准模型来构建我们的去噪网络，使得该方法能够适用于不同的深度配准网络。大量实验表明，我们的扩散配准框架在真实世界的 TUD-L、LINEMOD 和 Occluded-LINEMOD 数据集上展现了卓越的位姿估计性能。代码已发布于 https://github.com/Jiang-HB/DiffusionReg。

1 引言

精确估计物体的6D位姿，包括其空间位置和姿态，是计算机视觉领域的一项关键任务，并已广泛应用于机器人抓取 [10,52,68]、增强现实 [32,33] 和自主导航 [7,16,58] 等各个领域。虽然基于 RGB 或 RGB-D 数据 [26,42,41,52,38,63,49] 的6D位姿估计方法已经取得了大量进展，但3D传感器（如 Kinect 和 LiDAR）以及3D配准技术的进步，推动了基于点云配准的位姿估计成为一个有前景的方向。

然而，面向对象级别的3D配准最新方法 [44,62,15] 主要集中在合成数据上，在真实场景的6D位姿估计数据集（如 TUD-L [20]、LINEMOD [18] 和 Occluded-LINEMOD [6]）上难以实现精确配准。与合成数据中受控的几何结构、手动定义的变换和人工设置的部分重叠不同，真实场景的位姿估计数据集存在大量挑战，包括大范围的旋转和平移、自然噪声干扰以及严重的遮挡，这些因素显著增加了配准难度。已有研究尝试应对这些挑战：例如 [11] 引入了一种通用匹配归一化层，以规范源点云和模型点云的特征分布，从而促进特征匹配；[60,48] 设计了基于 RANSAC 的异常值剔除策略，以增强配准的鲁棒性。虽然这些初步尝试在将对象级点云配准推向实用化方面迈出了重要一步，但要完全解决上述所有真实场景下的挑战，仍有大量工作需要开展。

在本文中，受生成式AI中扩散模型显著成功的启发[19,45,46,47]，我们提出将其应用于三维配准领域，并引入一种基于 $SE (3)$ 扩散模型的配准方法，以实现现实世界中鲁棒的6D物体位姿估计。我们的方法将三维配准表述为在 $SE (3)$ （特殊欧氏群）上的去噪扩散过程，旨在逐步精炼源点云的位姿，以实现与模型点云的精确对齐。训练我们的模型涉及两个关键操作：一个 $SE (3)$ 扩散过程和一个 $SE (3)$ 逆过程。 $SE (3)$ 扩散过程通过不断注入扰动变换，逐步将源点云与模型点云之间的最优变换转换为带噪声的变换。相反， $SE (3)$ 逆过程学习一个去噪网络，逐步将带噪变换精炼为最优变换。我们的扩散模型在 $SE (3)$ 流形上运行，这带来了将扩散/逆过程公式从线性欧氏空间扩展到非线性流形的挑战。为了解决此挑战，我们利用与 $SE (3)$ 相关联的线性李代数 $se (3)$ 来进行线性扩散/逆过程计算，并将 $se (3)$ 结果映射回 $SE (3)$ 以获得所需的扩散/逆过程变换。

为了有效地训练我们的去噪网络，我们采用贝叶斯形式主义，推导出一个针对配准任务的变分下界，作为模型优化的目标。此外，我们利用一个替代配准模型重构了我们的去噪网络，使得该方法可应用于诸如[54,62]等不同的深度配准方法。在推理阶段，学习到的去噪网络在给定源点云和模型点云作为条件信号的情况下，逐步将单位变换精炼为最优变换。

与先前的配准方法相比，我们的扩散配准框架具有以下两点优势。首先，扩散过程为源点云生成了多样化的位姿集合，从而实现了更全面的模型训练。这种增加的位姿多样性促进了模型处理更大范围旋转/平移的能力，并提高了其泛化性能。其次，通过在逆过程引入贝叶斯后验，我们的方法有效地指导每一步逆过程对源点云位姿的更新。这种指导减少了陷入局部最优的风险，从而获得更鲁棒和更准确的位姿估计结果。我们的实验证据充分支持这两点优势。

总而言之，我们的主要贡献如下：
(i) 我们提出了一种新颖的基于 $SE (3)$ 扩散模型的三维配准框架，用于鲁棒的6D物体位姿估计，其中最优变换通过逐步去噪过程来估计。
(ii) 为训练我们的去噪网络，我们采用贝叶斯方法，并建立了针对三维配准的变分下界，作为我们 $SE (3)$ 扩散模型的优化目标。此外，我们利用替代配准模型重构了去噪网络，使不同的深度配准模型能够集成到我们的框架中。
(iii) 据我们所知，我们是首个成功将扩散模型从线性欧氏空间应用于用于6D物体位姿估计的 $SE (3)$ 点云配准任务的方法。我们在包括TUD-L[20]、LINEMOD[18]和Occluded-LINEMOD[6]等真实世界数据集上进行的大量实验确认了我们框架的有效性。

变分下界，也常被称为证据下界 (Evidence Lower Bound, ELBO)，是概率建模和机器学习中一个非常核心的概念。它通常出现在变分推断 (Variational Inference) 中。在概率模型中，我们常常关心一个叫做“证据”或“边缘似然” ( $p (x)$ )的量，它表示模型生成观测数据 $x$ 的概率。我们希望最大化这个概率，从而让模型更好地解释数据。然而，直接计算和最大化 $p (x)$ 通常非常困难。变分下界（VLB/ELBO）提供了一个巧妙的替代方案。它为这个难以计算的 $p (x)$ 的对数（即 $l o g p (x)$ ）提供了一个可计算的下界。这意味着： $l o g p (x) \geq E L BO$

这个不等式非常有用，因为最大化这个下界（ELBO）就等同于间接地最大化我们真正关心的 $l o g p (x)$ 。在扩散模型中，整个去噪过程的对数似然也可以写成一个复杂的积分，而这个积分可以用一个变分下界来近似。这个下界可以被分解成一系列在每个去噪步骤中更容易计算的项。

在这里插入图片描述图 1：我们基于SE(3)扩散模型的注册框架的概率图形模型。

2 相关工作

点云配准。 点云配准旨在估计一对点云之间的刚性变换。现有方法大致可分为基于优化的技术和基于深度学习的方法。迭代最近点（ICP）[4] 交替搜索最近对应点并估计变换，直至收敛。Go-ICP [61] 使用分支定界算法提升 ICP 对初始化的鲁棒性。鲁棒 ICP [64] 设计了一种基于 Welsch 函数的鲁棒度量，用于在优化中获得对异常值稳健的对齐评估。SparseICP [5] 使用稀疏诱导范数重新表述了 ICP。同时，还提出了许多其他 ICP 变体，如 [8,43,14,2,17]，并表现出可观的配准性能。然而，目前主要的研究努力集中在深度学习模型上。在这方面，DCP [54] 构建了伪对应点，利用深度特征相似性进行基于 SVD 的变换估计。PRNet [55] 利用关键点识别和 Gumbel Softmax 建立更可靠的对应关系。PointNetLK [1] 和 FMR [21] 将 Lucas–Kanade (LK) 算法 [3] 和逆组合 (IC) 算法 [3] 引入深度模型，通过特征对齐进行变换精炼。CEMNet [23] 使用基于规划的交叉熵方法进行变换优化。RPMNet [62]、RGM [15] 和 RIENet [44] 分别利用 Sinkhorn 优化、邻域结构一致性和图匹配来进行鲁棒的异常值剔除。许多其他深度配准模型如 [28,9,36,30,29,67] 也已被开发并取得了令人印象深刻的配准性能。然而，这些配准模型主要集中在合成数据集（如 ModelNet40 [56]）上。如 [11] 所示，它们在真实世界的 6D 物体位姿估计数据集（如 TUD-L [20]、LINEMOD [18] 和 Occluded-LINEMOD [6]）上仍然难以实现高精度配准。

6D 物体位姿估计。 估计物体的 6D 位姿（姿态和位置）近年来受到越来越多的关注。早期方法通过回归或分类直接从提取的图像特征估计物体位姿。PoseCNN [57] 将 6D 位姿估计解耦为基于中心的平移回归和基于四元数的旋转回归。SSD-6D [24] 将单发物体检测器扩展到完整的 6D 位姿空间以进行位姿推断。Trabelsi 等 [51] 提出了一种多注意力网络，利用外观和光流信息进行迭代位姿精炼。DeepIM [31] 和 LatentFusion [37] 通过最小化渲染模型与观测之间的误差来学习位姿估计。更近期的研究集中在两阶段估计流水线，其中先提取二维关键点，再使用 PnP 算法 [13] 求解 6D 位姿。Rad 等 [42] 将预测的三维边界框角点的二维投影作为关键点，而 Zhao 等 [65] 在物体模型表面手动指定关键点。PVNet [41] 通过预测像素级投票向量，建立了一个用于关键点估计的像素级投票网络。其他方法 [6,40,50,52,49,52] 也在位姿估计方面表现出良好性能。

最近，得益于 3D 配准技术的进步，学术界对基于 3D 配准的 6D 物体位姿估计日益关注，该方法通过估计物体（源点云）与模型点云之间的刚性变换来恢复物体的 6D 位姿。这正是我们在本工作中所实现的，但与大多数现有方法专注于合成数据不同，我们着重解决在处理真实点云时面临的挑战。

3 Approach

3.1 回顾欧氏扩散模型（Revisiting the Euclidean Diffusion Model）

扩散模型，作为生成模型，旨在通过逐步对噪声输入进行去噪来生成新数据[19,45,46,47]。它们的训练阶段包括扩散过程和逆过程。扩散过程通过连续向数据样本 $x_0\sim p_{data}$ （ $p_{data}$ 表示训练数据的分布）注入高斯噪声，逐步将 $x_0$ 转化为噪声数据 $x_T\sim N(0,I)$ （标准高斯分布），从而形成马尔可夫链 $x_0\to x_1\to\cdots\to x_T$ 。正如在[19]中所示，随机变量
$x_t\sim q(x_t\mid x_{t-1}):=N\bigl(x_t;\sqrt{1-\beta_t}\,x_{t-1},\beta_tI\bigr)$
也可以表示为闭式形式 $x_t\sim q(x_t\mid x_0)$ ，其可表述为：
$x_t=\sqrt{\bar\alpha_t}\,x_0+\sqrt{1-\bar\alpha_t}\,\varepsilon,\quad \varepsilon\sim N(0,I),\tag{1}$
其中扩散系数 $\bar\alpha_t=\prod_{s=0}^t\alpha_s=\prod_{s=0}^t(1-\beta_s)$ ， $\beta_s$ 表示由线性调度[19]或余弦调度[35]确定的噪声系数。随后，逆过程学习一个去噪网络，即参数化的正态分布
$p_\theta\bigl(x_{t-1}\mid x_t\bigr):=N\bigl(x_{t-1};\mu_\theta(x_t,t),\beta_tI\bigr)$
以逐步将带噪数据 $x_T$ 去噪为干净数据 $x_0$ ，形成逆向马尔可夫链 $x_T\to x_{T-1}\to\cdots\to x_0$ 。这里 $\mu_\theta(x_t,t)$ 表示该正态分布的参数化均值。接着，推导得到训练数据的对数似然的变分下界，作为训练去噪网络的优化目标：
$\mathbb E_{x_0\sim p_{data}}\bigl[\log p_\theta(x_0)\bigr]\ge\mathbb E_q\Bigl[\sum_{t>1}D_{KL}\bigl(q(x_{t-1}\mid x_t,x_0)\parallel p_\theta(x_{t-1}\mid x_t)\bigr)-\log p_\theta(x_0\mid x_1)\Bigr].\tag{2}$
基于贝叶斯公式，式(2)中后验分布 $q(x_{t-1}\mid x_t,x_0)$ 的随机变量 $x_{t-1}$ 可表示为：
$x_{t-1}=\frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\sqrt{\tilde\beta_t}\varepsilon,\tag{3}$
其中 $\varepsilon\sim N(0,I)$ ，方差尺度 $\tilde\beta_t=\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t}\beta_t$ 。

3.2 基于 $SE (3)$ 扩散的6D物体位姿估计配准模型

在基于点云的6D物体位姿估计上下文中，我们的目标是确定部分扫描源点云 $X=\{x_i\in\mathbb R^3\}_{i=1}^N$ 与完整模型点云 $M=\{m_j\in\mathbb R^3\}_{j=1}^M$ 之间的刚性变换，以便精确对齐它们的重叠区域。该变换包括旋转矩阵 $R\in SO(3)$ 和平移向量 $t\in\mathbb R^3$ ，分别表示物体的朝向和空间位置。为了获得部分源点云，我们按照[11]的做法，对输入深度图进行掩模以限制到物体区域，然后利用已知相机内参将深度值转换为3D点。相比之下，模型点云由对完整网格模型进行均匀采样生成。我们将最优变换 $\text{H}_0\in SE(3)$ 和单位变换 $\mathbb{H}\in SE(3)$ 表示为

$\text{H}_0=\begin{pmatrix} R & t\\ 0^\top & 1 \end{pmatrix},\quad \mathbb{H}=\begin{pmatrix} I & 0\\ 0^\top & 1 \end{pmatrix},$

两者均以 $4\times4$ 齐次变换矩阵形式表示。

部分扫描源点云 $X=\{x_i\in\mathbb R^3\}_{i=1}^N$ 与完整模型点云 $M=\{m_j\in\mathbb R^3\}_{j=1}^M$ 都要用3D来进行表示。

受扩散模型渐进生成的启发，我们采用去噪扩散的概念来解决点云配准任务，特别是在 $SE (3)$ 空间中，因此提出了一种基于 $SE (3)$ 扩散模型的三维配准框架，用于鲁棒的6D物体位姿估计。尽管[27,53]在 $SE (3)$ 或 $SO (3)$ 流形上引入了扩散模型的变体，但它们并不适用于我们的三维配准任务。因此，我们框架的训练阶段包括一个 $SE (3)$ 扩散过程和一个 $SE (3)$ 逆过程。给定一对源点云和模型点云，前者通过向最优变换持续注入噪声来扰动变换，而后者则旨在学习一个去噪网络，以逐步将带噪变换转换为最优变换。因此，在推理阶段，学习到的去噪网络可以通过渐进去噪过程来恢复源点云与模型点云之间的变换。我们的算法的训练阶段和推理阶段在算法1和算法2中有详细说明。下面，我们将详细解释 $SE (3)$ 扩散过程和 $SE (3)$ 逆过程。

在这里插入图片描述

3.2.1 $\text{SE}(3)$ 扩散过程

按照第 3.1 节描述的标准扩散模型，我们的 $\text{SE}(3)$ 扩散过程通过向点云 $\mathcal{X}$ 和 $\mathcal{M}$ 的最优变换 $\text{H}_0$ 注入扰动变换（噪声），逐步将其扰动为带噪变换 $\text{H}_T$ ，从而形成扩散马尔可夫链：
$\text{H}_0 \to \text{H}_1 \to \cdots \to \text{H}_T.$
然而，我们的 $SE (3)$ 扩散过程与传统扩散过程有两点关键区别：

我们的扩散过程在非线性 $SE (3)$ 流形上运行，而标准扩散过程在欧氏线性空间中进行。因此，式 (1) 中给出的线性扩散操作无法直接应用于我们的模型。
标准扩散过程假设噪声变量 $x_T\sim \mathcal{N}(0,I)$ 以零向量为中心。但在我们的三维配准模型中，需要使噪声变换 $\text{H}_T$ 以单位变换 $\mathbb{H}$ 为中心。

为了解决这些差异并生成所需的扩散马尔可夫链，我们提出在 $\text{SE}(3)$ 流形上对最优变换 $\text{H}_0$ 和单位变换 $\mathbb{H}$ 进行插值，并加入噪声扰动。形式化地，我们基于插值的 $\text{SE}(3)$ 扩散公式在时间步 $t$ （ $1\le t\le T$ ）定义

$\text{H}_t = \underbrace{\text{Exp}\bigl(\gamma\sqrt{1-\bar\alpha_t}\,\varepsilon\bigr)}_{\text{Perturbation (扰动)}} \; \underbrace{\mathcal{F}\bigl(\sqrt{\bar\alpha_t};\text{H}_0,\mathbb{H}\bigr)}_{\text{Interpolation (插值)}} ,\quad \varepsilon\sim \mathcal{N}(0,I) \tag{5}$

本质上，该形式利用插值函数 $\mathcal{F}(\sqrt{\bar\alpha_t};\text{H}_0,\mathbb{H})$ 在最优变换 $\text{H}_0$ 与单位变换 $\mathbb{H}$ 之间生成一个中间变换。随后，我们用随机采样的扰动变换 $\text{Exp}(\gamma\sqrt{1-\bar\alpha_t}\,\varepsilon)$ 对这一中间变换进行增强，得到扩散后的变换 $H_t$ 。下面，我们将详细介绍这两个组件。

变换插值函数 $\mathcal{F}(\sqrt{\bar\alpha_t};\text{H}_0,\mathbb{H})$ 。
插值函数
$\mathcal{F}: {SE}(3)\times SE(3)\times[0,1]\to SE(3)$
旨在计算最优变换 $\text{H}_0$ 和单位变换 $\mathbb{H}$ 之间的中间变换。按照式(1) 中扩散系数的设置，我们在时间步 $t$ 对 $\text{H}_0$ 的插值权重设为 $\sqrt{\bar\alpha_t}$ ，因此对 $\mathbb{H}$ 的插值权重为 $1-\sqrt{\bar\alpha_t}$ 。随着时间步 $t$ 的增加， $\text{H}_0$ 的插值权重 $\sqrt{\bar\alpha_t}$ 逐渐减小，导致插值变换从 $\text{H}_0$ 过渡到 $\mathbb{H}$ 。

然而，由于 $\text{SE}(3)$ 流形的非线性，直接的线性插值方法（如加权平均）无法用于中间变换的插值。为了解决该问题，我们利用与 $\text{SE}(3)$ 关联的李代数 $se (3)$ 。李代数 $se (3)$ 是一个对应于 $\text{SE}(3)$ 在单位变换处切空间的线性6维向量空间。通过对数映射
$\text{Log}:SE(3)\to\mathbb R^6$
可以将 $\text{SE}(3)$ 中的任意变换投影到 $se (3)$ 中的6维向量；反之，通过指数映射
$\text{Exp}:\mathbb R^6\to SE(3)$
可以将 $se (3)$ 中的6维向量映射回 $\text{SE}(3)$ 流形。因此，我们首先将 $\text{SE}(3)$ 变换投影到 $se (3)$ ，在该切空间中执行线性插值，然后将插值后的向量通过指数映射转换回 $\text{SE}(3)$ ，以获得插值变换。

形式上，我们的变换插值函数 $\mathcal{F}$ 表示为
$\mathcal{F}(\sqrt{\bar\alpha_t};\text{H}_0,\mathbb{H}) =\text{Exp}\bigl((1-\sqrt{\bar\alpha_t})\cdot\text{Log}(\mathbb{H}\text{H}_0^{-1})\bigr)\,\text{H}_0, \tag{6}$
该式首先计算从最优变换 $\text{H}_0$ 到单位变换 $\mathbb{H}$ 的相对变换 $\mathbb{H}\text{H}_0^{-1}$ ，并通过对数映射将其映射到线性李代数 $se (3)$ 。在此线性空间中，我们将向量 $\text{Log}(\mathbb{H}\text{H}_0^{-1})$ 按插值权重 $1-\sqrt{\bar\alpha_t}$ 进行缩放，并使用指数映射将该加权向量映射回对应的加权相对变换。加权相对变换量化了插值变换相对于 $\text{H}_0$ 的偏移。最后，将最优变换 $\text{H}_0$ 与所计算的变换偏移相乘，即可得到时间步 $t$ 的期望插值变换。

扰动变换 $\text{Exp}(\gamma\sqrt{1-\bar\alpha_t}\,\varepsilon)$ 。
按照式(1)中的标准扩散公式，我们在每个时间步向插值变换 $\mathcal{F}(\sqrt{\bar\alpha_t};\text{H}_0,\mathbb{H})$ 注入随机噪声（即扰动变换），以随机化我们的 $\text{SE}(3)$ 扩散过程。正如式(1)所示，传统的欧氏扩散模型通常从欧氏空间的高斯分布中抽样噪声。然而，在 $\text{SE}(3)$ 流形上构造高斯分布并非易事。为了解决该问题，我们再次利用李代数。具体而言，我们从 $\mathbb R^6$ 上的 $\mathcal{N}(0,\text{I})$ 中随机采样一个 6 维噪声向量 $\varepsilon\in\mathbb R^6$ ，该向量可被视为 $se (3)$ 中的一个元素。然后，我们像式(1)中那样，通过因子 $\gamma\sqrt{1-\bar\alpha_t}$ 对该噪声向量进行缩放，以控制不同时间步的扰动幅度。最后，我们使用指数映射将该缩放后的噪声向量转换回 $\text{SE}(3)$ ，以获得相应的扰动变换。更多关于我们的扰动变换的细节，请参阅附录 A。

3.2.2 $\text{SE}(3)$ 逆过程

在第 3.2.1 节的 $\text{SE}(3)$ 扩散过程中生成的马尔可夫链
$\text{H}_0\to \text{H}_1\to\cdots\to \text{H}_T$
的基础上， $\text{SE}(3)$ 逆过程的目标是训练一个去噪网络
$p_\theta\bigl(\text{H}_{t-1}\mid \mathcal{X}_t=\mathcal{T}(\mathcal{X},\text{H}_t),\mathcal{M}\bigr)$
以逐步将带噪变换精炼为最优变换，从而形成逆向马尔可夫链
$\text{H}_T\to \text{H}_{T-1}\to\cdots\to \text{H}_0.$

在 3D 配准的背景下，我们设计去噪网络预测给定模型点云 $\mathcal{M}$ 和变换后源点云
$\mathcal{X}_t=\mathcal{T}(\mathcal{X},\text{H}_t)=\{\text{R}_t \text{x}_i + \text{t}_t\}$
（其中 $\text{R}_t$ 和 $\text{t}_t$ 分别表示变换 $\text{H}_t$ 的旋转矩阵和平移向量）时， $\text{H}_{t-1}$ 的概率分布。

为了有效地训练去噪网络，我们推导了以下针对配准任务的变分下界，作为对训练样本对数似然的优化目标：

在这里插入图片描述

其中 $p_{data}$ 表示训练数据的分布，包括源点云与模型点云对及其真实刚性变换。下文中，我们将详细阐述该变分下界中各损失项的含义及计算方法。更多详细推导请参见附录 A。

去噪匹配项。
这是训练我们去噪网络的基础损失项。 $q(\text{H}_{t-1}\mid \text{H}_t,\text{H}_0)$ 表示在已知最优变换 $\text{H}_0$ 和当前变换 $\text{H}_t$ 条件下， $\text{H}_{t-1}$ 的后验分布； $p_\theta(\text{H}_{t-1}\mid \mathcal{X}_t,\mathcal{M})$ 表示我们的去噪网络所预测的 $\text{H}_{t-1}$ 的先验分布。与先验分布不同，后验分布可以利用最优变换 $\text{H}_0$ ，并通过贝叶斯公式推断出更可靠的 $\text{H}_{t-1}$ 分布。因此，我们可以将该后验分布视为真实信号，通过最小化它与网络先验分布的 Kullback–Leibler（KL）散度来监督网络的训练。

受式(3) 中贝叶斯后验的启发，按照后验分布
$\text{H}^{{post}}_{t-1}\sim q(\text{H}_{t-1}\mid \text{H}_t,\text{H}_0)$
抽样得到的随机变换 $\text{H}^{{post}}_{t-1}$ 可表示为：
$\text{H}^{{post}}_{t-1} =\text{Exp}\Bigl( \underbrace{\frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}}_{\lambda_0}\text{Log}(\text{H}_0) +\underbrace{\frac{\sqrt{\alpha_t}\,(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}}_{\lambda_1}\text{Log}(\text{H}_t) +\sqrt{\tilde\beta_t}\,\varepsilon \Bigr), \tag{8}$

其中，我们使用对数映射将 $\text{SE}(3)$ 变换 $\text{H}_0$ 和 $\text{H}_t$ 转换为线性李代数 $se (3)$ 中的对应 6 维向量表示。这样，我们就可以像式 (3) 中那样，使用后验系数 $\lambda_0$ 和 $\lambda_1$ 对它们进行线性组合。 $\text{H}^{{post}}_{t-1}$ 的随机性来源于添加了一个随机变量 $\varepsilon$ ，该随机变量服从高斯分布 $\mathcal{N}(0,\text{I})$ 在 $\mathbb R^6$ 上。然后，将得到的向量通过指数映射从 $se (3)$ 转换回 $\text{SE}(3)$ ，从而得到 $\text{H}^{{post}}_{t-1}$ 。

类似地，按照先验分布
$\text{H}^{{prior}}_{t-1}\sim p_\theta(\text{H}_{t-1}\mid \mathcal{X}_t,\mathcal{M})$
抽样得到的随机变换可以表示为
$\text{H}^{{prior}}_{t-1} =\text{Exp}\bigl(\text{Log}(\mu_\theta(\mathcal{X}_t,\mathcal{M}))+\sqrt{\tilde\beta_t}\,\varepsilon\bigr), \tag{9}$
其中 $\mu_\theta(\mathcal{X}_t,\mathcal{M})$ 表示我们先验分布的参数化均值， $\sqrt{\tilde\beta_t}\,\varepsilon$ 表示与后验中的随机项相同。

因此，最小化先验分布与后验分布之间的 KL 散度等价于最小化
$\mathcal{L}_t(\theta) ={loss}\bigl(\lambda_0\text{Log}(\text{H}_0)+\lambda_1\text{Log}(\text{H}_t),\;\text{Log}(\mu_\theta(\mathcal{X}_t,\mathcal{M}))\bigr). \tag{10}$

损失函数10表明，在每个时间步t，给定点云 $\mathcal{X}_t = \mathcal{T}(\mathcal{X}, \text{H}_t)$ 和 $\mathcal{M}$ ，需要将均值 $\mu_\theta(\mathcal{X}_t,\mathcal{M})$ 预测为变换 $\text{Exp}(\lambda_0 \log(\text{H}_0) + \lambda_1 \log(\text{H}_t))$ ，而不是 $\mathcal{X}_t$ 和 $\mathcal{M}$ 之间的相对变换 $\text{H}_0\text{H}_t^{-1}$ 。因此，现有的深度配准模型（如[54, 62]）可能不直接适用于参数化我们先验分布的均值。此外，设计一个将 $\mathcal{X}_t$ 和 $\mathcal{M}$ 作为输入但预测一个非相对变换的特定网络也是一项不小的任务。为了解决这个问题，我们考虑到变换 $\text{Exp}(\lambda_0 \log(\text{H}_0) + \lambda_1 \log(\text{H}_t))$ 可以被重写为：

$\text{Exp}(\lambda_0 \text{Log}(\text{H}_0) + \lambda_1 \text{Log}(\text{H}_t)) = \text{Exp}\left( \lambda_0 \text{Log}\left( \underbrace{(\text{H}_0 \text{H}_t^{-1})}_{\text{H}_{t \to 0}} \text{H}_t \right) + \lambda_1 \text{Log}(\text{H}_t) \right). \quad (11)$

这启发我们使用一个代理配准模型 $f_\theta(\mathcal{X}_t,\mathcal{M})$ 将 $\mu_\theta(\mathcal{X}_t,\mathcal{M})$ 重构为：

$\mu_\theta(\mathcal{X}_t,\mathcal{M}) = \text{Exp}(\lambda_0 \text{Log}(f_\theta(\mathcal{X}_t,\mathcal{M})\text{H}_t) + \lambda_1 \text{Log}(\text{H}_t)). \quad (12)$

于是，最小化损失函数10等价于优化代理配准模型 $f_\theta(\mathcal{X}_t,\mathcal{M})$ ，以预测点云 $\mathcal{X}_t$ 和 $\mathcal{M}$ 之间的相对变换 $\text{H}_{t \to 0} = \text{H}_0\text{H}_t^{-1}$ 。因此，不同的深度配准模型都有可能在我们的去噪网络中充当代理配准模型。最后，我们通过最小化使用真实变换 $\text{H}_{t \to 0}$ 转换的源点与预测的变换 $\hat{\text{H}}_{t \to 0} = f_\theta(\mathcal{X}_t,\mathcal{M})$ 转换的源点之间的L1距离来优化代理配准网络。这可以写作：

$\mathcal{L}_t(\theta) = {loss}(f_\theta(\mathcal{X}_t,\mathcal{M}), \text{H}_{t \to 0}) = \frac{1}{N} \sum_{i}^{N} \left\| \text{H}_{t \to 0} \begin{bmatrix} \text{x}_t^i \\ 1 \end{bmatrix} - \hat{\text{H}}_{t \to 0} \begin{bmatrix} \text{x}_t^i \\ 1 \end{bmatrix} \right\|_1, \quad (13)$

其中 $\in \{2, ..., T\}$ ，并且 $\text{x}^t_i$ 表示变换后的源点云 $\mathcal{X}_t$ 中的第 $i$ 个点。

残差项与先验匹配项。
为了最大化概率 $p_\theta(\text{H}_0\mid \mathcal{X}_t,\mathcal{M})$ ，均值 $µ_\theta(\mathcal{X}_t,\mathcal{M})=\text{Exp}(\lambda_0\text{Log}(f_\theta(\mathcal{X}_t,\mathcal{M})\text{H}_1)+\lambda_1\text{Log}(\text{H}_1))$ 应被优化以紧密对齐 $\text{H}_0$ 。
因此， $f_\theta(\mathcal{X}_t,\mathcal{M})$ 的优化目标是 $\text{H}_0\text{H}_1^{-1}$ ，其损失函数可表示为式(13) 中的 $\mathcal{L}_1(\theta)$ 。
此外，由于先验匹配项不需要学习任何参数，可视为常数，可予以省略。

4 实验

4.1 实验设置

实现细节。 我们将源点云和模型点云的点数分别设置为 $N = 512$ 和 $M = 1024$ ，通过随机采样得到。对于 $\text{SE}(3)$ 扩散过程，我们采用余弦调度[35]来确定扩散系数 $\{\beta_t\}$ 。扩散步数 $T$ 设置为 200，扰动变换的缩放系数 $\gamma$ 设置为 0.1。对于 $\text{SE}(3)$ 逆过程，训练阶段的逆过程步数设置为 200，而推理阶段的步数设置为 5，以加速扩散配准的推理速度。我们使用学习率为 0.001 的 ADAM 优化器[25]，在批量大小为 32 的情况下对式 (13) 的损失函数进行 20 个 epoch 的优化，并使用 PyTorch[39] 实现我们的框架。所有实验均在配备 Intel i5 2.2 GHz CPU 和一块 TITAN RTX GPU 的服务器上进行。

评估指标。 按照[11]，我们通过量化预测的旋转和平移 $\hat{\text{R}}$ 和 $\hat{\text{t}}$ 与真实旋转和平移 $\text{R}^*$ 和 $\text{t}^*$ 之间的误差来评估模型性能。评估指标定义为
$\text{RE}(\hat{\text{R}})=\arccos\Bigl(\frac{\mathrm{Tr}(\hat{\text{R}}^\top \text{R}^*)-1}{2}\Bigr),\quad \text{T}\text{E}(\hat{\text{t}})=\|\hat{\text{t}} - \text{t}^*\|_2^2. \tag{14}$
如[12,11]所示，我们在不同阈值下通过平均精度均值 (mAP) 对这些误差进行汇总。

4.2 与现有方法的比较

在 TUD-L 上的评估。
我们首先在 TUD-L 数据集 [20]——一个包含三个家庭物体的真实场景数据集上评估我们的方法。被比较的方法包括四种具有代表性的传统方法：ICP [4]、FGR [66]、TEASER [60] 和 S4PCS [34]，以及八种最先进的基于学习的深度配准模型：DCP [54]、IDAM [28]、FMR [22]、RPMNet [62]、RGM [15]、RIENet [44]、MN-IDAM [11] 和 MN-DCP [11]。尽管第 3.2.2 节表明，许多深度配准模型在理论上可用于构建我们的去噪网络，但表 1 中的实验证明，诸如 IDAM、FMR、RGM 和 RIENet 等模型在真实挑战中未能产生有意义的结果，表明它们通过最小化式 (13) 学习高质量去噪网络的能力有限。因此，我们选择使用在此任务中表现较好的 DCP 和 RPMNet 来构建去噪网络，并生成它们对应的扩散变体：Diff-DCP 和 Diff-RPMNet。表 1（左侧部分）显示，TUD-L 的真实场景挑战使得传统方法和深度方法的性能均受限。相比之下，Diff-RPMNet 在所有旋转和平移评估标准上均取得了最高的配准精度。此外，Diff-DCP 和 Diff-RPMNet 相较于它们各自的基线 DCP 和 RPMNet 均有大幅提升，尤其是 Diff-DCP 在 5°@mAP（提升 42%）和 5cm@mAP（提升 69%）方面的进步最为显著。这一优异性能主要归功于两个因素：
(i) 式 (8) 中的贝叶斯后验有效地指导了每一步逆过程对源点云位姿的更新，减轻了过早陷入局部最优的风险；
(ii) 扩散过程为源点云生成了多样化的位姿样本，促进了更全面的模型训练。
表 2（上半部分）也强烈验证了这两点：使用我们扩散过程生成的样本训练的基线 DCP 模型（DiffAug）展现出显著的精度提升（因素 (ii)），而在配备逆过程（Rev.）后，其性能进一步提高（因素 (i)）。一些定性结果见图 2，更多定性结果请参见附录 B。

在 LINEMOD 和 Occluded-LINEMOD 上的评估。
我们进一步在两个广泛使用的真实 6D 物体位姿估计数据集 LINEMOD [18] 和 Occluded-LINEMOD [6] 上评估了我们的方法。前者包含 15 个无纹理家庭物体，置于杂乱场景中；后者是包含 8 个无纹理物体的子集，具有不同程度的遮挡。如表 1（中部和右部）所示，我们的 Diff-DCP 和 Diff-RPMNet 在几乎所有旋转和平移 mAP 标准上均持续优于其他方法，并且相比各自基线 DCP 和 RPMNet 取得了显著提升。

在这里插入图片描述表 1： TUD-L [20]、LINEMOD [18] 和 Occluded-LINEMOD [6] 的定量比较。

5 消融研究与分析

扩散过程。
(1) 我们首先在不同的噪声调度下测试性能变化，具体为线性调度[19]和余弦调度[35]，使用 Diff-DCP 进行消融研究。如表 2（第二部分）所示，余弦调度在更具挑战性的 LINEMOD 和 Occluded-LINEMOD 数据集上往往带来更高的精度，而在线性调度下，性能在相对简单的 TUD-L 数据集上更佳。我们将此差异归因于：在困难数据集（如 LINEMOD）中，逆过程中的变换去噪需要余弦调度提供的丰富样本多样性；相比之下，在 TUD-L 上过多的样本多样性会降低样本效率（许多生成的源点云位姿样本无用），从而导致模型性能下降。
(2) 此外，我们考察了 Diff-DCP 在不同扩散步数下的配准精度。表 2（底部部分）表明，与较少的步数（如 $T = 50$ ）相比，采用更多的扩散步数（如 $T = 100$ 和 $T = 200$ ）可以获得更高的精度。该现象源于更多的扩散步数显著增强了样本多样性。值得注意的是，在 TUD-L 上 $T = 200$ 的 Diff-DCP 并未达到最佳性能，这进一步验证了我们的观点：对于较简单的 TUD-L，过于丰富的样本多样性由于样本效率低反而无法带来更高的性能。

在这里插入图片描述

逆过程。
(1) 我们使用两种推理策略评估模型：确定性推理和随机推理。在确定性推理中，每个时间步的去噪变换等于式 $12$ 中预测的均值，而在随机推理中，均值则如式 $9$ 所示被样本噪声稍作扰动。如表 $2$ (第三块)所示，不含噪声的确定性推理通常表现出更高的稳定性并获得更低的估计误差。

(2) 为验证贝叶斯后验（式 $8$ ）在指导每一步逆过程中的源点云位姿变化方面的有效性，我们绘制了不同去噪时间步下估计变换的平均误差变化曲线。图 $3$ 确认，在贝叶斯后验的调度下，去噪变换逐步逼近最优变换。此外，图 $3$ 中的表格指出，增加逆过程步数会逐渐增加推理时间。因此，在我们的实现中，我们将推理步数设置为 $5$ 以提高配准效率。

在这里插入图片描述图3：逆过程在不同时间步的预测误差与运行时长变化。

6 结论

在本文中，我们提出了一种新颖且高效的基于 $SE (3)$ 扩散模型的点云配准框架，用于真实场景下鲁棒的 6D 物体位姿估计。该框架将点云配准表述为一个去噪扩散过程，使源点云的位姿能够逐步精炼，从而与模型点云实现精确对齐。为了在 $SE (3)$ 流形上实现扩散过程和逆过程，我们引入了与 $SE (3)$ 关联的李代数 $se (3)$ 来约束变换的过渡。此外，我们推导出了一个针对配准的变分下界，以有效地优化我们的去噪网络。通过使用替代配准模型重构去噪网络，不同的深度配准网络理论上都可以集成到我们的方法中。我们在具有挑战性的真实数据集上进行了大量实验，验证了该框架的有效性。我们在附录 C 中讨论了更广泛的影响、局限性和未来工作。