论文笔记（一百二十五）Denoising Particle Filters: Learning State Estimation with Single-Step Objectives（一）

墨绿色的摆渡人

421人浏览 · 2026-03-18 16:52:29

墨绿色的摆渡人 · 2026-03-18 16:52:29 发布

Denoising Particle Filters: Learning State Estimation with Single-Step Objectives

文章概括
ABSTRACT
I. INTRODUCTION
II. RELATED WORK
III. BACKGROUND
- A. 贝叶斯状态估计
- B. 扩散模型
IV. STATE ESTIMATION WITH DENOISING PARTICLE FILTERS

文章概括

引用：

@article{rostel2026denoising,
  title={Denoising Particle Filters: Learning State Estimation with Single-Step Objectives},
  author={R{\"o}stel, Lennart and B{\"a}uml, Berthold},
  journal={arXiv preprint arXiv:2602.19651},
  year={2026}
}

Röstel, L. and Bäuml, B., 2026. Denoising Particle Filters: Learning State Estimation with Single-Step Objectives. arXiv preprint arXiv:2602.19651.

主页：
原文：
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

ABSTRACT

基于学习的方法通常将机器人中的状态估计视为一个序列建模问题。尽管这种范式在最大化端到端性能方面可能是有效的，但模型通常难以解释，并且训练成本较高，因为训练过程需要沿时间展开一系列预测。作为端到端训练状态估计方法的一种替代方案，我们提出了一种新的粒子滤波算法，其中模型基于单个状态转移进行训练，从而充分利用机器人系统中的马尔可夫性质。在这一框架中，测量模型通过最小化去噪分数匹配目标来进行隐式学习。在推理阶段，学习得到的去噪器与一个（学习得到的）动力学模型共同使用，在每一个时间步近似求解贝叶斯滤波方程，从而有效地将预测状态引导到由测量信息所约束的数据流形附近。我们在仿真中的具有挑战性的机器人状态估计任务上评估了所提出的方法，结果表明，与经过精心调参的端到端训练基线方法相比，该方法具有有竞争力的性能。重要的是，我们的方法具备经典滤波算法所具有的良好可组合性，因此能够在无需重新训练的情况下融合先验信息和外部传感器模型。

在这里插入图片描述图1. 使用去噪粒子滤波器（DnPF）进行一步时间推理。 DnPF将后验分布 $p(x_t|y_{1:t},u_{1:t})$ 近似表示为一组粒子 ${x_t^i\}_{i=1}^N$ ，并在score空间中递归地求解贝叶斯滤波方程。在每个时间步 $t$ ，每个粒子都会经历一系列积分步骤 $s=0\to1$ ，并根据以下几个score项的和来移动：动力学项 $\nabla\log p_s(x_t|x_{t-1},u_t)$ 、数据似然score项 $\nabla\log p_s(x_t|y_t)$ ，以及（可选的）已知外部传感器模型项 $\nabla\log p_s(\hat{y}_t|x_t)$ 。粒子在每个时间步并不是从纯噪声开始，而是采用（学习得到的）动力学模型给出的带噪预测作为热启动初值（见上部）。数据似然score $\nabla\log p_s(x_t|y_t)$ 由一个score网络 $D(x_t,y_t,s)$ 来预测，而这个网络可以通过去噪分数匹配高效地进行训练。

I. INTRODUCTION

状态估计是机器人学中一个普遍存在的问题，其应用范围从机器人手内操作[in-hand manipulation] [1, 2]到开放环境中的定位[localization] [3, 4]。传统上，这一问题通常采用贝叶斯滤波技术 [5, 6] 来处理；该技术通过递归地整合当前可获得的测量 $y_t$ 和控制输入 $u_t$ ，在每个时间步 $t$ 上计算关于（不可观测）状态 $x_t$ 的后验分布 $p(x_t|y_{1:t},u_{1:t})$ 的估计。由于动力学模型和传感器模型往往计算代价高昂，甚至有时是未知的，因此这一问题越来越多地通过基于学习的方法来解决 [7, 3, 8, 2]。于是，状态估计通常被视为一个序列建模问题，其目标是学习一个从测量历史到状态分布的映射关系。因此，在给定包含真实状态标注的训练数据集的情况下，状态估计问题可以通过针对序列数据的监督学习方法来解决，例如循环神经网络（RNN）[9, 10]或Transformer [11, 1]。尽管这类方法便于部署，而且通常表现良好，但它们缺乏贝叶斯滤波器所具有的模块化特性和可解释性。例如，RNN和Transformer并没有提供一种可直接将模型初始化为任意先验 $p(x_0)$ 的方法，因为它们的隐藏状态并不容易解释。

可微贝叶斯滤波器[Differentiable Bayesian Filters] [7, 3, 8, 12]（DFs）旨在通过将贝叶斯滤波器的算法结构与学习得到的模型相结合，重新引入这些性质。为了达到期望的性能，DF需要通过端到端方式进行训练：即沿时间顺序展开整个滤波算法，并通过时间反向传播（BPTT）来优化模型参数。然而，这种端到端训练过程代价高昂且难以扩展，尤其对于可微粒子滤波器[Differentiable Particle Filters]（DPFs）[3]来说更是如此，因为它需要对每一个粒子都执行BPTT。此外，一旦更换传感器模型或加入额外信息，就需要重新训练。

端到端训练范式在DF、RNN和Transformer中的另一个后果，是模型容易对训练序列中特定的时序结构发生过拟合。一种补救办法是利用动力系统中的马尔可夫性质，不再基于完整序列进行训练，而是针对单个状态转移采用单步目标进行训练。然而，在实际中递归地使用这种基于单步目标训练得到的模型通常会失败，因为中间预测结果最终会偏离数据流形[data manifold] [13]（也就是训练期间见过的状态所构成的流形）。

在本文中，我们提出了一种新的学习框架来应对这些挑战。我们的方法使用单步目标分别训练动力学模型和测量模型，并通过一种基于扩散的粒子滤波过程将它们结合起来。后验采样通过对扩散模型采样所对应的底层常微分方程（ODE）进行积分来近似实现，其中去噪（测量）模型在每一步都会将预测修正回数据流形方向。不同于端到端训练，我们的方法得到的是模块化模型，因此可以在无需重新训练的情况下灵活地融合先验信息或外部传感器模型。

在这里插入图片描述

我们的贡献如下：

我们提出了一种用于状态估计的模块化学习框架，该框架只使用单步目标，从而避免了在序列上进行端到端训练。
我们提出了一种新的基于扩散的粒子滤波推理方案，用于近似贝叶斯滤波中的后验采样，并减轻分布漂移问题。我们还提出了一种受似然约束的扩散过程，以确保粒子始终接近由测量所诱导的数据流形（似然流形）。
在具有部分可观测性、非线性动力学以及高维状态空间的状态估计任务中，我们证明了我们的方法在精度上能够达到与端到端方法相当甚至更优的水平，同时还能够实现高效且可扩展的训练。
我们表明，我们的模型可以在无需重新训练的情况下，与已知的传感器模型进行灵活而有效的组合。

以前做状态估计，要么用传统贝叶斯滤波，但模型难做；要么用RNN/Transformer这类深度学习，但虽然好用，却不够可解释、也不够灵活。于是作者提出了一种新方法：把“贝叶斯滤波的结构”保留下来，但不做昂贵的端到端序列训练，而是分别训练动力学模型和测量模型，再用“扩散式粒子滤波”把它们组合起来。这样既能学得好，又更模块化，还能更容易融合新传感器和先验。

II. RELATED WORK

状态估计是机器人学中一个被广泛研究的问题，人们已经采用多种方法对其进行了处理，这些方法既包括基于学习的方法，也包括非学习方法。在非学习方法这一范畴中，粒子滤波器在机器人中的非线性贝叶斯滤波任务中已被广泛使用 [5]。为了解决由粒子匮乏和权重退化所带来的挑战，人们提出了大量粒子滤波（PF）的变体 [6, 14]，尤其是在触觉感知的背景下 [15, 16]。已有多项工作研究了基于Stein Score [17, 18, 4] 的粒子滤波方法，并通过Stein变分梯度下降（SVGD）[19] 来实现。我们认为，将SVGD与通过去噪分数匹配[Denoising Score Matching]学习传感器模型相结合，是一个值得未来进一步研究的有趣方向。

在基于学习的方法这一范畴中，我们的方法与可微粒子滤波器[Differentiable Particle Filters]（DPF）[8, 3, 2]相关，因为我们同样将粒子滤波算法与学习得到的模型结合起来。然而，DPF是沿时间顺序展开粒子滤波算法，并通过BPTT来优化动力学模型和测量模型；而我们则通过单步目标来学习模型，并在推理阶段通过一种去噪方案将它们结合起来。

扩散模型已经被成功应用于多种任务中，包括图像生成 [20, 21, 22]、模仿学习 [23]以及基于模型的控制 [24]。 Rozet和Louppe [25] 利用扩散模型来学习状态轨迹上的先验，并在一个引导式扩散过程中将其用于数据同化[data assimilation]。据我们所知，将通过分数匹配[score matching]学习得到的模型整合进粒子滤波器中，以近似求解贝叶斯滤波方程，这一思路此前尚未被研究过。

III. BACKGROUND

A. 贝叶斯状态估计

对于一个动力系统，假设其在时间步 $t$ 的状态可由 $x_t\in X$ 完整描述，同时已知控制输入 $u_t\in U$ 和测量 $y_t\in Y$ ，那么滤波的目标就是在给定截至时间 $t$ 的测量和控制输入的条件下，求得关于状态的后验分布 $p(x_t|y_{1:t},u_{1:t})$ 。假设该系统满足马尔可夫性质，并具有动力学模型 $p(x_t|x_{t-1},u_t)$ 以及测量模型 $p(y_t|x_t)$ ，则该后验分布可以递归地计算为

$p(x_t|y_{1:t},u_{1:t})=p(y_t|x_t)\int p(x_t|x_{t-1},u_t)\cdot p(x_{t-1}|y_{1:t-1},u_{1:t-1}),dx_{t-1}\tag{1}$

其中，我们默认存在一个先验分布 $x_0\sim p(x_0)$ ，以及一个策略 $u_t\sim p(u_t|y_{1:t})$ 。对于动力学模型和测量模型均为线性且高斯的情况，后验分布可以使用卡尔曼滤波器[26]以闭式形式求得。然而，在大多数其他情况下，式(1)是不可直接求解的，因此需要采用近似方法。在模型为非线性和/或后验分布高度非高斯的情况下，一种常见的非参数方法是粒子滤波（PF）[6]。它用一组有限个带权样本（粒子）来表示后验分布，这些粒子的状态为 $x_t^i$ ，权重为 $w_t^i$ ，其中 $i=1,\ldots,N$ ，并满足 $\sum_{i=1}^Nw_t^i=1$ 。于是，后验分布在形式上可近似表示为 $p(x_t|y_{1:t},u_{1:t})\approx\sum_{i=1}^Nw_t^i\delta(x_t-x_t^i)$ ，其中 $\delta$ 表示狄拉克delta函数。

B. 扩散模型

扩散模型[27, 20, 21]或流模型[28]是一类生成模型，它们通过对来自已知初始分布 $p_{\text{init}}(x)$ 的样本进行迭代去噪，从目标分布 $p (x)$ 中进行采样。为此，需要定义一个在 $0\leq s\leq1$ 范围内的插值分布序列 $p_s(x)$ ，使得 $p_0(x)=p_{\text{init}}(x)$ ，并且 $p_1(x)=p(x)$ 。于是，从目标分布中采样时，首先要进行采样：

（仅在本节中，噪声尺度 $s$ 下的扰动变量记作 $x_s$ ；这与本文其余部分中按物理时间 $t$ 索引的 $x_t$ 不同。）

先从 $x_0\sim p_0$ 中采样，然后对如下常微分方程（ODE）进行数值积分：

$\frac{\text{d}}{\text{d}s}x_s=v(x_s,s)\tag{2}$

$\frac{\text{d}}{\text{d}s}x_s$ ：当噪声尺度 $s$ 变化时，样本 $x_s$ 怎么变化。你可以把它理解成“速度”。
$v(x_s,s)$ ：一个向量场，也就是：在当前点 $x_s$ 、当前阶段 $s$ 时，模型告诉你应该往哪个方向走。

所以整个式子就是：样本在每一时刻该怎么移动，由 $v(x_s,s)$ 决定。

其中，向量场 $v:\mathbb{R}^n\times[0,1]\to\mathbb{R}^n$ 被构造为使得对于任意 $s$ ，都有 $x_s\sim p_s$ 。

作者希望设计一个运动规律 $v$ ，让样本在每个阶段 $s$ 时，整体分布恰好是 $p_s$ 。

如果选择高斯扰动核 $p_s(x_s|x_1)=\mathcal{N}(x_s;\alpha_sx_1,\beta_s^2\text{I})$ ，并令单调噪声尺度序列 $\alpha_s,\beta_s\in[0,1]$ 满足 $\alpha_0=\beta_1=0$ 且 $\alpha_1=\beta_0=1$ ，那么就可以在 $v$ 与（边缘）扰动分布的score，即 $\nabla_{x_s}\log p_s(x_s)$ 之间建立闭式转换关系，如[29]所示：

$v(x_s,s)=\left(\beta_s^2\frac{\dot{\alpha}_s}{\alpha_s}-\dot{\beta}_s\beta_s\right)\nabla_{x_s}\log p_s(x_s)+\frac{\dot{\alpha}_s}{\alpha_s}x_s.\tag{3}$

扩散模型文献中的一个关键发现是：已经存在可处理且高效的目标函数，可用于学习向量场 $v(x_s,s)$ 或score $\nabla_{x_s}\log p_s(x_s)$ 的近似。

$p_s(x_s|x_1)=\mathcal{N}(x_s;\alpha_sx_1,\beta_s^2\text{I})$ ：
如果最终干净数据是 $x_1$ ，那在噪声尺度 $s$ 时，我们得到的中间样本 $x_s$ 是怎么被扰动出来的。它表示：给定真实数据 $x_1$ ，我们通过加高斯噪声得到一个更脏的版本 $x_s$ 。这个式子翻译成人话： $x_s\sim \mathcal{N}(\alpha_sx_1,\beta_s^2\text{I})$ 。意思是： $x_s$ 围绕 $\alpha_s x_1$ 附近波动，噪声大小由 $\beta_s$ 控制。这其实等价于常见写法： $x_s = \alpha_sx_1+\beta_sϵ，ϵ\sim\mathcal{N}(0, \text{I})$ 。
$\nabla_{x_s}\log p_s(x_s)$ ：
对当前分布 $p_s(x)$ 的对数密度，在 $x_s$ 处求梯度。score告诉你：在当前位置，往哪个方向走，概率密度会变大得最快。说得更口语一点：它像一个“上山方向箭头”，指向更像真实数据、更高概率的地方。比如你现在落在一个不太合理的位置， score会告诉你：往左一点更合理，往某个方向移动，样本会更像数据分布中的典型点。所以score本质上是一种： “局部修正方向”。

公式（3）：
先要理解：ODE的速度场 $v$ 可以用score来表示。也就是：只要我知道每个位置的score，我就知道样本应该往哪里走。这才是关键。
公式第一部分： $\left(\cdot\cdot\cdot\right)\nabla_{x_s}\log p_s(x_s)$
这部分负责告诉样本：往高概率区域靠近。
公式第二部分： $\frac{\dot{\alpha}_s}{\alpha_s}x_s$
这部分更像是由噪声日程 $\alpha_s,\beta_s$ 决定的“整体漂移项”。

你真正要记住：扩散采样过程可以转化为一个由score控制的连续运动过程。这就是为什么后面很多扩散模型研究，其实都在研究：如何学score。因为score学到了， $v$ 也就能得到了。

虽然 $v$ 和score看起来很高级、很抽象，但幸运的是，我们不需要直接监督“正确的score是多少”。我们可以构造一个简单、可训练的损失函数，让神经网络间接学会这件事。这就是扩散模型真正能落地的原因。

特别地，Ho等人[20]提出学习一个噪声模型 $D(x_s,s)$ ，该模型通过最小化去噪分数匹配（Denoising Score Matching）目标，来预测扰动样本 $x_s=\alpha_sx+\beta_s\epsilon$ 中的噪声 $\epsilon\sim\mathcal{N}(0,\text{I})$ ：

$\mathbb{E}_{x,s\sim[0,1],\epsilon\sim\mathcal{N}(0,\text{I})}\left[\left\|\epsilon-D(x_s,s)\right\|^2\right].\tag{4}$

“让模型预测的噪声，尽量接近真实加进去的噪声”。具体说：

$\epsilon$ ：真实噪声

$D(x_s,s)$ ：模型预测噪声

$|\epsilon-D(x_s,s)|^2$ ：两者差多大

期望 $\mathbb E$ ：对所有训练样本、所有噪声尺度、所有随机噪声取平均

所以整个训练目标就是：平均来说，让模型尽量猜准噪声。

其中，该期望是对数据集中采样得到的样本 $x\sim p(x)$ 来计算的。正如Song等人[21]所表明的那样，使用目标函数(4)训练得到的最优噪声模型 $D^*$ 的输出与score之间满足如下关系：

$\nabla_{x_s}\log p_s(x_s)=-\frac{D^*(x_s,s)}{\beta_s}.\tag{5}$

在本文其余部分中，为了避免在状态 $x_{t,s}$ 中同时标记物理时间 $t$ 和噪声尺度 $s$ 所带来的符号冗杂，只要语义明确，我们就省略变量上的噪声尺度下标，并将扰动数据上的分布记作 $p_s(x_t)$ 。

$D^*$ 是什么？ $D^*$ 表示训练到最优时的噪声模型。也就是：最会猜噪声的那个模型。
公式的意思：最优噪声预测模型的输出，和score只差一个简单比例因子 $-\frac{1}{\beta_s}$ 。
这意味着：只要你能预测噪声，你其实就等于学到了score。
前面我们已经说过：学到score，就能构造 $v$ 。有了 $v$ ，就能解ODE做采样。所以整个逻辑链是：训练时：学噪声预测模型 $D$ 。理论上： $D^*$ ↔ score。采样时：score → 向量场 $v$ → ODE积分 → 生成样本。这就是整段内容的真正结构。

IV. STATE ESTIMATION WITH DENOISING PARTICLE FILTERS

作者想直接从“当前时刻的后验分布”里采样粒子，而不是像传统粒子滤波那样先从别的分布采样、再靠权重去修正。

为了做到这一点，作者打算用前面讲过的扩散模型思路：从一个简单分布出发，通过解一个ODE，一步一步把样本推到目标分布。而这里的目标分布不再是普通的数据分布 $p (x)$ ，而是： $p(x_t|y_{1:t},u_{1:t})$ 。也就是：当前时刻的后验分布。所以这段的核心目标就是：把“后验分布采样”改写成“对后验分布做扩散采样”。

现在这一段干什么：既然扩散采样要知道目标分布的score，而这里目标分布就是后验分布，那我们就来推导“后验分布的score”怎么写。这就是公式(6)的来源。

作者把“当前后验分布”当成扩散模型里的“目标分布”。也就是说：普通扩散模型：从噪声生成“像真实数据的样本”。这里的方法：从噪声生成“符合当前后验分布的状态样本”。换句话说，这里的扩散过程不是在生成图片，而是在：生成当前时刻“合理的状态粒子”。

因为扩散采样不是一步完成的，而是一个连续去噪过程。在这个过程中，样本会经历很多个不同的噪声尺度 $s$ ：

很脏的时候一个score

中间状态一个score

快变干净时又一个score

所以不是只要最终干净分布的score，而是要：对每个噪声尺度 $s$ ，都知道后验分布在这个尺度下的score。这就是： $\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})$ 。可以把它理解成：在每个去噪阶段，我都要知道“当前样本应该往哪个方向修正，才会更像当前后验分布中的样本”。

score是什么？ score就是： $\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})$ 。它的直观含义不是一个概率值，而是一个方向向量。它表示：如果当前样本 $x_t$ 在当前位置，那么朝哪个方向移动，会让它更像“后验分布的高概率区域”中的样本。也就是说：如果当前粒子在一个不太合理的位置，score会告诉你该往哪里推，让它更符合当前观测、更符合动力学、更符合历史信息。所以这里的score本质上就是：“把粒子往当前后验分布里拉回去的方向”。

从本质上讲，我们的方法是通过求解ODE(2)来从后验分布 $p(x_t|y_{1:t},u_{1:t})$ 中进行采样，而这要求在多个噪声尺度 $s$ 下计算其score，即 $\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})$ 。对递归滤波方程(1)取对数后，再关于 $x_t$ 求梯度，并用一组表示前一时间步后验分布的粒子 ${x_{t-1}^i\}$ 来近似其中的积分，我们得到

$\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})=\nabla_{x_t}\log p_s(y_t|x_t)+\nabla_{x_t}\log \sum_i p_s(x_t|x_{t-1}^i,u_t). \tag{6}$

在能够计算score项 $\nabla_{x_t}\log p_s(y_t|x_t)$ 和 $\nabla_{x_t}\log\sum_i p_s(x_t|x_{t-1}^i,u_t)$ 的前提下，式(6)使得针对任意目标分布从滤波方程中进行采样变得可处理。由于样本是直接从后验分布中抽取的，因此所得的粒子滤波器不需要重要性采样。从扩散模型的角度来看，我们推导出一种引导式扩散过程，使其目标分布近似于 $p(x_t|y_{1:t},u_{1:t})$ 。在本节剩余部分中，我们首先讨论这些score项的学习目标。然后，我们将说明在推理阶段如何在粒子滤波器中组合这些（学习得到的）模型。

公式(6)到底怎么来的？
第一步：从后验结构出发。后验可以看成：

$p_s(x_t|y_{1:t},u_{1:t})\propto p_s(y_t|x_t)\cdot \sum_i p_s(x_t|x_{t-1}^i,u_t)$

这里已经把积分用粒子和求和近似了。

第二步：取对数。对乘积取log，就变成加法：

$\log p_s(x_t|y_{1:t},u_{1:t})=\log p_s(y_t|x_t)+\log \sum_i p_s(x_t|x_{t-1}^i,u_t)+\text{常数}$

第三步：对 $x_t$ 求梯度。对log求梯度，就得到：

$\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})=\nabla_{x_t}\log p_s(y_t|x_t)+\nabla_{x_t}\log \sum_i p_s(x_t|x_{t-1}^i,u_t)$

这就是公式(6)。

当前后验的score = 观测项的score + 动力学预测项的score

第一项： $\nabla_{x_t}\log p_s(y_t|x_t)$ 。测量score，它表示：

当前观测 $y_t$ 会把状态 $x_t$ 往哪里拉。

直觉上很好懂：

如果某个状态和当前观测很匹配，那测量score会把粒子往那边拉

如果某个状态和当前观测明显不一致，测量score会把粒子推开

所以这一项的作用就是：用当前观测纠偏。你可以把它理解成： “相机/传感器告诉你，当前粒子应该往哪个方向改，才更像真实情况。”
第二项： $\nabla_{x_t}\log \sum_i p_s(x_t|x_{t-1}^i,u_t)$ 。这是 动力学预测score 或 先验score。

根据上一时刻所有粒子以及当前动作 $u_t$ ，当前状态 $x_t$ 应该更可能出现在什么地方。

这里的求和是因为多个粒子有多个可能性，这些可能性要合起来。

A. Training Objectives

对于测量似然的score，根据贝叶斯公式可得： $\nabla_{x_t}\log p(y_t|x_t)=\nabla_{x_t}\log p(x_t|y_t)-\nabla_{x_t}\log p(x_t)$ 。由于相比学习 $p(y_t|x_t)$ ，学习 $p(x_t|y_t)$ 的生成模型通常更容易（例如，当 $Y$ 是图像空间时就是如此），因此我们提出通过去噪分数匹配来学习一个模型，以近似 $\nabla\log p_s(x_t|y_t)$ 和 $\nabla\log p_s(x_t)$ 。

贝叶斯公式是： $p(x_t|y_t)=\frac{p(y_t|x_t)p(x_t)}{p(y_t)}$ 。两边取对数： $log p(x_t|y_t)=\log p(y_t|x_t)+\log p(x_t)-\log p(y_t)$ 。移项得到： $log p(y_t|x_t)=\log p(x_t|y_t)-\log p(x_t)+\log p(y_t)$ 。然后对 $x_t$ 求梯度： $\nabla_{x_t}\log p(y_t|x_t)=\nabla_{x_t}\log p(x_t|y_t)-\nabla_{x_t}\log p(x_t)$ 。因为 $log p(y_t)$ 和 $x_t$ 无关，所以对 $x_t$ 求梯度后它消失了。

测量似然的score，不一定要直接学；你也可以通过“后验score减先验score”来得到它。

也就是：

$\nabla\log p(x_t|y_t)$ ：看了观测之后，状态应该往哪里去

$\nabla\log p(x_t)$ ：不看观测时，状态本身通常长什么样

两者一减，就得到：纯粹由观测带来的修正方向，这就是测量似然score。

具体来说，我们通过最小化如下目标函数来学习一个以观测为条件的去噪模型 $D(x_t,y_t,s)$ ：

$\mathcal{L}_\text{lh}=\mathbb{E}_{(x_t,y_t),s,\epsilon\sim\mathcal{N}(0,1)}\left[\left\|\epsilon-D(x_{t,s},y_t,s)\right\|^2\right]. \tag{7}$

并像式(5)那样恢复出对应的score。在实际中，通过在训练过程中偶尔丢弃条件信息[22]，同一个模型也可以用来预测先验的score，即 $\nabla\log p_s(x_t)$ 。

公式(7)中模型 $D$ 输入有三个东西：
第一， $x_{t,s}$ ：这是状态 $x_t$ 在噪声尺度 $s$ 下的带噪版本。
也就是：

原来干净状态是 $x_t$

给它按扩散模型那套方式加噪

变成 $x_{t,s}$

所以输入给网络的不是干净状态，而是：带噪状态。

第二， $y_t$ ：当前观测，比如图像、传感器读数等。

这个是条件信息。意思就是： 网络在看带噪状态的同时，还知道当前观测是什么。

第三， $s$ ：当前噪声尺度。

因为不同噪声程度下，网络要做的修正不同，所以必须告诉网络现在是第几阶段的去噪。
模型 $D$ 输出是什么？
输出是： $D(x_{t,s},y_t,s)$ 它要预测的是加入到状态里的噪声 $\epsilon$ 。也就是说，这个网络不是直接输出score，而是：先输出“噪声长什么样”，然后再像前面公式(5)（ $\nabla_{x_s}\log p_s(x_s)=-\frac{D^*(x_s,s)}{\beta_s}$ ）那样，把噪声预测转换成score。

损失函数： $\left\|\epsilon-D(x_{t,s},y_t,s)\right\|^2$ 。就是普通均方误差。

意思是：

真正加进去的噪声是 $\epsilon$

网络预测的噪声是 $D(\cdot)$

希望两者尽量接近

什么叫“丢弃条件信息”？

本来网络输入是： $x_{t,s},y_t,s)$ 。但作者在训练时，有时候故意不给它 $y_t$ ，或者把 $y_t$ 设为空。这时候网络就只能根据：

带噪状态 $x_{t,s}$

噪声尺度 $s$

去猜噪声。也就是说，这时它学的是：不依赖观测的去噪。那对应的就是： $\nabla\log p_s(x_t)$ ，也就是先验score。
为什么这一招有效？
因为一个网络如果有时带条件训练，有时不带条件训练，它就会同时学会两种模式：

有条件时：学习 $p_s(x_t|y_t)$

无条件时：学习 $p_s(x_t)$

这和扩散模型里的classifier-free guidance是同样的套路。

类似于classifier-free guidance[22]，我们随后按照下式执行去噪步骤：

$\epsilon_\text{lh}=-\beta_s\left[(1+\eta)\nabla_{x}\log p_s(x_t|y_t)-\eta\nabla\log p_s(x_t)\right], \tag{8}$

其中，引导强度为 $\eta\geq0$ 。

作者构造出来的“测量引导去噪方向”

$(1+\eta)\nabla\log p_s(x_t|y_t)-\eta\nabla\log p_s(x_t)$ 可以理解成：

把条件score放大一点

再减去一部分无条件score

这和classifier-free guidance非常像。它的作用是：

让去噪过程更强烈地朝“符合当前观测”的方向走。

如果只用条件score，那已经是在往符合观测的方向推。现在再用这种线性组合，相当于：把条件信息的影响增强，这就是“引导强度” $\eta$ 的作用。
$\eta$ 是什么？ $\eta\ge0$ 是引导强度。

$\eta=0$ 时，不额外增强，就是普通条件去噪

$\eta$ 越大，对观测条件的强调越强

所以 $\eta$ 就是一个“观测拉力放大器”。
为什么前面还有一个 $-\beta_s$ ？ 这是因为前面扩散模型里，噪声预测和score之间本来就差一个比例变换。作者这里写成 $\epsilon_\text{lh}$ ，是为了方便在去噪步骤里直接使用。不必纠结这个比例因子本身，更重要的是理解：这里本质上是在构造一个测量引导的score / 去噪方向。

将这一近似代入原始滤波方程后可以发现，这种近似会在每一个时间步引入一个 $p(y_t|x_t)^\eta p(x_t)$ 形式的偏置。尽管这种偏置可以通过重要性采样来修正，但在实际中我们并没有这样做。在使用学习模型进行递归预测的背景下，我们发现这种施加在 $p(x_t)$ 上的偏置实际上是有益的，因为它能够减轻推理过程中的分布漂移（见第V-F节）。

为什么这种引导会带来偏置？

因为原本真正想要的测量项score是： $\nabla\log p(y_t|x_t)$ 。但作者并没有精确地只用这一项，而是用了一个“引导增强版”的近似：
$(1+\eta)\nabla\log p(x_t|y_t)-\eta\nabla\log p(x_t)$

这等于对原本目标分布做了一个重新加权。所以最终采样出来的分布，不再是完完全全原始理论里的后验，而是：带有额外偏好的版本，这个额外偏好就是原文说的偏置。

这个偏置会让系统：

更看重与当前观测一致的状态

同时也更偏向落在训练数据常见的状态区域里

也就是说，它不只是“匹配当前观测”，还会：更偏好那些看起来像正常数据流形上的状态。所以它本质上给系统加了一个“别跑太偏”的倾向。这也就是论文后面说它有助于减轻分布漂移的原因。

$p(y_t|x_t)^\eta p(x_t)$ 推导：

1. 先写出“真正想要的”测量score

为简洁起见，我先把 $t, s$ 下标暂时省掉，写成 $x, y$ 。真正的测量似然score是

$g_{\text{lh}}(x)=\nabla_x\log p(y|x).$

根据贝叶斯公式，

$p(x|y)=\frac{p(y|x)p(x)}{p(y)}.$

两边取 $\log$ 再对 $x$ 求梯度：

$\nabla_x\log p(x|y)=\nabla_x\log p(y|x)+\nabla_x\log p(x),$

因为 $p (y)$ 和 $x$ 无关，所以它的梯度为0。

于是

$\nabla_x\log p(y|x)=\nabla_x\log p(x|y)-\nabla_x\log p(x).$

这就是文中前半句。

2. 作者实际用的不是这个“精确形式”，而是引导后的近似

文中式(8)对应的score组合是

$\tilde g_{\text{lh}}(x) = (1+\eta)\nabla_x\log p(x|y)-\eta\nabla_x\log p(x).$

注意，这里不是 $\nabla_x\log p(x|y)-\nabla_x\log p(x),$ 而是

条件score前面乘了 $(1+\eta)$

无条件score前面只减了 $\eta$

这就是引导带来的“改动”。

3. 把贝叶斯关系代进去

由上面

$\nabla_x\log p(x|y)=\nabla_x\log p(y|x)+\nabla_x\log p(x),$

代入 $\tilde g_{\text{lh}}(x)$ ：

$\tilde g_{\text{lh}}(x) = (1+\eta)\big[\nabla_x\log p(y|x)+\nabla_x\log p(x)\big] -\eta\nabla_x\log p(x).$

展开：

$\tilde g_{\text{lh}}(x) = (1+\eta)\nabla_x\log p(y|x) + (1+\eta)\nabla_x\log p(x) - \eta\nabla_x\log p(x).$

后两项合并：

$\tilde g_{\text{lh}}(x) = (1+\eta)\nabla_x\log p(y|x) + \nabla_x\log p(x).$

再写成一个整体的 $\log$ 梯度：

$\tilde g_{\text{lh}}(x) = \nabla_x\log\Big(p(y|x)^{1+\eta}p(x)\Big).$

这一步非常关键。它说明：你现在用的“测量score”，已经不再是原来的 $\nabla_x\log p(y|x)$ 了。而是变成了 $\nabla_x\log\Big(p(y|x)^{1+\eta}p(x)\Big).$

4. 为什么论文里说偏置是 $p(y|x)^\eta p(x)$ ，不是 $p(y|x)^{1+\eta}p(x)$ ？

这正是最容易卡住的地方。因为原始后验里本来就已经有一个 $p (y ∣ x)$ 了。原始目标后验：滤波公式对应的目标后验，省略归一化常数后是

$p(x|y_{1:t},u_{1:t}) \propto p(y|x),q(x),$

其中 $q (x)$ 表示动力学预测项，比如文中那一项

$q(x)=\sum_i p(x|x_{t-1}^i,u_t).$

所以原来目标的score是

$\nabla_x\log p(y|x)+\nabla_x\log q(x).$

用引导后的测量score替换后，你现在用的是

$\tilde g_{\text{lh}}(x)=\nabla_x\log\big(p(y|x)^{1+\eta}p(x)\big).$

再加上动力学项 $\nabla_x\log q(x)$ ，得到整体score：

$\nabla_x\log\big(p(y|x)^{1+\eta}p(x)\big)+\nabla_x\log q(x)$

合起来就是

$\nabla_x\log\Big(p(y|x)^{1+\eta}p(x)q(x)\Big).$

而原始目标是

$\nabla_x\log\Big(p(y|x)q(x)\Big).$

所以新目标相对于原始目标，多出来的乘子就是

$\frac{p(y|x)^{1+\eta}p(x)q(x)}{p(y|x)q(x)} =p(y|x)^\eta p(x).$

这就是论文说的：引入了一个 $p(y_t|x_t)^\eta p(x_t)$ 形式的偏置。

动力学score项是（加扰后的）动力学模型score $\nabla_{x_t}\log p_s(x_t|x_{t-1}^i,u_t)$ 的一个混合，其权重由各个祖先粒子的相对先验决定。在我们的实现中，我们让每个粒子只从单个祖先粒子 $x_{t-1}^i$ 演化而来，这是一种粒子滤波中常见的近似做法[6]。另一种做法是评估完整的混合先验[30]，但这部分留待未来工作处理。

前一时刻有很多粒子 $x_{t-1}^i$ 。每个粒子都可能通过动力学传播到当前时刻某些位置。所以当前的动力学先验不是单一分布，而是：很多个“由祖先粒子传播出来的小分布”的混合，因此当前动力学score，本质上是这些小分布score的混合。

我们让每个粒子只从单个祖先粒子 $x_{t-1}^i$ 演化而来

意思是作者没有在每一步都考虑：

当前某个粒子可能同时来自很多祖先粒子的混合影响，而是采用了粒子滤波里常见的近似：每个当前粒子只认一个父粒子。

你可以把它理解成“家谱关系”：

当前这个粒子是谁生出来的？

就指定一个祖先粒子负责它

这样做的好处是：

算法更简单

计算量更低

很符合传统PF里常见做法

代价是：

没有显式评估完整混合先验

作者也承认这一点，并说完整混合先验留到未来工作。

获得动力学模型score $\nabla_{x_t}\log p_s(x_t|x_{t-1}^i,u_t)$ 有多种方式。

一种方式是使用目标函数(4)，学习一个以 $x_{t-1}$ 和 $u_t$ 为条件的去噪模型，从而近似该score。

$\mathbb{E}_{x,s\sim[0,1],\epsilon\sim\mathcal{N}(0,\text{I})}\left[\left\|\epsilon-D(x_s,s)\right\|^2\right].\tag{4}$
像测量那边一样，再训练一个以 $x_{t-1},u_t)$ 为条件的扩散/去噪网络。好处是灵活。缺点是：

训练又多一个扩散模型

推理时每个去噪步骤都要跑网络

计算更重

另一种方式是，如果 $p_s(x_t|x_{t-1},u_t)$ 是已知的，那么它的score可以解析地（或数值地）计算出来。

如果 $p_s(x_t|x_{t-1},u_t)$ 是已知的，那就不用学了，直接算score即可。好处是精确。缺点是现实里通常这个模型并不知道，或者太复杂。

在本文中，我们选择第三种方案：通过最大化单步预测的对数似然来学习一个参数化动力学模型 $f$ ：

$\mathcal{L}_\text{dy}=\mathbb{E}_{(x_t,x_{t-1},u_t)}\left[\log \mathcal{N}(x_t;\mu_f,\Sigma_f)\right]. \tag{9}$

其中，高斯分布的均值 $\mu_f$ 和协方差 $\Sigma_f$ 由一个前馈网络的两个输出头 $f_\mu,f_\sigma$ 来预测：

$\mu_f=x_{t-1}+f_\mu(x_{t-1},u_t), \tag{10}$

$\Sigma_f=\exp(f_\sigma(x_{t-1},u_t))\text{I}. \tag{11}$

学习一个参数化动力学模型 $f$ ，用高斯分布来描述一步预测。也就是：学一个单步高斯动力学模型，这是作者真正用的方法。

为什么选择第三种方案？ 这是个非常实际的设计选择。

作者不想：

再训练一个完整的扩散动力学模型，太贵

也没有现成精确已知的动力学分布可直接算

所以他们选择折中方案：

只学习一个一步预测的高斯动力学模型。

好处是：

训练简单

单步监督就够

后面加扰后的score还能闭式算

推理时计算便宜

所以这一步跟文章整体思路完全一致：模块化、单步训练、推理时高效。

$\mathcal{L}_\text{dy}=\mathbb{E}_{(x_t,x_{t-1},u_t)}\left[\log \mathcal{N}(x_t;\mu_f,\Sigma_f)\right]. \tag{9}$

这里本质上是在做：单步最大似然学习，意思是：

给定上一时刻状态 $x_{t-1}$

给定动作 $u_t$

让模型预测当前状态 $x_t$ 的高斯分布

然后让真实 $x_t$ 在这个高斯分布下的概率尽量大

也就是：希望模型预测出来的均值和方差，能够很好解释真实下一状态。换一种最直白的话说：作者是在教这个网络：

“给你上一步状态和动作，你告诉我下一步大概会去哪，以及不确定性有多大。”

这就是动力学模型 $f$ 的任务。

均值 $\mu_f$ ：这里作者没有直接让网络预测 $x_t$ ，而是预测：从 $x_{t-1}$ 到 $x_t$ 的变化量。也就是：

$f_\mu(x_{t-1},u_t)$

表示状态增量。然后再写成：

$\mu_f = x_{t-1} + \text{增量}$

这样做很合理，因为在很多动力学问题里：

当前状态通常和上一时刻很接近

网络预测“变化多少”比“直接预测绝对位置”更容易学

这是一种残差形式，非常常见。

协方差 $\Sigma_f$ ：作者设为： $\Sigma_f=\exp(f_\sigma(x_{t-1},u_t))\text{I}.$

意思是：

网络再输出一个标量或向量，表示方差的对数

经过 $\exp$ 后保证方差为正

再乘 $\text{I}$ ，表示这里采用对角、各向同性或简化协方差结构

你可以理解成：模型不仅预测“下一步去哪”，还预测“我对这个预测有多不确定”，这很重要，因为状态转移本来就有随机性。

把动力学分布参数化成高斯好处：这是本文一个很关键的工程设计点。如果把

$p(x_t|x_{t-1},u_t)$

设成高斯分布，那么在扩散里加入噪声之后，仍然会保持高斯形式。而高斯分布的score是最容易算的，因为：高斯分布的对数梯度有闭式公式，这就直接导向了式(12)。

在DnPF的背景下，将 $p(x_t|x_{t-1},u_t)$ 参数化为高斯分布的好处在于：加扰后转移分布的score可以在每个去噪步骤中用闭式形式计算为
$\epsilon_\text{dy}= -\beta_s\nabla_{x_t}\log p_s(x_t|x_{t-1},u_t)=\beta_s\Sigma_s^{-1}(\mu_s-x_t), \tag{12}$

动力学去噪方向。当前这个带噪粒子 $x_t$ ，如果只考虑动力学模型，那么它应该朝着动力学预测的中心 $\mu_s$ 移动。

$p(x_t|x_{t-1},u_t)$ ：这是动力学转移分布。意思是：已知上一时刻状态 $x_{t-1}$ 和动作 $u_t$ ，当前状态 $x_t$ 会落在哪里。作者把它参数化成高斯： $p(x_t|x_{t-1},u_t)=\mathcal{N}(x_t;\mu_f,\Sigma_f)$ 。意思是：

当前状态大概率在 $\mu_f$ 附近

不确定性由 $\Sigma_f$ 描述

$\mu_f$ ：这是动力学模型预测的下一步均值。也就是：

按照动力学，下一步最可能在哪

$\Sigma_f$ ：这是动力学模型预测的不确定性。也就是：

我对“下一步在哪”有多确定

$\Sigma_f$ 小：很确定

$\Sigma_f$ 大：不太确定

$\mu_s,\Sigma_s$ ：这两个不是原始动力学分布的参数，而是：加了扩散噪声之后，这个分布在噪声尺度 $s$ 下的新均值和新协方差，也就是“扰动后的动力学分布参数”。

$x_t$ ：这里最坑。严格来说，这里其实应该写成带噪状态，也就是 $x_{t,s}$ 。但作者前面说了，为了不让符号太长，他们后面把 $s$ 省略了。所以式(12)里的 $x_t$ ，你不要理解成“干净真实状态”，而要理解成：当前噪声尺度 $s$ 下的那个粒子位置，这个点非常重要。

作者先学了一个动力学模型 $f$ ，输出： $\mu_f=x_{t-1}+f_\mu(x_{t-1},u_t)$ ， $\Sigma_f=\exp(f_\sigma(x_{t-1},u_t))\text{I}$ 。所以对于每个祖先粒子 $x_{t-1}$ 和动作 $u_t$ ，模型给出一个高斯： $x_t\sim \mathcal{N}(\mu_f,\Sigma_f)$ 。这表示：

“如果从这个祖先粒子出发，在这个动作下走一步，那么下一步大概在 $\mu_f$ 附近，且不确定性是 $\Sigma_f$ 。”

扩散模型里，不是直接在干净状态上工作，而是在带噪状态上工作。带噪过程是： $x_{t,s}=\alpha_s x_t+\beta_s\epsilon,\quad\epsilon\sim\mathcal{N}(0,\text{I})$ 。

高斯分布的一个基本结论如果 $p(x)=\mathcal N(x;\mu,\Sigma)$ ，那么它的score是： $\nabla_x\log p(x)= -\Sigma^{-1}(x-\mu)=\Sigma^{-1}(\mu-x)$ 。这是高斯分布的标准结果。

其中， $\mu_s=\alpha_s\mu_f$ ， $\Sigma_s=\alpha_s^2\Sigma_f+\beta_s^2\text{I}$ 。这样一来，学习得到的模型 $f$ 对于每个粒子、每个时间步只需要计算一次，而不需要在每一个去噪步骤中都重复计算。

左边是什么？左边本质上是：加扰后动力学分布的score，乘了一个扩散里常见的缩放因子。你可以把它理解成： 动力学模型告诉当前粒子：你应该往哪边修正，才更符合“从祖先粒子出发、经过动作传播”得到的分布。

右边是什么？对高斯分布来说，score有标准形式：如果 $x$ 服从均值 $\mu$ 、协方差 $\Sigma$ 的高斯，那么它的score大致就是：

$\nabla_x \log p(x)\propto -\Sigma^{-1}(x-\mu)$

等价写法就是：

$\Sigma^{-1}(\mu-x)$

所以式(12)是：高斯分布score的闭式结果。

这个式子直观上是什么意思？

它表示：

如果当前 $x_t$ 离高斯均值 $\mu_s$ 很远

那动力学score就会把它往 $\mu_s$ 方向拉

拉力大小还会受到协方差 $\Sigma_s$ 影响

也就是说：高斯越窄（协方差越小），拉回均值的力越强；高斯越宽（协方差越大），允许的范围更广，拉力更弱。这很符合直觉。

$\mu_s=\alpha_s\mu_f$ ， $\Sigma_s=\alpha_s^2\Sigma_f+\beta_s^2\text{I}$
表示：原始动力学高斯分布在加噪之后，对应的扰动分布参数。

原来一步动力学模型是：

$x_t\sim\mathcal N(\mu_f,\Sigma_f)$

现在扩散过程还会再给它加上噪声，于是分布变成新的高斯：

均值缩放成 $\mu_s$

协方差变成 $\Sigma_s$

这个形式来自高斯分布在线性变换和高斯加噪下仍保持高斯。所以这里依然能闭式求score。

为什么作者特别强调“每个粒子每个时间步只需计算一次”？

如果用扩散网络学动力学score会怎样？ 那你在每个去噪步骤 $s$ 都得把当前样本再喂给一个网络。如果去噪有很多步，计算会非常贵。

现在作者怎么做？ 作者只需要：在当前时间步开始时，对每个粒子、给定祖先 $x_{t-1}$ 和控制 $u_t$ ，跑一次动力学网络 $f$ ，得到：

$\mu_f$

$\Sigma_f$

然后后面整个去噪过程中，动力学score都能用闭式公式算，不需要再跑神经网络。所以它非常省。

B. Inference Procedure

对每个上一时刻的粒子，先用动力学模型预测一下它下一步可能在哪里；然后不要完全相信这个预测，而是再用“测量信息 + 动力学信息”一起做几步去噪修正，最后得到当前时刻的新粒子。先预测一个大概位置，再通过扩散去噪把粒子一步一步拉到当前后验分布上。

$\nabla_{x_t}\log p_s(x_t|y_{1:t},u_{1:t})=\nabla_{x_t}\log p_s(y_t|x_t)+\nabla_{x_t}\log \sum_i p_s(x_t|x_{t-1}^i,u_t). \tag{6}$
这句话的人话版是：

当前后验分布的修正方向 = 当前观测给的方向 + 上一时刻粒子经过动力学传播后给的方向。

也就是：

观测说：你应该更像当前图像/测量支持的状态

动力学说：你应该更像从上一时刻状态演化过来的状态

DnPF就是在每一步去噪里，把这两个方向合起来。所以算法1并不是凭空来的，它就是把公式(6)做成了可执行流程。

“一个粒子在当前时刻是怎么来的”？

假设上一时刻有一个粒子：

$x_{t-1}^i$

现在到了当前时刻 $t$ ，作者不是直接说“它就变成 $x_t^i$ ”，而是分三步：

第一步：动力学先预测一个中心位置

用动力学网络 $f_\mu$ 预测：

$\hat{x}_t^i=x_{t-1}^i+f_\mu(x_{t-1}^i,u_t)$

这就是“如果只看动作和上一状态，我猜它下一步大概在这”。这一步是粗预测。

第二步：在这个预测附近加噪声，得到热启动初值

不是直接把 $\hat{x}_t^i$ 当最终答案，而是构造一个带噪初值：

$x_{t,s_w}^i \sim \mathcal N(\alpha_{s_w}\hat{x}_t^i,\beta_{s_w}^2\text{I})$

意思是：

以动力学预测为中心

再加一点随机扰动

得到当前去噪过程的起点

这一步相当于说：

我不想从完全随机开始，因为太慢；我先站到一个差不多对的地方，再开始精修。

第三步：做多次去噪修正

在每个去噪步骤 $s$ ，计算：

$\epsilon^i=\epsilon_\text{lh}^i+\epsilon_\text{dy}^i$

然后用这个总方向去更新粒子。做完几步后，就得到当前时刻的最终粒子 $x_t^i$ 。

给定一组粒子 $\{x_{t-1}^i\mid i=1,\ldots,N\}$ ，它们表示前一时间步的后验分布 $p(x_{t-1}|y_{1:t-1},u_{1:t-1})$ ，式(6)提供了一种从下一时间步后验分布中进行采样的方式：从纯噪声样本 $x_{t,0}^i\sim\mathcal{N}(0,\text{I})$ 出发，每个粒子都根据预测噪声，独立地经过一系列去噪步骤 $s=0,\ldots,1$ 进行演化：

$\epsilon^i=\epsilon_\text{lh}^i+\epsilon_\text{dy}^i, \tag{13}$

第 $i$ 个粒子在当前去噪步应该怎么移动，由两股力共同决定。
$\epsilon_\text{lh}^i$

当前观测 $y_t$

会希望这个粒子更符合测量

简单说就是：相机/传感器在拉它。

$\epsilon_\text{dy}^i$

根据上一时刻粒子 $x_{t-1}^i$

加上动作 $u_t$

当前粒子应该更像动力学预测出来的位置

简单说就是：系统运动规律在拉它。

其中， $\epsilon_\text{lh}^i$ （见式(8)）对应学习得到的测量似然项， $\epsilon_\text{dy}^i$ （见式(12)）对应动力学先验项。

分成四层来理解：

第1层：目标是什么？ 想从当前后验分布里采样：

$p(x_t|y_{1:t},u_{1:t})$

也就是当前最合理的状态分布。

第2层：怎么采样？ 不用传统重要性采样，而是用扩散模型的ODE/离散去噪过程来采样。这意味着你需要在每个去噪步骤里知道：

测量想把粒子往哪推

动力学想把粒子往哪推

第3层：怎么得到这两个推力？ 作者前面已经训练好了两个模块：

测量项： $\epsilon_\text{lh}$

动力学项： $\epsilon_\text{dy}$

然后把它们加起来：

$\epsilon^i=\epsilon_\text{lh}^i+\epsilon_\text{dy}^i \tag{13}$

这就是当前第 $i$ 个粒子的总去噪方向。

第4层：怎么高效地做？ 如果从纯噪声开始慢慢去噪，步数会很多，很贵。所以作者用了一个技巧：热启动（warm-start），也就是：

不从“完全随机纯噪声”开始

而是先用动力学预测一个差不多的位置

然后在这个预测附近加一点噪声

再从这个“半成品”开始去噪

这样就快很多。

$\epsilon_\text{lh}=-\beta_s\left[(1+\eta)\nabla_{x}\log p_s(x_t|y_t)-\eta\nabla\log p_s(x_t)\right], \tag{8}$
$\epsilon_\text{dy}= -\beta_s\nabla_{x_t}\log p_s(x_t|x_{t-1},u_t)=\beta_s\Sigma_s^{-1}(\mu_s-x_t), \tag{12}$

由于在扩散模型中执行大量去噪步骤 $S=1/\Delta s$ 的采样代价可能较高，因此我们按如下方式对去噪过程进行热启动（warm-start）：对于每一个前一时刻的粒子 $x_{t-1}^i$ ，我们首先利用（学习得到的）动力学模型预测下一状态： $\hat{x}_t^i=x_{t-1}^i+f_\mu(x_{t-1}^i,u_t)$ 。然后，对于选定的热启动噪声尺度 $s_\text{w}\in[0,1)$ ，我们采样一个扰动后的初始状态 $x_{t,s_\text{w}}^i\sim\mathcal{N}(\alpha_{s_\text{w}}\hat{x}_t^i,\beta_{s_\text{w}}^2\text{I})$ ，也就是说，我们在纯噪声和动力学模型预测结果之间进行插值。随后，对于每一个去噪步骤 $s=s_\text{w},\ldots,1$ ，我们都使用式(13)来计算预测噪声。在实际中，我们发现，对于本文研究的任务，取 $s_\text{w}\in[0.5,0.9]$ ，并配合总共5到25个去噪步骤，效果较好。

热启动具体怎么做？

第一步：先预测一个粗略状态

$\hat{x}_t^i=x_{t-1}^i+f_\mu(x_{t-1}^i,u_t)$

这是动力学均值预测。也就是：

你上一帧在这里

你做了这个动作

所以下一帧我猜大概在那

第二步：把这个预测变成“带噪起点”

$x_{t,s_w}^i\sim\mathcal N(\alpha_{s_w}\hat{x}_t^i,\beta_{s_w}^2\text{I})$

这是什么意思？这表示：

不是直接从纯噪声 $x_{t,0}\sim\mathcal N(0,\text{I})$ 开始

而是在一个噪声尺度 $s_w$ 处开始

此时样本已经带有一部分动力学预测信息了

所以作者说：

我们在纯噪声和动力学模型预测结果之间进行插值

这句话很重要。因为：

如果 $s_w$ 很小，更接近纯噪声

如果 $s_w$ 很大，更接近动力学预测

所以 $s_w$ 控制了：你到底想相信动力学预测多少，还是想保留更多随机探索

$s_w$ 是热启动噪声尺度，它在 $[0, 1)$ 之间。根据前面这篇文章的约定：

$s = 0$ ：最噪

$s = 1$ ：最干净

所以如果从 $s_w$ 开始去噪，意味着：

你不是从完全噪声的0开始

而是从一个已经比较靠近干净样本的位置开始

我们在算法1中对这一推理过程进行了总结。

在这里插入图片描述

初始化：
如果初始先验分布 $p(x_0)$ 已知，那就直接从先验里采样初始粒子。

如果你一开始就知道系统大概在哪
那就按这个已知先验生成初始粒子

如果不知道初始先验，那就根据初始观测 $y_0$ ，用测量去噪模型来从条件分布里采样初始粒子。

我虽然没有先验
但我有第一帧观测
那我就根据第一帧观测直接猜初始状态分布

粒子滤波：

用动力学网络预测 $\hat{x}_t^i,\Sigma_t^i$ （公式10，11）

热启动采样

C. Likelihood-Constrained Diffusion (似然约束扩散)

作者发现：当动力学模型太“强”、太“确定”时，粒子可能只会沿着动力学预测的轨迹走，哪怕观测已经暗示“你应该去另一个地方”，粒子也不容易跳过去。于是作者加了一个“约束机制”：如果粒子离观测支持的数据流形太远，就暂时削弱动力学项，让观测先把粒子拉回正确区域。

用有限个样本来近似后验分布的一个结果是：先验（动力学）分布与似然函数的支撑集可能是彼此分离的。这种情况在动力学模型近乎确定性时尤为常见；在这种情况下，即便最优地求解递归贝叶斯滤波方程(1)，也可能无法得到一个被良好近似的后验分布。

什么叫“支撑集可能分离”？

“支撑集”你先不要想成特别抽象的数学词，你就把它理解成：某个分布“主要有可能出现”的区域。比如：

动力学分布说：当前物体大概率在A区域

观测似然说：当前物体大概率在B区域

如果A和B差得很远，甚至几乎不重合，那就是：先验支持区域和似然支持区域分离了

为什么这会出问题？

因为粒子是有限个的，不是无限连续的。如果当前这批粒子都被动力学带到了A附近，而真正观测支持的是B附近，那么会发生：

粒子都离B很远

观测虽然想把粒子拉去B

但粒子一开始压根不在B附近

动力学项还在持续把它们往A方向拉

于是粒子可能根本“跳不过去”。这就像：

你要从一条轨道跳到另一条轨道，但当前动力学太强，一直把你往原轨道按住。

为了解决这一问题，我们设计了一种约束优化过程，以确保粒子 $x_t^i$ 始终保持接近似然流形 $p(x_t|y_t)$ ，即使它们并不被先验 $p(x_t|x_{t-1}^i,u_t)$ 所支持。

作者为了解决这个问题，提出：似然约束扩散（Likelihood-Constrained Diffusion）。最简单的人话版就是：

如果当前粒子离“观测支持的流形”太远，就先别让动力学说了算，先削弱动力学项，让观测把粒子拉回去。

我们在每一个去噪步骤中，使用噪声模型输出 $D(x_t^i,y_t,s)$ 的大小，作为粒子到由 $p_s(x_t|y_t)$ 所诱导的数据流形距离的一个代理量。这种做法可以通过将去噪分数匹配解释为最大化证据下界（ELBO）[20]来加以合理化。这促使我们定义如下代价函数：

$c(\epsilon)=|\epsilon|-\theta \tag{14}$

其中， $\theta>0$ 是一个幅值阈值。

$D(x_t^i,y_t,s)$ 是什么？ 这是前面训练好的条件去噪模型。输入是：

当前带噪粒子 $x_t^i$

当前观测 $y_t$

当前噪声尺度 $s$

输出是一个预测噪声。前面你已经学过，它本质上和条件score有关。

为什么看它的“大小” $∣ D ∣$ ？ 作者这里不是只看方向，而是看：输出噪声的幅值有多大。直觉上：

如果当前粒子已经很接近“观测支持的数据流形”

那去噪模型不需要做太大修正

输出幅值会比较小

如果当前粒子离这个流形很远

去噪模型会说“你这里噪声/偏差很大，得大幅修正”

输出幅值会比较大

所以 $D(x_t^i,y_t,s)|$ 可以作为：粒子离观测流形有多远的近似指标。

为什么作者说这和ELBO解释有关？ 这里你不需要深陷ELBO公式。你只要抓住核心：

扩散去噪训练本质上是在学“如何把带噪样本拉回真实数据流形”

因此，网络预测出的噪声大小，确实能反映“当前样本有多不符合数据流形”

所以作者用它当作“距离代理量”是有理论支持的，不是纯拍脑袋。

$c(\epsilon)$ 是在判断：当前粒子是不是离观测支持区域太远

为了在去噪过程中强制满足不等式约束 $c(\epsilon)\leq0$ ，我们采用增广拉格朗日方案，用下式替代式(13)：

$\epsilon^i=\epsilon_\text{lh}^i+\epsilon_\text{dy}^i, \tag{13}$

$\epsilon=\epsilon_\text{lh}+\frac{1}{1+\lambda+\rho c(\epsilon_\text{lh})_+}\epsilon_\text{dy} \tag{15}$

$\lambda\leftarrow(\lambda+\rho c(\epsilon_\text{lh}))_+ \tag{16}$

其中， $\lambda\geq0$ 是拉格朗日乘子， $\rho\geq0$ 是惩罚参数，而 $c_+=\max(0,c)$ 。如果到数据流形的距离大于 $\theta$ ，那么式(15)会有效地缩小动力学项 $\epsilon_\text{dy}$ 的尺度。在实际中，我们发现为每个维度分别保留代价和拉格朗日乘子是有益的，这样就可以在使用全局标量 $\theta$ 的同时，对状态空间每个维度的噪声项进行独立缩放。实验部分（图4）展示了带有和不带有似然约束的DnPF对比示例轨迹。

在这里插入图片描述图4. DnPF在Manipulator Spin任务上的预测结果。图中展示的是物体位置归一化后X分量的估计值，红色曲线表示真实值。在约 $2.5$ s时，机械臂末端执行器与物体发生接触，这大大缩小了物体可能构型的空间。在被拉向由观测诱导出的测量似然之后，DnPF粒子再次沿着这个（近乎确定性的）动力学模型演化，并紧密跟踪真实值。上图：不带似然约束的粒子演化结果，中图：带似然约束$ (\theta=2.0) $的粒子演化结果。下图：预测测量 score 的幅值$ |\epsilon_{lh}|$。

D. Implementation

作者已经有了DnPF的理论和算法，现在要把它做成一个能在GPU上快速运行的版本，所以他们专门设计了一套“共享计算 + 并行粒子 + 轻量条件化”的实现方法。

在我们对DnPF的实现中，我们做出了一些设计决策，以实现快速推理。首先，由于每个粒子 $x_t^i$ 在每一个去噪步骤中都是相互独立的，因此我们可以在GPU上对粒子进行并行计算。其次，我们使用神经网络 $E$ 在每个时间步只计算一次共享的观测编码 $y_{\text{enc}}=E(y_t,y_{t-1})$ 。对于低维观测，观测编码器 $E$ 被参数化为前馈网络；对于图像观测，则被参数化为卷积网络。我们还额外引入前一时刻观测 $y_{t-1}$ 作为条件，以便更容易预测状态空间中的速度分量。对于固定数量的去噪步骤 $s=s_\text{w},\ldots,1$ ，我们预先并行计算FiLM conditioning[31]向量 $\Phi_{s_\text{w}}\ldots\Phi_1$ ，其形式为 $\Phi_s=F(y_{\text{enc}},s)$ ，其中 $F$ 是一个前馈神经网络。这些条件向量的数量与粒子数 $N$ 无关，并且可以在同一个去噪步骤中被所有粒子重复使用。 FiLM向量 $\Phi_s$ 用于对去噪模型 $D(x_t^i;\Phi_s)$ 施加条件，而该去噪模型本身可以保持较小规模，从而加速序列式扩散推理。我们在图2中给出了该去噪架构的概览。

FiLM是一个条件化方法。它的作用是“把条件信息注入到主网络里”。这里主网络是去噪模型 $D$ ，条件信息是：

当前观测编码 $y_{\text{enc}}$

当前去噪步 $s$

在这里插入图片描述 Fig. 2. DnPF network structure for efficient denoising inference. 图2. 用于高效去噪推理的DnPF网络结构。

在所有实验中，我们都使用带有跳跃连接[32]和层归一化[33]的4层前馈网络，其中， $F$ 和动力学模型 $f$ 的每一层都有256个隐藏单元，而去噪模型 $D$ 的每一层有128个隐藏单元。对于扩散推理，我们使用DDIM调度[21]，并将 $\alpha_s=\sqrt{\bar{\alpha}_s}$ 、 $\beta_s=\sqrt{1-\bar{\alpha}_s}$ 参数化，其中 $\bar{\alpha}_s\in[0,1]$ ，同时通过欧拉积分来求解式(2)。需要注意的是，我们的算法并不局限于DDIM；只要能够计算score项，它就兼容任意扩散模型或流模型的采样方案。 DnPF引入了若干推理超参数：去噪步数 $S$ 、热启动噪声尺度 $s_\text{w}$ 、引导强度 $\eta$ 以及约束阈值 $\theta$ 。需要注意的是，DnPF的训练过程与这些推理参数无关。虽然DnPF在这些参数的合理取值范围内都表现良好，但我们发现，在训练完成后，对推理参数进行搜索以便针对所选评估指标最大化性能，是有益的。关于运行时间与性能权衡的分析，请参见第V-G节。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【VMD-SSA-LSSVM】基于变分模态分解与麻雀优化Lssvm的负荷预测【多变量】（Matlab代码实现）

本文提出了一种结合变分模态分解（VMD）、麻雀搜索算法（SSA）和最小二乘支持向量机（LSSVM）的多变量负荷预测模型（VMD-SSA-LSSVM）。该模型通过VMD将原始负荷数据分解为不同频率的本征模态函数（IMF），降低数据的复杂性和非平稳性；利用SSA优化LSSVM的核函数参数和正则化参数，提高模型的预测精度；最后将各IMF分量的预测结果叠加，得到最终的负荷预测值。实验结果表明，VMD-SS

AtomGit开源社区

【水下机器人建模】基于QLearning自适应强化学习PID控制器在AUV中的应用研究（Matlab代码实现）

因此，本文提出了一种基于QLearning自适应强化学习的PID控制器，旨在提高AUV在不确定环境下的控制性能。具体来说，通过QLearning算法优化PID控制器的参数，使其能够适应不同的环境条件并实现更好的控制性能。在仿真实验中，我们将提出的方法与传统的PID控制器进行了对比。结果表明，基于QLearning的自适应PID控制器在不同的海洋环境下都能够实现更好的控制性能，表现出更高的稳定性和鲁