【技术追踪】MRI 造影增强动力学世界模型（CVPR-2026）

风巽·剑染春水

446人浏览 · 2026-04-09 19:35:31

风巽·剑染春水 · 2026-04-09 19:35:31 发布

已经开始玩世界模型了么！MRI × 世界模型：面向无造影剂成像动态演化

论文：MRI Contrast Enhancement Kinetics World Model
代码：https://github.com/DD0922/MRI-Contrast-Enhancement-Kinetics-World-Model

0、摘要

临床 MRI 对比剂采集面临信息获取效率低下的问题，表现为风险高、成本高的采集协议与固定且稀疏的采集序列之间的不匹配。应用世界模型模拟人体内的对比剂增强动力学，可实现无对比剂的连续动态模拟。（研究背景：无造影剂探索）

然而，MRI 采集中的低时间分辨率限制了世界模型的训练，导致只能获得稀疏采样的数据集。直接训练生成模型来捕捉动力学过程会带来两个局限性（当前挑战）：
(a) 由于缺乏缺失时间点的数据，模型容易过拟合不相关特征，导致内容失真；
(b) 由于缺乏连续的时间监督，模型无法学习随时间变化的连续动力学规律，造成时间不连续性；

本文首次提出了 MRI 对比增强动力学世界模型（MRI CEKWorld）及时空一致性学习（STCL）。

针对局限性 (a)，基于患者层面结构在增强过程中保持一致的空间规律，提出潜在对齐学习（LAL），通过构建患者特定模板，约束内容与该模板对齐；
针对局限性 (b)，基于动力学遵循一致平滑趋势的时间规律，提出潜在差异学习（LDL），通过插值扩展未观测的时间间隔，并约束插值序列之间在潜在空间中的平滑变化；

在两个数据集上的大量实验表明，所提出的 MRI CEKWorld 能够生成更真实的内容和动力学特征。

1、引言

1.1、研究意义与当前挑战

（1）世界模型通过学习深度神经表示来模拟物理系统的动力学过程，为建模 MRI 对比增强动力学提供了一种极具前景的方向。如 图 1 所示，此类模型能够直接从初始的非对比 MRI 图像中推断对比剂的药代动力学演变过程，从而估算任意时间点的对比剂分布，并合成相应的对比增强 MRI 图像，其具有两大优势：无对比剂 MRI 成像范式以及高时间分辨率建模；（什么是世界模型，它能干什么）

Figure 1 | ：(a) 任务： MRI CEKWorld 生成符合人体注射造影剂后动力学特征的增强序列；(b) 问题： 临床造影剂 MRI 采集存在信息获取效率低下、不良风险及成本较高的问题，且序列固定且稀疏；(c ) 优势： 所提出的 MRI CEKWorld 可实现无造影剂连续动态成像，无造影剂相关风险、成本低廉且操作便捷；

在这里插入图片描述

（2）MRI 采集的时间分辨率较低，直接在稀疏采样的数据集上训练生成模型，存在两个根本性局限：(a) 空间维度的内容失真： 由于缺失时间点处缺乏真实帧，模型无法获得关于真实解剖状态的任何监督。一旦发生过拟合，就会产生如 图 2(a) 所示的失真，包括结构变形和器官错位；(b) 时间维度的不连续性：由于缺乏连续采样的数据，模型无法学习对比剂的真实动力学规律，导致与时间条件不匹配以及相邻帧之间的时间跳跃，如 图 2(b) 所示；（MRI 数据本身为世界模型训练带来的挑战）

Figure 2 | ：局限性： MRI 采集过程中诱导的低时间分辨率在 MRI CEKWorld 中会导致 (a) 内容失真及 (b) 时间维度上的不连续性；
在这里插入图片描述

1.2、本文贡献

（1）首次提出 MRI CEK-World 模型，用于模拟人体内对比剂的动力学过程，实现无需对比剂的连续动态模拟；
（2）提出时空一致性学习（STCL），通过时空一致的生理学规律，解决因采集时间分辨率低而导致的内容真实性与时间连续性问题；
（3）提出潜在对齐学习（LAL），为每次生成构建显式的患者级模板并对齐生成内容，从而保持内容的一致性与真实性；
（4）提出潜在差异学习（LDL），扩展未观测的时间区间，并约束连续时间点之间的变化，确保时间演化的平滑性；

2、方法

如 图 3 所示，本文的时空一致性学习通过以下方式实现 MRI 造影剂动力学世界模型（第 2.1 节所述）：在每个时间点将空间信息约束至患者级模板以保持内容真实性（LAL ，参见第 2.2 节），并在密集插值序列中约束潜在表征保持平滑性（LDL，参见第 2.3 节）。

Figure 3 | MRI CEKWorld 的概述框架：局限性： (a) 和 (b) 展示了训练与推理过程；(c ) LAL 捕捉区域间共现关系，并通过与患者级模板对齐来确保解剖学一致性。(d) LDL 在潜在空间中构建密集时间序列，并对相邻时刻施加二阶差分（标记为 $\text{Diff}$ ）以实现平滑演化（ $p$ 和 $q$ 表示推理结果）；

在这里插入图片描述

2.1、公式化

MRI 造影剂动力学世界模型被建模为图像时间序列模型，其基于平扫图像 $\mathcal{I}_{p,0}$ ，预测任意时间 $t$ 处的增强 MRI 图像 $\mathcal{I}(t)$ 。

数据集。 由于 MRI 采集的时间分辨率较低，数据集在时间维度上是稀疏采样的。对于每位患者 $p$ ，将图像-时间对记为 $\mathcal{D}_p = \{{(\mathcal{I}_{p,i}, t_{p,i})}\}_{i=0}^{T_p}$ ，其中 $\mathcal{I}_{p,i}$ 表示在时间 $t_{p,i}$ 采集的图像， $T_p$ 表示采集的时间点总数。完整数据集定义为 $\mathcal{D} = \{{\mathcal{D}_p \mid p = 1,2,\dots,P}\}$ ，其中 $P$ 为患者总数。

训练。 该模型旨在学习从初始平扫图像 $\mathcal{I}_{p,0}$ 与连续时间变量 $t$ 到对应增强 MRI 图像 $\mathcal{I}_p(t)$ 的映射关系。
如 图 3 (a) 所示， $t$ 、 $\mathcal{I}_{p,0}$ 与 $\mathcal{I}_p(t)$ 被分别编码。真实编码器 $E_{gt}$ 与变分自编码器（VAE）中使用的编码器相同，用于对增强 MRI 图像 $\mathcal{I}_p(t)_{gt}$ 进行编码。时间条件编码器 $E_t$ 利用 CLIP 处理时间变量，即造影剂注射后的持续时间，将时间文本信息转换为高维特征，从而指导模型生成特定时间点的增强特征。图像条件编码器 $E_{img}$ 通过零卷积对平扫图像 $\mathcal{I}_{p,0}$ 进行编码，并将其加入到潜扩散模型的网络层中，作为引导预测的提示信息。

本文采用空间损失、时间损失和扩散损失来对生成结果进行正则化。前两种损失将分别在 3.2 节和 3.3 节中介绍。扩散损失 $\mathcal{L}_{\text{Diffusion}}=\mathbb{E}_{t,t,\epsilon} \left[ \left||\epsilon - \epsilon_\theta\right||^2 \right]$ 用于约束噪声预测的精度。在此， $t$ 表示去噪时间步。令 $\mathcal{M}_\theta$ 表示由参数 $θ$ 定义的 MRI 增强动力学世界模型：
$\hat{\mathcal{I}}_p(t)=\mathcal{M}_\theta(\mathcal{I}_{p,0}, t),\quad t \in \mathbb{R}^+ \tag{1}$

推理。 训练完成后，优化后的模型 $\mathcal{M}_{\theta^*}$ 以平扫图像 $\mathcal{I}_{p,0}$ 和时间 $t$ 为输入，预测增强 MRI 图像： $\hat{\mathcal{I}}_p(t)=\mathcal{M}_{\theta^*}(\mathcal{I}_{p,0}, t)$ 。在 图 3 (b) 中，预测结果经 U-Net 处理后，由图像解码器 $\mathcal{D}_{img}$ 解码，将潜变量转换至像素空间。

2.2、基于真实内容的潜空间对齐学习

如 图 3 ( c ) 所示，在解剖结构一致性的基础上，本文利用不同区域在造影剂信号响应模式上的差异，将这些区域之间的波动关系编码为数值统计模板，并利用该模板约束生成结果，使其符合这种波动关系，从而抑制畸变。

共现编码通过协方差矩阵实现，用于计算解剖结构的空间共现模式。区域内的协同运动对应相似区域，而区域间的单向发散对应边界分离，以此表征患者一致的空间内容。潜表征 $\hat{x}_0$ 通过利用扩散模型的逆过程提取得到：它使用模型预测的噪声 $ϵ$ 和含噪样本 $x_t$ ，为后续的统计计算与约束提供高质量、结构化的潜空间表示。

$\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ 表示 $α$ 在 $t$ 个扩散步骤中的累积系数， $x_t$ 表示经过 $τ$ 个去噪步骤后的含噪样本，其表达式为： $\hat{x}_0 = \frac{x_\tau - \sqrt{1-\bar{\alpha}_\tau} \cdot \epsilon}{\sqrt{\bar{\alpha}_\tau}}$ 。（标准预测公式）随后，在潜空间中得到预测序列 $\hat{x}_0 = \{{\hat{x}_{0t} \in \mathbb{R}^{c \times h \times w}}\}_{t=1}^T$ ，其中 $c$ 为通道数， $h$ 和 $w$ 分别为 $\hat x_0$ 的高度与宽度。本文将每个时间点（不同去噪时间步）的 $\hat x_{0t}$ 展平为 $X_t \in \mathbb{R}^{c \times s}$ （其中 $s = h \cdot w$ ），并沿空间维度进行中心化处理： $X_t^c = X_t - \frac{1}{s} \sum_{s_i=1}^s X_t$ 。（减去空间均值）这一步消除了空间均值偏差，使协方差能够反映特征的真实分布形态。每个采集时间点 $t$ 的协方差矩阵计算为： $\Sigma_t = \frac{1}{S-1} X_t^c (X_t^c)^\top$ ，随后通过收缩正则化与微小抖动项确保其正定性，得到正则化协方差矩阵： $\tilde{\Sigma}_t = (1 - \gamma)\Sigma_t + \gamma I + \varepsilon I$ ，其中 $γ$ 控制收缩强度， $I$ 为单位矩阵， $ε$ 为微小抖动项。

通过计算各时间点协方差矩阵的均值得到患者级模板，该模板在患者解剖结构不变的空间规律下，呈现更稳定的患者级空间特征。为保证数值稳定性并在训练优化中保持正定性，本文通过 log–Cholesky 参数化将每个潜协方差 $\Sigma_t$ 映射为欧几里得向量。令 $L_t = \text{chol}(\Sigma_t)$ ；提取 $\text{lower}_t = \text{vec}(\text{tril}(L_t, -1))$ 与 $\text{logdiag}_t = \log(\text{diag}(L_t))$ ，并构造 $z_t = [\text{lower}_t; \text{logdiag}_t]$ 。求平均得到患者级模板向量 $\bar{z} = \frac{1}{T}\sum_{t=1}^T z_t$ ，本文随后将其用作模板表示。

等距约束通过使不同时间点的 $z_t$ 与模板 $\bar{z}$ 保持相同距离，来约束各时间点的 $z_t$ 与模板保持一致。该约束不仅保证了统计一致性，还能保留时间点之间合理的动态变化，使生成序列在稀疏监督下具备真实的空间内容。基于等距约束的空间损失由距离 $d_t^2 = ||z_t - \bar{z}||_2^2$ 定义如下（所有患者所有时间点距离之和）：
$\mathcal{L}_{\text{Spatial}} = \frac{1}{P} \sum_{p=1}^P \frac{1}{T_p} \sum_{t=1}^{T_p} \left(d_{p,t}^2\right). \tag{2}$ 其中 $P$ 为患者总数， $T_p$ 为第 $p$ 位患者的采集时间点总数。

2.3、面向连续性的潜空间差异学习

如 图 3 (d) 所示，潜空间差异学习（LDL）通过插值在潜空间中生成未观测到的中间时间点的预测结果，并对插值得到的稠密序列施加平滑性约束，以保证语义连续性，实现时间维度的平滑过渡。

本文在潜空间中插入中间点以生成稠密序列。原始稀疏采集时间点集合由实际观测到的时间值构成，定义为： $T_{\text{acq}} = \{{t_{\text{acq},0}, t_{\text{acq},1}, \dots, t_{\text{acq},N-1}}\}$ 其中 $N$ 为原始采集时间点的数量； $t_{\text{acq},i}$ 表示第 $i$ 个原始观测的绝对时间，并按采集时间排序。对于每一对相邻的原始观测 $(t_{\text{acq},i}, t_{\text{acq},i+1})$ （ $\in [0, N-2]$ ），设 $K_i$ 为插入的中间点数量（ $K_i≥1$ ），在时间区间 $\Delta t_i = t_{\text{acq},i+1} - t_{\text{acq},i}$ 内进行均匀插值，确保中间点严格位于 $t_{\text{acq},i}$ 与 $t_{\text{acq},i+1}$ 之间。第 $i$ 对相邻点之间第 $k$ 个中间点（ $k∈[1,K_i]$ ）的时间值为： $t_{\text{mid},i,k} = t_{\text{acq},i} + \frac{k}{K_i+1} \cdot \Delta t_i$ 。稠密时间序列 $T_{dense}$ 为原始观测与所有中间点的并集，并按时间排序（差值完成的序列）： $T_{\text{dense}} = T_{\text{acq}} \cup \left( \bigcup_{i=0}^{N-2} \{{t_{\text{mid},i,1}, \dots, t_{\text{mid},i,K_i}} \}\right)$

潜空间中的稠密预测序列由所有稠密时间点的干净预测构成，既包括锚定在真实采集时间的输出，也包括在插入的中间时间由噪声生成的输出。对于每个观测到的采集点 $t_{\text{acq},i}$ ，本文从经过 $τ$ 步去噪后的对应含噪样本 $x_{τ,\text{acq},i}$ 中恢复其潜向量 $\hat{x}_{0,\text{acq},i}$ ： $\hat{x}_{0,\text{acq},i} = \frac{x_{\tau,\text{acq},i} - \sqrt{1-\bar{\alpha}_{\tau_{\text{acq},i}}} \epsilon_\theta}{\sqrt{\bar{\alpha}_{\tau_{\text{acq},i}}}}$ 。对于每个插入的中间时间点 $t_{\text{mid},j}$ ，本文在分配的时间步 $\tau_{\text{dense},j}$ 采样含噪潜量 $x_{\tau,\text{mid},j} \sim \mathcal{N}(0, I)$ ，并通过应用潜扩散模型的去噪调度得到其潜预测： $\hat{x}_{0,\text{mid},j} = p_\theta\left(x_{\tau,\text{mid},j}, \tau_{\text{dense},j}\right)$ ，其中 $p_θ$ 表示将含噪潜量映射为预测潜向量的标准推理去噪过程。因此，最终的稠密潜预测序列构造为：
$\hat{X}_{\text{dense}}[j] = \begin{cases} \hat{x}_{0,\text{acq},i}, & t_{\text{dense},j} = t_{\text{acq},i}, \\ \hat{x}_{0,\text{mid},j}, & t_{\text{dense},j} \text{ is intermediate.} \end{cases}$

稠密平滑约束通过二阶中心差分法，将时间维度上的突变方差限制为零，以实现时间平滑性。对 $T_{\text{dense}}$ 去重以消除可能的重复时间点后，得到有序时间序列 $T_{\text{sort}} = \{t_0, t_1, \dots, t_{T-1}\}$ （ $T \leq M$ ，其中 $t_k$ 为以秒为单位的时间值），以及对应的模型输出 $y_{\text{sort}} = \{y^0_{\text{sort}}, y^1_{\text{sort}}, \dots, y^{T-1}_{\text{sort}}\}$ （其中 $y^k_{\text{sort}} \in \mathbb{R}^{1 \times c \times h \times w}$ 为 $t_k$ 时刻的模型输出）。对于每个点 $k \in [1, T - 2]$ ，离散时间点间的稠密平滑约束通过中心差分方程推导（详见补充材料），其定义为：
$\mathbf{D}_2^k = 2 \cdot \left( \frac{y_{\text{sort}}^{k-1}}{h_0^k \cdot (h_0^k + h_1^k)} - \frac{y_{\text{sort}}^k}{h_0^k \cdot h_1^k} + \frac{y_{\text{sort}}^{k+1}}{h_1^k \cdot (h_0^k + h_1^k)} \right) \cdot w^k, \tag{3}$ 其中 $h^k_0 = t_k - t_{k-1} + \delta$ ， $h^k_1 = t_{k+1} - t_k + \delta$ （ $\delta = 10^{-6}$ 用于避免除零）为相邻时间间隔； $w^k = \frac{1}{1+h^k_0+h^k_1}$ 为间隔权重，用于对较大间隔施加较弱惩罚，以适应不同的时间密度。最终损失为这些差分的平均值，采用 L1 范数以增强对异常值的鲁棒性，表达式为：
$\mathcal{L}_{\text{Temporal}} = \frac{1}{T-2} \sum_{k=1}^{T-2} \|\mathbf{D}_2^{(k)}\|_1. \tag{4}$

3、实验与结果

3.1、实验方案

3.1.1、数据集

（1）私有腹部 DCE-MRI 数据集（Abdominal DCE-MRI）： 该腹部数据集包含 91 例患者。每例包含 1 幅非对比图像，以及在注射对比剂后 300 秒内采集的 15 幅对比增强图像。在这些对比增强图像中，6 幅为动脉期，6 幅为静脉期，3 幅为延迟期。
（2）公开 Duke 乳腺 DCE-MRI 数据集（Breast DCE-MRI）： 该数据集包含 922 次乳腺 DCE-MRI 检查记录。注射对比剂后，采集 3 或 4 个时间点的对比增强数据。遵循文献[57]的做法，裁剪出包含病灶区域的切片，并将肿瘤边界框的宽度和高度扩展至全图宽度和高度的一半。

两个数据集均被缩放到 $256 \times 256$ ，归一化到 $[- 1, 1]$ ，然后堆叠为 3 个通道作为图像输入。

3.1.2、评价指标

（1）空间维度：PSNR、SSIM、LPIPS、rMSE；
（2）时间维度：连续 SSIM（cSSIM）
$\text{cSSIM} = \frac{1}{N-1} \sum_{t=1}^{N-1} \text{SSIM}(I_t, I_{t+1})$

3.1.3、实验设置

在这里插入图片描述

3.2、对比分析

3.2.1、定量结果分析

Table 1 | 定量结果：腹部与乳腺动态增强磁共振（DCE-MRI）数据集上不同方法的定量对比展示了本文的方法取得了最优性能；定量消融实验验证了提出的潜空间对齐学习（LAL）与潜空间差异学习（LDL）的有效性。“Avg.SSIM” 与 “Avg.cSSIM” 分别表示两个数据集在空间结构相似性（SSIM）与时间连续结构相似性（cSSIM）指标上的平均得分；

在这里插入图片描述

3.2.2、可视化结果

Figure 4 | 腹部 DCE-MRI 可视化结果：本文的方法在不同时间点的可视化结果相比对比方法（绿色框连接区域）展现出更优的空间真实性（蓝色框放大区域）与时间连续性，而其他方法均出现了偏离真实动力学的情况，或缺乏动态一致性；

在这里插入图片描述

Figure 5 | 乳腺 DCE-MRI 可视化结果：可视化结果实现了与造影剂动力学一致的时间连续性（绿色框连接区域），在乳腺 DCE-MRI 序列生成中展现出优异的保真度；

在这里插入图片描述

3.3、消融实验与超参数分析

在动脉期（1-15秒）、静脉期（55-72秒）和延迟期（90-300秒）三个临床关键时相上，本文提出的 MRI CEKWorld 方法生成的灰度值曲线最符合生理规律：动脉期稳定上升（反映对比剂快速填充），静脉期平滑过渡（先升后降，反映间质积累与廓清），延迟期先平稳后缓慢衰减（反映对比剂逐渐清除）。而 CCNet、EditAR 等对比方法在各时相均出现明显的突变波动，表明本文方法在建模对比剂动力学方面具有显著优势。

Figure 6 | 造影剂动力学时间曲线：(a) 动脉期、(b) 静脉期及 (c ) 延迟期的曲线较对比方法呈现更稳定的平滑特征；

在这里插入图片描述

如 图 7 (a) 所示， $λ_\text{Spatial}$ 的变化在 SSIM 与 PSNR 指标上呈现先升后降的趋势。 $λ_\text{Spatial}$ 决定了潜空间对齐学习（LAL）的空间正则化强度：
（1）当 $λ_\text{Spatial}$ 过小时，距离一致性的约束较弱，生成结果会偏离统计模板，空间结构一致性不足；
（2）当 $λ_\text{Spatial}$ 取值适中（取 6）时，约束强度在 “贴合模板” 与 “保留特征多样性” 之间达到平衡，生成结果兼具结构一致性与动态合理性；
（3）当 $λ_\text{Spatial}$ 过大时，约束会强制特征完全贴合模板，刚性压制了时间点间本应存在的合理特征差异，导致生成序列的动态多样性丧失，指标随之下降；

如 图 7 (b) 所示，衡量时间连续性的 cSSIM 指标随 $K_i$ 的变化同样呈现先升后降的趋势：
（1）随着 $K_i$ 增大，新增的中间采样点恰好填补了稀疏时间序列的间隙，为模型提供了更精细的时间演化中间状态，使其能更准确地学习造影剂动力学的连续变化规律，时间连续性显著提升；
（2）但当 $K_i$ 超过 2 后，过多的中间采样点并非来源于真实数据分布，而是引入了偏离真实模式的噪声，这会干扰模型对真实时间特征的学习，导致 cSSIM 等时间连续性指标下降；

Figure 7 | 超参数分析：对 $λ_\text{Spatial}$ 与 $K_i$ 的分析呈现出先上升后下降的趋势：(a) PSNR 与 SSIM 指标：在允许更多动态多样性时指标提升，而对动态过度抑制时指标下降；(b) cSSIM 指标：在填补时间间隙时指标提升，而因噪声涌入时指标下降；

在这里插入图片描述

通过主成分分析将 ControlNet 在反向过程中从潜在空间获得的潜在空间向量压缩到低维空间，并根据对应时间进行着色（颜色越浅、越偏黄，表示时间值越大），如 图 8 所示，通过潜在空间特征分布的可视化分析，本文提出的 MRI CEK-World 模型相比基线方法具有以下优势：
（1）连续性与一致性： 生成序列的潜在特征在低维空间中呈现连续且一致的分布，不同时间点特征聚类明显，表明空间一致性与时间连续性得到有效保持；
（2）平滑时间演化： 随时间从浅到深的颜色渐变反映了特征在时间维度上的平滑过渡，符合对比剂动力学的连续变化规律；
（3）边界点限制： $t = 0$ 和 $t = 1$ 时刻的特征点因中心差分公式的边界效应而未受约束，在图中表现为离群点，这属于方法本身的合理局限；

Figure 8 | 潜在空间中的分布：潜在空间中特征点的分布表明，连续时间点的生成结果遵循时间连续性与空间一致性；
在这里插入图片描述

无造影剂已经干到动态变化了(●’◡’●)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenClaw Browser：浏览器控制入门

AtomGit开源社区

最新PPOCRv5模型训练教程。文字检测+文字识别（自用）

最新的ppocrv5模型训练过程，搭配上一个环境配置的文章使用。训练之前我已经用paddlelabel标注好了五百多张图片，我训练模型是为了识别书脊的文字。

AtomGit开源社区

Linux 网络虚拟化深度解析：从 veth 设备对到容器网络实战

veth（Virtual Ethernet）设备对，可以理解为软件模拟的一对 "虚拟网卡"，它们总是成对出现，就像用一根虚拟的 "网线" 把两个网络接口连在一起。物理世界类比：想象两台电脑，用一根网线直连它们的网卡，数据就能互相传输。虚拟世界实现：veth pair 就是软件实现的这种 "直连网线"，一端叫 veth0，另一端叫 veth1，数据从 veth0 发出，必然从 veth1 收到，反之