【TMI 2025】破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码

cskywit

345人浏览 · 2026-03-18 09:04:26

cskywit · 2026-03-18 09:04:26 发布

【TMI 2025破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码

近年来，随着掩码自编码器（MAE）和对比学习（CLIP）的兴起，视觉基础模型在自然图像领域取得了令人瞩目的成就。然而，当这些模型被直接迁移到医学图像分析时，往往遭遇水土不服。

发布在医学图像分析顶刊IEEE Transactions on Medical Imaging的一篇题为《Improving Representation of High-frequency Components for Medical Visual Foundation Models》的研究，精准定位了当前医学基础模型的缺陷——对低频全局信息的过度依赖，以及对高频细粒度特征的表征缺失。作者据此提出了一种名为 Frepa (Frequency-advanced Representation Autoencoder) 的全新预训练范式。

本文将结合论文原稿与开源代码，从底层数学直觉与工程实现的双重视角，为您深度硬核拆解这项工作。本论文代码开源：https://github.com/Arturia-Pendragon-Iris/Frepa

一、动机确立：直击基础模型的“高频盲区”

医学图像的诊断极度依赖于高频和细粒度信息（如微小的视网膜血管、早期肺结节的边缘毛刺）。然而，主流的基础模型在预训练时，往往倾向于捕捉容易学习的低频信息（如器官大体轮廓和平滑背景）。

论文在 图 1 (Fig. 1) 中，通过极其巧妙的实验设计揭开了这一问题：

定量揭示 (Fig. 1a)： 作者对测试集图像施加了尺寸不断增加的高通滤波器（滤除低频，仅保留高频边缘）。结果显示，随着低频信息的剥离，MAE、CLIP 以及专为医学分割微调的 MedSAM，其分类准确率出现了断崖式的急剧下降。这证明了现有模型在高频特征提取上的孱弱。
定性灾难 (Fig. 1b)： 在视网膜血管等精细分割任务中，MedSAM 输出的血管掩膜呈现出严重的碎片化和断裂。相比之下，本文提出的 Frepa 模型却能精准重构极其细微的末端血管分支，展现出对高频细节的强大掌控力。

二、 Frepa 架构全景

不愧是顶刊论文，无论插图还是实验都做得非常到位，下面先重点解读一下这个最核心的结构图。

图 2(a)：核心Pretraining Pipeline

这部分展示了模型在预训练阶段是如何“折磨”输入图像，并强迫网络学习高频特征的。整个流程是一套高度复杂的**“双重掩码 + 联合重构”**机制。两种并行的“图像破坏”策略 (50% 概率随机切换) ：

上半路：直方图均衡掩码 (Histogram-equalized masking) 。传统的做法 (如 MAE)：把图像切成 Patch，随机丢弃一部分（或者全填成黑色/0）。这种做法会严重破坏图像的全局像素直方图分布（见论文图 3），而且很难用在 CNN 上。Frepa 是选中70%的 Patch 后，不是丢弃它们，而是用具有相同直方图分布（即均值和方差相同）的随机噪声替换它们。这样既破坏了局部语义，又维持了图像整体的统计学特征。

下半路：频域双组件掩码 (Frequency dual-component masking) 。这是本文的最大亮点。图像首先通过快速傅里叶变换 (FFT) 进入频率域。随机遮挡大量的高频区域。在低频区域（中心）注入均值为 0 的高斯噪声。这样极大地破坏模型最容易依赖的低频信息，强迫模型利用残存的高频碎片去反推整张图像。

编码与重构 (Encoder & Decoder)

被破坏的图像被送入图像编码器，这里图上有一个隐藏的细节（结合正文公式 6），为了防止高频特征完全丢失，原始图像的高频边缘（通过 Hessian 滤波器提取）会在通道维度上与破坏后的图像拼接在一起送入网络。提取出的图像嵌入 (Image embedding) 随后送入解码器 (Image decoder) 尝试恢复原图。

损失函数的“三管齐下” (图上方的火焰图标与虚线)

$LRMSE\mathcal{L}_{RMSE}$ (均方根误差)： 保证基础的像素级重构。 $LGrad\mathcal{L}_{Grad}$ (梯度损失)： 强迫重构图像和原图在边缘和结构梯度上保持一致。 $λ2LHFL\lambda_{2}\mathcal{L}_{HFL}$ (层次化空频损失)： 图中展示了 5 个由小到大的同心圆滤波器图标（代表 5 个不同截止频率的指数高通滤波器），将图像过滤后在空间域计算 L1 误差，极度强化了微小细节的重构。

对抗/一致性训练 (Adversarial training)

图中下方的绿色/黄色方块展示了这一步。同一张图像使用两种不同的随机掩码策略 $(m1,δ1)(m_1, \delta_1)$ 和 $(m2,δ2)(m_2, \delta_2)$ 得到两张不同的破坏图，模型要求这两个分支提取出的特征向量（Image embedding）之间的 JS 散度（ $LCon\mathcal{L}_{Con}$ ）尽可能小。这保证了表征的鲁棒性。

图 2(b)：频域掩码

这部分 (右上角) 解释了下半路频域掩码中概率是如何计算的。频域图的中心是低频，外围是高频。 $d_{ij}$ 代表某个 Patch 距离频域中心的距离。图中展示了一个从中心（深色/0.0）到外围（亮色/1.0）渐变的热力图。这对应了公式 (2) $pij=1−exp(−dij2dc2)p_{ij}=1-exp(-\frac{d_{ij}^{2}}{d_{c}^{2}})$ 。越靠近中心（低频），被遮挡的概率越低；越靠近外围（高频），被遮挡的概率极速上升。这就是为什么它被称为“Progressive masking strategy (渐进式掩码)” 。

图 2©：从 2D 到 3D 模态的扩展 (Extending to 3D Volume)

这部分展示了 Frepa 非常强大的工程泛化能力：如何把训练好的 2D 编码器，不经过重新预训练 (Zero-shot)，直接应用到 3D 医疗数据（如 CT/MRI 序列）上。带雪花图标代表参数被冻结。3D 序列被拆分成一张张 2D 切片，每张切片独立通过 2D 编码器，提取出序列特征图 (Image sequence embedding) 。加上帧内位置编码 $p_{intra}$ ，模型先学习单张切片内部的空间关系。加上帧间位置编码 $p_{inter}$ ，模型接着学习切片与切片之间的 Z 轴上下文关系（比如结节在上下切片中的连续性）。最后将融合了 3D 时空信息的特征送入不同的任务头，执行 3D 肿瘤分割 (Segmentation)、疾病分类 (Classification) 或病灶检测 (Detection) 。

三、“双重掩码”机制

为强迫模型学习高频特征，Frepa 提出了一套高度复杂的“双重掩码 + 联合重构”管线（见上面 图 2 (Fig. 2) 架构图）。输入图像会以 50% 的概率随机进入两种不同的“破坏”策略，这里在上面的基础上再详细解释。

1. 直方图均衡掩码 (Histogram-equalized masking)

传统的 MAE 会将图像切分为 Patch 并直接丢弃（或置零）。但 Frepa 采用了一种保留统计特性的策略。

底层代码分析： 论文称使用了与原 Patch 具有相同直方图分布的噪声进行替换。在实际的开源代码 (utils.py) 中，作者采用了一个极其高效的工程近似：首先计算出被选中 Patch 在 RGB 三个通道上的均值 (mu) 和标准差 (sigma)，随后直接使用 Numpy 的正态分布函数 np.random.normal(loc=mu, scale=sigma) 生成一块全新的高斯噪声来替换原位置。
图 3 (Fig. 3) 的降维打击： 论文图 3 对比了不同掩码策略的像素直方图分布。MAE 的直接置零法会在像素值为 0 处产生一个极其夸张的巨大尖峰，彻底破坏了医学图像原本的物理灰度分布，导致网络容易学习到“识别黑块”的捷径。而 Frepa 的高斯噪声替换法，其破坏后的直方图曲线与原始图像几乎完美重合。模型无法再走捷径，必须依靠周围的纹理去推断马赛克下的高频细节。

2. 频域双组件掩码 (Frequency dual-component masking)

该策略在频率域对图像进行极致的破坏：遮挡高频区域，并在低频区域注入扰动，迫使模型利用残存的高频碎片反推全图。

中心定位与衰减控制： 在代码中，图像经过 np.fft.fft2 变换后，紧接着使用了 fftshift 将零频分量（DC分量，代表整体亮度）强制移动到矩阵的正中心（坐标 256, 256）。低频扰动并非硬性覆盖，而是基于公式 $1-exp(-d_{ij}^2 / d_c^2)$ 生成了一个中心扰动最强、向外围指数级平滑衰减的二维高斯曲面掩码。
隐秘的工程技巧： 在源码中存在一行极其不起眼但至关重要的代码：disturb[:, 256, 256] = 0。作者强制将最中心点的扰动噪声清零。这是因为如果改变了 DC 分量，逆变换回来的图像整体亮度会发生剧烈闪烁。这一神来之笔完美保证了扰动只破坏低频结构，而绝对不改变图像的整体亮度均值（这同样在图 3 的直方图重合度中得到了印证）。

三、损失函数设计：规避频域过拟合的“曲线救国”

为了指导高频细节的重构，论文引入了层次化空频损失 (HFL, Hierarchical frequency-to-spatial loss)。在此之前，学界常用的方法是焦点频率损失 (FFL)，即直接在频率谱上计算误差。

图 4 (Fig. 4) 的反面示例： 论文图 4 直观展示了传统 FFL 的灾难性后果。直接在频率域施加对齐约束，极易导致模型在频率域发生过拟合，重构出的图像出现了严重的水波纹状扭曲和网格状失真（即振铃伪影，Aliasing artifacts）。
HFL 的空间域解法： HFL 采用了一套精妙的转化策略。它利用 5 个不同截止频率的指数高通滤波器，在频率域把预测图和真实图的低频统统挖掉；随后通过逆傅里叶变换 (IFFT)，将过滤后的信号变回空间域（此时图像只剩下边缘和噪点的“素描轮廓”）；最后，在这两张空间域的“素描图”上逐像素计算 L1 绝对误差。这完美避开了频域直接限制带来的伪影副作用。
参数设定的学术包装与工程现实： 论文中声称这 5 个高通滤波器的截断距离为图像短边的 ${0.1, 0.2, 0.3, 0.4, 0.5\}$ 倍，构建了一个尺度不变的优美数学比例。但深挖开源代码 losses.py 会发现，实际代码传递给滤波器的截止距离 d0 是一组绝对像素值（10, 20, 30, 40, 50）。这揭示了深度学习研究中常见的现象：这组数值本质上来源于实验中对超参数（Hyperparameter）的随手调试，而论文中的相对比例描述，是为了增强方法的普适性和学术严谨性所作的事后重构。

四、重构能力的终极视觉验证

论文在涵盖 1700 万张图像、9 种模态的庞大数据集上进行了预训练，并在 32 个下游任务中展现出了优异的泛化性能。其卓越的高频捕获能力在 图 5 (Fig. 5) 的定性重构结果中体现得淋漓尽致。

图 5 采用了“空间视觉 + 频率频谱 + RMSE 误差”三位一体的展示方式：

对比 MAE： 面对随机掩蔽，MAE 的重构图像极其模糊，其频率谱能量死死收缩在中心（仅有低频）；而 Frepa 重构的血管边缘锐利，频率谱中代表高频的十字星芒清晰可见，能量有效向外围扩散。
极限鲁棒性测试： 图 5 右半部分展示了应对“低通滤波模糊”时的重构表现。作者强调，这种模糊退化模式在 Frepa 的预训练阶段是“从未见过的 (Zero-shot corruption)”。即便如此，Frepa 依然成功“推断”并补全了丢失的高频纹理。这证明了模型并非死记硬背某种特定的掩码规则，而是真正内化了医学图像底层的高频纹理生成先验。

五、小结

这篇论文敏锐地捕捉到了医学基础模型领域的核心痛点。它通过数学直觉与底层信号处理逻辑（FFT、频域掩码、空间域高频过滤）的深度结合，构建了一套逻辑自洽且行之有效的预训练框架。

尽管在开源代码的核对中，我发现了一些诸如超参数对齐差异、以及辅助损失项的实现偏差，但这并不掩盖其“通过频域操作强化高频表征”这一核心思路的巨大启发意义。对于旨在提升微小病灶检测和精细结构分割能力的医疗 AI 开发者而言，该框架提供了一条极具价值的破局之道。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.4构建电商数据分析的核心能力模型

电商数据分析的核心能力模型遵循60/30/10原则：60%业务思维（需求拆解、指标体系建设、问题归因等），30%工具技能（Excel/SQL为主，Python/BI为辅），10%统计基础（描述统计、对比分析等）。业务思维决定分析方向是否正确，工具技能影响执行效率，统计基础避免错误结论。重点在于：1）沉浸业务场景理解运营逻辑；2）工具学到"够用"程度即可；3）掌握基础统计方法而非

AtomGit开源社区

Linux第一周作业：1、Linux安装过程 2、基础命令的用法 3、文件系统的基本原理和常用命令

【1】基础环境准备：- 虚拟机软件：VMware Workstaion Pro（Windows用）、VMware Fusion Pro（Mac用）- Linux OS镜像文件（注意Windows下载 amd64 架构的，Mac下载aarch64架构或 arm64 架构）- Ubuntu- Rocky- Openelur- MobaXterm软件（给Windows方便SSH用的）【2】安装虚拟机软件

AtomGit开源社区

跟网型逆变器小干扰稳定性分析与控制策略优化研究（Simulink仿真实现）

弱电网因其高阻抗和低短路比特性，常导致系统不稳定，限制了功率传输。本研究通过仿真，建立了弱电网条件下跟网型逆变器的小信号扰动模型，包括状态空间模型和阻抗模型。我们提出了一种计算稳态工作点的新方法，并利用状态空间矩阵特征值分析，对系统稳定性进行了深入评估，确定了稳定性界限。为直观比较不同控制策略的效果，我们利用Simulink构建了仿真模型，包括传统控制策略模型和采用双锁相环阻抗重塑的优化控制策略模