【26CVPR - MedCLIPSeg】_ 当医学影像学会“阅读理解”：MedCLIPSeg如何用文本指令精准定位病灶？

Lsk_Smion

562人浏览 · 2026-04-27 10:12:44

Lsk_Smion · 2026-04-27 10:12:44 发布

论文信息

论文链接 - MedCLIPSeg: Probabilistic Vision–Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation
代码仓库

零、摘要

1. 背景与痛点 (Background & Challenges)

现状： 医学图像分割面临三大难题：标注数据稀缺、解剖结构模糊以及不同设备/医院导致的域偏移。
机遇： 虽然 CLIP 等视觉-语言模型很强，但在医学图像这种需要精细像素级预测（密集分割）的任务中，潜力还没被完全挖掘出来。

2. 核心方法 (Proposed Method)

提出框架： MedCLIPSeg —— 一个基于 CLIP 改进的框架。
关键创新：
- 利用概率性跨模态注意力来处理图像块特征。
- 实现图像和文本特征的双向交互。
- 显式建模不确定性（让模型知道自己哪里“拿不准”）。

3. 优化策略 (Optimization Strategy)

损失函数： 引入了软图块级对比损失。
目的： 让模型能理解多样化的文本提示，学习更细腻的语义，从而提升数据效率和泛化能力。

4. 实验与结论 (Experiments & Conclusion)

验证规模： 在 16个数据集、5种模态、6种器官上进行了广泛测试。
结果： 准确率、效率和鲁棒性都超过了现有方法。
亮点： 能提供可解释的不确定性图谱，直观告诉医生哪些区域不可靠。

专有名词解释

这里列出了摘要中出现的关键术语，按类别整理：

A. 模型与架构

Vision-Language Models (VLMs)：视觉-语言模型。能同时理解图片和文字的AI（比如CLIP），通过对比学习把图文对应起来。
CLIP：对比语言-图像预训练模型。OpenAI开发的强力基础模型，本文是把它作为底座进行改造。
MedCLIPSeg：本文提出的模型名。即 Medical CLIP Segmentation 的缩写，专门用来做医学图像分割。

B. 技术细节

Patch-level Embeddings：图块级嵌入。Transformer类模型不看整张图，而是把图切成一个个小方块（Patch）来提取特征，这叫图块级嵌入。
Probabilistic Cross-modal Attention：概率性跨模态注意力。传统的注意力机制输出一个确定的值，而这个机制输出的是一个概率分布（包含均值和方差），能让模型感知到特征的不确定性。
Bidirectional Interaction：双向交互。指图像特征和文本特征互相“交流”、互相增强，而不是单向的文字指挥图片。
Soft Patch-level Contrastive Loss：软图块级对比损失。一种训练技巧。“软”指的是使用软标签（比如0.8的相似度）而不是硬标签（0或1），这样能让模型处理更复杂的语义关系。

C. 性能指标

Data Efficiency：数据效率。指模型很“省数据”，只用少量样本就能训练得很好（这对医学领域很重要，因为标注太贵了）。
Domain Generalizability：域泛化能力。指模型“见多识广”，换个医院、换个设备拍片子，它依然能认得准，不会因为环境变了就失效。
Uncertainty Maps：不确定性图谱。模型输出的一张“热力图”，颜色深的地方表示模型觉得这里很难判断，提醒医生重点检查。

一、引言

1. 现状与挑战 (The Challenge)

医学图像分割至关重要，但面临三大核心障碍：

数据标注难： 专家标注昂贵且不一致。
边界模糊： 病灶和器官的边界不清晰，难以精确划分。
域偏移问题： 模型在不同医院或设备的数据上表现不佳。

这些挑战催生了业界对数据高效、不确定性感知、跨域泛化能力强的新型分割系统的需求。

2. 现有方案的局限 (Limitations of Existing Methods)

主流方法： 以 U-Net 为代表的 CNN/ViT 模型虽然成功，但它们依赖大量像素级标注，并且是确定性（deterministic）模型。
核心缺陷： 这些模型普遍存在“过度自信”的问题，尤其在面对模糊边界或陌生数据时，会给出错误的结果却不提供任何预警。它们无法处理特征中的模糊性和内在矛盾。

3. 新思路与机遇 (A New Paradigm with VLMs)

潜力股： 视觉-语言模型（VLMs）如 CLIP，通过图文对齐，为解决上述问题提供了新范式。它能用更易获取的文本描述来辅助训练，实现数据高效和用户交互。
待解决问题： 尽管有潜力，但通用 VLMs 在医学领域的精细定位能力较弱，且同样存在确定性模型的“过度自信”缺陷。如何让其具备不确定性感知能力是关键。

4. 本文方案与贡献 (Our Solution: MedCLIPSeg)

提出框架： 我们提出了 MedCLIPSeg，一个通过概率性、双向融合来适配 CLIP 的文本驱动分割框架。
核心机制：
- PVL 适配器： 在 CLIP 深层网络中引入概率性视觉-语言适配器，学习基于置信度的注意力。
- 不确定性建模： 通过对注意力中的键（Keys）和值（Values）进行概率建模，分别捕捉偶然不确定性和认知不确定性，并生成像素级不确定性图谱。
- 保持效率： 保留 CLIP 预训练参数，并引入软对比损失，确保在少样本下的高效学习。
主要贡献：
1. 双向融合： 增强数据效率和鲁棒性。
2. 概率性注意力： 提升准确性和泛化能力。
3. 不确定性图谱： 提供临床可解释的可靠性可视化。
4. 全面评估： 在多模态、多器官数据集上验证了优越性。

专有名词解释

A. 核心问题类

专有名词	缩写	解释
Domain Shift	-	域偏移。指模型训练数据和实际应用数据的分布不一致。例如，用A医院的CT数据训练的模型，在B医院的CT数据上效果变差。
Over-confident	-	过度自信。指AI模型即使在预测错误或不确定的情况下，也给出很高的置信度分数。这是医疗AI中的一个严重安全隐患。
Partial-volume Effects	-	部分容积效应。医学成像中的一个现象，当一个体素（3D像素）内包含多种不同组织时，其信号强度是这些组织的混合平均值，导致边界模糊。

B. 技术方法类

专有名词	缩写	解释
Deterministic Models	-	确定性模型。给定一个输入，模型总是输出唯一、固定的结果。传统的U-Net就是这类，它无法表达“我不确定”。
Probabilistic Modeling	-	概率性建模。将模型的某些部分（如此处的注意力键和值）看作概率分布而非固定值。这使得模型能够量化和表达自身的不确定性。
Variational Modeling	-	变分建模。一种用于近似复杂概率分布的数学方法。文中用它来估计注意力中“键”的分布。
Aleatoric Uncertainty	-	偶然不确定性。源于数据本身的噪声或固有模糊性（如模糊的病灶边界），这种不确定性无法通过增加数据来消除。
Epistemic Uncertainty	-	认知不确定性。源于模型自身的知识局限，比如遇到了训练时没见过的数据类型（域外数据）。这种不确定性可以通过收集更多样化的数据来降低。
Inductive Biases	-	归纳偏置。模型为了解决问题而预先做出的假设。例如，CNN的归纳偏置是“局部相关性”，即相邻的像素更可能相关。

C. 模型与组件类

专有名词	缩写	解释
Vision-Language Models	VLMs	视觉-语言模型。能同时理解和关联图像与文本信息的AI模型，CLIP是其杰出代表。
PVL Adapter	PVL	概率性视觉-语言适配器。本文提出的核心模块，像一个“插件”一样插入CLIP中，使其具备概率性处理和双向交互的能力。
Monte Carlo Sampling	-	蒙特卡洛采样。一种通过多次随机抽样来估算结果的计算方法。文中通过对概率分布进行多次采样，来生成最终的平均分割结果和不确定性图谱。

Figure 1 _ 直观的对比和实验数据

第一部分：核心机制对比（顶部示意图）

这部分通过左右两个流程图的对比，直观地展示了“确定性方法”（传统做法）与“概率性方法”（本文提出的 MedCLIPSeg）的本质区别。

左侧：确定性跨模态交互

流程：图像和文本分别进入编码器，提取出特征后直接进行交互（那个黑色的连接点），最后输出一个分割结果（白色的掩码）。
问题：
- 缺乏反馈：你看那个图像编码器出来的箭头是单向的，文本也是单向的，它们之间没有深层的互相修正。
- 过度自信：虽然输出了分割结果，但模型并不知道自己对哪里“拿不准”。如果遇到模糊的边界，它可能会瞎猜一个结果，而且信誓旦旦地告诉你“我很确定”。
- 标签：上方标注了“Robustness（鲁棒性）”和“Reliability（可靠性）”都是哭脸，暗示这种传统方法在这两方面表现不佳。

右侧：概率性跨模态交互（MedCLIPSeg）

流程：
- 双向交互：注意看中间的双向箭头，图像和文本特征在深层是互相融合的，文本在指导图像，图像也在修正文本理解。
- 概率建模：最关键的区别在于那个钟形曲线（高斯分布图标）。这意味着模型不再把特征看作一个死板的点，而是看作一个分布。它计算特征的“均值”来生成分割结果，同时计算“熵（Entropy）”来生成不确定性图。
- 输出：除了分割结果，它还多输出了一个彩色的图，这就是不确定性图谱。颜色越深（或越亮）的地方，代表模型越犹豫。
优势：上方标注了“Robustness”和“Reliability”都是笑脸。这意味着这种方法更稳健，且结果更值得信赖，因为它能告诉你：“这里我分得不太清，请医生重点看一下。”

第二部分：定量实验验证（底部柱状图）

这部分用真实数据证明了上面的理论优势。

左图：域偏移下的鲁棒性

指标：Performance Drop（性能下降幅度）。这个柱子越短越好，意味着换了不同的数据环境（比如换了医院或设备），模型性能掉得越少，说明它越稳健。
对比：
- 灰色的柱子是其他 SOTA（最先进）的方法，如 LViT, CLIPSeg, SAN 等。它们的性能下降幅度都在 11.5 到 18.3 之间。
- 深蓝色的柱子是本文的 MedCLIPSeg，它的数值是 10.0，明显最短。
结论：在面对陌生数据环境时，MedCLIPSeg 的性能下降最少，证明了它极强的泛化能力和鲁棒性。

右图：可靠性表现

指标：Brier Score（布里尔分数）。这是一个衡量概率预测准确性的指标，简单来说，分数越低，代表模型的预测越准，且置信度越靠谱（即：懂就是懂，不懂就是不懂，不会瞎自信）。
对比：
- 图表展示了三种情况：ID（训练过的数据）、OOD（没见过的陌生数据）、HM（调和平均）。
- 在每一组中，红色柱子（Probabilistic，即本文方法）都远远低于灰色柱子（Deterministic，即确定性方法）。
- 例如在 OOD（陌生数据）场景下，传统方法分数高达 25.3，而本文方法仅为 11.8。
结论：无论是在熟悉还是陌生的环境中，MedCLIPSeg 的预测都更加“靠谱”，它极好地解决了模型“盲目自信”的问题。

总结

这张图的核心逻辑是：

原理上：我们将“死板”的特征变成了“灵活”的概率分布，并增加了双向交流。
结果上：这让模型在面对陌生环境时更抗造（鲁棒性高），在面对模糊情况时更诚实（可靠性高，有不确定性提示）。

二、相关工作

1. 医学图像分割的演变

起步（CNN时代）： 以 U-Net 为核心，通过跳跃连接（skip connections）和变体（如 UNet++、nnUNet）建立了基础。
进阶（ViT时代）： 引入 视觉Transformer 捕捉长距离依赖，出现了 TransUNet、Swin-UNet 等混合架构，性能更强。
痛点： 纯视觉模型过于依赖图像的“长相”（低级特征），一旦换了医院或设备（域偏移），性能就容易崩盘。因此，需要引入“语义先验”（即语言信息）来增强泛化能力。

2. 视觉-语言模型的崛起与适配

通用与专用模型： CLIP 证明了图文对齐的强大能力，随后 BiomedCLIP 等模型将其迁移到医学领域。
微调技术： 为了让大模型适应医学任务，出现了 提示微调（如 CoOp）和 低秩适配（如 LoRA）等高效方法。
进阶方向： 最近开始尝试 概率性微调（如 ProbVLM）来处理图文之间的一对多映射问题，提升可靠性。
痛点： 大多数医学 VLM 还在做分类或检索，真正做像素级分割的还很少，且对解剖细节的捕捉还不够。

3. 基于提示的分割与本文定位

自然图像领域： CLIPSeg 和 Segment Anything Model 是代表。前者用文本驱动分割，后者用点/框驱动分割（SAM 虽然强，但不懂自然语言）。
医学领域的尝试：
- LViT / MedSAM：尝试结合文本或几何提示，但往往需要复杂的中间层干预。
- 少样本分割：如 UniverSeg，利用少量样本进行分割。
- 现有缺陷：直接套用 CLIPSeg 效果不好（Poudel et al. 指出），现有的适配方法（如 VLSM-Adapter）在跨域泛化上依然有短板。
本文定位： 不同于上述方法，本文在保留 CLIP 预训练参数的前提下，引入概率性、双向的图文融合，专门解决医学分割的鲁棒性和临床可靠性问题。

专有名词解释

A. 核心架构与模型

U-Net / CNN： 医学图像分割的“祖师爷”。利用卷积神经网络提取特征，U-Net 特有的跳跃连接能很好地保留图像细节。
ViT / TransUNet： 引入 Transformer 机制的分割模型。相比 CNN，它们更擅长理解图像的全局结构（比如器官的整体形状）。
CLIP / BiomedCLIP： 视觉-语言预训练模型。CLIP 是通用版，BiomedCLIP 是专门在医学文献和图片上训练过的“医学特供版”，更懂医学术语。
SAM： 一个强大的通用分割模型，但它主要通过点、框来交互，不像 CLIP 那样能直接听懂“肝脏肿瘤”这样的文字指令。

B. 关键技术术语

域偏移： 模型在 A 医院的数据上训练，拿到 B 医院的数据上效果变差。这是医学 AI 最大的痛点之一。
参数高效微调： 大模型太大，全量微调太贵。这种方法只训练模型的一小部分参数（比如提示词或低秩矩阵），就能让它适应新任务。
提示微调： 不改动模型主体，而是通过优化输入的“提示词”向量来引导模型输出正确结果。
概率性微调： 传统模型输出一个确定的数值，概率性模型输出一个分布（包含均值和方差），这样模型就能表达“我不确定”的态度。

C. 本文提到的具体方法

CLIPSeg： 一个经典的利用 CLIP 进行文本驱动分割的方法，本文将其作为对比基准。
UniverSeg / MultiverSeg： 少样本分割框架，旨在用极少的数据适应新任务。

三、方法

第一部分：地基——CLIP 架构的重用

这部分主要讲“我们站在巨人的肩膀上”。

核心逻辑：作者并没有重新发明轮子，而是直接使用了 CLIP 的两个编码器（视觉编码器 Ev 和文本编码器 Et ）。
图像处理：把一张图切成很多小块（Patches），加上一个特殊的 [CLS] 标记，扔进视觉 Transformer。
文本处理：把一句话（提示词）变成向量，扔进文本 Transformer，提取出 [EOS] 标记作为整句话的代表。
关键点：作者特别指出，虽然 CLIP 原本只关注全局匹配（[CLS] 对齐），但研究表明其内部的图像块（Patches）其实已经隐含了空间信息。这意味着 CLIP 天生就具备做分割（像素级任务）的潜力，只需要稍微“点拨”一下。

第二部分：核心创新——概率性视觉-语言适配器

这是论文最硬核的部分，为了解决传统模型“过度自信”的问题，作者设计了一个叫 PVL Adapter 的插件。

双向交互：传统的适配器通常是单向的，而这个插件让图像特征和文本特征在深层网络中互相“对话”（双向 Transformer），让图像更懂文本，文本更懂图像。
概率性建模（QKV 参数化）：
- 在标准的注意力机制中，特征是一个确定的数值。
- 在这里，作者把特征（Key 和 Value）变成了概率分布（高斯分布）。也就是说，模型不仅输出一个特征值（均值 μ ），还输出一个“不确定度”（方差 σ2 ）。
置信度加权注意力：
- 模型在计算注意力时，不仅看“相似度”，还要看“不确定度”。
- 如果模型觉得某个区域很模糊（方差大），它就会自动降低这个区域的权重（置信度惩罚）。这就像医生在看片子时，看不清的地方就不会轻易下结论。
残差门控：为了训练稳定，加了一个“开关”（Gate），控制原始特征和新特征的融合比例。

第三部分：任务适配与优化

这部分讲如何把处理好的特征变成最终的分割图，并教模型怎么学习。

像素-文本相似度：最后，模型拿着文本特征（比如“肿瘤”的描述）去和每一个图像块特征做点积（计算相似度）。相似度高的地方，就是分割出来的目标。
软补丁对比损失：
- 为了解决医学图像中“一个图里可能有多个器官”或者“描述不唯一”的问题，作者设计了一种新的损失函数。
- 它不是简单地让模型死记硬背（硬标签），而是通过计算图像块和文本之间的软相似度（Soft Targets），让模型学习更鲁棒的特征。

专有名词解释

为了帮你更好地理解，这里列出文中的关键术语：

基础架构类

CLIP (Contrastive Language-Image Pre-training)：一种预训练模型，通过学习大量的“图-文”对，让计算机理解图像和文字的对应关系。本文将其作为基础底座。
Transformer / Encoder：目前主流的深度学习架构，擅长处理序列数据（如文本或切分的图像块），能够捕捉长距离的依赖关系。
[CLS] Token：在输入图像序列前加的一个特殊标记，通常用来代表整张图的全局特征。
[EOS] Token：在文本序列末尾加的标记，代表“句子结束”，本文用它来代表整句话的特征。

核心算法类

PVL Adapter (Probabilistic Vision-Language Adapter)：本文提出的核心模块，用于在 CLIP 内部进行概率性的图文融合。
QKV (Query, Key, Value)：注意力机制中的三个核心概念。你可以理解为：Query 是“提问者”，Key 是“被检索的内容”，Value 是“真正要提取的信息”。
概率分布 (Probability Distribution)：不再用一个固定的数表示特征，而是用一个分布（均值和方差）来表示。这能让模型表达“我不确定”的状态。
方差 (Variance, σ2 )：统计学概念，衡量数据的离散程度。在本文中，方差大意味着模型对这个特征感到“模糊”或“不确定”。
重参数化技巧 (Reparameterization Trick)：一种数学技巧，使得包含随机采样的神经网络也能通过反向传播进行训练。

训练策略类

残差门控 (Residual Gating)：一种控制信息流动的方法，决定保留多少原始信息，加入多少新信息，防止训练初期模型不稳定。
对比损失 (Contrastive Loss)：一种训练目标，目的是拉近相似图文的距离，推远不相似图文的距离。
软标签 (Soft Targets)：相比于非黑即白的“硬标签”（是或不是），软标签提供的是概率分布（比如有 80% 可能是 A，20% 可能是 B），能让模型学习得更细腻。
Dice + BCE：医学图像分割中常用的两种损失函数的组合，用于衡量预测区域和真实区域的重叠程度及误差。

Figure 2 _ 系统架构图

第一步：原料输入（最左侧）

这里有两个入口，分别对应“看图”和“读字”：

文本入口（上方）：
- 输入：一段描述性的文字，比如图里的例子：“One medium circle-shaped irregular tumor at the top right...”（右上方有一个中等大小、形状不规则的圆形肿瘤……）。
- 处理：这段文字先经过 Word Embed（词嵌入），把字变成计算机能懂的数字向量。
- 关键符号：注意那个带星号 (*) 的红色方块，图例说明这是冻结的。这意味着文本编码器的底层参数是锁死的，直接用的预训练模型（CLIP），不重新训练，为了省钱也为了保持强大的语言理解力。
图像入口（下方）：
- 输入：一张医学影像（比如这里的乳腺超声图）。
- 处理：图片被切成一个个小块，这叫 Patch Embed（图像分块嵌入）。
- 关键符号：这里也有一个带星号 (*) 的绿色方块，说明图像编码器的底层也是冻结的。

第二步：核心加工车间（中间部分）

这是模型最“聪明”的地方，也是本文创新点 PVL Adapter 发挥作用的地方。

双塔结构：
- 上面一排紫色的方块是 Text Encoder（文本编码器）的层。
- 下面一排绿色的方块是 Image Encoder（图像编码器）的层。
PVL Adapter（橙色方块）：
- 你看那些橙色的方块插在每一层编码器的中间。这就是我们刚才说的“插件”。
- 双向箭头：注意看橙色方块之间的连线，是双向的！
  - 从上往下：文本特征告诉图像，“你要找的是肿瘤，不是血管”。
  - 从下往上：图像特征告诉文本，“这里确实有个东西，长得挺像你说的肿瘤”。
- 具体操作：在每一层，图像特征 V 和文本特征 T 都会进入 Adapter，进行我们在方法论里看到的“概率性交互”。它们互相修正，互相融合。

第三步：特征提取与融合（右侧中部）

经过层层加工，特征终于到了出口处：

文本侧：提取出 [EOS] Tokens（那个蓝色的长条）。这是整句话的精华总结，代表了“我们要找什么目标”。
图像侧：提取出 Patch Tokens（那一排绿色的小格子）。这是图片里每个小块的特征。
关键计算（点积）：
- 注意那个圆圈里有个叉 ⊗ 的符号，代表 Dot Product（点积）。
- 原理：拿文本的精华（蓝色长条）去和图像的每个小块（绿色格子）做匹配。
- 结果：匹配度高的地方，数值就大；匹配度低的地方，数值就小。这就初步形成了一张“热力图”。

第四步：成品出厂（最右侧）

最后一步是把计算结果变成我们看得懂的东西：

上采样：
- 那个 Upscale 的箭头，意思是把粗糙的热力图放大，还原成原图的大小。
- 这里用到了 Mean（均值）：因为我们在中间用了概率采样，这里取平均值作为最靠谱的预测。
双重输出：
- 分割结果：模型画出白色的区域，告诉你“肿瘤在这里”。
- 不确定性图：那个彩色的图（Entropy/熵）。
  - 原理：通过 Sampling（多次采样）计算出来的。如果模型每次猜的结果都不一样，熵就高（颜色深），说明模型“心里没底”；如果每次猜得都很一致，熵就低。这对医生非常有价值，提示医生“这块我也拿不准，你重点看看”。
损失函数监督：
- 最右边的方格阵列代表 Training Loss。
- 模型会把预测结果跟 GT Masks（Ground Truth，也就是医生画的金标准）去对比，计算误差，然后反向传播去训练那些橙色的 Adapter。

需要注意的细节

细节一：冻结与微调的博弈（图例中的星号 `*`）

观察：注意看图例，带星号的方块（Text Encoder 和 Image Encoder 的主体）是灰色的，代表冻结。只有红色的 Text Prompt Embedding 和橙色的 PVL Adapters 是实心的，代表可训练。
解读：这是一个非常典型的参数高效微调策略。
- 为什么要冻结？ CLIP 的预训练模型非常庞大，如果全部重新训练，需要海量医学数据和算力，且容易“灾难性遗忘”（忘了它在自然图像上学到的通用知识）。
- 只训什么？ 作者只训练中间插入的轻量级 PVL Adapters 和输入的提示词嵌入。这意味着模型保留了 CLIP 强大的通用特征提取能力，只通过少量参数来“微调”它适应医学领域。

细节二：双向交互的层级性（橙色方块的连接）

观察：PVL Adapters 并不是只在最后一层才让图文见面，而是在每一层（从第1层到第N-1层）都插入了适配器，并且箭头是双向的（↔）。
解读：
- 深层交互：这意味着文本语义不仅仅是在最后去“查询”图像特征，而是在特征提取的每一个阶段都在互相修正。
- 从粗到细：浅层可能对齐的是边缘、纹理等低级特征，深层对齐的是器官、病灶等高级语义。这种层层递进的融合比单纯的最后融合要精细得多。

细节三：不确定性图与均值图的并行输出（右侧输出端）

观察：在右上角，经过采样后，模型分出了两条路：
- Mean：生成了最终的分割预测图。
- Entropy：生成了一个黑白的热力图，标注为“Uncertainty”。
解读：这是本文的一大亮点——临床可靠性。
- 传统的分割网络只给一张图，医生不知道哪里是模型“猜”的。
- 这个模型通过概率建模，额外输出了熵图。颜色越深（熵越大），代表模型越“心里没底”。这在医学上至关重要，可以提醒医生：“这块区域我看不准，请你重点检查。”

细节四：损失函数的双重约束（最右侧 Loss 部分）

观察：总损失函数由两部分组成：
- 分割损失：连接着“预测图”和“GT Masks”。
- SoftCon 损失：连接着“Patch Tokens”和“Text Tokens”。
解读：
- 分割损失负责让结果画得准（像素级对齐）。
- SoftCon 损失负责让特征对得齐（语义级对齐）。
- 这就好比教学生做题：分割损失是“批改答案”，SoftCon 损失是“讲解思路”。两者结合，模型不仅答案对，而且是真的“理解”了图文关系，而不是死记硬背。

细节五：上采样模块的位置

观察：注意看 Upscale ψ 这个模块的位置。它是在图像编码器的最后一层输出（Patch Tokens）之后，而不是在融合了文本信息之后直接做。
解读：这暗示了特征融合的方式。图像的高维特征（ Zv ）提取出来后，通过 ψ 还原回图像分辨率，然后才与文本特征（ t~ ）进行点积运算得到最终的分割掩码。这是一种解耦的设计，保证了视觉特征的完整性，同时也让文本引导更加直接。

总结来说，这张图的精髓在于：用最小的代价（冻结主干+轻量适配器），换取了最大的收益（细粒度跨模态对齐+不确定性量化）。

总结

这张图展示了一个“借鸡生蛋”的过程：

借鸡：借用了强大的 CLIP 模型（冻结的编码器等）。
生蛋：在中间插入了轻量级的 PVL Adapter（橙色部分）进行微调。
结果：不仅输出了分割图，还额外输出了不确定性图，实现了既准又稳的医学图像分割。

Figure 3 _ PVL Adapter

如果说上一张图是“工厂全景”，这张图就是“核心机器内部构造图”。它详细展示了图像特征（V）和文本特征（T）到底是怎么在微观层面进行“深度融合”和“概率计算”的。

我们按照数据流动的顺序，分三个步骤来拆解这个黑盒子：

第一步：降维压缩（Downward Projection）

看图左侧：
- 输入是大写的 V（视觉特征）和 T （文本特征）。
- 它们分别经过了 Wv 和 Wt 这两个矩阵。
技术含义：
- 这是一个降维操作。CLIP 原始的特征维度很高（比如 512 或 768 维），直接计算非常费资源。
- 作者先把它们投影到一个低维空间（ Ds ），就像把高清视频压缩成流畅版再处理，既保留了核心信息，又大大减少了计算量。
- 输出变成了小写的 v 和 t，这就是压缩后的特征。

第二步：双向概率交互（Bidirectional Interaction）

看图中间：
- 这里有两个紫色的方块，代表两个 AttnPVL（概率注意力模块）。
- 注意箭头的方向：
  - 左边的紫色块：Query 是 t （文本），Context 是 v （图像）。意思是：文本去查询图像（“肿瘤在哪里？”）。
  - 右边的紫色块：Query 是 v （图像），Context 是 t （文本）。意思是：图像去查询文本（“我是肿瘤吗？”）。
技术含义：
- 这就是所谓的双向交互。文本特征指导图像关注特定区域，图像特征帮助文本确认描述是否准确。
- 这一步是核心创新点，它不是简单的特征相加，而是通过复杂的概率注意力机制（右边粉色大图详解的部分）来计算的。

第三步：升维与残差融合（Upward Projection & Gating）

看图右侧：
- 经过交互后的特征（小写 v′和 t′）并没有直接输出，而是先经过了 Wv↑ 和 Wt↑ 。
- 这是一个升维操作，把特征恢复到原来的维度（大写 V^ 和 T^ ）。
- 关键细节（残差连接）：你看最外圈的线条，输入 V 直接连到了输出端，和计算后的结果相加。
- 关键细节（门控机制）：在输出前还有一个 Gating（门控）开关。
技术含义：
- 残差连接是为了防止训练过程中信息丢失，保证模型至少能保留原始 CLIP 的特征。
- 门控机制就像是一个“水龙头”，控制着“新融合的特征”和“原始特征”的混合比例。训练初期可能主要靠原始特征，随着训练进行，逐渐打开水龙头，引入更多跨模态信息。

核心组件详解：AttnPVL（右侧粉色大图）

图 3 右边那个独立的粉色大图，是对中间紫色方块的极致放大。它展示了“概率性”到底是怎么算的。

传统的注意力机制公式是： Attention=Softmax(QKT)V。
而这里的 AttnPVL 把它改得极其复杂且高级：

QKV 的概率化（左上角）：
- 普通的 Attention： K 和 V 是一个确定的数值向量。
- 这里的 Attention： K 和 V变成了高斯分布。
- 看图中的波浪线符号（ ∼ ），模型不仅预测均值（ μ ），还预测方差（σ2 ）。
- 解释：模型在说：“我觉得这个特征大概是这个值（均值），但我有多大的把握（方差）”。
置信度加权（Confidence Weighting - 中间部分）：
- 公式里出现了 Sμ和 Sσ 。
- 这是在计算注意力分数时，减去了一个“惩罚项”。
- 解释：如果模型对某个图像块的判断很模糊（方差大），它在计算注意力时就会自动降低这个块的权重。这是为了抗噪，防止模型被图像中不相关的背景干扰。
重参数化采样（Reparameterization - 下方）：
- 图中有个 ϵ∼N(0,I)。
- 这是为了让模型能“可导”地训练。模型通过采样得到一个具体的 VsampleVsample ，然后才进行最后的加权求和。

总结这张图的核心逻辑

PVL Adapter 的工作流就是：
先把图文特征压缩 →→ 然后在低维空间里互相询问（但这次询问带着“不确定性”的考量，不仅问“是什么”，还问“有多确定”） →→ 最后把结果放大回去，并通过门控小心翼翼地融合进原始模型中。

四、实验

第一部分：实验设置

这部分定义了比赛的“场地”和“规则”。

核心逻辑

数据效率测试：作者故意只用 10%、25%、50% 的数据来训练，看模型在“吃不饱”的情况下能不能学好。这是为了模拟现实中医学数据标注昂贵的痛点。
多域测试：用了 6 个器官（乳腺、脑、皮肤等）、5 种模态（超声、MRI、内镜等）的数据集。
- 内部测试：用常见的数据集（如 BUSI, ISIC）。
- 域泛化测试：用那些模型从未见过的、拍摄设备或环境不同的数据集（如 BUSUC, CVC-ColonDB），测试模型的“见多识广”程度。
提示词策略：对于没有文字描述的数据集，作者用 GPT-5（原文如此，可能是笔误指代最新GPT模型）自动生成描述，并配合图像处理技术提取属性。
硬件与参数：基于 UniMedCLIP 骨干网络，训练 100 轮，使用 Dice + BCE 混合损失函数。

第二部分：核心实验结果

数据效率

结论：数据越少，MedCLIPSeg 的优势越明显。
细节：在只用 10% 数据时，它比最强的基线模型（CAT-Seg）高出 2-3%；比没有 PVL 适配器的版本（EoMT-CLIP）高出 7%。这证明概率性适配器（PVL Adapter）在数据稀缺时能极大防止模型“学偏”。

域泛化能力

结论：换了“考场”依然能拿高分。
细节：在面对光照变化（内镜）、增益变化（超声）等巨大的域偏移时，模型依然保持了很好的轮廓分割能力。比如在 ISIC 皮肤病变数据集上达到了 92.5% 的 DSC。

组件有效性

结论：每个零件都有用，缺一不可。
关键发现：
- 去掉 PVL 适配器，性能下降最严重（域外数据 DSC 暴跌 23.8%），说明它是跨域能力的核心。
- 把概率注意力换成普通的确定性注意力，性能也大幅下降，证明“知道哪里不确定”对分割很重要。
- 双向交互和软对比损失也能带来小幅但稳定的提升。

第三部分：深度消融研究

这部分是对模型进行“微调”和“压力测试”。

层级干预

在 Transformer 的深层（第 10 层左右）加入适配器效果最好。浅层主要学纹理，深层才学语义，所以深层交互更有效。

置信度权重

参数 β设置为 2.35 时效果最佳。这个参数控制着模型对“不确定区域”的惩罚力度。

提示词风格

结论：提示词要“短而精”。
细节：包含空间位置信息（如“右上角”）的简洁提示词效果最好。太长（啰嗦）或太短（信息不足）都会降低效果。如果是自相矛盾的提示词，模型性能会崩盘。

骨干网络

使用在医学数据上预训练过的 UniMedCLIP 比通用的 CLIP 效果更好，说明“专业对口”很重要。

第四部分：不确定性与可靠性

这是本文的“杀手锏”功能。

可视化：模型生成的不确定性热力图（Uncertainty Map）非常准。哪里边缘模糊、哪里医生都很难判断，模型的不确定性数值就高。
相关性：预测的不确定性与实际的分割误差高度相关（斯皮尔曼相关系数高达 0.87）。
校准：通过概率建模，模型的Brier Score（一种衡量预测准确度的指标，越低越好）几乎减半。这意味着模型不再“盲目自信”，这对临床诊断至关重要。

专有名词解释

为了帮你彻底读懂这部分，以下是文中出现的关键术语解释：

数据集与模态

BUSI/BTMRI/ISIC：常见的医学图像公开数据集，分别对应乳腺超声、脑肿瘤 MRI、皮肤病变。
模态：成像的方式。比如超声、CT、MRI、内镜照片，它们的成像原理和图像风格完全不同。
域偏移：训练数据和测试数据分布不一致。比如用 A 医院的机器拍的片子训练，去测 B 医院机器拍的片子，因为机器参数不同，图像亮度、噪点都不一样，这就叫域偏移。

评价指标

DSC：Dice 相似系数，医学分割最常用的指标。范围 0-100%，越高越好，代表预测区域和真实区域的重叠程度。
NSD：归一化表面距离，衡量预测轮廓和真实轮廓之间的距离误差，越低越好。
HM：调和平均数。在这里用来平衡“域内表现”和“域外表现”，防止模型偏科。
Brier Score：布里尔分数。衡量概率预测准确性的指标。它惩罚那些“预测错误且非常自信”的情况。分数越低，说明模型越靠谱（校准得越好）。
斯皮尔曼相关系数：衡量两个变量排名的相关性。这里用来证明“模型觉得难的地方”和“实际真的难的地方”是一致的。

模型组件

UniMedCLIP：一个专门在大量医学图像和文本上预训练过的 CLIP 模型，比通用的 CLIP 更懂医学术语。
PubMedBERT：专门在生物医学文献上预训练的 BERT 语言模型，用来处理文本提示词。
GPT-5：文中提到的用于生成提示词的大语言模型（注：截至当前时间 GPT-5 尚未正式发布，文中可能指代最新的 GPT-4o 或作者笔误）。
PVL Adapters：本文提出的核心插件，用于连接图像和文本特征。
LSoftCon：软对比损失，一种辅助训练的损失函数，帮助模型更好地区分相似但不同的特征。

训练策略

余弦退火：一种调整学习率的方法，让学习率像余弦曲线一样平滑下降，有助于模型收敛到更好的结果。
消融研究：像做化学实验一样，每次拿走模型的一个部件（比如去掉 PVL，或者去掉概率机制），看性能下降多少，以此证明该部件的必要性。

Table 1 _ 少样本结果展示

这张表强有力地证明了 MedCLIPSeg 是一个极度省数据且性能天花板极高的模型，完美解决了医学领域标注难、数据少的痛点。

如何解读这张表

看列（实验条件）：
- 表格被分为四个主要板块，分别代表使用了 10%、25%、50%、100% 的训练数据。
- 这模拟了从“极度缺乏数据”到“数据充足”的四种场景。
看行（对比选手）：
- Unimodal Approaches：纯图像模型（如 UNet），不看文字。
- Generic Text-driven Approaches：通用的图文模型。
- CLIP-Based Approaches：基于 CLIP 的医学模型（这是最强的竞争对手圈）。
- MedCLIPSeg (Ours)：作者提出的模型（表格最底行紫色）。
看指标（成绩）：
- DSC ↑：Dice 相似系数，越高越好（主要看这个）。
- NSD ↑：归一化表面距离，衡量边缘贴合度，越高越好。
- 粗体：全场最高分。
- 下划线：全场第二高分。

Table 2 _ 域泛化性结果

这张表（Table 2）专门用来测试模型的“举一反三”能力，也就是域泛化。它的核心逻辑是：让模型在一家医院的数据（Source）上学习，然后直接去另一家设备、环境完全不同的医院（Target）考试，中间不给任何复习机会，以此检验模型是否真的“学懂了”而不是“死记硬背”。

如何解读这张表

1. 看实验逻辑（Source vs. Target）

表格被分成了四个主要的医学领域板块：

乳腺超声
息肉内镜
脑部 MRI
皮肤镜

在每个板块中：

Source：这是训练集。例如在乳腺超声中，模型只在 BUSI 数据上训练。
Target：这是测试集（OOD，即分布外数据）。例如 BUSUC、BUID 等。这些数据的拍摄机器、图像质量、甚至病人群体都和 Source 不同。

2. 看对比对象

上半部分：是一些通用的视觉模型（如 LViT, CLIPSeg）。
中间部分：是一些医学专用的分割模型（如 SAN, MaPLe）。
下半部分：是基于 CLIP 的最强竞争对手（如 CAT-Seg）。
最底行：是作者的 MedCLIPSeg。

3. 看成绩

同样是粗体代表第一，下划线 代表第二。注意这里的分数通常比 Table 1 低，因为这是“跨域考试”，难度更大。

Table 3 _ 消融实验

这张表（Table 3）通常被称为“消融实验”，它的作用是给模型做“减法”。如果把之前的实验看作是“与其他选手的比赛”，那么这个实验就是作者的“内部复盘”。

作者通过逐个移除模型的关键组件（比如拿掉PVL适配器、拿掉门控机制等），观察性能下降了多少，从而证明每个组件都是不可或缺的，并非凑数。

如何解读这张表

1. 看指标

ID DSC (%)：在训练过的数据上的表现（例如在 BUSI 上训练，在 BUSI 上测）。
OOD DSC (%)：在没见过的数据上的表现（例如在 BUSI 上训练，去 BUSUC 上测）。这是检验泛化能力的核心指标。
HM DSC (%)：ID 和 OOD 的调和平均数。这个分数越高，说明模型既没有死记硬背，也没有过度泛化导致精度下降，达到了最佳平衡。

2. 看括号里的数字

表格中的红色箭头和括号数字（如 -7.88）代表了“移除该组件后，分数下降了多少”。数字越大，说明这个组件越重要。

3. 看分组

表格分成了三个板块，分别测试了三类核心技术：

Probabilistic Vision-Language Adapters：测试概率性视觉-语言适配器及其内部机制。
Bidirectional Multimodal Interaction：测试双向多模态交互机制。
Contrastive Loss：测试损失函数的设计。

Table 4 _ 提示词影响的实验结果

如何解读这张表

1. 实验逻辑

作者对比了五种不同风格的文本提示词：

Contradictory：矛盾的提示（故意给错误信息，比如“这是一个健康的组织”）。
Missing Location：缺失位置信息的提示（只说“这是肿瘤”，没说“在左上角”）。
Overdescriptive：过度啰嗦的提示（描述太长，包含很多无关细节）。
Underscriptive：描述不足的提示（太简短，信息量不够）。
Original：原始提示（作者设计的最佳提示，简洁且包含关键信息）。

2. 看指标

依然是 ID（已知域）、OOD（未知域）和 HM（调和平均）。
核心看点：哪种说话方式能让模型在陌生数据（OOD）上也表现最好。

Figure 4 _ 模型在实际图像上的分割效果和置信度分析

如何解读这张图

1. 看列（不同数据集）

每一列代表一个不同的医学数据集，涵盖了多种模态：

BUSI, BUID：乳腺超声。
Kvasir-SEG, ClinicDB：肠道内镜（息肉）。
BTMRI, BRISC：脑部核磁。
ISIC, UWaterloo：皮肤病变。
这些数据集展示了模型在不同器官、不同成像设备下的广泛适用性。

2. 看行（不同展示内容）

第一行 (Images)：原始输入图像。
第二行 (Segmentation)：分割结果。
- 蓝色区域：模型预测的病变区域。
- 橙色轮廓线：医生标注的真实病变边界。
- DSC 分数：每一列上方的黄色数字，显示分割的重合度，都在 93% - 96% 之间，说明重合度极高。
第三行 (Uncertainty)：不确定性可视化（热力图）。
- 这是模型在“自我反思”，颜色越亮（偏红/黄），代表模型越“犹豫”；颜色越暗（偏蓝/黑），代表模型越“自信”。

3. 看颜色条

右侧的色条显示，红色代表高不确定性（1.0），蓝色代表低不确定性（0.0）。

Figure 5 _ 模型超参数的调优实验

这张图（Figure 5）展示了两个关于模型超参数的调优实验，可以理解为给模型“微调旋钮”，以找到最佳性能点。这类分析通常用来解释为什么模型效果好，以及如何通过调整参数进一步提升性能。

如何解读这张图

1. 左图 (a)：层级干预的效果

横轴：表示在模型的不同层级（从浅层到深层）进行干预。
- [1-4] 代表前4层，[1-7] 代表前7层，以此类推。None 代表不进行干预。
纵轴：DSC 分数（分割精度）。
三条线：
- 绿色：ID 数据（训练过的数据）。
- 红色：OOD 数据（没见过的数据，最关键的指标）。
- 蓝色：HM（综合指标）。

2. 右图 (b)：置信度权重 β 的效果

横轴：置信度权重 β 的数值，从 0 到 5。这个参数通常用于控制模型在计算损失函数时，对高置信度样本的重视程度。
纵轴：DSC 分数。
三条线：同上（绿=ID，红=OOD，蓝=HM）。

Table 5 _ “底座”对模型性能的影响

这张表（Table 5）的核心是探究“底座”对模型性能的影响。如果把整个模型比作一辆高性能跑车，那么预训练模型就是它的引擎。作者在这里对比了四种不同的“引擎”（预训练模型），来看看哪个最能带动他们的 MedCLIPSeg 系统跑得更快、更稳。

如何解读这张表

1. 实验对象：四种“引擎”

CLIP：这是最基础的通用版预训练模型，在海量自然图像（如互联网图片）上训练，不懂医学知识。
PubMedCLIP：在生物医学文献摘要（PubMed）上训练过的版本，懂一点医学文本，但图像理解可能还是通用的。
BiomedCLIP：专门针对生物医学领域训练的模型，兼顾了图文。
UniMedCLIP：这是一个更统一、更强大的医学多模态模型，作者最终选用的底座。

2. 看指标

依然是 ID（训练域）、OOD（测试域）和 HM（综合分）。这里的目的是看换了不同的底座，模型的“举一反三”能力（OOD）会不会受影响。

五、结论

这篇论文提出了 MedCLIPSeg，这是一个专为文本驱动的医学图像分割设计的概率框架。其核心在于引入了 PVL 适配器，实现了置信度加权注意力机制与显式不确定性估计。通过双向融合与软补丁级对比损失，该框架充分利用了 CLIP 的预训练特征，在六个器官、五种模态的数据上实现了 SOTA 分割性能，同时具备高数据效率、强分布外泛化能力与校准良好的不确定性，为医疗 AI 中可靠视觉语言模型的应用提供了重要进展。

具体而言，MedCLIPSeg 的技术优势体现在以下三方面：

概率化设计：不同于传统确定性分割模型，MedCLIPSeg 通过 PVL 适配器输出“不确定性热力图”，在病灶边缘等模糊区域主动提示高风险，提升临床可信度。
高效泛化能力：依托 CLIP 预训练特征与软补丁对比损失，模型在仅用少量标注数据的情况下，仍能跨医院、跨设备保持稳定表现，显著降低部署成本。
医学专用底座优势：实验表明，采用 UniMedCLIP 作为视觉语言底座时，模型在分布外数据上的分割精度（OOD DSC 79.02%）显著优于通用 CLIP（74.81%），验证了医学领域预训练对跨模态理解的关键作用。

该工作不仅推动了文本引导分割的精度边界，更通过不确定性建模与跨域鲁棒性，为临床落地提供了可解释、可信赖的技术路径。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

2026年SEO+GEO优化指南：搜索排名机制解析与实用工具推荐

AtomGit开源社区

2026年论文写作AI哪个好用？7款工具实测对比，轻松拿捏

AtomGit开源社区

所有评论(0)

查看更多评论

Lsk_Smion

@Lsk_Smion

已为社区贡献5条内容

【26CVPR - MedCLIPSeg】_ 当医学影像学会“阅读理解”：MedCLIPSeg如何用文本指令精准定位病灶？

Lsk_Smion

论文信息

零、摘要

1. 背景与痛点 (Background & Challenges)

2. 核心方法 (Proposed Method)

3. 优化策略 (Optimization Strategy)

4. 实验与结论 (Experiments & Conclusion)

专有名词解释

A. 模型与架构

B. 技术细节

C. 性能指标

一、引言

1. 现状与挑战 (The Challenge)

2. 现有方案的局限 (Limitations of Existing Methods)

3. 新思路与机遇 (A New Paradigm with VLMs)

4. 本文方案与贡献 (Our Solution: MedCLIPSeg)

专有名词解释

A. 核心问题类

B. 技术方法类

C. 模型与组件类

Figure 1 _ 直观的对比和实验数据

第一部分：核心机制对比（顶部示意图）

左侧：确定性跨模态交互

右侧：概率性跨模态交互（MedCLIPSeg）

第二部分：定量实验验证（底部柱状图）

左图：域偏移下的鲁棒性

右图：可靠性表现

总结

二、相关工作

1. 医学图像分割的演变

2. 视觉-语言模型的崛起与适配

3. 基于提示的分割与本文定位

专有名词解释

A. 核心架构与模型

B. 关键技术术语

C. 本文提到的具体方法

三、方法

第一部分：地基——CLIP 架构的重用

第二部分：核心创新——概率性视觉-语言适配器

第三部分：任务适配与优化

专有名词解释

基础架构类

核心算法类

训练策略类

Figure 2 _ 系统架构图

第一步：原料输入（最左侧）

第二步：核心加工车间（中间部分）

第三步：特征提取与融合（右侧中部）

第四步：成品出厂（最右侧）

需要注意的细节

细节一：冻结与微调的博弈（图例中的星号 *）

细节二：双向交互的层级性（橙色方块的连接）

细节三：不确定性图与均值图的并行输出（右侧输出端）

细节四：损失函数的双重约束（最右侧 Loss 部分）

细节五：上采样模块的位置

总结

Figure 3 _ PVL Adapter

第一步：降维压缩（Downward Projection）

第二步：双向概率交互（Bidirectional Interaction）

第三步：升维与残差融合（Upward Projection & Gating）

核心组件详解：AttnPVL（右侧粉色大图）

总结这张图的核心逻辑

四、实验

第一部分：实验设置

核心逻辑

第二部分：核心实验结果

数据效率

域泛化能力

组件有效性

第三部分：深度消融研究

层级干预

置信度权重

提示词风格

骨干网络

第四部分：不确定性与可靠性

专有名词解释

数据集与模态

评价指标

模型组件

细节一：冻结与微调的博弈（图例中的星号 `*`）