nnInteractive重新定义3D AI交互式分割(文献阅读)
引用
Isensee F., Rokuss M., Krämer L. et al. nnInteractive: Redefining 3D
Promptable Segmentation. arXiv:2503.08373v1, 2025.

nnInteractive和nnU-Net是同一作者,可以看作是“nnU-Net 的交互式扩展版”,继承了 nnU-Net 的设计理念与架构稳健性,同时通过多样化提示与交互机制,解决了三维医学影像分割在实际临床落地中的可用性问题。命名上沿用了 “nn” 前缀,既强调传承,也突出“交互式”的核心特色。
📌 核心观点
nnInteractive是首个真正意义上实现 开放集(open-set)3D 交互式分割 的框架。
它不仅支持多种交互提示(点、框、涂鸦、套索),还能从直观的 2D 操作生成完整的 3D 分割结果,真正打通了「二维交互—三维预测」的鸿沟。
🚀 主要创新
-
多样化交互
- 首次引入 lasso(套索)提示,结合点、框、涂鸦等输入;
- 支持正负提示(positive/negative)及多轮交互 refinement。
-
开放集与多模态
- 训练于 120+ 公共 3D 医学影像数据集(CT、MRI、PET、显微镜等,逾 64,000 体积数据);
- 能够跨模态、跨器官、跨任务泛化。
-
直观高效的 2D-to-3D 分割
- 通过 early-prompting 将用户输入直接注入编码阶段;
- 利用 AutoZoom 机制动态调整视野,实现大结构的完整分割。
-
真实可用性
- 集成于 Napari 与 MITK Workbench;
- 显存需求 <10 GB、推理时间百毫秒级;
- 可直接应用于临床及科研工作流。
🧩 一句话总结:
nnInteractive 让 3D 医学分割从“看不懂的算法”变成“人人可用的交互工具”。
如此好用的工具,文章当然也值得好好读读。
摘要
精确且高效的三维分割对于临床与科研应用至关重要。虽然像 SAM(Segment Anything Model) 这样的基础模型在交互式分割方面带来了革命,但其 二维设计 和 领域迁移限制 使其不适合直接用于三维医学影像。现有改进方法虽能部分解决这些挑战,但依旧存在局限:缺乏体素一致性,交互形式受限,仅支持少量结构或模态,
可用性不足(大多基于网页,交互繁琐,缺乏与主流医学影像平台的集成)。
本文提出 nnInteractive,首个全面的3D交互式开放集分割方法。它支持多种提示方式(点、涂鸦、框、全新的套索提示),利用直观的二维交互即可生成完整的三维分割。该方法在超过120个多模态3D数据集(CT、MRI、PET、3D 显微镜等)上训练,显著提升了 精度、适应性与可用性。
引言
在医学影像领域,三维分割任务极为关键,但现有方法普遍存在泛化性差、交互形式单一以及与临床平台脱节的问题。虽然 MedSAM 等模型将 Segment Anything 引入医疗场景并展现了潜力,但它们大多仍局限于二维切片,缺乏三维一致性与开放集适应能力。为突破这些限制,作者提出了 nnInteractive:首个真正意义上的三维开放集交互式分割框架,支持点、框、涂鸦和套索等多样化提示,能从二维交互生成完整三维分割,并在 120+ 多模态数据集上训练,显著优于 MedSAM 等现有方法,同时已集成 Napari 和 MITK,兼具前沿性能与临床可用性
方法
我们将 nnInteractive 的设计建立在三个核心原则之上:
- 可用性(Usability)
- 交互多样性(Interaction Diversity)
- 泛化与计算效率(Generalization & Efficiency)
本节详细介绍其网络结构、二维提示到三维掩膜的转化方式、交互类型与用户模拟、模糊性处理策略,以及用于大结构分割的 AutoZoom机制。
2.1 网络架构(Network Architecture)
尽管基于 Transformer 的方法在二维视觉任务中被广泛采用,但在三维医学图像分割中,U-Net 架构依然主导,并在多项基准和竞赛中保持最优性能。因此,nnInteractive 采用基于 nnU-Net 框架 的 U-Net 设计,并使用 Residual Encoder (ResEnc-L) 配置作为主干。
与现有交互式分割方法不同的是,我们采用 早期提示策略(early prompting)。当前多数模型通常先对图像编码,再在潜在空间中加入提示,这种做法在二维任务中依赖大规模预训练模型尚可,但在缺乏成熟三维预训练模型时效果有限。
因此,nnInteractive 直接将用户输入作为额外通道加入到网络输入,使提示从最高分辨率层级起就能影响特征提取。这使模型能够在训练过程中学习更贴合任务的表示。

2.2 从二维提示到三维掩膜
nnInteractive 的核心理念是:通过直观的二维操作实现完整三维分割。
- 在二维模型中,用户通常需要在每一层切片上逐次输入提示,工作量大且容易导致三维不一致。
- 现有三维方法又常依赖笨重的三维输入(如三维包围盒),操作复杂且易引入误差。
nnInteractive 则能从低维度提示(点或二维区域,如涂鸦、框、套索)直接推理出完整的三维分割结果,显著降低标注负担。
2.3 交互模拟(Interaction Simulation)
nnInteractive 支持的提示类型包括:
- 点(Points)
- 包围框(Bounding Boxes)
- 涂鸦(Scribbles)
- 套索(Lasso)
每种提示均分为 正提示和负提示两个通道输入(见 Fig. 2)。其中,套索提示受 Photoshop 选择工具启发,能够以接近框的成本获得更精准的分割结果(见 Fig. 3)。
在训练中,交互模拟基于预测误差生成:
- 首先识别预测结果与真实掩膜之间的假阳性(FP)和假阴性(FN)区域;
- 从中选择一个连通区域,再在其代表切片上生成提示;
- 随着迭代增加,之前的提示会以 0.9 的衰减因子逐渐减弱,保证模型持续关注新错误区域。
这样,网络能够学习如何通过持续交互逐步优化分割结果。
2.4 用户模拟(User Simulation)
真实用户在交互中往往存在偏好,而不是随机切换提示方式。为此,nnInteractive 引入三类 **用户代理(agents)**来模拟不同使用习惯:
- 随机用户(Random Agent):每次交互随机选择提示类型;
- 沉没成本用户(Sunk Cost Agent):倾向于在较长时间内坚持一种提示方式,偶尔才切换;
- 单一偏好用户(Single Interaction Agent):全程只使用某一种提示方式。
这种模拟机制避免了模型在训练中对不现实的交互模式过拟合,提升了泛化性。
2.5 AutoZoom 机制
三维模型通常因显存限制采用分块(patch-wise)推理。当目标超过单个 patch 大小时,容易出现截断,导致分割不完整。
为此,nnInteractive 提出 自适应 AutoZoom 策略:
- 当检测到预测结果触及边界时,自动将兴趣区域逐步扩大(每次放大 1.5 倍,最多 4 倍);
- 得到的低分辨率掩膜再缩放回原图大小,并通过滑动窗口精细化;
- 优先处理包含最多前景像素的区域,逐步扩展到信息量较少的部分。
这一机制在处理肝脏等大器官时尤为有效,同时不会增加小结构的计算开销。
2.6 模糊性处理(Ambiguity Handling)
医学影像分割中常存在语义模糊,例如:
- 肝脏分割:是包含肿瘤,还是只要正常组织?
- 心脏 cine-MRI:左心室分割是否包含腔室?
现有模型通常因训练标签固定而难以适应这种差异。nnInteractive 则通过在训练中引入 随机采样的标签变体,让模型接触到多种解剖学组合与不同标注规范。
这样,模型能够在推理时根据用户的提示灵活调整,动态解决分割模糊问题。
📌 方法总结一句话
nnInteractive 的方法学核心不是新架构,而是 交互机制设计与数据多样性训练:通过多种提示输入、用户模拟、AutoZoom 和模糊性建模,让三维分割在可用性与泛化性上实现了质的飞跃。
实验数据
我们在一个前所未有的大规模集合上开发模型,该集合包含 120+ 个公开的三维分割数据集,总计 64,518 个体积数据,包括 717,148 个对象(其中 5% 留作内部验证)。这一集合涵盖了多种解剖结构与成像模态(见表 A1)。
这一数据规模与多样性在三维医学图像分割中前所未有,使模型能够接触到丰富的成像模态、解剖结构与病理情况,从而学到鲁棒、可泛化的表征,能够应对不同尺度与临床场景的应用。这为构建一个多用途、可扩展的模型奠定了基础
尽管训练数据规模和多样性已十分庞大,但如何增强对 未见结构(unseen structures) 的鲁棒性仍是关键。为此,我们引入了 伪标签(pseudo-labels),采样概率为 0.2。
实验结果
| 对比维度 | nnInteractive | 现有方法(如 MedSAM / ScribblePrompt / SegVol 等) |
|---|---|---|
| 数据泛化 | 120+ 多模态 3D 数据集训练,开放集 | 多数为单模态或封闭集 |
| 提示方式 | 点、框、涂鸦、套索 + 正负提示 | 多数仅支持点/框,极少支持涂鸦 |
| 单点提示性能 | 比 ScribblePrompt 高 10 Dice | 依赖多切片点提示 |
| 涂鸦性能 | 高出 23.8 Dice | 仅 2D slice-wise |
| 专家验证 | 三切片涂鸦即超越全切片标注 | 需大量提示才能达到较好效果 |
| 临床一致性 | 与专家间差异无统计显著性 | 无法达到专家级水平 |
| 效率 | 提速 72%,百毫秒级推理 | 多数模型交互缓慢,难以临床使用 |

实验表明,nnInteractive 不仅在 精度 上全面超越 MedSAM 等现有方法,还在 交互效率 与 临床可用性 上实现突破,真正达到了 专家级一致性 + 显著提速 的双重优势。
讨论
作者表明 nnInteractive 在所有提示类型上均显著超越现有方法,无论是单点、包围盒还是涂鸦,都展现出更高的 Dice 分数和更稳定的性能;特别是套索和涂鸦提示,使其在少量交互下即可达到高精度。借助 AutoZoom 机制,模型在大器官任务中依然保持完整性和准确性,并能根据用户意图解决分割模糊问题。进一步的用户研究显示,nnInteractive 的分割结果与放射科专家间差异无统计学意义,同时分割效率提升超过 70%,证明其不仅具备实验室性能优势,更实现了临床级别的精度与可用性。
总结
nnInteractive 是首个真正意义上的 三维开放集交互式分割框架,通过支持点、框、涂鸦、套索等多样化提示,将直观的二维交互与完整的三维体分割无缝衔接。在超过 120 个多模态数据集上的训练,使其具备前所未有的泛化能力和鲁棒性。大量基准实验和临床用户研究证明,该方法在精度上显著优于 MedSAM 等现有模型,同时在分割效率上提升超过 70%,实现了专家级一致性。nnInteractive 已集成到 Napari 与 MITK 等主流平台,为科研与临床工作流提供了真正可落地的工具,标志着三维交互式分割进入了性能与可用性并重的新阶段。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)