引用

Isensee F., Rokuss M., Krämer L. et al. nnInteractive: Redefining 3D
Promptable Segmentation.
arXiv:2503.08373v1, 2025.

nnInteractive和nnU-Net是同一作者,可以看作是“nnU-Net 的交互式扩展版”,继承了 nnU-Net 的设计理念与架构稳健性,同时通过多样化提示与交互机制,解决了三维医学影像分割在实际临床落地中的可用性问题。命名上沿用了 “nn” 前缀,既强调传承,也突出“交互式”的核心特色。

📌 核心观点

nnInteractive是首个真正意义上实现 开放集(open-set)3D 交互式分割 的框架。
它不仅支持多种交互提示(点、框、涂鸦、套索),还能从直观的 2D 操作生成完整的 3D 分割结果,真正打通了「二维交互—三维预测」的鸿沟。

🚀 主要创新

  1. 多样化交互

    • 首次引入 lasso(套索)提示,结合点、框、涂鸦等输入;
    • 支持正负提示(positive/negative)及多轮交互 refinement。
  2. 开放集与多模态

    • 训练于 120+ 公共 3D 医学影像数据集(CT、MRI、PET、显微镜等,逾 64,000 体积数据);
    • 能够跨模态、跨器官、跨任务泛化。
  3. 直观高效的 2D-to-3D 分割

    • 通过 early-prompting 将用户输入直接注入编码阶段;
    • 利用 AutoZoom 机制动态调整视野,实现大结构的完整分割。
  4. 真实可用性

    • 集成于 Napari 与 MITK Workbench;
    • 显存需求 <10 GB、推理时间百毫秒级;
    • 可直接应用于临床及科研工作流。

🧩 一句话总结

nnInteractive 让 3D 医学分割从“看不懂的算法”变成“人人可用的交互工具”。

如此好用的工具,文章当然也值得好好读读。

摘要

精确且高效的三维分割对于临床与科研应用至关重要。虽然像 SAM(Segment Anything Model) 这样的基础模型在交互式分割方面带来了革命,但其 二维设计 和 领域迁移限制 使其不适合直接用于三维医学影像。现有改进方法虽能部分解决这些挑战,但依旧存在局限:缺乏体素一致性,交互形式受限,仅支持少量结构或模态,
可用性不足(大多基于网页,交互繁琐,缺乏与主流医学影像平台的集成)。

本文提出 nnInteractive,首个全面的3D交互式开放集分割方法。它支持多种提示方式(点、涂鸦、框、全新的套索提示),利用直观的二维交互即可生成完整的三维分割。该方法在超过120个多模态3D数据集(CT、MRI、PET、3D 显微镜等)上训练,显著提升了 精度、适应性与可用性。

引言

在医学影像领域,三维分割任务极为关键,但现有方法普遍存在泛化性差、交互形式单一以及与临床平台脱节的问题。虽然 MedSAM 等模型将 Segment Anything 引入医疗场景并展现了潜力,但它们大多仍局限于二维切片,缺乏三维一致性与开放集适应能力。为突破这些限制,作者提出了 nnInteractive:首个真正意义上的三维开放集交互式分割框架,支持点、框、涂鸦和套索等多样化提示,能从二维交互生成完整三维分割,并在 120+ 多模态数据集上训练,显著优于 MedSAM 等现有方法,同时已集成 Napari 和 MITK,兼具前沿性能与临床可用性

方法

我们将 nnInteractive 的设计建立在三个核心原则之上:

  1. 可用性(Usability)
  2. 交互多样性(Interaction Diversity)
  3. 泛化与计算效率(Generalization & Efficiency)

本节详细介绍其网络结构、二维提示到三维掩膜的转化方式、交互类型与用户模拟、模糊性处理策略,以及用于大结构分割的 AutoZoom机制。

2.1 网络架构(Network Architecture)

尽管基于 Transformer 的方法在二维视觉任务中被广泛采用,但在三维医学图像分割中,U-Net 架构依然主导,并在多项基准和竞赛中保持最优性能。因此,nnInteractive 采用基于 nnU-Net 框架 的 U-Net 设计,并使用 Residual Encoder (ResEnc-L) 配置作为主干。

与现有交互式分割方法不同的是,我们采用 早期提示策略(early prompting)。当前多数模型通常先对图像编码,再在潜在空间中加入提示,这种做法在二维任务中依赖大规模预训练模型尚可,但在缺乏成熟三维预训练模型时效果有限。

因此,nnInteractive 直接将用户输入作为额外通道加入到网络输入,使提示从最高分辨率层级起就能影响特征提取。这使模型能够在训练过程中学习更贴合任务的表示。

2.2 从二维提示到三维掩膜

nnInteractive 的核心理念是:通过直观的二维操作实现完整三维分割

  • 在二维模型中,用户通常需要在每一层切片上逐次输入提示,工作量大且容易导致三维不一致。
  • 现有三维方法又常依赖笨重的三维输入(如三维包围盒),操作复杂且易引入误差。

nnInteractive 则能从低维度提示(点或二维区域,如涂鸦、框、套索)直接推理出完整的三维分割结果,显著降低标注负担。

2.3 交互模拟(Interaction Simulation)

nnInteractive 支持的提示类型包括:

  • 点(Points)
  • 包围框(Bounding Boxes)
  • 涂鸦(Scribbles)
  • 套索(Lasso)

每种提示均分为 正提示负提示两个通道输入(见 Fig. 2)。其中,套索提示受 Photoshop 选择工具启发,能够以接近框的成本获得更精准的分割结果(见 Fig. 3)。

在训练中,交互模拟基于预测误差生成:

  • 首先识别预测结果与真实掩膜之间的假阳性(FP)和假阴性(FN)区域;
  • 从中选择一个连通区域,再在其代表切片上生成提示;
  • 随着迭代增加,之前的提示会以 0.9 的衰减因子逐渐减弱,保证模型持续关注新错误区域。

这样,网络能够学习如何通过持续交互逐步优化分割结果。

2.4 用户模拟(User Simulation)

真实用户在交互中往往存在偏好,而不是随机切换提示方式。为此,nnInteractive 引入三类 **用户代理(agents)**来模拟不同使用习惯:

  1. 随机用户(Random Agent):每次交互随机选择提示类型;
  2. 沉没成本用户(Sunk Cost Agent):倾向于在较长时间内坚持一种提示方式,偶尔才切换;
  3. 单一偏好用户(Single Interaction Agent):全程只使用某一种提示方式。

这种模拟机制避免了模型在训练中对不现实的交互模式过拟合,提升了泛化性。

2.5 AutoZoom 机制

三维模型通常因显存限制采用分块(patch-wise)推理。当目标超过单个 patch 大小时,容易出现截断,导致分割不完整。

为此,nnInteractive 提出 自适应 AutoZoom 策略

  • 当检测到预测结果触及边界时,自动将兴趣区域逐步扩大(每次放大 1.5 倍,最多 4 倍);
  • 得到的低分辨率掩膜再缩放回原图大小,并通过滑动窗口精细化;
  • 优先处理包含最多前景像素的区域,逐步扩展到信息量较少的部分。

这一机制在处理肝脏等大器官时尤为有效,同时不会增加小结构的计算开销。

2.6 模糊性处理(Ambiguity Handling)

医学影像分割中常存在语义模糊,例如:

  • 肝脏分割:是包含肿瘤,还是只要正常组织?
  • 心脏 cine-MRI:左心室分割是否包含腔室?

现有模型通常因训练标签固定而难以适应这种差异。nnInteractive 则通过在训练中引入 随机采样的标签变体,让模型接触到多种解剖学组合与不同标注规范。

这样,模型能够在推理时根据用户的提示灵活调整,动态解决分割模糊问题。

📌 方法总结一句话

nnInteractive 的方法学核心不是新架构,而是 交互机制设计数据多样性训练:通过多种提示输入、用户模拟、AutoZoom 和模糊性建模,让三维分割在可用性与泛化性上实现了质的飞跃。

实验数据

我们在一个前所未有的大规模集合上开发模型,该集合包含 120+ 个公开的三维分割数据集,总计 64,518 个体积数据,包括 717,148 个对象(其中 5% 留作内部验证)。这一集合涵盖了多种解剖结构与成像模态(见表 A1)。

这一数据规模与多样性在三维医学图像分割中前所未有,使模型能够接触到丰富的成像模态、解剖结构与病理情况,从而学到鲁棒、可泛化的表征,能够应对不同尺度与临床场景的应用。这为构建一个多用途、可扩展的模型奠定了基础

尽管训练数据规模和多样性已十分庞大,但如何增强对 未见结构(unseen structures) 的鲁棒性仍是关键。为此,我们引入了 伪标签(pseudo-labels),采样概率为 0.2。

实验结果

对比维度 nnInteractive 现有方法(如 MedSAM / ScribblePrompt / SegVol 等)
数据泛化 120+ 多模态 3D 数据集训练,开放集 多数为单模态或封闭集
提示方式 点、框、涂鸦、套索 + 正负提示 多数仅支持点/框,极少支持涂鸦
单点提示性能 比 ScribblePrompt 高 10 Dice 依赖多切片点提示
涂鸦性能 高出 23.8 Dice 仅 2D slice-wise
专家验证 三切片涂鸦即超越全切片标注 需大量提示才能达到较好效果
临床一致性 与专家间差异无统计显著性 无法达到专家级水平
效率 提速 72%,百毫秒级推理 多数模型交互缓慢,难以临床使用

实验表明,nnInteractive 不仅在 精度 上全面超越 MedSAM 等现有方法,还在 交互效率 与 临床可用性 上实现突破,真正达到了 专家级一致性 + 显著提速 的双重优势。

讨论

作者表明 nnInteractive 在所有提示类型上均显著超越现有方法,无论是单点、包围盒还是涂鸦,都展现出更高的 Dice 分数和更稳定的性能;特别是套索和涂鸦提示,使其在少量交互下即可达到高精度。借助 AutoZoom 机制,模型在大器官任务中依然保持完整性和准确性,并能根据用户意图解决分割模糊问题。进一步的用户研究显示,nnInteractive 的分割结果与放射科专家间差异无统计学意义,同时分割效率提升超过 70%,证明其不仅具备实验室性能优势,更实现了临床级别的精度与可用性。

总结

nnInteractive 是首个真正意义上的 三维开放集交互式分割框架,通过支持点、框、涂鸦、套索等多样化提示,将直观的二维交互与完整的三维体分割无缝衔接。在超过 120 个多模态数据集上的训练,使其具备前所未有的泛化能力和鲁棒性。大量基准实验和临床用户研究证明,该方法在精度上显著优于 MedSAM 等现有模型,同时在分割效率上提升超过 70%,实现了专家级一致性。nnInteractive 已集成到 Napari 与 MITK 等主流平台,为科研与临床工作流提供了真正可落地的工具,标志着三维交互式分割进入了性能与可用性并重的新阶段。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐