一、前言:当“分割一切”遇到“理解一切”

给模型一张图、一句话,让它把目标区域的像素精确圈出来——听起来简单直接,但一旦目标描述含糊、被遮挡、或者需要推理才能定位,一次性猜出正确掩码就变得相当困难。传统图像分割模型就像闭着眼睛猜答案,猜对了算运气,猜错了没人告诉它错在哪。

2026年,这个局面正在被彻底改写。

从ICML 2026到CVPR 2026,从Meta的SAM 3到复旦的RSAgent,多模态AI Agent正在将图像分割从“单次猜测”升级为“边看边改、迭代精化”的智能交互过程。融合视觉理解与语义推理的多模态Agent,让模型终于不再“睁眼瞎”。

本文将带你深入2026年多模态AI Agent在图像分割领域的最新进展,从架构设计、部署方案到竞品对比、生态工具和安全风险,全方位拆解这一技术浪潮。

二、痛点直击:为什么传统分割是“睁眼瞎”?

2.1 “一次性预测”的天然缺陷

多模态大语言模型(MLLM)已经能够描述图像、回答问题、理解物体关系,但真实视觉系统需要的不只是文字答案。交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。

问题在于:模型如果只进行一次前向预测,就很难验证自己是否选对了目标

此前路线的短板并不是“不能产生mask”,而是“缺少确认与纠错过程”。一旦最初定位偏离、点位提示落在背景、候选区域只覆盖局部,模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。

2.2 医学分割的“四座大山”

生物医学图像分割面临的挑战更为严峻。浙江大学与上海人工智能实验室的研究团队在CVPR 2026论文中指出了四个核心瓶颈:

单次推理无法自我纠错:一旦第一步定位出现偏差,错误持续累积,最终影响分割质量。

隐式token破坏推理能力:为了赋予MLLM分割能力,现有方法普遍引入隐式分割token(如<SEG>)并与外部pixel decoder联合微调,这一设计破坏了大模型原有的文本输出空间,导致语言推理能力退化,泛化能力大打折扣。

缺乏自主决策机制:模型只能被动执行单次指令,无法像人类专家一样主动观察、反思、调整。

训练数据瓶颈:现有数据集只有最终mask,缺乏逐步交互的推理轨迹,难以直接监督多步行为。

2.3 开放语义分割的“语义鸿沟”

开放语义文本引导分割的挑战在于,输入指令并不总是简单的类别名——用户可能说“图中左侧正在被人拿起的物体”,也可能说“找出湍急水流中保障个人安全的装备”。前者需要空间关系推理,后者需要场景常识和用途推理。

传统模型缺乏的,不是更强的分割头,而是“确认和纠错”的过程

三、架构设计:多模态Agent如何“边看边改”?

2026年涌现的多模态分割Agent,核心思路惊人一致:将分割从静态预测变成动态交互。让模型具备“先判断、再行动、看反馈、再修正”的能力。

3.1 RSAgent:ICML 2026的推理分割标杆

2026年5月,复旦大学与上海创智学院联合发布了RSAgent智能体框架,相关成果入选ICML 2026。

核心思想:RSAgent的关键不是把MLLM直接改造成一个mask decoder,而是让它成为能够调度视觉工具的智能体。

工作流程:模型在每一轮接收原图、文本指令和历史观察,输出结构化推理与tool call;工具返回局部视图、候选掩码或overlay;模型再基于这些反馈决定继续调用工具、调整提示,或者提交最终答案。

一次交互的四步循环

  1. 观察:接收图像和文本指令
  2. 推理:分析当前状态,判断下一步该做什么
  3. 行动:调用视觉工具(缩放、点击、分割等)
  4. 反馈:读取工具返回结果,更新认知

训练数据:cold-start SFT数据约包含5K条高质量多轮推理轨迹;RL阶段使用约2K个RL示例,并额外加入8K个RefCOCOg训练样本,使模型在交互环境中学习更高回报的工具调用路径。

关键洞察:团队表示,真正的关键不只是“调了工具”——RSAgent把推理、工具、反馈与奖励闭合为一个训练体系。模型既要理解目标,也要学会自适应地缩放、提示、分割和停止,最终把开放语义理解落实为准确掩码。

3.2 IBISAgent:CVPR 2026的医学分割SOTA

如果说RSAgent解决的是通用场景的开放语义分割,那么IBISAgent则是在生物医学领域拿下了SOTA。这一框架由浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开等人联合提出,被CVPR 2026接收。

核心洞察:人类专家在标注医学图像时,从不是“看一眼就画出来”。他们会先扫视全图、锁定可疑区域,随后在分割工具上反复点击正负样本,根据每一步生成的mask形态重新判断,不断调整策略——这是一个多轮交互、边看边想、边想边做的迭代推理过程。

架构创新:IBISAgent将分割任务建模为多步马尔可夫决策过程(MDP) ,以交错的文本推理与点击动作替代隐式token,保留MLLM完整的语言推理能力。

每一步由三个核心元素构成闭环:

  • 推理(Textual Thinking) :模型对当前分割图像的状态进行推理分析,如“当前mask偏左,需要在右侧肿瘤边缘补充正向点击”。
  • 行动(Action) :模型输出结构化的空间点击指令,包含三个要素:分割目标类别(Target)、点击属性(正/负,Attribute)、归一化图像坐标(Coordinate_2d)。模型可在一步中同时输出多个点击。
  • 观测(Observation) :点击被传入交互式分割工具MedSAM2,生成更新后的mask,并叠加到原图上作为下一步的视觉输入反馈给模型。

关键设计:模型每一步都能“看到”自己上一步分割的结果,形成视觉感知与语言推理的闭环。整个过程不引入任何新的模型组件或隐式token,分割能力完全从MLLM内在的视觉推理中涌现。

两阶段训练

  1. 冷启动SFT:利用BiomedParseData(340万图像-mask对,9种成像模态)开发自动轨迹生成算法。通过规则化的点击模拟策略自动推导点击序列,再用Gemini-2.5-Pro为每步生成对应的自然语言推理。最终构建包含456K条高质量推理轨迹的冷启动数据集。
  2. Agentic强化学习:以细粒度奖励信号驱动模型自主探索更优决策策略,超越对轨迹的简单模仿。

3.3 三种Agent架构模式对比

通过分析上述工作,我们可以总结出当前多模态分割Agent的三种主流架构模式:

架构模式 代表工作 核心特征 适用场景
工具调度型 RSAgent MLLM作为控制器调度分割工具,多轮迭代修正 通用开放语义分割
点击交互型 IBISAgent 文本推理+空间点击,无隐式token,保留语言能力 医学精细分割
训练-free型 VASA、Seg-Agent 无需训练,即插即用,VLM+分割模型组合 快速部署、少样本场景

这三种模式并非互斥,而是代表了从“训练增强”到“推理增强”的不同技术路线。

四、竞品对比:2026年主流多模态分割Agent横评

4.1 RSAgent vs 传统方法

根据RSAgent论文的实验数据,在ReasonSeg测试集上,RSAgent的gIoU相比Seg-Zero-7B提升了9.0个百分点,在RefCOCOg数据集上取得了81.5%的平均cIoU,并生成了5000条以上的多轮推理分割轨迹。

零样本性能方面,RSAgent在ReasonSeg test上达到66.5% gIoU。

4.2 IBISAgent vs 医学SOTA

IBISAgent的表现更为惊人。实验表明,IBISAgent在域内、域外泛化集及自建私有数据集上均大幅领先现有方法。相比医学专用MLLM基线:

  • 平均IoU提升35.13%
  • DSC提升37.58%
  • F1提升29.79%

值得注意的是,Citrus-V和UniBiomed均在比IBISAgent更大规模的数据集上训练,IBISAgent仍能一致超越,说明性能提升来自方法设计本身,而非数据优势。

4.3 VASA vs Agent基线

VASA(Vision-guided Ad-hoc Segmentation Agent)是2026年5月19日提交于arXiv的工作,由Zilin Wang和Stella X. Yu提出,是首个针对开放即席分割的视觉引导Agent

VASA是训练-free的,耦合了VLM Agent、分割基础模型和视觉引导工作流。它使用持久工作掩码来推理、构建和验证解决方案,规划视觉操作、调用分割工具、检查结果、编辑掩码并从错误中恢复。

在PARS基准上,VASA超越SAM3 Agent 14-25% ;在RefCOCOm上,VASA超越SAM3 Agent 5-9% ,超越其他Agent基线最高达20%

4.4 Seg-Agent:显式多模态推理链

Seg-Agent由Chao Hao等7位作者于2026年5月13日提交,提出了一种完全训练-free的框架,首创显式多模态推理链(Explicit Multimodal Chain-of-Reasoning)

与以往仅基于文本抽象的思维链推理不同,Seg-Agent构建了一个交互式视觉推理循环,包含三个核心阶段:生成(Generation)、选择(Selection)、精化(Refinement)

其关键技术是Set-of-Mark(SoM)视觉提示,将候选区域直接渲染到图像上,让MLLM能够“看到”并在视觉域而非纯文本域中迭代推理空间关系。这种方法使Seg-Agent能够在无需任何参数更新的情况下,达到与最先进训练方法相当的性能。

4.5 性能对比总览

模型/框架 发布时间 核心基准 关键指标 训练方式
RSAgent 2026.05 (ICML 2026) ReasonSeg gIoU +9.0% vs Seg-Zero-7B SFT+RL
IBISAgent 2026.04 (CVPR 2026) 医学分割 IoU +35.13% vs 医学基线 SFT+RL
VASA 2026.05 (arXiv) PARS +14-25% vs SAM3 Agent 训练-free
Seg-Agent 2026.05 (arXiv) Various-LangSeg 可比训练SOTA 训练-free

五、生态工具:从模型到产品的落地之路

5.1 SAM 3:从“分割一切”到“理解概念”

2026年最重磅的分割模型更新,无疑是Meta的SAM 3。这一模型已悄然投稿ICLR 2026,并于2026年2月在V7 Darwin中正式上线。

从PVS到PCS:SAM 3被定义为一个更高级的任务——可提示概念分割(Promptable Concept Segmentation, PCS) 。它将文本和/或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。

简单来说,分割模型终于能听懂人话了:只要说出想要的东西(如“黄色校车”或“条纹猫”),SAM 3就能在图像/视频中分割出对应实例。

性能数据

  • 在LVIS数据集上,零样本掩码平均精度达到47.0,此前最佳纪录为38.5。
  • 单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒
  • 模型支持约400万个独特概念标签。
  • 在可提示视觉分割(PVS)上优于SAM 2。
  • 在新基准SA-Co上,性能比之前系统提升至少2倍

SAM 3D:Meta还同步推出了SAM 3D,将平面图像转换为完全重建的3D版本,分为两个独立型号:SAM 3D Object和SAM 3D Entity。SAM 3D Object旨在重建日常物品(家具、工具、小玩意儿甚至完整室内场景),SAM 3D Body专门训练用于从单张照片重建人体。两者均可在Meta的Segment Anything Playground中体验。

5.2 Grounded SAM 2:检测+分割的经典流水线

虽然SAM 3已发布,但Grounded SAM 2作为“检测+分割”的经典流水线仍在持续进化。它结合Grounding DINO进行开放集检测,再将信息传给SAM 2进行高精度分割,实现从自然语言提示到检测、分割、跟踪的完整视觉-语言流水线。

2026年的新应用包括:Colony Grounded SAM2——细菌菌落的零样本检测与分割;动态Patch选择中的 occupancy 计算。

5.3 LangHOPS:MLLM驱动的层次化部件分割

LangHOPS是首个基于MLLM的开放词汇对象-部件实例分割框架,由Yang Miao等人在2026年1月完成最终修订。

其核心创新在于将对象-部件层次结构扎根于语言空间,而非依赖启发式或可学习的视觉分组。在PartImageNet数据集上,LangHOPS超越此前方法5.5% Average Precision(域内)4.8%(跨数据集) ;在ADE20K的未见对象部件上(零样本)达到2.5% mIOU提升。

5.4 开发与部署工具链

阿里云百炼CLI(2026年5月发布):专为Agent设计,原生支持Claude Code、Qoder、OpenClaw、Hermes Agent等主流框架,可支持Qwen、GLM、Kimi、Deepseek等150多款多模态模型。

Qwen3.7-Plus(2026年6月发布):将视觉与语言统一为一体化智能体基座的多模态模型,全面升级了视觉-语言能力,同时保持完整智能体能力。

NVIDIA Nemotron 3(2026年3月):提供端到端工具包,用于构建、评估和优化生产级代理式AI系统。

SAM 3部署方案:可通过Roboflow inference Python包快速运行;SaladCloud提供容器化部署方案;亦有开发者实现了与MinIO对象存储的对接。不过需要注意的是,SAM 3权重动辄数GB,本地部署需要24GB显存的显卡。

六、部署方案:从实验到生产

6.1 部署架构选型

根据2026年的技术生态,多模态分割Agent的部署主要有以下几种架构:

方案一:单体Agent部署

  • 适用场景:RSAgent、IBISAgent等需要训练或微调的方案
  • 硬件需求:高端GPU(如H200、A100)
  • 特点:端到端优化好,但资源消耗大

方案二:训练-free组合部署

  • 适用场景:VASA、Seg-Agent等无需训练的方案
  • 硬件需求:相对灵活,VLM+轻量分割模型
  • 特点:即插即用,快速迭代

方案三:容器化微服务部署

  • 代表:Agentic-J(容器化的多Agent AI助手,2026年6月发布)
  • 特点:模块化、可扩展、易维护
  • 典型应用:生物显微镜图像分析,从细胞核分割到多条件定量分析

6.2 实际部署代码示例

以下是一个基于Grounded SAM 2的快速部署示例(参考PyImageSearch 2026年1月的教程):

# 安装依赖
# pip install groundingdino-py torch torchvision segment-anything2

import torch
from groundingdino.models import build_model
from groundingdino.util.slconfig import SLConfig
from segment_anything2 import sam_model_registry, SamPredictor

# 加载Grounding DINO
config_file = "groundingdino/config/GroundingDINO_SwinT_OGC.py"
checkpoint_path = "weights/groundingdino_swint_ogc.pth"
model = build_model(config_file, checkpoint_path)

# 加载SAM 2
sam_checkpoint = "weights/sam2_hiera_large.pt"
model_type = "vit_h"
sam = sam_model_registry[model_type](checkpoint=sam_checkpoint)
sam.to(device="cuda")
predictor = SamPredictor(sam)

# 文本提示检测+分割
text_prompt = "red car"
boxes, logits, phrases = predict(model, image, text_prompt, box_threshold=0.3, text_threshold=0.25)

# SAM 2精细分割
predictor.set_image(image)
masks, scores, logits = predictor.predict(
    point_coords=None,
    point_labels=None,
    box=boxes[0],
    multimask_output=False,
)

6.3 SAM 3部署实战

根据Roboflow 2026年3月的教程:

# 安装Roboflow inference with SAM 3支持
pip install inference[sam3]

# Python调用
from inference import get_model

model = get_model("sam3/1")
result = model.infer(image, prompt="yellow school bus")

如需更精细的部署控制,可参考SaladCloud的容器化方案:

# salad.yaml
image: sam3:latest
gpu: 1
gpu_class: rtx_4090
resources:
  memory: 24Gi

6.4 部署注意事项

硬件门槛:SAM 3本地部署需要24GB显存。根据Spheron 2026年5月的指南,Blackwell架构的FP8吞吐量最高,内存余量可消除所有VRAM规划顾虑。

推理优化:有开源项目将SAM 3改造为实时检测器(DART),实现80类25倍加速。

边缘部署:甚至有开发者用56MB模型实现了可塞进浏览器的SAM——虽然功能有取舍,但展示了轻量化的可能性。

七、安全风险:多模态Agent的“黑暗森林”

当多模态Agent获得“看懂图像+执行操作”的能力后,安全风险也随之指数级上升。

7.1 多模态攻击面

根据CCF YEF2026“AI的黑暗森林”专题论坛的讨论,AI安全问题正在从单点模型风险演化为覆盖感知、认知、决策、执行与审计的系统挑战。

具体风险包括:

  • 物理世界对抗攻击:可轻易欺骗自动驾驶与安防系统
  • 多模态大模型对齐偏差:导致“幻觉”与有害内容生成
  • 智能体策略性欺骗与工具滥用:具备目标导向的Agent可能产生失控风险

7.2 跨模态攻击新范式

2026年6月12日提交的arXiv论文《SkillMutator》提出了一个关键洞察:LLM Agent通过加载“Agent Skills”(自然语言规范+可执行脚本)扩展能力,而Skill的行为同时依赖自然语言指令和可执行代码,评估其安全性需要跨模态推理,这创造了一个全新的语言-代码攻击面

7.3 计算机使用Agent的风险

NeurIPS 2026收录的RiOSWorld基准专门用于评估MLLM-based Agent在真实世界计算机操作中的潜在风险。实验表明,当前计算机使用Agent在真实场景中面临显著的安全风险

7.4 侵入式Agent的产业治理

沙利文于2026年3月发布《2026年侵入式Agent产业治理白皮书》,聚焦侵入式Agent机制对产业流量分配、商业生态运作及底层数据安全造成的冲击。随着多模态大模型从概念验证步入商业化落地,AI智能体正逐渐深度介入设备底层操作,并展现出独立执行跨应用复杂任务的能力。

7.5 安全实践建议

  1. 输入校验:对所有多模态输入(图像、文本、音频)进行安全过滤
  2. 工具调用审计:记录所有Agent的工具调用轨迹,便于事后追溯
  3. 权限最小化:限制Agent可调用的工具和API范围
  4. 多模态对齐检测:检测跨模态的语义不一致,防范对抗攻击
  5. 参考框架:可借鉴Cross-Agent Multimodal Provenance-Aware Defense Framework的思路

八、趋势判断与实战建议

8.1 三大趋势

趋势一:从“训练”到“推理”的范式转移

2026年最显著的趋势是训练-free方法的崛起。VASA、Seg-Agent、GenCellAgent等框架证明,无需参数更新即可达到与训练方法相当的性能。这意味着未来开发者可以更快地上手多模态分割Agent,无需承担昂贵的训练成本。

趋势二:从“单次预测”到“多轮交互”的架构升级

RSAgent、IBISAgent等工作共同验证了多轮工具调用+迭代修正的有效性。这一架构正在成为多模态分割Agent的事实标准

趋势三:从“通用分割”到“概念理解”的能力跃迁

SAM 3的PCS任务定义标志着分割从“找东西”升级为“理解概念”。未来的分割模型不仅要能分割,还要能理解“什么是猫”、“什么是黄色校车”这样的语义概念。

8.2 实战选型建议

场景一:通用开放语义分割

  • 首选:RSAgent(ICML 2026,有完整训练框架)
  • 备选:Seg-Agent(训练-free,快速部署)
  • 理由:RSAgent在ReasonSeg上已验证9个百分点的提升

场景二:医学图像精细分割

  • 首选:IBISAgent(CVPR 2026 SOTA)
  • 理由:IoU提升35%以上,且无需修改模型架构

场景三:快速原型验证

  • 首选:VASA或Seg-Agent(均训练-free)
  • 理由:即插即用,无需训练数据

场景四:生产级大规模部署

  • 首选:SAM 3 + 容器化部署
  • 理由:Meta官方支持,生态成熟,支持400万概念

8.3 一句话总结

2026年,多模态AI Agent让图像分割从“一次性猜测”进化成了“边看边改的智能对话”。融合视觉理解与语义推理,让模型终于不再睁眼瞎。

未来的图像分割,不再是给模型一张图让它猜,而是让模型像人类专家一样——先观察、再推理、调用工具、看反馈、再修正,直到得出满意的结果。

这场从“感知”到“认知”的升级,才刚刚开始。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐