在这里插入图片描述

论文地址:https://arxiv.org/abs/2604.05433

一、先搞懂:小样本语义分割为啥难?

你有没有想过,AI 对图片 进行语义分割时,要是遇到没见过的物体,只给 1-5 张参考图,它能精准分割吗?这就是「小样本语义分割(FSS)」的核心任务 ——用极少标注样本,搞定新类别的像素级分割

但传统方法有两个大痛点:

  1. 「训练成本高」:得靠海量 “模拟小样本任务” 训练模型,又费时间又费算力;

  2. 「泛化能力差」:换个场景、换类物体,性能就断崖式下跌。

直到视觉大模型(比如 SAM 系列)出现,大家才发现:能不能跳过训练,直接用预训练大模型解决?这篇论文就给出了答案 ——用 SAM3,不用调参、不用改结构,就能实现 SOTA 级小样本分割!

二、核心方案:3 步搞定无训练小样本分割

在这里插入图片描述

论文的思路超简单,核心就靠 “SAM3 + 空间拼接”,三步就能跑通:

1. 关键前提:SAM3 的 “开挂能力”

SAM3 作为 SAM 家族最新款,多了个「可提示概念分割(PCS)」技能 —— 不用只靠点、框提示,还能通过 “视觉示例 + 文字描述” 理解语义概念。比如给它看一张猫的参考图,再提 “猫” 这个词,它就能分割新图里的猫,天生适合小样本场景。

2. 核心操作:空间拼接 = 让模型 “同时看参考 + 待分割图”

传统方法要专门设计 “参考图 - 待分割图” 匹配模块,而这篇论文的神操作是:

  • 把「支持图(带标注的参考样本)」和「查询图(要分割的新图)」,直接拼在同一张画布上(比如上下垂直拼接);

  • 让完全冻结的 SAM3 一次性处理这张 “组合图”,模型会通过自身注意力机制,自动找到两张图的语义对应关系 —— 就像让 AI 拿着参考图,当场对比着分割新图!

3. 加分项:视觉 + 文字双提示,泛化更强

光靠参考图还不够,论文还加了「文本提示词」:比如分割 “猫” 时,把 “猫” 这个类别名输入 SAM3 的文本编码器,和视觉特征融合。这样做的好处是:避免模型只学参考图的细节(比如某只猫的姿势、颜色),而是聚焦 “猫” 这个类别本身,分割更灵活。

三、颠覆认知:负提示词居然 “帮倒忙”?

在这里插入图片描述

这篇论文最意外的发现,颠覆了大家对 “提示词” 的认知:

先科普:啥是负提示词?

比如想分割 “猫”,负提示词就是告诉模型 “不要分割狗、不要分割天空”,本意是帮模型排除干扰。

但实验结果打脸了:
  • 加了负提示词后,分割性能直接暴跌!比如 COCO-20ⁱ 1-shot 设置下,加 5 个负提示词,mIoU 从 66.6% 跌到 44.7%,差了 21.9 个百分点;

  • 更糟的是,负提示词会导致「预测崩溃」—— 模型把大部分像素都归为背景,根本找不到目标物体。

原因分析:

SAM3 的预训练逻辑是 “优先响应正提示”,面对负提示时,它不会 “精准排除干扰”,反而会 “一刀切” 地抑制所有相似特征,连目标物体的特征也给弱化了。简单说:大模型还没学会 “辩证看待正负提示”,少样本场景下,负提示只会添乱!

四、实验结果:无训练模型,干翻众多训练模型

不用训练、不用调参,性能却超顶!论文在两大权威数据集上的表现:

数据集 场景 核心成绩(mIoU) 亮点对比
PASCAL-5ⁱ 1-shot 81.2%(+ 文本) 超越所有传统训练模型
COCO-20ⁱ(更难) 1-shot 75.4%(+ 文本) 超之前最佳结果 13.1 个百分点
COCO-20ⁱ 5-shot 74.5%(+ 文本) 依然碾压多数训练模型

关键结论:

  • 纯视觉拼接(不加文本)就比很多复杂训练模型强;

  • 加了文本提示后,泛化能力暴涨 —— 比如 COCO 里物体种类多、背景复杂,文字能帮模型锁定 “类别本质”;

  • 5-shot 比 1-shot 提升有限,说明这方法靠 1 个参考图就够顶,不用多给样本。

五、实用启示:小样本分割的新捷径

这篇论文给我们的核心启发:

  1. 「大模型是基础」:SAM3 的预训练能力足够强,不用专门训练,只要找对 “任务形式” 就能用;

  2. 「简单就是高效」:不用设计复杂模块,把问题转化为大模型擅长的 “空间推理”,就能解锁新任务;

  3. 「提示词要慎用」:小样本场景下,别盲目加负提示词,聚焦正提示(参考图 + 类别名)就够了。

六、未来还有哪些坑要填?

论文也指出了不足,未来可以重点突破:

  1. 负提示词怎么用?:得设计新方法让模型 “区分正负信号”,既排除干扰又不弱化目标;

  2. 跨模态对齐:SAM3 的图像和文本编码器没完全对齐,未来可以优化,让文字和图像配合更默契;

  3. 多样本融合:5-shot 提升有限,说明怎么高效利用多个参考图,还有待探索。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐