FSS-SAM3封神！无训练、不调参，靠 “拼图” 搞定小样本分割，负提示词居然是绊脚石？

阿_旭

379人浏览 · 2026-04-17 09:16:53

阿_旭 · 2026-04-17 09:16:53 发布

在这里插入图片描述

论文地址：https://arxiv.org/abs/2604.05433

一、先搞懂：小样本语义分割为啥难？

你有没有想过，AI 对图片进行语义分割时，要是遇到没见过的物体，只给 1-5 张参考图，它能精准分割吗？这就是「小样本语义分割（FSS）」的核心任务 ——用极少标注样本，搞定新类别的像素级分割。

但传统方法有两个大痛点：

「训练成本高」：得靠海量 “模拟小样本任务” 训练模型，又费时间又费算力；
「泛化能力差」：换个场景、换类物体，性能就断崖式下跌。

直到视觉大模型（比如 SAM 系列）出现，大家才发现：能不能跳过训练，直接用预训练大模型解决？这篇论文就给出了答案 ——用 SAM3，不用调参、不用改结构，就能实现 SOTA 级小样本分割！

二、核心方案：3 步搞定无训练小样本分割

在这里插入图片描述

论文的思路超简单，核心就靠 “SAM3 + 空间拼接”，三步就能跑通：

1. 关键前提：SAM3 的 “开挂能力”

SAM3 作为 SAM 家族最新款，多了个「可提示概念分割（PCS）」技能 —— 不用只靠点、框提示，还能通过 “视觉示例 + 文字描述” 理解语义概念。比如给它看一张猫的参考图，再提 “猫” 这个词，它就能分割新图里的猫，天生适合小样本场景。

2. 核心操作：空间拼接 = 让模型 “同时看参考 + 待分割图”

传统方法要专门设计 “参考图 - 待分割图” 匹配模块，而这篇论文的神操作是：

把「支持图（带标注的参考样本）」和「查询图（要分割的新图）」，直接拼在同一张画布上（比如上下垂直拼接）；
让完全冻结的 SAM3 一次性处理这张 “组合图”，模型会通过自身注意力机制，自动找到两张图的语义对应关系 —— 就像让 AI 拿着参考图，当场对比着分割新图！

3. 加分项：视觉 + 文字双提示，泛化更强

光靠参考图还不够，论文还加了「文本提示词」：比如分割 “猫” 时，把 “猫” 这个类别名输入 SAM3 的文本编码器，和视觉特征融合。这样做的好处是：避免模型只学参考图的细节（比如某只猫的姿势、颜色），而是聚焦 “猫” 这个类别本身，分割更灵活。

三、颠覆认知：负提示词居然 “帮倒忙”？

在这里插入图片描述

这篇论文最意外的发现，颠覆了大家对 “提示词” 的认知：

先科普：啥是负提示词？

比如想分割 “猫”，负提示词就是告诉模型 “不要分割狗、不要分割天空”，本意是帮模型排除干扰。

但实验结果打脸了：

加了负提示词后，分割性能直接暴跌！比如 COCO-20ⁱ 1-shot 设置下，加 5 个负提示词，mIoU 从 66.6% 跌到 44.7%，差了 21.9 个百分点；
更糟的是，负提示词会导致「预测崩溃」—— 模型把大部分像素都归为背景，根本找不到目标物体。

原因分析：

SAM3 的预训练逻辑是 “优先响应正提示”，面对负提示时，它不会 “精准排除干扰”，反而会 “一刀切” 地抑制所有相似特征，连目标物体的特征也给弱化了。简单说：大模型还没学会 “辩证看待正负提示”，少样本场景下，负提示只会添乱！

四、实验结果：无训练模型，干翻众多训练模型

不用训练、不用调参，性能却超顶！论文在两大权威数据集上的表现：

数据集	场景	核心成绩（mIoU）	亮点对比
PASCAL-5ⁱ	1-shot	81.2%（+ 文本）	超越所有传统训练模型
COCO-20ⁱ（更难）	1-shot	75.4%（+ 文本）	超之前最佳结果 13.1 个百分点
COCO-20ⁱ	5-shot	74.5%（+ 文本）	依然碾压多数训练模型

关键结论：

纯视觉拼接（不加文本）就比很多复杂训练模型强；
加了文本提示后，泛化能力暴涨 —— 比如 COCO 里物体种类多、背景复杂，文字能帮模型锁定 “类别本质”；
5-shot 比 1-shot 提升有限，说明这方法靠 1 个参考图就够顶，不用多给样本。

五、实用启示：小样本分割的新捷径

这篇论文给我们的核心启发：

「大模型是基础」：SAM3 的预训练能力足够强，不用专门训练，只要找对 “任务形式” 就能用；
「简单就是高效」：不用设计复杂模块，把问题转化为大模型擅长的 “空间推理”，就能解锁新任务；
「提示词要慎用」：小样本场景下，别盲目加负提示词，聚焦正提示（参考图 + 类别名）就够了。

六、未来还有哪些坑要填？

论文也指出了不足，未来可以重点突破：

负提示词怎么用？：得设计新方法让模型 “区分正负信号”，既排除干扰又不弱化目标；
跨模态对齐：SAM3 的图像和文本编码器没完全对齐，未来可以优化，让文字和图像配合更默契；
多样本融合：5-shot 提升有限，说明怎么高效利用多个参考图，还有待探索。

在这里插入图片描述

好了，这篇文章就介绍到这里，喜欢的小伙伴感谢给点个赞和关注，更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见，欢迎在评论区留言交流！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于主从博弈的电热综合能源系统动态定价与能量管理（Matlab代码实现）

综合能源系统是由电、热、气、冷多种能源系统耦合而成的，相比于传统能源系统具有更多的能量转换装置和储能设备，其能量流动关系更加复杂，能源的调度分配与能源转换设备特性和能源价格差有很大关系，因此为了更好的对综合能源系统进行协调优化，需要更好的了解各设备的特性，本章介绍了燃气锅炉(Gas Boiler, GB)、余热锅炉（Heat Recovery Boiler, HR）、蒸汽轮机（Steam Turb

AtomGit开源社区

C++20新特性解析：深入探讨协程库的实现原理与应用

C++20引入了对协程的支持，这是一项重要的编程语言特性，可以简化异步编程的实现而且提高代码的可读性和可维护性。协程可以在执行过程中暂停和恢复，能够更直观地表达异步操作的流程，让编程更加简洁和高效。C++20的协程库提供了一组新的关键字、库函数和概念，能轻松地实现异步操作、事件驱动的编程模型和无阻塞式IO等。这些特性对于网络编程、并发编程和响应式编程都有很大的帮助。

AtomGit开源社区

深入理解 C++ 智能指针：原理、实现与最佳实践

智能指针本质上是封装了裸指针的类，通过 RAII（资源获取即初始化）管理资源生命周期。：独占所有权，不能复制，只能移动。：共享所有权，引用计数管理。：弱引用，不增加引用计数，用于解决循环引用。代码语言：javascriptAI代码解释cpp复制编辑std::unique_ptr<FILE, decltype(&fclose)> fp(fopen("file.txt", "r"), &fclose)