SAM遇上四农普(二):七种遥感适配方案的全景横评

上一篇我们拆了SAM3在四农普中的六大应用场景。结论很明确:SAM3的文本提示能力打开了遥感AI的新大门,但它是用自然图像训练的,面对俯视视角、多光谱、密集小目标的遥感世界,零样本精度还不够打。

那怎么办?

过去三年,学术界和工程界围绕SAM做了一大堆遥感适配方案。有的给SAM加提示生成器,有的微调骨干网络,有的干脆重新设计架构只借了"SAM"这个名号。

这些方案各有各的思路,也各有各的局限。

今天这篇文章,我把SAM家族的七个遥感适配方案全部拉出来,逐个拆解它们的思路、精度、适用场景,最后给你一张决策树——不同场景下,该用哪个方案。


一、SAM三代演进:从"你指我割"到"你说我找"

先快速回顾SAM三代的演进。07篇讲过这部分,这里只说核心区别,为后面的适配方案打基础。

维度 SAM (2023.4) SAM 2 (2024.8) SAM 3 (2025.11)
核心能力 点/框提示分割 视频对象追踪 文本概念分割
参数量 91M~641M 39M~224M 848M
文本支持 原生支持
骨干网络 ViT Hiera Perception Encoder + DETR
关键限制 只认点框不认语义 同左+无多光谱 域偏移:训练在自然图像

SAM面对遥感影像的核心困难,三代的答案都一样:没有。

  • SAM不知道什么是"俯视"——它只见过水平视角的照片
  • SAM不理解多光谱——它只吃过RGB三通道
  • SAM不知道密集小目标怎么处理——自然图像里很少出现成百上千个同类目标

所以过去三年,至少七个团队试图解决这个问题。下面逐个拆解。


二、七种适配方案详解

2.1 SAM-Geo:最好上手的遥感SAM

思路:不改模型,改用法。

SAM-Geo(segment-geospatial)是田纳西大学Qiusheng Wu开发的Python包。它不修改SAM的任何参数,而是在SAM外面套了一层遥感数据处理的壳——自动处理GeoTIFF读写、坐标转换、大影像分块推理。

pip install segment-geospatial

三行代码就能跑:

from samgeo import SamGeo
sam = SamGeo(geo_tiff_path, model_type="vit_h")
sam.generate(source, output, batch=True)
维度 评价
上手难度 ⭐(pip install即用)
精度 取决于SAM原始能力,遥感场景一般
多光谱 不支持,仅RGB
文本提示 通过Grounding DINO集成支持
适用场景 快速原型验证、演示、教学

一句话评价:遥感SAM的"Hello World"。写方案演示够用,但离生产精度有距离。


2.2 RSPrompter:让SAM学会自动生成提示

思路:SAM需要提示才能分割,那让AI自动生成提示不就行了?

RSPrompter(2024)的核心创新是训练了一个自动提示生成器(Automatic Prompt Generator)。传统SAM需要你手动点一下或画个框,RSPrompter直接从图像特征中预测出最佳提示位置,然后喂给SAM。

具体来说,它包含三个模块:

  1. 特征提取器:从遥感影像中提取多尺度特征
  2. 提示生成器:基于特征预测点/框提示的位置和数量
  3. SAM分割器:接收提示,输出mask
维度 评价
上手难度 ⭐⭐⭐(需训练提示生成器)
精度 不错,在iSAID数据集上优于原始SAM
多光谱 不支持
文本提示 不支持(几何提示为主)
适用场景 需要自动批量分割但不需要语义的场景

一句话评价:解决了"谁来给SAM画框"的问题,但生成的mask不知道是什么——只出形状不出语义。


2.3 SAMRS:用SAM做数据标注引擎

思路:既然SAM分割不够准,那就让它去标注数据,训练更专业的模型。

SAMRS(NeurIPS 2023)的思路非常务实。它不追求让SAM直接做遥感分割,而是把SAM当作一个自动标注工具——用SAM生成大量伪标签,然后用这些伪标签训练专用的遥感分割模型。

这个方案的逻辑是:

  1. 用SAM在大规模遥感影像上自动生成mask
  2. 用规则/弱监督方法给mask分配语义标签
  3. 用这些自动标注的数据训练语义分割模型(如U-Net、DeepLab)
维度 评价
上手难度 ⭐⭐⭐⭐(需要完整的标注+训练pipeline)
精度 间接提升——最终精度取决于下游模型
多光谱 下游模型可以支持
文本提示 不适用
适用场景 缺乏标注数据的冷启动场景

一句话评价:SAM最好的用法可能不是直接用,而是用它造数据。这是工程思维,不是论文思维。


2.4 HQ-SAM:给SAM的mask加上"高清模式"

思路:SAM的mask边缘粗糙,尤其是在小目标和复杂边界上。HQ-SAM不改变SAM的提示方式和语义能力,只做一件事——让mask更精确

HQ-SAM(NeurIPS 2023,ETH Zurich + 港科大)冻结原始SAM的所有参数,只增加了一个轻量级的HQ-Decoder(约0.5M~1.4M额外参数)。这个解码器融合了SAM编码器的多尺度特征,输出更精细的分割边界。

安装也很简单:pip install segment-anything-hq,drop-in替换原有SAM。

关键数据:

  • 在COCO和LVIS上,HQ-SAM的mask质量(mIoU)比SAM提升约5-10%
  • 额外计算开销可忽略不计
  • 完全保持SAM原有的零样本泛化能力
维度 评价
上手难度 ⭐⭐⭐⭐(pip install直接替换SAM)
精度 mask边缘质量显著提升
多光谱 不支持
文本提示 不支持(依赖SAM原始提示)
适用场景 对分割边界精度要求高的场景

一句话评价:如果SAM的分割"形状对了但边毛糙",HQ-SAM就是磨皮滤镜。治标不治本,但有时候够了。


2.5 RS-SAM:不要提示,遥感直接分割

思路:SAM需要提示(点/框/文本),但在遥感场景中你不可能给每张图手动标注。RS-SAM(ACCV 2024)直接去掉了提示环节。

RS-SAM的方法是给SAM加一个多尺度适配器(Multi-Scale Adapter),让SAM能够直接从遥感影像中检测和分割目标,不需要任何提示输入。

它做了两件事:

  1. 域适配:通过适配器层弥合自然图像和遥感影像的域差异
  2. 多尺度处理:遥感目标尺度差异大(一个建筑 vs 一片农田),多尺度特征融合是关键
维度 评价
上手难度 ⭐⭐⭐(需fine-tune适配器)
精度 在DOTA、iSAID上优于原始SAM
多光谱 不支持
文本提示 不支持(无提示设计)
适用场景 完全自动化的批量处理

一句话评价:去掉了"人工提示"这个环节,但也没有了"人机交互"的灵活性。适合流水线作业。


2.6 RemoteSAM:名字叫SAM,架构跟SAM没关系

思路:前面五个方案都是"怎么让SAM在遥感上更好用"。RemoteSAM换了一个思路——不用SAM,自己设计一套专门为遥感优化的架构

RemoteSAM(ACM MM 2025 Oral,河海大学+港科大)的名字带有"SAM"但架构完全独立。它的核心是"指代表达分割(RES)"——输入一句自然语言描述,输出像素级mask。

  • 骨干:Swin-Base(视觉)+ BERT(语言),180M参数
  • 数据:自建RemoteSAM-270K数据集(270K样本、297类、16种属性)
  • 任务:统一8种视觉任务(分割/检测/分类/计数/定位/描述/VQA等)
  • 性能:以1/40参数量碾压7B级别的GeoChat(分类+29%)、Falcon(检测+6%)
维度 评价
上手难度 ⭐⭐⭐(需熟悉RES范式)
精度 遥感RES任务SOTA,显著优于SAM3
多光谱 不支持,仅RGB
文本提示 原生支持(RES天然文本驱动)
适用场景 遥感多任务统一、无人机端侧推理

一句话评价:学术上很强,8任务统一+180M轻量。但RGB-only + 无时序能力,直接用于四农普作物识别还差得远。最适合的场景是无人机端侧——轻量、统一、支持文本。


2.7 SegEarth-OV:SAM3的遥感零样本版本

思路:SAM3有了文本提示能力,但它在遥感上精度不够。SegEarth-OV(CVPR 2025)的做法是——不改SAM3的架构,只在遥感数据上做了特定的适配,实现免训练的开放词汇分割

SegEarth-OV利用SAM3的视觉-语言对齐能力,通过精心设计的提示工程和特征投影,让SAM3直接在遥感影像上进行零样本语义分割——不需要微调、不需要标注数据。

关键性能(来自论文):

  • 零样本语义分割在多个遥感数据集上达到SOTA
  • 不需要任何目标域的训练数据
  • 保持了SAM3原有的灵活性
维度 评价
上手难度 ⭐⭐(基于SAM3,推理即可)
精度 零样本场景下遥感SOTA
多光谱 不支持
文本提示 支持(继承SAM3)
适用场景 快速验证、缺乏标注数据的场景

一句话评价:如果你觉得SAM3在遥感上不够准但又不想微调,SegEarth-OV是目前最省事的选择。免训练,开箱即用。


三、七种方案全景对比

方案 发表 核心思路 参数 多光谱 文本提示 精度 易用性
SAM-Geo 2023 工程封装 SAM原始 SAM3支持 ★★ ★★★★★
RSPrompter 2024 自动提示 ~600M ★★★ ★★
SAMRS NeurIPS 2023 数据标注 SAM原始 下游支持 ★★★ ★★
HQ-SAM NeurIPS 2023 高清mask +1.4M ★★★ ★★★★
RS-SAM ACCV 2024 无提示适配 ~100M ★★★ ★★★
RemoteSAM ACM MM 2025 独立设计 180M ★★★★ ★★★
SegEarth-OV CVPR 2025 零样本遥感 SAM3级别 ★★★★ ★★★★

一个扎心的共同点:七个方案全部只支持RGB。(注:2026年新出的MmSAM开始探索多光谱SAM适配,但还处于早期阶段。)

没有一个方案原生支持多光谱(Sentinel-2的13波段、高分系列的多波段)。这意味着对于四农普最核心的作物分类任务——依赖近红外/红边波段计算NDVI——这些SAM方案全都无能为力。


四、决策树:不同场景选哪个方案

场景A:快速验证SAM在遥感上能不能用
→ SAM-Geo。pip install,五分钟出结果。够写PPT了。

场景B:需要批量自动分割,不需要知道每个目标是什么
→ RS-SAM 或 RSPrompter。前者完全无提示自动化,后者通过学习生成更好的提示。

场景C:有一定标注数据,想提升SAM在特定区域的精度
→ SAMRS 的思路——用SAM标注数据,训练专用模型。比直接微调SAM更实用。

场景D:需要文本提示,"用自然语言指挥分割"
→ RemoteSAM(精度更高,180M轻量)或 SegEarth-OV(免训练开箱即用)。

场景E:追求分割边界精度
→ HQ-SAM 作为任何SAM方案的增强插件。

场景F:四农普实战——作物分类、地块提取、大棚识别
→ 老实说,以上方案都不够。 它们全是RGB-only,而作物分类的核心是多光谱+多时相。SAM家族方案更适合辅助角色(比如分割地块边界、检测建筑/大棚等视觉特征明显的目标),而不是作为主力模型。


五、SAM家族方案的正确打开方式

经过七个方案的逐一拆解,一个清晰的结论浮出水面:

SAM家族方案的价值不是"替代"传统遥感解译方案,而是"补充"。

SAM方案擅长 传统方案擅长
零样本/少样本快速验证 大样本精度碾压
文本驱动的灵活交互 多光谱时序融合
密集小目标分割 作物类型精细分类
端侧轻量推理(RemoteSAM) 批量生产级处理

在四农普的技术体系里,SAM方案最适合的位置是:

  1. 地块边界提取:用SAM3/RemoteSAM分割出地块轮廓,再交给作物分类模型填充语义
  2. 设施农业识别:大棚、养殖场等视觉特征明显的目标,SAM方案直接可用
  3. 变化检测前置:用SAM分割前后两期影像的同一区域,对比差异
  4. 无人机端侧:RemoteSAM的180M参数可以在NVIDIA Jetson上实时推理
  5. 数据标注加速:SAMRS的思路,用SAM降低标注成本

这些定位在之前的07篇里也有涉及,但经过七个方案的横评,我们可以更精确地知道——每个环节该用哪个方案


六、下一步:从SAM到遥感基础模型

SAM家族方案的共同天花板是"RGB-only"。要突破这个天花板,需要的是原生支持多光谱的遥感基础模型——不是在SAM上打补丁,而是从头设计。

这就是下一阶段要聊的内容:

  • Prithvi(NASA/IBM):300M→2.3B,HLS多光谱+时序,真正的农业遥感基础模型
  • SkySense(蚂蚁+武大):2B参数,SAR+光学+红外三模态
  • DOFA(Esri/ArcGIS集成):多传感器统一,商用级
  • SAM3 vs 遥感基础模型:通用vs专精,什么时候用哪个

SAM是起点,不是终点。遥感AI的战场,才刚刚开始。


系列导航:
07. SAM遇上四农普(一):遥感AI分割的实战全解析
09. SAM遇上四农普(二):七种遥感适配方案的全景横评(本文)
下一篇:08. SAM遇上四农普(三):SAM3遥感分割实战教程

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐