SAM遇上四农普(二):七种遥感适配方案的全景横评
SAM遇上四农普(二):七种遥感适配方案的全景横评

上一篇我们拆了SAM3在四农普中的六大应用场景。结论很明确:SAM3的文本提示能力打开了遥感AI的新大门,但它是用自然图像训练的,面对俯视视角、多光谱、密集小目标的遥感世界,零样本精度还不够打。
那怎么办?
过去三年,学术界和工程界围绕SAM做了一大堆遥感适配方案。有的给SAM加提示生成器,有的微调骨干网络,有的干脆重新设计架构只借了"SAM"这个名号。
这些方案各有各的思路,也各有各的局限。
今天这篇文章,我把SAM家族的七个遥感适配方案全部拉出来,逐个拆解它们的思路、精度、适用场景,最后给你一张决策树——不同场景下,该用哪个方案。
一、SAM三代演进:从"你指我割"到"你说我找"
先快速回顾SAM三代的演进。07篇讲过这部分,这里只说核心区别,为后面的适配方案打基础。
| 维度 | SAM (2023.4) | SAM 2 (2024.8) | SAM 3 (2025.11) |
|---|---|---|---|
| 核心能力 | 点/框提示分割 | 视频对象追踪 | 文本概念分割 |
| 参数量 | 91M~641M | 39M~224M | 848M |
| 文本支持 | 无 | 无 | 原生支持 |
| 骨干网络 | ViT | Hiera | Perception Encoder + DETR |
| 关键限制 | 只认点框不认语义 | 同左+无多光谱 | 域偏移:训练在自然图像 |
SAM面对遥感影像的核心困难,三代的答案都一样:没有。
- SAM不知道什么是"俯视"——它只见过水平视角的照片
- SAM不理解多光谱——它只吃过RGB三通道
- SAM不知道密集小目标怎么处理——自然图像里很少出现成百上千个同类目标
所以过去三年,至少七个团队试图解决这个问题。下面逐个拆解。
二、七种适配方案详解
2.1 SAM-Geo:最好上手的遥感SAM
思路:不改模型,改用法。
SAM-Geo(segment-geospatial)是田纳西大学Qiusheng Wu开发的Python包。它不修改SAM的任何参数,而是在SAM外面套了一层遥感数据处理的壳——自动处理GeoTIFF读写、坐标转换、大影像分块推理。
pip install segment-geospatial
三行代码就能跑:
from samgeo import SamGeo
sam = SamGeo(geo_tiff_path, model_type="vit_h")
sam.generate(source, output, batch=True)
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐(pip install即用) |
| 精度 | 取决于SAM原始能力,遥感场景一般 |
| 多光谱 | 不支持,仅RGB |
| 文本提示 | 通过Grounding DINO集成支持 |
| 适用场景 | 快速原型验证、演示、教学 |
一句话评价:遥感SAM的"Hello World"。写方案演示够用,但离生产精度有距离。
2.2 RSPrompter:让SAM学会自动生成提示
思路:SAM需要提示才能分割,那让AI自动生成提示不就行了?
RSPrompter(2024)的核心创新是训练了一个自动提示生成器(Automatic Prompt Generator)。传统SAM需要你手动点一下或画个框,RSPrompter直接从图像特征中预测出最佳提示位置,然后喂给SAM。
具体来说,它包含三个模块:
- 特征提取器:从遥感影像中提取多尺度特征
- 提示生成器:基于特征预测点/框提示的位置和数量
- SAM分割器:接收提示,输出mask
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐⭐(需训练提示生成器) |
| 精度 | 不错,在iSAID数据集上优于原始SAM |
| 多光谱 | 不支持 |
| 文本提示 | 不支持(几何提示为主) |
| 适用场景 | 需要自动批量分割但不需要语义的场景 |
一句话评价:解决了"谁来给SAM画框"的问题,但生成的mask不知道是什么——只出形状不出语义。
2.3 SAMRS:用SAM做数据标注引擎
思路:既然SAM分割不够准,那就让它去标注数据,训练更专业的模型。
SAMRS(NeurIPS 2023)的思路非常务实。它不追求让SAM直接做遥感分割,而是把SAM当作一个自动标注工具——用SAM生成大量伪标签,然后用这些伪标签训练专用的遥感分割模型。
这个方案的逻辑是:
- 用SAM在大规模遥感影像上自动生成mask
- 用规则/弱监督方法给mask分配语义标签
- 用这些自动标注的数据训练语义分割模型(如U-Net、DeepLab)
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐⭐⭐(需要完整的标注+训练pipeline) |
| 精度 | 间接提升——最终精度取决于下游模型 |
| 多光谱 | 下游模型可以支持 |
| 文本提示 | 不适用 |
| 适用场景 | 缺乏标注数据的冷启动场景 |
一句话评价:SAM最好的用法可能不是直接用,而是用它造数据。这是工程思维,不是论文思维。
2.4 HQ-SAM:给SAM的mask加上"高清模式"
思路:SAM的mask边缘粗糙,尤其是在小目标和复杂边界上。HQ-SAM不改变SAM的提示方式和语义能力,只做一件事——让mask更精确。
HQ-SAM(NeurIPS 2023,ETH Zurich + 港科大)冻结原始SAM的所有参数,只增加了一个轻量级的HQ-Decoder(约0.5M~1.4M额外参数)。这个解码器融合了SAM编码器的多尺度特征,输出更精细的分割边界。
安装也很简单:pip install segment-anything-hq,drop-in替换原有SAM。
关键数据:
- 在COCO和LVIS上,HQ-SAM的mask质量(mIoU)比SAM提升约5-10%
- 额外计算开销可忽略不计
- 完全保持SAM原有的零样本泛化能力
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐⭐⭐(pip install直接替换SAM) |
| 精度 | mask边缘质量显著提升 |
| 多光谱 | 不支持 |
| 文本提示 | 不支持(依赖SAM原始提示) |
| 适用场景 | 对分割边界精度要求高的场景 |
一句话评价:如果SAM的分割"形状对了但边毛糙",HQ-SAM就是磨皮滤镜。治标不治本,但有时候够了。
2.5 RS-SAM:不要提示,遥感直接分割
思路:SAM需要提示(点/框/文本),但在遥感场景中你不可能给每张图手动标注。RS-SAM(ACCV 2024)直接去掉了提示环节。
RS-SAM的方法是给SAM加一个多尺度适配器(Multi-Scale Adapter),让SAM能够直接从遥感影像中检测和分割目标,不需要任何提示输入。
它做了两件事:
- 域适配:通过适配器层弥合自然图像和遥感影像的域差异
- 多尺度处理:遥感目标尺度差异大(一个建筑 vs 一片农田),多尺度特征融合是关键
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐⭐(需fine-tune适配器) |
| 精度 | 在DOTA、iSAID上优于原始SAM |
| 多光谱 | 不支持 |
| 文本提示 | 不支持(无提示设计) |
| 适用场景 | 完全自动化的批量处理 |
一句话评价:去掉了"人工提示"这个环节,但也没有了"人机交互"的灵活性。适合流水线作业。
2.6 RemoteSAM:名字叫SAM,架构跟SAM没关系
思路:前面五个方案都是"怎么让SAM在遥感上更好用"。RemoteSAM换了一个思路——不用SAM,自己设计一套专门为遥感优化的架构。
RemoteSAM(ACM MM 2025 Oral,河海大学+港科大)的名字带有"SAM"但架构完全独立。它的核心是"指代表达分割(RES)"——输入一句自然语言描述,输出像素级mask。
- 骨干:Swin-Base(视觉)+ BERT(语言),180M参数
- 数据:自建RemoteSAM-270K数据集(270K样本、297类、16种属性)
- 任务:统一8种视觉任务(分割/检测/分类/计数/定位/描述/VQA等)
- 性能:以1/40参数量碾压7B级别的GeoChat(分类+29%)、Falcon(检测+6%)
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐⭐(需熟悉RES范式) |
| 精度 | 遥感RES任务SOTA,显著优于SAM3 |
| 多光谱 | 不支持,仅RGB |
| 文本提示 | 原生支持(RES天然文本驱动) |
| 适用场景 | 遥感多任务统一、无人机端侧推理 |
一句话评价:学术上很强,8任务统一+180M轻量。但RGB-only + 无时序能力,直接用于四农普作物识别还差得远。最适合的场景是无人机端侧——轻量、统一、支持文本。
2.7 SegEarth-OV:SAM3的遥感零样本版本
思路:SAM3有了文本提示能力,但它在遥感上精度不够。SegEarth-OV(CVPR 2025)的做法是——不改SAM3的架构,只在遥感数据上做了特定的适配,实现免训练的开放词汇分割。
SegEarth-OV利用SAM3的视觉-语言对齐能力,通过精心设计的提示工程和特征投影,让SAM3直接在遥感影像上进行零样本语义分割——不需要微调、不需要标注数据。
关键性能(来自论文):
- 零样本语义分割在多个遥感数据集上达到SOTA
- 不需要任何目标域的训练数据
- 保持了SAM3原有的灵活性
| 维度 | 评价 |
|---|---|
| 上手难度 | ⭐⭐(基于SAM3,推理即可) |
| 精度 | 零样本场景下遥感SOTA |
| 多光谱 | 不支持 |
| 文本提示 | 支持(继承SAM3) |
| 适用场景 | 快速验证、缺乏标注数据的场景 |
一句话评价:如果你觉得SAM3在遥感上不够准但又不想微调,SegEarth-OV是目前最省事的选择。免训练,开箱即用。
三、七种方案全景对比

| 方案 | 发表 | 核心思路 | 参数 | 多光谱 | 文本提示 | 精度 | 易用性 |
|---|---|---|---|---|---|---|---|
| SAM-Geo | 2023 | 工程封装 | SAM原始 | ✗ | SAM3支持 | ★★ | ★★★★★ |
| RSPrompter | 2024 | 自动提示 | ~600M | ✗ | ✗ | ★★★ | ★★ |
| SAMRS | NeurIPS 2023 | 数据标注 | SAM原始 | 下游支持 | ✗ | ★★★ | ★★ |
| HQ-SAM | NeurIPS 2023 | 高清mask | +1.4M | ✗ | ✗ | ★★★ | ★★★★ |
| RS-SAM | ACCV 2024 | 无提示适配 | ~100M | ✗ | ✗ | ★★★ | ★★★ |
| RemoteSAM | ACM MM 2025 | 独立设计 | 180M | ✗ | ✓ | ★★★★ | ★★★ |
| SegEarth-OV | CVPR 2025 | 零样本遥感 | SAM3级别 | ✗ | ✓ | ★★★★ | ★★★★ |
一个扎心的共同点:七个方案全部只支持RGB。(注:2026年新出的MmSAM开始探索多光谱SAM适配,但还处于早期阶段。)
没有一个方案原生支持多光谱(Sentinel-2的13波段、高分系列的多波段)。这意味着对于四农普最核心的作物分类任务——依赖近红外/红边波段计算NDVI——这些SAM方案全都无能为力。
四、决策树:不同场景选哪个方案

场景A:快速验证SAM在遥感上能不能用
→ SAM-Geo。pip install,五分钟出结果。够写PPT了。
场景B:需要批量自动分割,不需要知道每个目标是什么
→ RS-SAM 或 RSPrompter。前者完全无提示自动化,后者通过学习生成更好的提示。
场景C:有一定标注数据,想提升SAM在特定区域的精度
→ SAMRS 的思路——用SAM标注数据,训练专用模型。比直接微调SAM更实用。
场景D:需要文本提示,"用自然语言指挥分割"
→ RemoteSAM(精度更高,180M轻量)或 SegEarth-OV(免训练开箱即用)。
场景E:追求分割边界精度
→ HQ-SAM 作为任何SAM方案的增强插件。
场景F:四农普实战——作物分类、地块提取、大棚识别
→ 老实说,以上方案都不够。 它们全是RGB-only,而作物分类的核心是多光谱+多时相。SAM家族方案更适合辅助角色(比如分割地块边界、检测建筑/大棚等视觉特征明显的目标),而不是作为主力模型。
五、SAM家族方案的正确打开方式
经过七个方案的逐一拆解,一个清晰的结论浮出水面:
SAM家族方案的价值不是"替代"传统遥感解译方案,而是"补充"。
| SAM方案擅长 | 传统方案擅长 |
|---|---|
| 零样本/少样本快速验证 | 大样本精度碾压 |
| 文本驱动的灵活交互 | 多光谱时序融合 |
| 密集小目标分割 | 作物类型精细分类 |
| 端侧轻量推理(RemoteSAM) | 批量生产级处理 |
在四农普的技术体系里,SAM方案最适合的位置是:
- 地块边界提取:用SAM3/RemoteSAM分割出地块轮廓,再交给作物分类模型填充语义
- 设施农业识别:大棚、养殖场等视觉特征明显的目标,SAM方案直接可用
- 变化检测前置:用SAM分割前后两期影像的同一区域,对比差异
- 无人机端侧:RemoteSAM的180M参数可以在NVIDIA Jetson上实时推理
- 数据标注加速:SAMRS的思路,用SAM降低标注成本
这些定位在之前的07篇里也有涉及,但经过七个方案的横评,我们可以更精确地知道——每个环节该用哪个方案。
六、下一步:从SAM到遥感基础模型
SAM家族方案的共同天花板是"RGB-only"。要突破这个天花板,需要的是原生支持多光谱的遥感基础模型——不是在SAM上打补丁,而是从头设计。
这就是下一阶段要聊的内容:
- Prithvi(NASA/IBM):300M→2.3B,HLS多光谱+时序,真正的农业遥感基础模型
- SkySense(蚂蚁+武大):2B参数,SAR+光学+红外三模态
- DOFA(Esri/ArcGIS集成):多传感器统一,商用级
- SAM3 vs 遥感基础模型:通用vs专精,什么时候用哪个
SAM是起点,不是终点。遥感AI的战场,才刚刚开始。
系列导航:
07. SAM遇上四农普(一):遥感AI分割的实战全解析
09. SAM遇上四农普(二):七种遥感适配方案的全景横评(本文)
下一篇:08. SAM遇上四农普(三):SAM3遥感分割实战教程
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)