SAM遇上四农普（二）：七种遥感适配方案的全景横评

tsonghua

442人浏览 · 2026-05-02 23:04:01

tsonghua · 2026-05-02 23:04:01 发布

SAM遇上四农普（二）：七种遥感适配方案的全景横评

上一篇我们拆了SAM3在四农普中的六大应用场景。结论很明确：SAM3的文本提示能力打开了遥感AI的新大门，但它是用自然图像训练的，面对俯视视角、多光谱、密集小目标的遥感世界，零样本精度还不够打。

那怎么办？

过去三年，学术界和工程界围绕SAM做了一大堆遥感适配方案。有的给SAM加提示生成器，有的微调骨干网络，有的干脆重新设计架构只借了"SAM"这个名号。

这些方案各有各的思路，也各有各的局限。

今天这篇文章，我把SAM家族的七个遥感适配方案全部拉出来，逐个拆解它们的思路、精度、适用场景，最后给你一张决策树——不同场景下，该用哪个方案。

一、SAM三代演进：从"你指我割"到"你说我找"

先快速回顾SAM三代的演进。07篇讲过这部分，这里只说核心区别，为后面的适配方案打基础。

维度	SAM (2023.4)	SAM 2 (2024.8)	SAM 3 (2025.11)
核心能力	点/框提示分割	视频对象追踪	文本概念分割
参数量	91M~641M	39M~224M	848M
文本支持	无	无	原生支持
骨干网络	ViT	Hiera	Perception Encoder + DETR
关键限制	只认点框不认语义	同左+无多光谱	域偏移：训练在自然图像

SAM面对遥感影像的核心困难，三代的答案都一样：没有。

SAM不知道什么是"俯视"——它只见过水平视角的照片
SAM不理解多光谱——它只吃过RGB三通道
SAM不知道密集小目标怎么处理——自然图像里很少出现成百上千个同类目标

所以过去三年，至少七个团队试图解决这个问题。下面逐个拆解。

二、七种适配方案详解

2.1 SAM-Geo：最好上手的遥感SAM

思路：不改模型，改用法。

SAM-Geo（segment-geospatial）是田纳西大学Qiusheng Wu开发的Python包。它不修改SAM的任何参数，而是在SAM外面套了一层遥感数据处理的壳——自动处理GeoTIFF读写、坐标转换、大影像分块推理。

pip install segment-geospatial

三行代码就能跑：

from samgeo import SamGeo
sam = SamGeo(geo_tiff_path, model_type="vit_h")
sam.generate(source, output, batch=True)

维度	评价
上手难度	⭐（pip install即用）
精度	取决于SAM原始能力，遥感场景一般
多光谱	不支持，仅RGB
文本提示	通过Grounding DINO集成支持
适用场景	快速原型验证、演示、教学

一句话评价：遥感SAM的"Hello World"。写方案演示够用，但离生产精度有距离。

2.2 RSPrompter：让SAM学会自动生成提示

思路：SAM需要提示才能分割，那让AI自动生成提示不就行了？

RSPrompter（2024）的核心创新是训练了一个自动提示生成器（Automatic Prompt Generator）。传统SAM需要你手动点一下或画个框，RSPrompter直接从图像特征中预测出最佳提示位置，然后喂给SAM。

具体来说，它包含三个模块：

特征提取器：从遥感影像中提取多尺度特征
提示生成器：基于特征预测点/框提示的位置和数量
SAM分割器：接收提示，输出mask

维度	评价
上手难度	⭐⭐⭐（需训练提示生成器）
精度	不错，在iSAID数据集上优于原始SAM
多光谱	不支持
文本提示	不支持（几何提示为主）
适用场景	需要自动批量分割但不需要语义的场景

一句话评价：解决了"谁来给SAM画框"的问题，但生成的mask不知道是什么——只出形状不出语义。

2.3 SAMRS：用SAM做数据标注引擎

思路：既然SAM分割不够准，那就让它去标注数据，训练更专业的模型。

SAMRS（NeurIPS 2023）的思路非常务实。它不追求让SAM直接做遥感分割，而是把SAM当作一个自动标注工具——用SAM生成大量伪标签，然后用这些伪标签训练专用的遥感分割模型。

这个方案的逻辑是：

用SAM在大规模遥感影像上自动生成mask
用规则/弱监督方法给mask分配语义标签
用这些自动标注的数据训练语义分割模型（如U-Net、DeepLab）

维度	评价
上手难度	⭐⭐⭐⭐（需要完整的标注+训练pipeline）
精度	间接提升——最终精度取决于下游模型
多光谱	下游模型可以支持
文本提示	不适用
适用场景	缺乏标注数据的冷启动场景

一句话评价：SAM最好的用法可能不是直接用，而是用它造数据。这是工程思维，不是论文思维。

2.4 HQ-SAM：给SAM的mask加上"高清模式"

思路：SAM的mask边缘粗糙，尤其是在小目标和复杂边界上。HQ-SAM不改变SAM的提示方式和语义能力，只做一件事——让mask更精确。

HQ-SAM（NeurIPS 2023，ETH Zurich + 港科大）冻结原始SAM的所有参数，只增加了一个轻量级的HQ-Decoder（约0.5M~1.4M额外参数）。这个解码器融合了SAM编码器的多尺度特征，输出更精细的分割边界。

安装也很简单：pip install segment-anything-hq，drop-in替换原有SAM。

关键数据：

在COCO和LVIS上，HQ-SAM的mask质量（mIoU）比SAM提升约5-10%
额外计算开销可忽略不计
完全保持SAM原有的零样本泛化能力

维度	评价
上手难度	⭐⭐⭐⭐（pip install直接替换SAM）
精度	mask边缘质量显著提升
多光谱	不支持
文本提示	不支持（依赖SAM原始提示）
适用场景	对分割边界精度要求高的场景

一句话评价：如果SAM的分割"形状对了但边毛糙"，HQ-SAM就是磨皮滤镜。治标不治本，但有时候够了。

2.5 RS-SAM：不要提示，遥感直接分割

思路：SAM需要提示（点/框/文本），但在遥感场景中你不可能给每张图手动标注。RS-SAM（ACCV 2024）直接去掉了提示环节。

RS-SAM的方法是给SAM加一个多尺度适配器（Multi-Scale Adapter），让SAM能够直接从遥感影像中检测和分割目标，不需要任何提示输入。

它做了两件事：

域适配：通过适配器层弥合自然图像和遥感影像的域差异
多尺度处理：遥感目标尺度差异大（一个建筑 vs 一片农田），多尺度特征融合是关键

维度	评价
上手难度	⭐⭐⭐（需fine-tune适配器）
精度	在DOTA、iSAID上优于原始SAM
多光谱	不支持
文本提示	不支持（无提示设计）
适用场景	完全自动化的批量处理

一句话评价：去掉了"人工提示"这个环节，但也没有了"人机交互"的灵活性。适合流水线作业。

2.6 RemoteSAM：名字叫SAM，架构跟SAM没关系

思路：前面五个方案都是"怎么让SAM在遥感上更好用"。RemoteSAM换了一个思路——不用SAM，自己设计一套专门为遥感优化的架构。

RemoteSAM（ACM MM 2025 Oral，河海大学+港科大）的名字带有"SAM"但架构完全独立。它的核心是"指代表达分割（RES）"——输入一句自然语言描述，输出像素级mask。

骨干：Swin-Base（视觉）+ BERT（语言），180M参数
数据：自建RemoteSAM-270K数据集（270K样本、297类、16种属性）
任务：统一8种视觉任务（分割/检测/分类/计数/定位/描述/VQA等）
性能：以1/40参数量碾压7B级别的GeoChat（分类+29%）、Falcon（检测+6%）

维度	评价
上手难度	⭐⭐⭐（需熟悉RES范式）
精度	遥感RES任务SOTA，显著优于SAM3
多光谱	不支持，仅RGB
文本提示	原生支持（RES天然文本驱动）
适用场景	遥感多任务统一、无人机端侧推理

一句话评价：学术上很强，8任务统一+180M轻量。但RGB-only + 无时序能力，直接用于四农普作物识别还差得远。最适合的场景是无人机端侧——轻量、统一、支持文本。

2.7 SegEarth-OV：SAM3的遥感零样本版本

思路：SAM3有了文本提示能力，但它在遥感上精度不够。SegEarth-OV（CVPR 2025）的做法是——不改SAM3的架构，只在遥感数据上做了特定的适配，实现免训练的开放词汇分割。

SegEarth-OV利用SAM3的视觉-语言对齐能力，通过精心设计的提示工程和特征投影，让SAM3直接在遥感影像上进行零样本语义分割——不需要微调、不需要标注数据。

关键性能（来自论文）：

零样本语义分割在多个遥感数据集上达到SOTA
不需要任何目标域的训练数据
保持了SAM3原有的灵活性

维度	评价
上手难度	⭐⭐（基于SAM3，推理即可）
精度	零样本场景下遥感SOTA
多光谱	不支持
文本提示	支持（继承SAM3）
适用场景	快速验证、缺乏标注数据的场景

一句话评价：如果你觉得SAM3在遥感上不够准但又不想微调，SegEarth-OV是目前最省事的选择。免训练，开箱即用。

三、七种方案全景对比

方案	发表	核心思路	参数	多光谱	文本提示	精度	易用性
SAM-Geo	2023	工程封装	SAM原始	✗	SAM3支持	★★	★★★★★
RSPrompter	2024	自动提示	~600M	✗	✗	★★★	★★
SAMRS	NeurIPS 2023	数据标注	SAM原始	下游支持	✗	★★★	★★
HQ-SAM	NeurIPS 2023	高清mask	+1.4M	✗	✗	★★★	★★★★
RS-SAM	ACCV 2024	无提示适配	~100M	✗	✗	★★★	★★★
RemoteSAM	ACM MM 2025	独立设计	180M	✗	✓	★★★★	★★★
SegEarth-OV	CVPR 2025	零样本遥感	SAM3级别	✗	✓	★★★★	★★★★

一个扎心的共同点：七个方案全部只支持RGB。（注：2026年新出的MmSAM开始探索多光谱SAM适配，但还处于早期阶段。）

没有一个方案原生支持多光谱（Sentinel-2的13波段、高分系列的多波段）。这意味着对于四农普最核心的作物分类任务——依赖近红外/红边波段计算NDVI——这些SAM方案全都无能为力。

四、决策树：不同场景选哪个方案

场景A：快速验证SAM在遥感上能不能用
→ SAM-Geo。pip install，五分钟出结果。够写PPT了。

场景B：需要批量自动分割，不需要知道每个目标是什么
→ RS-SAM 或 RSPrompter。前者完全无提示自动化，后者通过学习生成更好的提示。

场景C：有一定标注数据，想提升SAM在特定区域的精度
→ SAMRS 的思路——用SAM标注数据，训练专用模型。比直接微调SAM更实用。

场景D：需要文本提示，"用自然语言指挥分割"
→ RemoteSAM（精度更高，180M轻量）或 SegEarth-OV（免训练开箱即用）。

场景E：追求分割边界精度
→ HQ-SAM 作为任何SAM方案的增强插件。

场景F：四农普实战——作物分类、地块提取、大棚识别
→ 老实说，以上方案都不够。 它们全是RGB-only，而作物分类的核心是多光谱+多时相。SAM家族方案更适合辅助角色（比如分割地块边界、检测建筑/大棚等视觉特征明显的目标），而不是作为主力模型。

五、SAM家族方案的正确打开方式

经过七个方案的逐一拆解，一个清晰的结论浮出水面：

SAM家族方案的价值不是"替代"传统遥感解译方案，而是"补充"。

SAM方案擅长	传统方案擅长
零样本/少样本快速验证	大样本精度碾压
文本驱动的灵活交互	多光谱时序融合
密集小目标分割	作物类型精细分类
端侧轻量推理（RemoteSAM）	批量生产级处理

在四农普的技术体系里，SAM方案最适合的位置是：

地块边界提取：用SAM3/RemoteSAM分割出地块轮廓，再交给作物分类模型填充语义
设施农业识别：大棚、养殖场等视觉特征明显的目标，SAM方案直接可用
变化检测前置：用SAM分割前后两期影像的同一区域，对比差异
无人机端侧：RemoteSAM的180M参数可以在NVIDIA Jetson上实时推理
数据标注加速：SAMRS的思路，用SAM降低标注成本

这些定位在之前的07篇里也有涉及，但经过七个方案的横评，我们可以更精确地知道——每个环节该用哪个方案。

六、下一步：从SAM到遥感基础模型

SAM家族方案的共同天花板是"RGB-only"。要突破这个天花板，需要的是原生支持多光谱的遥感基础模型——不是在SAM上打补丁，而是从头设计。

这就是下一阶段要聊的内容：

Prithvi（NASA/IBM）：300M→2.3B，HLS多光谱+时序，真正的农业遥感基础模型
SkySense（蚂蚁+武大）：2B参数，SAR+光学+红外三模态
DOFA（Esri/ArcGIS集成）：多传感器统一，商用级
SAM3 vs 遥感基础模型：通用vs专精，什么时候用哪个

SAM是起点，不是终点。遥感AI的战场，才刚刚开始。

系列导航：
07. SAM遇上四农普（一）：遥感AI分割的实战全解析
09. SAM遇上四农普（二）：七种遥感适配方案的全景横评（本文）
下一篇：08. SAM遇上四农普（三）：SAM3遥感分割实战教程

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

陈刚直言｜到底什么是工业场景？

AtomGit开源社区

国内首个 Frontier 三件套开源大模型：MiniMax M3 完整技术拆解

刚刚，MiniMax M3 正式官宣发布。根据官方介绍，MiniMax M3 是国内首个同时具备三个核心能力的开源模型，同时还推出了配套代码智能体产品 MiniMax Code。不过，开发者体验下来，M3 的体感全面超过Sonnet 4.6，但官方坦诚表示，其与 Opus 4.7、GPT-5.5 仍存在一定差距。具体来说，在 SWE-Bench Pro 上超过了 GPT-5.5 和 Gemini