遥感 VLM 还能靠 Prompt 提升？一篇面向遥感VLM 的 Prompt Optimization 论文快报

pottttt7

375人浏览 · 2026-05-26 20:58:04

pottttt7 · 2026-05-26 20:58:04 发布

遥感 VLM 还能靠 Prompt 提升？一篇面向遥感VLM 的 Prompt Optimization 论文快报

在这里插入图片描述

最近读到一篇遥感多模态相关论文：《Exploring the Potential of VLMs in Remote Sensing through Prompt Optimization》。这篇文章的核心问题很直接：不改模型结构，只优化 prompt，能不能提升通用视觉语言模型在遥感任务上的表现？

1. 论文想解决什么问题？

现在很多通用 VLM，例如 Qwen-VL、LLaVA、InternVL，在自然图像理解上表现不错。但遥感图像和普通图像差异很大：遥感图像通常是俯视视角，目标尺度变化明显，小目标密集，而且很多判断依赖纹理、空间关系和场景上下文。

因此，如果直接使用普通 prompt，比如：

Describe the image.
Locate the airplane.

模型往往不能很好理解遥感图像中的关键区域和目标关系。作者认为，除了构建数据集和改模型结构，prompt 也是遥感 VLM 适配中值得研究的一个入口。

2. 方法：两类遥感 Prompt

论文主要提出了两类 prompt 策略。

第一类是 CogPrompt，也就是认知引导式 Prompt。它类似 Chain-of-Thought，让模型不要直接回答，而是先分析图像背景、目标特征、几何形状、纹理和空间关系，再给出最终答案。作者还设计了更强约束版本 CogPrompt-G，把推理步骤拆得更细。

第二类是 KnowPrompt，也就是知识注入式 Prompt。它会在问题中加入一些先验信息。例如，不是问“图中有没有飞机？”，而是提示模型：

There is at least one plane in this image.

这样模型可以减少“是否存在目标”的判断压力，更专注于定位目标。

3. 实验设计

作者在两个阶段验证 prompt 的作用。

第一个阶段是 Zero-shot Prompting。模型参数完全不变，只替换 prompt，看模型表现是否提升。

第二个阶段是 Prompt-Informed SFT。作者把优化后的 prompt 和带有推理过程的答案构造成训练样本，再使用 LoRA 对模型进行轻量微调。

实验模型包括 Qwen2-VL-7B、Qwen2.5-VL-7B、LLaVA-1.5-7B 和 InternVL3-2B。任务包括遥感目标检测和图像描述，数据集涉及 DOTA、DIOR、RSICD、Sydney Captions 和 DIOR-RSVG。

4. 主要结果

实验结论比较清晰：CogPrompt 通常有效，尤其是在遥感图像描述任务上提升明显。

例如，在 DIOR-RSVG captioning 任务中，Qwen2.5 的 BLEU 从 9.05 提升到 27.17；在 Sydney Captions 上，LLaVA 的 BLEU 从 5.92 提升到 17.38。这说明 CoT 风格的 prompt 确实能帮助模型更好地组织遥感场景语义。

在目标检测任务上，CogPrompt 也有提升，但不如 captioning 稳定。它对 LLaVA、InternVL 这类初始遥感能力较弱的模型帮助更明显；对 Qwen2、Qwen2.5 这类基础能力较强的模型，复杂 prompt 有时反而会带来额外干扰。

KnowPrompt 的作用主要体现在提升召回率。因为它告诉模型“目标存在”，模型更倾向于去寻找目标，漏检可能减少。但它也可能引入误检，所以并不是任何场景都适合使用。

5. 我的理解

这篇论文的创新点不在模型结构，而在于提醒我们：遥感 VLM 的表现不仅由模型和数据决定，语言交互方式本身也会影响模型能力释放。

对于遥感任务来说，一个好的 prompt 不只是普通提问，而应该引导模型关注遥感图像中的关键特征，比如俯视视角、目标尺度、空间关系、纹理结构和上下文区域。

不过这篇论文也有一些局限。例如，目标检测部分的绝对性能并不算高，而且 IoU 阈值放宽到了 0.1，说明当前通用 VLM 做精确 bbox 定位仍然比较困难。另外，captioning 主要使用 BLEU-1 评价，指标相对简单。

6. 总结

整体来看，这是一篇比较轻量但有参考价值的论文。它证明了 prompt optimization 在遥感 VLM 中确实有作用，尤其适合用于图像描述、区域理解和复杂场景分析任务。

如果大家也正在做遥感多模态大模型，尤其是数据构造、指令设计或者 SFT 样本设计，这篇论文值得快速阅读。它不一定能提供很强的模型创新启发，但能帮助我们更好地理解：遥感大模型训练中，prompt 和 instruction 的设计本身也是一种重要的数据工程。