遥感 VLM 还能靠 Prompt 提升?一篇面向遥感VLM 的 Prompt Optimization 论文快报
遥感 VLM 还能靠 Prompt 提升?一篇面向遥感VLM 的 Prompt Optimization 论文快报

最近读到一篇遥感多模态相关论文:《Exploring the Potential of VLMs in Remote Sensing through Prompt Optimization》。这篇文章的核心问题很直接:不改模型结构,只优化 prompt,能不能提升通用视觉语言模型在遥感任务上的表现?
1. 论文想解决什么问题?
现在很多通用 VLM,例如 Qwen-VL、LLaVA、InternVL,在自然图像理解上表现不错。但遥感图像和普通图像差异很大:遥感图像通常是俯视视角,目标尺度变化明显,小目标密集,而且很多判断依赖纹理、空间关系和场景上下文。
因此,如果直接使用普通 prompt,比如:
Describe the image.
Locate the airplane.
模型往往不能很好理解遥感图像中的关键区域和目标关系。作者认为,除了构建数据集和改模型结构,prompt 也是遥感 VLM 适配中值得研究的一个入口。
2. 方法:两类遥感 Prompt
论文主要提出了两类 prompt 策略。
第一类是 CogPrompt,也就是认知引导式 Prompt。它类似 Chain-of-Thought,让模型不要直接回答,而是先分析图像背景、目标特征、几何形状、纹理和空间关系,再给出最终答案。作者还设计了更强约束版本 CogPrompt-G,把推理步骤拆得更细。
第二类是 KnowPrompt,也就是知识注入式 Prompt。它会在问题中加入一些先验信息。例如,不是问“图中有没有飞机?”,而是提示模型:
There is at least one plane in this image.
这样模型可以减少“是否存在目标”的判断压力,更专注于定位目标。
3. 实验设计
作者在两个阶段验证 prompt 的作用。
第一个阶段是 Zero-shot Prompting。模型参数完全不变,只替换 prompt,看模型表现是否提升。
第二个阶段是 Prompt-Informed SFT。作者把优化后的 prompt 和带有推理过程的答案构造成训练样本,再使用 LoRA 对模型进行轻量微调。
实验模型包括 Qwen2-VL-7B、Qwen2.5-VL-7B、LLaVA-1.5-7B 和 InternVL3-2B。任务包括遥感目标检测和图像描述,数据集涉及 DOTA、DIOR、RSICD、Sydney Captions 和 DIOR-RSVG。
4. 主要结果
实验结论比较清晰:CogPrompt 通常有效,尤其是在遥感图像描述任务上提升明显。
例如,在 DIOR-RSVG captioning 任务中,Qwen2.5 的 BLEU 从 9.05 提升到 27.17;在 Sydney Captions 上,LLaVA 的 BLEU 从 5.92 提升到 17.38。这说明 CoT 风格的 prompt 确实能帮助模型更好地组织遥感场景语义。
在目标检测任务上,CogPrompt 也有提升,但不如 captioning 稳定。它对 LLaVA、InternVL 这类初始遥感能力较弱的模型帮助更明显;对 Qwen2、Qwen2.5 这类基础能力较强的模型,复杂 prompt 有时反而会带来额外干扰。
KnowPrompt 的作用主要体现在提升召回率。因为它告诉模型“目标存在”,模型更倾向于去寻找目标,漏检可能减少。但它也可能引入误检,所以并不是任何场景都适合使用。
5. 我的理解
这篇论文的创新点不在模型结构,而在于提醒我们:遥感 VLM 的表现不仅由模型和数据决定,语言交互方式本身也会影响模型能力释放。
对于遥感任务来说,一个好的 prompt 不只是普通提问,而应该引导模型关注遥感图像中的关键特征,比如俯视视角、目标尺度、空间关系、纹理结构和上下文区域。
不过这篇论文也有一些局限。例如,目标检测部分的绝对性能并不算高,而且 IoU 阈值放宽到了 0.1,说明当前通用 VLM 做精确 bbox 定位仍然比较困难。另外,captioning 主要使用 BLEU-1 评价,指标相对简单。
6. 总结
整体来看,这是一篇比较轻量但有参考价值的论文。它证明了 prompt optimization 在遥感 VLM 中确实有作用,尤其适合用于图像描述、区域理解和复杂场景分析任务。
如果大家也正在做遥感多模态大模型,尤其是数据构造、指令设计或者 SFT 样本设计,这篇论文值得快速阅读。它不一定能提供很强的模型创新启发,但能帮助我们更好地理解:遥感大模型训练中,prompt 和 instruction 的设计本身也是一种重要的数据工程。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)