ECCV2024｜LHRS-Bot：基于 VGI 增强的遥感多模态大模型

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501

314人浏览 · 2026-06-07 15:57:42

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501 · 2026-06-07 15:57:42 发布

一、论文信息

论文标题：LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
发表会议：ECCV 2024
核心单位：南京大学
开源地址：https://github.com/NJU-LHRS/LHRS-Bot
论文作者：Dilxat Muhtar†, Zhenshi Li†, Feng Gu, Xueliang Zhang*, and Pengfeng Xiao

二、论文主要贡献

1.构建了LHRS-Align大规模遥感图文对齐数据集：利用 OpenStreetMap（OSM）众源地理信息（VGI）与全球遥感影像，生成了包含 115 万高质量样本的遥感图文对，解决了遥感领域数据匮乏与标注质量低的问题
。
2.构建了LHRS-Instruct遥感专用指令数据集：融合公开遥感数据集与 GPT-4 增强数据，覆盖多任务指令，为模型微调提供高质量监督信号。

3.提出了LHRS-Bot模型：设计多级视觉 - 语言对齐策略与递减查询分配的视觉感知器，结合三阶段课程学习，实现了视觉与语言模型的深度对齐。

4.构建了LHRS-Bench遥感 MLLM 评估基准：包含 690 道单选题，覆盖识别、影像属性、空间感知、数量、推理五大维度，为遥感多模态模型提供标准化评估方案。在这里插入图片描述

三、论文创新点

1.数据层面：首次大规模融合众源地理信息（VGI）与全球遥感影像，构建高质量遥感图文数据集，突破了现有模型依赖有限公开数据的局限。
2.模型架构：提出多级视觉表征聚合与递减查询分配的视觉感知器，在压缩视觉 token 的同时，兼顾浅层细节特征与深层语义特征，实现高效视觉 - 语言对齐。
3.评估体系：构建 LHRS-Bench 基准，解决现有遥感多模态模型评估不全面、无数据泄露的问题，为后续研究提供统一评估标准。
在这里插入图片描述

四、方法

4.1 模型整体架构

LHRS-Bot 采用 “视觉编码器 + 视觉感知器 + 大语言模型” 的三级架构，核心模块如下：
1.视觉编码器
采用 CLIP-ViT-L/14 作为视觉编码器，提取多层级特征：
浅层特征：包含纹理、边缘等细节信息，对应遥感图像的地物细节
深层特征：包含语义、类别信息，对应遥感图像的场景语义
2.视觉感知器（Vision Perceiver）
设计了递减查询分配策略的视觉感知器：
为不同层级的视觉特征分配不同数量的可学习查询（浅层 64 个→中层 48 个→深层 32 个），优先保留细节特征
通过交叉注意力与 MLP 聚合多级视觉特征，将图像压缩为固定长度的视觉 token，降低计算开销，避免语言信息被淹没
3.大语言模型
以 LLaMA2-7B 为基础模型，采用 LoRA（低秩适配）进行高效微调，在保留通用语言能力的同时，适配遥感领域的指令理解与生成任务。
在这里插入图片描述

五、实验分析

5.1 对比实验结果
场景分类任务：在 AID、WHU-RS19、NWPU 等 7 个数据集上，LHRS-Bot 平均精度达到 71.83%，远超第二名 mPLUG-OWL2（44.32%），在细粒度数据集 fMoW 上领先超 40%。
遥感视觉问答任务：在 RSVQA-LR/RSVQA-HR 数据集上，平均精度分别为 89.19% 与 92.55%，与 RSGPT 相当，且在高分辨率数据上刷新最优。
视觉定位任务：在 RSVG/DIOR-RSVG 数据集上，平均精度达到 80.78%，超越 SkyEyeGPT 等专用模型，验证了模型对细粒度空间信息的捕获能力。
LHRS-Bench 测试：在识别、影像属性、空间感知、数量、推理五大维度均取得最优结果，尤其在分辨率、模态、推理维度优势显著。
在这里插入图片描述

5.2 消融实验
数据集有效性：LHRS-Align（115 万样本）的训练效果优于 RS5M（500 万样本）、SkyScript（150 万样本），证明了领域专属数据与高质量 caption 的重要性。
架构有效性：多级特征 + 递减查询分配的设计，显著优于单级特征、均匀查询分配、Token Merging 等对比方案，验证了视觉感知器设计的合理性。
在这里插入图片描述