一、论文信息

论文标题:LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
发表会议:ECCV 2024
核心单位:南京大学
开源地址:https://github.com/NJU-LHRS/LHRS-Bot
论文作者:Dilxat Muhtar†, Zhenshi Li†, Feng Gu, Xueliang Zhang*, and Pengfeng Xiao

二、论文主要贡献

1.构建了LHRS-Align大规模遥感图文对齐数据集:利用 OpenStreetMap(OSM)众源地理信息(VGI)与全球遥感影像,生成了包含 115 万高质量样本的遥感图文对,解决了遥感领域数据匮乏与标注质量低的问题

2.构建了LHRS-Instruct遥感专用指令数据集:融合公开遥感数据集与 GPT-4 增强数据,覆盖多任务指令,为模型微调提供高质量监督信号。

3.提出了LHRS-Bot模型:设计多级视觉 - 语言对齐策略与递减查询分配的视觉感知器,结合三阶段课程学习,实现了视觉与语言模型的深度对齐。

4.构建了LHRS-Bench遥感 MLLM 评估基准:包含 690 道单选题,覆盖识别、影像属性、空间感知、数量、推理五大维度,为遥感多模态模型提供标准化评估方案。在这里插入图片描述

三、 论文创新点

1.数据层面:首次大规模融合众源地理信息(VGI)与全球遥感影像,构建高质量遥感图文数据集,突破了现有模型依赖有限公开数据的局限。
2.模型架构:提出多级视觉表征聚合与递减查询分配的视觉感知器,在压缩视觉 token 的同时,兼顾浅层细节特征与深层语义特征,实现高效视觉 - 语言对齐。
3.评估体系:构建 LHRS-Bench 基准,解决现有遥感多模态模型评估不全面、无数据泄露的问题,为后续研究提供统一评估标准。
在这里插入图片描述

四、方法

4.1 模型整体架构

LHRS-Bot 采用 “视觉编码器 + 视觉感知器 + 大语言模型” 的三级架构,核心模块如下:
1.视觉编码器
采用 CLIP-ViT-L/14 作为视觉编码器,提取多层级特征:
浅层特征:包含纹理、边缘等细节信息,对应遥感图像的地物细节
深层特征:包含语义、类别信息,对应遥感图像的场景语义
2.视觉感知器(Vision Perceiver)
设计了递减查询分配策略的视觉感知器:
为不同层级的视觉特征分配不同数量的可学习查询(浅层 64 个→中层 48 个→深层 32 个),优先保留细节特征
通过交叉注意力与 MLP 聚合多级视觉特征,将图像压缩为固定长度的视觉 token,降低计算开销,避免语言信息被淹没
3.大语言模型
以 LLaMA2-7B 为基础模型,采用 LoRA(低秩适配)进行高效微调,在保留通用语言能力的同时,适配遥感领域的指令理解与生成任务。
在这里插入图片描述

五、实验分析

5.1 对比实验结果
场景分类任务:在 AID、WHU-RS19、NWPU 等 7 个数据集上,LHRS-Bot 平均精度达到 71.83%,远超第二名 mPLUG-OWL2(44.32%),在细粒度数据集 fMoW 上领先超 40%。
遥感视觉问答任务:在 RSVQA-LR/RSVQA-HR 数据集上,平均精度分别为 89.19% 与 92.55%,与 RSGPT 相当,且在高分辨率数据上刷新最优。
视觉定位任务:在 RSVG/DIOR-RSVG 数据集上,平均精度达到 80.78%,超越 SkyEyeGPT 等专用模型,验证了模型对细粒度空间信息的捕获能力。
LHRS-Bench 测试:在识别、影像属性、空间感知、数量、推理五大维度均取得最优结果,尤其在分辨率、模态、推理维度优势显著。
在这里插入图片描述
在这里插入图片描述

5.2 消融实验
数据集有效性:LHRS-Align(115 万样本)的训练效果优于 RS5M(500 万样本)、SkyScript(150 万样本),证明了领域专属数据与高质量 caption 的重要性。
架构有效性:多级特征 + 递减查询分配的设计,显著优于单级特征、均匀查询分配、Token Merging 等对比方案,验证了视觉感知器设计的合理性。
在这里插入图片描述

六、个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐