GeoChat：首个支持视觉定位的遥感大语言模型，开启遥感智能对话新时代

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501

454人浏览 · 2026-05-23 23:16:51

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501 · 2026-05-23 23:16:51 发布

一、论文信息

论文题目：GeoChat : Grounded Large Vision-Language Model for Remote Sensing
论文作者：Kartik Kuckreja, Abhijit Das, Muhammad Sohail Danish, Salman Khan, Muzammal Naseer, Fahad Shahbaz Khan
发表单位：Mohamed bin Zayed University of AI、Birla Institute of Technology & Science Hyderabad、Australian National University、Linköping University
发表会议：2024 CVPR
代码链接：https://github.com/mbzuai-oryx/GeoChat

二、论文主要贡献

针对通用大视觉语言模型（VLMs）在遥感（RS）领域表现不佳、缺乏领域专用多模态指令数据和定位能力的核心问题，本文提出了首个支持视觉定位的遥感多任务对话大模型 GeoChat，主要贡献如下：
1.构建了首个大规模遥感多模态指令跟随数据集，通过自动化 pipeline 整合现有遥感检测、分类、VQA 数据集，生成了包含 318k 条指令对的多任务数据集，覆盖图像描述、视觉问答、场景分类、区域推理和视觉定位等任务。
2.提出了统一的遥感视觉定位对话框架 GeoChat，基于 LLaVA-1.5 架构改进，首次实现了遥感图像的图像级对话、区域级对话和视觉定位对话的统一，支持用户输入边界框进行区域查询，同时能在回答中输出物体的精确空间坐标。
3.建立了遥感多任务对话的综合评估基准，设计了针对遥感视觉定位、区域字幕等任务的评估协议，在多个标准数据集上进行了全面的零样本和监督实验，证明了 GeoChat 在各类遥感任务上的优异泛化能力。

三、论文创新点

1.首次实现遥感领域的视觉定位对话能力，通过引入任务令牌和空间位置表示，支持指代检测、区域字幕和视觉定位对话三种核心定位功能，解决了传统遥感模型只能输出分类结果的局限性。

请添加图片描述

提出了一套完整的自动化遥感多模态指令数据生成 pipeline，解决了遥感领域缺乏大规模多模态指令数据的问题，通过补充缺失类别伪标签、提取物体多维度属性和生成多样化指代表达式，构建了高质量的 318k 指令数据集。
3.针对高分辨率遥感图像的特点进行了针对性优化，将 CLIP-ViT-L-14 的输入分辨率从 336×336 插值到 504×504，同时采用 LoRA 微调策略，在保留通用对话能力的同时注入遥感领域知识。

四、方法

4.1GeoChat 支持三个层次的遥感图像理解任务：

1.图像级对话任务
处理整张图像和文本查询，完成图像描述、视觉问答、场景分类等全局任务，输入输出均不包含特定空间坐标。
2.区域级对话任务
接收用户输入的边界框，针对指定区域进行问答和描述，引导模型注意力聚焦于图像中的特定部分。
3.视觉定位对话任务
在回答中嵌入物体的空间坐标，实现文本与视觉的精准对齐，支持生成带空间信息的自然语言描述。

4.2GeoChat 整体架构

1.GeoChat 基于 LLaVA-1.5 架构改进，由四个核心组件组成：高分辨率视觉编码器、MLP 跨模态适配器、大语言模型和任务令牌系统。与原始 LLaVA-1.5 相比，主要增加了任务令牌机制和空间位置表示能力，支持区域输入和定位输出。
2.使用开源的 Vicuna-v1.5-7B 作为语言模型，采用 LoRA 微调策略，这种策略既保证了训练效率，又避免了灾难性遗忘，保留了 Vicuna 的通用对话能力。

4.3数据集构建

请添加图片描述
数据生成关键步骤：
1.补充缺失类别：使用 ViTAE-RVSA 模型在 LoveDA 数据集上预训练，生成建筑、道路、树木的伪标签
2.属性提取：提取每个物体的类别、颜色（K-Means 聚类）、相对大小、相对位置和空间关系
3.表达式生成：基于预定义模板生成多样化的指代表达式
4.指令转换：将结构化数据转换为自然语言指令对
在这里插入图片描述
请添加图片描述

五、实验分析

在这里插入图片描述
从中不仅可以看出GeoChat的性能优越性，更是有着强大的泛化能力

这两张表是 GeoChat 论文中最核心的两组实验结果，分别从传统遥感 VQA 任务和独有视觉定位任务两个维度，全面验证了 GeoChat 的性能优势。它们共同证明了 GeoChat 不仅在传统任务上实现了零样本性能接近监督 SOTA，更重要的是首次实现了遥感领域的视觉定位能力，填补了该领域的空白。