GeoChat:首个支持视觉定位的遥感大语言模型,开启遥感智能对话新时代
一、论文信息
论文题目:GeoChat : Grounded Large Vision-Language Model for Remote Sensing
论文作者:Kartik Kuckreja, Abhijit Das, Muhammad Sohail Danish, Salman Khan, Muzammal Naseer, Fahad Shahbaz Khan
发表单位:Mohamed bin Zayed University of AI、Birla Institute of Technology & Science Hyderabad、Australian National University、Linköping University
发表会议 :2024 CVPR
代码链接:https://github.com/mbzuai-oryx/GeoChat
二、论文主要贡献
针对通用大视觉语言模型(VLMs)在遥感(RS)领域表现不佳、缺乏领域专用多模态指令数据和定位能力的核心问题,本文提出了首个支持视觉定位的遥感多任务对话大模型 GeoChat,主要贡献如下:
1.构建了首个大规模遥感多模态指令跟随数据集,通过自动化 pipeline 整合现有遥感检测、分类、VQA 数据集,生成了包含 318k 条指令对的多任务数据集,覆盖图像描述、视觉问答、场景分类、区域推理和视觉定位等任务。
2.提出了统一的遥感视觉定位对话框架 GeoChat,基于 LLaVA-1.5 架构改进,首次实现了遥感图像的图像级对话、区域级对话和视觉定位对话的统一,支持用户输入边界框进行区域查询,同时能在回答中输出物体的精确空间坐标。
3.建立了遥感多任务对话的综合评估基准,设计了针对遥感视觉定位、区域字幕等任务的评估协议,在多个标准数据集上进行了全面的零样本和监督实验,证明了 GeoChat 在各类遥感任务上的优异泛化能力。
三、论文创新点
1.首次实现遥感领域的视觉定位对话能力,通过引入任务令牌和空间位置表示,支持指代检测、区域字幕和视觉定位对话三种核心定位功能,解决了传统遥感模型只能输出分类结果的局限性。

- 提出了一套完整的自动化遥感多模态指令数据生成 pipeline,解决了遥感领域缺乏大规模多模态指令数据的问题,通过补充缺失类别伪标签、提取物体多维度属性和生成多样化指代表达式,构建了高质量的 318k 指令数据集。
3.针对高分辨率遥感图像的特点进行了针对性优化,将 CLIP-ViT-L-14 的输入分辨率从 336×336 插值到 504×504,同时采用 LoRA 微调策略,在保留通用对话能力的同时注入遥感领域知识。
四、方法
4.1GeoChat 支持三个层次的遥感图像理解任务:
1.图像级对话任务
处理整张图像和文本查询,完成图像描述、视觉问答、场景分类等全局任务,输入输出均不包含特定空间坐标。
2.区域级对话任务
接收用户输入的边界框,针对指定区域进行问答和描述,引导模型注意力聚焦于图像中的特定部分。
3.视觉定位对话任务
在回答中嵌入物体的空间坐标,实现文本与视觉的精准对齐,支持生成带空间信息的自然语言描述。
4.2GeoChat 整体架构
1.GeoChat 基于 LLaVA-1.5 架构改进,由四个核心组件组成:高分辨率视觉编码器、MLP 跨模态适配器、大语言模型和任务令牌系统。与原始 LLaVA-1.5 相比,主要增加了任务令牌机制和空间位置表示能力,支持区域输入和定位输出。
2.使用开源的 Vicuna-v1.5-7B 作为语言模型,采用 LoRA 微调策略,这种策略既保证了训练效率,又避免了灾难性遗忘,保留了 Vicuna 的通用对话能力。
4.3数据集构建

数据生成关键步骤:
1.补充缺失类别:使用 ViTAE-RVSA 模型在 LoveDA 数据集上预训练,生成建筑、道路、树木的伪标签
2.属性提取:提取每个物体的类别、颜色(K-Means 聚类)、相对大小、相对位置和空间关系
3.表达式生成:基于预定义模板生成多样化的指代表达式
4.指令转换:将结构化数据转换为自然语言指令对

五、实验分析

从中不仅可以看出GeoChat的性能优越性,更是有着强大的泛化能力

这两张表是 GeoChat 论文中最核心的两组实验结果,分别从传统遥感 VQA 任务和独有视觉定位任务两个维度,全面验证了 GeoChat 的性能优势。它们共同证明了 GeoChat 不仅在传统任务上实现了零样本性能接近监督 SOTA,更重要的是首次实现了遥感领域的视觉定位能力,填补了该领域的空白。
六、个人声明
本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)