摘要

RemoteCLIP是首个针对遥感领域的视觉-语言基础模型,旨在学习具有丰富语义的视觉特征和与文本嵌入对齐的鲁棒特征,以实现无缝的下游应用。该模型通过数据扩展解决了预训练数据稀缺的问题,将异构注释转换为统一的图像-标题数据格式。RemoteCLIP在多种下游任务上进行了评估,包括零样本图像分类、线性探测、k-NN分类、少样本分类、图像-文本检索和遥感图像中的对象计数。在16个数据集上的评估显示,RemoteCLIP在不同模型规模上一致地超越了基线模型。特别是在RSITMD和RSICD数据集上,RemoteCLIP在平均召回率上分别超过了最先进的方法9.14%和8.92%。在零样本分类任务上,RemoteCLIP在12个下游数据集上平均准确率超过对比语言图像预训练(CLIP)基线6.39%。

 拟解决的问题

  1. 现有模型的局限性:传统的遥感图像分析基础模型主要基于自监督学习(SSL)和掩码图像建模(MIM),这些模型主要学习低级特征,并且需要标注数据进行微调。此外,由于缺乏语言理解能力,它们不适用于检索和零样本(zero-shot)应用。
  2. 预训练数据的稀缺性:现有的遥感图像标注数据集规模较小,不足以训练大型视觉-语言基础模型,导致严重的过拟合现象。
  3. 多模态应用的需求:遥感领域需要能够处理图像和文本内容的模型,以解释复杂的卫星图像及其相关的语义含义。

主要贡献

  1. 视觉-语言基础模型:RemoteCLIP是首个为遥感领域设计的视觉-语言基础模型,旨在通过学习鲁棒的视觉特征和丰富的语义信息,同时学习与视觉特征对齐的文本嵌入,从而实现在不同下游任务中的应用。

  2. 数据扩展策略

     Box-to-Caption (B2C):通过规则化的方法,将对象检测数据集中的边界框注释转换为自然语言标题。这种方法可以生成描述图像中对象的五个不同的标题,增加了上下文和空间分布的信息。

    Mask-to-Box (M2B):将语义分割数据集中的分割掩码转换为边界框注释,然后使用B2C生成相应的标题。这种方法允许将分割数据集无缝集成到预训练数据中。 

  3. 大规模预训练数据集:通过数据扩展策略,研究者们将异构注释(包括对象检测边界框和语义分割图)转换为统一的图像-标题数据格式。这种数据扩展使得预训练数据集的规模扩大了12倍,比现有所有公开数据集的总和还要大。

  4. 多模态学习:RemoteCLIP不仅学习视觉特征,还学习与视觉特征对齐的文本嵌入,这种多模态学习使得模型能够更好地理解和处理遥感图像及其相关文本描述。

  5. 下游任务的广泛应用:RemoteCLIP在多种下游任务上进行了评估,包括零样本图像分类、线性探测、k-NN分类、少样本分类、图像-文本检索和对象计数。这些任务覆盖了遥感领域的多个重要应用场景。

  6. 性能提升:在16个数据集上的综合评估显示,RemoteCLIP在不同模型规模上一致地超越了基线模型。特别是在RSITMD和RSICD数据集上,RemoteCLIP在平均召回率上分别超过了最先进的方法9.14%和8.92%。在零样本分类任务上,RemoteCLIP在12个下游数据集上平均准确率超过对比语言图像预训练(CLIP)基线6.39%。

  7. 新基准数据集:为了测试对象计数能力,研究者们开发了一个新的基准数据集“RemoteCount”,这为评估遥感图像中的对象计数能力提供了新的标准。

方法

1. 数据扩展(Data Scaling) 

为了解决预训练数据不足的问题,作者采用了数据扩展策略,将异构的注释数据转换成统一的图像-标题对。

  • Mask-to-Box (M2B):将语义分割数据集中的掩码转换为边界框,然后应用B2C生成标题。这涉及到使用轮廓提取算法来确定每个类别的边界框坐标。
  • Box-to-Caption (B2C):利用现有的对象检测数据集中的边界框和类别标签,通过规则化方法生成自然语言标题。这一步骤生成五个不同的描述性标题,以增加上下文信息并反映图像中对象的空间分布。

五个描述性标题:前两个标题是根据目标位置(边界框的中心点)生成的:第一个标题描述的是图像中心的物体,而第二个标题描述的是不在中心的物体。这种区分提供了关于图像中物体空间分布的额外上下文和信息。剩余的3个标题通过考虑图像中不同物体类别的数量来生成。从边界框注释列表中选择随机对象,并相应地生成标题。如果一个对象出现的次数超过10次,则使用一个更通用的术语(例如,“许多”和“很多”)而不是确切的数字,以增强标题的可读性和可变性。

2. 数据去重(Sample De-Duplication)

为了避免在不同数据源的训练和测试中出现数据泄露,使用基于p-Hash的局部检测方法来识别和移除重复的图像样本。

3. 预训练模型(Pretraining Model)

RemoteCLIP基于CLIP模型进行持续预训练,通过优化InfoNCE损失函数来对齐图像和文本的表示。InfoNCE损失函数鼓励模型将语义相似的样本表示聚集在一起,并将不匹配的样本表示推开。

损失: 

 

RemoteCLIP采用了不同规模的视觉模型作为其视觉编码器,包括ResNet-50、ViT-Base-32和ViT-Large-14,以及一个基于Transformer的文本编码器。

结论

RemoteCLIP作为遥感领域的一种新型视觉-语言基础模型,通过大规模数据扩展和预训练,实现了在多种下游任务上的优越性能。尽管RemoteCLIP在数据规模和模型大小方面还有提升空间,但其当前的成果已经证明了数据为中心的方法在开发领域基础模型中的重要性。未来的工作将集中在进一步扩大模型参数、增加预训练数据的多样性和质量,以及探索更多的感官模态。

GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:3 个月前 )
518ee93d 3 天前
7d077f13 5 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐