1、Abstract

  • 提出了VLT框架,以促进多模态信息之间的深度交互,并增强对视觉语言特征的整体理解。

  • 为了应对语言表达的随机性和巨大多样性,提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。

  • 为了在这些不同的comprehensions中找到最好的,从而生成更好的掩码,我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。

  • 为了提高模型处理不同语言表达的能力,我们考虑inter-sample learning,明确赋予模型去理解同一object但不同语言表达的知识。

  • 我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离,同时更加区分不同对象的特征。
    在这里插入图片描述

2、整体架构

在这里插入图片描述
在这里插入图片描述

3、Spatial-Dynamic Multi-Modal Fusion

  • 对视觉特征和语言特征进行多模态融合
  • 现有方法:首先,这一步没有充分利用单个单词的特征。其次,平铺的语言特征对于图像特征上的所有像素来说都是相同的,这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
    在这里插入图片描述
  • Spatial-Dynamic Fusion (SDF) module:根据语言信息与相应像素信息之间的相互作用,为图像特征的不同位置产生不同的语言特征向量。
    在这里插入图片描述
    在这里插入图片描述

4、Query Generation Module

  • 不采用fixed queries:这种固定的可学习的queries没有考虑referring segmentation的巨大多样性(输入图像和语言表达都是不受约束的,随机性非常高);只是去检测整个图像中的所有目标,而非去关注language expression所指代的目标;不能提供有效的包含目标的信息

  • 因此,采用了QGM,根据输入图像和language自适应的生成特定于input的queries(例如捕获关键信息,“blue/yellow”, “small/large”, “right/left”等)

  • QGM同时要加入图像的视觉信息,例如:只对language做self-attention无法区分“large”和“left”的重要性,因此在视觉信息的帮助下,生成多个不同的queries,表示给定language下的具有不同emphasized words的理解
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

5、Query Balance Module

  • 输入:QGM模块生成的Fq和decoder的Response Fr
  • 得到的Cq与Fr进行weighting,Cq表示的是Nq个query vector的confidence 分数,反映该vector与图像上下文以及预测的拟合程度,weighting是控制Fr对于mask decoding的影响
  • QGM+QBM:生成具有不同emphasis的queries+有选择性的融合这些queries到response中,协同工作,加强对vision和language的多样性的理解
    在这里插入图片描述

6、Mask Decoder

在这里插入图片描述
在这里插入图片描述

7、Masked Contrastive Learning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8、可视化结果

在这里插入图片描述

GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:3 个月前 )
518ee93d 7 天前
7d077f13 9 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐