PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation
文章目录
1、Abstract
-
提出了VLT框架,以促进多模态信息之间的深度交互,并增强对视觉语言特征的整体理解。
-
为了应对语言表达的随机性和巨大多样性,提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。
-
为了在这些不同的comprehensions中找到最好的,从而生成更好的掩码,我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。
-
为了提高模型处理不同语言表达的能力,我们考虑inter-sample learning,明确赋予模型去理解同一object但不同语言表达的知识。
-
我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离,同时更加区分不同对象的特征。
2、整体架构
3、Spatial-Dynamic Multi-Modal Fusion
- 对视觉特征和语言特征进行多模态融合
- 现有方法:首先,这一步没有充分利用单个单词的特征。其次,平铺的语言特征对于图像特征上的所有像素来说都是相同的,这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
- Spatial-Dynamic Fusion (SDF) module:根据语言信息与相应像素信息之间的相互作用,为图像特征的不同位置产生不同的语言特征向量。
4、Query Generation Module
-
不采用fixed queries:这种固定的可学习的queries没有考虑referring segmentation的巨大多样性(输入图像和语言表达都是不受约束的,随机性非常高);只是去检测整个图像中的所有目标,而非去关注language expression所指代的目标;不能提供有效的包含目标的信息
-
因此,采用了QGM,根据输入图像和language自适应的生成特定于input的queries(例如捕获关键信息,“blue/yellow”, “small/large”, “right/left”等)
-
QGM同时要加入图像的视觉信息,例如:只对language做self-attention无法区分“large”和“left”的重要性,因此在视觉信息的帮助下,生成多个不同的queries,表示给定language下的具有不同emphasized words的理解
5、Query Balance Module
- 输入:QGM模块生成的Fq和decoder的Response Fr
- 得到的Cq与Fr进行weighting,Cq表示的是Nq个query vector的confidence 分数,反映该vector与图像上下文以及预测的拟合程度,weighting是控制Fr对于mask decoding的影响
- QGM+QBM:生成具有不同emphasis的queries+有选择性的融合这些queries到response中,协同工作,加强对vision和language的多样性的理解
6、Mask Decoder
7、Masked Contrastive Learning
8、可视化结果
更多推荐
所有评论(0)