PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

免费下载资源

masterleoo

1220人浏览 · 2023-11-24 20:24:28

masterleoo · 2023-11-24 20:24:28 发布

文章目录

1、Abstract
2、整体架构
3、Spatial-Dynamic Multi-Modal Fusion
4、Query Generation Module
5、Query Balance Module
6、Mask Decoder
7、Masked Contrastive Learning
8、可视化结果

1、Abstract

提出了VLT框架，以促进多模态信息之间的深度交互，并增强对视觉语言特征的整体理解。
为了应对语言表达的随机性和巨大多样性，提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。
为了在这些不同的comprehensions中找到最好的，从而生成更好的掩码，我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。
为了提高模型处理不同语言表达的能力，我们考虑inter-sample learning，明确赋予模型去理解同一object但不同语言表达的知识。
我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离，同时更加区分不同对象的特征。

2、整体架构

在这里插入图片描述

3、Spatial-Dynamic Multi-Modal Fusion

对视觉特征和语言特征进行多模态融合
现有方法：首先，这一步没有充分利用单个单词的特征。其次，平铺的语言特征对于图像特征上的所有像素来说都是相同的，这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
Spatial-Dynamic Fusion (SDF) module：根据语言信息与相应像素信息之间的相互作用，为图像特征的不同位置产生不同的语言特征向量。

4、Query Generation Module

不采用fixed queries：这种固定的可学习的queries没有考虑referring segmentation的巨大多样性（输入图像和语言表达都是不受约束的，随机性非常高）；只是去检测整个图像中的所有目标，而非去关注language expression所指代的目标；不能提供有效的包含目标的信息
因此，采用了QGM，根据输入图像和language自适应的生成特定于input的queries（例如捕获关键信息，“blue/yellow”, “small/large”, “right/left”等）
QGM同时要加入图像的视觉信息，例如：只对language做self-attention无法区分“large”和“left”的重要性，因此在视觉信息的帮助下，生成多个不同的queries，表示给定language下的具有不同emphasized words的理解

5、Query Balance Module

输入：QGM模块生成的Fq和decoder的Response Fr
得到的Cq与Fr进行weighting，Cq表示的是Nq个query vector的confidence 分数，反映该vector与图像上下文以及预测的拟合程度，weighting是控制Fr对于mask decoding的影响
QGM+QBM：生成具有不同emphasis的queries+有选择性的融合这些queries到response中，协同工作，加强对vision和language的多样性的理解

6、Mask Decoder

在这里插入图片描述

7、Masked Contrastive Learning

在这里插入图片描述

8、可视化结果

在这里插入图片描述

GitHub 加速计划 / vi / vision

15.85 K

6.89 K

下载

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

最近提交(Master分支：3 个月前 )

518ee93d 7 天前

7d077f13 9 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m