在这里插入图片描述

摘要

虽然卷积神经网络对各种计算机视觉任务显示出了巨大的影响,但由于卷积操作的内在局部性,它们通常在明确建模远程依赖方面表现出局限性。Transformer最初是为自然语言处理任务而设计的,现在已经成为具有固有的全局自我注意机制的替代架构,以捕获长期的依赖关系。在本文中,我们提出了跨深度(TransDepth),一个架构,它受益于卷积神经网络和变压器。为了避免网络由于采用变压器而失去捕获局部级细节的能力,我们提出了一种基于门的注意机制的新型解码器。值得注意的是,这是第一篇将变压器应用到涉及连续标签的像素级预测问题(即单眼深度预测和表面法向估计)的论文。大量的实验表明,所提出的跨深度在三个具有挑战性的数据集上达到了最先进的性能。

介绍

在过去的十年里,卷积神经网络已经成为一种特殊的方法来处理基本的和具有挑战性的计算机视觉任务,需要密集的像素级预测,如语义分割[6,20]、单眼深度预测[38,17]和正常表面计算[41]。自从[26]的开创性工作以来,现有的深度预测模型一直由使用ResNet和VGG-Net等架构实现的编码器所主导。编码器逐步降低空间分辨率,并学习更多的概念与更大的接受域。因为上下文建模对于像素级预测至关重要,所以深度特征表示学习可以说是最关键的模型组件[5]。然而,深度预测网络要提高其建模全局上下文的能力仍然具有挑战性。传统上,在编码器中同时使用堆叠的卷积层和连续的下采样生成足够大的深层接受域。这个问题通常在某种程度上被规避,而不是被解决。不幸的是,现有的策略带来了一些缺点:
(1)极深网的训练受到连续乘法冲刷低层次特征的影响;
(2)由于空间分辨率逐渐降低,因此对密集预测任务至关重要的局部信息被丢弃。
为了克服这些限制,最近提出了几种方法。一种解决方案是直接使用卷积操作,例如使用大的内核大小[40]、空洞卷积[5]和图像/特征金字塔[63]来操作卷积操作。另一种解决方案是将注意力模块集成到全卷积的网络架构中。该模块旨在建模特征图[54]中所有像素的全局交互。当应用于单眼深度预测[59,58]时,一般的方法是将注意模块与多尺度融合方法相结合。最近,Huynh等人。[30]提出了一个深度-注意量,以纳入一个非局部共面约束的网络。[25]等人依赖于一个固定的预先训练好的语义分割网络来指导全局表示学习。虽然这些方法的性能得到了显著的提高,但上述问题仍然存在。

变形金刚最初被用于在NLP任务中建模序列到序列预测,以获得更大的接受域,最近引起了计算机视觉界的极大兴趣。在[15]中提出了第一个纯基于自注意的视觉变压器(ViT),在ImageNet上获得了与卷积网络相比的良好结果。此外,SETR [64]用纯变压器代替了编码器,在城市景观数据集上获得了有竞争的结果。有趣的是,我们发现,由于在局部信息建模中缺乏空间归纳偏差,基于类SETR的纯变压器分割网络产生了不令人满意的性能。同时,以往大多数基于深度特征表示学习的方法都未能解决这一问题。如今,只有少数研究人员[3]正在考虑将cnn与变形金刚结合,创造一种混合结构。

与将像素级预测任务视为序列到序列的预测问题相比,我们首先提出将变压器嵌入到ResNet主干中,以建模语义像素依赖关系。此外,我们设计了一种新的有效的统一注意门解码器来解决纯线性变压器的嵌入特征在捕获局部表示时缺乏空间归纳偏差的缺点。我们的经验表明,我们的方法为模型设计提供了一个新的视角,并在几个具有挑战性的基准测试上取得了最先进的水平。
在这里插入图片描述
在这里插入图片描述

TransDepth

如前所述,我们的工作旨在通过添加Transformer层通过注意门解码器增强学习表示解决有限的感受域

Transformer for Depth Prediction

如图1所示,不同于之前的工作将输入图像I(HW3)变形成一系列拉直的2Dpatch(Ip,N*(p2·3)),本文提出一个混合模型。如图1所示,输入序列来自resnet backbone。然后将补丁嵌入应用于从CNN的最终特征输出中提取的补丁。这个补丁嵌入的核大小应该是p×p,这意味着输入序列是通过简单地将特征图的空间维数扁平化并投影到变压器维数来获得的。在这种情况下,我们还删除了位置嵌入,因为缺少了原始的物理意义。第一变压器层的输入计算如下:
在这里插入图片描述
在这里插入图片描述

Attention Gate Decoder

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对比实验结果

在这里插入图片描述

GitHub 加速计划 / tra / transformers
130.24 K
25.88 K
下载
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:2 个月前 )
13493215 * remove v4.44 deprecations * PR comments * deprecations scheduled for v4.50 * hub version update * make fiuxp --------- Co-authored-by: Marc Sun <57196510+SunMarc@users.noreply.github.com> Co-authored-by: Arthur <48595927+ArthurZucker@users.noreply.github.com> 23 小时前
8d50fda6 * Remove FSDP wrapping from sub-models. * solve conflict trainer.py * make fixup * add unit test for fsdp_auto_wrap_policy when using auto_find_batch_size * put back extract_model_from_parallel * use transformers unwrap_model 23 小时前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐