【详细解读DETR，基于transformer的目标检测网络】DETR： End-to-End Object Detection with Transformers

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

项目地址：https://gitcode.com/gh_mirrors/tra/transformers

免费下载资源

masterleoo

33352人浏览 · 2023-08-08 16:41:00

masterleoo · 2023-08-08 16:41:00 发布

1、概述

DETR，全称为Detection Transformer，是Facebook在ECCV2020上提出的基于Transformer的端到端目标检测网络
最大的特点就是：不需要预定义的先验anchor，也不需要NMS的后处理策略，就可以实现端到端的目标检测。
但是，DETR大目标检测上性能是最好的，而小目标上稍差，而且基于match的loss导致学习很难收敛（即难以学习到最优的情况）。
DETR的总体框架如下，先通过CNN提取图像的特征；再送入到transformer encoder-decoder中，该编码器解码器的结构基本与transformer相同，主要是在输入部分和输出部分的修改；最后得到类别和bbox的预测，并通过二分匹配计算损失来优化网络。

2、transformer的基本结构

DETR其实基本遵循了transformer的encoder-decoder结构，如下：
encoder-decoder的基本流程为：

1）对于输入，首先进行embedding操作，即将输入映射为向量的形式，包含两部分操作，第一部分是input embedding：例如，在NLP领域，称为token embedding，即将输入序列中的token（如单词或字符）映射为连续的向量表示；在CV领域，可以是将每个像素或者每个patch块映射为向量形式，例如，patch embedding层
2）另一个embedding操作为positional encoding：即位置编码，即一组与输入经过embedding操作后的向量相同维度的向量(例如都为[N, HW, C])，用于提供位置信息。位置编码与input embedding相加得到transformer 编码器的输入。
3）transformer encoder：是由多个编码模块组成的编码器层，每个编码模块由多头自注意力机制+残差add+层归一化LayerNorm+前馈网络FFN+残差add+层归一化LayerNorm组成

多头自注意力机制：核心部分，例如，在CV领域，经过embedding层后的输入为[N, HW, C]，N为Batch num，HW为像素个数，每个像素映射为一个维度为C的向量；然后通过QKV的自注意力机制和划分为多头的方式，得到输出为[N, HW, C]：

要除以 $\sqrt{d_k}$ 的原因：查询（Query）与键（Key）之间的点积，然后将这个点积除以一个缩放因子，最后应用softmax函数来获得注意力权重。如果不进行缩放，当键的维度dk很大时，点积的结果可能会非常大，这会导致softmax函数的梯度非常小，从而引起梯度消失问题。通过除以根号dk，提高训练的稳定性。

add+LayerNorm：经过多头自注意力机制后再与输入相加，并经过层归一化LayerNorm，即在最后一个维度C上做归一化，详见https://blog.csdn.net/m0_48086806/article/details/132153059
前馈网络FFN：是由两个全连接层+ReLu激活函数组成

4）transformer decoder：是由多个解码模块组成的解码器层，每个解码模块由Masked多头自注意力机制+残差add&层归一化LayerNorm+多头cross attention机制+add&LayerNorm+前馈网络FFN+add&LayerNorm。
5）此外需要注意的是，第一个解码模块的输入为output(可以初始化为0或者随机初始化)经过embedding操作后的结果，之后各个解码模块的输入就变为前一个解码模块的输出了；第二个cross attention机制的QKV输入分别为：KV键值对都是等于编码器最终的输出；Query为Masked多头自注意力的输出

Masked多头自注意力机制：一个通俗解释为：一个词序列中，每个词只能被它前面的词所影响，所以这个词后面的所有位置都需要被忽略，所以在计算Attention的时候，该词向量和它后面的词向量的相关性为0。因此为Mask

6）最后通过Linear层+Softmax得到最终的输出

在这里插入图片描述

3、DETR详解

DETR基本结构如下：简单来说，就是通过CNN提取图像特征（通常 Backbone 的输出通道为 2048，图像高和宽都变为了 1/32），并经过input embedding+positional encoding操作转换为图像序列（如下图所说，就是类似[N, HW, C]的序列）作为transformer encoder的输入，得到了编码后的图像序列，在图像序列的帮助下，将object queries（下图中说的是固定数量的可学习的位置embeddings）转换/预测为固定数量的类别+bbox预测。也就是说Transformer本质上起了一个序列转换的作用。
DETR的详细结构如下：
DETR中的encoder-decoder中与transformer的区别有

1）spatial positional encoding：新提出的二维空间位置编码方法，该位置编码分别被加入到了encoder的self attention的QK和decoder的cross attention的K，同时object queries也被加入到了decoder的两个attention（第一个加到了QK中，第二个加入了Q）中。而原版的Transformer将位置编码加到了input和output embedding中。
2）DETR在计算attention的时候没有使用masked attention，因为将特征图展开成一维以后，所有像素都可能是互相关联的，因此没必要规定mask。
3）object queries的转换过程：object queries是预定义的目标查询的个数，代码中默认为100。它的意义是：根据Encoder编码的特征，Decoder将100个查询转化成100个目标，即最终预测这100个目标的类别和bbox位置。最终预测得到的shape应该为[N, 100, C]，N为Batch Num，100个目标，C为预测的100个目标的类别数+1（背景类）以及bbox位置（4个值）。
4）得到预测结果以后，将object predictions和ground truth box之间通过匈牙利算法进行二分匹配：假如有K个目标，那么100个object predictions中就会有K个能够匹配到这K个ground truth，其他的都会和“no object”匹配成功，使其在理论上每个object query都有唯一匹配的目标，不会存在重叠，所以DETR不需要nms进行后处理。
5）分类loss采用的是交叉熵损失，针对所有predictions；bbox loss采用了L1 loss和giou loss，针对匹配成功的predictions

注意，匈牙利算法是用于解决二分图匹配的问题，即将Ground Truth的K个bbox和预测出的100个bbox作为二分图的两个集合，匈牙利算法的目标就是找到最大匹配，即在二分图中最多能找到多少条没有公共端点的边。匈牙利算法的输入就是每条边的cost 矩阵

推理的大致流程如下：
此外，DETR 对大物体更好是因为在 Backbone 最后输出特征图上进行 Self-Attention。可以结合FPN实现多尺度的检测。
最后引用链接中的一段话进行总结：

Backbone 输出的特征图经过 1 × 1 卷积后进行降维，得到的是 d × H × W，被 reshape 成 d × H W 作为 Transformer Block 的输入。在 Encoder 阶段，会计算 H W × H W的 Attention Matrix，那么其实 Attention Matrix 上每一个值，其实就是考虑了 Backbone 输出的特征图空间上的两个点，因为 token 数量和特征图空间像素个数一样，那么这两个点，其实就已经构建出来了一个 box（左上角和右下角）。从这个角度来看，神经网络在基于 Attention Matrix 进行思考时，其实也可以从某种意义上就是在对一个个 bounding box 进行思考，这对于目标检测任务似乎是非常利好的。

参考链接：https://blog.csdn.net/qq_53250079/article/details/127457575
https://blog.csdn.net/baidu_36913330/article/details/120495817

GitHub 加速计划 / tra / transformers

130.24 K

25.88 K

下载

最近提交(Master分支：3 个月前 )

4e90b99e * Create modular_starcoder2.py * Update modular_starcoder2.py * update * finalize modular * revert # no-unravel * Add support * style * Update modular_model_converter.py * update docstring 17 小时前

18871599 * fix heuristic schedule * fix style * fix format 17 小时前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m