在这里插入图片描述
在这里插入图片描述
https://www.bilibili.com/video/BV18Q4y1o7NY
只有c0被保留下来并做最后的softmax分类
这个公式表示的很清楚了

在这里插入图片描述
从 transformer cls_token说开去:
在这里插入图片描述transformer的encoder和conv encoder提取出的编码格式就不同。
transformer的编码格式:num_patches(+1,由于有特殊token在前,例如ViT中的分类token,DPT中的read token),embedding_dim

怎么从transformer的编码返回到原图?
其实是一件非常自然的事
在这里插入图片描述
在这里插入图片描述
作者提出了三种read策略:
1.直接把read token忽略 2.resnet的做法——把read token加到其他token上3.dense net的做法:把read token和其他token concat,然后对每个token仿射变换到embedding_dim
在这里插入图片描述
在这里插入图片描述

GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:2 个月前 )
868a3b42 6 天前
e9a32135 15 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐