从vision transformer的cls_token说开去(包含DPT)
vision
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
项目地址:https://gitcode.com/gh_mirrors/vi/vision
免费下载资源
·
https://www.bilibili.com/video/BV18Q4y1o7NY
只有c0被保留下来并做最后的softmax分类
这个公式表示的很清楚了
从 transformer cls_token说开去:
transformer的encoder和conv encoder提取出的编码格式就不同。
transformer的编码格式:num_patches(+1,由于有特殊token在前,例如ViT中的分类token,DPT中的read token),embedding_dim
怎么从transformer的编码返回到原图?
其实是一件非常自然的事
作者提出了三种read策略:
1.直接把read token忽略 2.resnet的做法——把read token加到其他token上3.dense net的做法:把read token和其他token concat,然后对每个token仿射变换到embedding_dim
GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:2 个月前 )
868a3b42
6 天前
e9a32135
15 天前
更多推荐
已为社区贡献7条内容
所有评论(0)