传统CNN和Vision Transformer之间的区别
·
-
与 CNN 相比,ViT 在浅层和深层获得的表征之间具有更多相似性
-
与 CNN 不同,ViT 从浅层获得全局表示,但从浅层获得的局部表示也很重要。
-
ViT 中的跳过连接比 CNN (ResNet) 中的影响更大,并且显着影响表示的性能和相似性。
-
ViT 比 ResNet 保留了更多的空间信息
-
ViT可以用大量数据学习高质量的中间表示
《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021)
更多推荐
已为社区贡献7条内容
所有评论(0)