1. 与 CNN 相比,ViT 在浅层和深层获得的表征之间具有更多相似性

  2. 与 CNN 不同,ViT 从浅层获得全局表示,但从浅层获得的局部表示也很重要。

  3. ViT 中的跳过连接比 CNN (ResNet) 中的影响更大,并且显着影响表示的性能和相似性。

  4. ViT 比 ResNet 保留了更多的空间信息

  5. ViT可以用大量数据学习高质量的中间表示

《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021)

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐