Vision Transformer的计算复杂度取决于多个因素,如模型结构、输入图像的大小、Transformer层数等。具体来说,假设我们有一个输入图像大小为$H \times W \times C$,Transformer模型有$L$层,每层有$d_{model}$维词向量和$d_{ff}$维前馈网络,那么其计算复杂度为$O(L(HWCd_{model} + d_{model}^2d_{ff}))$。

首先,我们将输入图像展平成一个长度为$HWC$的词向量序列。对于每一层Transformer,计算词向量的自注意力和前馈网络的复杂度分别为$O(HWCd_{model})$和$O(d_{m

vision
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
推荐内容
GitHub 加速计划 / vi / vision
29
0
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:14 天前 )
ef4718ad 2 天前
309bd7a1 Co-authored-by: Nicolas Hug <nh.nicolas.hug@gmail.com> Co-authored-by: Nicolas Hug <contact@nicolas-hug.com> 7 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐