2024.2.25更新

cuda网站改版,下面的下载链接已经失效,新的下载链接很好找。
步骤还是类似的,照着做就可以。
新搜到了一个:

print(torch.backends.cudnn.version())

可以确认cudnn是否安装成功

如果还是不确定,可以执行一个简单的训练看看是不是报错,以及GPU显存的占用:
https://github.com/pytorch/examples/blob/main/vision_transformer/README.md

nvidia-smi和nvcc显示的版本不一致

直接看这篇,写的非常清楚了: 【CUDA】nvcc和nvidia-smi显示的版本不一致?

CUDA Compatibility_CUDA Toolkit 和NVIDIA driver的兼容性:

如果非要纠结,非要改成一样,就需要删了旧的驱动,重新安装新的就行

解决ubuntu cuda版本nvcc -V和nvidia-smi不一致问题

1.Cuda和cuDNN安装

1.1 显卡版本、Cuda版本和cuDNN版本的关系

参考CSDN博客:nvidia驱动,cuda与cudnn的关系

  • NVIDA驱动,在NVIDA控制面板的系统信息,组件中看到的driver就是。
  • CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运行,而且只有当要解决的计算问题是可以大量并行计算的时候才能发挥CUDA的作用。CUDA的本质是一个工具包(ToolKit)
  • CUDA Toolkit本地安装包时,内含特定版本Nvidia显卡驱动的,所以只选择下载CUDA Toolkit就足够了,如果想安装其他版本的显卡驱动就下载相应版本即可。
    • 所以,NVIDIA显卡驱动和CUDA工具包本身是不具有捆绑关系的,也不是一一对应的关系,只不过是离线安装的CUDA工具包会默认携带与之匹配的最新的驱动程序。
    • 注意事项:NVIDIA的显卡驱动器与CUDA并不是一一对应的
    • CUDA本质上只是一个工具包而已,所以我可以在同一个设备上安装很多个不同版本的CUDA工具包,比如我的电脑上同事安装了 CUDA 9.0、CUDA 9.2、CUDA 10.0三个版本。
    • 一般情况下,我只需要安装最新版本的显卡驱动,然后根据自己的选择选择不同CUDA工具包就可以了,但是由于使用离线的CUDA总是会捆绑CUDA和驱动程序,所以在使用多个CUDA的时候就不要选择离线安装的CUDA了,否则每次都会安装不同的显卡驱动,这不太好,我们直接安装一个最新版的显卡驱动,然后在线安装不同版本的CUDA即可。
    • 总结:CUDA和显卡驱动是没有一一对应的。
  • cuDNN是一个SDK,是一个专门用于神经网络的加速包,注意,它跟我们的CUDA没有一一对应的关系,即每一个版本的CUDA可能有好几个版本的cuDNN与之对应,但一般有一个最新版本的cuDNN版本与CUDA对应更好。

1.2 下载Cuda

1.2.1 确定版本

在win10的搜索框里搜索 NVIDIA,找到
在这里插入图片描述
点击后在弹出的NVIDA控制面板中找到系统信息,位置可能比较隐秘,仔细找找
在这里插入图片描述
然后就可以看到自己的CUDA驱动的版本,然后就去下载这个版本的就好了

另外,注意这个驱动版本是可能会小幅度更新的,在安装paddlepaddle-gpu版本时,发现只有11.2的,我还很奇怪为什么,因为更新了
在这里插入图片描述


1.2.2 cuda向下兼容的问题

在安装的时候,驱动是11.0的,但是cuda已经出现了11.1.3。关于cuda向下兼容,网上有好几种声音。


1.2.3 下载链接

最新版本下载链接: https://developer.nvidia.com/zh-cn/cuda-downloads

找过去的版本,在上面的链接页面中找到CUDA早期版本档案,对应的链接是:https://developer.nvidia.com/cuda-toolkit-archive
在这里插入图片描述
注意,每行两个链接,前面的是安装包链接,后面的是在线文档,不要点错了。。
在这里插入图片描述
找到后,选择对应的操作系统Operating System,架构Architecture(一般默认x86_64),系统版本(version)(10就是win10),安装类型Installer Type(网好就network,一般都选local)

我下载的是11.0 update,对应的链接是:


1.2.4 下载慢的问题

考虑链接另存为,然后使用一些下载工具下载,我这里分享一个老版本的迅雷,没啥广告的:
(不用迅雷,浏览器下载:直接失败,或者几十KB,迅雷的话,能有3MB多)

链接:https://pan.baidu.com/s/1iw9JzZJLSO5BlzL8TA7ffw
提取码:201z


1.2.5 安装时的系统要求

下载好了,也不要着急安装。。
搜索的时候就看到网上很多安装失败的,看了一下11.0的windows安装文档
大家可以找自己对应的,CUDA早期版本档案页面里对应版本后面的Versioned Online Document

下面这个图是支持的系统版本和编译器版本
在这里插入图片描述
查看操作系统版本:(命令行打开的时候就可以看到,如果看不到,就输入ver)
在这里插入图片描述

查看自己系统的MSVC Version

注意,一般还是需要安装Visual Studio的,不然不会看到complier的,下面这个是重分发包。

方法一:
参考CSDN博客:MSVC版本号对应

卸载软件中查看自己的Microsoft Visual C++版本,例如,我这里是14.23XXX,查上面那个博客,应该是1922以上,
在这里插入图片描述


方法二:

参考Stack Overflow回答:Finding version of Microsoft C++ compiler from command-line (for makefiles)
Microsoft C++ compiler (cl.exe)

找到自己安装位置,然后在那个目录下命令行中直接运行cl.exe即可


1.3 安装及配置

注意,搜索了一下,安装cuda不需要visual studio的,使用conda安装那些深度学习框架会比较好,会自动安装一些依赖。


1.3.1 安装

如果想要看双击exe之后的安装步骤界面,可以参考:Win10安装CUDA10和cuDNN
注意:
双击之后弹出的这个界面,选择的路径是临时解压文件夹
在这里插入图片描述
第一次安装的时候没有报错,第二次一直报错。。。
在这里插入图片描述
报错这个是因为 安装包不完整,哈哈哈。

如果选择精简安装,可能就没有配安装位置,等会可能要找找,一般默认是安装在:C:\Program Files\NVIDIA GPU Computing Toolkit


1.3.2 配置

需要配置系统路径,但是上一步安装完之后去查看,默认已经配好了?
确保配了bin文件夹、lib\x64文件夹(默认配的是bin和libnvvp)。
如果不放心,可以把include也配上。
在这里插入图片描述


1.3.3 验证是否成功

验证是否安装成功

在命令行输入:

nvcc -V

在这里插入图片描述
或者打开 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\demo_suite (其中v10.2对应自己的版本号),执行bandwidthTest.exe
在这里插入图片描述
再执行deviceQuery.exe
在这里插入图片描述

这样基本就是没问题了


1.4下载cuDNN

下载链接:https://developer.nvidia.com/rdp/cudnn-download
需要注册一个NVIDA账号,登录之后才可以下载(验证邮箱的邮件有概率在垃圾箱里)

登录过程挺艰难的,完成登录后,还是这个链接:
https://developer.nvidia.com/rdp/cudnn-download
在这里插入图片描述
注意,可以点开看看其他的,都是x86基本上,所以就是这个了。而且看其他教程里下载页面的截图,也基本上是这个了。(这个版本没有专门的win7/win10的分类)
在这里插入图片描述
11.0版本cuda对应的cuDNN版本下载的链接:
https://developer.nvidia.com/compute/machine-learning/cudnn/secure/8.0.5/11.0_20201106/cudnn-11.0-windows-x64-v8.0.5.39.zip
很奇怪的是,写的是x86,但是下载下来的包名称确是x64,哈哈哈。
(很奇怪,这个用迅雷下都连接不到资源,但是用浏览器下却很快。。。)

1.5 安装cuDNN

解压后得到三个文件夹,把这三个文件夹中的内容分别放到之前cuda对应的文件夹中。
在这里插入图片描述

  • 以bin文件夹中的内容为例,cuDNN的bin中的内容名称类似:cudnn_adv_infer64_8.dll,所以还是很容易和cuda的bin中的内容区分开的。
  • include(cudnnXXXX.h)和lib(cudnnXXXX.lib)中的同理

这个不需要什么验证,需要在pytorch编程运行代码之后去判断。

2. pytorch安装

2.1 在线安装

pytorch官网:pytorch
在这里插入图片描述
选择自己合适的配置,然后去下载就好了。
我本机anaconda默认的环境是python3.7的,cuda版本是11.0,刚好(还好没有下载11.1的)。

conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch
conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
# 使用这个,速度飞起来
# 但是依然还是有
conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c conda-forge
# 难过 这里搜不到我这个版本,只能用pytorch这个源

搜了一波,清华镜像已经恢复了,参考知乎专栏文章:Anaconda清华大学开源镜像近日将恢复!。反正2020.3.14之后又可以用了。

清华大学开源镜像站链接:https://mirrors.tuna.tsinghua.edu.cn/

但是即便使用了清华的源,两个最重要也是最大的包:

  • cudatoolkit=11.0.221
  • pytorch=1.7.1
    依然无法下载
    在这里插入图片描述在这里插入图片描述

无效的尝试
搜索后参考:镜像安装pytorch的简便方法总结
反正就是换几个源试试:

阿里云 http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

使用阿里云的源去进行安装

conda config --add channels http://mirrors.aliyun.com/pypi/simple/  
pip install pytorch torchvision torchaudio cudatoolkit=11.0 -c http://mirrors.aliyun.com/pypi/simple/  
# 我这边一直报阿里云这个源有问题,404

有效的尝试
无效,反正就剩两个包了,考虑直接用pip安装剩下的两个,还是去官网点,然后产生正确的命令

pip install torch===1.7.1+cu110 torchvision===0.8.2+cu110 torchaudio===0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
# 也有人在这里加入清华的镜像,我没加,下的也挺快的

不过比较怪异的是,上面conda下载的时候,包的大小和pip下载的包的大小差的很远。。。
在这里插入图片描述

参考:


2.1.1下载速度慢

速度太慢,参考知乎专栏文章:

2.2 离线安装

去清华镜像网站下载对应版本: Index of /anaconda/cloud/pytorch/win-64/

2.3 验证

参考:pythorch-get started-verification
在python环境中输入以下代码:

import torch
x = torch.rand(5, 3)
print(x)

输入类似于:

tensor([[0.3380, 0.3845, 0.3217],
        [0.8337, 0.9050, 0.2650],
        [0.2979, 0.7141, 0.9069],
        [0.1449, 0.1132, 0.1375],
        [0.4675, 0.3947, 0.1426]]) 

如果想检查GPU驱动和CUDA是否可以被PyTorch使用,运行以下命令:

import torch
torch.cuda.is_available()

输出为true,表示安装成功。
在这里插入图片描述


cuda和cudnn百度云链接

参考内容

cuda安装参考:

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐