1.cuda驱动安装

(1)下载驱动

NVIDIA 驱动程序下载, 根据自己的GPU型号旋转相应的驱动进行下载,下载后的驱动程序放入主目录下(/home/my_work),这是因为在后续的驱动纯命令行安装环境下,不支持中文输入,不容易切换目录。

 (2)卸载原有驱动

     两种方式,如果新装的的系统,就不必执行以下代码


#for case1: original driver installed by apt-get:
sudo apt-get remove --purge nvidia*
 
#for case2: original driver installed by runfile:
sudo chmod +x *.run
sudo ./NVIDIA-Linux-x86_64-384.59.run --uninstall

(3)禁用nouveau驱动

sudo gedit /etc/modprobe.d/blacklist.conf

在最后一行添加:

blacklist nouveau

之后,执行命令:

sudo update-initramfs -u
电脑重启之后执行
lsmod | grep nouveau  #没有输出,即说明安装成功

(4)安装驱动

进入命令行界面:Ctrl-Alt+F6(我看有的是说ctrl-alt+F1,我测试是不可以的),之后输入用户名和密码登录即可(注意这里需要已经安装了gcc:sudo apt-get install build-essential),安装提示不断的接受即可安装成功。(尽量你的系统是英文版的,因为到了终端后,不能打汉字,要是你的系统是汉化的,那你就进不了目录里面)

sudo ./NVIDIA-Linux-x86_64-455.28.run
(或者sudo ./NVIDIA-Linux-x86_64-455.28.run --add-this-kernel)

安装完后,输入nvidia-smi,若输出GPU的状态信息就代表驱动安装成功,然后reboot重启

2.cuda安装

(1)根据gpu型号下载对应的驱动程序

CUDA Toolkit 11.0 Download | NVIDIA Developer

CUDA 工具包 - 免费工具和培训 | NVIDIA 开发者

根据需要决定是否安装10.2还是11.1版本的,右下角可以找到历史版本。

wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run
sudo sh cuda_11.0.2_450.51.05_linux.run

这里强烈建议选择deb(local)方式安装,因为后面如果使用tensorRT,他们提供的版本大多是是deb和tar,这里的runfile是什么鬼东西我也没搞明白)

【若在执行完上面第一条下载命令后出现了s段已转储错误,所以建议先执行以下步骤,没有出现可忽略此步骤:

gedit   .bashrc.

在文件末尾添加

ulimit -c unlimited
ulimit -s 819200

再另一个终端输入命令激活

source .bashrc

(2)安装cuda

  • 上面的第二条命令(sudo sh cuda_11.0.2_450.51.05_linux.run)里除了有一步输入accpet,以及下一步在很多X选择的时候,把第一个Nvidia显卡去掉(按回车去掉),其他都是默认,最后选install回车执行。

  • 安装完毕之后添加环境变量
  • gedit ~/.bashrc
    # 文本最后添加以下内容:
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
    export PATH=$PATH:/usr/local/cuda/bin
    export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
    # 保存退出,打开新终端激活
    source ~/.bashrc
    

    (3)测试cuda

  • cd /usr/local/cuda/samples/1_Utilities/deviceQuery
    sudo make
    ./deviceQuery

当输出Result = PASS字样如下则安装成功

CUDA安装成功后,即可进行GPU进行训练,后期安装的cuDNN是加速库,不安装也不影响gpu的使用

要想查看安装的cuda版本,可以用

nvcc -V   或者 cat /usr/local/cuda/version.txt , 正常情况下两个输出信息是一样的,第一个有事可能和第二个不一致,以第二个为准, 也就是你安装cuda的版本号 , nvidia-smi 界面显示的cuda版本不是你安装的cuda版本,

3. 安装cuDNN

(1)下载cuDNN

需要注册账号,下载cuDNN对应CUDA的版本

NVIDIA cuDNN | NVIDIA Developer

https://developer.nvidia.com/rdp/cudnn-download

(2)安装

可参考官方给出的安装指导, 对于linux系统,主要有两种方式,一种是tgz,一种是deb格式(要下载三个文件,runtime,dev,sample,并且依次安装),我尝试了用deb安装,安装成功后,

安装参考:Installation Guide :: NVIDIA Deep Learning cuDNN Documentation

(3)测试:

按照说明进行测试,编译一个sample的时候提示没有freeImage.h这个文件,。(这里也有可能会提示gcc版本过高的问题,若出现降低gcc,g++版本即可)


原因是确实相应的文件,解决方法是:

sudo apt-get install libfreeimage3 libfreeimage-dev

重新编译运行即可。

******

在安装cuda和cuDNN时尤其要注意版本之间的的兼容依赖关系,比如ubuntu版本,cuda,cuDNN,torch,gpu版本,如果哪里版本不对就可能出错,后面找问题很难,所以一定按官方给的版本一步步来。

参考:Ubuntu 20.04安装CUDA 11_绝版小哥的博客-CSDN博客_ubuntu安装cuda11

Ubuntu18.04下NVIDIA驱动+CUDA11.0安装 - it610.com

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐