问题复现

$ nvidia-smi 

-->
Failed to initialize NVML: Driver/library version mismatch

问题原因

出现这个问题的原因是nvidia内核版本和驱动版本不匹配导致的

问题分析

1.查看nvidia内核版本

输入 cat /proc/driver/nvidia/version
root@M6-Inspur:/home/chain# `cat /proc/driver/nvidia/version`
NVRM version: NVIDIA UNIX x86_64 Kernel Module  525.105.17  Tue Mar 28 18:02:59 UTC 2023
GCC version:  gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)

这里我原来的内核版本是530 ,现在是正常的525版本

2.查看物理机的驱动更新日志

输入 cat /var/log/dpkg.log | grep nvidia

发现4月8号系统的驱动更新到了525版本

2023-04-08 06:26:53 upgrade libnvidia-compute-525:amd64 525.85.05-0ubuntu0.18.04.1 525.105.17-0ubuntu0.18.04.1

3.问题原因就是之前的nvidia的内核版本是530 物理机的驱动版本是525,将nvidia的内核版本降至525即可解决问题

解决方案

1.卸载驱动

sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*

2.卸载至这条命令下不残留任何包

sudo dpkg --list | grep nvidia-*

3.安装525版本的driver

apt-get install nvidia-driver-525-server

如果是物理机上出现Failed to initialize NVML Driver/library version mismatch操作完上述步骤后需要重启物理机、如果是docker内出现错误操作完上述步骤后需要重启docker。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐