TESLA V100 32G 配置、使用、蓝屏、掉驱动的解决办法

2601_95332716

889人浏览 · 2026-03-10 16:37:28

2601_95332716 · 2026-03-10 16:37:28 发布

折腾了一周，有点心得了。第一次写文章，请多指教。

【电脑配置】

主板：华南X99-AD4（二手）

CPU：E5-2680 v4（二手）

电源：长城金牌650W（新的）

显卡1：华硕 1060 6G（占2槽，二手）

显卡2：TESLA V100 32G（占3.5槽，二手，闲鱼买的）

由于显卡太大，无法同时装进机箱，将V100装1槽，1060通过PCIE延长线（20CM）外置。

【系统安装】

一开始装了win10，也装win11，尝试过各种官方驱动，均以失败告终。具体为：两个显卡可以识别，在CMD输入nvidia-smi可以正常显示，其中：1060为WDDM模式，V100为TCC模式，但是通过各种方法，比如改注册表等方法，均无法将V100的TCC模式改为WDDM模式。不能将TCC转为WDDM，各种视频处理软件均看不到V100，就意味着V100没法在win10、win11系统干活。

后根据推荐，装了雨糖科技（https://raincandy.tech/nvidiadrv/）的最新版本582.35.0.1，两个显卡驱动正确识别，且都为WDDM模式，意味着可以在win10、win11系统下干活。个人推荐win11，因为用GPU-Z测试，win10中没有识别CUDA。

装雨糖驱动的注意点，一是进入安全模式；二是用DDU将N卡驱动都卸载掉，然后断网（关键），再重启进入普通模式；三是根据提示装驱动。失败原因的总结，要么就是没有将老驱动卸载干净；要没就是没断网，进入普通模式后系统又在后台偷偷安装驱动（建议拔掉网线或禁用网卡，仅关闭WiFi可能不够，因为系统会在后台自动联网更新驱动）。

【蓝屏、掉驱动】

打开TOPAZ视频处理软件测试性能，看着V100功率直线上升，正要庆祝时，蓝屏！掉驱动！（不同系统具体表现不同，win10是蓝屏，win11是罢工，用nvidia-smi均显示V100存在ERR）在任务管理器，也找不到V100。

再次重启，nvidia-smi，V100显卡要么找不到，要么显示ERR。根据推荐，又找了一个不需要独立供电的亮机A卡，问题差不多，V100功率上去，就ERR。综合各种攻略，初步结论：

二手主板性能较弱，使用普通显卡问题不大，但是使用高性能的显卡资源紧张，特别是V100功率突然上来时，对于主板压力过大，出于保护硬件目的，主板主动切断与V100显卡的连接，于是就出现了所谓的蓝屏、掉驱动。

【解决思路】

翻阅了很多信息，有弄脚本的、有删驱动的，都试过了，个人最推荐的方法如下：

一是关机。这里的关机，断电源的那种关机，不是系统重启。蓝屏时，主板已经断开了与V100的连接，因此在未全部断电的情况下，主板不会再和V100连接，重启多少次也没有用。只有彻底关机，才能解决问题。具体操作：关机。等5-10秒，再开机，正常来讲，V100就回归了，用nvidia-smi查看状态，应该是正常的。

二是装驱动。如果状态还不正常，就把V100驱动删了（设备管理器删除）。然后再关机、重新开机。此时，电脑不要动，系统后台正在自动安装V100驱动。等装好了，再用nvidia-smi查看状态，一般而言也就没事了。

【预防蓝屏】

综合各方信息，以下方法切实可行，我也亲自做了测试。总体思路：限制核心频率和功率。（下列命令如果出错，应该是权限不够，请用管理员模式运行即可）（我用了双N卡，在nvidia-smi里，V100编号是1，所以下面“nvidia-smi -i 1”写的是1。如果用A卡，V100编号应该是0。写0还是1，具体以nvidia-smi编号为准）

A.锁定核心频率（例如 1200MHz），在CMD输入如下内容：

nvidia-smi -i 1 -lgc 1200,1200

B.设置功耗（例如 200W），在CMD输入如下内容：

nvidia-smi -i 1 -pl 200

用TOPAZ测试，结果如下：

满血开，蓝屏

1000MHz逐步上升至1450MHz，2K转8K都没问题。

1500MHz，挂了

1300MHz，测试十几分钟，又蓝屏了，还是不够稳定

1200MHz，340×288老电视剧，升2K，转了1个小时，稳

1200MHz，340×288老电视剧，升8K（扩大300倍？），转了1分钟，挂了(●'◡'●)

不过现在已经知道蓝屏掉驱动的解决思路，不慌(●'◡'●)

用OLLAMA测试，结果如下：