TESLA V100 32G 配置、使用、蓝屏、掉驱动的解决办法
折腾了一周,有点心得了。第一次写文章,请多指教。
【电脑配置】
主板:华南X99-AD4(二手)
CPU:E5-2680 v4(二手)
电源:长城金牌650W(新的)
显卡1:华硕 1060 6G(占2槽,二手)
显卡2:TESLA V100 32G(占3.5槽,二手,闲鱼买的)
由于显卡太大,无法同时装进机箱,将V100装1槽,1060通过PCIE延长线(20CM)外置。
【系统安装】
一开始装了win10,也装win11,尝试过各种官方驱动,均以失败告终。具体为:两个显卡可以识别,在CMD输入nvidia-smi可以正常显示,其中:1060为WDDM模式,V100为TCC模式,但是通过各种方法,比如改注册表等方法,均无法将V100的TCC模式改为WDDM模式。不能将TCC转为WDDM,各种视频处理软件均看不到V100,就意味着V100没法在win10、win11系统干活。
后根据推荐,装了雨糖科技(https://raincandy.tech/nvidiadrv/)的最新版本582.35.0.1,两个显卡驱动正确识别,且都为WDDM模式,意味着可以在win10、win11系统下干活。个人推荐win11,因为用GPU-Z测试,win10中没有识别CUDA。
装雨糖驱动的注意点,一是进入安全模式;二是用DDU将N卡驱动都卸载掉,然后断网(关键),再重启进入普通模式;三是根据提示装驱动。失败原因的总结,要么就是没有将老驱动卸载干净;要没就是没断网,进入普通模式后系统又在后台偷偷安装驱动(建议拔掉网线或禁用网卡,仅关闭WiFi可能不够,因为系统会在后台自动联网更新驱动)。
【蓝屏、掉驱动】
打开TOPAZ视频处理软件测试性能,看着V100功率直线上升,正要庆祝时,蓝屏!掉驱动!(不同系统具体表现不同,win10是蓝屏,win11是罢工,用nvidia-smi均显示V100存在ERR)在任务管理器,也找不到V100。
再次重启,nvidia-smi,V100显卡要么找不到,要么显示ERR。根据推荐,又找了一个不需要独立供电的亮机A卡,问题差不多,V100功率上去,就ERR。综合各种攻略,初步结论:
二手主板性能较弱,使用普通显卡问题不大,但是使用高性能的显卡资源紧张,特别是V100功率突然上来时,对于主板压力过大,出于保护硬件目的,主板主动切断与V100显卡的连接,于是就出现了所谓的蓝屏、掉驱动。
【解决思路】
翻阅了很多信息,有弄脚本的、有删驱动的,都试过了,个人最推荐的方法如下:
一是关机。这里的关机,断电源的那种关机,不是系统重启。蓝屏时,主板已经断开了与V100的连接,因此在未全部断电的情况下,主板不会再和V100连接,重启多少次也没有用。只有彻底关机,才能解决问题。具体操作:关机。等5-10秒,再开机,正常来讲,V100就回归了,用nvidia-smi查看状态,应该是正常的。
二是装驱动。如果状态还不正常,就把V100驱动删了(设备管理器删除)。然后再关机、重新开机。此时,电脑不要动,系统后台正在自动安装V100驱动。等装好了,再用nvidia-smi查看状态,一般而言也就没事了。
【预防蓝屏】
综合各方信息,以下方法切实可行,我也亲自做了测试。总体思路:限制核心频率和功率。(下列命令如果出错,应该是权限不够,请用管理员模式运行即可)(我用了双N卡,在nvidia-smi里,V100编号是1,所以下面“nvidia-smi -i 1”写的是1。如果用A卡,V100编号应该是0。写0还是1,具体以nvidia-smi编号为准)
A.锁定核心频率(例如 1200MHz),在CMD输入如下内容:
nvidia-smi -i 1 -lgc 1200,1200
B.设置功耗(例如 200W),在CMD输入如下内容:
nvidia-smi -i 1 -pl 200
用TOPAZ测试,结果如下:
满血开,蓝屏
1000MHz逐步上升至1450MHz,2K转8K都没问题。
1500MHz,挂了
1300MHz,测试十几分钟,又蓝屏了,还是不够稳定
1200MHz,340×288老电视剧,升2K,转了1个小时,稳
1200MHz,340×288老电视剧,升8K(扩大300倍?),转了1分钟,挂了(●'◡'●)
不过现在已经知道蓝屏掉驱动的解决思路,不慌(●'◡'●)
用OLLAMA测试,结果如下:
满血开,蓝屏
设1200MHz,蓝屏
设1000MHz,稳
综合各方信息,可能是TOPAZ和OLLAMA工作模式不一样吧,具体也不太懂。至于为什么调功率,各方解释,限定功率也会限定核心频率,当高频率触发功率限制时,频率也就自动下降了,起了双保险的作用。
最后,弄一个bat批处理文件,每次工作前点一下,或者设置自行启动。
把一下内容,写入txt文件,再修改后缀,比如“限制频率1200.bat”
以下是限定为1200MHz的(视频处理专用):
@echo off
nvidia-smi -i 1 -pl 250
nvidia-smi -i 1 -lgc 1200,1200
pause
以下是限定为1000MHz的(数据模型专用):
@echo off
nvidia-smi -i 1 -pl 250
nvidia-smi -i 1 -lgc 1000,1000
pause
最后,放一张测试deepseek-r1:32b-qwen-distill-q4_K_M模型的图,占用显存28G,完美通过,温度36°,GPU利用率96%。(PS 一开始忘了限定核心频率,秒挂。关机后,开机,限定1000MHz,通过)

如有问题,请留言,欢迎交流!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)