双显卡ollama跑大模型测试
最近把2019年的老台式机增加了一个5060Ti-16G,加上原来的2060-6G,CUDA版本12.9,用ollama跑了跑各种模型试了试,现总结记录一下:

显存为16+6=22G,不知为啥呢显示21G????
安装Ollama(自行百度)。
下载各种大小的模型(自行百度),我下载的模型如下:

测试了
gemma4:31b -19 GB;
gemma4:26b -17 GB;
gemma4:e4b- 9.6 GB;
qwen2.5-coder:14b-9.0 GB;
danielsheep/Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth:UD-IQ3_XXS-12 GB;
qwen3.5:4b-3.4GB;
经过测试发现17-19G是个坎,17G可以用2张显卡的显存,用5060Ti推理,19G就会用2个显卡的显存加上内存,用CPU进行推理。
基本上来说:模型的大小在总显存的75%左右就可以完全在显存里跑。如果在主显卡显存的75%左右就只用主显卡了。
17/22=77%,12/16=75%,19/22=86%
2026-04-13中午更新:
测试仅用GPU1-RTX2060运行推理,但是不成功,模型文件可以加载到2060,推理时却用的是CPU,问了某包,回答是CUDA12.9对老GPU支持的不好,算了吧先不折腾了以后再慢慢研究。
2026-04-14中午更新:
试了试安装了cuda11.8,修改了环境变量,还是用不了2060,某包有说windows用不了第二张GPU,只能用linux,让装WSL2,改天再试吧。
下图是关于速度的几个指标的定义,供参考:

一、以下为gemma4:31b -19 G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用

3、内存的占用

4、GPU及CPU的负荷,CPU基本跑到100%,5060Ti在20%左右,2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下,5.6token/s,慢的如蜗牛:

二、以下为gemma4:26b -17 G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用

3、内存的占用
看上图即可‘’
4、GPU及CPU的负荷,CPU基本跑到33%,5060Ti在45%左右,2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下,第一次58token/s,第二次39token/s,速度还是不错:


三、以下为gemma4:e4b -9.6G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用
没有占用
3、内存的占用
看上图,正常的系统占用
4、GPU及CPU的负荷,CPU正常的系统占用最高38%,5060Ti占用85%左右,2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下,80token/s,速度还不错:

四、以下为qwen2.5-coder:14b-9.0G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用
没有占用。
3、内存的占用
看上图正常的系统占用。
4、GPU及CPU的负荷,CPU最高跑到18%,5060Ti跑到93%左右,2060在0%
5、编写一个GUI的艾宾浩斯记忆软件。速度如下,42token/s,速度还是不错的:

五、以下为Qwen3-Coder-30B-A3B-12G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用
没有占用
3、内存的占用
看上图正常的系统占用。
4、GPU及CPU的负荷,CPU最高跑到43%,5060Ti跑到84%左右,2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下,第一次89token/s,第二次50token/s,速度还是不错:


六、以下为qwen3.5:4b-3.4G的相关截屏:
1、5060Ti的显存占用

2、2060的显存占用
没有占用
3、内存的占用
看上图正常的系统占用。
4、GPU及CPU的负荷,CPU最高跑到47%,5060Ti跑到85%左右,2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下,83token/s,速度还是不错:

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)