双显卡ollama跑大模型测试

摩羯mc_six

490人浏览 · 2026-04-13 13:29:00

摩羯mc_six · 2026-04-13 13:29:00 发布

最近把2019年的老台式机增加了一个5060Ti-16G，加上原来的2060-6G，CUDA版本12.9，用ollama跑了跑各种模型试了试，现总结记录一下：

显存为16+6=22G，不知为啥呢显示21G????

安装Ollama（自行百度）。

下载各种大小的模型（自行百度），我下载的模型如下：

测试了

gemma4:31b -19 GB；

gemma4:26b -17 GB；

gemma4:e4b- 9.6 GB；

qwen2.5-coder:14b-9.0 GB；

danielsheep/Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth:UD-IQ3_XXS-12 GB；

qwen3.5:4b-3.4GB；

经过测试发现17-19G是个坎，17G可以用2张显卡的显存，用5060Ti推理，19G就会用2个显卡的显存加上内存，用CPU进行推理。

基本上来说：模型的大小在总显存的75%左右就可以完全在显存里跑。如果在主显卡显存的75%左右就只用主显卡了。

17/22=77%，12/16=75%，19/22=86%

2026-04-13中午更新：

测试仅用GPU1-RTX2060运行推理，但是不成功，模型文件可以加载到2060，推理时却用的是CPU，问了某包，回答是CUDA12.9对老GPU支持的不好，算了吧先不折腾了以后再慢慢研究。

2026-04-14中午更新：

试了试安装了cuda11.8，修改了环境变量，还是用不了2060，某包有说windows用不了第二张GPU，只能用linux，让装WSL2，改天再试吧。

下图是关于速度的几个指标的定义，供参考：

一、以下为gemma4:31b -19 G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

3、内存的占用

4、GPU及CPU的负荷，CPU基本跑到100%，5060Ti在20%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，5.6token/s，慢的如蜗牛：

二、以下为gemma4:26b -17 G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

3、内存的占用

看上图即可‘’

4、GPU及CPU的负荷，CPU基本跑到33%，5060Ti在45%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，第一次58token/s，第二次39token/s，速度还是不错：

三、以下为gemma4:e4b -9.6G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

没有占用

3、内存的占用

看上图，正常的系统占用

4、GPU及CPU的负荷，CPU正常的系统占用最高38%，5060Ti占用85%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，80token/s，速度还不错：

四、以下为qwen2.5-coder:14b-9.0G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

没有占用。

3、内存的占用

看上图正常的系统占用。

4、GPU及CPU的负荷，CPU最高跑到18%，5060Ti跑到93%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，42token/s，速度还是不错的：

五、以下为Qwen3-Coder-30B-A3B-12G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

没有占用

3、内存的占用

看上图正常的系统占用。

4、GPU及CPU的负荷，CPU最高跑到43%，5060Ti跑到84%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，第一次89token/s，第二次50token/s，速度还是不错：

六、以下为qwen3.5:4b-3.4G的相关截屏：

1、5060Ti的显存占用

2、2060的显存占用

没有占用

3、内存的占用

看上图正常的系统占用。

4、GPU及CPU的负荷，CPU最高跑到47%，5060Ti跑到85%左右，2060在0%

5、编写一个GUI的艾宾浩斯记忆软件。速度如下，83token/s，速度还是不错：

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第12讲：Agent应用的后端工程化基建——异步并发控制与Web服务化封装

欢迎来到《Python + AI Agent 实战开发完全指南》专栏！在本讲中，我们将学习如何将复杂的多智能体协作系统封装为高性能的RESTful API服务，实现从本地脚本到云服务的架构升级。

AtomGit开源社区

AI API Key 泄露怎么办：用后端代理转发 OpenAI 兼容接口的安全接入方案

很多团队第一次接入 AI API 时，问题通常不是模型能不能回答，而是 API Key 放在哪里。个人开发者做小额测试时，可能会把 Key 填进 Dify、Cursor、Chatbox 或 Cherry Studio，也可能直接写在 Python 脚本里。一旦进入企业或团队协作场景，Key 分发、Base URL 配置、日志审计、成本控制和报错排查就会变成更高频的问题。

AtomGit开源社区

【顶级EI复现】工业园区需求响应资源聚合优化配置方法（Matlab代码实现）

需求响应资源数量的不断提升对响应资源的优化运行方法提出了更高的要求。面向工业园区内负荷聚合商开展日内需求响应的应用场景,提出了一种资源聚合优化配置方法,即在日前时段对响应资源预先聚合优化形成一定数量满足特定条件的聚合体,再在日内运行时段对各聚合体进行优化调用以满足电网侧需求。该方法实现对数量庞大、分散存在、特性各异的资源的灵活聚合和优化配置,充分发挥各资源响应潜力和互补特性,并通过将大量求解计算从

AtomGit开源社区

所有评论(0)

查看更多评论

摩羯mc_six

已为社区贡献1条内容