第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
·
环境
系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32
标准洋垃圾
执行命令
ollama run xxxx:latest --verbose
--verbose 带指标的运行
问题
1.你好(预热)
2.请写一篇200字的关于山的散文
3.请写一篇200字的关于水的散文
4.请写一篇200字的关于大海的散文
2.3.4 随机一次
模型列表
[root@ai-server ollama]# ollama list
NAME ID SIZE MODIFIED
gemma:2b b50d6c999e59 1.7 GB 2 days ago
internlm2:latest 46cde8aad8ff 4.7 GB 3 days ago
llama-3-8b-instruct:latest a33dde62027d 4.9 GB 6 minutes ago
mistral-7b:latest fe7ebabb08f5 4.1 GB 2 days ago
mixtral-7_8b:latest 7b96df9a349a 26 GB 2 days ago
qweb-14b:latest 6137264107d3 9.4 GB 2 days ago
qwen:0.5b-chat-v1.5-q4_K_M e1c9c6192a7e 407 MB 2 days ago
qwen1.5-14b:latest 3cc8bb79440c 9.2 GB 2 days ago
qwen1.5-32b:latest 96743882fd6d 19 GB 6 hours ago
qwen1.5-72b-q2:latest ac5b2e824d5c 28 GB 6 hours ago
qwen1.5-moe:latest b3247e5069ed 10 GB 2 days ago
qwen1.5-72b-q4:latest d75c886d84d2 44 GB 11 minutes ago
qwen1.5-7b:latest f1d5d49ce7d4 4.8 GB 24 seconds ago
自己模型列表,本地gguf文件加载,非直接ollama下载
llama-3-8b
命令
ollama run llama-3-8b-instruct:latest --verbose
CPU
100% 很低 28T
内存
忽略
GPU
| N/A 41C P0 152W / 250W | 5172MiB / 23040MiB | 86% Default |
速度指标
total duration: 9.496914834s
load duration: 1.785266ms
prompt eval count: 231 token(s)
prompt eval duration: 426.264ms
prompt eval rate: 541.92 tokens/s
eval count: 264 token(s)
eval duration: 8.766519s
eval rate: 30.11 tokens/s
速度很快,很快,Tesla P40 可以哇,只是llama-3-8b中文支持不好,他使用英文回答,提示词强调使用中文回答,也是中英混合
qwen1.5-7b
命令
ollama run qwen1.5-7b:latest --verbose
CPU
100% 很低 28T
内存
忽略
GPU
| N/A 40C P0 157W / 250W | 5802MiB / 23040MiB | 86% Default |
速度指标
total duration: 4.688033303s
load duration: 1.590795ms
prompt eval count: 20 token(s)
prompt eval duration: 124.73ms
prompt eval rate: 160.35 tokens/s
eval count: 137 token(s)
eval duration: 4.312253s
eval rate: 31.77 tokens/s
速度很快,很快,Tesla P40 可以哇
qwen1.5-14b
命令
ollama run qwen1.5-14b:latest --verbose
CPU
100% 很低 28T
内存
忽略
GPU
| N/A 46C P0 162W / 250W | 10518MiB / 23040MiB | 91% Default |
速度指标
total duration: 8.553113606s
load duration: 1.596673ms
prompt eval count: 22 token(s)
prompt eval duration: 220.577ms
prompt eval rate: 99.74 tokens/s
eval count: 146 token(s)
eval duration: 8.037546s
eval rate: 18.16 tokens/s
速度可以,后面再试试问题质量如何,可以来做知识库回答,后面再试
qwen1.5-32b
命令
ollama run qwen1.5-32b:latest --verbose
CPU
80% 很低 28T
内存
忽略
GPU
| N/A 46C P0 174W / 250W | 19436MiB / 23040MiB | 97% Default |
速度指标
total duration: 20.167482245s
load duration: 2.789556ms
prompt eval count: 20 token(s)
prompt eval duration: 470.535ms
prompt eval rate: 42.50 tokens/s
eval count: 177 token(s)
eval duration: 19.48729s
eval rate: 9.08 tokens/s
速度可以,后面再试试问题质量如何,可以用来回我复杂问题
qwen1.5-72b-q4
命令
ollama run qwen1.5-72b-q4:latest --verbose
CPU
1400% 很高 28T
内存
2G+
GPU
| N/A 37C P0 54W / 250W | 22122MiB / 23040MiB | 0% Default |
GPU不进行推理计算,只占用显存
速度指标
total duration: 2m32.683251597s
load duration: 1.785367ms
prompt eval count: 20 token(s)
prompt eval duration: 7.080983s
prompt eval rate: 2.82 tokens/s
eval count: 160 token(s)
eval duration: 2m25.349322s
eval rate: 1.10 tokens/s
速度还是很慢的,1个字1个字的吐,只能用来简单跑跑玩玩
mixtral-7_8b
命令
ollama run mixtral-7_8b:latest --verbose
CPU
800% 高 28T
内存
5G+
GPU
| N/A 38C P0 83W / 250W | 22436MiB / 23040MiB | 39% Default |
GPU进行计算,CPU也进行计算
速度指标
total duration: 39.457797756s
load duration: 4.750232ms
prompt eval count: 25 token(s)
prompt eval duration: 1.046312s
prompt eval rate: 23.89 tokens/s
eval count: 397 token(s)
eval duration: 38.10865s
eval rate: 10.42 tokens/s
速度还是很不错的,只是他大多不用中文回答(提示词不强调中文回答)。
总结
Tesla-P40 还是挺令我惊讶的,14B模型速度还是非常好的,有机会大家可以用来试试
其他模型下载中。。。。
第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度
更多推荐
已为社区贡献11条内容
所有评论(0)