环境

系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32

标准洋垃圾

执行命令

ollama run xxxx:latest --verbose
--verbose 带指标的运行

问题

1.你好(预热)
2.请写一篇200字的关于山的散文
3.请写一篇200字的关于水的散文
4.请写一篇200字的关于大海的散文
2.3.4 随机一次

模型列表

[root@ai-server ollama]# ollama list
NAME                            ID              SIZE    MODIFIED      
gemma:2b                        b50d6c999e59    1.7 GB  2 days ago   
internlm2:latest                46cde8aad8ff    4.7 GB  3 days ago   
llama-3-8b-instruct:latest               a33dde62027d    4.9 GB  6 minutes ago
mistral-7b:latest               fe7ebabb08f5    4.1 GB  2 days ago   
mixtral-7_8b:latest             7b96df9a349a    26 GB   2 days ago   
qweb-14b:latest                 6137264107d3    9.4 GB  2 days ago   
qwen:0.5b-chat-v1.5-q4_K_M      e1c9c6192a7e    407 MB  2 days ago   
qwen1.5-14b:latest              3cc8bb79440c    9.2 GB  2 days ago   
qwen1.5-32b:latest              96743882fd6d    19 GB   6 hours ago  
qwen1.5-72b-q2:latest           ac5b2e824d5c    28 GB   6 hours ago  
qwen1.5-moe:latest              b3247e5069ed    10 GB   2 days ago 
qwen1.5-72b-q4:latest           d75c886d84d2    44 GB   11 minutes ago
qwen1.5-7b:latest               f1d5d49ce7d4    4.8 GB  24 seconds ago

自己模型列表,本地gguf文件加载,非直接ollama下载

llama-3-8b

命令
    ollama run llama-3-8b-instruct:latest --verbose
CPU 
    100% 很低 28T
内存
    忽略
GPU
     | N/A   41C    P0             152W / 250W |   5172MiB / 23040MiB |     86%      Default |
速度指标
	total duration:       9.496914834s
	load duration:        1.785266ms
	prompt eval count:    231 token(s)
	prompt eval duration: 426.264ms
	prompt eval rate:     541.92 tokens/s
	eval count:           264 token(s)
	eval duration:        8.766519s
	eval rate:            30.11 tokens/s

速度很快,很快,Tesla P40 可以哇,只是llama-3-8b中文支持不好,他使用英文回答,提示词强调使用中文回答,也是中英混合

qwen1.5-7b

命令
    ollama run qwen1.5-7b:latest --verbose
CPU 
    100% 很低 28T
内存
    忽略
GPU
      | N/A   40C    P0             157W / 250W |   5802MiB / 23040MiB |     86%      Default |
速度指标
	total duration:       4.688033303s
	load duration:        1.590795ms
	prompt eval count:    20 token(s)
	prompt eval duration: 124.73ms
	prompt eval rate:     160.35 tokens/s
	eval count:           137 token(s)
	eval duration:        4.312253s
	eval rate:            31.77 tokens/s

速度很快,很快,Tesla P40 可以哇

qwen1.5-14b

命令
    ollama run qwen1.5-14b:latest --verbose
CPU 
    100% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             162W / 250W |  10518MiB / 23040MiB |     91%      Default |
速度指标
    total duration:       8.553113606s
    load duration:        1.596673ms
    prompt eval count:    22 token(s)
    prompt eval duration: 220.577ms
    prompt eval rate:     99.74 tokens/s
    eval count:           146 token(s)
    eval duration:        8.037546s
    eval rate:            18.16 tokens/s

速度可以,后面再试试问题质量如何,可以来做知识库回答,后面再试

qwen1.5-32b

命令
    ollama run qwen1.5-32b:latest --verbose
CPU 
    80% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             174W / 250W |  19436MiB / 23040MiB |     97%      Default |
速度指标
    total duration:       20.167482245s
    load duration:        2.789556ms
    prompt eval count:    20 token(s)
    prompt eval duration: 470.535ms
    prompt eval rate:     42.50 tokens/s
    eval count:           177 token(s)
    eval duration:        19.48729s
    eval rate:            9.08 tokens/s

速度可以,后面再试试问题质量如何,可以用来回我复杂问题

qwen1.5-72b-q4

命令
    ollama run qwen1.5-72b-q4:latest --verbose
CPU 
    1400% 很高 28T
内存
    2G+
GPU
  | N/A   37C    P0              54W / 250W |  22122MiB / 23040MiB |      0%      Default | 
  GPU不进行推理计算,只占用显存
速度指标
	total duration:       2m32.683251597s
	load duration:        1.785367ms
	prompt eval count:    20 token(s)
	prompt eval duration: 7.080983s
	prompt eval rate:     2.82 tokens/s
	eval count:           160 token(s)
	eval duration:        2m25.349322s
	eval rate:            1.10 tokens/s

速度还是很慢的,1个字1个字的吐,只能用来简单跑跑玩玩

mixtral-7_8b

命令
    ollama run mixtral-7_8b:latest --verbose
CPU 
    800% 高 28T
内存
    5G+
GPU
  | N/A   38C    P0              83W / 250W |  22436MiB / 23040MiB |     39%      Default |
  GPU进行计算,CPU也进行计算
速度指标
	total duration:       39.457797756s
	load duration:        4.750232ms
	prompt eval count:    25 token(s)
	prompt eval duration: 1.046312s
	prompt eval rate:     23.89 tokens/s
	eval count:           397 token(s)
	eval duration:        38.10865s
	eval rate:            10.42 tokens/s

速度还是很不错的,只是他大多不用中文回答(提示词不强调中文回答)。

总结

Tesla-P40 还是挺令我惊讶的,14B模型速度还是非常好的,有机会大家可以用来试试
其他模型下载中。。。。

第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐