第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度
·
系列文章
第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度
环境
系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.42
查看版本
ollama --version
升级ollama
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
重新加载
systemctl restart ollama
本地方式加载qwen2-57B
下载模型
https://hf-mirror.com/legraphista/Qwen2-57B-A14B-Instruct-GGUF
Qwen2-57B-A14B-Instruct.Q4_K_S.gguf
配置文件
qwen2-57b.mf
FROM /models/Qwen2-57B-A14B-Instruct-GGUF/Qwen2-57B-A14B-Instruct.Q4_K_S.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
创建模型
ollama create qwen2-57b -f qwen2-57b.mf
大概2-3分钟
使用模型
ollama run qwen2-57b:latest --verbose
性能数据
total duration: 56.124164153s
load duration: 1.766272ms
prompt eval count: 24 token(s)
prompt eval duration: 1.373102s
prompt eval rate: 17.48 tokens/s
eval count: 401 token(s)
eval duration: 54.607755s
eval rate: 7.34 tokens/s
| N/A 39C P0 56W / 250W | 21638MiB / 23040MiB | 18% Default |
更多推荐
已为社区贡献11条内容
所有评论(0)