系列文章

第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度

环境

系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.42

查看版本

ollama --version

升级ollama

sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

重新加载

systemctl restart ollama

本地方式加载qwen2-57B

下载模型

https://hf-mirror.com/legraphista/Qwen2-57B-A14B-Instruct-GGUF
Qwen2-57B-A14B-Instruct.Q4_K_S.gguf

配置文件

qwen2-57b.mf

FROM /models/Qwen2-57B-A14B-Instruct-GGUF/Qwen2-57B-A14B-Instruct.Q4_K_S.gguf


TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

创建模型

ollama create qwen2-57b -f qwen2-57b.mf

大概2-3分钟

使用模型

ollama run qwen2-57b:latest --verbose

性能数据

total duration:       56.124164153s
load duration:        1.766272ms
prompt eval count:    24 token(s)
prompt eval duration: 1.373102s
prompt eval rate:     17.48 tokens/s
eval count:           401 token(s)
eval duration:        54.607755s
eval rate:            7.34 tokens/s
| N/A   39C    P0              56W / 250W |  21638MiB / 23040MiB |     18%      Default |
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐