第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度

小山丘

1407人浏览 · 2024-04-27 14:50:20

小山丘 · 2024-04-27 14:50:20 发布

环境

系统：CentOS-7
CPU: 14C28T
内存：32G
显卡：Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32

标准洋垃圾

执行命令

ollama run xxxx:latest --verbose

--verbose 带指标的运行

问题

1.你好（预热）
2.请写一篇200字的关于山的散文
3.请写一篇200字的关于水的散文
4.请写一篇200字的关于大海的散文

2.3.4 随机一次

模型列表

[root@ai-server ollama]# ollama list
NAME                            ID              SIZE    MODIFIED      
gemma:2b                        b50d6c999e59    1.7 GB  2 days ago   
internlm2:latest                46cde8aad8ff    4.7 GB  3 days ago   
llama-3-8b-instruct:latest               a33dde62027d    4.9 GB  6 minutes ago
mistral-7b:latest               fe7ebabb08f5    4.1 GB  2 days ago   
mixtral-7_8b:latest             7b96df9a349a    26 GB   2 days ago   
qweb-14b:latest                 6137264107d3    9.4 GB  2 days ago   
qwen:0.5b-chat-v1.5-q4_K_M      e1c9c6192a7e    407 MB  2 days ago   
qwen1.5-14b:latest              3cc8bb79440c    9.2 GB  2 days ago   
qwen1.5-32b:latest              96743882fd6d    19 GB   6 hours ago  
qwen1.5-72b-q2:latest           ac5b2e824d5c    28 GB   6 hours ago  
qwen1.5-moe:latest              b3247e5069ed    10 GB   2 days ago 
qwen1.5-72b-q4:latest           d75c886d84d2    44 GB   11 minutes ago
qwen1.5-7b:latest               f1d5d49ce7d4    4.8 GB  24 seconds ago

自己模型列表，本地gguf文件加载，非直接ollama下载

llama-3-8b

命令
    ollama run llama-3-8b-instruct:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
     | N/A   41C    P0             152W / 250W |   5172MiB / 23040MiB |     86%      Default |

速度指标
	total duration:       9.496914834s
	load duration:        1.785266ms
	prompt eval count:    231 token(s)
	prompt eval duration: 426.264ms
	prompt eval rate:     541.92 tokens/s
	eval count:           264 token(s)
	eval duration:        8.766519s
	eval rate:            30.11 tokens/s

速度很快，很快，Tesla P40 可以哇,只是llama-3-8b中文支持不好，他使用英文回答，提示词强调使用中文回答，也是中英混合

qwen1.5-7b

命令
    ollama run qwen1.5-7b:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
      | N/A   40C    P0             157W / 250W |   5802MiB / 23040MiB |     86%      Default |

速度指标
	total duration:       4.688033303s
	load duration:        1.590795ms
	prompt eval count:    20 token(s)
	prompt eval duration: 124.73ms
	prompt eval rate:     160.35 tokens/s
	eval count:           137 token(s)
	eval duration:        4.312253s
	eval rate:            31.77 tokens/s

速度很快，很快，Tesla P40 可以哇

qwen1.5-14b

命令
    ollama run qwen1.5-14b:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             162W / 250W |  10518MiB / 23040MiB |     91%      Default |

速度指标
    total duration:       8.553113606s
    load duration:        1.596673ms
    prompt eval count:    22 token(s)
    prompt eval duration: 220.577ms
    prompt eval rate:     99.74 tokens/s
    eval count:           146 token(s)
    eval duration:        8.037546s
    eval rate:            18.16 tokens/s

速度可以，后面再试试问题质量如何，可以来做知识库回答，后面再试

qwen1.5-32b

命令
    ollama run qwen1.5-32b:latest --verbose

CPU 
    80% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             174W / 250W |  19436MiB / 23040MiB |     97%      Default |

速度指标
    total duration:       20.167482245s
    load duration:        2.789556ms
    prompt eval count:    20 token(s)
    prompt eval duration: 470.535ms
    prompt eval rate:     42.50 tokens/s
    eval count:           177 token(s)
    eval duration:        19.48729s
    eval rate:            9.08 tokens/s

速度可以，后面再试试问题质量如何，可以用来回我复杂问题

qwen1.5-72b-q4

命令
    ollama run qwen1.5-72b-q4:latest --verbose

CPU 
    1400% 很高 28T
内存
    2G+
GPU
  | N/A   37C    P0              54W / 250W |  22122MiB / 23040MiB |      0%      Default | 
  GPU不进行推理计算，只占用显存

速度指标
	total duration:       2m32.683251597s
	load duration:        1.785367ms
	prompt eval count:    20 token(s)
	prompt eval duration: 7.080983s
	prompt eval rate:     2.82 tokens/s
	eval count:           160 token(s)
	eval duration:        2m25.349322s
	eval rate:            1.10 tokens/s

速度还是很慢的，1个字1个字的吐,只能用来简单跑跑玩玩

mixtral-7_8b

命令
    ollama run mixtral-7_8b:latest --verbose

CPU 
    800% 高 28T
内存
    5G+
GPU
  | N/A   38C    P0              83W / 250W |  22436MiB / 23040MiB |     39%      Default |
  GPU进行计算，CPU也进行计算

速度指标
	total duration:       39.457797756s
	load duration:        4.750232ms
	prompt eval count:    25 token(s)
	prompt eval duration: 1.046312s
	prompt eval rate:     23.89 tokens/s
	eval count:           397 token(s)
	eval duration:        38.10865s
	eval rate:            10.42 tokens/s

速度还是很不错的，只是他大多不用中文回答（提示词不强调中文回答）。

总结

Tesla-P40 还是挺令我惊讶的，14B模型速度还是非常好的，有机会大家可以用来试试
其他模型下载中。。。。

第二十四篇-Ollama-在线安装
 第二十五篇-Ollama-离线安装
 第二十六篇-Ollama-监听本地IP与端口
 第二十七篇-Ollama-加载本地模型文件
 第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
 第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m