Ollama

Ollama, 羊驼,快速的在本地电脑上运行大模型,只需要下载一个应用包即可,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。

Ollama 将模型权重、配置和数据捆绑到一个包中,定义成 Modelfile。它优化了设置和配置细节,包括 GPU 使用情况。

优势

  1. 使用极其方便。一键安装应用,一键获取模型,一键启动模型服务并进行对话。
  2. 轻量级。代码简洁,运行时占用资源少。
  3. 可扩展。
  4. 可和其他框架进行整合。

本文以Windows系统为例,其他系统类似。

建议8G显存,16G+内存,固态硬盘,容量越大越好,需存储模型。

案例

下载

下载地址

安装

双击后,一直下一步直到安装完成即可。

模型的选择

在官网,点击models,按照 most popular进行排序,或者点击模型进行搜索。国内比较好的模型,如glm4和qwen系列均可选择
在这里插入图片描述

注意:模型对内存和显卡有要求,根据电脑的实际配置选取模型。一般情况下,模型的大小小于显存的大小运行比较流程,运行速度比较快,硬盘最好是固态,机械硬盘也可以,CPU要求不是很高。
比如,8G显存32G内存的配置,可以流程运行9B左右的模型,但运行大于32B以上的模型就比较吃力,推理速度很慢。

运行

打开cmd,输入ollama run {模型名称},如,运行glm4-9b,则执行

ollama run glm4:9b

如果之前没有下载该模型,那么系统会首先下载模型,下载后运行,其中下载速度还是很快的,下载至99%到100%速度较慢。
在这里插入图片描述

效果

问答

在这里插入图片描述

逻辑运算

最近比较火的测试大模型的题目,glm效果不错,qwen错了。
在这里插入图片描述

在这里插入图片描述

资源占用

CPU和GPU分别在推理的时候使用,在加载模型的时候,会将资源提前加载到内存中。在推理的时候,显存使用率较高,如果模型较大,则推理速度较慢。8G显存在运行9B模型的时候,非常丝滑,在运行14B模型的时候,类似打字机一样,比较慢。

常用命令

获取模型
ollama pull llama3
运行模型
ollama run  llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve

下节整合WebUI。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐