采用Ollama运行本地大模型
·
Ollama
Ollama, 羊驼,快速的在本地电脑上运行大模型,只需要下载一个应用包即可,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。
Ollama 将模型权重、配置和数据捆绑到一个包中,定义成 Modelfile。它优化了设置和配置细节,包括 GPU 使用情况。
优势
- 使用极其方便。一键安装应用,一键获取模型,一键启动模型服务并进行对话。
- 轻量级。代码简洁,运行时占用资源少。
- 可扩展。
- 可和其他框架进行整合。
本文以Windows系统为例,其他系统类似。
建议8G显存,16G+内存,固态硬盘,容量越大越好,需存储模型。
案例
下载
安装
双击后,一直下一步直到安装完成即可。
模型的选择
在官网,点击models,按照 most popular进行排序,或者点击模型进行搜索。国内比较好的模型,如glm4和qwen系列均可选择
注意:模型对内存和显卡有要求,根据电脑的实际配置选取模型。一般情况下,模型的大小小于显存的大小运行比较流程,运行速度比较快,硬盘最好是固态,机械硬盘也可以,CPU要求不是很高。
比如,8G显存32G内存的配置,可以流程运行9B左右的模型,但运行大于32B以上的模型就比较吃力,推理速度很慢。
运行
打开cmd,输入ollama run {模型名称}
,如,运行glm4-9b,则执行
ollama run glm4:9b
如果之前没有下载该模型,那么系统会首先下载模型,下载后运行,其中下载速度还是很快的,下载至99%到100%速度较慢。
效果
问答
逻辑运算
最近比较火的测试大模型的题目,glm效果不错,qwen错了。
资源占用
CPU和GPU分别在推理的时候使用,在加载模型的时候,会将资源提前加载到内存中。在推理的时候,显存使用率较高,如果模型较大,则推理速度较慢。8G显存在运行9B模型的时候,非常丝滑,在运行14B模型的时候,类似打字机一样,比较慢。
常用命令
获取模型
ollama pull llama3
运行模型
ollama run llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve
下节整合WebUI。
更多推荐
已为社区贡献3条内容
所有评论(0)