采用Ollama运行本地大模型

Lee Howard

1788人浏览 · 2024-07-22 10:31:36

Lee Howard · 2024-07-22 10:31:36 发布

Ollama

Ollama，羊驼，快速的在本地电脑上运行大模型，只需要下载一个应用包即可，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。

Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况。

优势

使用极其方便。一键安装应用，一键获取模型，一键启动模型服务并进行对话。
轻量级。代码简洁，运行时占用资源少。
可扩展。
可和其他框架进行整合。

本文以Windows系统为例，其他系统类似。

建议8G显存，16G+内存，固态硬盘，容量越大越好，需存储模型。

案例

下载

下载地址

安装

双击后，一直下一步直到安装完成即可。

模型的选择

在官网，点击models，按照 most popular进行排序，或者点击模型进行搜索。国内比较好的模型，如glm4和qwen系列均可选择
在这里插入图片描述

注意：模型对内存和显卡有要求，根据电脑的实际配置选取模型。一般情况下，模型的大小小于显存的大小运行比较流程，运行速度比较快，硬盘最好是固态，机械硬盘也可以，CPU要求不是很高。
比如，8G显存32G内存的配置，可以流程运行9B左右的模型，但运行大于32B以上的模型就比较吃力，推理速度很慢。

运行

打开cmd，输入ollama run {模型名称}，如，运行glm4-9b，则执行

ollama run glm4:9b

如果之前没有下载该模型，那么系统会首先下载模型，下载后运行，其中下载速度还是很快的，下载至99%到100%速度较慢。
在这里插入图片描述

效果

问答

在这里插入图片描述

逻辑运算

最近比较火的测试大模型的题目，glm效果不错，qwen错了。
在这里插入图片描述

在这里插入图片描述

资源占用

CPU和GPU分别在推理的时候使用，在加载模型的时候，会将资源提前加载到内存中。在推理的时候，显存使用率较高，如果模型较大，则推理速度较慢。8G显存在运行9B模型的时候，非常丝滑，在运行14B模型的时候，类似打字机一样，比较慢。

常用命令

获取模型
ollama pull llama3
运行模型
ollama run  llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve

下节整合WebUI。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

沁言学术能取代Grammarly在学术写作润色与扩写中的角色吗？

沁言学术是AI驱动的学术平台，专注科研写作辅助（如文献整合和智能扩写）；Grammarly是通用写作工具，侧重语法和风格优化。主要问题：沁言学术能否代替Grammarly？潜在取代性：沁言学术在学术专精上接近（如AI生成学术文本），但Grammarly的实时性和多语种更广；实测中，沁言可覆盖80%润色需求，但需Grammarly补齐通用纠错。实际性能：聚焦AI文本生成（沁言强）、自动润色（二者相当

GitCode 开源社区

沁言学术 vs NoteExpress：学术AI与传统工具的科研全流程支持对比

沁言学术是AI驱动平台，融合NLP和机器学习，实现智能辅助；NoteExpress是本土传统工具，专注文献管理软件，支持Windows生态。相同点：二者均覆盖检索、管理、引用等核心，支持PDF导入和基本笔记。不同点：沁言学术AI自动化（如智能检索建议），NoteExpress手动优化（如本土数据库集成）。全流程支持：从检索到协作，沁言学术闭环更智能，NoteExpress更稳固；实测中，沁言效率升