26年3.30,Ollama更新的对于mac的适配,引入了苹果原生矩阵运算框架MLX

https://ollama.com/blog/mlx

什么是MLX?

MLX是 Apple 机器学习研究团队推出的专为 Apple Silicon 设计的开源框架。它并非简单的 API 封装,而是一个采用 数组编程(Array Programming) 模式、深度优化了 Metal 性能的底层框架,Ollama 将 MLX 集成为其推理引擎的可选后端。在 Apple Silicon 设备上,Ollama 能够自动检测并启用 MLX 算子,直接调用系统的统一内存(Unified Memory)进行模型权重加载和矩阵运算,可以完全利用mac统一内存架构的优势,因此极大降低了首字延迟(TTFT),并在推理长文本时显著减少了带宽损耗,在实际运行的时候可以发现明显降低了延迟速度,首字延迟和生成速度都十分可观,可以达到25tokens/s

使用qwen2.5:7B进行测试

qwen2.5本地速度测试

Ollama部署

本地部署免费,并且保护隐私,具有一定性价比

可以参考官方文档:https://docs.ollama.com/quickstart

也可以安照我的步骤

在终端输入

curl -fsSL https://ollama.com/install.sh | sh

下载完成后,进行本地模型的下载,继续输入

ollama run llama3:8b    # 下载llama3:8b
ollama run qwen2.5:7b   # 下载qwen2.5:7b
ollama run qwen3.5:9b   # 下载qwen3.5:9b

比较推荐这是3个模型,都可以在M1pro芯片上跑起来,其中qwen3.5:9b最强,有思考模式,但是响应时间不如另外两个,输入命令就开始下载了

下载完成后可以选择在终端进行对话,也可以在软件Ollama中进行对话

要想在终端对话,输入ollama启动

ollama

选择第一个回车,之后就会将模型加载进显存可以开始对话

在Ollama软件中打开

小模型性能比较

这些小模型都可以在M1pro上跑通,并且输出速度不影响阅读

对比qwen2.5:7b,qwen3.5:9b和llama3:8b在同一个问题:介绍一下拓扑排序算法

在llama3:8b上的表现可以到34tokens/s,由于llama是meta用英文语料训练的,所以输出多为英文,会有语言漂移的问题

在qwen3.5:9b上的表现明显下降,并且由于thinking模式,整个对话完成时间也随之增加

本地部署使用

本地部署可以有多种使用方法,除了基本的对话,还可以配置到一些ide中使用,或者打造个人知识库等,下面介绍一种文献阅读使用的方法,部署之后响应速度快,使用本地模型即可实现文献的划词翻译

下载zotero插件:translate for zotero

在设置中进行配置,推荐使用qwen2.5:7b中文适配好,响应速度快,密钥中选择自定义GPT后点击配置

一下配置可以照抄

提示词如下:

你是一位精通计算机科学 (Computer Science) 的学术翻译专家。请直接将以下英文段落翻译成地道的学术中文。

要求:
术语专业,保留必要的英文缩写。
禁止输出任何开头、结尾、注释或“Note”。
必须直接以翻译后的文字作为回复。

待翻译文本:
${sourceText}

保存后即可实现本地划词翻译

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐