mac本地部署大模型：oMLX +open claw

Samooyou

1704人浏览 · 2026-04-19 19:08:11

Samooyou · 2026-04-19 19:08:11 发布

痛点

使用LM studio部署本地模型，内存使用过大，容易卡顿，甚至崩溃，网上调研各种本地模型部署方式，发现oMLX适配Mac的M系列芯片非常友好，优化很明显，特部署体验

基础信息

机型：m1pro 32g+512g，满血10+16核

模型：Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit

架构：oMLX + open claw

介绍

oMLX 是苹果官方 MLX 框架的商业增强封装发行版，是一个专为 Apple（M1/M2/M3/M4/M5 系列芯片）深度优化的本地大语言模型（LLM）推理服务器，基于 Apple 的 MLX 框架，提供了一个原生的 macOS 菜单栏应用，但在上层做了大量针对 Apple Silicon、MoE 大模型、OpenClaw 生态的深度优化。
支持文本生成、多模态视觉（VLM）、嵌入（Embedding）及重排序（Reranker）等任务，是 Claude Code 和 Cursor 等编程助手的理想本地后端。例如open claw支持官方一键集成。

原理：

oMLX 通过以下技术实现超越传统推理引擎的性能：

分层 KV 缓存 (Tiered KV Cache):
- 热缓存 (RAM): 活跃对话数据保留在内存中。
- 冷缓存 (SSD): 不常用数据以 safetensors 格式转储至磁盘。
- 优势: 支持跨重启的上下文持久化，大幅减少重复 Prefill 的计算开销。
连续批处理 (Continuous Batching): 允许在处理现有请求的同时加入新请求，最大化 Apple GPU 的并行吞吐量。
内存保护机制: 自动预留系统内存（默认保留 8GB），防止模型占用过多资源导致 macOS 系统卡死。