Mano-P 本地模型开源详解：4B参数如何在Mac上实现高效GUI自动化？

Mininglamp_2718

631人浏览 · 2026-05-06 19:12:59

Mininglamp_2718 · 2026-05-06 19:12:59 发布

Mano-P 本地模型开源详解：4B 参数如何在 Mac 上实现高效 GUI 自动化？

引言

GUI 自动化（Computer Use Agent, CUA）正在成为 AI Agent 领域的重要技术方向。它让 AI 能像人一样通过视觉理解屏幕内容，并执行点击、输入、滚动等操作，完成复杂的跨应用任务。

然而，当前大多数 GUI Agent 方案依赖云端推理，每一帧屏幕截图都需要上传到远程服务器。对于涉及敏感信息的工作场景，这带来了显著的数据安全顾虑。

Mano-P 的回答是：将完整的 GUI-VLA 推理能力搬到本地设备上。今天，我们正式开源 Mano-P 1.0-4B 本地模型、Cider 推理加速 SDK 以及 Mano-AFK 端到端应用构建工具，实现 GUI 自动化的完全本地化运行。

Mano-P 项目概述

Mano-P 是明略科技开源的面向端侧设备的 GUI-VLA（Vision-Language-Action）智能体项目。Mano 是西班牙语里"手"的意思，P 代表 Private——我们相信每个人都能拥有属于自己的私有 AI。

技术层面，Mano-P 基于完整的 Mano 技术体系（Mano Technical Report），核心方法包括：

Mano-Action 双向自增强学习方法
三阶段渐进式训练：SFT → 离线强化学习 → 在线强化学习
"思考-行动-验证"循环推理机制
混合精度量化与视觉 Token 剪枝

这套体系使 Mano-P 在多项基准测试中取得了优异成绩：

OSWorld（专用 GUI Agent 模型）：Mano-P 1.0-72B 取得 58.2% 成功率，排名第一
WebRetriever Protocol I：Mano-P 1.0 取得 41.7 NavEval 分数

4B 模型如何在端侧高效运行

将一个具备完整 GUI 理解和操作能力的模型压缩到 4B 参数并部署到消费级硬件上，需要解决几个核心问题：

1. 模型压缩与保持精度

Mano-P 1.0-4B 通过端侧版本专项优化——混合精度量化、视觉 Token 剪枝和边缘推理自适应——在大幅缩减模型体积的同时，保持了 GUI 场景下的操作精度。

2. 硬件适配

Mano-P 1.0-4B 基于 Apple MLX 框架运行，充分利用 Apple Silicon 的统一内存架构：

支持设备：Mac mini / MacBook，搭载 Apple M4 芯片及以上，32GB 及以上统一内存
替代方案：通过 USB 4.0 连接的 Mano-P 算力棒

3. 推理加速——Cider SDK

这是本次发布的一个关键组件。

问题背景：Apple MLX 的量化方案属于仅权重量化（Weight-Only Quantization），QuantizedLinear 将权重反量化为 FP16 后执行 FP16 GEMM。MLX 并未提供真正的 W8A8 推理路径，即同时对权重和激活进行 INT8 量化计算。

Cider 的解决方案：通过自定义 Metal Kernel 实现 fused quantize-matmul-dequant 原语，补齐 MLX 生态中缺失的激活量化能力。

支持的量化模式：

模式	权重	激活	计算路径
W8A8	INT8 symmetric	INT8 per-token	TensorOps matmul2d
W4A8	INT4 packed (uint8)	INT8 per-token	Unpack → TensorOps

性能实测（Mano-P 1.0-4B，Apple M5 Pro，64GB RAM）：

W8A16 baseline：Prefill 2.839s，Decode 80.1 tokens/s
W8A8（Cider 加速）：Prefill 2.519s，Decode 79.5 tokens/s
Prefill 加速约 12.7%，Decode 速度基本持平

更大规模的加速：对于通用 MLX 模型（如 Qwen3-VL），Cider W8A8 相对 MLX 原生 W4A16 可实现 1.4x–2.2x 的 prefill 加速。

重要说明：Cider 不是 Mano-P 的专属工具，它可以加速任何基于 MLX 的模型推理。

条件编译策略

Cider 采用条件编译：INT8 TensorOps C++ 扩展仅在 Apple M5 及以上芯片完整构建。M4 设备安装后以纯 Python 包形式运行，is_available() 返回 False。可通过环境变量 CIDER_FORCE_BUILD=1 强制构建。

👉Cider

Mano-AFK：从一句话到可运行的应用

Mano-AFK 是 Mano-P 在软件工程场景中的典型应用。它是一个端到端的自动化应用构建流水线：

完整流程：自然语言需求 → 需求澄清 → 架构设计 → 代码生成 → 部署 → E2E GUI 测试 → 缺陷修复 → 交付可运行应用

其中 E2E 测试环节默认以 Mano-P 为本地视觉模型后端，驱动真实浏览器进行 GUI 自动化测试。测试失败时自动定位问题、修复代码并重新验证，全程无需人工介入。

CUA Benchmark

测试环境：Mano-P 4B，MacBook Pro M5（16GB 统一内存），100 条任务覆盖 5 个由 Mano-AFK 自动构建的 Web 应用（TripSplit、md-wechat、OMS、Family Ledger、Life Dashboard）。

测试结果：

W8A16：58.0% 准确率，平均 6.1 步，Prefill ~1,253 tok/s
W8A8（Cider）：54.0% 准确率，平均 6.93 步，Prefill ~1,453 tok/s

关于 16GB 设备上 W8A8 表现：W8A8 需同时保留原始权重与 INT8 权重，在 16GB 统一内存设备上，额外的内存压力可能触发换页，抵消 prefill 的加速收益。建议预留超出模型体积 4GB 以上的空闲内存，才能发挥 W8A8 的完整优势。

👉Mano-AFK

数据隐私与安全

本地模式下的数据保障：

✅ 所有推理计算在本地设备完成
✅ 截图和任务描述完全不经过网络传输
✅ 不访问或传输任何数据到外部服务器
✅ 完整源代码公开，可供审计

开源计划

Mano-P 采用分阶段开源策略：

第一阶段（已发布）：Mano-CUA Skills——面向 Agent 爱好者，集成到 OpenClaw、Claude Code 等 Agent 工作流中
第二阶段（本次发布）：本地模型 + Cider SDK——面向高安全需求开发者，支持完全本地化部署
第三阶段（即将发布）：训练方法、剪枝和量化技术——面向有定制化模型训练需求的开发者