Mano-P 本地模型开源详解:4B 参数如何在 Mac 上实现高效 GUI 自动化?

引言

GUI 自动化(Computer Use Agent, CUA)正在成为 AI Agent 领域的重要技术方向。它让 AI 能像人一样通过视觉理解屏幕内容,并执行点击、输入、滚动等操作,完成复杂的跨应用任务。

然而,当前大多数 GUI Agent 方案依赖云端推理,每一帧屏幕截图都需要上传到远程服务器。对于涉及敏感信息的工作场景,这带来了显著的数据安全顾虑。

Mano-P 的回答是:将完整的 GUI-VLA 推理能力搬到本地设备上。今天,我们正式开源 Mano-P 1.0-4B 本地模型、Cider 推理加速 SDK 以及 Mano-AFK 端到端应用构建工具,实现 GUI 自动化的完全本地化运行。

Mano-P 项目概述

Mano-P 是明略科技开源的面向端侧设备的 GUI-VLA(Vision-Language-Action)智能体项目。Mano 是西班牙语里"手"的意思,P 代表 Private——我们相信每个人都能拥有属于自己的私有 AI。

技术层面,Mano-P 基于完整的 Mano 技术体系(Mano Technical Report),核心方法包括:

  • Mano-Action 双向自增强学习方法
  • 三阶段渐进式训练:SFT → 离线强化学习 → 在线强化学习
  • "思考-行动-验证"循环推理机制
  • 混合精度量化与视觉 Token 剪枝

这套体系使 Mano-P 在多项基准测试中取得了优异成绩:

  • OSWorld(专用 GUI Agent 模型):Mano-P 1.0-72B 取得 58.2% 成功率,排名第一
  • WebRetriever Protocol I:Mano-P 1.0 取得 41.7 NavEval 分数

4B 模型如何在端侧高效运行

将一个具备完整 GUI 理解和操作能力的模型压缩到 4B 参数并部署到消费级硬件上,需要解决几个核心问题:

1. 模型压缩与保持精度

Mano-P 1.0-4B 通过端侧版本专项优化——混合精度量化、视觉 Token 剪枝和边缘推理自适应——在大幅缩减模型体积的同时,保持了 GUI 场景下的操作精度。

2. 硬件适配

Mano-P 1.0-4B 基于 Apple MLX 框架运行,充分利用 Apple Silicon 的统一内存架构:

  • 支持设备:Mac mini / MacBook,搭载 Apple M4 芯片及以上,32GB 及以上统一内存
  • 替代方案:通过 USB 4.0 连接的 Mano-P 算力棒

3. 推理加速——Cider SDK

这是本次发布的一个关键组件。

问题背景:Apple MLX 的量化方案属于仅权重量化(Weight-Only Quantization),QuantizedLinear 将权重反量化为 FP16 后执行 FP16 GEMM。MLX 并未提供真正的 W8A8 推理路径,即同时对权重和激活进行 INT8 量化计算。

Cider 的解决方案:通过自定义 Metal Kernel 实现 fused quantize-matmul-dequant 原语,补齐 MLX 生态中缺失的激活量化能力。

支持的量化模式:

模式 权重 激活 计算路径
W8A8 INT8 symmetric INT8 per-token TensorOps matmul2d
W4A8 INT4 packed (uint8) INT8 per-token Unpack → TensorOps

性能实测(Mano-P 1.0-4B,Apple M5 Pro,64GB RAM):

  • W8A16 baseline:Prefill 2.839s,Decode 80.1 tokens/s
  • W8A8(Cider 加速):Prefill 2.519s,Decode 79.5 tokens/s
  • Prefill 加速约 12.7%,Decode 速度基本持平

更大规模的加速:对于通用 MLX 模型(如 Qwen3-VL),Cider W8A8 相对 MLX 原生 W4A16 可实现 1.4x–2.2x 的 prefill 加速

重要说明:Cider 不是 Mano-P 的专属工具,它可以加速任何基于 MLX 的模型推理。

条件编译策略

Cider 采用条件编译:INT8 TensorOps C++ 扩展仅在 Apple M5 及以上芯片完整构建。M4 设备安装后以纯 Python 包形式运行,is_available() 返回 False。可通过环境变量 CIDER_FORCE_BUILD=1 强制构建。

👉Cider

Mano-AFK:从一句话到可运行的应用

Mano-AFK 是 Mano-P 在软件工程场景中的典型应用。它是一个端到端的自动化应用构建流水线:

完整流程:自然语言需求 → 需求澄清 → 架构设计 → 代码生成 → 部署 → E2E GUI 测试 → 缺陷修复 → 交付可运行应用

其中 E2E 测试环节默认以 Mano-P 为本地视觉模型后端,驱动真实浏览器进行 GUI 自动化测试。测试失败时自动定位问题、修复代码并重新验证,全程无需人工介入。

CUA Benchmark

测试环境:Mano-P 4B,MacBook Pro M5(16GB 统一内存),100 条任务覆盖 5 个由 Mano-AFK 自动构建的 Web 应用(TripSplit、md-wechat、OMS、Family Ledger、Life Dashboard)。

测试结果:

  • W8A16:58.0% 准确率,平均 6.1 步,Prefill ~1,253 tok/s
  • W8A8(Cider):54.0% 准确率,平均 6.93 步,Prefill ~1,453 tok/s

关于 16GB 设备上 W8A8 表现:W8A8 需同时保留原始权重与 INT8 权重,在 16GB 统一内存设备上,额外的内存压力可能触发换页,抵消 prefill 的加速收益。建议预留超出模型体积 4GB 以上的空闲内存,才能发挥 W8A8 的完整优势。

👉Mano-AFK

数据隐私与安全

本地模式下的数据保障:

  • ✅ 所有推理计算在本地设备完成
  • ✅ 截图和任务描述完全不经过网络传输
  • ✅ 不访问或传输任何数据到外部服务器
  • ✅ 完整源代码公开,可供审计

开源计划

Mano-P 采用分阶段开源策略:

  • 第一阶段(已发布):Mano-CUA Skills——面向 Agent 爱好者,集成到 OpenClaw、Claude Code 等 Agent 工作流中
  • 第二阶段(本次发布):本地模型 + Cider SDK——面向高安全需求开发者,支持完全本地化部署
  • 第三阶段(即将发布):训练方法、剪枝和量化技术——面向有定制化模型训练需求的开发者

相关资源


欢迎体验 Mano-P 本地模型,点亮⭐,也欢迎通过 GitHub Issue 和 Discussion 与我们交流。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐