苹果官方近日宣布,蒂姆·库克将卸任CEO转任执行董事长,硬件工程高级副总裁约翰·特努斯将于今年9月接任。苹果成立50年,CEO只换了三次,每一次都意味着新方向。特努斯是Apple Silicon芯片的核心推动者,他的上任被外界解读为苹果将继续加码硬件创新。

说到Apple Silicon,不知道大家有没有留意到一个趋势:越来越多的开发者开始认真考虑在Mac上部署AI应用了。

以前做AI开发,默认技术栈基本是Windows或Linux加NVIDIA GPU。Mac更多是写代码的工具,真正跑模型还得切到别的机器上。但随着Apple Silicon一代代迭代,尤其是M4系列芯片的推出,Mac在AI推理方面的能力已经到了一个值得关注的水平。统一内存架构让32GB甚至更大的内存可以直接用于模型推理,不存在传统GPU方案中"显存不够"的问题;苹果自己推出的MLX框架,加上Ollama、LM Studio等社区工具的成熟,让在Mac上跑模型的门槛大幅降低。

对于很多以Mac为日常主力机的开发者和知识工作者来说,能够在自己的工作设备上直接部署和使用AI工具,不需要额外配一台GPU主机或者租云端服务器,这件事正在变得越来越现实。

我们在做的事:Mano-P

在这个背景下,聊聊我们正在做的一个项目。

Mano-P 是明略科技开源的一个GUI Agent。简单说,它可以通过视觉理解来操作电脑图形界面——看屏幕截图,理解当前界面的内容和布局,然后执行点击、输入、滚动等操作,帮助用户完成各种桌面任务。“Mano"源自西班牙语的"手”,"P"代表Person,定位是面向个人用户的AI助手。

Mano-P采用纯视觉驱动的技术路线,不依赖特定应用的API或DOM接口,理论上能操作任何有图形界面的软件。全部运行在本地Mac上,数据不出设备。

在Mac上跑得怎么样

先看评测数据。

Mano-P 72B模型在OSWorld评测中取得了58.2%的准确率。OSWorld是GUI Agent领域的标准评测框架,在真实操作系统环境中测试跨应用任务能力,Mano-P目前排名第一,第二名为45.0%。

在这里插入图片描述

再看端侧推理性能。Mano-P 4B量化模型(w4a16)在M4 Pro芯片上的实测数据:

  • Prefill速度:476 tokens/s
  • Decode速度:76 tokens/s
  • 峰值内存占用:4.3GB

4.3GB的内存占用意味着在32GB的Mac上运行Mano-P时,日常应用可以照常使用,不会有明显的资源冲突。对于GUI Agent的使用场景来说,76 tokens/s的推理速度可以满足正常的操作节奏。

硬件要求:Apple M4芯片 + 32GB RAM。

为什么部署在Mac上

这里要说的不是"本地比云端好"的对比,而是Mac本身作为AI部署平台正在变得可行。

过去很多开发者想在本地跑AI模型,基本只有Windows + NVIDIA GPU一条路。Mac因为没有CUDA生态的支持,长期被排除在AI开发的主流选项之外。但Apple Silicon改变了这个局面——统一内存架构、不断提升的AI推理性能、以及苹果自己在搭建的MLX开发框架,让Mac成为了一个新的选项。

对于GUI Agent这类需要在桌面环境中长时间运行、实时与界面交互的应用来说,部署在用户自己的Mac上有天然的适配性:操作的是用户本地的应用和文件,交互延迟低,数据也留在设备上。

目前使用Mac作为开发和部署环境的开发者群体在持续增长,这也是我们选择Mac作为Mano-P首要支持平台的原因之一。

技术方案概览

简单介绍一下Mano-P的几个核心设计。

训练框架: 采用三阶段递进方式——SFT(监督微调)建立基础的GUI理解能力,离线强化学习优化操作策略,在线强化学习在真实环境中持续迭代。三个阶段形成正向循环。

推理机制: think-act-verify循环。Mano-P在执行每一步操作前先分析屏幕状态、规划操作方案,执行后再截屏验证结果。如果发现操作没有达到预期效果,会回到分析阶段重新规划,而不是继续执行后续步骤。

量化方案: 4B模型使用w4a16量化(4-bit权重 + 16-bit激活),在模型体积和推理精度之间做了平衡,使端侧部署具备实用性。

核心能力: 复杂GUI自动化、跨应用数据整合、长任务规划执行、报告生成等。

体验和了解更多

Mano-P基于Apache 2.0协议开源,安装方式:

brew tap HanningWang/tap && brew install mano-cua

GitHub地址:GitHub

如果你也在关注Mac上的AI应用开发,或者对GUI Agent方向感兴趣,欢迎到GitHub上了解更多,也欢迎在评论区交流。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐