【GitHub项目推荐--Mano-P:你的“离线版”桌面 AI 操盘手】
GitHub 地址:https://github.com/Mininglamp-AI/Mano-P
简介
Mano-P 是明略科技开源的一款端侧 GUI-VLA(视觉-语言-动作)智能体。它的核心能力是“像人一样看懂屏幕并操作电脑”,且完全无需云端 API 支持。
“Mano”在西班牙语中意为“手”,而“P”则代表 Person(个人) 与 Party(组织)。它旨在让个人和企业都能在本地设备(如 Mac mini、MacBook)上部署专属的 GUI 自动化 Agent,彻底解决数据隐私和网络依赖问题。该项目采用三阶段开源策略,目前已释放 CLI 工具和 Agent Skills,后续将逐步开源本地模型与训练方法。
主要功能
1. 纯视觉 GUI 理解与操作
Mano-P 不依赖任何软件的内部 API 或 Accessibility Tree。它通过截图感知屏幕像素,利用 VLA 模型理解界面元素(按钮、输入框、菜单),并模拟鼠标点击、键盘输入、滚动等操作。这意味着它可以操作任何有图形界面的软件,包括桌面应用、网页甚至游戏。
2. 端侧离线推理(数据不出域)
这是 Mano-P 最大的差异化优势。通过混合精度量化、视觉 Token 剪枝(GS-Pruning)等技术,模型可以直接在 Apple M4 芯片(32GB RAM)或外接计算棒上运行。所有截图和任务数据完全保留在本地设备,非常适合金融、政务等对数据安全要求极高的场景。
3. 闭环推理机制
采用 Think-Act-Verify(思考-行动-验证) 循环。模型不会盲目点击,而是先推理当前界面状态和下一步动作,执行后再次截图验证操作是否成功,确保长流程任务的稳定性。
4. 多形态交付
-
CLI 工具 (
mano-cua):命令行工具,通过自然语言指令直接控制桌面。 -
Python SDK:供开发者集成到自动化脚本中(开发中)。
-
Agent Skill (
mano-skill):为 Claude Code、OpenClaw 等 AI Agent 提供 GUI 操作能力,让 Agent 能“亲手”帮你完成任务。
安装与配置
硬件要求
-
推荐配置:Apple M4 芯片(或更高)的 Mac mini / MacBook,32GB 统一内存。
-
替代方案:通过 USB 4.0 接口连接专用计算棒进行推理(未来支持)。
方式一:CLI 命令行工具(快速体验)
适用于终端用户,通过 Homebrew 一键安装。
-
安装:
brew tap HanningWang/tap brew install mano-cua安装过程会自动配置 Python 虚拟环境及依赖。
-
运行:
mano-cua run "打开微信,给张三发消息说会议取消了"
方式二:Agent Skill 模式(推荐用于 AI 工作流)
如果你使用 Claude Code 或 OpenClaw,这是最强大的集成方式。
-
安装 ClawHub CLI(若未安装):
# 参考 https://clawhub.com 安装 -
安装 Mano Skill:
clawhub install mano-cua -
重启 Agent:重启 Claude Code 或 OpenClaw 会话,Agent 即具备 GUI 操作能力。
如何使用
CLI 基础指令
-
执行任务:
mano-cua run "你的自然语言指令" -
停止任务:
mano-cua stop -
示例指令:
-
mano-cua run "打开 Finder,进入 Downloads 文件夹,按修改日期排序" -
mano-cua run "用 Chrome 打开 GitHub,搜索 Mano-P 仓库"
-
Agent 集成工作流
安装 mano-skill后,你无需手动输入命令。只需在 Claude Code 或 OpenClaw 中描述需要界面操作的任务,Agent 会自动调用 Mano-P 的技能去执行。
对话示例:
-
你:“帮我把桌面上的财务报告 PDF 用 Adobe 打开,导出为 Word 文档。”
-
Agent:(自动思考)→ (调用
mano-skill)→ (操作鼠标打开软件并点击导出)→ (返回结果)“已完成导出,Word 文档保存在同一目录。”
运行状态监控
任务执行时,屏幕右上角会出现一个小型状态面板,显示当前任务进度和状态,方便你随时监控 AI 的操作。
应用场景实例(无代码)
场景一:企业财务数据录入(高安全需求)
痛点:财务人员每天需要将纸质发票信息录入 ERP 系统。该过程涉及敏感财务数据,严禁使用云端 AI 服务。
Mano-P 方案:
-
在本地 Mac mini 上部署 Mano-P(离线模式)。
-
编写任务指令:“打开扫描件文件夹,识别每张发票的金额和税号,依次录入 ERP 系统的‘费用报销’模块。”
-
价值:全程数据不离内网,且 Mano-P 能适应 ERP 复杂的表单界面,7x24 小时自动完成重复性录入,效率提升 10 倍以上。
场景二:AI 辅助全栈开发(Agent 协作)
痛点:开发者使用 Claude Code 生成了代码,但还需要手动执行 npm run build、git push等终端命令,或者手动刷新浏览器预览效果。
Mano-P 方案:
-
在 Claude Code 中安装
mano-skill。 -
指令:“生成一个登录页面,并帮我部署到本地预览。”
-
价值:Claude Code 生成代码后,自动调用 Mano-P 技能打开终端运行构建命令,并打开浏览器进行视觉验证。实现了从“代码生成”到“界面验证”的端到端无人干预。
场景三:跨平台软件批量配置
痛点:公司新采购 100 台 Mac,IT 运维需要为每台电脑手动安装并配置 Chrome、VS Code 等软件,耗时耗力。
Mano-P 方案:
-
制作一个统一的 Mano-P 任务脚本。
-
指令:“打开 App Store,搜索并安装 Xcode。完成后打开终端,执行 Homebrew 安装命令,然后安装 VS Code 并配置 Python 插件。”
-
价值:运维人员只需在每台电脑上运行一次该脚本,即可实现全自动软件部署,无需逐台手动操作。
总结
Mano-P 填补了“AI 意图”与“物理界面操作”之间的最后一道鸿沟。它不仅是自动化工具,更是 AI Agent 的“手”和“眼”。对于追求数据安全、需要处理老旧桌面软件或无 API 接口系统的用户来说,Mano-P 是目前开源界最成熟的端侧 GUI Agent 解决方案。
GitHub 地址:https://github.com/Mininglamp-AI/Mano-P
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)