GitHub 地址https://github.com/Mininglamp-AI/Mano-P

简介

Mano-P​ 是明略科技开源的一款端侧 GUI-VLA(视觉-语言-动作)智能体。它的核心能力是“像人一样看懂屏幕并操作电脑”,且完全无需云端 API 支持。

“Mano”在西班牙语中意为“手”,而“P”则代表 Person(个人)​ 与 Party(组织)。它旨在让个人和企业都能在本地设备(如 Mac mini、MacBook)上部署专属的 GUI 自动化 Agent,彻底解决数据隐私和网络依赖问题。该项目采用三阶段开源策略,目前已释放 CLI 工具和 Agent Skills,后续将逐步开源本地模型与训练方法。

主要功能

1. 纯视觉 GUI 理解与操作

Mano-P 不依赖任何软件的内部 API 或 Accessibility Tree。它通过截图感知屏幕像素,利用 VLA 模型理解界面元素(按钮、输入框、菜单),并模拟鼠标点击、键盘输入、滚动等操作。这意味着它可以操作任何有图形界面的软件,包括桌面应用、网页甚至游戏。

2. 端侧离线推理(数据不出域)

这是 Mano-P 最大的差异化优势。通过混合精度量化、视觉 Token 剪枝(GS-Pruning)等技术,模型可以直接在 Apple M4 芯片(32GB RAM)或外接计算棒上运行。所有截图和任务数据完全保留在本地设备,非常适合金融、政务等对数据安全要求极高的场景。

3. 闭环推理机制

采用 Think-Act-Verify(思考-行动-验证)​ 循环。模型不会盲目点击,而是先推理当前界面状态和下一步动作,执行后再次截图验证操作是否成功,确保长流程任务的稳定性。

4. 多形态交付

  • CLI 工具 (mano-cua):命令行工具,通过自然语言指令直接控制桌面。

  • Python SDK:供开发者集成到自动化脚本中(开发中)。

  • Agent Skill (mano-skill):为 Claude Code、OpenClaw 等 AI Agent 提供 GUI 操作能力,让 Agent 能“亲手”帮你完成任务。

安装与配置

硬件要求

  • 推荐配置:Apple M4 芯片(或更高)的 Mac mini / MacBook,32GB 统一内存。

  • 替代方案:通过 USB 4.0 接口连接专用计算棒进行推理(未来支持)。

方式一:CLI 命令行工具(快速体验)

适用于终端用户,通过 Homebrew 一键安装。

  1. 安装

    brew tap HanningWang/tap
    brew install mano-cua

    安装过程会自动配置 Python 虚拟环境及依赖。

  2. 运行

    mano-cua run "打开微信,给张三发消息说会议取消了"

方式二:Agent Skill 模式(推荐用于 AI 工作流)

如果你使用 Claude Code 或 OpenClaw,这是最强大的集成方式。

  1. 安装 ClawHub CLI(若未安装):

    # 参考 https://clawhub.com 安装
  2. 安装 Mano Skill

    clawhub install mano-cua
  3. 重启 Agent:重启 Claude Code 或 OpenClaw 会话,Agent 即具备 GUI 操作能力。

如何使用

CLI 基础指令

  • 执行任务mano-cua run "你的自然语言指令"

  • 停止任务mano-cua stop

  • 示例指令

    • mano-cua run "打开 Finder,进入 Downloads 文件夹,按修改日期排序"

    • mano-cua run "用 Chrome 打开 GitHub,搜索 Mano-P 仓库"

Agent 集成工作流

安装 mano-skill后,你无需手动输入命令。只需在 Claude Code 或 OpenClaw 中描述需要界面操作的任务,Agent 会自动调用 Mano-P 的技能去执行。

对话示例

  • :“帮我把桌面上的财务报告 PDF 用 Adobe 打开,导出为 Word 文档。”

  • Agent:(自动思考)→ (调用 mano-skill)→ (操作鼠标打开软件并点击导出)→ (返回结果)“已完成导出,Word 文档保存在同一目录。”

运行状态监控

任务执行时,屏幕右上角会出现一个小型状态面板,显示当前任务进度和状态,方便你随时监控 AI 的操作。

应用场景实例(无代码)

场景一:企业财务数据录入(高安全需求)

痛点:财务人员每天需要将纸质发票信息录入 ERP 系统。该过程涉及敏感财务数据,严禁使用云端 AI 服务。

Mano-P 方案

  1. 在本地 Mac mini 上部署 Mano-P(离线模式)。

  2. 编写任务指令:“打开扫描件文件夹,识别每张发票的金额和税号,依次录入 ERP 系统的‘费用报销’模块。”

  3. 价值:全程数据不离内网,且 Mano-P 能适应 ERP 复杂的表单界面,7x24 小时自动完成重复性录入,效率提升 10 倍以上。

场景二:AI 辅助全栈开发(Agent 协作)

痛点:开发者使用 Claude Code 生成了代码,但还需要手动执行 npm run buildgit push等终端命令,或者手动刷新浏览器预览效果。

Mano-P 方案

  1. 在 Claude Code 中安装 mano-skill

  2. 指令:“生成一个登录页面,并帮我部署到本地预览。”

  3. 价值:Claude Code 生成代码后,自动调用 Mano-P 技能打开终端运行构建命令,并打开浏览器进行视觉验证。实现了从“代码生成”到“界面验证”的端到端无人干预

场景三:跨平台软件批量配置

痛点:公司新采购 100 台 Mac,IT 运维需要为每台电脑手动安装并配置 Chrome、VS Code 等软件,耗时耗力。

Mano-P 方案

  1. 制作一个统一的 Mano-P 任务脚本。

  2. 指令:“打开 App Store,搜索并安装 Xcode。完成后打开终端,执行 Homebrew 安装命令,然后安装 VS Code 并配置 Python 插件。”

  3. 价值:运维人员只需在每台电脑上运行一次该脚本,即可实现全自动软件部署,无需逐台手动操作。

总结

Mano-P 填补了“AI 意图”与“物理界面操作”之间的最后一道鸿沟。它不仅是自动化工具,更是 AI Agent 的“手”和“眼”。对于追求数据安全、需要处理老旧桌面软件或无 API 接口系统的用户来说,Mano-P 是目前开源界最成熟的端侧 GUI Agent 解决方案。

GitHub 地址https://github.com/Mininglamp-AI/Mano-P

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐