Hermes + Android Bridge:把安卓手机变成AI自动化终端(完整实践)

关键词:Hermes智能体、Android Bridge、AI自动化手机、手机自动化控制、安卓远程操控、AI读屏、无障碍自动化、手机AI助手


前言

在这里插入图片描述

最近在研究“让AI真正操作手机”这件事。
不是写脚本,而是让智能体自己看屏幕 → 做决策 → 自动点击执行

最终验证下来:
Hermes + Android Bridge 可以把一台普通安卓手机,变成:

  • 可读屏
  • 可点击
  • 可输入
  • 可远程操控
  • 可自动执行任务

本篇把完整方案整理出来。
在这里插入图片描述


一、方案速览:大脑与执行彻底拆分

这套方案的核心设计思想非常关键:

模块 职责
Hermes 智能体 理解需求、规划步骤、决策
Android Bridge 读取手机UI、执行点击输入、截图等

一句话总结:

Hermes只负责“思考”,安卓桥接只负责“执行”。

当用户下达任务:

打开设置 → 截图 → 分析当前页面

系统执行流程:

  1. Hermes 拆解任务
  2. 调用安卓工具
  3. 手机执行操作
  4. 返回结果给 Hermes
  5. Hermes 决定下一步

形成完整自动闭环。


二、核心原理解析

1)Python工具层

安卓控制能力,被封装成一组 Python Tools

典型能力包括:

  • 点击控件
  • 点击指定文本
  • 输入文字
  • 滑动屏幕
  • 打开应用
  • 获取截图

这些工具全部通过 HTTP调用

Python Tools  →  localhost:8766 → 手机Bridge APP → 安卓系统

好处:

  • 不需要直接操作复杂安卓API
  • 调度逻辑完全统一
  • Hermes只需要“调用工具”

2)Hermes 插件式接入

Android Bridge 不需要修改 Hermes 内核

接入流程:

第一步:定义工具描述

告诉模型:

  • 工具名称
  • 参数
  • 用途

例如:

工具:open_app
参数:package_name
用途:打开指定应用

第二步:实现 Python 函数

def open_app(package):
    requests.post("http://localhost:8766/open_app", json={
        "package": package
    })

第三步:注册工具

Hermes.register_tool(open_app)

至此,Hermes即可自动调用手机能力。


3)任务自动拆解示例

用户输入:

打开设置 → 截图 → 总结

Hermes自动拆分为:

  1. 打开设置应用
  2. 获取截图
  3. 分析截图
  4. 输出总结

这就是智能体自动化的关键


三、Bridge APP:如何读懂手机屏幕

Bridge APP 基于 安卓无障碍服务

它能读取当前界面完整 UI 树。

可获取信息包括:

属性 示例
文本 按钮文字
描述 contentDescription
类名 Button / TextView
包名 app package
可点击 true / false
可编辑 true / false
坐标 元素边界
子节点 UI层级

这些信息会整理成 结构化节点树 回传 Hermes。

因此 Hermes 可以精准知道:

  • 哪是按钮
  • 哪是输入框
  • 哪能点击

四、手机操控能力实现

1)点击实现(两种)

① 节点点击(推荐)

直接点击UI节点。

优点:精准稳定。

② 坐标点击

通过手势模拟真实点击。

适合场景:
无法识别节点的界面。


2)文本输入(两种)

  1. 直接设置文本
  2. 聚焦输入框 → 模拟键盘输入/粘贴

3)截图与录屏

依赖系统能力:

  • MediaProjection
  • 无障碍截图

必须授权:

  • 无障碍服务
  • 悬浮窗
  • 屏幕录制
  • 运行时权限

五、完整调用链路

完整执行流程如下:

用户指令
   ↓
Hermes调用安卓工具
   ↓
HTTP中继服务 (8766)
   ↓
Bridge APP
   ↓
安卓系统执行操作
   ↓
结果回传 Hermes
   ↓
Hermes决定下一步

整个过程无需人工干预

这就是手机可被AI自主操控的核心。


六、部署方案(两种)

方案1:手机本地部署(推荐)

全部运行在手机内:

组件 位置
Hermes Termux
中继服务 本机8766
Bridge APP 安卓系统

通信:

localhost:8766

优势:

  • 无需外网
  • 延迟最低
  • 隐私最好

方案2:PC / 云端远程部署

Hermes运行在:

  • Windows WSL
  • Linux服务器
  • 云服务器

手机只安装 Bridge APP。

通信方式:

WebSocket 长连接
手机主动连接服务器

优势:

  • 支持多设备调度
  • 适合远程控制

且无需给手机开公网端口,兼容内网环境。


七、能实现哪些能力

能力可分为六大类:

分类 功能
读屏 获取UI结构、文本、坐标
操作 点击、长按、滑动、返回
输入 填写输入框
应用管理 打开/切换应用
截图录屏 获取屏幕内容
系统能力 通知、剪贴板、定位

实际可做示例

  • 打开应用 → 登录 → 填账号
  • 自动滑动查找信息
  • 读取通知并总结
  • 自动完成日常操作

八、适用场景

非常适合:

  • 方案验证演示
  • 移动端运营辅助
  • 自动化测试辅助
  • 个人AI手机助手
  • AI手机控制研究

⚠️ 注意
不建议直接作为企业级自动化测试主平台。
正式测试仍建议:

  • ADB
  • UI自动化框架
  • CI/CD体系

结尾

Hermes + Android Bridge 的真正价值:

把普通安卓手机变成可被AI操控的智能终端。

这意味着:

  • AI不再只是聊天
  • 而是真正能“使用手机”

未来想象空间非常大。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐