—— 从 VLM + Kotlin 原生实现,看 Android 手机自动化的未来

2025 年 12 月,字节跳动与中兴联合推出的「豆包手机助手」一经发布便引发热议:它能自主完成比价下单、批量投简历、刷视频甚至代打游戏等复杂任务。首批 3 万台工程机 3499 元秒售罄,二手价飙升至 5000+ 元。普通用户买不到?那就自己造一个——这就是 Roubao(肉包) 的诞生背景。

Roubao(GitHub: Turbo1123/roubao)是一款**完全开源(MIT 协议)**的 Android 原生 AI 自动化工具,已收获 2000+ Star。它基于视觉语言模型(VLM),使用 Kotlin 纯原生开发,无需电脑、无需 Root、无需数据线,安装 App 即可运行。

本文将图文详实、步骤清晰地拆解 Roubao 的核心设计、架构实现、安装使用、源码结构,并对比传统方案,帮你快速上手并理解其技术亮点。

一、项目概览:为什么 Roubao 能“火”?

核心定位:首款无需 PC 的开源 AI 手机自动化助手。
技术关键词:Vision-Language Models(VLM) + Native Kotlin + Shizuku + Tools/Skills 双层 Agent 架构。

特性对比 Roubao 豆包手机助手 其他开源方案(如 MobileAgent)
是否需要电脑 ❌ 无需 ❌ 无需 ✅ 大多需要
是否需要特殊硬件 ❌ 无需 ✅ 需要(3499+ 元) ❌ 无需
实现语言 ✅ Kotlin 原生 原生 ❌ Python
开源协议 ✅ MIT ❌ 闭源 ✅ 是
执行延迟 低(本地) 高(PC 转发)
自定义模型 ✅ 支持 Qwen/GPT-4V/Claude/Ollama 等 ❌ 仅豆包 部分支持
UI/用户友好度 ⭐⭐⭐½(Material 3) ⭐⭐⭐⭐ ⭐⭐

Roubao 直接解决了传统自动化痛点:必须连 PC + ADB + Python 环境,技术门槛高。Roubao 做到“一键安装 → 配置 API Key → 自然语言下指令 → 手机自主执行”。

项目仓库:https://github.com/Turbo1123/roubao
最新版本:v1.4.2(2025-12-18)

二、核心创新:Shizuku + VLM + 双层 Agent

1. 为什么用 Shizuku 代替 ADB?

普通 Android App 受系统权限限制,无法模拟点击、读取其他 App UI、执行 input tapscreencap 等操作。传统方案必须 PC 转发 ADB。

Shizuku 解决方案(无需 Root):

  • 一次开启无线调试或 ADB 启动 Shizuku 服务。
  • 后续 App 通过 Shizuku 获得 ADB 级权限。
  • Roubao 直接在手机本地完成截图 → 分析 → 执行,延迟大幅降低。

安装 Shizuku 步骤(无线调试推荐,Android 11+):

  1. 设置 → 开发者选项 → 开启「无线调试」。
  2. 下载 Shizuku(Google Play / GitHub Releases)。
  3. 打开 Shizuku,选择「无线调试」→ 启动。

在这里插入图片描述
在这里插入图片描述

2. Tools + Skills 双层架构(Claude Code 启发)

Roubao 借鉴 MobileAgent-v3 并用 Kotlin 重构,采用双层 Agent 框架

  • Tools 层(原子能力):提供底层操作,如 search_apps(智能搜 App,支持拼音/语义)、open_appdeep_linkclipboardshellhttp
  • Skills 层(用户意图):将自然语言映射为具体策略(如「帮我点外卖」→ 委托小美 AI 或 GUI 操作美团)。

执行路径分两种:

  • 委托模式(Fast Path):高置信 → DeepLink 直接打开具备 AI 的 App(如小美、豆包、即梦)。
  • GUI 自动化模式(Standard Path):截图 → VLM 分析屏幕 → Agent 循环规划/执行/反思。

架构流程图(Grok Imagine 生成):

三、安装与使用:5 分钟上手(图文步骤)

前提

  • Android 8.0+(API 26)
  • 已安装并启动 Shizuku
  • VLM API Key(推荐阿里通义千问 DashScope,国内速度快)

详细步骤

  1. 下载 APK
    去 Releases 页面下载最新 app-release.apk(https://github.com/Turbo1123/roubao/releases)。

  2. 安装并授权
    安装后打开 Roubao → Shizuku 授权窗口 → 点击授权。

  3. 配置 API Key
    进入「设置」→ 「VLM 服务商」→ 选择阿里云/OpenAI 等 → 粘贴 Key(AES-256-GCM 加密存储,安全)。

  4. 开始使用
    首页输入自然语言(如「帮我点一份黄焖鸡米饭」)→ 点击执行 → 悬浮窗实时显示进度 → 可随时停止。

安全机制:遇到支付/密码页自动停止;支持手动取消;可选关闭崩溃上报。

在这里插入图片描述
首页已经预设了一些指令
在这里插入图片描述
内置的agent
在这里插入图片描述
运行日志
在这里插入图片描述

四、源码结构与关键实现(开发者视角)

仓库采用标准 Android Gradle 项目结构,核心代码在 app/src/main/java/com/roubao/autopilot/

app/
├── src/main/java/com/roubao/autopilot/
│   ├── agent/          # 多 Agent 核心(MobileAgent 移植)
│   │   ├── MobileAgent.kt     # 主循环
│   │   ├── Manager.kt         # 规划 Agent
│   │   ├── Executor.kt        # 执行 Agent
│   │   ├── ActionReflector.kt # 反思 Agent
│   │   └── InfoPool.kt        # 状态池
│   ├── tools/          # Tools 层
│   │   ├── Tool.kt
│   │   ├── ToolManager.kt
│   │   └── SearchAppsTool.kt / OpenAppTool.kt ...
│   ├── skills/         # Skills 层
│   │   ├── Skill.kt
│   │   ├── SkillRegistry.kt
│   │   └── SkillManager.kt
│   ├── controller/     # 设备控制
│   │   └── DeviceController.kt  # Shizuku 集成
│   ├── vlm/            # VLM 客户端
│   │   └── VLMClient.kt         # 支持多模型
│   ├── ui/             # Jetpack Compose + Material 3
│   └── data/           # SettingsManager.kt
├── assets/skills.json  # Skills 配置
└── AndroidManifest.xml # Shizuku、悬浮窗权限

关键技术点

  • VLM 集成VLMClient.kt 封装多提供商(动态加载模型列表)。
  • 屏幕理解:截图后 Base64 编码发送 VLM,Prompt 引导分析当前界面元素与下一步动作。
  • Agent 循环:Manager 规划 → Executor 执行 → Reflector 反思错误 → 迭代优化。
  • UI:Compose + Material 3,支持深色/浅色主题、中英双语。

构建命令(开发者):

git clone https://github.com/Turbo1123/roubao.git
cd roubao
./gradlew assembleDebug

五、实际效果与扩展性

Roubao 已支持点外卖、发微信、导航、生成图片等 Skills。未来计划增加更多自定义 Skill 与本地模型支持(Ollama/vLLM)。

与其他方案对比:传统 Python 方案延迟高、依赖 PC;Roubao 真正做到“手机即 Agent”。

潜在改进:VLM 响应速度仍受网络/模型限制;Root 模式下可解锁更多 su 命令。

六、总结与推荐

Roubao 是 Android 自动化领域的一次里程碑式尝试:它把 MobileAgent 的 Python 框架完整移植到 Kotlin 原生,结合 Shizuku 实现零 PC 体验,并用现代 Agent 架构(Tools + Skills)大幅提升可用性。

无论你是普通用户还是开发者,都值得尝试:

  • 用户:直接下载 APK 体验 AI 解放双手。
  • 开发者:研究源码,贡献 Skill 或支持更多 VLM。

项目地址:https://github.com/Turbo1123/roubao
中文文档:README.md
英文文档:README_EN.md

开源精神万岁!欢迎 Star & Fork,一起让每台 Android 手机都拥有自己的「AI 助手」。

你试过了吗?欢迎评论分享你的 Roubao 使用体验! 🥟

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐