Midscene-视觉驱动的 AI UI 自动化工具
🔍 Midscene 官方介绍
📦 官方信息
|
项目 |
地址 |
|---|---|
|
官网 |
|
|
GitHub |
|
|
npm |
@midscene/web |
|
Discord |
|
|
X (Twitter) |
@midscene_ai |
🎯 什么是 Midscene?
Midscene 是由 字节跳动(web-infra-dev 团队)开源的 AI 驱动的视觉化 UI 自动化工具。
"AI-powered, vision-driven UI automation for every platform."
核心理念: 用自然语言描述你的目标,Midscene 通过视觉语言模型自动规划并操作 UI——无需写代码、无需 DOM 定位,仅依靠截图即可完成自动化。
✨ 核心特性
🤖 自然语言驱动
-
用自然语言描述目标和步骤,Midscene 自动规划并操作 UI
-
支持 JavaScript SDK 或 YAML 编写自动化脚本
📱 全平台覆盖
|
平台 |
集成方式 |
|---|---|
|
Web |
Puppeteer / Playwright / Bridge Mode |
|
Android |
JavaScript SDK + adb |
|
iOS |
JavaScript SDK + WebDriverAgent |
|
桌面应用 |
midscene-pc (Windows/macOS/Linux) |
|
HarmonyOS |
支持 |
|
任意界面 |
JavaScript SDK 自定义集成 |
🔬 纯视觉定位
-
不依赖 DOM:元素定位完全基于截图,由视觉语言模型(VLM)驱动
-
Token 消耗降低约 80%,成本更低、速度更快
-
支持跨平台:浏览器、移动端、桌面 App、甚至 Canvas 元素
🛠️ 开发者友好
-
三类 API:交互 API、数据提取 API、工具 API(如 aiAssert(), aiLocate(), aiWaitFor())
-
MCP 集成:可将 Midscene 的原子操作暴露为 MCP 工具,供上层 Agent 调用
-
缓存回放:使用缓存快速回放脚本
-
调试工具:可视化回放报告、内置 Playground、Chrome 扩展
💡 支持的视觉模型
|
模型 |
推荐度 |
特点 |
|---|---|---|
|
Doubao Seed |
⭐⭐⭐⭐ |
UI 规划和定位能力强,速度稍慢 |
|
Qwen3-VL |
⭐⭐⭐⭐ |
阿里开源,能力强 |
|
Gemini-3-Pro/Flash |
⭐⭐⭐ |
Google 模型,价格较高 |
|
UI-TARS |
⭐⭐ |
开源,可自托管,探索能力强 |
|
GLM-4.6V |
新集成 |
智谱开源,HuggingFace 可下载权重 |
🎬 使用场景展示
🌐 Web 自动化
"Sign up for GitHub, pass the form validation"
自动填写 GitHub 注册表单并通过所有字段验证
📱 iOS 自动化
"Open Twitter and auto-like the first tweet by @midscene_ai"
自动打开 Twitter 并点赞指定账号的第一条推文
🤖 Android 自动化
"Open Booking App, search for a hotel in Tokyo for four adults on Christmas, with score 8+"
自动打开 Booking App,搜索圣诞节东京四人大床酒店,评分 8 分以上
💻 PC 桌面自动化
"Open Sauce Demo e-commerce site, login and add items to cart"
自动打开电商网站、登录、添加商品到购物车(Windows/macOS/Linux 全支持)
🔧 MCP 集成
"Use GitHub MCP to check if latest Midscene commit has released a version, if not, invoke Midscene MCP to navigate to action page and run release"
Midscene 作为 MCP Server,被上层 Agent 调用来操作 UI
🦾 社区扩展
社区开发者已成功将 Midscene 与机械臂 + 视觉 + 语音模型结合,用于车载大屏测试场景
🚀 快速上手
零代码体验
- :安装扩展,直接在浏览器中使用
-
Android/iOS Playground:内置可视化工具控制本地设备
代码接入
# 安装
npm install @midscene/web
Web 示例(Playwright):
import { pdd, aiQuery, aiAssert } from '@midscene/web/pdd';
async function run() {
await pdd.goto('https://github.com/login');
// 用自然语言描述操作
await aiQuery('Fill in the username and password, then click sign in', {
username: 'your-username',
password: 'your-password'
});
// AI 断言验证结果
await aiAssert('The page shows the user avatar in the top right corner');
}
🆚 对比传统 UI 自动化
|
-- |
传统自动化 (Selenium/Appium) |
Midscene |
|---|---|---|
|
定位方式 |
CSS/XPath 选择器 |
纯视觉 + 自然语言 |
|
维护成本 |
高(UI 变则挂) |
低(视觉理解更鲁棒) |
|
跨平台 |
需分别适配 |
统一方案,所有平台 |
|
学习成本 |
需要了解 DOM 结构 |
自然语言描述即可 |
|
Token 消耗 |
N/A |
减少约 80% |
总结: Midscene 是一个视觉驱动的 AI UI 自动化工具,用自然语言就能控制 Web、iOS、Android、桌面应用等任意界面,特别适合自动化测试、 RPA、Agent 工具开发等场景。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)