🔍 Midscene 官方介绍

📦 官方信息

项目

地址

官网

https://midscenejs.com

GitHub

https://github.com/web-infra-dev/midscene

npm

@midscene/web

Discord

https://discord.gg/2JyBHxszE4

X (Twitter)

@midscene_ai

🎯 什么是 Midscene?

Midscene 是由 字节跳动(web-infra-dev 团队)开源的 AI 驱动的视觉化 UI 自动化工具。

"AI-powered, vision-driven UI automation for every platform."

核心理念: 用自然语言描述你的目标,Midscene 通过视觉语言模型自动规划并操作 UI——无需写代码、无需 DOM 定位,仅依靠截图即可完成自动化。

✨ 核心特性

🤖 自然语言驱动

  • 用自然语言描述目标和步骤,Midscene 自动规划并操作 UI

  • 支持 JavaScript SDK 或 YAML 编写自动化脚本

📱 全平台覆盖

平台

集成方式

Web

Puppeteer / Playwright / Bridge Mode

Android

JavaScript SDK + adb

iOS

JavaScript SDK + WebDriverAgent

桌面应用

midscene-pc (Windows/macOS/Linux)

HarmonyOS

支持

任意界面

JavaScript SDK 自定义集成

🔬 纯视觉定位

  • 不依赖 DOM:元素定位完全基于截图,由视觉语言模型(VLM)驱动

  • Token 消耗降低约 80%,成本更低、速度更快

  • 支持跨平台:浏览器、移动端、桌面 App、甚至 Canvas 元素

🛠️ 开发者友好

  • 三类 API:交互 API、数据提取 API、工具 API(如 aiAssert(), aiLocate(), aiWaitFor())

  • MCP 集成:可将 Midscene 的原子操作暴露为 MCP 工具,供上层 Agent 调用

  • 缓存回放:使用缓存快速回放脚本

  • 调试工具:可视化回放报告、内置 Playground、Chrome 扩展

💡 支持的视觉模型

模型

推荐度

特点

Doubao Seed

⭐⭐⭐⭐

UI 规划和定位能力强,速度稍慢

Qwen3-VL

⭐⭐⭐⭐

阿里开源,能力强

Gemini-3-Pro/Flash

⭐⭐⭐

Google 模型,价格较高

UI-TARS

⭐⭐

开源,可自托管,探索能力强

GLM-4.6V

新集成

智谱开源,HuggingFace 可下载权重

🎬 使用场景展示

🌐 Web 自动化

"Sign up for GitHub, pass the form validation"

自动填写 GitHub 注册表单并通过所有字段验证

📱 iOS 自动化

"Open Twitter and auto-like the first tweet by @midscene_ai"

自动打开 Twitter 并点赞指定账号的第一条推文

🤖 Android 自动化

"Open Booking App, search for a hotel in Tokyo for four adults on Christmas, with score 8+"

自动打开 Booking App,搜索圣诞节东京四人大床酒店,评分 8 分以上

💻 PC 桌面自动化

"Open Sauce Demo e-commerce site, login and add items to cart"

自动打开电商网站、登录、添加商品到购物车(Windows/macOS/Linux 全支持)

🔧 MCP 集成

"Use GitHub MCP to check if latest Midscene commit has released a version, if not, invoke Midscene MCP to navigate to action page and run release"

Midscene 作为 MCP Server,被上层 Agent 调用来操作 UI

🦾 社区扩展

社区开发者已成功将 Midscene 与机械臂 + 视觉 + 语音模型结合,用于车载大屏测试场景

🚀 快速上手

零代码体验

  • Android/iOS Playground:内置可视化工具控制本地设备

代码接入

# 安装

npm install @midscene/web


Web 示例(Playwright):

import { pdd, aiQuery, aiAssert } from '@midscene/web/pdd';

async function run() {

await pdd.goto('https://github.com/login');

// 用自然语言描述操作

await aiQuery('Fill in the username and password, then click sign in', {

username: 'your-username',

password: 'your-password'

});

// AI 断言验证结果

await aiAssert('The page shows the user avatar in the top right corner');

}

🆚 对比传统 UI 自动化

--

传统自动化 (Selenium/Appium)

Midscene

定位方式

CSS/XPath 选择器

纯视觉 + 自然语言

维护成本

高(UI 变则挂)

低(视觉理解更鲁棒)

跨平台

需分别适配

统一方案,所有平台

学习成本

需要了解 DOM 结构

自然语言描述即可

Token 消耗

N/A

减少约 80%

总结: Midscene 是一个视觉驱动的 AI UI 自动化工具,用自然语言就能控制 Web、iOS、Android、桌面应用等任意界面,特别适合自动化测试、 RPA、Agent 工具开发等场景。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐