14.8k stars！让 AI 真正“会用电脑“——开源神器 Cua 深度解析！

mymessageone

459人浏览 · 2026-04-29 07:00:00

mymessageone · 2026-04-29 07:00:00 发布

让 AI 真正"会用电脑"——开源神器 Cua 深度解析

GitHub 13k+ Stars | MIT 开源 | YC 支持 | 被 50,000+ 工程师信赖

一、问题：AI 智能体想"操控电脑"，障碍重重

过去两年，“Computer Use”（计算机使用）已成为 AI 领域最热的方向之一。Anthropic 的 Claude 3.5、OpenAI 的 Codex、Google 的 Gemini，各家大模型纷纷宣布具备"操控桌面"的能力。

但当开发者真正想把这个能力落地时，却撞上了一堵墙：

安全风险：把 AI Agent 直接放到你的真实机器上跑，它一旦"幻觉"了，可能删文件、泄数据、搞崩系统——谁敢？
环境混乱：AI 点鼠标要抢你的光标，开应用要劫持你的焦点，让你根本没法同时工作。
重复造轮子：每个团队都在自己搭沙盒、写截图接口、对接模型 API，效率极低。
评测困难：Agent 好不好？快不快？准不准？没有统一的 Benchmark，无从比较。

一句话总结：缺一套专门为 AI Agent 设计的、安全隔离的"电脑基础设施"。

二、是什么：Cua —— AI Agent 的沙盒操作系统

Cua（发音 “coo-ah”，GitHub: trycua/cua）是一个开源的 Computer-Use Agent 基础设施平台，提供沙盒环境、SDK 工具包和评测基准，让 AI Agent 能够安全、高效地控制完整的桌面系统（macOS / Linux / Windows / Android）。

项目由 Y Combinator 支持，目前 GitHub Star 已超过 13,200，Fork 800+，采用 MIT 协议开源。

核心架构：三层体系

┌─────────────────────────────────────────────┐
│              你的 AI Agent（逻辑层）           │
│   Claude / GPT / Gemini / Ollama / 自定义     │
└────────────────────┬────────────────────────┘
                     │ 统一 API
┌────────────────────▼────────────────────────┐
│            Computer SDK（接口层）             │
│   截图 · 点击 · 键盘 · Shell · 文件 I/O       │
└────────────────────┬────────────────────────┘
                     │
┌────────────────────▼────────────────────────┐
│             Sandbox（隔离层）                 │
│  macOS VM · Linux Docker · Windows · Android │
└─────────────────────────────────────────────┘

四大核心组件

① Sandbox（沙盒）
提供多种隔离环境：

云沙盒：一键创建，热启动 < 1 秒，按需付费
macOS 沙盒（Lume）：基于 Apple Virtualization.framework，在 Apple Silicon 上实现 97% 原生 CPU 速度的 macOS 虚拟机
Linux Docker 沙盒：轻量级，浏览器可直接访问
QEMU 沙盒：跨平台，支持 Windows / Android 模拟

② Computer SDK（计算机接口库）
一套统一 API，无论底层是哪种沙盒，用法完全一致：截图、鼠标点击、键盘输入、Shell 命令、多点触控手势，全部支持。

③ Agent 框架
内置 Observe-Reason-Act 循环，支持接入 Anthropic、OpenAI、Google、阿里巴巴等所有主流模型，也支持 Ollama / LM Studio 等本地模型。还可通过 MCP Server 集成到 Claude Desktop、Cursor 等工具中。

④ Cua-Bench（评测基准）
支持 OSWorld、ScreenSpot、Windows Arena 等主流 Benchmark，可并行运行数百个 Agent 轨迹，支持导出训练数据，为强化学习提供完整的数据飞轮。
在这里插入图片描述

三、怎么用：从零到第一个 Agent，5 分钟上手

方式一：Python SDK（推荐开发者）

安装

# 需要 Python 3.11+
pip install cua

第一个沙盒 Agent

from cua import Sandbox, Image

async with Sandbox.ephemeral(Image.linux()) as sb:  # 也可用 .macos() .windows() .android()
    # 执行 Shell 命令
    result = await sb.shell.run("echo hello")
    
    # 截图
    screenshot = await sb.screenshot()
    
    # 鼠标点击
    await sb.mouse.click(100, 200)
    
    # 键盘输入
    await sb.keyboard.type("Hello from Cua!")
    
    # 多点触控手势（移动端）
    await sb.mobile.gesture((100, 500), (100, 200))

接入 AI 模型（以 Claude 为例）

from cua import Agent, Computer

computer = Computer()  # 连接到沙盒
agent = Agent(computer=computer, model="claude-sonnet-4-5")

# 让 Agent 自主完成任务
await agent.run("打开 Safari 浏览器，搜索今天的天气预报并截图保存")

方式二：cuabot（推荐快速体验）

cuabot 是一个命令行工具，让任何编程 Agent 获得一个开箱即用的沙盒桌面环境，支持 H.265 视频、剪贴板共享和音频。

# 安装
npm install -g cuabot

# 在沙盒中运行 Claude Code
cuabot claude

# 在沙盒中运行 Gemini CLI
cuabot gemini

# 在沙盒中运行 Codex
cuabot codex

# 在沙盒中打开 Chromium
cuabot chromium

# 直接操控沙盒
cuabot --screenshot          # 截图
cuabot --type "hello world"  # 输入文字
cuabot --click 100 200       # 点击坐标

方式三：Lume（macOS 本地高性能 VM）

# 一键安装 Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# 拉取并启动 macOS Sequoia 虚拟机
lume run macos-sequoia-vanilla:latest

方式四：cua-driver（后台静默操控真实 Mac）

这是 2026 年 4 月最新推出的黑科技组件。传统的 CGEventPost 方案点击按钮会移动光标、抢走焦点，而 cua-driver 基于 macOS 私有 API（SkyLight 的 SLEventPostToPid）实现了后台 Computer Use：

AI Agent 在后台点按钮、填表单、操作任何 Mac 应用，而你的光标纹丝不动、焦点不变、Spaces 不跳转。

# 安装 cua-driver
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

方式五：运行评测基准

# 安装并创建基础镜像
cd cua-bench
uv tool install -e . && cb image create linux-docker

# 运行 Benchmark（最多 4 个并行 Agent）
cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4

四、核心亮点速览

特性	说明
🔒 安全隔离	Agent 在独立 VM/容器内运行，主机文件、数据完全不受影响
⚡ 近原生性能	Apple Silicon 上 macOS VM 达到 97% 原生 CPU 速度
🌐 跨平台统一 API	同一套代码，适配 macOS / Linux / Windows / Android
🤖 多模型支持	Claude、GPT、Gemini、Ollama 等，一个 API 全覆盖
🧪 完整评测体系	OSWorld、ScreenSpot 等 Benchmark，支持并行评测
🔌 MCP 集成	可直接作为工具接入 Claude Desktop、Cursor 等
🖥️ 后台操控	cua-driver 实现不抢光标的静默 macOS 自动化
☁️ 云 + 本地	云沙盒热启动 < 1 秒；本地 Lume 零延迟