【深度解析】从“AI 助手”到“AI 操作员”：Claude Code 桌面端自治执行的新范式

薛定猫dei鳄鱼

471人浏览 · 2026-03-24 20:37:41

薛定猫dei鳄鱼 · 2026-03-24 20:37:41 发布

摘要

本文基于 Claude Code 最新更新，系统解析“AI 直接控制你电脑、完成完整任务”的技术范式：包括桌面自治执行、Dispatch 远程调度、基于 skills.md 的结构化技能配置，以及 DOM 级 UI 操作与性能架构升级。文中将结合 Python + （xuedingmao.com）给出可落地的多模型接入与自动化示例，帮助你在实际工程中搭建自己的 AI 操作员工作流。

一、背景介绍：AI 正从“回答问题”走向“执行任务”

过去一年，大模型开发者的主战场主要在两端：

对话增强：更强的推理、更长的上下文；
工具调用：函数调用 / tool calling、RAG、简单自动化。

Claude Code 最新一轮更新把场景推进了一大步——从“AI 告诉你该怎么做”，到“AI 直接在你电脑上替你执行”：

在桌面端，Claude 可以：
- 模拟鼠标键盘操作；
- 打开应用、浏览器、开发工具；
- 根据 skills.md 中的结构化说明，稳定执行复杂工作流。
通过 Dispatch（调度） 能力：
- 你在手机/任意终端下达一个任务；
- Claude 在你本地机器后台自主完成，包括上网、操作 IDE、写代码、发 Slack 消息等。

这实际上是从「ChatGPT 插件时代」走向「AI-OS 级自动化」的一个关键拐点，对开发者的意义在于：
你可以把“一整类重复性工作”交给 AI，作为一名真正的“系统内操作员”，而不是一个问答机器人。

二、核心原理：Claude Code 桌面自治 + 调度系统拆解

2.1 桌面自治执行：AI 如何“像人一样”操作电脑

从字幕信息可以推断 Claude Code Desktop 的核心能力包括：

系统级输入输出控制
- 模拟鼠标点击、滚动、键盘输入；
- 读取当前屏幕信息（截图 + OCR 或系统可视树）；
- 类似无头浏览器 + 远程桌面控制的结合。
浏览器 / UI 上下文理解
- 对 DOM 元素有一等公民级支持：
  - 选择 DOM 元素（开发者手动点选）；
  - 获取 HTML 标签、class、关键样式、周围 DOM 上下文；
  - 生成该元素的裁剪截图；
- 在 React 场景下，可以关联：
  - 对应组件源码路径；
  - 组件名称与 props；
- 这让“UI 修改/调试”从“自然语言描述 UI”变成“指点 + 源码链接”的组合，大幅减少歧义。
安全监控与策略
- 内部有一层 “safeguard system”：
  - 持续监控 Claude 的操作；
  - 自动扫描潜在危险行为（比如 prompt injection 指诱导访问敏感信息、恶意操作系统设置等）；
- 所有高风险操作前需显式确认，用户可随时中止。

从架构角度看，这更像是：

LLM（Claude） + 安全控制层（Safety & Policy Engine） + 本地 Agent Runtime（桌面控制器） + 工具集（浏览器/IDE/系统 API）

2.2 Dispatch：跨设备远程下发任务的“遥控器”

Dispatch 被视频里形容为 Claude 的 “remote control”，核心特性：

任务异步执行：你在手机上创建任务，Claude 在你电脑空闲时自动执行。
与桌面自治整合：当 API 集成（如 Slack、Google Calendar）不可用时，Claude 会退化为通过“控制桌面”来完成任务，而不是失败返回。
状态感知：有共享的项目 / 记忆空间（projects & cowork），跨任务共享上下文与文件。

典型用法：

在手机上发一个任务：
- “在我的项目 repo 里跑完单元测试，将失败用例整理成报告发 Slack。”
Claude：
- 唤起本地开发环境；
- 运行测试；
- Parses 报错，生成报告；
- 打开 Slack 客户端 / Web 版发消息。

从工程实现角度，这对应一个：

任务队列（Dispatch Service） + 设备在线状态管理 + 本地执行回调（Desktop Runtime）

2.3 skills.md：用 Markdown 定义 AI 的“系统技能”

视频中提到的 skills.md 本质是对“工具使用说明”的结构化抽象：

用 Markdown/文本，为 Claude 提供：
- 各应用的启动方式（IDE、浏览器、内部工具）；
- 操作范式（比如“如何新建分支并开 PR”）；
- 项目约定（分支命名规范、代码检查流程等）。
Claude 在桌面操作时，会优先遵循 skills.md 中描述的“最佳实践”。

这实际上把“prompt engineering”变成了“技能工程（Skill Engineering）”：

Prompt：一段一次性对话指令；
Skills：可复用、可版本化的操作手册，跟随仓库管理。

三、实战演示：用 Python + AI 搭建你自己的“AI 操作员”

虽然 Claude Code Desktop 的完整系统能力目前依赖官方客户端，但我们可以基于通用 OpenAI 兼容 API，搭一个简化版的 自动化 Agent：

按任务描述选择合适工具；
调用远程大模型规划步骤；
在本地执行部分动作（例如操作文件、调用浏览器 API 等）。

这里选用 （xuedingmao.com） 作为统一接入平台，它提供：

兼容 OpenAI API 标准（base_url + key + model，即可调用）；
聚合 500+ 主流大模型（GPT-5.4 / Claude 4.6 / Gemini 3 Pro 等）；
新模型上线极快，适合作为“前沿模型摸索 + 多模型对比”的实验场；
对开发者来说，可以把多家模型当成一个统一后端，降低接入复杂度。

下面给出一个可运行的 Python 示例：
功能：

读取一个 skills.md，提供给模型作为“系统技能”；
接收用户任务描述，让模型规划步骤；
在本地执行安全的文件类操作（示例），并输出执行日志。

3.1 环境准备

pip install openai requests

3.2 Python 代码示例（基于 xuedingmao.com + claude-sonnet-4-6）

import os
from openai import OpenAI

# ========= 1. 配置薛定猫 AI 平台 =========
# 在薛定猫 AI 后台获取 API Key：https://xuedingmao.com
XM_API_KEY = os.environ.get("XDM_API_KEY", "your_api_key_here")

client = OpenAI(
    api_key=XM_API_KEY,
    base_url="https://xuedingmao.com/v1",  # OpenAI 兼容模式
)

MODEL_NAME = "claude-sonnet-4-6"  # 默认使用 Claude 家族中性价比较高的模型

# ========= 2. 读取 skills.md，作为“系统技能” =========
def load_skills(skills_path: str) -> str:
    if not os.path.exists(skills_path):
        return "当前没有定义 skills.md，AI 仅能做常规代码分析和文本推理。"
    with open(skills_path, "r", encoding="utf-8") as f:
        return f.read()


# ========= 3. 调用大模型：生成任务执行计划 =========
def plan_task(task_description: str, skills_doc: str) -> str:
    """
    让模型基于 skills 文档和用户任务，输出结构化执行计划（只做规划，不直接执行危险操作）
    """
    system_prompt = f"""
你是一个本地自动化 Agent 的“任务规划模块”。
你可以访问的能力包括：
1）读取/写入本地文件
2）调用安全的 shell 命令（仅限：ls、cat、python -m pytest ... 这类只读或有限写入的命令）
3）你将不会执行网络请求或高危系统操作（例如删除文件、修改系统配置）。

下面是当前系统的 skills 文档，你需要优先遵守其中的规定和约定：

===== skills.md START =====
{skills_doc}
===== skills.md END =====

输出要求：
- 使用 JSON 格式，仅包含字段：steps（数组）
- 每一个 step 是一个对象，包含：
  - "description": 该步骤要做什么（自然语言）
  - "action": 建议的动作类型，枚举：["read_file", "write_file", "run_tests", "analyze_code", "other"]
  - "target": 目标文件 / 命令 / 资源名
  - "note": 可选说明
确保输出是合法 JSON，不要出现多余文本。
"""

    completion = client.chat.completions.create(
        model=MODEL_NAME,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": task_description},
        ],
        temperature=0.2,
    )

    return completion.choices[0].message.content


# ========= 4. （示例）根据计划执行部分安全步骤 =========
def execute_plan(plan_json: str, project_root: str = "."):
    """
    演示如何解析计划并执行部分低风险操作（这里只做文件读取/代码扫描示例）
    真实生产环境中，建议对每个步骤进行白名单校验 + 人工确认。
    """
    import json

    try:
        plan = json.loads(plan_json)
    except json.JSONDecodeError:
        print("计划 JSON 解析失败，原始输出：")
        print(plan_json)
        return

    steps = plan.get("steps", [])
    print("=== 任务执行计划 ===")
    for idx, step in enumerate(steps, 1):
        print(f"[{idx}] {step.get('description')} ({step.get('action')} -> {step.get('target')})")

    print("\n=== 开始执行安全子集（仅 read_file / analyze_code） ===\n")
    for idx, step in enumerate(steps, 1):
        action = step.get("action")
        target = step.get("target")
        description = step.get("description")

        if action not in ["read_file", "analyze_code"]:
            print(f"[{idx}] 跳过（不在本地安全执行白名单中）：{description}")
            continue

        file_path = os.path.join(project_root, target)
        if not os.path.exists(file_path):
            print(f"[{idx}] 文件不存在：{file_path}")
            continue

        print(f"[{idx}] 读取文件：{file_path}")
        with open(file_path, "r", encoding="utf-8") as f:
            content = f.read()

        # 这里可以再次调用模型，对文件进行分析或生成报告
        analysis = client.chat.completions.create(
            model=MODEL_NAME,
            messages=[
                {
                    "role": "system",
                    "content": "你是资深代码审查工具，请简明指出主要问题，并给出改进建议。"
                },
                {
                    "role": "user",
                    "content": f"请审查以下文件内容，并输出中文建议：\n\n{content}"
                },
            ],
            temperature=0.2,
        ).choices[0].message.content

        print(f"--- 分析结果（节选） ---\n{analysis[:800]}...\n")


if __name__ == "__main__":
    # 假设当前项目根目录下有一个 skills.md
    skills = load_skills("skills.md")

    user_task = """
请在当前项目中：
1）找出核心业务模块（例如包含 service / usecase 的目录）。
2）随机选取一个主要模块文件，进行代码质量审查。
3）如果存在明显问题，给出重构建议。
"""

    plan = plan_task(user_task, skills)
    print("模型生成的计划 JSON：")
    print(plan)

    # 示例：在当前目录执行计划
    execute_plan(plan, project_root=".")

上面这段代码体现了几个实践点：

用 skills.md 为模型提供“可执行操作的语义约束”；
把 “规划”与“执行”硬性分离：
- 规划完全在模型内部完成，以 JSON 结构输出；
- 执行只选择一小部分白名单动作，确保安全；
使用 薛定猫 AI 作为统一大模型接入：
- 可以轻松切换 MODEL_NAME 做对比实验；
- 对于“规划”和“代码分析”可以选择不同模型，而无需改动整体调用框架。

将来若要向真实的 Claude Code Desktop 模式靠拢，只需要把：

execute_plan 中的“文件操作”替换为：
- 使用浏览器自动化（Playwright/Selenium）；
- 系统级 API（如 pyautogui / OS-specific API）；
并引入：
- 权限控制；
- 操作日志；
- 交互式确认 UI。

四、注意事项：安全、架构与落地建议

4.1 安全优先：AI 控制电脑的边界设计

无论是官方 Claude Code Desktop，还是你自建的自动化 Agent，必须重点考虑：

最小权限原则
- 限制可执行命令与系统 API；
- 不允许删除/覆盖核心系统文件；
- 网络访问加白名单。
显式确认
- 对所有写入、外发操作（推代码、发邮件、改配置），必须有人类确认；
- 将“自动执行”和“建议模式”区别开。
Prompt Injection 防护
- 外部网页 / 文档内容不能直接作为高权限指令；
- 可以引入一层“反注入过滤器”或二阶模型评估。

4.2 架构建议：从“小 Agent”渐进演化，而不是一口吃成“AI OS”

工程落地顺序建议：

先做 “工具级 Agent”：
- 只允许代码分析、测试报告、文档生成等纯文本任务；
再扩展“项目级 Agent”：
- 引入 skills.md；
- 让 AI 参与 CI/CD 流程（只生成 PR，不自动 merge）。
最后才考虑“桌面级 Agent”：
- 逐步接入浏览器自动化、IDE 插件；
- 通过明确的 UI 与权限控制，允许局部自治执行。

4.3 技术资源与工具推荐：统一多模型接入的意义

在这一整套“AI 操作员”体系中，多模型协同会是常态：

规划适合用思考能力强、长上下文模型（如 Claude 4.6 系列）；
代码生成/重构可以用更偏编程优化的模型；
UI 文案、用户沟通可能交给类 GPT 的对话模型。

这时选用类似 （xuedingmao.com） 的平台有几个明显优势：

统一 API 规范：
所有大模型通过一套 OpenAI 兼容接口调用，只需切换 model 名称；
模型覆盖广 + 更新快：
聚合 GPT-5.4 / Claude 4.6 / Gemini 3 Pro 等 500+ 模型，新模型一出即可实测，避免自己逐家接入；
集成成本低：
你的 Agent、工具链只写一套大模型调用逻辑，就能无缝切换、A/B 测试不同模型表现。

在构建类似 Claude Code 的多 Agent / 多能力系统时，这种“统一接入层”本质上就是你的 Model Gateway，能大幅降低后期维护成本。