在 AI 领域,我们正经历从“对话式 AI”(Chatbot)向“行动式 AI”(Agentic AI)的范式转移。最近,GitHub 上的开源项目 Openwork 引起了广泛关注。它不仅是一个自动化工具库,更像是一张通往“未来数字工人”的技术蓝图。

通过深度阅读 Openwork 的源码,我们可以窥见 AI 代理(Agent)是如何一步步走出对话框,开始像人类一样操纵计算机、处理复杂业务逻辑的。


一、 什么是 Openwork?

Openwork 是一个旨在构建通用数字工人(Digital Workers)的开源框架。与传统的 RPA(机器人流程自动化)不同,Openwork 强调的是视觉驱动动态决策。它不依赖于死板的 DOM 路径或坐标,而是利用大模型的视觉能力和推理能力,像人类一样“看”屏幕并“理解”操作。

二、 核心架构:数字工人的“大脑”与“感官”

在阅读源码过程中,我发现 Openwork 的核心逻辑围绕着一个经典的控制循环:感知(Perceive) -> 规划(Plan) -> 行动(Act) -> 反思(Reflect)

1. 视觉即感官 (Vision-based Perception)

Openwork 的一大亮点是它对屏幕截图的深度利用。源码中集成了对多模态模型(如 GPT-4V 或 Claude 3.5 Sonnet)的调用。

  • 元素识别:它将屏幕截图发送给模型,要求模型识别出按钮、输入框的位置。

  • 语义理解:它不仅仅知道这里有一个“按钮”,还通过视觉上下文理解这个按钮的功能(例如:这个“提交”按钮是发邮件还是存草稿)。

2. 动态规划与工具调用

agents 目录下的逻辑显示,Openwork 并不预设固定的执行路径。

  • 意图拆解:当用户输入“帮我订一张去上海的机票”时,Agent 会将其拆解为:打开浏览器 -> 搜索携程 -> 选择日期 -> 填入信息。

  • 工具箱(Tools):源码中定义了丰富的 Tool 类,涵盖了浏览器控制(Playwright)、文件系统操作、API 调用等。


三、 从源码看未来数字工人的三大特征

通过分析 Openwork 的实现方式,我们可以总结出未来“数字工人”的几个核心形态:

1. 界面即游乐场(Screen as the Interface)

传统的 AI 往往依赖 API 插件,但现实世界中 90% 的软件并没有完善的 API。Openwork 的路径是:只要人类能用的界面,AI 就能用。这意味着数字工人将拥有极强的通用性,无论是旧式的 ERP 系统还是最新的 SaaS 工具,它们都能无缝上手。

2. 自主纠错与反思

在 Openwork 的执行逻辑中,每一步操作后都会有一个“验证”环节。如果点击后页面没跳转,Agent 会在下一轮循环中意识到失败,并尝试刷新或更换点击策略。这种闭环控制是数字工人从“脚本”进化为“员工”的关键。

3. 极低的操作门槛

源码中的 Prompt 模版显示,开发者正在努力减少对硬编码的依赖。未来,雇佣一个数字工人可能不需要写代码,而是像带实习生一样,通过录屏或自然语言告诉它:“看,我是这样报销的,以后你来做。”


四、 挑战与思考

尽管 Openwork 展示了令人兴奋的前景,但源码中也暴露了一些现阶段的挑战:

  • 延迟问题:视觉推理和往返采样导致动作之间有明显的停顿,这在处理高频任务时仍显吃力。

  • 安全性与授权:当一个 Agent 拥有了操作你屏幕的权限,如何防止它误删文件或泄露敏感信息?这是 Openwork 乃至整个行业需要完善的基础设施。

结语

Openwork 并不是要取代人类,而是要将人类从“点击按钮”和“搬运数据”的机械劳动中解放出来。阅读它的源码,我仿佛看到了千万个数字工人在云端待命,它们像人类一样观察,像专家一样思考,像助手一样执行。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐