【OpenSpace】 深度剖析:AI Agent 自进化引擎——让每次任务都让 Agent 更聪明

在这里插入图片描述

写在前面:港大 HKUDS 继 OpenHarness 之后又放了一个大招——OpenSpace,一个 AI Agent 自进化引擎。核心主张极其简洁:让每一次任务都让 Agent 变得更聪明、更高效。三层自进化机制(AUTO-FIX 自动修复 / AUTO-IMPROVE 自动改进 / AUTO-GENERATE 自动生成),以 Skill 形式接入任意 Agent(Claude Code、OpenClaw、Codex、Cursor、nanobot 等),GDPVal 基准测试显示 Token 消耗降低 46%,收入产出提升 4.2 倍。今天,我们从问题定义、核心机制到生态定位,彻底拆解 OpenSpace。


📑 文章目录


🤔 一、Agent 的根本问题:没有任务级记忆

在这里插入图片描述

1.1 今天 Agent 的三大痛点

今天的 AI Agent——不管是 Claude Code、Cursor 还是 Codex——都有一个共同的死穴:没有任务级记忆。每次任务都是"第一次"。

痛点一:重复推理浪费 Token。你上周成功用 Claude Code 生成了一个 Python 项目的单元测试框架,今天要做同样的事,Claude Code 依然要从零开始推理——分析项目结构、确定测试框架、编写测试文件、运行调试。同样的推理过程,同样的踩坑,同样的 Token 消耗。如果上周的经验能被记住,这次只需要"复用+微调"——Token 消耗可以降低 50% 以上。

痛点二:错误模式无法自动修复。Agent 在执行任务时经常遇到工具调用失败——API 返回格式变了、文件路径不存在、命令参数错误。当前的做法是 Agent 尝试自我修复,但修复过程本身也消耗大量 Token。更关键的是,同样的错误下次还会再犯——因为 Agent 不记得上次是怎么修好的。如果错误修复路径能被自动记录为 Skill,下次遇到同样的错误直接跳到修复步骤,效率提升不言而喻。

痛点三:成功经验无法沉淀。Agent 成功完成一个复杂任务后,整个推理链路就消失了——没有留下任何可复用的知识。下次遇到相似任务,Agent 又要从零开始。这就像一个程序员每次写代码都要重新学习语法——不是因为他不聪明,而是因为他没有"笔记"。

1.2 OpenSpace 的核心思路

OpenSpace 的核心思路极其简洁:把每一次任务的成功/失败模式记下来,变成可复用的 Skill,然后持续演进

这不是"缓存"——缓存是静态的,同样的输入返回同样的输出。OpenSpace 的 Skill 是动态的——每次执行都可能触发进化:失败了自动修复,成功了自动改进,新任务自动生成新 Skill。

这也不是"RAG"——RAG 是检索文档片段,Skill 是检索完整的任务解决方案。RAG 回答"这个 API 怎么用",Skill 回答"这个任务怎么做"。

1.3 GDPVal 基准测试结果

OpenSpace 在 GDPVal(Game-Development Project Validation)基准测试上的结果令人印象深刻:

Token 消耗降低 46%。第二轮任务(有 Skill 可复用)比第一轮(冷启动)Token 消耗减少 45.9%。文件与文书类任务降幅最大(-56%),因为文档结构和错误恢复路径已被固化。

收入产出提升 4.2 倍。在 GDPVal 的经济模拟中,使用 OpenSpace 的 Agent 收入产出是 baseline 的 4.2 倍。原因很简单:Skill 复用让 Agent 能在同样的 Token 预算下完成更多任务。

任务质量从 40.8% 提升到 70.8%。baseline Agent 的任务完成质量为 40.8%,使用 OpenSpace 后提升到 70.8%。Skill 不仅节省 Token,还提高了任务成功率——因为 Skill 是从成功模式中提取的"最佳实践"。

价值捕获率 72.8%。在 $15,764 的可用价值中,OpenSpace Agent 捕获了 $11,484(72.8%),远高于 baseline。


⚙️ 二、三层自进化机制:修复→改进→生成

在这里插入图片描述

2.1 AUTO-FIX:技能失效时自动修复

触发条件:Skill 执行失败。可能是 API 变更、文件路径不存在、命令参数错误、依赖版本不兼容等。

修复流程:Agent 检测到 Skill 执行失败后,OpenSpace 拦截错误信息,将失败上下文(原始 Skill + 错误信息 + 当前环境状态)传递给 LLM,LLM 分析失败原因并生成修复版本。修复后的 Skill 经过验证后替换原版本,下次执行直接使用修复版本。

关键设计:修复不是"从头重写",而是"增量修改"——保留 Skill 中仍然有效的部分,只修改导致失败的部分。这保证了修复的效率和稳定性。

2.2 AUTO-IMPROVE:成功的任务模式自动沉淀

触发条件:任务成功完成,且 Agent 的执行路径与现有 Skill 不同。

改进流程:任务成功后,OpenSpace 提取 Agent 的执行轨迹(工具调用序列、决策逻辑、参数选择),与现有 Skill 对比。如果新路径更高效(更少步骤、更少 Token、更高成功率),则生成改进版本的 Skill。

关键设计:改进不是"替换",而是"版本演进"——每个 Skill 维护一个版本历史,可以回滚到任何历史版本。这保证了进化的安全性——如果新版本在某些场景下表现更差,可以快速回退。

2.3 AUTO-GENERATE:新任务自动生成新 Skill

触发条件:遇到现有 Skill 库中没有覆盖的新任务类型。

生成流程:Agent 完成新任务后,OpenSpace 从执行轨迹中提取可复用的模式(工具调用序列、决策逻辑、参数模板),生成新的 Skill 文件。新 Skill 经过验证后存入本地 Skill 库,下次遇到相似任务时自动检索使用。

关键设计:生成不是"完整记录",而是"模式提取"——去除任务特定的细节(如具体文件名、参数值),保留通用的执行模式和决策逻辑。这保证了 Skill 的泛化能力——同一个 Skill 可以应用于不同的具体任务。

2.4 AGP:两层自进化协议

OpenSpace 的底层协议是 AGP(Agent-Guided Protocol)——一个两层自进化协议,将进化基底(evolutionary substrate)与进化策略(evolutionary strategy)解耦:

底层:进化基底。定义 Skill 的存储格式、版本管理、检索机制、验证流程。这是"怎么存"和"怎么找"的基础设施。

上层:进化策略。定义何时触发修复、何时触发改进、何时触发生成。这是"何时进化"和"怎么进化"的决策逻辑。

两层解耦的好处:底层可以独立优化(如改进检索算法、增加验证维度),上层可以独立调整(如修改进化触发条件、调整改进策略),互不影响。

2.5 冷启动 vs 热复用

OpenSpace 有一个经典的两阶段模型:

Phase 1(冷启动)。第一次跑任务,没有历史 Skill 可用,Agent 需要完整推理,Token 消耗最高。任务结束后,成功模式被自动提取为 Skill 存入本地数据库。

Phase 2(热复用)。相同或相似的任务再次出现,Agent 直接检索 Skill 库,用预验证的解决方案执行,跳过重复推理。官方 benchmark 里这个阶段的 Token 消耗比 Phase 1 少了 45.9%。

各类任务的 Token 减少幅度:文件与文书(-56%)、合规与表单(-51%)、工程项目(-43%)、媒体制作(-46%)。越是结构化、重复性高的任务,Skill 复用的收益越大。


🌐 三、生态与社区:个体智慧→集体能力

在这里插入图片描述

3.1 兼容所有主流 Agent

OpenSpace 以 Skill 的形式接入任意 Agent,不需要修改 Agent 本身的代码。当前已验证兼容的 Agent 包括:Claude Code、OpenClaw、Codex、Cursor、nanobot 等。任何支持 MCP 协议的 Agent 都可以通过 OpenSpace 的 host_skill 接入。

接入方式极其简单——只需将 OpenSpace 的两个 Skill(delegate-taskskill-discovery)复制到 Agent 的 Skills 目录,配置 MCP 连接,即可启用自进化能力。实测接入 OpenClaw 只需 15 分钟。

3.2 本地 Skill 库 vs 云端社区

本地 Skill 库。Skill 存储在本地文件系统(~/.openspace/skills/),进化过程完全在本地完成。数据不出本机,隐私安全。适合个人开发者和对数据安全有严格要求的企业。

open-space.cloud 云端社区。注册账号后,进化出来的 Skill 可以一键发布和下载。权限支持 public(公开)、private(私有)、team(团队)三种模式。社区的核心价值是"一个 Agent 学了,所有人都会"——你的 Agent 在真实任务中进化出高质量 Skill,一键发布后,社区里其他人的 Agent 可以直接下载复用。

这不是"代码共享",而是"经验共享"——每个 Skill 都是真实任务打磨出来的"最佳实践",比手写文档更有价值。而且 Skill 会随着使用继续进化,形成正反馈飞轮。

3.3 可视化 Dashboard

OpenSpace 提供了一个本地可视化面板,可以直观查看 Skill 的进化过程:

进化谱系。每个 Skill 从初版到当前版本的完整演化路径——哪些任务触发了修复,哪些任务触发了改进,版本之间的差异是什么。

版本对比。每个版本的变更内容和效果对比——Token 消耗变化、成功率变化、执行步骤变化。

执行统计。每个 Skill 的使用频率、成功率、Token 节省量、进化触发次数。

Dashboard 的启动也很简单:终端 1 启动后端 API(openspace-dashboard --port 7788),终端 2 启动前端(npm run dev),打开 http://localhost:5173 即可。

3.4 踩坑记录

坑 1:toolTimeout 必须设够。复杂任务 MCP 工具调用可能超过默认超时,长任务跑到一半被强制中断,进化也触发不了。修复:MCP 配置加 "toolTimeout": 600

坑 2:两个 host_skill 必须都复制。只复制 delegate-task 不够,skill-discovery 是让 Agent 学会主动检索 Skill 的关键。两个都要复制才能完整启用自进化能力。


🎁 总结速查卡

OpenSpace 核心概念

概念 一句话解释
自进化引擎 让每次任务都让 Agent 变得更聪明、更高效
三层机制 AUTO-FIX(修复)/ AUTO-IMPROVE(改进)/ AUTO-GENERATE(生成)
Skill 可复用的任务解决方案——活的文档,越用越好
AGP 两层自进化协议——进化基底 + 进化策略解耦
冷启动→热复用 Phase 1 完整推理 → Phase 2 Skill 复用,Token -46%
GDPVal Token -46% / 收入 4.2x / 质量 40.8%→70.8%
open-space.cloud 云端社区——一个 Agent 学了,所有人都会

一句话总结

OpenSpace 是港大 HKUDS 开源的 AI Agent 自进化引擎——核心思路是"把每一次任务的成功/失败模式记下来,变成可复用的 Skill,然后持续演进"。三层自进化机制:AUTO-FIX(技能失效时自动修复)、AUTO-IMPROVE(成功模式自动沉淀为更好版本)、AUTO-GENERATE(新任务自动生成新 Skill)。底层 AGP 协议将进化基底与进化策略解耦。GDPVal 基准测试:Token 消耗降低 46%,收入产出提升 4.2 倍,任务质量从 40.8% 提升到 70.8%。以 Skill 形式接入任意 Agent(Claude Code/OpenClaw/Codex/Cursor/nanobot),15 分钟即可启用。本地 Skill 库保证隐私,open-space.cloud 云端社区实现"个体智慧→集体能力"的转化。Skill 不是缓存,而是活的文档——越用越好,越用越省。


参考链接

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐