26年4月来自美的集团的论文“SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering”。

OpenClaw 在 2026 年初的崛起,标志着数百万用户开始将个人 AI 智体融入日常生活,委托其完成从旅行规划到多步骤研究等各种任务。这种规模的普及表明,两条并行发展路径已达到转折点。首先是 AI 工程的范式转变,从提示工程和上下文工程发展到驾驭工程(harness engineering)——设计将不受约束的智体转化为可控、可审计且生产可靠的系统所需的完整基础设施。随着模型能力的趋同,驾驭层正成为架构差异化的主要领域。其次是人机交互从离散任务向持久的、上下文-觉察的协作关系演变,这需要开放、可信且可扩展的驾驭基础设施(harness infra)。SemaClaw 是一个开源的多智体应用框架,它通过驾驭工程朝着通用个人 AI 智体迈出了重要一步,从而应对这些转变。主要贡献包括基于 DAG 的两阶段混合智体团队编排方法、PermissionBridge 行为安全系统、三层上下文管理架构以及用于自动构建个人知识库的智体维基技能。

。。。。。。继续。。。。。。


4 插件生态系统实践

SemaClaw 的插件生态系统在每个扩展机制中都实现了四层模型。

在 MCP 工具层,SemaClaw 提供一套内置服务器,涵盖了智体的核心操作需求:记忆检索和索引、工作区上下文管理、智体间任务分发、计划任务管理以及出站消息传递。这些内部服务器已预先授权,无需用户在调用时批准。用户安装的外部 MCP 服务器扩展了这一基础,但需遵守权限策略。

在子智体层,分发机制允许任何被指定为编排器的智体将任务委派给团队中的其他指定智体。子智体接口由提示定义:编排器使用自然语言描述任务;路由由角色匹配决定,而不是显式寻址。

在钩子层,生命周期回调函数在关键执行边界(任务启动、工具调用、会话压缩和任务完成)可用,允许外部系统在不修改运行时的情况下观察或干预智体行为。

在技能层,SemaClaw 提供一个技能管理界面,可通过命令行界面和 Web UI 访问。用户可以浏览可用技能、安装或移除技能,并立即启用或禁用单个技能——无需重启智体。Web UI 技能页面提供一个可视化的技能目录,其中包含每个技能的描述和激活状态;命令行界面 (CLI) 为程序化环境和无头环境提供了相同的操作。这种双入口模式体现了更广泛的产品目标,即无论用户的技术背景如何,都能轻松管理智体功能。


5 智体团队:基于持久-角色的动态编排

其将持久-角色路由(即编排器基于与智体身份的语义一致性而非硬编码的调度逻辑来选择工作节点)定位为一种独特的编排基础,并指出它在分布式架构变更下的可调试性和鲁棒性如何,这些问题在实际部署中才刚刚开始显现。

如图 5 所示多智体任务编排系统:
请添加图片描述

持久-角色作为团队组成的基础

SemaClaw 中的智体团队并非在运行时组建,而是由系统中注册的持久身份组成。每个智体都由一个文件夹字符串标识,该字符串作为其在整个堆栈中的命名空间:智体数据目录(agentDataDir)及其默认工作目录(默认工作目录)都位于此文件夹下,该目录下存储着智体的 SOUL.md、MEMORY.md 和每日对话日志。此身份是文件系统级别的,并且与会话无关;它在重启后仍然存在,并在智体的整个运行生命周期内不断累积。

首次注册智体时,ensureAgentDirs() 会创建完整的目录树,并通过 defaultSoulMd() 写入初始的 SOUL.md 文件——将智体的名称、文件夹标识符和默认工作区路径写入其角色文档。该文件仅写入一次;所有后续修改均由用户或智体自身完成。这份初始文档是灵魂解析链的起点:智体的稳定身份是一个系统创建一次、操作员随时间推移进行调整的文件。

编排器的任务路由决策基于此身份层,但其机制十分精确。list_agents 将每个已注册工作节点的名称、文件夹 ID 和通道暴露给编排器;编排器的 LLM 推理决定为给定的子任务指定哪个智体名称——这一判断基于这些成员列表条目、父目标以及编排器已识别的任何角色或记忆上下文。然而,绑定步骤是确定性的:resolveAgent() 对已注册的名称和文件夹 ID 执行不区分大小写的精确字符串匹配。绑定层不存在向量相似性。语义判断完全在编排器的自然语言推理中进行;解析过程是一个查找。这种分离——LLM 决定谁,字符串匹配确认绑定——使得路由既灵活又可审计。

由于每个智体的记忆都累积在其文件夹下,因此长期运行的智体会发展出无状态群参与者无法达到的专业化深度:一个处理过数十个代码审查任务的工作智体会将该历史记录保存在其检索索引中,从而以新初始化的智体无法复制的方式塑造其响应的质量。

任务声明和 DAG 合约

SemaClaw 的调度路径实例化组合:编排器的 LLM 首先以结构化数据的形式发出显式依赖关系图,然后运行时中的确定性执行器运行该图——而不是在每个工作步骤中穿插临时调度决策。

编排器通过调用 create_parent 并传入目标字符串和任务数组来声明多智体任务。每个任务条目都包含一个智体名称、一个提示和一个包含先前任务标签的 dependsOn 列表——共同构成一个显式的子任务依赖关系有向无环图。此声明步骤发生在任何工作进程被调用之前:编排器的 LLM 推理会将完整的任务结构作为单个 MCP 调用生成,而不是随着执行的进行而逐步生成。detectCycle() 在提交时验证声明的图;循环依赖关系会在运行时导致死锁之前被拒绝。

声明还受到两个附加约束。每个管理智体一次只能有一个父任务组处于活动状态;额外的 create_parent 调用会进入队列状态,并随着活动组的完成按顺序提升。这种序列化消除组间状态争用,而无需编排器跟踪哪些组正在运行。当父任务被激活时,管理智体的当前工作目录会被捕获为 sharedWorkspace 并传播到组中的所有工作进程,从而在配置共享文件上下文时,为团队提供一个公共的文件上下文。
因此,编排器的动态推理被限制在一个明确定义的单一时刻:任务声明的构建。此后的所有操作都由一个具有已知且可检查状态的确定性调度器控制。

执行:DispatchBridge 作为确定性调度器

DispatchBridge 在主进程中运行,负责驱动已声明的 DAG 完成。其核心循环 processPending() 每 300 毫秒触发一次,并在单次循环中执行两项任务。首先,它会扫描所有处理任务的超时时间:任何超时时间已过的任务都会被标记为超时并从活动工作进程映射中移除。其次,它会扫描所有依赖项都已达到终止状态(完成、错误或超时均符合条件)的已注册任务,并通过 startTask() 函数调度这些任务。将失败的上游任务视为终止状态,可以确保下游工作不会因单个故障而永久阻塞;桥接器会推进整个 DAG,而不是在第一个错误处停滞。

startTask() 函数会为每个工作进程构建一个增强型提示,其中包含总体 <parent_goal>、当前任务所依赖的所有 <prerequisites> 的结果以及同一组中 <other_tasks> 的状态。因此,工作进程在开始执行时就拥有完整的任务上下文,而无需在任务执行过程中查询协调器。这是子智体上下文隔离属性的实际体现:每个工作进程的执行都是独立的,编排器的上下文不会随着其工作进程的累积推理而增长。

调度 MCP 服务器(作为轻量级标准输入输出子进程运行)与主进程中的 DispatchBridge 之间的通信通道是一个 JSON 状态文件,并通过一个锁文件来协调并发访问。当一个工作智体完成且其 sema-code-core 实例转换到空闲状态时,AgentPool 会检测到状态变化,并将最终回复转发给 DispatchBridge.notifyReply();在错误路径上,notifyError() 会写入相同的终止转换。两条路径都会调用 processNextPending() 来立即解除任何等待该工作进程的下游任务的阻塞,然后有条件地恢复工作进程的原始工作目录——但前提是在此期间没有新任务分配给同一个工作进程。被分派到连续任务的工作进程会保留跨任务的共享工作空间,而无需中间回滚。

启动时,DispatchBridge 会将上次运行中所有处于活动或排队状态的父任务标记为已完成,并将其正在进行的任务记录为已中断。此外,每两分钟触发一次的心跳机制会重置管理智体的活动计时器,以防止其因长时间等待 dispatch_task 轮询而阻塞,从而避免在正常的多智体协调过程中触发 30 分钟无活动超时。

编排器通过调用 dispatch_task 来等待每个子任务,该函数会以 500 毫秒的间隔轮询状态文件,直到任务达到终止状态。一旦任务开始执行,轮询截止时间就会动态调整,从声明时的超时时间切换到任务的实际 timeoutAt 时间,从而避免因等待上游依赖项而导致的任务受到惩罚。


6 四种模式的调度任务系统

调度任务代表一种独特的智体工作负载:它们由时间而非用户输入触发,其复杂度从完全不需要模型推理的简单提醒到完全自主的多步骤智体执行不等。如果系统将所有定时任务都路由到完整的智体流水线,则会在不需要这些工作上浪费计算资源和token预算;而仅支持轻量级自动化的系统则无法满足那些受益于智体推理的用例。

SemaClaw 通过定义四种执行模式来解决这个问题,每种模式都对应一种不同的复杂度。

1)纯通知模式会向用户发送一条由时间触发的消息,无需调用任何模型。该任务完全确定:一个预定的时间、一个预编写的消息正文和一个目标频道。此模式适用于提醒、定期公告以及任何内容预先已知且无需在发送时进行调整的情况。它不消耗任何token,并且延迟极低。

2)纯脚本模式会按计划执行一个确定性的代码例程。该脚本在智体运行时之外运行——无需上下文窗口、模型调用或工具权限开销——并直接生成结构化输出或副作用。此模式适用于数据收集、文件处理、API轮询以及其他无需LLM推理即可完全指定逻辑的任务。其主要优势在于稳定性(行为完全符合代码指定,无随机变化)和成本效益(无论执行频率或复杂度如何,均不消耗token)。

3)纯智体会在预定时间调用完整的智体执行。智体接收预先编写的提示,对其可用工具和记忆进行推理,并自主生成响应或执行操作。此模式适用于需要判断、综合或适应的任务——例如总结一周活动、撰写状态报告或启动研究任务——这些任务的内容无法预先确定,并能受益于智体的完整推理能力。

4)混合脚本加智体模式,结合两种方法:首先运行脚本并生成结构化数据或预处理后的上下文,然后将其作为输入传递给智体进行推理。这种模式解决任务中常见的耗时环节,即任务中最耗时的部分并非推理,而是数据收集——例如获取指标、聚合日志、查询 API——而智体的作用在于解释和综合,而非原始数据检索。通过将确定性部分卸载到脚本,混合模式使token消耗与推理工作量成正比,而非与总工作量成正比。

这四种模式体现一个精心设计原则:执行模式应与任务复杂性相匹配。智体并非适用于所有调度任务,将其视为所有任务的最佳工具会增加成本、引入不必要的延迟并降低系统可靠性。该分类法在配置时明确这种权衡,使运维人员能够根据每个用例部署合适的执行原语。


7 基于维基的个人知识基础设施:用户拥有的知识层

前面描述 SemaClaw 如何执行任务、管理上下文以及跨时间协调智体。然而,这些机制都无法完全保留通过交互学习的内容。三层上下文架构控制着智体在每个步骤中读取的内容,但任务过程中产生的结论、提炼出的发现和结构化的理解仍然容易被压缩到摘要中,并最终随着日志的流逝而丢失——这些内容虽然便于回忆,却不适合知识的沉淀。

本文关键设计理念是将这些学习的知识外部化到一个用户拥有的语料库中,而不是将其隐式地保留在会话历史记录中。因此,SemaClaw 添加一个基于维基的个人知识基础设施:一个专用的知识层,它通过精心策划而非简单的积累而增长,按主题而非时间组织,并且对用户而非仅对智体保持直接的可读性和可编辑性。 wiki 的设计并非偶然:一个纯 Markdown 文件的目录同时具有人类可读性、版本可控性,并且智体可以直接访问——数据库或专有索引无法提供这些特性,除非引入一个中间层,从而切断用户对其自身知识的直接所有权。

机制:存储、构建和检索

存储。知识层以目录树的形式存储在用户的本地文件系统中,每个条目都是一个 Markdown 正文,前面带有一个 YAML frontmatter 头部,其中包含标签和源元数据。这里没有数据库,也没有专有索引:语料库的内容与文件浏览器显示的内容完全一致。这种设计是经过深思熟虑的。用户拥有的知识层应该保持可检查、可移动、可同步和可编辑的状态,而无需依赖正在运行的智体。文件夹层级结构即为主题分类,用户可以随时重命名目录、重构树结构或移动条目,而无需系统干预。因此,语料库是一个文件文件夹,用户可以根据需要进行编辑、版本控制或迁移——无论 SemaClaw 是否正在运行。

构建。智体只能通过一组简单的命令行操作访问此层——检查树结构、创建类别、保存条目、组织现有文件——每个操作都会返回智体可以进行推理的结构化输出。系统支持两种工作流程。 “保存”功能处理智体在任务期间生成的内容:它会检查分类树,判断内容是否符合现有分类,如果不符合则创建新分类,或者在分类确实不确定时将条目暂存在收件箱/中,然后使用与主题相关的标签写入条目。“整理”功能处理用户提供的文件:智体将其复制到选定的分类中,并仅编辑前置元数据(添加标签和来源信息),而不重写正文。这里的限制是结构性的而非风格性的:用户的内容具有权威性,智体的角色是分类和标记(label),而不是编辑。

分类判断,让智体扮演策展人的角色,而非记录者的角色。它能够识别新内容是对既定主题的扩展,而不是需要创建新分支,或者在“我还不确定”时将决定权交给收件箱/——这些都是推理操作,而非输入/输出操作。它们利用智体对内容和用户已积累的分类体系的解读,并将语料库塑造成便于后续检索和人类读者浏览的形式。

检索。知识层维护着自身的搜索界面——仅针对语料库进行内容查询和标签过滤——这与memory_search工具截然不同。这种分离是刻意为之:外部记忆索引的是已说过的话(对话记录、自动日志),而知识层索引的是已学的东西(有意保存为独立知识的内容)。memory_search的搜索结果返回的是一段对话;知识层的搜索结果返回的是一个独立、结构化的条目。将二者混淆会抹杀知识层的价值所在。作为并行检索源,它积累一系列经过精心整理的、用户特定的知识,其价值会随着用户领域的深入而不断增长。

人工编辑循环:Web UI 和用户端组织

Web 界面将目录树渲染成一个可导航的知识库,并将每个 Markdown 条目渲染成一个格式化的文档。该界面并非构建在语料库之上的一层,而是智体读取和写入的同一文件的视图,没有中间状态,也没有同步步骤。用户通过 UI 按类别浏览条目,直接编辑内容和前置元数据,并重新组织目录结构——重命名文件夹、移动条目、重构分类——而无需通过智体。任何更改都会立即对下一次智体检索过程可见,因为文件本身就是语料库,无需重建单独的索引。

这种“文件即语料库”模型实现智体和用户之间的双向循环。通过智体任务执行积累的知识不会一直锁定在智体内部,而是以语料库的形式呈现,供用户阅读、更正和扩展。智体的任务工作强化了用户自身的理解:智体进行的研究会转化为用户可以学习的笔记;智体推理出的决策会转化为用户可以回顾的记录。用户的每一次改进都会反馈到下一次检索过程中,智体会将这些修改视为权威内容。随着时间的推移,语料库成为共同创作的成果,通过同样的互动行为,对双方都具有价值。

从Vibe Working到Vibe Learning

Vibe coding(最初的框架)缩短意图和代码之间的距离:用户表达他们的需求,智体生成相应的代码。Vibe working将这一模型扩展到代码之外的通用任务执行——包括草拟、研究、分析和协调——使智体成为知识工作各个环节的协作者。这一知识层引入第三个阶段:Vibe Learning。Vibe working帮助用户完成任务,Vibe learning确保完成任务后会留下痕迹——一个结构化的、可检索的、不断增长的记录,记录了做了什么以及通过做事理解了什么。

每完成一项任务,都是一次巩固所需知识的机会;每条记录都是对智体未来发展和用户自身智力资本的投资。这正是将知识基础设施视为 SemaClaw 核心组件的深远愿景:不仅是为了构建更完善的搜索界面,更是为了实现一个智能不断累积的系统。通过日常互动积累的知识——包括研究成果、决策过程以及从失败中汲取的经验教训——会被整理、保存,并同时提供给智体和用户。在这种框架下,智体的角色并非取代人类认知,而是服务于人类认知:将人类的记忆、综合和结构化思考能力扩展到任何个体独立完成的极限。


1 编排架构——虚拟智体还是持久角色?

矛盾

对一个基础性问题“在团队环境中,智体究竟是什么?”,多智体编排的众多文献给出两种截然不同的答案:

第一种答案将智体视为虚拟参与者——短暂、轻量级且角色范围限定。编排器在任务执行时从零开始组建团队,根据角色字符串或系统提示启动专用实例,在任务期间使用这些实例,并在任务完成后将其丢弃。OpenAI 的 SwarmOpenAI (2024) 最清晰地阐述这种理念:智体是带有元数据的函数,其身份不会在创建它们的执行之后持续存在。这种方案的吸引力在于可组合性和简洁性:添加新角色只需要一个新的提示,并且无需在运行之间管理任何状态。

第二种答案将智体视为持久的协作者——具有持久身份,积累了记忆、建立了工作模式,并且随着时间的推移发展出稳定的角色定义。 “代码审查员”并非按需实例化的角色;它是一个特定的智体,已审查过数百个拉取请求,其 SOUL.md 文件由这些经验塑造而成,并且其记忆索引包含新实例化的审查员无法访问的上下文信息。其代价在于运营:持久智体需要目录管理、记忆维护,并且需要关注身份随时间推移而发生的偏移。

SemaClaw 的现状

SemaClaw 致力于持久-角色模型。其设计原理被明确阐述:处理过数十个特定类型任务的工作状态会在其检索索引中保留这些历史记录,从而以新初始化的状态无法复制的方式塑造其响应质量。SOUL.md 文档不仅仅是一个系统提示——它是一个动态的身份锚点,会在智体的生命周期内不断积累,并且可以由操作员有意地进行塑造。

这种承诺体现在架构层面:resolveAgent() 中的路由绑定步骤是对已注册名称进行字符串匹配,而不是对提示嵌入池进行向量查找。SemaClaw 中不存在匿名智体;团队中的每个参与者都是一个已注册的身份,并在文件系统中持久存在。

DAG 团队方法在此约束下保留动态编排的灵活性。编排器的 LLM 会对任务进行动态推理,并在声明时生成依赖关系图——因此规划步骤保留纯动态系统的适应性——但它分派给的工作节点是已注册的身份,而不是虚拟构造。这种混合模式是刻意为之:基于静态成员表进行动态规划。

未解决的问题

持久-角色模型引发一些当前实现尚未完全解决的问题。

身份随时间推移而发生漂移。如果智体的 SOUL.md 文件被用户、其他智体或自动化流程不断修改,其角色可能会发生演变,从而导致最初分配该角色时所依据的假设失效。例如,一个代码审查员的角色文档可能已经转变为通用助理,但其在成员名单中仍然被命名为“代码审查员”;字符串匹配成功,但编排器在路由到该名称时所假设的语义一致性可能不再成立。目前没有机制来检测或提示这种演变。

新型任务类型下的成员名单僵化。编排器根据 list_agents 公开的名称和 SOUL.md 摘要推断出的信息进行路由。对于无法与现有成员名单完全匹配的任务类型,编排器必须强制将路由决策分配给一个不完全匹配的智体,或者声明不存在合适的智体——目前没有机制可以根据可用身份按需组合合适的智体。这究竟是一个真正的限制,还是一个鼓励精心设计团队的有益约束,目前尚无定论。

混合方法的必要性。可以设想一种结合两种模型的架构:一个由持久专家组成的注册核心,在任务执行时,通过临时实例化的通用型或基于共享基础角色创建的角色专业化实例进行扩展。路由层需要区分注册身份和任务时实例,而记忆系统则需要制定策略,规定临时智体可以写入哪些数据(如果有的话)。在 SemaClaw 中尚未探索过这个方向,但这是一个富有成效的设计空间。

更深层次的问题是,虚拟智体和持久智体之间的选择是架构层面的承诺还是配置决策。SemaClaw 将其视为架构层面的承诺;乐于了解这种做法是否恰当。


2 驾驭工程与模型能力——替代还是互补?

矛盾

改进人工智能智体系统的主流思维模式是升级底层模型。更优的推理能力、更大的上下文窗口、更低的幻觉率——这些都是模型的固有属性,而提升系统行为的传统途径是通过模型提供商的下一个版本。驾驭工程并非挑战这种观点,而是使其更加复杂:问题不在于更好的模型是否更好,而在于达到特定系统行为水平究竟需要多少模型能力,以及这种需求是否可以通过框架设计系统性地降低。

这不仅仅是一个成本优化问题。如果驾驭工程能够在相当一部分任务中可靠地替代模型能力,它将改变智体部署的经济性、模型开发的激励机制,以及大型前沿模型与小型、低成本替代方案之间的竞争格局。

证据表明

“驾驭工程可以部分替代模型能力”这一论点已得到实证支持:LangChain Terminal Bench 2.0 的结果——仅通过驾驭改进就实现了 13.7 个百分点的完成率提升(LangChain (2026))——是一个受控的证明,表明驾驭投资可以带来独立于模型投资的能力提升。

SemaClaw 自身的架构包含多种基于此原理的机制,每种机制都降低基础模型所承受的不同维度的负担。

检索可以替代参数化知识。如果要求模型仅凭自身权重回答特定领域的问题,则该模型必须依赖于预训练期间遇到的信息。而配备精心构建的检索层(例如 FTS5 索引记忆、按主题组织的 Wiki 条目、按角色划分的 SOUL.md 上下文)的同一模型,则可以根据检索的证据而非参数化回忆来回答问题。模型的认知需求从“知道”转变为“对所提供信息进行推理”;后者是一项更简单的任务,小型模型能够以更高的可靠性完成。

技能注入缩小模型的任务范围。一个通用模型如果被要求执行一项专门的任务,则必须仅根据任务描述来自我校准其行为。而一个将相关技能注入到上下文中的模型——即按需加载特定领域的指令集、示例模式和相关约束——则被要求执行一项约束性更强的推理。框架已经预先配置认知上下文;模型在其中执行,而不是对上下文进行推理。这就是渐进式技能加载的实际价值:它与其说是扩展模型的功能,不如说是将模型的能力集中在一个更窄、定义更明确的任务上,而小型模型已经能够胜任这项任务。

任务分解分散推理负载。DAG 团队方法将一个复杂的多步骤任务分解成一组更简单的子任务,每个子任务分配给一个单独的智体。这样,任何单个模型调用都不需要同时掌握目标上下文的全部复杂性并进行推理。对于分解后的任务,如果其中最难的子任务仅需中等推理深度,则整个任务都可以使用轻量级模型来完成;而等效的单体任务则可能需要一个涵盖所有上下文的前沿模型。该框架会分配推理预算;模型始终只能处理其中易于处理的部分。

执行模式路由完全消除确定性工作的模型参与。四模式调度任务系统代表这一原则的极限情况:纯脚本模式和纯通知模式消耗的token数为零。对于大部分确定性调度工作(例如数据收集、文件处理、状态检查和周期性提醒),该驾驭(harness)会完全绕过模型来路由任务。token消耗与推理工作量成正比,而非与系统总活动量成正比。

仍在研究的启示

如果上述观察结果始终成立,那么它们所蕴含的意义将超越 SemaClaw 的具体设计。

重新构建模型选择决策。前沿模型最适合需要真正新颖合成、开放式创造性推理或深度多跳推理且无需检索支持的任务。对于更广泛的结构化、上下文支持或可分解任务,在精心构建的驾驭内运行的中层模型,可以以低一个数量级的成本实现类似的结果。这并非意味着前沿模型不必要,而是意味着智能任务路由——根据任务复杂度分配模型层级,而不是统一应用性能最佳的模型——是一项具有重大经济影响的设计决策。这论证的是,驾驭管理异构模型池的必要性,而非任何单一模型的必要性。

模型能力边界可能发生重大转变。如果工具能够常规地提供知识(通过检索)、结构(通过分解)和领域上下文(通过技能),那么模型剩余的需求主要在于指令执行的可靠性和短期推理的连贯性,而非广泛的通用知识或长远规划。这意味着,对于工具应用而言,提升模型在指令执行和结构化输出可靠性方面的性能,可能比提升原始基准性能带来更大的实际收益。模型开发者是否会响应这一信号——将优化目标转向与工具协同工作的特性——仍是一个悬而未决的问题,它将对模型开发生态系统的演进产生重大影响。

边界并非固定不变。存在一类任务,工具替代会达到一个硬性限制:这类任务需要对无法检索、分解或预先指定的信息进行真正的创新推理。创造性综合、跨领域推理和开放式问题构建无法完全被工具替代。辅助工具能够替代和不能替代的界限并非一成不变——它会随着辅助工具技术的进步以及用户向智体系统提出的任务的演变而不断变化。与其从基本原理出发进行假设,不如通过实证研究来追踪这一界限,这才是富有成效的研究方向。

SemaClaw 的当前假设

SemaClaw 的设计假设,对于大多数个人生产力应用场景——结构化研究、重复性工作流程、领域特定辅助、知识积累——一个精心构建的辅助工具可以使一个功能强大的中层模型达到与没有辅助工具支持的前沿模型相同的水平。尚未在自身的部署环境中对这一假设进行严格的实证验证;上文提到的 LangChain 数据是目前所知的最接近的外部证据。其将此视为一个值得系统性检验的工作假设,并邀请社区贡献基准测试结果、失败案例和反例,以帮助我们找到该假设的缺陷所在。


3 记忆作为个人资本——隐私、所有权与知识经济

矛盾

记忆系统越复杂,它对所服务对象的了解就越深入。这并非副作用,而是关键所在。一个能够保留对话历史、提炼重复出现的偏好、追踪决策及其结果,并在数月互动中构建主题式知识库的记忆架构,其设计初衷就是构建一个详细且日益精确的用户模型:包括用户的工作方式、领域专长、价值观、人际关系和目标。正是这种用户画像的精确性,使得智体真正有用。也正因如此,用户画像的存储位置以及控制权问题才显得尤为重要,不容忽视。

这种矛盾是根本性的:更丰富的记忆意味着更强大的智体,同时也意味着更大的风险。一个足够了解你、能够发挥作用的系统,一旦落入不法之徒之手,也可能变得危险。这两种特性在技术层面无法割裂,必须在架构和策略层面加以解决。

本地部署作为隐私保护机制

SemaClaw 的部署模型在制定任何策略之前就对隐私问题采取了结构性立场。记忆文件(MEMORY.md、每日对话日志、Wiki 条目、灵魂目录)存储在用户控制的本地基础设施上。没有强制性的云同步,没有提取对话内容的遥测管道,也没有模型提供商接收累积的用户画像作为训练信号。了解用户的智体运行在您的基础设施上,它积累的知识也保留在本地。

这并非隐私问题的完整解决方案——本地存储并不等同于安全存储,本地环境遭到入侵会暴露与云服务遭到入侵相同的数据。但这却是一个意义重大的架构选择:它将用户积累的知识画像置于集中式服务攻击面之外,消除了平台运营商将用户数据货币化的动机,并明确规定数据归用户所有,而非生成数据的系统所有。

与本地部署软件的类比颇具启发性:从SaaS转向本地部署并不会使数据本质上安全,但它改变了谁承担保护数据的责任以及谁拥有访问数据的权限。对于积累敏感、高保真用户画像的个人AI智体而言,这并非无关紧要的区别。

记忆作为知识产权

成熟的记忆系统包含的不仅仅是行为历史。维基条目代表着综合知识——经过研究、推理决策、以及通过长期刻意努力构建的领域框架。对话日志记录了提出问题和评估解决方案的智力活动。智体积累的上下文总体上记录了用户的认知劳动:他们在智体的帮助下积累的经验、专业知识和洞察力。

这就引出一个当前关于人工智能和隐私的讨论往往忽视的问题:不仅要保护这些积累的知识,还要从有意义的所有权意义上讲,这些知识究竟属于谁。用户记忆系统中的知识是通过用户意图和判断与智体语言能力的交互而产生的。用户引导查询、评估输出、纠正错误,并将维基条目塑造成有用的形式。智能体生成文本。由此产生的知识库——以及其中隐含的用户画像——更像是用户知识产权,而非模型推理的副产品。然而,目前尚无任何既定的法律或技术框架将其视为知识产权,用户对其与人工智能系统共同创造的知识拥有何种权利这一问题也尚未得到充分解决。

知识中心(knowledge Hub)展望

围绕 OpenClaw 构建的技能生态系统(以 ClawHub 作为分发层)提出了一种能力共享模型,该模型已被开源社区验证:用户构建技能,通过公共注册表共享技能,其他人安装并从中受益。知识的类比自然而然:如果技能编码了如何做事,那么知识则编码了所学到的内容。一位用户花费数月时间在 SemaClaw 的 Wiki 层构建了一个特定领域的知识库,其成果对同一领域的其他用户来说可能极具价值。

基于此理念的知识中心(knowledge hub)将允许用户根据自身选择的共享条款,选择性地发布其积累的知识库的部分内容——例如主题树、Wiki 条目和精心整理的记忆片段。可能性范围很广,从完全开放(知识作为公共产品,类似于开源代码)到选择性共享(知识在可信社区内交流),再到商业化(知识作为可货币化的资产,访问权限通过微支付或订阅来限制)。这种模式在相邻领域已有先例:技术文档、研究数据库、教育内容和专家咨询都涉及领域知识的销售或授权。不同之处在于,个人人工智能智体生成的知识库是持续更新的、高度个性化的,并且在结构上已准备好供机器使用。

其累积效应值得特别注意。与技能(一旦创建后往往相对静态)不同,一个鲜活的知识库会随着时间的推移而增值,因为新的交互会完善现有条目、填补空白并将先前孤立的概念连接起来。用户使用两年后的知识库比使用六个月后更有价值——不仅对用户而言如此,对其他希望从这些积累的专业知识中受益的人也可能如此。这为持续的知识整理创造了一种激励机制,而这种机制在当前的开源生态系统中尚无直接对应。

仍待解决的问题

知识中心愿景引发一些仅靠技术设计无法解决的问题。

来源和归属。当用户发布 Wiki 条目时,其内容有多少是用户的智力贡献,又有多少是模型生成的文本?对于生成原始素材的模型提供者,应给予怎样的归属?这些问题目前尚无定论,而知识市场的出现将迫使它们公开。

内容控制和泄露。选择性地发布部分知识库的用户必须相信,已发布的内容不会隐式地泄露他们原本打算保密的信息。即使内容经过清理,按主题组织的 Wiki 条目的结构也可能透露出一些信息:特定领域中详细的知识树的存在反映了用户的兴趣和活动。条目级别的细粒度访问控制可能不足以应对这些问题;哪些结构元数据可以安全地与已发布的内容一起公开,这是一个不容忽视的问题。

知识市场中的信任和质量。 ClawHub 中的技能是可执行的——用户可以在使用技能之前测试其是否有效。知识条目则无法以同样的方式直接测试;它们的价值取决于准确性、时效性和相关性,而这些在安装时更难验证。知识中心需要信誉机制、版本控制,以及可能存在的特定领域质量信号,而这些是当前技能生态系统所不需要的。

这些问题并非放弃知识中心方向的理由——它们是负责任地实现知识中心需要解决的设计难题。在此提出这些问题,是因为它们代表个人人工智能智体领域一些最有趣、最具影响力的开放性问题,而且朝着这个方向发展的社区需要一些目前尚不存在的答案。


4 下一代驾驭(Harness)插件

超越工具使用

四层插件分类法——MCP 工具、子智体、技能和钩子——旨在描述现有智体能力扩展的现状,并将每一层映射到其主要运行的工程阶段。MCP 工具在 ReAct 工具使用层扩展操作空间。子智体通过提示定义的接口委托推理。技能按需注入领域上下文。钩子在生命周期事件中插入控制逻辑。该分类法描述性强且实用,但它的组织方式是基于扩展的运行位置,而不是它们产生的结果。

随着驾驭工程的成熟,一个新的设计问题逐渐凸显:当插件的设计目的不仅在于扩展智体在单个会话中可以执行的操作,还在于随着时间的推移改变智体的本质时,会发生什么?现有的分类法没有明确的类别来描述这种情况。能够修改智体记忆、演化其角色或生成未来智体会话所依赖的工件的插件,与获取数据的工具或加载提示模板的技能有着本质区别。它直接作用于驾驭基础设施(harness infra)本身——读取和写入驾驭管理的持久状态。

基于 Wiki 的个人知识基础设施是 SemaClaw 在这方面的首次尝试。值得明确说明的是,为什么这个知识层代表了一个新的类别,而不仅仅是另一个工具。

基于 Wiki 的个人知识基础设施作为设计原型

传统的 MCP 工具相对于智体的长期架构而言是无状态的:它接受输入、生成输出,并将智体的记忆、角色和上下文基础设施保持原样。当前知识层的实现方式并非如此——其输出并非简单地返回给用户,而是写入持久化语料库,供后续的智体会话从中检索。其作用并非简单的响应,而是对智体自身长期知识基础设施的一次改造。

这使得当前的实现成为一个有状态的驾驭插件:其影响会持续到调用它的会话之外,并随着时间的推移不断累积,从而塑造智体未来的能力。这其中的设计意义重大。无状态工具可以随意调用,无需担心对智体架构的副作用;最坏的情况是用户忽略一个错误的输出。而有状态的驾驭插件会改变持久化状态,设计不佳的驾驭插件可能会在后续会话将要操作的知识层中引入噪声、矛盾或结构性偏差。这就要求采用不同的设计标准:不仅要考虑“是否产生有用的输出”,还要考虑“是否使智体的持久化架构比初始状态更好”。

尚未构建的表单

在已识别的有状态驾驭插件表单中,知识层是该概念最基本的实例。一些更复杂的表单也随之出现,每一种都带来了不同的设计挑战。
角色演化插件。SOUL.md 文档在智体创建时生成,并随着时间的推移由操作员进行塑造——但这种塑造是手动的。角色演化插件允许智体根据其在交互中观察到的模式(例如,它处理过的重复任务类型、它深入研究的领域以及已被证明有效的工作方式)来提出对其自身 SOUL.md 的修订建议。智体不仅仅是在使用其角色——它还在参与自身身份的构建。设计挑战在于控制:具有 SOUL.md 写入权限的插件可能会破坏编排器路由决策所依赖的身份锚点。通过人工审批步骤来控制提出的修订建议显然是一种安全措施,但该审批流程的交互设计并非易事。

跨智体知识插件。在多智体团队中,每个智体的记忆都隔离在各自的文件夹中。跨智体知识插件允许智体将提炼出的发现写入共享的团队知识空间,供其他智体从中检索。这是一种结构化的智体间通信方式,超越 dispatch_task 目前支持的任务级消息传递:智体不再是将结果从一个任务传递到下一个任务,而是为整个团队持续读取的共享上下文做出贡献。目前围绕各个智体命名空间组织的记忆架构需要一个共享命名空间层来支持这种通信方式,以及相应的写入访问、冲突解决和命名空间维护策略。

评估和自纠错插件。一个插件,在任务完成后,将智体的输出与预先存储的质量标准进行比较,并将结果(以及任何故障模式)写入结构化的评估日志,即可实现对系统性能随时间推移的跟踪。这在机器学习领域并非新概念,但将其实现为驾驭插件而非外部评估管道,改变了其可用性:它运行在智体自身的执行上下文中,可以访问完整的推理过程,并且其输出与正在评估的工作一起存储在智体的记忆中。挑战在于避免评估漂移——如果质量标准没有与外部标准挂钩,那么自行编写评估结果的系统可能会逐渐将平庸的性能标准化。

这些示例只是草图,并非路线图。有状态驾驭插件领域本身就是开放式的,其最终形态将由社区的构建决定,而非在此的预期。

设计原则的关键

这些插件的共同之处在于它们具有一个共同的特性:它们是运行在驾驭(harness)之上的插件,而不是驾驭仅仅执行的插件。这种区别至关重要,因为它需要不同的安全模型。拥有持久状态(基于、角色、共享知识)写入权限的插件可以控制所有依赖于该状态的未来智体行为。这比仅获取网页或运行计算的插件需要更高的信任级别。

实际意义在于,插件权限层级不仅需要区分安全操作和高风险操作(当前的 PermissionBridge 模型),还需要区分在会话范围内运行的插件和在持久基础设施上运行的插件。SemaClaw 尚未在其权限架构中构建这种区分。当前的实现隐含地假设用户信任它能够写入其知识库——对于第一方功能而言,这是一个合理的假设,但随着社区插件生态系统的发展以及第三方插件获得对同一基础设施的写入权限,这种假设会变得脆弱。

知识层开启而非封闭的边界就在于此:它不仅关注“智体应该能够做什么”,更关注“插件应该能够对智体本身做什么”。


5 超越个体智体——Harness 时代的社区形式

分析单元的转变

前面的问题都以个体智体(或由单个操作员控制的智体团队)作为分析单元。系统提示、记忆、角色、技能集:所有这些都由单个用户配置并服务于单个用户。这是个人 AI 智体设计的自然起点,也是当前大部分工程工作的集中方向。

但开源智体生态系统已经产生不符合这种模式的社区形式。ClawHub 就是一个最明显的例子:一个注册库,用户可以在其中发布自己编写的技能,其他用户可以安装并在此基础上进行扩展。这里的分析单元不是个体智体,而是智体社区,其能力由共享的、不断发展的技能库塑造。由一个用户的智体工作流程创建的技能可以转化为可供成千上万其他用户使用的能力。个人和群体通过共享的基础设施层连接起来。
这种模式已经在技能维度上确立,它引出一个更大的问题:随着智体系统的成熟和普及,还会出现哪些其他社区形式?它们又需要什么样的工程基础设施?

智体间交互

最直接的技术扩展是跨运营商边界的智体间 (A2A) 通信。SemaClaw 的 DAG 团队模型允许一个智体在单个部署中将任务委托给另一个智体。下一步——智体委托、查询或与由不同用户操作的智体协作——需要解决系统内部编排不会遇到的问题。

身份和认证。在单个部署中,智体身份是通过与本地注册表进行字符串匹配来实现的。跨部署,声称自己是“由用户 X 操作的研究助理”的智体需要接收系统可以验证的凭证。此处的模型更接近分布式系统中的服务间认证,而非当前的本地名册查找机制。

跨运营商边界的信任传播。在团队内部,编排器的权限会被其调度到的工作节点继承——SemaClaw 当前的模型隐式地信任编排器的任务分配。但当编排器是其他用户的远程智体时,这种隐式信任便不再有效。接收系统必须决定在何种条件下授予外部智体多大的指令权限,以及当指令被证明有害时应采取何种补救措施。当协调者与工作者之间的关系跨越不同的运营商,甚至可能跨越不同的安全边界时,信任传播的攻击面会显著复杂化。

能力发现。一个智体要有效地将任务委托给另一个智体,就需要了解对方的能力。这是一个能力通告问题,当前的技能注册表在人机交互层面上部分解决这个问题——用户可以浏览 ClawHub 来查找扩展其智体能力的技能——但在智体层面上却没有解决。一个能够自主发现、评估和调用其他智体能力的智体,需要结构化的能力描述格式和发现协议,而这些在开源生态系统中尚不存在。

人机社区的形成

更微妙的变化在于人们围绕智体进行组织的方式。ClawHub 建立技能共享社区;像 Moltbook 这样的平台(Moltbook Team,2026)正在探索一种完全不同的形式:一个以智体为主要参与者的社交网络——智体可以发布内容、评论、点赞并构建社区——而人类则作为所有者参与其中,通过配套的控制面板认领、观察和管理他们的智能体。这里的社区单元不是共享的配置,而是共享的社交空间:智体跨越运营商边界进行互动,而人类则关注他们信任或感兴趣的智体的活动。

随着这一方向的发展,以下几种社区形式似乎可行:

共享智体模板。一位用户如果配置一个高效的研究型智体(例如 SOUL.md、记忆组织、技能加载、计划任务模式等),就可以将该配置发布为模板,供其他人实例化和个性化。其价值不在于智体积累的记忆(这些记忆仍然是私有的,并且特定于用户),而在于如何针对特定用例设置高效智体的结构化知识。这是关于智体设计的知识,而不是智体产生的知识。

域专业化的智体社区。在同一领域(例如法律研究、软件架构、科学文献综述)工作的用户面临着类似的智体配置挑战,并积累着类似的知识。围绕共享领域背景组织的社群可以开发用于智体角色设计的共享词汇表、针对特定领域工具和资源调整的共享技能生态系统,以及用于评估该领域智体“优秀”表现的共享标准。ClawHub 的技能分类体系已经开始朝着这个方向发展;更精心设计的社群可以加速这一进程。

协作知识共享。知识中心,作为一种机制,供个人用户共享或将积累的知识货币化。更进一步的是集体知识生产:由选择加入共享知识库的智体组成的社群,其中每个智体贡献研究成果,供整个社群受益。该模型更接近于合作研究网络而非市场——贡献和收益是互惠的,而非交易性的。此类共享资源的治理挑战——例如,如何界定有效贡献、如何解决贡献条目之间的冲突、如何长期维护质量——十分重大,且很大程度上仍是未知领域。

基础设施差距

这些社区形式都无法完全得到当前开源智体基础设施的支持。ClawHub 提供技能分发,但它不提供智体间的身份验证、能力发现、跨运营商信任管理,也不提供知识共享所需的共享知识基础设施。Moltbook 和类似平台是 A2A 社交基础设施的早期实验,而非成熟平台。那些看起来最有价值的社区形式,恰恰是目前最难以构建的。

这是个人人工智能智体领域最具深远意义的长期工程问题:不是如何提升单个智体的能力,而是如何构建基础设施,使智体社区——以及围绕智体组织的人类社区——能够产生单个智体无法独立产生的集体智慧。本文所述的驾驭(harness)工程工作是该基础设施的前提条件,而非基础设施本身。就本节的五个问题而言,SemaClaw 的贡献在于展示了个体智体层面的可能性;而在此基础上形成的社群形式,则是整个生态系统需要共同解决的问题。


SemaClaw的七项架构贡献并非彼此独立,而是构成一个堆栈,其中每一层都依赖于其下层完整性。如图 6 展示了最终的结构。

请添加图片描述

在基础层面,sema-code-core 与 semaclaw 的分离建立一个清晰的运行时边界:执行循环、工具编排和多租户隔离被封装在一个可重用的库中,而应用层则在其上添加了通道集成、消息路由和角色管理。这一边界使得每一层都能独立演进,并且运行时可以在任何单一应用上下文之外重用。

在运行时之上,三层上下文架构——包括具有压缩功能的工作记忆、具有混合检索功能的外部记忆以及跨越 soul、workspace 和 rules 的结构化上下文注入——为每个智体赋予稳定的身份、跨会话的调用能力以及作为独立管理层的特定任务上下文。PermissionBridge 作为贯穿所有智体执行的水平门:一种人机交互机制,在工具边界应用最小权限原则,同时又不中断会话的连续性。插件生态系统——包括 MCP 工具、子智体、技能和钩子——定义了扩展界面,通过该界面,无需修改运行时本身即可增强或组合上述任何功能。智体团队在单个智体之上添加了一个协调层,从而实现了基于持久-角色而非临时角色分配的声明式 DAG 驱动的多智体执行。计划任务扩展系统的时间范围,根据每个任务的复杂度将其路由到相应的执行原语。基于 wiki 的个人知识基础设施实现任务执行和持久知识之间的闭环:通过交互产生的智能被捕获为用户拥有的 Markdown 语料库,用户可以浏览、编辑和重新组织该语料库,未来的智体会话可以从中检索精选的知识层。

这些层共同构成通用个人 AI 助手领域的驾驭(harness)工程模型。最终得到的系统默认具有结构安全性——智体权限受到限制,人为监督是执行路径的固有组成部分,并且每个扩展点都受到控制——同时在每个层面上都保持开放性和可组合性。该架构可适应多种部署场景,从单个用户运行用于日常知识工作的个人助理,到小型团队运营一支常驻的专业智体队伍参与共享项目。在这两种情况下,相同的分层驾驭控制执行,并且相同的机制会随着时间的推移积累价值。

上述架构也解决了第二个发展方向:人机交互从消息级交换向持久协作关系的演进。这种演进对系统提出两个纯粹以能力为中心的框架无法满足的要求。第一个要求是可信赖的授权:随着交互单元从消息传递转向目标设定,用户需要将真正的权限授予代表其操作文件、API 和外部服务的智体。PermissionBridge 正是 SemaClaw 针对这一要求的解决方案——它并非安​​全插件,而是一个原生运行-时原语,能够从结构上确保目标级授权的安全性,使用户能够逐步扩展智体的可信操作空间,而不是一次性全部扩展。第二点是关系连续性:持久的协作关系需要一个能够记忆、积累和组织信息的主体——其效用会随着时间的推移而不断累积,而不是在每次会话结束时重置。三层上下文架构为这种连续性提供了记忆基础;基于维基的个人知识基础设施则是其积极的体现,它将每一次完成的交互都转化为对不断增长的共享知识库的贡献。正是这两种机制,将一个能力出众的任务执行者与一个真正的长期合作者区分开来。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐