26年4月来自上海交大、中山大学、上海创新研究院、CMU和OPPO公司的论文“Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering”。

大型语言模型(LLM)智体的构建方式越来越倾向于重构运行时环境,而非简单地改变模型权重。以往系统期望模型内部恢复的功能,如今被外化(externalization)到记忆存储、可重用技能、交互协议以及确保这些模块在实践中可靠的外部框架中。本文从外化的角度回顾了这一转变。借鉴认知人工品(artifacts)的概念,智体基础设施的重要性不仅在于它添加了辅助组件,更在于它将复杂的认知负担转化为模型能够更可靠地解决的形式。在这种观点下,记忆将状态跨时间外化,技能将程序性专业知识外化,协议将交互结构外化,而外部框架工程(harness engineering)则作为统一层,协调它们以可控的方式执行。

本文追溯从权重到上下文再到外部框架的历史演变,将记忆、技能和协议分析为三种既独立又相互关联的外化形式,并探讨它们如何在大型智体系统中相互作用。进一步探讨参数化能力和外化能力之间的权衡,指出诸如自演化框架和共享智体基础设施等新兴方向,并讨论评估、治理以及模型与外部基础设施长期协同演化方面存在的挑战。最终,构建一个系统级框架,用以解释为什么实际智体的进步越来越依赖于更强大的模型以及更完善的外部认知基础设施。
请添加图片描述

。。。。。。继续。。。。。。


协议将交互主体的负担外化。一个裸模型可能推断出应该调用某个工具、应该将任务委托给某个子智体,或者应该向用户显示响应,但如果没有明确的契约,它还必须自行处理消息格式、论证结构、生命周期语义、权限和恢复行为。这种负担使得每一个外部操作都变成了脆弱的提示跟随练习。

在系统框架内,正是这个协议层使得交互变得可控。它协调着工具的发现方式、子智体的联系方式、面向用户的状态的暴露方式、会话进度的表示方式以及权限和故障的强制执行方式。因此,协议既不是记忆存储,也不是技能描述:它规定了状态、请求和操作跨越系统边界的契约。

如图6所示:协议作为外化的交互
请添加图片描述

如果说记忆将时间状态外化,技能将程序性专业知识外化,那么协议则将控制智体如何与外部实体交换信息和行动的契约外化。这种表征方式的转变是从自由形式的通信推理转向结构化交换。协议不再要求模型在运行时自行构建交互的语法和语义,而是提供类型化的接口、状态转换和机器可读的约束,供模型填充和遵循。从这个意义上讲,协议不仅仅是加速通信;它们还将任务从协商临时接口转变为在明确的契约下运行。

更具体地说,协议外化的内容可以沿着四个维度进行组织:

调用语法。每个工具调用、API 请求或委托消息都需要一个格式:参数名称、类型、顺序和返回结构。如果没有协议,模型每次调用都必须推断或重新定义语法。协议将其外部化为模式和类型化接口,因此模型只需填充字段,而无需猜测语法。
生命周期语义。多步骤交互需要协调:谁是下一个执行者,允许哪些状态转换,任务何时完成或失败。协议将这些顺序规则外部化为显式状态机或事件流,从而减轻模型的推断负担。
权限和信任边界。现实世界中,智体的行为受到授权对象、数据流向以及必须提供的证据的限制。协议将这些约束外化为运行时可以强制执行的可检查规则,而不是依赖模型进行自我监管。
发现元数据。在智体与工具或其他智体交互之前,它必须知道有哪些功能可用以及如何访问这些功能。协议将此发现问题外部化为注册表、功能卡和模式端点,用可查询的元数据取代隐式的提示嵌入知识。

这四个维度并非彼此独立——一个协议可能同时处理多个维度——但它们明确外化内容的范围。工具公开操作;技能编码如何使用这些操作执行各类任务;协议则规定交互语法、生命周期、权限和发现机制,通过这些机制,操作和技能才能跨越系统边界执行。

协议的重要性

智体协议的重要性直接源于它们所外化的负担:如果没有协议,每一次交互都部分地变成了关于格式、合法性和协调性的推理问题。协议的优势最容易从三个维度体现出来。

统一的交互标准。协议为工具、智体和前端提供了一个共享的语法,用于发现、调用、交接和状态交换。如果没有这一层,生态系统就会分裂成本地提示加解析器的集成,这些集成无法很好地跨运行时环境运行 [Yang et al., 2025a]。标准化的交互使互操作性成为一种设计属性,而非偶然的幸运[Ehtesham et al., 2025a]。它也是稳定多智体协作的前提条件,因为委托和上下文转移需要通用表示才能实现自动化。
提升安全性、治理能力和可审计性。一旦智体在真实环境中运行,问题不仅在于它们能否行动,还在于这些行动是否保持界限清晰、可检查且可恢复 [Phiri, 2025]。协议通过明确权限、身份、执行轨迹、故障状态和责任边界来发挥作用。这使得先前隐式的粘合逻辑成为运行时可验证、运维人员可审计的内容。

降低对供应商的依赖。开放的交互契约也保持架构的灵活性。如果系统在协议层而非特定于提供商的接口中积累功能,则可以以更少的重新配置来更换模型、供应商和运行时组件。因此,协议不仅仅是工程上的便利;它们也是智体生态系统保持可移植性和可演进性的机制的一部分 [Yang et al., 2025a]。

智体协议

流行的智体协议根据其交互对象(智体-工具、智体-智体、智体-用户和其他协议族)进行分类,并简要介绍每个类别中几个具有代表性的常用协议。这里展示当代协议如何将交互负担的不同部分外包出去:有些协议用于稳定工具调用,有些协议用于稳定智体之间的委托,有些协议用于稳定智体-用户边界,还有一些协议用于管理高风险的垂直工作流程。

框架工程中的智体协议

框架工程(Harness Engineering)展示这些协议接口如何成为运行中智体的一部分。问题不再仅仅是智体应该如何与其他实体通信,而是智体嵌入运行时环境后,这些通信契约如何管理执行、持久化、委托和恢复。

传统的LLM流水线依赖模型来推断格式、记住最近的交互状态,并猜测外部操作应该如何形成。这对于简短、松耦合的请求来说可能足够,但当工作跨越多个步骤、工具、智体或审批边界时,这种方法就失效了。框架工程将这些负担外部化到协议接口中。模型输出被捕获为结构化意图,根据权限和生命周期状态进行验证,通过类型化接口进行路由,并作为受控事件而非自由猜测反映回运行时环境。

协议作为认知人工品

用诺曼的话来说,认知人工品通过改变任务的表征结构来转换任务[Norman, 1993]。协议对交互过程起到了这样的作用。如果没有协议,每个外部动作在某种程度上都是一个自然语言推理问题:模型必须推断预期操作,猜测正确的格式,重构可接受的约束,并寄希望于接收系统能够正确解释结果。协议用一个有界、结构化的任务取代了这种开放式的推理:填写类型字段,遵循已声明的状态转换,并接收结构化的反馈。模型仍然需要判断是否以及何时采取行动,但它不再需要在每一步都重新发明交互的语法和语义。

这是智体系统中外化最强的形式之一,因为它将整类推理从关键路径中移除。这种转变类似于记忆对时间状态的改变以及技能对程序性专业知识的改变,但它作用于不同的维度:不是记住什么或如何进行,而是如何沟通和协调。标准化协议减少模型内部必须做出的决策数量。它们使正确的交互更容易,错误的交互更难——这正是诺曼框架在外部表征与任务匹配良好时所预测的。

基尔什对互补策略的阐述进一步阐明这一点[Kirsh, 1995]。LLM擅长解释意图、在选项中进行选择以及适应上下文,但在不同的界面要求下,它们无法始终如一地生成结构良好的输出。协议实现互补的分工:模型提供判断和意图,而协议界面提供格式、验证和生命周期控制。任何一方单独都不足以实现交互;二者结合才能产生既灵活又规范的交互。

这种解释也说明为什么协议扮演着独特的角色,而这种角色不能简单地归结为记忆或技能。记忆将随着时间推移而习得的知识外化;技能将任务的执行方式外化;协议则外化记忆和技能作为受控行为进入世界的规范。记忆需要受控的读写路径;技能需要可绑定的接口;两者都依赖于协议以可检查、可审计和可恢复的形式跨越系统边界。因此,协议并非围绕“真正”智能核心的次要管道。它们是用于交互的认知人工品——是使其他形式的外化智能得以运作的表征基础设施。


如图 7 提供了一个概览:基础模型位于中心,周围环绕着六个框架维度,这些维度将外化的认知协调为连贯的行动主体。其中三个维度——记忆、技能和协议——是前面分析的外化模块。其余三个维度——权限、控制和可观察性——是操作界面,用于控制这些模块在运行时如何被访问、约束和监控。这三个界面可细化为六个更精细的分析维度,共同表征框架设计。
请添加图片描述

本文的核心论点是,一个框架并非仅仅是构建在功能完善的模型之上的便捷实现手段,而是一个精心设计的认知环境,外部模块正是在这个环境中协同发挥作用。

什么是框架(Harness)?

逐模块地进行外化可以提升局部能力,但智体需要全局协调。记忆积累经验,却没有明确指出哪些痕迹与当前任务相关。技能封装了有效的例程,却没有自动吸收过往交互的经验教训。协议规范了调用格式,却没有确定何时或在何种策略下调用工具。模块已经存在,但使它们协同发挥作用的认知循环仍然不够完善。缺失的是一种原则性的结构,能够协调它们随时间推移的交互——将感知、记忆访问、动作选择、执行、监控和修正整合到一个统一的操作框架内。

“框架(harness)”一词正是指代这种结构。它最近被广泛用于描述将原始模型能力转化为可靠智体行为的脚手架(scaffolding)。例如,OpenAI 在围绕 Codex 的工程讨论中就明确使用了这个术语来描述智体循环、执行逻辑、反馈路径以及使系统可用的相关操作机制 [OpenAI, 2025a]。由于这一概念仍在不断完善,在此提供的描述最好理解为对当前系统中反复出现的模式的综合,而非一个封闭的定义。

因此,一个实用的智体最好被理解为在框架内运行的模型,而不是附加外围功能的模型。基础模型本身保留了通用推理能力,但缺乏决定其可访问资源、行动方式、行动约束方式以及如何随时间观察和修正其行为的运行结构。框架(harness)提供了这种结构。它控制着模型与上下文交互、调用工具、保存状态以及响应反馈的路径。因此,智体并非仅仅存在于模型之中;它源于模型与环境的耦合,而环境将模型的认知转化为行动。

从功能上看,框架包含使这种耦合成为可能的外部系统:持久记忆和项目级上下文、可重用的技能和可执行例程、用于与工具和服务进行确定性交互的协议化接口,以及这些元素得以运行的更广泛的运行时基础设施。关键不在于组件的具体构成(这会因实现方式而异,并且会不断演变),而在于它们的集体作用:它们创造了模型推理能够稳定运行的条件,从而支持持续工作。这使得分析的重点从模型本身的能力转移到模型感知、决策和行动的表征、程序和操作条件。因此,能力的提升不仅可能来自更好的基础模型,还可能来自更完善的内存组织、更清晰的约束机制、更易读的反馈渠道以及更精心设计的执行环境。

框架设计的分析维度

这些模块——内存存储、技能工件和协议接口——提供了外化认知所需的原材料,但它们本身并不能决定运行时如何协调感知、行动、约束和反馈随时间的变化。这种协调是框架的职责所在。上图 7 中突出显示的三个操作界面——权限、控制和可观察性——可以分解为六个反复出现的设计变化维度。每个维度都针对外部模块如何组成一个功能智体的不同方面;它们共同提供了一个分析框架(framework),用于比较框架(harness)架构,而不是一个实现清单。

智体循环和控制流。智体循环是该框架的时间骨架。最简单的状态循环实现了一个感知-检索-规划-执行-观察的循环:模型接收当前状态的结构化视图,决定执行哪个动作,通过工具或协议接口执行该动作,观察结果,并相应地更新其内部计划[Yao et al., 2023a, Shinn et al., 2023]。实际系统中的循环结构差异很大。单循环设计将推理和执行交错在一个生成过程中;分层设计将分解目标的规划智体与执行各个步骤的执行智体分开;多智体设计则将子任务路由到具有不同工具集和权限范围的专用智体[Wu et al., 2023, Hong et al., 2023, LangChain, 2024]。

人工监督与审批。对于已部署的智体而言,完全自主很少是合适的。因此,大多数生产系统会在智体循环中插入干预点,以便人工操作员检查拟执行的操作、批准或拒绝、提供更正或重新定向执行。设计的关键问题在于这些干预点应该设置在哪里,以及应该赋予智体多大的自主权。

可观测性和结构化反馈。如果一个智体在行动时不留下可检查的痕迹,那么它就无法被调试、审计或改进。可观测性是使智体的内部轨迹对开发者、运维人员以及智体自身可见的框架(harness)表面(Zhu & Lu [2026],Zheng [2025b])。

配置、权限和策略编码。安全框架不仅需要编码智体可以执行的操作,还需要编码智体在哪些条件下可以执行哪些操作。这就需要一个配置层,将策略与执行逻辑分离,并使治理规则明确、可版本化和可审计。

上下文预算管理。在任何智体系统中,上下文窗口始终是最稀缺的共享资源。记忆检索、技能加载、协议模式、工具描述以及模型自身的推理轨迹都会争夺有限的资源。如何分配这些资源是一个系统层面的协调问题,任何单个模块都无法独立解决。

实践中的框架:当代智体系统

上述分析维度并非抽象的理想状态;它们对应于已部署智能体系统中可观察到的具体设计选择。当代生产级智体——例如 OpenAI Codex [OpenAI, 2025a] 和 Anthropic Claude Code [Anthropic, 2026]——在产品界面、实现谱系和目标工作流程方面存在显著差异,但它们在框架结构上却惊人地相似。这种相似性具有重要的分析意义:它表明这六个维度并非偶然的实现选择,而是外化智体的结构性要求。

循环和控制流。成熟的智体系统统一围绕一个显式循环组织执行,该循环将模型推理与工具调用和环境观察交织在一起。框架与底层模型有所区别,其特点是提供核心智体循环、执行逻辑和反馈路径。至关重要的是,该循环包含显式的终止控制——步骤限制、递归深度界限和资源上限——这些控制定义了模型推理展开的操作范围。

沙箱。当前系统以不同的粒度实现执行隔离。一些系统在专用的云沙箱中运行每个任务,每个任务都有自己的文件系统快照、网络限制和资源配额;另一些系统则提供分级权限模式,以便同一智体可以根据上下文在不同的信任级别下运行。这些设计在隔离设计空间中占据不同的位置,但它们遵循一个共同的原则:沙箱的作用不仅仅是安全边界,它还起到认知边界的作用,通过移除无关状态和限制危险操作来简化智体的运行环境。

人工监督。部署的框架并非将自主性视为二元属性,而是实现可配置的审批门——即钩子系统,它将验证逻辑附加到特定的生命周期事件(例如工具调用、文件写入或子智体生成)以及应用层,从而将高风险操作路由到审批工作流中 [Lazaros et al., 2026, Fernandez, 2026]。自主性级别成为框架的一个参数,可以根据任务、工具和组织策略进行调整。

可观测性。生产系统会生成结构化的执行跟踪——记录每次模型调用、工具调用、记忆读/写和决策分支的日志——这些跟踪支持调试、合规性审计和事后分析 [Phiri, 2025, Zhu and Lu, 2026]。这些跟踪还能闭合内部反馈回路:工具调用失败可以触发记忆写入,而重复失败的模式可以标记(flag)需要改进的技能。因此,可观测性是框架从自身运行中学习的机制。

配置和治理。已部署的框架通常会将配置分层到多个范围(用户、项目和组织),从而使同一个基础智体能够在不同的策略机制下运行,而无需更改模型或其技能工件。权限和策略发挥着外部治理的作用:原本必须嵌入提示中的约束被编码为在运行时强制执行的声明性规则 [Lee et al., 2026]。

上下文预算。上下文窗口仍然是任何智体系统中最稀缺的共享资源。当前的框架通过以下方式积极管理上下文:汇总历史信息、分阶段加载(将详细的技能指导延迟到检测到匹配的任务时才提供)以及基于优先级移除相关性已衰减的条目。框架会共同协调这些策略,因为最佳分配取决于当前的执行阶段。

独立开发的系统最终趋同于相同的框架维度,这一事实本身就具有启发意义。它表明,外部智体的主要设计挑战并非从模型中获取更好的补全结果,而是安排使补全结果成为有效干预的运行条件。因此,硬件工程既不是记忆系统的同义词,也不是工具调用的重新包装。它是一门更广泛的学科,关注于构建认知和运行环境,使外部模块能够组合成一个连贯的整体。

作为认知环境的框架

框架的意义远不止于普通软件工程意义上的基础设施。框架并非仅仅支撑已形成的智体;它通过决定推理展开的环境来塑造智体的有效认知。它规范着哪些信息进入智体的感知范围,哪些信息会在回合和会话之间保留,哪些操作可以调用,哪些动作需要批准,哪些中间状态可以公开以供修改,以及哪些故障形式可以被检测和恢复。因此,框架设定了智体的实际认知边界。智体能够知道什么、记住什么以及做什么,并非仅仅由模型权重决定,而是由周围系统提供的访问、持久性和行动条件决定。

这一论断可以置于诺曼对认知人工品的论述框架内[Norman, 1993]。诺曼将认知人工品定义为旨在以某种方式维护、展示或处理信息的装置,从而改变认知表现——这种改变并非仅仅通过加速内部计算,而是通过改变任务本身的结构。系统层面上,框架符合这一描述。它并非简单地为模型添加更多上下文或更多工具;而是重组模型所面临的表征问题。通过将记忆外化、程序形式化、引入显式控制点并限制执行,辅助装置将一个无界的任务转化为一个结构化的、有指导的行动环境。模型的表观智能因此发生改变,不仅是因为它拥有更多资源,还因为认知负荷已被重新分配到模型外部的人工品、表征和程序之间。“框架”是系统层面的产物,它将这些个体的转换组合成一个单一的认知环境。

Kirsh 对空间智能利用的论述使这种解释更加清晰[Kirsh, 1995]。他的核心观点是,认知受环境布局方式的影响:空间和表征的组织可以减轻搜索负担、简化选择并降低内部计算负担。“框架”对智体扮演着类似的角色。它是一个认知空间,信息、工具、权限和程序在其中进行安排,使得期望的行为更容易执行,而期望的行为更难产生。默认值、钩子、文件边界、技能调用模式和审查门禁都作为结构化的规则,缩小合理行动的空间。因此,智体的能力部分源于生态成就:它源于嵌入一个能够有效引导认知的环境。

分布式认知框架概括了这一点。哈钦斯(Hutchins)的理论否定了认知完全存在于个体思维中的观点,而是将认知过程置于人、人工品、表征和协调实践之中[Hutchins, 1995]。配备一个框架的智体系统正是基于这些概念而可理解的。运行智能分布在模型参数、外部记忆存储器、可执行技能、协议定义、工具界面、监控系统以及控制它们交互的运行时约束中。框架是协调这个分布式系统的媒介。因此,将框架描述为认知环境比将其描述为单纯的基础设施层更为准确。基础设施是其表现形式之一;环境结构——即认知展开的条件的设计——是其更深层次的功能。


模块置于框架内后产生的系统级耦合,这些耦合在模型边界处体现,并根据参数化能力和外部化能力之间的界限进行划分。

如图所示:记忆、技能和协议的耦合
请添加图片描述

模块交互图

记忆到技能:经验提炼。重复的轨迹可以提炼成可重用的程序,这成为积累经验转化为编码化专业知识的主要途径。TED 和 UMEM 等系统展示如何在不修改基础模型权重的情况下,将情景轨迹聚类、抽象化并提升为技能工件 [Yuan et al., 2026, Ye et al., 2026]。Voyager 将同样的逻辑具体化应用于终身学习:成功的行为被保留为可重用的代码级技能,以便日后重新组合 [Wang et al., 2023a, Zhang et al., 2025b]。
这种流程的跨领域意义在于,记忆不仅保存过去,它还提供证据,使系统能够据此判断哪些操作模式值得重用。因此,提炼步骤的质量——即系统如何判断哪些轨迹具有普遍性,哪些轨迹具有情境依赖性——决定了下游整个技能层的可靠性。如果提炼过于激进,噪声或上下文相关的行为就会被固化为技能;如果过于保守,系统则无法充分利用来之不易的经验。

技能到记忆:执行记录。该流程也反向运行。每次技能执行都会生成痕迹、中间故障和运行时改进,否则这些信息会随着活动上下文窗口的消失而消失。可观测性和日志记录基础设施会将这些轨迹捕获为持久证据,使系统能够验证哪些技能仍然可靠,哪些技能应该修改、拆分或约束[Chen et al., 2025, Wang et al., 2026f,d]。

这种流程使得技能层能够自我纠错,而不仅仅是自我扩展。成熟的技能系统离不开记忆管理:只有当可重用过程的真实执行历史持续写回外部状态时,它们才能保持可信度。如果没有这种记录,框架就没有技能维护的经验基础,从记忆到技能的提炼路径(之前的流程)将基于越来越过时的证据运行。

技能到协议:能力调用。技能只有跨越从抽象过程到受控操作的边界才能投入运行。这种转变是通过协议实现的,协议将高级意图转换为类型化的调用、生命周期事件和权限检查的交互界面[Takyar, 2025, JSON-RPC Working Group, 2010, Hou et al., 2025]。一个技能可以指定智体应该搜索代码、运行测试并汇总差异,但具体的操作是通过协议化的接口来执行的,这些接口指向搜索工具、shell 命令和测试运行器。
这种耦合对于安全性和功能都至关重要。 OpenClaw 对“致命三重奏(Lethal Trifacta)“,即敏感数据访问、不受约束的外部通信和未经验证的执行,的分析表明,即使程序指南本身是合理的,不受约束的执行仍然是一个安全问题 [McKerchar, 2026]。因此,协议级验证起到了一种边界检查的作用,它独立于技能自身的正确性:即使是编写良好的技能,如果试图调用禁止的操作或格式错误的调用,也可能被拦截。
从协议到技能:能力生成。一旦接口标准化,编写使用该接口的最佳实践就变得容易得多。OpenAPI 和 MCP 不仅仅是使工具可调用;它们还提供了足够的结构规范,使系统能够将特定于接口的知识打包成可重用的技能工件 [OpenAPI Initiative, 2021, Hou et al., 2025]。

HashiCorp Agent Skills 生态系统就是一个具体的例子:一旦通过协议契约使基础设施管理的底层接口清晰易懂且稳定,领域流程就可以作为可移植的技能文件外部化,而无需在每次运行时临时重新生成 [Baghel and Chandna, 2026]。

这种流程凸显了外化过程中的一个重要不对称性。协议标准化并非仅仅消耗技能;它积极地扩展了可以编写或引入新技能的范围。每个新的稳定接口都是一系列可重用流程的潜在种子。因此,技能工件的生态系统增长在一定程度上取决于协议标准化的速度和质量。

从记忆到协议:策略选择。存储的上下文也会影响框架接下来选择的协议路径。历史成功率、用户偏好和先前的失败可以决定请求应该保留在本地、调用外部工具还是委托给另一个智体 [Xu et al., 2026b, Zhou et al., 2025]。在具有多条可用交互路径的系统中,记忆将协议选择从静态配置转变为基于经验的路由决策。

这种耦合在多智体环境中尤为明显,此时系统框架必须在本地执行、通过 MCP 调用工具以及通过 A2A 委托给远程智体之间做出选择。如果过去与特定工具的交互在处理某一类任务时始终失败,路由逻辑可以学习优先选择替代路径。因此,记忆不仅决定了模型推理的内容,还决定了将推理结果付诸行动的交互通道。

协议到记忆:结果同化。最后,每次协议交互都会产生状态,这些状态必须被保存才能成为智体持续认知的一部分。工具输出、批准事件、错误负载和委托结果以结构化响应的形式到达,其格式通常比纯文本更丰富 [Qin et al., 2023]。系统框架必须将这些结果规范化到记忆中,以便后续推理可以依赖于经过验证的外部状态,而不是依赖于重构或臆想的假设。

此流程构成了一个闭环。协议层提供记忆存储的证据,这些证据随后会影响新技能的选择和新协议的路由。如果没有可靠的结果同化,智体的记忆就会与其实际交互历史脱节,下游流程(尤其是经验提炼和策略选择)将基于不可靠的前提运行。

系统级动态。上述六个流程是成对出现的,但一些重要的动态仅在系统层面才会显现。

首先,这是一个自我强化的循环:更好的记忆能够带来更好的技能提炼,更好的技能会产生更丰富的执行轨迹,更丰富的轨迹又会改进记忆,如此循环往复。这种正反馈可以加速能力增长,但也可能放大错误。一个被污染的记忆条目会导致一个有缺陷的技能,其执行轨迹会进一步污染记忆——这种级联效应,如果没有系统层面的干预,任何单个模块的质量控制都无法阻止。

其次,各个模块都在争夺同一稀缺资源:模型的上下文窗口。记忆检索、技能加载和协议模式都会占用token。扩展一个模块的上下文占用空间必然会压缩其他模块。因此,框架不仅要管理每个模块的内容,还要管理它们在执行的每个步骤中的相对预算分配,这是一个协调问题。

第三,流程的运行时间尺度不同。协议交互通常是同步且快速的;技能加载发生在任务或子任务的边界;记忆提炼和技能演进则在会话或更长时间内进行。如果框架只针对某一时间尺度(例如,快速工具执行)进行优化,则可能会忽略决定长期能力增长的较慢循环。有效的框架设计需要在快速循环的响应速度和慢速循环的连贯性之间取得平衡。

LLM 输入/输出视角

另一个有用的视角是探究每个模块如何在模型边界处呈现。从上下文窗口和输出表面的角度来看,该框架并非简单地添加更多组件;它将进出模型的信息重新组织成功能不同的层。

记忆作为上下文输入。记忆塑造了决策时可用的历史和情境输入。检索机制并非将完整的执行日志淹没模型,而是选择与当前步骤相关的少量状态、先前轨迹或实体关系 [Du, 2026b]。这使得长时域连续性问题转化为有针对性的上下文化问题,并减少了上下文浪费。这种选择的质量直接决定了模型是基于准确的过去图景还是基于扭曲的过去图景进行推理。

技能作为指导性输入。技能塑造了提供给模型的程序性指导。该框架并非将所有工作流程都编码到单一的系统提示中,而是仅在出现相关任务模式时才加载专门的指令、示例和约束[Jiang et al., 2026a]。这样,模型无需从头开始创建工作流程,而是更多地解读并遵循预先准备好的工作流程。风险在于过于详细或占用过多上下文信息的技能文件可能会挤占其他输入;其优势在于,在正确的时间加载正确的技能可以减少流程的差异。

协议作为动作模式。协议塑造输出边界。通过强制执行结构化契约(例如JSON模式、MCP消息或符合OpenAPI的调用),它们限制了模型的生成空间,并使下游执行具有足够的确定性以进行控制[Hasan et al., 2026]。输出不再仅仅是待解释的语言;它变成了一个位于显式接口内的机器可读动作提案。这种约束降低了工具调用格式错误和虚假论证的发生率,但也意味着动作表达能力受限于协议的模式。

这种输入/输出分解在分析上很有用,因为它既阐明了分工,也明确了故障分类。检索错误表现为输入选择错误:模型推理正确,但上下文错误。技能故障表现为程序指导错误:模型忠实地遵循指令,但指令本身存在缺陷或不匹配。协议故障表现为动作模式错误:模型的意图正确,但输出违反了接口契约。该框架使得这些故障类别足够独立,可以进行调试、属性分析和优化——对于多个模块参与决策的系统而言,这是一个重要的特性。

从更广义的角度来看,这种模型边界的三元组织——上下文输入、指令输入和动作模式——可以理解为一种结构化的上下文工程。该框架并非将提示信息视为一个无差别的文本缓冲区,而是将其分离成具有不同更新频率、治理要求和故障模式的层。每一层都可以单独修改,而不会影响其他层:无需重写技能即可改进内存检索,无需更改协议模式即可更新技能工件,无需更改内存策略即可扩展协议接口。这种模型边界处的模块化是外部化方法的主要实际优势之一。

参数化与外化:权衡取舍

相关的设计问题并非智能应该驻留在模型中还是基础设施中,而是考虑到更新频率、重用模式、治理要求和执行成本,特定负担应该驻留在何处。以下维度决定了这种划分决策:

更新频率和时间衰减。快速变化的知识和流程非常适合外化。API、组织结构和实时环境状态衰减速度过快,无法在模型权重中可靠地维护。通过持续微调来保持模型时效性的尝试存在灾难性遗忘的风险,并且通常难以达到所需的更新频率 [Cheng et al., 2024, Qiu et al., 2025, Zhang et al., 2025d, Chen et al., 2026a]。相比之下,外部存储无需重新训练即可立即更新,并且可以维护明确的来源和版本控制 [Oelen et al., 2025, Chinthareddy, 2026]。稳定的后台能力——例如语言理解、广泛的推理和常识推理——衰减速度要慢得多,并且仍然更自然地以参数化的方式承载,从而受益于快速检索和与模型表征结构的深度集成。

可重用性和多智体可移植性。如果某项功能需要在不同任务、用户或智体之间反复使用,外化可以提高可移植性和组合性 [Tagkopoulos et al., 2025, Xu and Yan, 2026a, Liu et al., 2025d]。显式技能、脚本和接口组件可以在异构运行时环境中共享、版本化和重用,而无需每个智体重新发现或重新训练相同的流程。在多智体环境中,只要满足技能对工具和协议的假设,为一个智体编写的技能就可以广播到整个智体群。一次性或高度特异的行为可能不足以抵消外部化、打包和维护的开销 [Zhao et al., 2026a]。

可审计性、治理和一致性。当检查、审批、回滚或策略执行至关重要时,外化人工件相比不透明的参数化行为具有明显的优势[Li et al., 2026b, Lazaros et al., 2026, Lee et al., 2026, Fernandez, 2026, Zhu & Lu, 2026]。符号接口支持熔断器、模式验证和可追溯的执行记录,而仅靠权重无法实现这些功能。对齐微调(例如 RLHF)提供概率性的行为塑造,而外化约束则在接口层面提供确定性的强制执行。因此,高风险部署会将架构边界向外扩展:智体的行为后果越严重,就越需要明确且可检查其控制逻辑。

延迟、简洁性和上下文负担。外化将计算和组织成本从模型的前向传递转移到周围系统。检索、路由、解析和工具调用都会引入延迟[Park et al., 2026, Xu et al., 2025a]。每个检索的数据都会争夺有限的上下文资源,而过多的上下文加载会导致信息过载或“中间迷失”现象,从而降低性能[Corallo and Papotti, 2026, Mishra et al., 2026, Esmi et al., 2025]。对于超快速、低方差或纯语义任务,允许模型依赖其内部参数知识仍然要简单得多,而且通常也更可靠。

这并非模型智能与基础设施智能之间的零和博弈,而是一个系统划分问题。强大的模型能够将受益于持久性、重用性和控制性的负担外化,同时将稳定、快速和通用的能力保留在模型内部。最优划分并非一成不变:随着模型能力的增强和外部基础设施的成熟,​​边界将继续变化。


几个未来方向:

• 参数化能力和外化能力之间的界限在哪里?多模态感知如何拓宽这一界限?
• 同样的逻辑是否适用于从数字智体到具身系统的情况?
• 如何使外化过程更加自主?
• 随着更多内容被外化,会产生哪些成本和风险?
• 外化产物如何重塑生态系统尺度的交互?
• 应该如何衡量外化的质量?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐