LLM智体中的外化:记忆、技能、协议和框架工程的统一综述(上)
26年4月来自上海交大、中山大学、上海创新研究院、CMU和OPPO公司的论文“Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering”。
大型语言模型(LLM)智体的构建方式越来越倾向于重构运行时环境,而非简单地改变模型权重。以往系统期望模型内部恢复的功能,如今被外化(externalization)到记忆存储、可重用技能、交互协议以及确保这些模块在实践中可靠的外部框架中。本文从外化的角度回顾了这一转变。借鉴认知人工品(artifacts)的概念,智体基础设施的重要性不仅在于它添加了辅助组件,更在于它将复杂的认知负担转化为模型能够更可靠地解决的形式。在这种观点下,记忆将状态跨时间外化,技能将程序性专业知识外化,协议将交互结构外化,而外部框架工程(harness engineering)则作为统一层,协调它们以可控的方式执行。
本文追溯从权重到上下文再到外部框架的历史演变,将记忆、技能和协议分析为三种既独立又相互关联的外化形式,并探讨它们如何在大型智体系统中相互作用。进一步探讨参数化能力和外化能力之间的权衡,指出诸如自演化框架和共享智体基础设施等新兴方向,并讨论评估、治理以及模型与外部基础设施长期协同演化方面存在的挑战。最终,构建一个系统级框架,用以解释为什么实际智体的进步越来越依赖于更强大的模型以及更完善的外部认知基础设施。
核心论点是,外化——即认知负担从模型内部计算逐步转移到持久、可检查和可重用的外部结构——是过渡逻辑,也是解释每次架构转变发生的原因以及其试图保留的可靠性形式的机制,它统一了语言智体在记忆、技能、协议和框架工程方面的最新进展。这不仅仅是关于工程便利性的论断,而是关于可靠智体来源的论断:并非仅仅来自不断扩大的模型,而是来自对任务需求的系统性重构,从而使内部能力和外部基础设施共同覆盖所需的全部能力[Norman, 1991, Sumers et al., 2024]。
如图1总结这一论点。上图描绘人类认知外化的熟悉轨迹;中间面板展示了LLM智体的对应弧线,从权重出发,经过三个外化维度——记忆、技能和协议——最终到达将它们统一起来的框架;下方面板将由此产生的文献格局映射到三个能力层——权重、上下文和框架(Harness)。
近期LLM智体的发展历程可以理解为从模型本身向外扩展的渐进过程。最初,智体的能力被视为权重的属性,随后又被视为提示和上下文窗口的属性,而现在,它们越来越多地被视为模型运行所依赖的更广泛基础设施的属性。如图2以三个堆叠层——权重、上下文和框架(Harness)——可视化这一发展轨迹,时间跨度从2022年到2026年,展现了该领域研究主题随时间推移的转变。
如图3补充了这一视角,提供了外化智体的架构概览,其中框架(harness)位于中心,三个外化维度及其运行要素围绕其旋转。记忆将状态外化于时间之上,技能外化了程序性专业知识,协议外化了交互结构。两条弧线之间的平行关系编码了一个递归论断:LLM智体本身是运行于最新主要人类外化形式——数字计算——内部的产物。其共同机制是诺曼意义上的表征转换[Norman, 1991]:回忆转化为识别,即兴生成转化为组合,临时协调转化为结构化契约。
框架(Harness)是承载所有三个维度的工程层,它提供协调逻辑、约束、可观测性和反馈回路,使外化认知在实践中得以连贯运作。它并非与记忆、技能和协议并列的第四种外化形式,而是这些外化形式运行和交互的运行时环境。
如图 2 和图 1 中的权重层,对应于现代 LLM 部署的早期阶段,此时模型能力几乎完全由模型参数决定。在大规模语料库上进行预训练,将广泛的统计规律、世界知识和潜在的推理习惯压缩到权重中 [Brown et al., 2020, Chowdhery et al., 2023, Touvron et al., 2023]。规模化定律揭示参数数量、数据量和损失之间的可预测关系,强化了模型规模与性能提升直接相关的直觉 [Kaplan et al., 2020, Hoffmann et al., 2022]。当 GPT-4 [OpenAI, 2023b]、Gemini [Gemini Team et al., 2023]、DeepSeek-V3 [DeepSeek-AI, 2025] 和 Qwen2.5 [Qwen Team, 2025] 等系统展现出广泛的多任务能力时,该领域的主流观点认为,更优秀的智体意味着更大、训练更完善的模型。监督式微调和偏好优化通过教授指令遵循、对话风格、拒绝行为和特定领域的惯例,将这些模型塑造成更有用的助手 [Ouyang et al., 2022, Bai et al., 2022a];直接偏好优化通过消除对独立奖励模型的需求,进一步简化了这一调整阶段 [Rafailov et al., 2023]。从这个角度来看,改进在很大程度上意味着修改或替换模型本身。
上下文层代表了研究重点从模型修改转向输入设计的阶段。提示工程(prompt engineering)表明,无需调整权重即可显著改变模型行为:少样本示例、角色描述、思维链分解和自洽性轨迹均能改变同一模型在相同底层任务上的表现[Wei et al., 2022, Wang et al., 2023b, Kojima et al., 2022]。随后,出现了更多结构化推理技术。ReAct 将推理轨迹与工具操作交错置于单个生成循环中,表明仅凭提示即可在不改变架构的情况下产生类似智体的行为[Yao et al., 2023a]。“思维树”将思维链推广为对中间推理状态的刻意搜索[Yao et al., 2024]。自我改进(Self-Refine)引入了迭代式自我批判,证明模型可以通过多轮提示循环来改进自身的输出[Madaan et al., 2023]。自动提示优化通过模型自身搜索提示空间,进一步减轻了人工负担[Zhou et al., 2023, Pryzant et al., 2023]。检索增强生成(RAG)通过在查询时动态地将外部文档注入上下文,引入了一种更系统的外化形式[Lewis et al., 2020, Borgeaud et al., 2022, Ram et al., 2023, Gao et al., 2024]。因此,研究重点从模型内部化的内容转移到每次调用时的信息管道。
框架层(图 2 中最上层的条带和图 1(下半部分)中最右侧的区域)代表了当前阶段,此时能力已从即时管理扩展到持久基础设施。随着上下文窗口逐渐饱和,提示模板变得越来越笨重,工程人员的关注点也逐渐从“我们应该告诉模型什么?”转移到“模型应该在什么样的环境中运行?”。在成熟的智体系统中,可靠性越来越依赖于外部记忆存储器、工具注册表、协议定义、沙箱、子智体编排、压缩管道、评估器、测试框架和审批循环 [Wang et al., 2024a, Li, 2025, Luo et al., 2025, Xi et al., 2023]。
如图 3 所示,该框架包含三大类外部化机制——记忆、技能和协议——分别对应于框架所承担的三大类负担。记忆系统将状态随时间推移而外部化,从而使连续性不再依赖于短暂的上下文。技能系统将程序性专业知识外部化,从而可以加载复杂的工作流程,而无需重新发明。协议将交互结构外化,从而使工具和智体之间的协调遵循既定的契约,而非临时性的提示。这些要素共同构成了框架:一个持久的基础设施,它包裹着模型,并将其面临的任务转化为其内部能力能够更可靠地处理的形式。
在这种框架下,“智体工程”越来越多地演变为“框架工程”。模型仍然是核心推理引擎,但它不再是智能的唯一所在。能力分布在塑造模型所见、所记、所调用以及被允许执行的操作的各种结构中。
记忆外化解决了智体的时间负担。一个裸语言模型必须在一个短暂的提示中承载连续性、先前经验、用户特定事实和部分完成的工作。一旦任务跨越会话、分支或中断,这种负担就会变得既不稳定又昂贵。记忆将其外化为持久状态,可以在模型外部进行写入、更新和检索。
在被利用的智体中,记忆不仅仅是一个存档。它提供可恢复执行的检查点、可从中提炼技能的轨迹、影响协议路由的统计数据,以及治理机制可以检查和约束的持久状态。为了明确其作用,提出了三个相互关联的问题:记忆外化了哪些负担、设计空间是如何演变的,以及记忆如何与更广泛的利用机制耦合。
如图4所示:记忆作为外化的状态
外化状态的内容:状态的本质
记忆的本质在于将智体的状态与其瞬态上下文解耦。相关的内容并非所有外部组件,而是那些能够保持连续性的记录:当前任务状态、过往执行经验、抽象知识以及持久的用户或环境上下文。为了在长期交互中保持行为的一致性,记忆系统必须根据这些记录的时间属性和检索需求对其进行分类和管理。借鉴人类记忆的经典分类法并将其应用于长期记忆(LLM)智体,区分外化状态的以下四个维度:
工作上下文。工作上下文是当前任务的实时中间状态:包括打开的文件、临时变量、活跃的假设、部分计划和执行检查点。它变化迅速,如果过时就会失去价值,但如果没有外化,一旦上下文窗口重置或进程中断,它就会消失。编码智体很好地说明了这一点。通过将草稿、终止状态和工作区工件具体化到提示符之外,OpenHands 和 SWE 风格的智体等系统可以从当前运行状态恢复,而无需从头开始重建 [Wang et al., 2025a, Yang et al., 2024b]。
情景(episodic)经验。情景经验记录先前运行中发生的事情:决策点、工具调用、失败、结果和反思。它的价值不仅仅在于存档。检索的情景可以作为具体的先例,帮助智体避免重复已知的错误,并为后续的抽象提供原始素材。反思通过将失败尝试中的反思性总结存储为可重用的经验,明确地展现这种模式[Shinn et al., 2023]。AriGraph 进一步扩展这一理念,将陌生环境中的局部交互轨迹视为情景记忆,并以此构建更广泛的世界模型[Anokhin et al., 2024]。
语义知识。语义知识存储着超越任何单一事件的抽象概念:域事实、通用启发式方法、项目惯例和稳定的世界知识。与情景记忆不同,语义知识并非围绕特定的时间和地点组织[Li and Li, 2024, De Brigard et al., 2022]。二者的区别不仅在于粒度,还在于功能。情景记忆记录的是某个案例中发生了什么;语义记忆记录的是在不同案例中普遍适用的规律。在当前的系统中,知识库(KG)和检索增强生成(RAG)语料库是最常见的外化语义记忆形式。长期趋势更为远大:智体越来越多地尝试从累积的轨迹中提炼语义指导,而不再仅仅依赖静态的人工编写文档。
个性化记忆。个性化记忆跟踪关于特定用户、团队或环境的稳定信息:偏好、习惯、重复出现的约束以及先前的交互。这种状态不应被合并到智体的通用自我改进存储库中,因为用户特定的轨迹遵循不同的保留、检索和隐私规则(Xi [2024],Lin [2025a])。最近的系统明确地实现了这种分离。IFRAgent 从移动环境中的演示构建用户习惯库(Wu,2025);Web 智体使用外部化的配置文件来推断隐式偏好(Cai,2025);而像 VARS 这样的对话系统则将跨会话的偏好卡片存储在独立的用户记忆空间中(Hao,2026)。因此,个性化记忆层可以让智体随着时间的推移而适应,而不会将长期用户建模与一般任务知识混淆。
如何实现外化:记忆架构
当这些层被外化后,主要的设计问题就变成了如何将主动推理与存储状态彻底分离。根据 Du [2026a] 的分类,当前的系统可以分为四大架构范式:单体上下文、带检索存储的上下文、分层记忆与编排以及自适应记忆系统。发展方向不仅仅是存储容量的增大,更是对写入、提升、检索、压缩或遗忘的内容制定更明确的策略。
在这些阶段中,主要的转变是从存储到控制。单体上下文解决了存在性问题,检索存储解决了容量问题,层级系统解决了组织问题,而自适应系统开始解决策略问题。因此,记忆不再是提示的被动附属品。在成熟的智体中,它成为控制面的一部分,决定了模型可以有效处理哪些过往信息。
控制面时代的记忆需求
随智体演进到控制面时代,记忆系统不再仅仅是孤立的存储模块;相反,它们成为运行时协调连续性、程序重用和受控交互的基础。问题不再仅仅是如何存储更多信息,而是如何使时间状态对规划、执行和恢复循环具有选择性的可读性。
因此,控制面环境要求记忆系统将状态与上下文显式分离。在具有极长时间跨度的任务中,会话历史的无限制积累会导致模型失去对其注意机制的跟踪。诸如 InfiAgent [Yu et al., 2026] 之类的框架提出一种以文件为中心的抽象状态,主张将文件系统作为任务状态的唯一权威记录,其中所有内容——从高层规划到中间变量和工具输出——都必须实时写入。在每个决策步骤中,智体不再读取冗长的历史记录,而是读取工作区的精选快照和少量最近的操作。这体现了记忆的核心表征作用:并非将所有历史记录都保存在提示中,而是以模型可以操作的形式具体化当前状态。
记忆也必须与技能系统集成,但这两个层面扮演着不同的角色。记忆存储先前执行的证据:轨迹、结果、失败以及用户或任务特定的上下文。只有当其中一些证据被提升为显式的可重用程序时,技能才会启动。反之,每次技能执行都会产生新的轨迹,这些轨迹必须写回记忆。因此,记忆本身并非程序指导;它是后续制定此类指导的依据。
协议耦合提出另一项要求。工具结果、审批、委托事件和外部状态转换可能通过协议接口到达,但只有经过规范化并写入持久状态后才能成为记忆。反之,记忆检索可能会影响下一步应选择哪条协议路径。在成熟的框架中,记忆和协议通过受控的读/写循环连接,但它们在概念上仍然是不同的:协议控制交换,而记忆控制跨时间的持久性。
最后,一旦多个智体依赖于共同的外化状态,共享和治理机制就变得必不可少。建立记忆的读/写权限、解决存储事实之间的冲突以及控制每个智体对共享知识的访问配额,都需要与操作系统相当的底层控制能力。因此,在框架时代,记忆最好被理解为一种受管理的状态基础设施:它将时间负担外化,重塑模型内部必须记忆的内容,并提供框架其余部分运行所依赖的持久基础。
作为认知产物的记忆
现代LLM是无状态生成器:每次调用都从一个全新的上下文开始,因此必须重建连续性,而不是将其延续下去。在简短的交互中,这种限制可以隐藏在提示信息中。但在长期工作中,它会变成结构性问题。过去的尝试、未完成的工作、用户特定的事实以及环境状态,如果全部保留在上下文中,就会产生代价、漂移,最终导致信息截断。因此,有限模型面临的原始任务在原则上是难以解决的:既要保持实际上无限的历史记录可用,又要对当前情况进行清晰的推理。
记忆外化改变了该任务的结构。用诺曼(Norman)的话来说,表征转换将内部回忆问题转化为外部识别和检索问题。模型不再需要从其参数中恢复相关的历史记录;它必须识别并使用记忆系统已经呈现的精选历史记录片段。这与诺曼对外部列表如何改变记忆本质的分析非常相似:关键不在于添加了额外的信息,而在于认知任务本身的形式发生了重组[Norman, 1991]。在上下文层面也发现了同样的转变;记忆能够跨越会话和时间跨度,这是任何单一上下文窗口都无法企及的。
这种解释阐明了为什么检索质量比原始存储容量更重要。一个拥有庞大存储空间但检索能力较弱的系统仍然会向模型呈现错误的问题表征:历史记录存在,但任务本身并未被转换。相比之下,一个容量适中但具备强大索引、摘要和上下文选择能力的系统可以显著简化后续推理。因此,记忆的成功标准不是“我们节省了多少空间?”,而是“我们是否使当前的决策清晰易懂?”
同样的视角也阐明了基尔什(Kirsh)的互补策略概念。根据互补策略,智体不仅通过更深入的内部思考来提升性能,还可以通过重组外部环境来将部分认知工作转移到外部环境[Kirsh, 1995]。记忆系统正是针对时间维度实现了这种策略。它并非强制模型将所有相关状态都存储在内部,而是将持久性、新鲜度管理和相关性过滤等功能外化,同时将解释和上下文判断留给模型。这种划分是互补的:每一方都负责处理其最擅长的部分。
认知人工品(artefacts)观点也解释了常见的失效模式,认为其是表征设计缺陷而非单纯的实现错误。陈旧的记忆会提供过时的问题表征,从而歪曲当下。过度抽象的记忆会丢失当前决策所需的操作细节。抽象不足的记忆会使提示信息充斥着噪声,反而降低了外化原本旨在简化的识别任务的效率。被污染或相互冲突的记忆会将错误的假设嵌入到检索的信息片段中,从而污染未来的推理。在每一种情况下,记忆系统的失效并非源于存储的信息过少或过多,而是源于它未能将历史转化为可用的当下信息。
从这个角度来看,记忆不仅仅是扩展有效情境的一种工程便利。它是一种认知人工品,重塑智体的时间负担。通过将无限制的回忆转化为有限制的、经过筛选的检索,它改变了模型在每个决策点所面临的任务。正是这种转变将本节所考察的建筑发展进程——从整体式环境到自适应系统——与一个单一的底层设计目标联系起来:在正确的时刻使正确的历史变得清晰易懂,从而使模型的固定推理能力用于推理而不是记忆。
技能外化解决智体的程序性负担。语言模型原则上可能知道如何解决某个任务,但每次尝试执行该任务时,仍然需要重建工作流程、默认值和约束条件,才能确保可靠执行。这种负担会随着任务长度、环境特殊性和分支决策数量的增加而增加,并表现为变异性:步骤遗漏、工具使用不稳定以及停止条件不一致。
因此,技能引入的表征转变是从重复合成到可重用程序。技能系统不再要求模型在每次运行时都根据权重或临时提示重新生成特定于任务的知识,而是将这些知识打包成可以被发现、加载、修改和组合的显式工件。这主要不是扩展智体可用的操作集;而是将模型在运行时面临的任务从创建工作流程转变为选择并遵循一个工作流程[Xu and Yan, 2026b, Wang et al., 2026a]。
在框架下的智体中,技能位于记忆和动作之间。它们通常根据检索的状态进行选择,通过协议化的接口与工具和子智体绑定,并根据执行轨迹和事后反思进行更新。记忆将随着时间推移而学习的知识外化;技能则将积累的经验外化为可重用的操作结构 [Sumers et al., 2024, Wu & Zhang, 2026]。
如图5所示:技能作为外化的专业知识
外化内容:程序性专业知识
技能外化关注的是程序性专业知识,而非孤立的操作接口。这里的专业知识指的是在重复的假设和约束条件下执行任务的可重复方法,而不是模型“能够”做某事的模糊说法。由此定义可以得出一个有用的边界:工具公开操作,协议规范这些操作的描述和调用方式,而技能则编码如何使用这些工具执行一类任务。在实践中,这种专业知识包含三个相互关联的组成部分:操作程序、决策启发式方法和规范性约束。它们共同定义了可重用的知识单元,而工具框架可以将其外化。
从执行原语到能力包
技能系统并非孤立出现,但也不应与工具的使用混为一谈。从历史上看,技能是两个早期发展阶段的下游产物:可靠的动作调用和大规模动作选择。这些阶段扩展了智体可以执行的操作,但尚未明确一类任务应如何重复执行。只有当程序组织本身成为一种明确的、可重用的人工件(artifact)时,技能才会出现。
技能如何外化
技能外化并非仅仅通过编写指令就能完成。在成熟的智体系统中,关键问题在于程序性专业知识能否以一种在运行时可发现、可加载、可解释、可绑定且可执行的形式来表示。因此,技能外化涉及表示层和运行时层。前者决定了如何描述和界定一项技能,而后者决定了该技能在任务执行期间是否能够作为可重用的功能发挥作用[Xu & Yan, 2026b]。从实际应用的角度来看,只有当运行时能够决定何时加载该技能、将其绑定到哪个记忆以及将其绑定到哪些工具、文件或子智体时,该技能才能真正发挥作用。这种绑定要求并不意味着技能等同于工具或协议;它仅仅意味着程序性专业知识最终必须基于可执行接口。
技能习得与演化
技能系统之所以重要,不仅在于它存储了编写的指令,更在于它提供了一条将成功行为转化为可复用专业知识的途径。因此,技能习得最好被理解为一个演化过程,在这个过程中,程序性知识会随着时间的推移而被编写、提取、发现和重组[Xu & Yan, 2026b]。
编写。手动编写仍然是技能进入当前系统最常见且最稳定的途径。无论是 SKILL.md、AGENTS.md、项目级指令文件还是组织标准操作程序 (SOP) 模板,这些文档都是人工设计的程序性能力包的实例。它们的重要性不仅在于提供初始能力,还在于支持迭代修订。当智体在部署过程中反复出现某种故障模式时,工程师可以更新相应的技能,从而将观察的故障转化为明确的程序或新增的约束。这样,编写的技能文档就不仅仅是描述性的了。它还提供了一个实用的界面,通过该界面,操作经验可以逐步转化为可重用的行为结构[Ling et al., 2026]。
精炼。技能也可以从历史轨迹、练习痕迹或其他存储的经验中诱导而来。情景记录保存了智体之前的行为以及轨迹成功或失败的原因。当某些成功的结构在不同任务中反复出现时,系统可以将这些模式抽象成更稳定的程序单元。从这个意义上讲,记忆保存经验,而技能诱导则从中提取出其中的可重用结构。现有证据最直接地支持了这一点,当该过程被定义为从交互痕迹中进行诱导,而不是笼统地声称记忆会自动转化为技能时。例如,技能集优化从奖励性子轨迹中提取可迁移的技能[Nottingham et al., 2024]。在记忆管理领域,MemSkill 进一步表明,某些记忆操作本身可以被重新表述为可学习和可演化的技能 [Zhang et al., 2026a]。
发现。除了手动编写和事后提炼之外,智体还可以通过环境交互自主发现新技能。Voyager 在 Minecraft 环境中提供了一个有影响力的例子,其中探索、执行反馈、自我验证和课程驱动的任务选择共同生成了一个不断增长的可执行代码技能库 [Wang et al., 2023a]。更新的研究表明,这种发现过程也可以面向泛化。例如,PolySkill 通过将抽象目标与具体实现分离来提高技能重用性 [Yu et al., 2025]。一旦智体能够识别反复成功的行为模式并将其提升为显式技能,技能库就不仅成为一个存储层,而且还成为一个能力增长的机制。
组合。最后,技能可以通过组合而演化。许多高阶能力并非凭空创造,而是由现有的低阶或中阶技能组合而成。诸如报告生成或代码修复之类的复杂工作流程,可能源于对较小能力的反复协调。组合在此不仅作为一种执行策略至关重要,也作为一种获取机制。一旦某种现有技能组合被反复验证有效,该组合本身就可以被打包成一项新的高阶技能。如此一来,组合便能生成新的可重用单元,并逐步形成层级化的技能库,而非孤立的技能列表[Wang et al., 2025c]。
总而言之,技能获取并非一次性的设计步骤,而是一个持续的过程,包括编写、提取、发现和重组程序性知识。因此,一个成熟的技能系统与其说是取决于它存储了多少指令,不如说是取决于它如何有效地将经验转化为可重用的外部专业知识。在被驾驭的智体中,这种进化循环本身是系统化的:记忆提供证据,评估者决定什么值得晋升,而协议化的执行表面决定候选技能是否真的可以部署。
边界条件
技能外化可以提高重用性和治理效率,但并不能保证可靠性。一旦程序性专业知识被外部化为显式工件,其有效性就取决于该工件与任务、环境以及运行时环境的匹配程度。在实践中,主要的边界条件涉及语义一致性、可移植性和过时性、不安全的组合以及上下文相关的性能退化。
语义一致性。技能规范以自然语言或轻量级结构化形式表达意图和指导,而实际执行则依赖于具体的工具、API 和环境约束。因此,模型可能遵循技能的字面描述,但仍然无法理解任务的真正目标。现有证据表明,技能的有效性很大程度上取决于任务意图、技能描述和调用决策之间的一致性。SkillProbe 指出语义-行为不一致是现有技能市场的一个根本缺陷 [Guo et al., 2026]。关于工具使用决策的相关研究同样表明,关键难点往往不仅在于能否调用外部能力,还在于在当前任务解读下是否应该调用该能力[Ross et al., 2025]。这表明,外化技能仍然容易受到描述与使用不匹配的影响。
可移植性和过时性。即使技能内部逻辑自洽,也不能假定其在不同环境中都有效。网站、API、依赖项、工作流程或运行时约定的变化都可能导致曾经有效的技能部分失效或完全过时。更广泛地说,智体框架、工具底层和基础模型之间的异质性意味着同一技能在不同环境下的表现可能不一致。程序化技能的研究已经表明,一些诱导技能可以在不同网站之间迁移,而不兼容的技能则必须更新以适应环境变化[Wang et al., 2025c]。SkillsBench进一步指出,技能效用在不同领域和模型-智体配置之间存在显著差异[Li et al., 2026c]。更广泛的含义是,技能可移植性最好被视为一种有条件的经验属性,而非外部化的固有特征。
不安全的组合。组合增强了技能的功能,但也带来了新的风险。单独来看无害的技能,组合起来可能会产生不安全的交互,尤其是在它们捆绑了长指令、可执行脚本和外部依赖项时。在这种情况下,问题并非局限于单个技能组件,而是源于多个组件之间的交互以及连接它们的接口。这是目前已有直接证据支持的边界条件之一。对公共技能生态系统的大规模实证研究报告了相当高的漏洞率,包括提示注入、数据泄露、权限提升和供应链风险[Liu et al., 2026]。攻击导向的研究进一步表明,技能文件本身可能成为当前智体的实际提示注入攻击面[Wang et al., 2026c]。因此,技能组合应被视为一个安全敏感的过程,而非纯粹良性的模块化重用形式。上下文相关的性能退化。另一个难题是,技能执行会随着交互时间的延长而退化。即使技能文件已更新,由于残留的会话上下文、缓存的摘要或先前强化的动作模式,智体仍可能继续遵循过时的操作逻辑。同时,当过多的局部程序细节被注入上下文时,详细的技能指南可能会干扰全局任务跟踪。在这种情况下,模型可能会仔细执行指令,却忽略了真正的成功条件。目前针对这些影响的直接技能特定证据仍然有限,但关于多轮漂移、长时域可靠性和长上下文推理的相关研究强烈表明,这些是现实的边界条件[Lee, 2026]。因此,技能加载不仅应被视为检索问题,还应被视为上下文分配和执行稳定性问题。
综上所述,这些边界条件表明,技能并非一个编写后即可保持稳定的自给自足模块。其有效性取决于与任务、环境、运行时条件和安全约束的持续一致性。因此,技能不应被视为孤立的个体,而应被视为嵌入更广泛的工程框架中的组成部分。这正是技能设计最终指向超越个体本身、构建整体工程的原因所在。
技能在框架中的应用
上述边界条件表明,技能不能作为独立的工件进行评估。它们的可靠性取决于它们在运行系统中的位置。
基于记忆的条件化。技能的选择和参数化取决于检索的状态。框架(Harness)查询记忆以获取任务历史记录、先前结果、用户特定上下文和环境约束,然后利用这些信息来决定加载哪个技能、实例化哪些参数以及优先选择哪些分支。如果没有这个条件化循环,技能选择就会退化为与任务描述进行关键字匹配。有了它,同一个技能可以根据智体先前学习到的内容以不同的方式应用。因此,记忆提供了情境证据,使技能选择具有上下文关联性而非通用性。
通过协议绑定。一旦被选中,技能必须绑定到可执行的操作上。这种绑定是通过协议化的接口实现的:工具模式、子智体委托契约、文件操作和审批工作流。该框架通过解析当前可用的协议端点、检查权限以及将技能步骤路由到相应的执行底层来协调这种绑定。因此,技能和协议是互补的:技能指定应该做什么;协议指定如何描述、调用和管理由此产生的操作。
运行时治理。在生产环境中,该框架还会对技能执行进行治理。这包括敏感操作前的权限检查、高风险步骤的审批门、加载了哪些技能及其产生的操作的审计日志,以及在多步骤流程执行过程中失败时的回滚机制。这些控制并非技能本身的一部分;它们是技能运行所在的框架环境的属性。在沙盒开发环境中安全有效的技能在生产部署中可能需要额外的约束,而该框架正是强制执行这些约束的层。
生命周期反馈。最后,该框架实现技能执行和技能演进之间的闭环。执行跟踪、成功率、失败模式和用户更正都会被写回内存。随着时间的推移,这些证据可能会触发技能的修订、弃用或新候选技能的推广。因此,该框架不仅仅是技能的载体;它还提供了技能改进的反馈机制。这个循环将技能习得与运行时操作连接起来:已创建或已发现的技能进入框架,框架控制它们的执行,而执行结果则反馈到证据库中,未来技能的开发正是基于此。
技能作为认知人工件
从 Norman 的认知人工件理论的角度来看,技能系统可以理解为沿着能力组织维度进行的表征转换 [Norman, 1993]。如果没有外化技能,模型必须在任务执行过程中反复从内部参数重建程序性知识。有了技能,部分程序性负担就转移到了可以加载、检查和遵循的显式外部表征中。这使得任务从不稳定的潜在程序性回忆转变为更稳定的识别适用指导并据此采取行动的过程。在这方面,技能文件的作用与诺曼对外部列表如何改变记忆本质的分析非常相似。关键不在于添加了额外信息,而在于认知任务本身的形式发生了重组。
这种重组至关重要,因为它改变了模型在推理时必须执行的操作。在没有技能的情况下,模型必须在当前情境的压力下,根据其参数以概率方式恢复适当的执行方式。一旦技能被外化,程序性结构就作为环境中的一个对象存在。模型的负担转移到解释当前情况、识别技能是否适用、遵循相关指导以及处理局部例外情况。因此,程序性知识不再是每次运行都必须从头开始重建的东西。它变成了一个可以直接操作的外部对象[Li et al., 2026c, Xu and Yan, 2026b]。
这种解释也与基尔什的互补策略概念相符。根据该概念,智体不仅通过更深入的内部思考来提升绩效,还能通过重组外部环境,将部分认知工作转移到外部环境来提升绩效[Kirsh, 1995]。LLM通常难以稳定且可重复地重现冗长的多步骤流程。相同的提示在不同的运行中可能会产生不同的分解、分支决策或停止条件。相比之下,它们在解读明确的指导、将其与当前上下文匹配以及在既定约束下局部调整执行方面表现相对较好。因此,技能可以被理解为一种人为设计的互补策略。它将流程定义、约束和部分最佳实践外部化为一个人工品,而将解释、上下文匹配和异常处理留给模型自身。
技能并非简单地向系统添加更多信息,而是改变了能力的组织方式。流程专业知识从不透明且难以审核的参数空间转移到一个可检查、可修改和可组合的外部结构中。因此,技能的意义不仅在于工程上的便利,更在于更深层次地重新分配知识储备,以及如何使其可供重用。从这个角度来看,技能不应仅仅被理解为提示或工具包装,而应被理解为用于组织智体系统中程序性能力的认知人工品。在系统层面,技能通过将重复的工作流程创建转化为运行时控制下的选择、加载和组合,从而减轻了程序负担。
。。。。。。待续。。。。。。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)