Agent Skills 从技能文本到技能结构:智能体技能的调度-结构-逻辑表示
引言
From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills (https://doi.org/10.48550/arXiv.2604.24026)
调度-结构-逻辑表示框架(Scheduling-Structural-Logical Representation,简称SSL)是由北京大学研究团队在2026年4月提出的新一代智能体技能表示方法,旨在解决大语言模型(LLM)智能体系统中技能文档的非结构化表示瓶颈。该框架的核心创新在于将技能工件解耦为三个层次:负责技能级接口调度的调度层(Scheduling Layer)、编码执行阶段与转换关系的结构层(Structural Layer)、以及捕获原子动作与资源证据的逻辑层(Logical Layer),通过类型化JSON图的形式化表示,实现了从自然语言技能描述到机器可解析结构的标准化映射。在实验评估中,SSL框架在技能发现任务中使平均倒数排名(MRR)从0.573提升至0.707,在风险评估任务中使宏F1分数从0.744提升至0.787,展现出显著的性能优势。该框架的理论根基可追溯至Roger Schank和Robert Abelson在1970年代提出的记忆组织包(MOPS)、脚本理论(Script Theory)和概念依赖理论(Conceptual Dependency)等经典知识表示理论,体现了从符号AI到神经符号AI的学术传承与创新融合。与此同时,AI智能体技能生态系统的安全性问题日益突出,2026年2月Snyk发布的ToxicSkills审计报告显示,在扫描的3984个公开技能中,36.82%存在安全漏洞,13.4%存在严重问题,已确认76个以上包含恶意载荷的技能,这为SSL等结构化表示框架的治理和安全应用提出了重要挑战。
研究背景与问题提出
智能体技能表示的演进脉络
大语言模型(LLM)智能体系统的快速发展推动了对可复用技能表示方法的迫切需求。当前主流的智能体架构普遍采用文本形式的技能文档(通常以Markdown格式组织的SKILL.md文件),这些文档包含操作指南、代码模板、资源和验证逻辑等组件,为智能体提供了处理特定领域任务的专业知识。然而,这种非结构化的表示方式存在根本性局限:机器可用的证据仍嵌入在自然语言描述中,导致技能管理和执行时只能从单一文本中解析调用接口、执行结构和副作用,形成了显著的表示瓶颈。
传统的方法通常将技能视为原子可调用的工具(Tools),通过JSON Schema定义输入输出接口,但这种方式无法有效表达技能的内部执行流程和复杂的控制流特征。随着智能体系统从简单的单工具调用向多步骤工作流、分层编排和复杂决策演进,对技能的表示能力提出了更高要求。2025年10月Anthropic发布的Agent Skills规范(后于12月更新)标志着行业对技能抽象层的正式认可,该规范将技能定义为包含指令、脚本和资源的有序文件夹,智能体可动态发现并加载以在特定任务中表现更优。这一标准化尝试虽然解决了技能的组织形式问题,但尚未解决技能内容的结构化表示问题。
当前表示方法的技术局限性
现有的技能表示方法面临三个核心挑战。首先是语义解析的模糊性:自然语言描述虽然对人类可读,但对机器而言缺乏精确的语义边界,智能体在理解何时调用技能、如何执行技能以及预期副作用方面存在不确定性。其次是跨技能比较的困难:当技能仓库规模扩大时,智能体需要在多个候选技能中进行选择,而非结构化的文本表示难以支持高效的相似性计算和能力匹配。第三是可审计性与可解释性的缺失:复杂的技能执行流程难以追踪和验证,特别是在涉及敏感资源访问和潜在安全风险时,缺乏结构化的证据记录机制。
2026年2月发布的SkillsBench基准测试进一步揭示了技能效果的复杂性:人工精选的技能平均可将任务通过率提升16.2个百分点,但不同配置间差异较大(+13.6pp至+23.3pp),而自生成技能的效果相比基线仅为-1.3pp。这一发现表明,有效的技能需要人工curated的领域专业知识,而当前缺乏标准化的表示方法来捕获和传递这种专业知识。技能数量与复杂度也存在最优区间:每个任务搭配2-3个技能时提升效果最佳(+18.6pp),超过4个技能则收益递减(+5.9pp),详细且紧凑的技能文档(+18.8pp、+17.1pp)优于全面冗长的文档。
SSL框架的问题定位与解决思路
针对上述挑战,北京大学研究团队提出了SSL表示框架,其设计目标是将非结构化的技能文本转换为类型化的三层JSON图,从而在保留技能语义信息的同时,提供机器可解析、可比较、可验证的结构化接口。该框架的核心理念是借鉴经典知识表示理论中的分层抽象思想,将技能的三个关键维度——何时调用(调度)、如何组织(结构)、具体做什么(逻辑)——进行显式解耦,使得每个层次都可以独立被机器理解和处理。
SSL框架的形式化定义将一个技能工件 d d d_d dd映射为类型化表示 G d = ( r s c h , G s t r , G l o g , R c o n t , R e n t r y ) G_{d}=(r_{\mathrm{sch}},G_{\mathrm{str}},G_{\mathrm{log}},R_{\mathrm{cont}},R_{\mathrm{entry}}) Gd=(rsch,Gstr,Glog,Rcont,Rentry),其中 r s c h r_{\mathrm{sch}} rsch表示调度层的技能级接口记录, G s t r G_{\mathrm{str}} Gstr表示结构层的场景级图, G l o g G_{\mathrm{log}} Glog表示逻辑层的逻辑步骤图, R c o n t R_{\mathrm{cont}} Rcont记录跨层包含关系, R e n t r y R_{\mathrm{entry}} Rentry记录入口指针。这种设计使得智能体可以在不展开完整场景或逻辑步骤结构的情况下,仅通过调度层信息即可跨仓库比较技能,显著提升了技能检索和匹配的效率。
SSL框架的技术架构详解
核心设计理念与原则
SSL框架的设计遵循紧凑性(Compactness)、类型化(Typing)和接地性(Groundedness)三大原则。紧凑性原则要求表示形式足够精简,避免冗余信息,确保技能描述在保留必要语义的同时不会过度膨胀上下文窗口。类型化原则要求所有字段都有明确的类型约束,支持静态验证和模式检查,从而提高机器解析的可靠性。接地性原则要求表示中的每个元素都必须能够在源技能文档中找到对应支持,避免模型生成不存在的信息,确保表示的忠实性和可审计性。
为了实现这些设计目标,SSL框架采用了受限词汇表(Controlled Vocabulary)策略,为关键字段预定义了有限的枚举值集合。例如,场景类型(scene_type)仅限于PREPARE、ACQUIRE、REASON、ACT、VERIFY、RECOVER、FINALIZE七种标准值;逻辑原语(act_type)仅限于READ、SELECT、COMPARE、VALIDATE、INFER、WRITE、UPDATE_STATE、CALL_TOOL、REQUEST、TRANSFER、NOTIFY、TERMINATE十二种原子动作;资源范围(resource_scope)仅限于MEMORY、LOCAL_FS、CODEBASE、PROCESS、USER_DATA、CREDENTIALS、NETWORK、OTHER八种类型。这种受限词汇表的设计既保证了表示的规范性,又降低了模型解析和生成时的不确定性。
调度层(Scheduling Layer):技能级接口抽象
调度层作为SSL表示的最顶层抽象,承担着技能级接口记录的角色,将技能视为调用级能力单元。该层暴露了三类关键信息:可服务的用户意图、定义契约的输入输出,以及深入检查前的粗粒度依赖或控制流属性。调度层的核心字段包括skill_id(技能标识符)、skill_name(技能名称)、skill_goal(技能目标)、intent_signature(意图签名)、expected_inputs(期望输入)、expected_outputs(期望输出)、dependencies(依赖项)和control_flow_features(控制流特征)等。
意图签名(intent_signature)字段是调度层的关键创新之一,它捕获了触发该技能的用户查询模式或意图描述,使得智能体可以在无需理解技能内部实现的情况下,仅通过匹配用户输入与意图签名即可判断技能的相关性。控制流特征(control_flow_features)字段则记录了技能是否包含分支(has_branch)、循环(has_loop)、工具调用(has_tool_call)或敏感资源访问(touches_sensitive_resources)等高层属性,为智能体进行前置风险评估提供了结构化依据。entry_scene_id字段指向结构层中的入口场景,建立了从调度层到结构层的导航路径。
调度层的设计使得智能体可以进行渐进式技能发现:首先在调度层进行快速筛选,仅当技能被判定为相关时才深入检索结构层和逻辑层的详细信息。这种设计显著降低了智能体在技能选择阶段的认知负担,避免了因加载过多不相关技能的详细描述而导致的上下文窗口污染问题。
结构层(Structural Layer):场景级执行编排
结构层以场景(Scene)为节点,以场景间的转换关系为边,将技能的执行流程组织为连贯的阶段序列。场景是对技能执行过程中某一特定阶段的抽象,例如准备阶段(PREPARE)用于验证请求和推断意图,获取阶段(ACQUIRE)用于加载必要的资源或数据,推理阶段(REASON)用于执行复杂的逻辑推理,执行阶段(ACT)用于实施具体操作,验证阶段(VERIFY)用于检查结果正确性,恢复阶段(RECOVER)用于处理失败情况,最终化阶段(FINALIZE)用于完成任务并输出结果。
结构层的核心字段包括scene_id(场景标识符)、scene_name(场景名称)、scene_type(场景类型,取上述七种标准值之一)、scene_goal(场景目标)、input(输入)、output(输出)、entry_conditions(进入条件)、exit_conditions(退出条件)、entry_logic_step_id(入口逻辑步骤)和next_scene_rules(下一场景规则)。next_scene_rules字段采用条件-目标对的列表形式,支持基于成功/失败状态的条件分支,例如{"condition": "success", "target": "S_ACQUIRE"}表示当当前场景成功完成时,转换到标识为S_ACQUIRE的下一个场景。
结构层的设计实现了执行阶段的显式可视化:在智能体检查单个逻辑步骤之前,技能的阶段组织已经清晰可见。这种分层抽象使得智能体可以在宏观层面理解技能的执行流程,而无需陷入微观层面的操作细节。同时,结构层也为错误处理和恢复提供了清晰的锚点:当某个场景执行失败时,智能体可以根据exit_conditions和next_scene_rules决定是重试、跳过还是进入恢复场景。
逻辑层(Logical Layer):原子动作与资源证据
逻辑层是SSL表示的最底层,以逻辑步骤(Logic Step)为节点,捕获技能的原子动作(Atomic Actions)和资源使用证据。原子动作是指源工件支持的最小操作单元,不添加任何缺失的实现细节,与运行时细节无关。逻辑层的核心字段包括logic_step_id(逻辑步骤标识符)、act_type(动作类型,取十二种标准逻辑原语之一)、actor(执行者)、object(操作对象)、instrument(工具)、input_args(输入参数)、output_binding(输出绑定)、preconditions(前置条件)、effects(效果)、resource_scope(资源范围)和resource_target(资源目标)。
逻辑原语的设计体现了从概念依赖理论到现代AI应用的演化:READ表示信息读取操作,SELECT表示从多个选项中进行选择,COMPARE表示比较操作,VALIDATE表示验证操作,INFER表示推理操作,WRITE表示写入操作,UPDATE_STATE表示状态更新,CALL_TOOL表示调用外部工具,REQUEST表示请求操作,TRANSFER表示数据传输,NOTIFY表示通知操作,TERMINATE表示终止操作。这些原语覆盖了智能体执行任务的典型操作类型,同时保持了足够的抽象性以适应不同的实现细节。
资源范围字段(resource_scope)和资源目标字段(resource_target)的设计旨在支持资源使用审计:智能体可以追踪技能在执行过程中访问了哪些类型的资源(内存、本地文件系统、代码库、用户数据、凭证等)以及具体的访问目标,从而在调用技能前进行权限检查和风险评估。这一机制对于构建安全的智能体系统至关重要,特别是在涉及敏感数据访问的场景中。
跨层关系与完整性约束
SSL表示通过 R c o n t R_{\mathrm{cont}} Rcont(包含关系)和 R e n t r y R_{\mathrm{entry}} Rentry(入口指针)两个字段建立三层之间的导航和验证机制。包含关系记录了高层元素对低层元素的封装关系:调度层的entry_scene_id指向结构层的入口场景,场景层的entry_logic_step_id和contained_logic_steps指向逻辑层的具体步骤。入口指针则建立了从外层到内层的单一路径,确保智能体可以按照预定的顺序逐步深入技能的细节。
SSL框架还定义了一系列完整性约束以确保表示的合法性:结构合法性检查确保图的拓扑结构正确(无循环依赖、所有引用的节点存在);标识符一致性检查确保跨层引用的ID匹配;允许的枚举值检查确保所有枚举字段取值在受限词汇表范围内;包含链接检查确保所有低层元素都被高层元素正确引用;入口指针检查确保存在有效的入口路径;转换目标检查确保所有场景转换指向有效的目标节点。当验证失败时,系统会重试生成或标记不支持的字段,确保输出的表示符合规范。
理论基础与学术传承
Schank和Abelson的经典知识表示理论
SSL框架的理论根基深植于Roger Schank和Robert Abelson在1970年代提出的概念记忆理论(Conceptual Memory Theory)和脚本理论(Script Theory)。Schank在1980年发表于《Cognitive Science》的里程碑论文《Language and Memory》中系统阐述了这些理论,其核心观点是:人类理解语言和处理事件的能力依赖于记忆中的结构化知识组织,而非简单的词汇关联。
记忆组织包(Memory Organization Packets,简称MOPS)是Schank理论的核心概念之一,它充当记忆中的信息处理器与组织者,能够实现对情景记忆中体验的有效分类,进而帮助更好地理解和预测新体验。MOPS代表了记忆中的标准事件序列和模式,当个体遇到新情境时,可以通过匹配到相应的MOPS来快速理解情境结构并预测后续事件。SSL的调度层正是借鉴了MOPS作为面向目标的组织者的思想,将其应用于技能的检索和上下文化。
脚本理论(Script Theory)则将定型活动表示为带有期望和转换的有序场景序列。Schank和Abelson在1977年的经典著作中提出了"餐厅脚本"等著名示例,描述了人们去餐厅就餐的标准化流程:进入餐厅、坐下、看菜单、点餐、等待、就餐、付款、离开。脚本不仅包含动作序列,还包含每个步骤的期望和可能的变异。SSL的结构层直接继承了脚本理论的思想,将技能的执行流程建模为场景节点和转换边的图结构,捕获了执行阶段及其预期转换。
概念依赖理论(Conceptual Dependency Theory)是Schank在1972年提出的另一重要理论,其核心思想是将语言意义分解为原始动作结构,抽象掉表面措辞的差异。例如,“give”、“take”、“buy”、“sell"等动词在概念层面都可以归约为"trans”(转移)这一原始概念,配合不同的参与者角色(给予者、接收者、对象)即可表达丰富的语义。SSL的逻辑层借鉴了这一思想,定义了十二种标准逻辑原语,将复杂的操作抽象为可组合的原子动作。
从符号AI到神经符号AI的演进
SSL框架代表了神经符号AI(Neuro-Symbolic AI)在智能体技能表示领域的最新实践。传统的符号AI系统(如1970-1990年代的专家系统和知识表示系统)依赖于手工编码的规则和本体,虽然具有可解释性和可验证性的优势,但面临知识获取瓶颈和扩展性限制。纯神经网络的LLM虽然在自然语言理解和生成方面展现出强大能力,但缺乏显式的结构化表示,难以进行精确的推理和验证。
SSL框架通过将LLM作为归一化器(Normalizer),将非结构化的自然语言技能文档转换为类型化的结构化表示,实现了神经网络与符号表示的有机结合。这种架构既利用了LLM强大的语义理解能力来处理自然语言的模糊性和多样性,又通过类型化JSON图提供了符号系统的精确性和可验证性。这种设计思路与当前神经符号AI领域的主流趋势一致:不追求完全替代神经网络或符号系统,而是通过架构层面的整合实现优势互补。
SSL框架还体现了渐进式披露(Progressive Disclosure)的设计理念,这一概念在Anthropic的Agent Skills规范中也有重要应用。渐进式披露要求系统根据用户需求逐步展示信息的详细程度,避免一次性呈现过多信息导致认知过载。SSL的三层结构天然支持这一模式:调度层提供概要信息用于快速筛选,结构层提供流程信息用于理解执行逻辑,逻辑层提供详细信息用于审计和调试。
当代AI研究的知识表示共识
SSL框架的提出契合了2026年AI研究领域对知识表示的共识性趋势。2026年4月Preprints.org发布的《A Survey of Agent Skills for Foundation-Model Agents》系统梳理了智能体技能的概念、表示、生命周期、评估和应用,明确指出技能表示必须编码适用范围、执行流程、操作接口以及支持跨上下文复用的抽象机制。该综述区分了三种技能表示形式:文本形式(用于向人类和模型传递任务逻辑)、程序形式(将技能表示为具有明确执行语义的可执行工件)和混合形式(结合文本组件和可执行组件)。SSL框架属于混合形式的高级实现,通过JSON图结构整合了文本描述和结构化数据。
2026年2月arXiv发布的SkillsBench基准测试则揭示了技能效果评估的复杂性,其发现技能可弥补模型规模差距:带技能的Claude Haiku 4.5(27.7%通过率)超过无技能的Claude Opus 4.5(22.0%通过率),证明技能可以部分补偿模型在流程任务上的能力限制。这一发现为SSL等结构化技能表示方法提供了重要的实证支持:通过结构化的技能表示,即使是较小的模型也能在特定任务上超越较大的通用模型。
此外,2026年4月发布的《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols, and Harness Engineering》进一步强调了外部化表示在LLM智能体中的重要性,指出大型语言模型智能体越来越多地通过重新组织运行时环境而非改变模型权重来构建,技能作为外部化的专业知识载体在这一趋势中扮演着核心角色。SSL框架正是这一趋势的技术实现,通过将技能知识从模型参数中分离出来,实现了知识的可复用、可更新和可审计。
技术实现与实验评估
LLM-based归一化管道
SSL框架的技术实现核心是一个基于大语言模型(LLM)的归一化器(Normalizer),其功能是将技能工件的完整源文档(通常为Markdown格式)转换为符合SSL规范的类型化JSON图。该归一化器被严格设计为语义提取器而非开放式摘要生成器,确保输出的每个字段都能在源文档中找到对应支持,避免模型幻觉引入不存在的信息。
归一化管道的工作流程包括六个步骤。首先是调度层提取:分析源文档中的元数据部分(YAML frontmatter),提取skill_id、skill_name、skill_goal、intent_signature等调度层核心字段,识别技能的服务意图和输入输出契约。其次是文档分段:将源文档的主体内容分解为语义连贯的场景段落,每个段落对应结构层的一个场景节点。第三是场景属性识别:对每个场景段落进行分析,识别其scene_type(从七种标准类型中选择)、scene_goal、entry_conditions和exit_conditions。第四是逻辑步骤扩展:将每个场景进一步细化为逻辑步骤序列,识别act_type(从十二种逻辑原语中选择)、actor、object、preconditions和effects。第五是跨层链接建立:设置entry_scene_id建立调度层到结构层的入口,设置entry_logic_step_id和contained_logic_steps建立结构层到逻辑层的包含关系。第六是验证与修复:执行完整性约束检查,对失败的输出进行重试,对不支持的字段留空、置空或降级处理。
受限词汇表的设计哲学
SSL框架的受限词汇表设计体现了约定优于配置(Convention over Configuration)的工程哲学。与允许自由文本描述的方式相比,受限词汇表虽然在表达灵活性上有所牺牲,但带来了三个显著优势。
首先是解析可靠性提升:预定义的枚举值消除了自然语言的歧义性,智能体可以精确地理解每个字段的语义,无需进行复杂的自然语言理解。例如,当resource_scope字段值为"CREDENTIALS"时,智能体可以明确地知道该步骤涉及凭证访问,从而触发相应的安全检查流程。
其次是跨技能一致性保障:所有使用SSL表示的技能都遵循相同的词汇约定,使得智能体可以在不同技能之间进行一致的比较和推理。例如,智能体可以可靠地识别所有包含"RECOVER"类型场景的技能,从而建立技能的错误恢复能力图谱。
第三是模式验证支持:类型化JSON配合受限词汇表使得静态模式验证成为可能,可以在技能发布前自动检查表示的合法性和完整性,降低运行时错误的风险。
实验设计与评估结果
研究团队在技能发现和风险评估两个任务上评估了SSL表示的有效性。
技能发现任务(Skill Discovery)旨在测试SSL表示对技能检索和匹配效果的提升。实验收集了6184个公开技能作为候选池,生成了403个任务导向的查询,对比了8种输入表示的效果。结果显示,Desc + SSL-Rich组合(即技能描述加上丰富的SSL表示)表现最佳,平均倒数排名(MRR)从仅使用描述(Desc)的0.573提升至0.707,相对提升23.4%。这一结果证明了SSL表示能够显著增强技能与查询之间的语义匹配精度,特别是在意图签名、输入输出契约等结构化信息的辅助下,智能体可以更准确地判断技能的相关性。
风险评估任务(Risk Assessment)旨在测试SSL表示对技能安全属性识别效果的提升。实验分层采样了500个技能,在六个风险维度上进行评分,对比了5种输入表示的效果。结果显示,Full SKILL.md + SSL组合(即完整的技能文档加上SSL表示)达到最佳宏F1分数,从仅使用文档(Full SKILL.md)的0.744提升至0.787,相对提升5.8%。这一结果证明了SSL表示中的资源范围、资源目标、敏感资源访问标记等字段能够有效支持自动化风险评估。
性能与效率考量
SSL表示在提升精度的同时也引入了额外的计算开销。归一化管道需要调用LLM进行文档分析和结构化转换,这对于大规模技能仓库的批量处理而言是一个不可忽视的成本因素。然而,这种前期转换成本可以被视为运行时查询效率的投资:通过将非结构化文本转换为结构化JSON,智能体在技能发现阶段可以进行更高效的向量检索和相似性计算,避免了在运行时反复解析自然语言描述的开销。
从存储效率角度看,SSL表示通常比原始Markdown文档更加紧凑,因为其消除了自然语言中的冗余表达和格式标记,保留了核心的结构化信息。然而,当技能包含大量逻辑步骤时,SSL表示的大小可能接近甚至超过原始文档,这需要在使用时进行权衡。
应用场景与行业实践
技能发现与检索优化
SSL框架最直接的应用场景是技能仓库的智能检索。在当前的AI智能体生态系统中,技能仓库(如ClawHub、skills.sh)规模迅速膨胀,智能体面临在海量候选技能中快速定位合适技能的挑战。2026年2月Snyk的审计显示,仅在ClawHub和skills.sh两个平台上就有数千个公开技能,而实际可用的技能数量可能远超过这一数字。
SSL的调度层为技能检索提供了多维索引能力:智能体可以基于intent_signature进行意图匹配,基于expected_inputs和expected_outputs进行接口兼容性检查,基于control_flow_features进行能力偏好筛选,基于dependencies进行依赖满足性验证。这种多维检索能力显著提升了技能发现的效率和准确性,避免了传统关键词匹配方法的局限性。
风险评估与合规审计
随着AI智能体在企业级应用中的部署,技能安全性已成为监管和合规的关键关注点。2026年2月Snyk发布的ToxicSkills报告揭示了严峻的安全形势:在扫描的3984个技能中,36.82%存在至少一个安全漏洞,13.4%存在高危问题,已确认76个技能包含恶意载荷,其中8个在报告发布时仍公开存在于clawhub.ai平台。
SSL框架的逻辑层为自动化风险评估提供了结构化基础。resource_scope和resource_target字段明确记录了技能访问的资源类型和具体目标,使得智能体可以在调用技能前进行权限检查;preconditions和effects字段捕获了动作的前置条件和预期效果,支持形式化验证;act_type字段的标准化原语使得可以建立基于动作类型的风险评分模型。SSL框架的风险评估实验已经证明,结合SSL表示可以显著提升风险识别的准确性,宏F1从0.744提升至0.787。
医疗领域的应用前景
AI智能体在医疗健康领域的应用是2026年最具潜力的方向之一。根据波士顿咨询集团(BCG)2026年1月发布的报告,AI智能体正在从多个维度变革医疗健康行业。在患者端,近半数美国成年人使用健康应用,约三分之一使用可穿戴健康设备,医疗服务方正利用AI工具整合这些个人设备数据、基因信息和电子病历,提前预测健康问题并提供个性化解决方案。
在医疗服务提供方端,AI临床助手(Clinical Copilots)可以即时整合患者数据、症状和最新研究成果,辅助医生进行诊断决策,减少诊断错误。这类应用场景对技能表示提出了严格要求:技能需要明确记录数据来源、处理流程、验证步骤和潜在风险,这正是SSL框架的设计目标。通过SSL表示,临床助手技能可以清晰地展示其访问了哪些患者数据(resource_scope: USER_DATA)、执行了哪些推理步骤(scene_type: REASON)、以及如何进行结果验证(scene_type: VERIFY),从而满足医疗行业的可解释性和可审计性要求。
制造业与工业自动化的实践
2026年1月Infor发布的报告指出,智能体式AI(Agentic AI)正在革命性地改变工业制造业。在这一领域,AI智能体被用于设备监控、预测性维护、生产调度、质量控制等任务,这些任务通常涉及与物理系统的交互,对安全性和可靠性要求极高。
SSL框架的结构化表示能力可以支持工业技能的标准化和互操作性。例如,一个"设备故障诊断"技能可以通过SSL表示明确其执行流程:准备阶段(PREPARE)收集设备状态信息,获取阶段(ACQUIRE)加载历史维修记录,推理阶段(REASON)分析故障原因,执行阶段(ACT)生成维修建议,验证阶段(VERIFY)确认诊断准确性。这种清晰的流程表示不仅便于人工审核和验证,也支持不同厂商的智能体系统之间的技能交换和复用。
安全挑战与治理框架
技能生态系统的安全态势
AI智能体技能生态系统在2026年初面临着严峻的安全挑战。2026年2月Snyk发布的ToxicSkills审计报告是首个针对AI智能体技能生态系统的全面安全研究,其发现触目惊心:在扫描的ClawHub和skills.sh平台的3984个技能中,36.82%(1467个)存在至少一个安全漏洞,13.4%(534个)包含至少一个高危安全问题,经人机验证确认有76个技能包含恶意载荷,用于凭证窃取、后门安装和数据外泄,其中8个恶意技能在报告发布时仍公开存在于clawhub.ai平台。
更为严重的是攻击技术的演进:91%的已确认恶意技能同时使用了提示注入(Prompt Injection)和传统恶意代码技术,能够绕过AI安全机制和传统安全工具。主要攻击技术包括外部恶意软件分发(通过密码保护的ZIP文件逃避检测)、混淆数据外泄(使用base64或Unicode编码的命令窃取用户数据)、安全禁用与破坏意图(指示智能体禁用安全措施、修改系统配置、删除关键文件)。
OWASP Agentic Skills Top 10风险框架
针对技能安全威胁的严峻形势,OWASP基金会于2026年3月发布了Agentic Skills Top 10(AST10)安全框架,这是首个专门针对AI智能体技能的安全指南。该框架总结了2026年初发生的一系列安全事件:1月的ClawHavoc活动涉及1184个恶意技能,攻击者在3天内向ClawHub上传341个恶意技能,目标数据包括交换API密钥、钱包私钥、SSH凭证、浏览器密码和.env文件;2月的Oasis Security披露了ClawJacked漏洞(CVE-2026-28363,CVSS 9.9),恶意网站可无速率限制暴力破解本地WebSocket连接,静默劫持本地OpenClaw实例。
AST10框架识别了十大安全风险:
- AST01 恶意技能:通过Merkle根签名、注册表扫描缓解,现实案例包括ClawHavoc(1184个恶意技能)和ToxicSkills(76个恶意载荷)
- AST02 供应链妥协:通过注册表透明度、来源追踪缓解,现实案例包括ClawHub投毒事件和Claude Code CVE-2025-59536
- AST03 过度权限技能:通过最小权限清单、模式验证缓解,Snyk发现280+泄露凭证的技能
- AST04 不安全元数据:通过静态分析、清单lint工具缓解
- AST05 不安全反序列化:通过安全解析器、沙箱加载缓解
- AST06 弱隔离:通过容器化、Docker沙箱缓解,SecurityScorecard确认超过135000个OpenClaw实例公开暴露
- AST07 更新滞后:通过不可变固定版本、哈希验证缓解
- AST08 扫描能力不足:通过语义+行为多工具流水线缓解
- AST09 无治理:通过技能清单、智能体身份控制缓解
- AST10 跨平台复用:通过通用YAML格式缓解
SSL框架的安全增强潜力
SSL框架的结构化表示特性为应对上述安全挑战提供了新的可能性。首先是静态安全分析的支持:类型化JSON表示使得可以建立基于模式的安全规则引擎,自动检测危险的资源访问模式(如CREDENTIALS资源范围与TRANSFER动作的组合)。其次是可审计性的提升:逻辑层的preconditions和effects字段提供了动作语义的形式化描述,支持基于信息流分析的数据泄露检测。第三是权限最小化的实施:调度层的dependencies字段和逻辑层的resource_scope字段使得智能体可以在调用技能前进行细粒度的权限检查,拒绝访问超出授权范围的资源。
然而,SSL框架本身并不能解决所有安全问题。恶意技能可以构造虚假的SSL表示来隐藏其恶意意图,例如声明其仅访问MEMORY资源但实际上执行外部网络请求。因此,SSL表示需要与运行时监控和行为验证相结合,形成纵深防御体系。
技术对比与定位分析
技能(Skills)与工具(Tools)的架构分野
AI智能体领域中"技能"与"工具"的概念区分是当前架构演进的核心议题。根据Arcade.dev 2026年4月发布的分析,工具是具备明确定义输入、输出和副作用的可执行函数,智能体调用工具时会对现实世界产生实际影响,如查询数据库、调用API、写入文件;技能则是封装的专业知识,用于塑造智能体思考和解决问题的方式,不会直接执行代码,而是提供上下文、指令、领域知识和行为模式。
这一区分在实践中产生了两种对立的架构范式:
- 工具主导架构(Tool-Centric Architecture):智能体本身相对通用,智能来源于设计精良的工具与清晰的接口,智能体的核心工作是选择和编排工具,这是OpenAI的函数调用和LangChain工具包采用的模式
- 技能主导架构(Skill-Centric Architecture):智能通过专业知识和行为模式内置在智能体自身中,工具仅作为简单实用程序,智能体本身就知晓如何处理特定领域的问题,这是Anthropic的Agent Skills采用的模式
从Token使用效率角度看,技能作为基于提示词的形式,可在无需Schema开销的情况下编码领域专业知识。Anthropic工程团队发现,单个GitHub MCP服务器暴露90多个工具时,在模型开始推理前需要消耗超过50000个Token的JSON Schema。相比之下,通过让智能体编写代码调用工具而非提前加载所有定义的"代码执行"方案,可将原本150000Token的工作流缩减至约2000Token。从安全边界角度看,工具需要认证、授权和严格的操作范围限定,存在工具定义被篡改和工具劫持的风险;技能作为基于提示词的形式不存在同类攻击面,但也无法脱离工具执行实际动作。
与MCP(Model Context Protocol)的关系
模型上下文协议(MCP)是Anthropic于2025年推出的开放协议,旨在标准化AI模型与外部数据源、工具之间的集成方式。MCP定义了一套统一的接口规范,使得不同的工具和数据源可以以一致的方式被AI模型访问。Agent Skills与MCP之间存在互补关系:MCP解决了工具和数据的连接标准化问题,而Agent Skills解决了专业知识的封装和复用问题。
Anthropic的长期愿景是让Skills与MCP协同工作:通过MCP连接外部工具和软件,通过Skills教智能体更复杂的涉及这些外部工具的工作流程。例如,一个"数据分析"技能可以包含如何使用MCP连接的SQL数据库、可视化库和报告生成工具的详细指导,而不仅仅是简单的工具调用定义。Agent Skills可以进一步增强这一协同:通过技能内封装的专业知识和工作流模式,智能体可以理解任务执行流程,从而在MCP工具失败时进行智能恢复,或在多个MCP工具之间进行协调。
与传统知识表示方法的比较
SSL框架与AI领域传统的知识表示方法存在深刻的联系与区别。与PDDL(Planning Domain Definition Language)相比,PDDL是一种形式化的规划语言,用于表达经典AI规划问题中的领域知识,强调动作的预条件、效果和目标状态的形式化描述;SSL则是一种面向LLM智能体的半形式化表示,保留了自然语言的灵活性,同时通过受限词汇表提供了结构化的锚点。PDDL适用于确定性规划和形式化验证,SSL适用于与神经网络的协同和渐进式语义理解。
与行为树(Behavior Trees)相比,行为树是一种用于游戏AI和机器人控制的控制结构,通过选择器、序列器等节点类型表达复杂的控制流逻辑;SSL的场景转换规则(next_scene_rules)与行为树有相似之处,但SSL更强调语义层次的分明(调度-结构-逻辑三层解耦),而行为树通常将所有逻辑扁平化在单一树结构中。行为树更适合实时控制和确定性执行,SSL更适合技能的理解、比较和审计。
与知识图谱(Knowledge Graphs)相比,知识图谱强调实体、关系和属性的图结构化表示,通常基于本体论进行模式定义;SSL的JSON图表示可以被视为一种特定领域的知识图谱,但其模式更加固定(三层结构、受限词汇表),专门面向技能表示而非通用知识。SSL的设计目标不是构建通用的世界知识库,而是为智能体技能提供可操作的、可验证的接口契约。
局限性与未来研究方向
当前研究的已知局限
SSL框架的研究论文明确指出了当前工作的若干局限。首先是归一化器的准确性问题:基于LLM的归一化器虽然能够将自然语言转换为结构化表示,但在处理复杂或模糊的技能描述时仍可能出现错误,特别是在边界情况和领域特定术语的处理上。其次是受限词汇表的覆盖性局限:预定义的七种场景类型和十二种逻辑原语虽然覆盖了常见的技能模式,但可能无法充分表达某些高度专业化或创新的技能类型,需要在实践中不断扩展词汇表。
第三是表示的完备性问题:SSL表示旨在成为技能的"机器可读摘要",而非技能完整语义的等价表示。某些隐含在文本描述中的微妙信息可能在结构化转换过程中丢失,特别是对于依赖语境和常识推理的技能。因此,SSL被定位为源文档的补充而非替代,在关键决策场景下仍需要参考原始文本。
第四是开源实现的缺失:论文中提到的GitHub仓库(COOLPKU/SSL)在检索时为空,缺乏可参考的开源代码实现,这使得其他研究者难以复现和验证该框架。
开放的研究问题
SSL框架的提出揭示了一系列有待深入研究的开放问题。首先是技能表示的自动化生成:当前的归一化管道依赖通用的LLM能力,是否可以训练专门的模型来提升特定领域技能的归一化准确性?是否可以设计交互式界面,让人类专家在LLM生成的基础上进行微调和确认?
其次是技能组合与编排:单个技能的表示只是第一步,多个技能的组合和编排才是智能体系统的核心能力。如何在SSL表示的基础上支持技能的动态组合、条件分支和并行执行?如何检测和解决技能之间的冲突和冗余?
第三是技能的持续演化:技能不是静态的工件,而是在使用过程中不断演化的实体。如何基于执行反馈自动更新SSL表示?如何管理技能的版本演化,确保向后兼容性?如何识别和淘汰过时或低质量的技能?
第四是跨平台互操作性:虽然SSL采用了通用的JSON格式,但不同智能体平台(Claude、OpenAI、Google等)的技能生态系统存在差异。如何建立跨平台的技能表示标准,实现技能的可移植性?SSL是否可以成为这一标准化的基础?
未来研究方向
基于当前研究的发现,未来的研究可以沿着以下方向深入。首先是神经符号融合的深度探索:SSL框架展示了LLM与结构化表示结合的可能性,但这一融合的潜力远未充分挖掘。未来的研究可以探索如何将神经网络的语义理解与符号推理的精确性更紧密地结合,例如通过神经符号推理引擎来验证SSL表示的逻辑一致性,或通过神经网络学习来扩展受限词汇表。
其次是技能安全的形式化验证:当前的安全评估主要依赖基于模式匹配和启发式规则的方法。未来的研究可以探索如何将SSL表示转换为形式化规范,利用模型检测或定理证明技术来验证技能的安全属性,例如数据流分析、权限检查和信息流控制。
第三是大规模技能生态系统的治理:随着技能数量的爆炸式增长,技能仓库的管理、发现、评估和治理将成为关键挑战。未来的研究可以探索基于SSL表示的技能本体构建、技能质量评估指标、技能推荐系统和技能市场机制。
第四是人机协同的技能工程:技能的创建和优化是一个需要人类专业知识的复杂过程。未来的研究可以探索如何设计人机协同的界面和工作流,让领域专家能够高效地创建、验证和改进SSL表示的技能,降低技能工程的门槛。
结论与启示
调度-结构-逻辑表示框架(SSL)代表了智能体技能表示领域的重要理论和技术进步。通过借鉴Schank和Abelson在1970年代提出的经典知识表示理论,并将其与当代大语言模型的语义理解能力相结合,SSL框架为从非结构化技能文本到机器可解析结构的标准化映射提供了可行的技术路径。其核心创新——三层解耦的表示架构(调度层、结构层、逻辑层)和受限词汇表设计——既保留了自然语言的表达灵活性,又提供了符号系统的精确性和可验证性,体现了神经符号AI的融合趋势。
实验评估表明,SSL框架能够显著提升技能发现的准确性(MRR从0.573提升至0.707)和风险识别的可靠性(宏F1从0.744提升至0.787),为构建更高效、更安全的智能体技能生态系统奠定了基础。SSL框架的结构化资源访问记录和流程可视化特性,使其在理论上具备应用于医疗、制造业等高风险领域的潜力,尽管当前实证研究主要集中在技能发现与风险评估任务。
然而,AI智能体技能生态系统的安全形势依然严峻。2026年初的一系列安全事件,包括ClawHavoc恶意技能活动和ToxicSkills审计发现,揭示了当前技能生态在供应链安全、权限管理和治理机制方面的重大缺陷。SSL框架虽然在技术上为安全增强提供了可能性,但技能安全的根本解决需要行业层面的协作:建立标准化的安全审计流程、设计有效的技能签名和验证机制、构建可信的技能分发渠道、以及制定全面的技能治理框架。
从技术演进的角度看,SSL框架的提出契合了当前智能体架构从"宽智能体"(单一智能体搭配多个工具)向"深度智能体"(专业化工作流的分层图)转变的行业趋势,为这一演进提供了结构化表示层面的技术支撑。在这一趋势下,技能不再仅仅是智能体可调用的功能模块,而是封装了专业知识、执行策略和最佳实践的认知工件(Cognitive Artifacts)。SSL框架通过结构化的表示方法,使得这些认知工件可以被机器理解、比较、组合和验证,为下一代智能体系统的构建提供了重要的基础设施。
对于研究人员而言,SSL框架开辟了一系列有价值的研究方向:神经符号融合的深度探索、技能表示的自动化生成、跨平台互操作性标准的建立、以及大规模技能生态系统的治理机制。对于从业者而言,SSL框架提供了一种可行的方法来构建更可解释、更可审计、更安全的智能体应用,特别是在医疗、金融、制造等对可靠性要求极高的领域。对于政策制定者而言,SSL框架的安全增强潜力值得高度关注,其结构化的资源访问记录和风险评估能力可以为AI智能体的监管和合规提供技术支撑。
展望未来,随着AI智能体从实验性工具向生产级系统的演进,技能表示标准化将成为行业发展的关键瓶颈。SSL框架虽然只是一个研究原型,但其设计理念和技术路线为这一标准化进程提供了重要的参考。无论是作为独立的技术方案被吸收,还是作为灵感来源影响其他标准的设计,SSL框架都将在智能体技能表示的演进历史中占据重要的一席之地。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)