企业级 Agent SKILL 最佳实践

程序猿李巡天

458人浏览 · 2026-03-27 17:53:41

程序猿李巡天 · 2026-03-27 17:53:41 发布

最近，真的是屁颠屁颠地使用Openclaw作为业务核心为客户打造智能体的工作流程，包括组织、业务、技术三个全面的转型。同时，由于OpenAI的Sora下线，年初刚刚建立的AI漫剧工作流，资产库以及提示词都需要转换成替代品。还有，参加了一个专门为中小企业打造智能转型的组织当讲师。

尽管看似三件事，但被问到最多的是如何将自己的业务流程SOP写成Skill，以及一个企业如何管理这些SKILL。为此，在这里将Claude给出最佳编写和管理Skill整理一下，重点的内容记录一下。详细请参考如下：

https://platform.claude.com/docs/zh-CN/agents-and-tools/agent-skills/best-practices

在这放上两个目前的好玩SKILL案例：

第一，Claude Skill 有哪些最佳实战

编写 Agent Skills 的最佳实践涵盖了从核心原则、结构设计到代码规范和测试评估的多个方面。以下是关键的最佳实践总结：

1. 核心编写原则

保持极致简洁 (Concise is key)

上下文窗口是共享资源，Skill 的内容需要与系统提示、对话历史等竞争 Token 空间。
假设 Claude 已经很聪明

只添加 Claude 还不具备的上下文信息，避免冗余解释。
保持术语一致性

在整个 Skill 中选择一个术语并坚持使用（例如始终使用“API endpoint”或“extract”），以帮助 Claude 准确理解指令。

2. 结构与内容组织

使用渐进式披露模式

将核心指令放在主文件（SKILL.md）中，而将高级功能、表单填写指南、API 参考或使用示例等详细信息分离到单独的文件中（如 FORMS.md、reference.md 等），让 Claude 仅在需要时加载。
控制 Token 预算

为了获得最佳性能，主文件 SKILL.md 的正文应保持在 500 行以内。
避免深层嵌套

文件引用应保持在“一层深度”，例如让 SKILL.md 直接指向参考文件，避免文件间的多层级嵌套指向。
编写精准的 YAML 描述

name 字段最多 64 个字符（仅限小写字母、数字和连字符），description 字段最多 1024 个字符。描述中必须明确说明该 Skill 能做什么以及何时使用它。

3. 工作流与模式设计

提供默认选项与逃生出口

如果涉及多种工具或库，不要列出过多选项让 Claude 自行决定，这会导致混淆。应直接提供一个默认推荐（如使用 pdfplumber），并为特殊情况提供备用方案（如为扫描版提供 pdf2image）。
建立明确的工作流与反馈循环

对于复杂任务，应提供包含具体步骤（Step 1, Step 2…）的检查清单或工作流，并包含验证和反馈环节（例如“如果验证失败，请返回步骤 2”）。
使用通用模式

根据需求严格程度使用**模板模式（Template pattern）来规范输出格式，或使用条件工作流模式（Conditional workflow pattern）**来指导 Claude 在不同场景（如创建新内容与编辑现有内容）下采取不同操作。

4. 代码与脚本规范

明确声明依赖项

不要假设工具或包已经安装，应明确列出需要的依赖项（如 pip install pypdf）。
脚本应直接解决问题

包含清晰的错误处理机制，避免出现“魔法数字/未解释的常量”，并确保为关键操作提供验证步骤。
避免使用 Windows 风格路径

在脚本和指令中，应始终使用正斜杠（/）。

5. 测试与持续迭代

优先构建评估用例

至少创建三个包含明确 expected_behavior（预期行为）的评估用例。
跨模型与真实场景测试

确保 Skill 在实际业务场景中经过测试，并且兼容 Haiku、Sonnet 和 Opus 等多个模型。
观察与迭代

与 Claude 共同迭代开发，并仔细观察它在执行时是如何浏览和调用 Skills 的，以此来优化设计。

第二，如何为复杂的任务编写可验证的工作流？

为复杂的任务编写可验证的工作流，核心在于将宏观任务拆解为结构化的步骤，并在关键节点强制加入验证机制与反馈循环。根据文档，以下是构建此类工作流的最佳实践：

1. 拆分为明确的、带编号的步骤或检查清单

不要给出长篇大论的指令，而是使用具体的步骤（例如 Step 1, Step 2）或检查清单来引导 Claude 线性、无遗漏地执行任务。例如，在研究综合（Research synthesis）工作流中，可以明确划分为：阅读文档、识别关键主题、交叉验证主张、创建结构化总结以及最终验证引用这几个严谨的步骤。

2. 建立可验证的中间产物 (Intermediate Outputs)

对于极其复杂的流程，在最终输出之前，应要求生成可以被独立验证的中间文件。例如，在处理复杂的 PDF 表单填写工作流时：

首先让模型运行分析脚本并将提取出的表单字段结构保存为 fields.json。
随后在映射数据后，再去验证这个 JSON，而不是直接生成最终的 PDF。

3. 强制执行特定的验证步骤

在进行下一步（尤其是打包、覆盖或生成最终文件等关键性操作）之前，明确要求 Claude 运行验证脚本或对照标准进行检查。例如：

运行映射验证：python scripts/validate_fields.py fields.json。
文档编辑验证：明确指令“立即验证：python ooxml/scripts/validate.py”。

4. 包含明确的反馈循环 (Feedback loops)

这是确保任务“可验证且能自我修正”的最重要一环。你必须明确告诉 Claude 如果验证失败该怎么办，要求它在质量过关后才能进入下一步。

明确的回退路径

“如果输出验证失败，请返回步骤 2”。
强约束条件

“如果验证失败：仔细阅读错误信息，修复 XML 中的问题，再次运行验证。只有在验证通过后才继续进行。”
内容审查循环

“如果发现问题：记录具体章节的每个问题，修改内容，再次回顾检查清单”。

5. 针对多分支任务使用条件工作流 (Conditional workflow pattern)

如果复杂任务在不同上下文中的处理方式完全不同，应在工作流的起点要求模型进行判断，并提供对应的工作流分支。例如文档修改任务的步骤 1 可以是：

确定修改类型

创建新内容？

→ 遵循“创建工作流”。
编辑现有内容？

→ 遵循“编辑工作流”。

通过结合步骤化结构、中间产物、明确的脚本验证以及严格的失败重试逻辑，你可以为 Agent 设定清晰的边界和查错机制，极大提高其完成复杂任务的准确率与可靠性。

第三，如何使用视觉分析来增强 Skill 的表单处理能力？（这两天经常遇到-核心：看到不是读到）

根据提供的文档，使用视觉分析来增强 Skill 的表单处理能力（尤其是表单布局分析）主要通过以下几个关键步骤实现：

1. 将表单转换为图像 (Convert PDF to images)

在处理复杂的 PDF 表单时，第一步是将 PDF 页面转换为图像格式。

2. 图像分析与字段识别 (Analyze each page image to identify form fields)

对转换后的每一页图像进行分析，从而定位表单中的各个字段。

3. 利用 Claude 的视觉功能 (Claude can see field locations and types visually)

通过视觉分析模式，Claude 可以直观地“看到”表单的结构，直接从图像中识别出字段的具体物理位置及其类型（例如文本框、复选框等）。这种方式能够极大地弥补纯文本提取在复杂排版中的不足。

结合实用脚本 (Utility scripts) 进一步增强

为了配合视觉与布局分析，最佳实践还建议为 Claude 提供配套的工具脚本来确保处理的准确性：

使用 analyze_form.py 脚本来提取 PDF 中的所有表单字段并输出结构化格式。
使用 validate_boxes.py 脚本来检查提取出的边界框（bounding boxes）是否发生重叠，以验证视觉和布局定位的准确度。

第四，创建SKILL后，如何测试和评估

评估和测试创建后的 Agent Skill 是确保其高效运行的关键。您可以根据以下几个主要步骤和最佳实践来进行评估：

1. 构建结构化的评估用例 (Build evaluations first)

建议您优先构建具体的评估用例来测试 Skill。一个完整的评估用例可以采用结构化的格式（例如 JSON），包含以下要素：

skills

指定需要测试的 Skill（例如 ["pdf-processing"]）。
query

模拟用户的输入指令（例如 "提取此 PDF 文件中的所有文本并保存到 output.txt"）。
files

提供给模型进行测试的具体文件路径（例如 ["test-files/document.pdf"]）。
expected_behavior

明确列出多项具体且可验证的预期行为。例如，“成功使用适当的库读取 PDF”、“无遗漏地提取所有页面文本”以及“以清晰易读的格式保存到 output.txt”。

2. 遵循严格的测试检查清单 (Testing Checklist)

在完成 Skill 编写后，请对照以下测试标准进行验证：

用例数量

至少创建 3 个评估用例。
多模型兼容

使用您计划使用的所有模型进行测试，确保 Skill 在 Haiku、Sonnet 和 Opus 模型上都能正常工作。
真实场景

必须在真实的使用场景（real usage scenarios）下进行测试，而不仅仅是简单的理想环境。
团队反馈

如果适用，收集并整合团队人员的反馈意见。

3. 持续观察与迭代 (Evaluation and iteration)

与 Claude 共同迭代

Skill 的开发不是一蹴而就的，建议在测试过程中与 Claude 一起不断迭代优化。
观察导航行为

在测试时，仔细观察 Claude 是如何浏览和调用这些 Skill 的。如果发现 Claude 在查找特定文件或执行步骤时遇到困难，您就需要回过头去优化 Skill 的描述、文件结构（例如检查是否过度嵌套）或工作流设计。

第五，企业级部署SKILL需要有哪些注意

在企业级部署 Agent SKILL 时，需要从安全治理、质量评估、生命周期管理以及版本控制等多个维度进行严格的把控。以下是企业级部署时需要特别注意的核心事项：

1. 严格的安全审查与风险控制

将 SKILL 部署到生产环境前，必须像对待生产系统软件一样进行安全审计，特别是对待来自第三方或不受信任来源的 SKILL。

风险指标评估

重点关注是否包含代码执行脚本（如 .py, .sh 等）、网络访问模式（获取外部 URL 或 API 调用）、硬编码凭据（API 密钥或密码）、越权的文件系统访问，以及对 MCP 服务器和系统工具的调用。
审查清单

在沙箱环境中运行验证脚本行为，检查是否存在要求 Claude 忽略安全规则、隐藏操作或泄露数据的对抗性指令，并确保所有凭据都通过环境变量安全管理，绝不能硬编码在文件中。

2. 建立部署前的全面评估关卡

不当的 SKILL 可能会错误触发或干扰其他 SKILL 的运行。在部署前，必须对以下维度进行测试关卡审批：

评估维度

验证触发准确性（是否在正确的查询时激活）、隔离行为、共存性（是否会降低其他活跃 SKILL 的性能）、指令遵循度以及输出质量。
评估要求

要求作者为每个 SKILL 提交包含 3-5 个代表性查询的评估套件，涵盖应当触发、不应当触发以及模糊边界的情况，并在组织使用的多个模型（Haiku、Sonnet、Opus）上进行充分测试。

3. 大规模组织的召回限制与角色化捆绑

当系统中有大量 SKILL 活跃时，可能会导致模型无法选择正确的 SKILL 或遗漏相关的 SKILL。

召回限制

每次 API 请求最多支持加载 8 个 SKILL。如果超出单次请求支持的数量，应考虑将狭窄的 SKILL 合并为更广泛的 SKILL，或基于任务动态路由请求。
从具体到合并

鼓励最初建立针对特定工作流的狭窄 SKILL，当经过评估确认合并后性能不下降时，再将其打包合并。
基于角色的捆绑包

将相关的 SKILL 按照组织角色（如销售团队、工程团队、财务团队）进行分组打包，使每个用户的活跃 SKILL 集保持高度聚焦。为每个 SKILL 建立内部注册表，记录其用途、负责人、版本、依赖和评估状态。

4. 版本控制与跨平台分发策略

单一事实来源

将所有的 SKILL 目录自然映射到 Git 中进行源代码控制，以实现历史跟踪、拉取请求（PR）审查和回滚。
版本管理

在生产环境中，应将 SKILL 固定到特定版本。任何更新都应视为需要完整安全审查的新部署，并保留上一版本作为备用，以便在评估失败时立即回滚。在部署时可计算已审查 SKILL 的校验和进行完整性验证。
跨平台注意事项

自定义 SKILL 不会在各个平台间自动同步（例如上传到 API 的 SKILL 在 claude.ai 或 Claude Code 中不可用）。如果企业跨多平台部署，需依托 Git 作为唯一事实来源，建立自己的同步机制来保持各平台一致性。

Skill 生命周期管理

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性