很多人用 OpenClaw 只停留在基础对话层面:

  1. 让它查资料,只会复述网页标题
  2. 让它记需求,下次见面又从零开始
  3. 让它操作网页,它说"这个我做不到"

⚠️ 核心问题:不会用 Skills,效率没有提升

一、Skills 到底是什么?

在开始深入探索之前,我们需要先统一认知:Skills 不仅仅是一个功能,它是 AI 从“聊天机器人”进化为“智能体(Agent)”的关键桥梁。 本章将从起源、核心机制、概念辨析以及实战推荐四个维度,带你彻底读懂 Skills。

1. 起源:从“对话”到“执行”的进化

Skills 的概念最早由 Anthropic 公司 提出,作为其大模型 Claude 能力扩展的核心机制。

  • 背景痛点:传统的 AI 对话中,用户需要反复输入指令,且 AI 执行流程不稳定,常常“懂道理但不会做事”。
  • 设计初衷:解决上述痛点,让 AI 从被动的“问答者”转变为主动的“执行者”。
  • 演进意义:它的出现标志着 AI 应用开发从 Prompt Engineering(提示词工程)Skill Engineering(技能工程) 的范式转移。通过封装标准化的技能包,让 AI 在特定领域从“通才”变成“专家”。

2. 核心功能:解构 Skills 的工作原理

📦 什么是 Skills?

简单来说,Skills 是一个打包好的“能力插件”。它通常以文件夹形式存在,包含三个核心要素,让 AI 知道何时以及如何调用能力:

组件 文件示例 作用
元数据 skill.yaml 技能的“名片”,包含名称、描述、触发关键词
说明书 SKILL.md 用自然语言描述使用场景、操作步骤、注意事项
执行体 script.py / ref.pdf Agent 可执行的具体代码、参考文档或上下文文件

💡 一句话理解:如果把 Agent 比作大脑,Skills 就是一套套可复用的“武功秘籍”,让大脑在特定场景下能调用具体的招式。

⚙️ 工作原理:渐进式加载机制

为避免无效 Token 消耗,Skills 采用三层分级加载,按需分配注意力:

级别 加载时机 核心内容 Token 消耗
L1 元数据 始终加载 技能名片(名称 + 描述),用于意图匹配 极低 (~100)
L2 说明书 触发时加载 SKILL.md 操作指南,指导执行逻辑 中等 (<5k)
L3 执行体 按需加载 脚本/资源文件,真正执行任务 几乎为 0*

🔄 调用流程

一个典型的 Skills 调用过程如下:

  1. 意图匹配:Agent 分析用户需求,匹配最相关的 Skill 元数据。
  2. 读取手册:加载对应 SKILL.md,理解执行步骤。
  3. 按需执行:调用脚本/工具完成具体操作(如运行 Python 脚本、读取文件)。
  4. 反馈结果:返回最终输出或请求人工介入。

3. 与其他概念的对比

在 Agent 生态中,Skills 常与 MCP、Custom Instructions 等概念混淆。它们的核心区别如下:

概念 核心特点 适用场景 一句话区分
Skills 模型自动匹配 + 流程化封装 + 渐进加载 标准化任务、可复用工作流 解决“数据怎么用”
MCP (模型上下文协议) 连接外部数据源/工具的基础协议 让 AI 访问实时数据、数据库或 API 解决“数据怎么来”
Custom Instructions 全局/项目级静态偏好设置 通用沟通风格、项目背景上下文 解决“我是谁/偏好是什么”
Workflow (工作流) 固定节点顺序、高确定性 金融/医疗等强合规、固定流程场景 解决“步骤必须固定”

总结:MCP 是管道,Skills 是管道里的处理工厂,而 Workflow 是固定的流水线。Skills 更适合需要 AI 自主判断的灵活场景。


4. 🔥 3 个必装高下载量 Skill

社区生态是 Skills 最迷人的地方。你不需要从零开始编写指令,直接复用高手们验证过的技能包,就能瞬间提升 AI 的生产力。

以下是目前社区下载量最高、口碑最好的 3 个 Skills,建议优先安装:

1️⃣ self-improving-agent

  • 核心作用让 AI 记住错误,持续改进。
  • 推荐理由:它赋予 AI“记忆能力”。当你纠正它的错误后,它会将经验写入技能包,下次不再犯同样的错。这是让 AI 越用越顺手的关键,解决了大模型“金鱼记忆”的痛点。

2️⃣ Summarize

  • 核心作用一键总结网页 / PDF / 视频 / 音频。
  • 推荐理由:信息过载时代的“减负神器”。它不只是总结文本,还能处理多模态内容。无论是长篇报告还是会议录音,都能快速提取核心要点。

3️⃣ Agent Browser

  • 核心作用让 AI 真正操作浏览器。
  • 推荐理由:赋予 AI“眼睛”和“手”。它能真正打开浏览器、搜索信息、点击按钮、抓取数据。这是实现真正自动化操作(如自动填表、数据抓取)的基础设施。

💡 博主建议:不要贪多。刚开始只需安装这 3 个核心技能,覆盖记忆、输入、操作三大维度,足以解决 80% 的日常自动化需求。


二、核心部分:3 个 Skill 详解

1. self-improving-agent

简介

这是一个自我改进系统,帮助 AI 助手记录错误、学习经验和用户反馈,实现持续改进。就像一个"错题本" + “成长日记”。

核心功能
  • 记录错误:命令失败、API 错误、工具异常
  • 记录更正:用户纠正时的正确做法
  • 记录需求:用户想要但还没有的功能
  • 知识沉淀:将经验提升为长期记忆
三个日志文件
文件名 用途
LEARNINGS.md 学习记录(更正、知识缺口、最佳实践)
ERRORS.md 错误记录(命令失败、异常)
FEATURE_REQUESTS.md 功能需求
如何安装?

非常简单,直接给把skill的链接发给OpenClaw让他安装即可,例如这样(所有skills安装都适用~):

帮我安装这个skill: https://clawhub.ai/pskoett/self-improving-agent
在这里插入图片描述

如何使用?

1. 自动记录(推荐)

当以下情况发生时,系统会自动记录:

触发场景 记录位置
命令执行失败 ERRORS.md
你说"不对"、“错了”、“其实” LEARNINGS.md (correction)
你发现知识过时 LEARNINGS.md (knowledge_gap)
发现更好的做法 LEARNINGS.md (best_practice)
想要某个功能 FEATURE_REQUESTS.md

2. 手动记录

你也可以直接要求记录:

“记录一下:以后处理 JSON 要先检查编码”

3. 查看记录

cat ~/.openclaw/workspace/.learnings/LEARNINGS.md
提升为长期记忆

当某个学习变得广泛适用时,可提升到 workspace 文件:

学习内容类型 提升目标文件
行为/沟通风格 SOUL.md
工作流程 AGENTS.md
工具使用技巧 TOOLS.md
启用 Hook

Hook 是一个自动提醒系统,在每次会话开始时触发。

启用方式:

cp -r ~/.openclaw/workspace/skills/self-improving-agent/hooks/openclaw ~/.openclaw/hooks/self-improvement
openclaw hooks enable self-improvement

启用后会发生什么:

  • ✅ 自动检查:每次会话开始时提醒检查 .learnings/
  • ✅ 上下文感知:根据当前任务查找相关历史记录
  • ✅ 避免重复错误:之前犯过的错,下次会提前知道
  • ✅ 持续进化:经验积累,表现越来越好

简单说:不启用 Hook = 每次见面都从零开始;启用 Hook = 每次见面都记得之前的教训。

实际例子
场景 用户输入 系统行为
你纠正我 “不对,应该用 git rebase 而不是 git merge 记录到 LEARNINGS.md,下次遇到类似情况就知道用 rebase
命令失败 运行 docker ps,但 Docker 没启动 记录到 ERRORS.md,下次先检查 Docker 状态
功能需求 “希望以后能自动备份配置文件” 记录到 FEATURE_REQUESTS.md,后续可以考虑实现

2. Summarize

简介

summarize 是一个快速 CLI 工具,用于总结各种内容:

  • 🌐 网页 — 任意 URL
  • 📄 PDF 文件 — 本地文档
  • 🖼️ 图片 — 带文字的图片
  • 🎧 音频 — 播客、录音
  • 📺 B站 — 视频内容
如何安装?

直接给把skill的链接发给OpenClaw让他安装即可:

帮我安装这个skill: https://clawhub.ai/steipete/summarize
在这里插入图片描述

基本用法
# 总结网页
summarize "https://example.com"

# 总结 PDF
summarize "/path/to/file.pdf"

# 总结视频
summarize "https://youtu.be/dQw4w9WgXcQ"

# 指定模型
summarize "https://example.com" --model openai/gpt-5.2
支持的模型
提供商 环境变量 模型示例
OpenAI OPENAI_API_KEY openai/gpt-5.2
Anthropic ANTHROPIC_API_KEY anthropic/claude-sonnet-4-20250514
xAI XAI_API_KEY xai/grok-3-beta
Google GEMINI_API_KEY google/gemini-3-flash-preview

默认模型:google/gemini-3-flash-preview

实用参数
参数 说明
--length short 简短总结 (其他: medium, long, xl, xxl)
--max-output-tokens 1000 限制输出长度
--extract-only 仅提取内容,不总结 (URL 专用)
--json JSON 格式输出 (机器可读)
--firecrawl auto 使用 Firecrawl 处理被屏蔽的网站
可选配置

配置文件~/.summarize/config.json

{
  "model": "openai/gpt-5.2"
}
实际应用场景
场景 命令示例
快速了解新闻文章 summarize "https://news.example.com/article"
总结技术文档 summarize "/path/to/api-docs.pdf"
提取会议录音要点 summarize "meeting.mp3"
看懂 B站 教程 `summarize “https://bilibili/xxx”
批量处理多个链接 summarize url1 url2 url3 --json

3. Agent Browser

这是什么?

Agent Browser 是一个快速的无头浏览器自动化 CLI 工具,基于 Rust 开发(带 Node.js 回退),让 AI 助手能够通过结构化命令控制浏览器:

  • 🧭 导航网页 — 打开、后退、前进、刷新
  • 🖱️ 模拟交互 — 点击、输入、滚动、拖拽
  • 📸 截图录屏 — 页面快照、PDF、视频录制
  • 📥 提取数据 — 文本、HTML、属性值
如何安装?

直接给把skill的链接发给OpenClaw让他安装即可:

帮我安装这个skill: https://clawhub.ai/TheSethRose/agent-browser
在这里插入图片描述

核心工作流程
# 1. 打开页面
agent-browser open https://example.com    

# 2. 获取交互元素(带引用标记 @e1, @e2...)
agent-browser snapshot -i

# 3. 使用引用进行交互
agent-browser click @e1
agent-browser fill @e2 "输入内容"

# 4. 关闭浏览器
agent-browser close
主要命令整理

🧭 导航类

命令 说明 示例
open 打开网页 agent-browser open https://example.com
back / forward 后退/前进 agent-browser back
reload 刷新页面 agent-browser reload
close 关闭浏览器 agent-browser close

📋 快照类(页面分析)

命令 说明 示例
snapshot 完整可访问性树 agent-browser snapshot
snapshot -i 仅交互元素(推荐) agent-browser snapshot -i
snapshot -c 紧凑输出 agent-browser snapshot -c
snapshot -d <N> 限制深度为 N 层 agent-browser snapshot -d 3
snapshot -s <selector> 限定 CSS 选择器范围 agent-browser snapshot -s "#main"

🖱️ 交互类(使用 @refs)

命令 说明 示例
click 点击元素 agent-browser click @e1
fill 清空并输入 agent-browser fill @e2 "输入内容"
type 直接输入(不清空) agent-browser type @e2 "追加内容"
press 按键 agent-browser press Enter
hover 悬停 agent-browser hover @e1
check / uncheck 勾选/取消复选框 agent-browser check @e1
select 下拉选择 agent-browser select @e1 "value"
scroll 滚动页面 agent-browser scroll down 500
upload 上传文件 agent-browser upload @e1 file.pdf
drag 拖拽 agent-browser drag @e1 @e2

🔍 获取信息类

命令 说明 示例
get text 获取元素文本 agent-browser get text @e1
get html 获取 innerHTML agent-browser get html @e1
get value 获取输入值 agent-browser get value @e1
get attr 获取属性 agent-browser get attr @e1 href
get title / get url 获取标题/URL agent-browser get title

📸 截图 & PDF 类

命令 说明 示例
screenshot 截图到 stdout agent-browser screenshot
screenshot <path> 保存截图 agent-browser screenshot path.png
screenshot --full 整页截图 agent-browser screenshot --full
pdf 保存为 PDF agent-browser pdf output.pdf

🎬 视频录制类

命令 说明 示例
record start 开始录制 agent-browser record start ./demo.webm
record stop 停止并保存 agent-browser record stop

⏱️ 等待类

命令 说明 示例
wait @<ref> 等待元素出现 agent-browser wait @e1
wait <ms> 等待毫秒 agent-browser wait 2000
wait --text 等待文本出现 agent-browser wait --text "Success"
wait --load 等待网络状态 agent-browser wait --load networkidle
高级功能

1. 语义定位器(无需 @refs)

agent-browser find role button click --name "Submit"
agent-browser find text "Sign In" click
agent-browser find label "Email" fill "user@test.com"

2. 状态管理(保存登录态)

# 登录一次,保存状态
agent-browser state save auth.json

# 后续会话直接加载
agent-browser state load auth.json

3. 多会话并行

agent-browser --session test1 open site-a.com
agent-browser --session test2 open site-b.com

4. 网络拦截

agent-browser network route <url> --abort      # 拦截请求
agent-browser network route <url> --body '{}'  # Mock 响应

5. JavaScript 执行

agent-browser eval "document.title"
实际应用场景
场景 用途
自动化登录 填充表单、点击登录、保存会话状态
数据抓取 导航到页面、提取结构化数据
表单提交 自动填写调查问卷、申请表
UI 测试 验证页面元素、截图对比
网站监控 定期检查页面状态、内容变化
演示录制 录制操作视频用于文档
与现有浏览器工具对比
功能 Agent Browser Playwright Puppeteer
CLI 优先设计
AI 友好的结构化输出 部分 部分
引用系统 (@refs)
Rust 核心性能
视频录制 部分
状态保存/加载

结语

工具的价值,不在于"装了多少",而在于"用出组合拳"。

这 3 个 Skill 分别解决:

  1. 记忆进化:避免重复踩坑
  2. 信息提纯:降低认知负荷
  3. 动手执行:突破对话边界

装好 OpenClaw 只是起点,配上这些 Skill,才能真正让 AI 成为你的效率外脑。

💡 小建议:优先启用 self-improving-agent 的 Hook 功能,这是让其他两个 Skill 越用越顺的隐形加速器。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐