你的 OpenClaw 只能对话?3 个 超高下载量 Skill 让“龙虾”真正干活
很多人用 OpenClaw 只停留在基础对话层面:
- 让它查资料,只会复述网页标题
- 让它记需求,下次见面又从零开始
- 让它操作网页,它说"这个我做不到"
⚠️ 核心问题:不会用 Skills,效率没有提升
一、Skills 到底是什么?
在开始深入探索之前,我们需要先统一认知:Skills 不仅仅是一个功能,它是 AI 从“聊天机器人”进化为“智能体(Agent)”的关键桥梁。 本章将从起源、核心机制、概念辨析以及实战推荐四个维度,带你彻底读懂 Skills。
1. 起源:从“对话”到“执行”的进化
Skills 的概念最早由 Anthropic 公司 提出,作为其大模型 Claude 能力扩展的核心机制。
- 背景痛点:传统的 AI 对话中,用户需要反复输入指令,且 AI 执行流程不稳定,常常“懂道理但不会做事”。
- 设计初衷:解决上述痛点,让 AI 从被动的“问答者”转变为主动的“执行者”。
- 演进意义:它的出现标志着 AI 应用开发从 Prompt Engineering(提示词工程) 向 Skill Engineering(技能工程) 的范式转移。通过封装标准化的技能包,让 AI 在特定领域从“通才”变成“专家”。
2. 核心功能:解构 Skills 的工作原理
📦 什么是 Skills?
简单来说,Skills 是一个打包好的“能力插件”。它通常以文件夹形式存在,包含三个核心要素,让 AI 知道何时以及如何调用能力:
| 组件 | 文件示例 | 作用 |
|---|---|---|
| 元数据 | skill.yaml |
技能的“名片”,包含名称、描述、触发关键词 |
| 说明书 | SKILL.md |
用自然语言描述使用场景、操作步骤、注意事项 |
| 执行体 | script.py / ref.pdf |
Agent 可执行的具体代码、参考文档或上下文文件 |
💡 一句话理解:如果把 Agent 比作大脑,Skills 就是一套套可复用的“武功秘籍”,让大脑在特定场景下能调用具体的招式。
⚙️ 工作原理:渐进式加载机制
为避免无效 Token 消耗,Skills 采用三层分级加载,按需分配注意力:
| 级别 | 加载时机 | 核心内容 | Token 消耗 |
|---|---|---|---|
| L1 元数据 | 始终加载 | 技能名片(名称 + 描述),用于意图匹配 | 极低 (~100) |
| L2 说明书 | 触发时加载 | SKILL.md 操作指南,指导执行逻辑 |
中等 (<5k) |
| L3 执行体 | 按需加载 | 脚本/资源文件,真正执行任务 | 几乎为 0* |
🔄 调用流程
一个典型的 Skills 调用过程如下:
- 意图匹配:Agent 分析用户需求,匹配最相关的 Skill 元数据。
- 读取手册:加载对应
SKILL.md,理解执行步骤。 - 按需执行:调用脚本/工具完成具体操作(如运行 Python 脚本、读取文件)。
- 反馈结果:返回最终输出或请求人工介入。
3. 与其他概念的对比
在 Agent 生态中,Skills 常与 MCP、Custom Instructions 等概念混淆。它们的核心区别如下:
| 概念 | 核心特点 | 适用场景 | 一句话区分 |
|---|---|---|---|
| Skills | 模型自动匹配 + 流程化封装 + 渐进加载 | 标准化任务、可复用工作流 | 解决“数据怎么用” |
| MCP (模型上下文协议) | 连接外部数据源/工具的基础协议 | 让 AI 访问实时数据、数据库或 API | 解决“数据怎么来” |
| Custom Instructions | 全局/项目级静态偏好设置 | 通用沟通风格、项目背景上下文 | 解决“我是谁/偏好是什么” |
| Workflow (工作流) | 固定节点顺序、高确定性 | 金融/医疗等强合规、固定流程场景 | 解决“步骤必须固定” |
✅ 总结:MCP 是管道,Skills 是管道里的处理工厂,而 Workflow 是固定的流水线。Skills 更适合需要 AI 自主判断的灵活场景。
4. 🔥 3 个必装高下载量 Skill
社区生态是 Skills 最迷人的地方。你不需要从零开始编写指令,直接复用高手们验证过的技能包,就能瞬间提升 AI 的生产力。
以下是目前社区下载量最高、口碑最好的 3 个 Skills,建议优先安装:
1️⃣ self-improving-agent
- 核心作用:让 AI 记住错误,持续改进。
- 推荐理由:它赋予 AI“记忆能力”。当你纠正它的错误后,它会将经验写入技能包,下次不再犯同样的错。这是让 AI 越用越顺手的关键,解决了大模型“金鱼记忆”的痛点。
2️⃣ Summarize
- 核心作用:一键总结网页 / PDF / 视频 / 音频。
- 推荐理由:信息过载时代的“减负神器”。它不只是总结文本,还能处理多模态内容。无论是长篇报告还是会议录音,都能快速提取核心要点。
3️⃣ Agent Browser
- 核心作用:让 AI 真正操作浏览器。
- 推荐理由:赋予 AI“眼睛”和“手”。它能真正打开浏览器、搜索信息、点击按钮、抓取数据。这是实现真正自动化操作(如自动填表、数据抓取)的基础设施。
💡 博主建议:不要贪多。刚开始只需安装这 3 个核心技能,覆盖记忆、输入、操作三大维度,足以解决 80% 的日常自动化需求。
二、核心部分:3 个 Skill 详解
1. self-improving-agent
简介
这是一个自我改进系统,帮助 AI 助手记录错误、学习经验和用户反馈,实现持续改进。就像一个"错题本" + “成长日记”。
核心功能
- 记录错误:命令失败、API 错误、工具异常
- 记录更正:用户纠正时的正确做法
- 记录需求:用户想要但还没有的功能
- 知识沉淀:将经验提升为长期记忆
三个日志文件
| 文件名 | 用途 |
|---|---|
LEARNINGS.md |
学习记录(更正、知识缺口、最佳实践) |
ERRORS.md |
错误记录(命令失败、异常) |
FEATURE_REQUESTS.md |
功能需求 |
如何安装?
非常简单,直接给把skill的链接发给OpenClaw让他安装即可,例如这样(所有skills安装都适用~):
帮我安装这个skill: https://clawhub.ai/pskoett/self-improving-agent
如何使用?
1. 自动记录(推荐)
当以下情况发生时,系统会自动记录:
| 触发场景 | 记录位置 |
|---|---|
| 命令执行失败 | ERRORS.md |
| 你说"不对"、“错了”、“其实” | LEARNINGS.md (correction) |
| 你发现知识过时 | LEARNINGS.md (knowledge_gap) |
| 发现更好的做法 | LEARNINGS.md (best_practice) |
| 想要某个功能 | FEATURE_REQUESTS.md |
2. 手动记录
你也可以直接要求记录:
“记录一下:以后处理 JSON 要先检查编码”
3. 查看记录
cat ~/.openclaw/workspace/.learnings/LEARNINGS.md
提升为长期记忆
当某个学习变得广泛适用时,可提升到 workspace 文件:
| 学习内容类型 | 提升目标文件 |
|---|---|
| 行为/沟通风格 | SOUL.md |
| 工作流程 | AGENTS.md |
| 工具使用技巧 | TOOLS.md |
启用 Hook
Hook 是一个自动提醒系统,在每次会话开始时触发。
启用方式:
cp -r ~/.openclaw/workspace/skills/self-improving-agent/hooks/openclaw ~/.openclaw/hooks/self-improvement
openclaw hooks enable self-improvement
启用后会发生什么:
- ✅ 自动检查:每次会话开始时提醒检查
.learnings/ - ✅ 上下文感知:根据当前任务查找相关历史记录
- ✅ 避免重复错误:之前犯过的错,下次会提前知道
- ✅ 持续进化:经验积累,表现越来越好
简单说:不启用 Hook = 每次见面都从零开始;启用 Hook = 每次见面都记得之前的教训。
实际例子
| 场景 | 用户输入 | 系统行为 |
|---|---|---|
| 你纠正我 | “不对,应该用 git rebase 而不是 git merge” |
记录到 LEARNINGS.md,下次遇到类似情况就知道用 rebase |
| 命令失败 | 运行 docker ps,但 Docker 没启动 |
记录到 ERRORS.md,下次先检查 Docker 状态 |
| 功能需求 | “希望以后能自动备份配置文件” | 记录到 FEATURE_REQUESTS.md,后续可以考虑实现 |
2. Summarize
简介
summarize 是一个快速 CLI 工具,用于总结各种内容:
- 🌐 网页 — 任意 URL
- 📄 PDF 文件 — 本地文档
- 🖼️ 图片 — 带文字的图片
- 🎧 音频 — 播客、录音
- 📺 B站 — 视频内容
如何安装?
直接给把skill的链接发给OpenClaw让他安装即可:
帮我安装这个skill: https://clawhub.ai/steipete/summarize
基本用法
# 总结网页
summarize "https://example.com"
# 总结 PDF
summarize "/path/to/file.pdf"
# 总结视频
summarize "https://youtu.be/dQw4w9WgXcQ"
# 指定模型
summarize "https://example.com" --model openai/gpt-5.2
支持的模型
| 提供商 | 环境变量 | 模型示例 |
|---|---|---|
| OpenAI | OPENAI_API_KEY |
openai/gpt-5.2 |
| Anthropic | ANTHROPIC_API_KEY |
anthropic/claude-sonnet-4-20250514 |
| xAI | XAI_API_KEY |
xai/grok-3-beta |
GEMINI_API_KEY |
google/gemini-3-flash-preview |
默认模型:
google/gemini-3-flash-preview
实用参数
| 参数 | 说明 |
|---|---|
--length short |
简短总结 (其他: medium, long, xl, xxl) |
--max-output-tokens 1000 |
限制输出长度 |
--extract-only |
仅提取内容,不总结 (URL 专用) |
--json |
JSON 格式输出 (机器可读) |
--firecrawl auto |
使用 Firecrawl 处理被屏蔽的网站 |
可选配置
配置文件:~/.summarize/config.json
{
"model": "openai/gpt-5.2"
}
实际应用场景
| 场景 | 命令示例 |
|---|---|
| 快速了解新闻文章 | summarize "https://news.example.com/article" |
| 总结技术文档 | summarize "/path/to/api-docs.pdf" |
| 提取会议录音要点 | summarize "meeting.mp3" |
| 看懂 B站 教程 | `summarize “https://bilibili/xxx” |
| 批量处理多个链接 | summarize url1 url2 url3 --json |
3. Agent Browser
这是什么?
Agent Browser 是一个快速的无头浏览器自动化 CLI 工具,基于 Rust 开发(带 Node.js 回退),让 AI 助手能够通过结构化命令控制浏览器:
- 🧭 导航网页 — 打开、后退、前进、刷新
- 🖱️ 模拟交互 — 点击、输入、滚动、拖拽
- 📸 截图录屏 — 页面快照、PDF、视频录制
- 📥 提取数据 — 文本、HTML、属性值
如何安装?
直接给把skill的链接发给OpenClaw让他安装即可:
帮我安装这个skill: https://clawhub.ai/TheSethRose/agent-browser
核心工作流程
# 1. 打开页面
agent-browser open https://example.com
# 2. 获取交互元素(带引用标记 @e1, @e2...)
agent-browser snapshot -i
# 3. 使用引用进行交互
agent-browser click @e1
agent-browser fill @e2 "输入内容"
# 4. 关闭浏览器
agent-browser close
主要命令整理
🧭 导航类
| 命令 | 说明 | 示例 |
|---|---|---|
open |
打开网页 | agent-browser open https://example.com |
back / forward |
后退/前进 | agent-browser back |
reload |
刷新页面 | agent-browser reload |
close |
关闭浏览器 | agent-browser close |
📋 快照类(页面分析)
| 命令 | 说明 | 示例 |
|---|---|---|
snapshot |
完整可访问性树 | agent-browser snapshot |
snapshot -i |
仅交互元素(推荐) | agent-browser snapshot -i |
snapshot -c |
紧凑输出 | agent-browser snapshot -c |
snapshot -d <N> |
限制深度为 N 层 | agent-browser snapshot -d 3 |
snapshot -s <selector> |
限定 CSS 选择器范围 | agent-browser snapshot -s "#main" |
🖱️ 交互类(使用 @refs)
| 命令 | 说明 | 示例 |
|---|---|---|
click |
点击元素 | agent-browser click @e1 |
fill |
清空并输入 | agent-browser fill @e2 "输入内容" |
type |
直接输入(不清空) | agent-browser type @e2 "追加内容" |
press |
按键 | agent-browser press Enter |
hover |
悬停 | agent-browser hover @e1 |
check / uncheck |
勾选/取消复选框 | agent-browser check @e1 |
select |
下拉选择 | agent-browser select @e1 "value" |
scroll |
滚动页面 | agent-browser scroll down 500 |
upload |
上传文件 | agent-browser upload @e1 file.pdf |
drag |
拖拽 | agent-browser drag @e1 @e2 |
🔍 获取信息类
| 命令 | 说明 | 示例 |
|---|---|---|
get text |
获取元素文本 | agent-browser get text @e1 |
get html |
获取 innerHTML | agent-browser get html @e1 |
get value |
获取输入值 | agent-browser get value @e1 |
get attr |
获取属性 | agent-browser get attr @e1 href |
get title / get url |
获取标题/URL | agent-browser get title |
📸 截图 & PDF 类
| 命令 | 说明 | 示例 |
|---|---|---|
screenshot |
截图到 stdout | agent-browser screenshot |
screenshot <path> |
保存截图 | agent-browser screenshot path.png |
screenshot --full |
整页截图 | agent-browser screenshot --full |
pdf |
保存为 PDF | agent-browser pdf output.pdf |
🎬 视频录制类
| 命令 | 说明 | 示例 |
|---|---|---|
record start |
开始录制 | agent-browser record start ./demo.webm |
record stop |
停止并保存 | agent-browser record stop |
⏱️ 等待类
| 命令 | 说明 | 示例 |
|---|---|---|
wait @<ref> |
等待元素出现 | agent-browser wait @e1 |
wait <ms> |
等待毫秒 | agent-browser wait 2000 |
wait --text |
等待文本出现 | agent-browser wait --text "Success" |
wait --load |
等待网络状态 | agent-browser wait --load networkidle |
高级功能
1. 语义定位器(无需 @refs)
agent-browser find role button click --name "Submit"
agent-browser find text "Sign In" click
agent-browser find label "Email" fill "user@test.com"
2. 状态管理(保存登录态)
# 登录一次,保存状态
agent-browser state save auth.json
# 后续会话直接加载
agent-browser state load auth.json
3. 多会话并行
agent-browser --session test1 open site-a.com
agent-browser --session test2 open site-b.com
4. 网络拦截
agent-browser network route <url> --abort # 拦截请求
agent-browser network route <url> --body '{}' # Mock 响应
5. JavaScript 执行
agent-browser eval "document.title"
实际应用场景
| 场景 | 用途 |
|---|---|
| 自动化登录 | 填充表单、点击登录、保存会话状态 |
| 数据抓取 | 导航到页面、提取结构化数据 |
| 表单提交 | 自动填写调查问卷、申请表 |
| UI 测试 | 验证页面元素、截图对比 |
| 网站监控 | 定期检查页面状态、内容变化 |
| 演示录制 | 录制操作视频用于文档 |
与现有浏览器工具对比
| 功能 | Agent Browser | Playwright | Puppeteer |
|---|---|---|---|
| CLI 优先设计 | ✅ | ❌ | ❌ |
| AI 友好的结构化输出 | ✅ | 部分 | 部分 |
| 引用系统 (@refs) | ✅ | ❌ | ❌ |
| Rust 核心性能 | ✅ | ❌ | ❌ |
| 视频录制 | ✅ | ✅ | 部分 |
| 状态保存/加载 | ✅ | ✅ | ✅ |
结语
工具的价值,不在于"装了多少",而在于"用出组合拳"。
这 3 个 Skill 分别解决:
- 记忆进化:避免重复踩坑
- 信息提纯:降低认知负荷
- 动手执行:突破对话边界
装好 OpenClaw 只是起点,配上这些 Skill,才能真正让 AI 成为你的效率外脑。
💡 小建议:优先启用
self-improving-agent的 Hook 功能,这是让其他两个 Skill 越用越顺的隐形加速器。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐






所有评论(0)