3月28日今日AI分享
OpenClaw配置手册
主要配置字段
meta — 版本信息
系统自动维护元数据,一般不需要手动修改。
{
"meta": {
"lastTouchedVersion": "2026.3.13",
"lastTouchedAt": "2026-03-18T14:11:59.484Z"
}
}
|
字段 |
类型 |
说明 |
|
|
string |
OpenClaw 版本号 |
|
|
string |
校验时间 |
wizard — 向导运行记录
由 CLI 向导(onboard、configure、doctor)写入的运行记录。
{
"wizard": {
"lastRunAt": "2026-03-15T08:07:21.852Z",
"lastRunVersion": "2026.3.13",
"lastRunCommit": "abc1234",
"lastRunCommand": "onboard",
"lastRunMode": "local"
}
}
|
字段 |
类型 |
说明 |
|
|
string |
最后运行向导的时间 |
|
|
string |
运行向导时的 OpenClaw 版本 |
|
|
string |
Git commit hash |
|
|
string |
运行的命令: |
|
|
string |
运行模式: |
auth — 认证配置
存储各模型提供商的认证信息(API Key、OAuth 等)。每个 profile 对应一个提供商的认证方式,系统启动时会读取这些凭据来连接模型服务。
{
"auth": {
"profiles": {
"zai:default": {
"provider": "zai",
"mode": "api_key"
},
"openrouter:default": {
"provider": "openrouter",
"mode": "api_key"
}
}
}
}
|
字段 |
类型 |
说明 |
|
|
object |
认证 profile 集合,key 为 profile 名称(格式: |
|
|
string |
提供商标识,如 |
|
|
string |
认证方式: |
models — 模型提供商和默认模型
{
"models": {
"mode": "merge",
"providers": {
"zai": {
"baseUrl": "https://open.bigmodel.cn/api/coding/paas/v4",
"api": "openai-completions",
"models": [
{
"id": "glm-5",
"name": "GLM-5",
"reasoning": true,
"input": ["text"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 204800,
"maxTokens": 131072
}
]
}
}
}
}
|
字段 |
类型 |
说明 |
|
|
string |
提供商目录合并策略: |
|
|
object |
自定义提供商集合,key 为提供商 ID |
|
|
string |
提供商 API 的基础 URL |
|
|
string |
API 协议类型: |
|
|
string |
API 密钥,推荐用 |
|
|
array |
该提供商下的模型列表 |
|
|
string |
模型 ID,用于 |
|
|
string |
模型显示名称 |
|
|
boolean |
是否支持推理/思考模式 |
|
|
array |
支持的输入类型: |
|
|
object |
每百万 token 的成本(单位:美元),含 |
|
|
number |
上下文窗口大小(token 数) |
|
|
number |
单次最大输出 token 数 |
agents — 智能体配置
控制 Agent 的核心行为:默认模型、工作区路径、心跳频率、上下文压缩策略、子 Agent 并发限制等。分为 defaults(全局默认)和 list(逐个 Agent 覆盖)两层。
{
"agents": {
"defaults": {
"model": {
"primary": "zai/glm-5",
"fallbacks": ["openrouter/xiaomi/mimo-v2-pro"]
},
"models": {
"zai/glm-5": { "alias": "GLM" },
"openrouter/auto": { "alias": "OpenRouter" }
},
"workspace": "~/.openclaw/workspace",
"compaction": {
"mode": "safeguard"
},
"maxConcurrent": 4,
"subagents": {
"maxConcurrent": 8
},
"heartbeat": {
"every": "30m"
}
}
}
}
|
字段 |
类型 |
说明 |
|
|
string/object |
默认模型。字符串形式如 |
|
|
object |
模型目录及别名配置。key 为 |
|
|
string |
Agent 工作区路径,默认 |
|
|
string |
上下文压缩模式: |
|
|
number |
最大并行 Agent 运行数(跨会话),默认 1 |
|
|
number |
最大并行子 Agent 数量 |
|
|
string |
心跳间隔,如 |
|
|
string |
时区设置,如 |
|
|
string |
时间格式: |
tools — 工具配置
控制 Agent 可用的工具范围、权限级别和执行参数。通过 profile(预设模板)、allow(允许列表)、deny(禁止列表)三级策略控制工具访问。
|
字段 |
类型 |
说明 |
|
|
string |
工具预设模板: |
|
|
array |
额外允许的工具名列表,支持 |
|
|
array |
禁止的工具名列表(deny 优先级高于 allow) |
|
|
boolean |
是否允许提权执行(在宿主机上直接运行命令) |
|
|
object |
按渠道限制可提权的用户,key 为渠道名,value 为用户 ID 数组 |
|
|
number |
后台进程等待超时(毫秒),默认 10000 |
|
|
number |
命令最大执行时间(秒),默认 1800 |
|
|
boolean |
是否启用网页搜索工具 |
|
|
number |
搜索结果最大数量 |
|
|
boolean |
是否启用网页抓取工具 |
|
|
number |
抓取内容最大字符数 |
commands — 命令配置
控制聊天中的斜杠命令(/new、/reset、/config 等)的启用状态和权限。不同渠道对原生命令的支持程度不同。
|
字段 |
类型 |
说明 |
|
|
string/boolean |
原生命令注册策略: |
|
|
string/boolean |
技能命令注册: |
|
|
boolean |
是否允许 |
|
|
string |
所有者显示格式: |
|
|
boolean |
是否解析聊天消息中的 |
|
|
boolean |
是否允许 |
|
|
boolean |
是否允许 |
session — 会话管理
控制会话的生命周期、隔离策略和存储管理。决定了不同渠道、不同用户的对话如何分组和归档。
|
字段 |
类型 |
说明 |
|
|
string |
DM 会话分组策略: |
|
|
string |
会话重置策略: |
|
|
number |
|
|
|
number |
|
|
|
string |
维护模式: |
|
|
string |
陈旧条目清理阈值,如 |
|
|
number |
sessions.json 中的最大条目数,默认 500 |
|
|
boolean |
是否启用话题绑定会话功能 |
|
|
number |
话题会话自动取消绑定的空闲小时数,0 表示禁用 |
hooks — 钩子(自动化触发器)
事件驱动的自动化系统。内置 4 个钩子:会话记忆保存(session-memory)、引导文件注入(bootstrap-extra-files)、命令日志(command-logger)、启动执行(boot-md)。钩子在 Gateway 启动时自动发现和加载。
|
字段 |
类型 |
说明 |
|
|
boolean |
是否启用内部钩子系统 |
|
|
object |
钩子配置集合,key 为钩子名称 |
|
|
boolean |
是否启用该钩子 |
内置钩子说明:
|
钩子名 |
触发事件 |
功能 |
|
|
|
将当前会话上下文保存到 |
|
|
Agent 引导时 |
注入额外的工作区引导文件 |
|
|
所有命令 |
记录所有命令事件到 |
|
|
Gateway 启动时 |
执行 |
channels — 渠道配置
连接各种消息平台(飞书、企业微信 等)。每个渠道是一个独立的配置块,包含认证凭据、访问策略和消息行为设置。
|
字段 |
类型 |
说明 |
|
|
boolean |
是否启用飞书渠道 |
|
|
string |
飞书应用 App ID( |
|
|
string |
飞书应用密钥 |
|
|
string |
API 域名: |
|
|
string |
连接模式: |
|
|
string |
私聊策略: |
|
|
string |
群聊策略: |
|
|
boolean |
是否启用流式卡片输出 |
|
|
boolean |
回复底部是否显示耗时 |
|
|
boolean |
回复底部是否显示状态信息 |
|
|
boolean |
是否启用话题绑定会话 |
gateway — 网关服务器配置
OpenClaw 的核心服务器设置。网关是一个多路复用的 HTTP/WebSocket 服务,统一处理所有渠道的消息收发、Agent 通信和 API 调用。
|
字段 |
类型 |
说明 |
|
|
number |
网关监听端口,默认 18789 |
|
|
string |
运行模式: |
|
|
string |
绑定地址: |
|
|
string |
认证方式: |
|
|
string |
认证令牌,建议用 |
|
|
string |
Tailscale 集成: |
|
|
array |
禁止 Node 设备执行的命令列表(安全策略) |
skills — 技能配置
技能是可插拔的功能模块(如搜索、日历、代码执行等)。支持从 npm 安装、从本地目录加载,以及逐个启用/禁用。
|
字段 |
类型 |
说明 |
|
|
string |
Node 包管理器: |
|
|
boolean |
是否优先使用 Homebrew 安装 |
|
|
array |
内置技能白名单(不设则全部可用) |
|
|
array |
额外的技能加载目录 |
|
|
object |
技能配置集合,key 为技能名称 |
|
|
boolean |
是否启用该技能 |
|
|
object |
技能自定义配置(由技能自身定义) |
|
|
string/object |
技能 API 密钥,支持明文或 SecretRef |
plugins — 插件配置
插件是扩展 OpenClaw 核心功能的高级模块(如新的渠道连接器、记忆系统、上下文引擎等)。插件通常以 npm 包形式安装,运行在 Gateway 进程内。
|
字段 |
类型 |
说明 |
|
|
array |
插件白名单(仅列出的插件会加载) |
|
|
array |
插件黑名单(deny 优先于 allow) |
|
|
array |
额外的插件加载路径 |
|
|
object |
插件配置集合,key 为插件 ID |
|
|
boolean |
是否启用该插件 |
|
|
object |
插件自定义配置(由插件 schema 校验) |
|
|
string |
插件级 API 密钥 |
|
|
object |
插件专属环境变量 |
|
|
object |
CLI 管理的安装元数据(一般由 |
|
|
string |
安装来源: |
|
|
string |
npm 包标识,如 |
|
|
string |
插件安装路径 |
|
|
string |
安装时的版本 |
进阶字段
env — 环境变量
定义内联环境变量,供模型 API Key、插件凭据等引用。仅在进程环境缺少对应 key 时生效,不会覆盖已有环境变量。
|
字段 |
类型 |
说明 |
|
|
string |
直接定义环境变量(如 |
|
|
object |
环境变量分组(功能同直接定义,仅语义区分) |
|
|
boolean |
是否从登录 Shell 的 profile 中导入缺失的环境变量 |
|
|
number |
Shell 环境导入超时(毫秒) |
messages — 消息行为配置
控制回复前缀、ACK 反应、消息队列、入站防抖、TTS 等全局消息行为。
|
字段 |
类型 |
说明 |
|
|
string |
回复前缀: |
|
|
string |
收到消息后的 ACK 表情反应,默认取 Agent 的 |
|
|
string |
ACK 范围: |
|
|
boolean |
回复完成后是否移除 ACK 反应 |
|
|
string |
消息队列策略: |
|
|
number |
队列防抖间隔(毫秒) |
|
|
number |
队列最大容量 |
|
|
number |
入站消息防抖(毫秒),将同一发送者的连续文本合并为一次 Agent 调用。0 禁用 |
bindings — 多 Agent 路由
将不同渠道、不同用户或群组的消息路由到不同的 Agent。适用于一个 Gateway 管理多个 Agent 的场景,即龙虾团队模式。
|
字段 |
类型 |
说明 |
|
|
string |
目标 Agent ID(需在 |
|
|
string |
渠道名: |
|
|
string |
对话类型: |
|
|
string |
用户 open_id( |
|
|
string |
多账号场景下的账号 ID(可选) |
logging — 日志配置
控制系统日志的级别、输出位置和格式。
|
字段 |
类型 |
说明 |
|
|
string |
日志级别: |
|
|
string |
日志文件路径。不设则默认 |
|
|
string |
控制台日志级别, |
|
|
string |
控制台样式: |
|
|
string |
敏感信息脱敏: |
browser — 浏览器配置
控制 OpenClaw 内置浏览器的行为,用于 Agent 的网页浏览和自动化操作。
|
字段 |
类型 |
说明 |
|
|
boolean |
是否启用浏览器工具 |
|
|
boolean |
是否允许 |
|
|
string |
默认浏览器配置: |
|
|
object |
浏览器配置集合,key 为配置名 |
|
|
number |
CDP 调试端口 |
|
|
string |
浏览器标识颜色(多配置区分用) |
discovery — 网络发现配置
控制 mDNS(局域网设备发现)和 DNS-SD(广域网服务发现)。
|
字段 |
类型 |
说明 |
|
|
string |
mDNS 模式: |
|
|
boolean |
是否启用 DNS-SD 广域网发现 |
cron — 定时任务配置
控制定时任务(Cron Jobs)的并发限制、会话保留和运行日志。
|
字段 |
类型 |
说明 |
|
|
boolean |
是否启用定时任务系统 |
|
|
number |
最大并行定时任务数,默认 2 |
|
|
string |
完成的定时任务会话保留时长,如 |
|
|
string |
单个运行日志文件最大大小,默认 |
|
|
number |
日志裁剪时保留的最新行数,默认 2000 |
secrets — 密钥管理配置
配置密钥提供程序,支持从环境变量、文件或外部命令获取敏感凭据。
|
字段 |
类型 |
说明 |
|
|
object |
密钥提供程序集合 |
|
|
string |
来源类型: |
|
|
string |
|
|
|
string |
|
|
|
string |
|
|
|
object |
各来源类型的默认提供程序 |
ui — 界面外观配置
控制原生应用界面的配色和 Agent 身份显示。
|
字段 |
类型 |
说明 |
|
|
string |
界面主题色(Talk Mode 气泡等) |
|
|
string |
界面中显示的助手名称 |
|
|
string |
助手头像:emoji、短文本、图片 URL 或 data URI |
canvasHost — 画布服务配置
控制 Agent 可编辑的 HTML/JS 画布的 HTTP 服务。
|
字段 |
类型 |
说明 |
|
|
string |
画布文件根目录 |
|
|
boolean |
是否启用实时重载 |
talk — 语音对话配置
macOS/iOS/Android 语音对话模式的默认设置,控制 TTS 语音、静默超时和打断行为。
|
字段 |
类型 |
说明 |
|
|
string |
ElevenLabs 语音 ID |
|
|
object |
语音别名映射,如 |
|
|
string |
TTS 模型 ID |
|
|
string |
输出音频格式 |
|
|
number |
用户静默后发送转录的等待时间(毫秒) |
|
|
boolean |
用户说话时是否打断当前播放 |
OpenClaw必装Skill
现在的问题从怎么领养龙虾变为了这东西能不能装,安不安全?
在 ClawHub 上已经发现有 1000+ 恶意skill,专门窃取SSH 金钥、浏览器密码和加密钱包等攻击,给用户带来极大风险
避坑工具
Skill Vetter
这是一个负责先帮你看看,这个 skill 到底靠不靠谱,权限是不是过大,值不值得继续碰。
可以直接这样说:
- [技能名称1][技能名称2],帮我检查这几个 skill 的权限范围、潜在风险和适用场景,再按普通人优先级帮我排个序,告诉我哪些建议先装,哪些建议先别碰。
- 帮我安装 [技能名称](与Find Skills最佳拍档)
Find Skills
这是另一个负责回答更前面的问题:你现在缺的到底是什么。
可以直接这样说:
- 帮我找一下用于[需求描述]的技能
- 是否有能 [需求描述] 的技能
浏览器抓取工具
Agent Browser
它是让 OpenClaw 真正到页面里去点、去看、去抓,而不是只停留在“我知道有这个链接”,例如一些社交平台的内容。
可以直接这样说:
- [直接丢链接/某信/某书/某音等...平时抓不到的信息]
Summarize
它能够把网页、PDF、图片、音视频这些材料,先总结一版正常人能快速消化的内容,然后呈现给你。
可以直接这样说:
- 帮我总结 [链接]
Multi Search Engine
搜索类 skill 更底层一点,它解决的是另一个问题:别只搜到第一条就当答案。多换几个搜索引擎、多比几轮,判断才会稳一点。
可以直接这样说:
- 搜索GitHub上的Python机器学习项目
- 搜索2024年的PDF格式机器学习教程
- 搜索标题包含"tutorial"的Python相关页面
Agent Reach - 全网搜索神器
亮点: 一句话让你的 agent 能全网语义搜索,能看小红书、推特、YouTube、Reddit、B 站、RSS 等多种内容源。
适用场景: 比如你准备写一个 AI 产品爆火观察,不想只看官网和媒体转述,而是想把多平台用户讨论一起捞回来。
📍
安装: https://github.com/Panniantong/Agent-Reach
Prompt: 帮我围绕[主题]做一轮全网搜索,重点看小红书、X、YouTube、Reddit、B站和RSS,整理出最近最值得关注的讨论点、争议点和可写角度。
写文章Skill
Humanizer - 去 AI 味
亮点: 去除文本中的 AI 生成痕迹,让表达更自然、更像人类书写。
适用场景: 你已经有一版 AI 起草稿,信息基本够了,但句子太平、语气太像模型输出,准备发之前想再收一遍。
💡
安装: https://clawhub.ai/biostartechnology/humanizer
Prompt: 把下面[这段内容]改得更自然、更像真人写的,保留原有判断和信息,不要加空话,也不要写得太油。
description - PPT 神器
亮点: 将用户讲稿一键生成乔布斯风极简科技感竖屏 HTML 演示稿。
适用场景: 你已经写完一篇内容,接下来还要拿去做分享、路演、演讲或者内部汇报,不想再从头做一版演示文稿。
💡
安装: https://clawhub.ai/wwlyzzyorg/ppt-generator
Prompt: 根据下面[这份讲稿],生成一版乔布斯风、极简科技感的竖屏 HTML 演示稿,重点突出核心判断、关键案例和结论。
frontend-slides - HTML演示文稿
亮点: 一个用于创建精美、动画丰富的 HTML 演示文稿的 skill,可以从零开始,也可以转换 PowerPoint 文件。
适用场景: 如果说前一个更偏“极简科技感快速出稿”,那这个更像给你一套更完整的 HTML 幻灯片能力。比如你想把一篇文章、一次分享稿,进一步做成更完整、更有表现力的动态演示版本。
💡
安装: https://github.com/zarazhangrui/frontend-slides
Prompt: 把下面这篇内容改造成一版更适合演讲和展示的 HTMLslides,保留主线结构,并增加适合逐页呈现的标题和动画节奏。
baoyu-skills - 内容创作工具包
亮点: 涵盖信息图、幻灯片、漫画、图片压缩、发布社交平台等 15 个实用技能,基本把内容成品化和分发这条线都包进去了。
适用场景: 比如你已经开始稳定产出内容,需求不再只是“写一篇稿”,而是经常要顺手做信息图、补图、转格式、生成配套内容,这时候合集型 skill 会很省事。
💡
安装: https://github.com/JimLiu/baoyu-skills (因为合集比较多,建议按需安装,不用一口气全装。)
Prompt:
根据[这篇文章]的核心观点,帮我再拆出一张信息图、一版适合分享的幻灯片提纲,以及一段适合社交平台发布的摘要。
Marketing Skills for AI Agents - 营销增长包
亮点: 专注营销任务的 AI 代理技能集合,覆盖文案、SEO、分析和增长工程等场景。
适用场景: 比如你的内容已经不只是写出来,还开始承担转化、增长、分析、SEO 这些任务,需要把内容创作和营销动作接起来。
💡
安装: https://github.com/coreyhaines31/marketingskills (因为合集比较多,建议按需安装,不用一口气全装。)
Prompt: 基于[这篇内容],帮我继续生成一版 SEO 友好的标题与摘要、一个落地页文案框架,以及后续可跟踪的数据指标建议。
Prompt、Context、Harness 的底层逻辑演进
本质上,Prompt Engineering、Context Engineering、Harness Engineering,都在回答同一个问题——
如何把「对的信息」,以「对的方式」,放进模型的上下文窗口里?
Prompt Engineering(2020–2023)——学会「怎么问」
本质: 这个阶段,我们把注意力放在「那一句话」上。你是一个用户,面对一个对话框,你的武器是语言本身——角色设定、示例、思维链、输出格式要求……
这是 「用户视角」 的优化。你在学的是——如何做一个「会问问题的人」。
局限在哪? 当你从「写一篇文章」变成「让 AI 帮我处理整个工作流」时,单靠一句好 prompt 远远不够了。
Context Engineering(2024–2025)——学会「喂什么」
本质: 这个阶段,关注点从「那一句话」扩展到了「整个信息环境」。
Context Engineering 要解决的问题包括:
- 该检索什么?
- (RAG 策略、知识库设计)
- 该记住什么?
- (短期对话历史、长期记忆管理)
- 该告诉模型哪些工具可用?
- (Tool schemas、API 描述)
- 该提供什么用户背景?
- (偏好、角色、项目上下文)
- 该裁剪什么?
- (上下文窗口有限,什么该丢弃?)
这是 「开发者/架构师视角」 的优化。关注的不再是一次对话,而是一个系统如何持续、动态地为模型组装上下文。
Harness Engineering(2025–)——学会「搭环境」
Harness Engineering,就是围绕大模型建造的那一整套「脚手架」系统,它管理模型核心推理能力之外的一切:
|
组件 |
作用 |
|
记忆系统 |
短期上下文 + 长期知识库,让模型跨会话记住信息 |
|
工具调用层 |
定义模型可以使用哪些外部工具、API |
|
编排引擎 |
多步骤任务的流程控制、状态管理 |
|
护栏机制 |
输入/输出验证、安全规则、行为约束 |
|
反馈回路 |
测试-修复循环、自我纠错机制 |
|
可观测性 |
日志、追踪、调试、评估基础设施 |
本质: Harness Engineering 不是在优化「一次调用」,而是在设计 「模型运行的整个生态环境」。
怎么理解三者的区别?
|
维度 |
Prompt Engineering |
Context Engineering |
Harness Engineering |
|
关注什么 |
那一句指令 |
整个信息输入 |
整个运行环境 |
|
谁在用 |
终端用户 |
应用开发者 |
系统架构师 |
|
类比 |
写好一道题 |
准备好一整套试卷 |
搭建整个考场 |
|
解决的问题 |
模型「听不懂」 |
模型「不知道」 |
模型「做不稳」 |
|
技术典型 |
CoT、Few-shot |
RAG、Memory、Tool Schema |
Guardrails、Orchestration、Observability |
|
关键词 |
措辞、格式、示例 |
检索、记忆、裁剪 |
约束、编排、反馈 |
对设计 Agent 做用
「Agent 效果不好?换个 Prompt 试试」
很多团队在 Agent 表现不佳时,第一反应是改 Prompt。但真正的问题往往不在 Prompt,而在 Context 或 Harness 层。
- 模型回复不准确 → 可能不是措辞问题,而是 没有检索到正确的知识 (Context 问题)
- 模型做了一步就卡住 → 可能不是指令不清,而是 缺少状态管理和编排逻辑 (Harness 问题)
- 模型胡说八道 → 可能不是它不听话,而是 缺少输出验证和护栏 (Harness 问题)
「给模型越多信息越好」
Context Engineering 强调的不是「把一切都塞进去」,而是 精选 和 裁剪。
上下文窗口虽然越来越大,但不是无限的。而且更重要的是——注入无关信息不仅浪费 token(也就是浪费钱 💰),还会 干扰模型的注意力, 导致输出质量下降。
好的 Context Engineering 是一种 减法艺术: 只给模型「恰好需要的信息」。
┌─────────────────────────────────────┐
│ Harness Layer(系统层) │
│ 编排、工具、护栏、可观测性 │
├─────────────────────────────────────┤
│ Context Layer(信息层) │
│ 检索策略、记忆管理、上下文裁剪 │
├─────────────────────────────────────┤
│ Prompt Layer(指令层) │
│ 系统提示、角色设定、输出格式 │
└─────────────────────────────────────┘
Agent联网和浏览机器能力的一个Skill
Agent 不是能联网吗,为什么要加这个?
Agent 们都有自己的联网工具,但着实不够好用:
•Claude Code:默认 Web Search 做搜索、 Web Fetch 读页面;装 Playwright、Chrome Devtool MCP 后也能控制浏览器。
•OpenClaw:同样提供 Search、fetch 的轻量 web 工具,遇到需登录/动态网站,能用 CDP 模式创建 Agent 专用浏览器。
理想的 Agent 联网方案:
1.灵活分配搜索、静态读取、浏览器策略,遇到障碍能自己换工具,而不是在一条死路上反复撞。
2.复用你已有的登录态,不为每个站点单独维护一套身份。
3.强大的泛化能力,适应不同联网任务与目标站的操作、反爬要求。
4.支持 Sub-Agent 分治、高并发跑海量网页。后台执行,互不干扰,不抢你的浏览器控制权。
5.沉淀联网操作经验,下次访问同一个站点不用从头试错。
而Web Access Skill 完全解决了以上问题
安装方法
帮我安装 web-access skill,仓库地址是 https://github.com/eze-is/web-access。这个 skill 原为 Claude Code 设计,安装前请先理解其核心原理和工作逻辑,再结合你的 Agent 架构与电脑环境进行适配,使其真正融入当前环境,而非生硬移植。
输入“遵循 web-access skill”手动要求 Agent 参考;或直接输入你想做的联网相关的事情:
•搜索信息、查看网页内容:“帮我查 xx”
•操作网页界面(填表、点击、上传):“打开 xx”
•抓取、发布某博、某 X 等社交平台内容:“帮我在xx 平台写 xx”
•以及读取动态渲染页面、任何需要浏览器的网络任务
AI大白话,看懂AI术语
人工智能-AI的基础概念
人工智能(AI):人工智能就是让计算机像人一样思考和学习
全景图
人工智能(AI)
│
├── 机器学习(ML)
│ ├── 监督学习(有老师)
│ ├── 无监督学习(自学)
│ └── 强化学习(试错)
│
├── 深度学习(DL)
│ ├── 卷积神经网络(CNN)→ 视觉
│ ├── 循环神经网络(RNN)→ 序列
│ └── Transformer → 语言
│
├── 自然语言处理(NLP)
│ ├── 文本理解
│ └── 文本生成
│
└── 计算机视觉(CV)
├── 图像识别
├── 目标检测
└── 图像生成
算法:算法就是解决问题的步骤清单,就像做菜的菜谱。
知识表示:知识表示就是让计算机能够"记住"和"理解"知识的方法。
知识图谱:知识图谱就是把万事万物和它们的关系画成一张巨大的网。
符号AI vs 神经符号AI:
- 符号AI:用明确的规则推理(像做数学题)
- 神经符号AI:结合了神经网络的学习能力和符号AI的推理能力
机器学习:让机器从数据中学习
机器学习(ML):机器学习就是让计算机通过看大量数据,自己总结规律,而不是人告诉它每一条规则。
监督学习:监督学习就像有老师教你,老师给你题目和答案,你学习规律。
无监督学习:无监督学习就像给你一堆拼图碎片,没人告诉你拼成什么样,你自己找规律拼起来。
强化学习:强化学习就像训练小狗,做对了给奖励,做错了有惩罚,慢慢学会正确的行为。
- 智能体(Agent):学习和决策的主体(比如小狗)
- 环境(Environment):外部世界(比如训练场地)
- 状态(State):当前情况(小狗站着、坐着、趴着)
- 动作(Action):可以做什么(抬爪、坐下、打滚)
- 奖励(Reward):反馈(零食=奖励,斥责=惩罚)
深度学习:AI的"大脑"
深度学习(DL):深度学习就是用很多层神经网络来学习数据中越来越复杂的特征。
人工神经网络(ANN):神经网络是一种模仿人脑的计算模型,由很多"神经元"相互连接组成。
输入层 隐藏层 输出层
┌─────┐ ┌─────┐ ┌─────┐
│ 像素 │ ────────→ │ 特征 │ ────────→ │ 猫? │
│ 数据 │ │ 提取 │ │ 狗? │
└─────┘ └─────┘ └─────┘
(多层)
卷积神经网络(CNN):CNN是专门处理图像的神经网络,它能自动识别图像中的特征(边缘、形状、物体)。
- 卷积层:用"小窗口"扫描图像,提取特征(比如边缘、线条)
- 池化层:压缩信息,保留重要特征(比如从1000个点压缩成100个)
- 全连接层:综合所有特征,做出判断("这是猫")
原始图像
↓
┌─────────┐
│卷积层1 │ → 提取简单特征(边缘、线条)
└─────────┘
↓
┌─────────┐
│池化层1 │ → 压缩信息,保留重要特征
└─────────┘
↓
┌─────────┐
│卷积层2 │ → 提取复杂特征(眼睛、耳朵)
└─────────┘
↓
┌─────────┐
│池化层2 │ → 继续压缩
└─────────┘
↓
┌─────────┐
│全连接层 │ → 综合所有特征
└─────────┘
↓
输出:猫(95%置信度)
循环神经网络(RNN):RNN是能处理序列(如文本、语音、视频)的神经网络,它能"记住"之前的内容。
Transformer:Transformer是一种基于"注意力机制"的神经网络架构,让AI能关注重要信息,改变了整个NLP领域。
自然语言处理:让机器理解人类语言
自然语言处理(NLP):NLP是让计算机能够理解、解释和生成人类语言的技术。
大型语言模型(LLM):LLM是在海量文本数据上训练的巨大神经网络,能理解和生成人类语言。
分词(Tokenization):分词就是把文本切成小片段,让计算机能处理。
词嵌入(Embedding):词嵌入就是把词语变成数字向量,让意思相近的词在"空间"里离得更近。
命名实体识别(NER):NER是识别文本中具有特定意义的实体(人名、地名、公司名、日期等)。
计算机视觉:让机器看见世界
计算机视觉(CV):CV是让计算机能够从图像和视频中理解信息的技术。
目标检测:目标检测不仅要识别图像中的物体是什么,还要指出它在哪里(用框框出来)。
图像分割:图像分割是把图像分成若干部分,每个像素都有标签。
光学字符识别(OCR):OCR是把图像中的文字转换成可编辑的文本。
生成式AI:从理解到创造
生成式AI(GenAI):生成式AI是能创造新内容的AI,不只是分析理解,而是"无中生有"。
基础模型(Foundation Models):基础模型是在海量数据上预训练的大型AI模型,可以适应广泛的下游任务。
提示工程(Prompt Engineering):提示工程是设计和优化输入提示,引导AI产生期望输出的技术。
扩散模型(Diffusion Models):扩散模型是通过学习"去噪"来生成新数据的模型。
生成对抗网络(GAN):GAN由两个神经网络组成:生成器(造假)和判别器(打假),它们相互竞争。
训练技术:让模型学得更好
梯度下降(GD):梯度下降是一种优化算法,通过一步步调整参数,让模型越来越准确。
反向传播(Backpropagation):反向传播是训练神经网络时计算梯度的高效算法。
激活函数(Activation Function):激活函数决定神经元是否应该"激活",为网络引入非线性。
正则化(Regularization):正则化是防止模型"死记硬背"训练数据的技术。
批量归一化(Batch Normalization):批量归一化是对每批数据的激活值进行标准化,加速训练并提高稳定性。
模型评估:如何衡量性能
准确率(Accuracy):准确率是模型正确预测的比例。
精确率(Precision)与召回率(Recall):
精确率:预测为正例的样本中,实际为正例的比例("说它是猫的,有多少真的是猫")
召回率:实际为正例的样本中,被预测为正例的比例("所有猫中,找出了多少")
F1分数:F1分数是精确率和召回率的调和平均数,综合评估模型性能。
ROC曲线与AUC:
ROC曲线:展示模型在不同阈值下的性能
AUC:ROC曲线下的面积(越接近1越好)
交叉验证(Cross-Validation):交叉验证是把数据分成K份,轮流用K-1份训练,1份验证,更稳健地评估模型。
专门应用领域:AI的无限可能
机器人学(Robotics):机器人学是设计、构造、控制机器人的跨学科领域。
专家系统(Expert Systems):专家系统是模拟人类专家决策的AI系统,通常用知识库+推理引擎。
自主系统(Autonomous Systems):自主系统是能在没有人为干预的情况下独立运行、感知、决策、执行的系统。
量子AI(Quantum AI):量子AI是探索如何用量子计算增强AI能力的新兴领域。
边缘AI(Edge AI):边缘AI是在边缘设备(手机、传感器、物联网设备)上本地运行AI的技术。
数据处理:AI的燃料
大数据(Big Data):大数据是传统数据库难以处理的海量、复杂数据集。
数据增强(Data Augmentation):数据增强是通过对现有数据进行变换,人工增加训练数据的技术。
特征提取(Feature Extraction):特征提取是从原始数据中提取更有信息量的特征。
特征工程(Feature Engineering):特征工程是利用领域知识从原始数据中创造、选择和转换特征的过程。
AI伦理:负责任的AI
AI伦理(AI Ethics):AI伦理是研究与AI相关的道德问题、原则和最佳实践的学科。
AI偏见(Bias in AI):AI偏见是AI系统中存在的系统性错误或不公平结果,通常源于有偏训练数据或算法缺陷。
可解释AI(XAI):可解释AI是使AI系统的决策过程和输出结果能够被人类理解的技术和方法。
人在回路(HITL):人在回路是将人类智能与AI系统相结合,人类在训练、验证或决策中扮演关键角色。
未来展望:AI的下一个十年
通用人工智能(AGI):AGI是一种理论上的人工智能形式,能够理解、学习和应用知识于任何智力任务,达到或超过人类认知能力。
多模态AI:多模态AI是能够同时处理和理解多种模态(文本、图像、音频、视频)信息的AI系统。
具身AI(Embodied AI):具身AI是具有物理或虚拟身体的AI,通过与环境的交互来学习和表现智能行为。
自主智能体(Autonomous Agents):自主智能体是能够自主设定目标、规划行动、执行任务的AI系统。
AI与科学的融合:AI正在加速科学发现的过程,从材料科学到生物学,从天文学到高能物理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)