OpenClaw配置手册

主要配置字段

meta — 版本信息

系统自动维护元数据,一般不需要手动修改。

{
  "meta": {
    "lastTouchedVersion": "2026.3.13",
    "lastTouchedAt": "2026-03-18T14:11:59.484Z"
  }
}

字段

类型

说明

meta.lastTouchedVersion

string

OpenClaw 版本号

meta.lastTouchedAt

string

校验时间

wizard — 向导运行记录

由 CLI 向导(onboardconfiguredoctor)写入的运行记录。

{
  "wizard": {
    "lastRunAt": "2026-03-15T08:07:21.852Z",
    "lastRunVersion": "2026.3.13",
    "lastRunCommit": "abc1234",
    "lastRunCommand": "onboard",
    "lastRunMode": "local"
  }
}

字段

类型

说明

wizard.lastRunAt

string

最后运行向导的时间

wizard.lastRunVersion

string

运行向导时的 OpenClaw 版本

wizard.lastRunCommit

string

Git commit hash

wizard.lastRunCommand

string

运行的命令:onboard / configure / doctor

wizard.lastRunMode

string

运行模式:local / remote

auth — 认证配置

存储各模型提供商的认证信息(API Key、OAuth 等)。每个 profile 对应一个提供商的认证方式,系统启动时会读取这些凭据来连接模型服务。

{
  "auth": {
    "profiles": {
      "zai:default": {
        "provider": "zai",
        "mode": "api_key"
      },
      "openrouter:default": {
        "provider": "openrouter",
        "mode": "api_key"
      }
    }
  }
}

字段

类型

说明

auth.profiles

object

认证 profile 集合,key 为 profile 名称(格式:provider:label

profiles.*.provider

string

提供商标识,如 zaiopenrouteranthropic

profiles.*.mode

string

认证方式:api_key(API密钥)、oauth(OAuth授权)、token(令牌)

models — 模型提供商和默认模型

{
  "models": {
    "mode": "merge",
    "providers": {
      "zai": {
        "baseUrl": "https://open.bigmodel.cn/api/coding/paas/v4",
        "api": "openai-completions",
        "models": [
          {
            "id": "glm-5",
            "name": "GLM-5",
            "reasoning": true,
            "input": ["text"],
            "cost": {
              "input": 0,
              "output": 0,
              "cacheRead": 0,
              "cacheWrite": 0
            },
            "contextWindow": 204800,
            "maxTokens": 131072
          }
        ]
      }
    }
  }
}

字段

类型

说明

models.mode

string

提供商目录合并策略:merge(合并到内置目录,默认)或 replace(完全替换内置目录)

models.providers

object

自定义提供商集合,key 为提供商 ID

providers.*.baseUrl

string

提供商 API 的基础 URL

providers.*.api

string

API 协议类型:openai-completionsopenai-responsesanthropic-messagesgoogle-generative-ai

providers.*.apiKey

string

API 密钥,推荐用 ${ENV_VAR} 引用环境变量

providers.*.models

array

该提供商下的模型列表

models.*.id

string

模型 ID,用于 provider/model 引用

models.*.name

string

模型显示名称

models.*.reasoning

boolean

是否支持推理/思考模式

models.*.input

array

支持的输入类型:["text"]["text","image"]

models.*.cost

object

每百万 token 的成本(单位:美元),含 inputoutputcacheReadcacheWrite

models.*.contextWindow

number

上下文窗口大小(token 数)

models.*.maxTokens

number

单次最大输出 token 数

agents — 智能体配置

控制 Agent 的核心行为:默认模型、工作区路径、心跳频率、上下文压缩策略、子 Agent 并发限制等。分为 defaults(全局默认)和 list(逐个 Agent 覆盖)两层。

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "zai/glm-5",
        "fallbacks": ["openrouter/xiaomi/mimo-v2-pro"]
      },
      "models": {
        "zai/glm-5": { "alias": "GLM" },
        "openrouter/auto": { "alias": "OpenRouter" }
      },
      "workspace": "~/.openclaw/workspace",
      "compaction": {
        "mode": "safeguard"
      },
      "maxConcurrent": 4,
      "subagents": {
        "maxConcurrent": 8
      },
      "heartbeat": {
        "every": "30m"
      }
    }
  }
}

字段

类型

说明

agents.defaults.model

string/object

默认模型。字符串形式如 "zai/glm-5";对象形式含 primary(主模型)和 fallbacks(备用模型数组)

agents.defaults.models

object

模型目录及别名配置。key 为 provider/model,值含 alias(快捷名)和 params(参数覆盖)

agents.defaults.workspace

string

Agent 工作区路径,默认 ~/.openclaw/workspace

agents.defaults.compaction.mode

string

上下文压缩模式:default(标准压缩)或 safeguard(分块摘要,适合长对话)

agents.defaults.maxConcurrent

number

最大并行 Agent 运行数(跨会话),默认 1

agents.defaults.subagents.maxConcurrent

number

最大并行子 Agent 数量

agents.defaults.heartbeat.every

string

心跳间隔,如 "30m""1h"。设为 "0m" 禁用

agents.defaults.userTimezone

string

时区设置,如 "Asia/Shanghai"。不设则取系统时区

agents.defaults.timeFormat

string

时间格式:auto(跟随系统)、12(12小时制)、24(24小时制)

tools — 工具配置

控制 Agent 可用的工具范围、权限级别和执行参数。通过 profile(预设模板)、allow(允许列表)、deny(禁止列表)三级策略控制工具访问。

字段

类型

说明

tools.profile

string

工具预设模板:minimal(仅状态查询)、coding(编程工具集)、messaging(消息工具集)、full(全部工具)

tools.allow

array

额外允许的工具名列表,支持 group:xxx 分组和 * 通配符

tools.deny

array

禁止的工具名列表(deny 优先级高于 allow)

tools.elevated.enabled

boolean

是否允许提权执行(在宿主机上直接运行命令)

tools.elevated.allowFrom

object

按渠道限制可提权的用户,key 为渠道名,value 为用户 ID 数组

tools.exec.backgroundMs

number

后台进程等待超时(毫秒),默认 10000

tools.exec.timeoutSec

number

命令最大执行时间(秒),默认 1800

tools.web.search.enabled

boolean

是否启用网页搜索工具

tools.web.search.maxResults

number

搜索结果最大数量

tools.web.fetch.enabled

boolean

是否启用网页抓取工具

tools.web.fetch.maxChars

number

抓取内容最大字符数

commands — 命令配置

控制聊天中的斜杠命令(/new/reset/config 等)的启用状态和权限。不同渠道对原生命令的支持程度不同。

字段

类型

说明

commands.native

string/boolean

原生命令注册策略:auto(Discord/Telegram 自动注册)、true(全部注册)、false(不注册)

commands.nativeSkills

string/boolean

技能命令注册:autotruefalse

commands.restart

boolean

是否允许 /restart 命令和网关重启工具

commands.ownerDisplay

string

所有者显示格式:raw(原始 ID)或其他格式

commands.text

boolean

是否解析聊天消息中的 /commands

commands.bash

boolean

是否允许 ! 快捷执行宿主机命令(需配合 tools.elevated

commands.config

boolean

是否允许 /config 命令(读写 openclaw.json)

session — 会话管理

控制会话的生命周期、隔离策略和存储管理。决定了不同渠道、不同用户的对话如何分组和归档。

字段

类型

说明

session.dmScope

string

DM 会话分组策略:main(所有 DM 共享主会话)、per-peer(按发送者隔离)、per-channel-peer(按渠道+发送者隔离,推荐)、per-account-channel-peer(按账号+渠道+发送者隔离)

session.reset.mode

string

会话重置策略:daily(每天定时重置)或 idle(空闲超时重置)

session.reset.atHour

number

daily 模式下的重置时刻(24小时制),如 4 表示凌晨4点

session.reset.idleMinutes

number

idle 模式下的空闲分钟数

session.maintenance.mode

string

维护模式:warn(仅警告)或 enforce(自动清理)

session.maintenance.pruneAfter

string

陈旧条目清理阈值,如 "30d"

session.maintenance.maxEntries

number

sessions.json 中的最大条目数,默认 500

session.threadBindings.enabled

boolean

是否启用话题绑定会话功能

session.threadBindings.idleHours

number

话题会话自动取消绑定的空闲小时数,0 表示禁用

hooks — 钩子(自动化触发器)

事件驱动的自动化系统。内置 4 个钩子:会话记忆保存(session-memory)、引导文件注入(bootstrap-extra-files)、命令日志(command-logger)、启动执行(boot-md)。钩子在 Gateway 启动时自动发现和加载。

字段

类型

说明

hooks.internal.enabled

boolean

是否启用内部钩子系统

hooks.internal.entries

object

钩子配置集合,key 为钩子名称

entries.*.enabled

boolean

是否启用该钩子

内置钩子说明:

钩子名

触发事件

功能

session-memory

/new 命令

将当前会话上下文保存到 memory/ 目录

bootstrap-extra-files

Agent 引导时

注入额外的工作区引导文件

command-logger

所有命令

记录所有命令事件到 ~/.openclaw/logs/commands.log

boot-md

Gateway 启动时

执行 BOOT.md 中的指令

channels — 渠道配置

连接各种消息平台(飞书、企业微信 等)。每个渠道是一个独立的配置块,包含认证凭据、访问策略和消息行为设置。

字段

类型

说明

channels.feishu.enabled

boolean

是否启用飞书渠道

channels.feishu.appId

string

飞书应用 App ID(cli_ 开头)

channels.feishu.appSecret

string

飞书应用密钥

channels.feishu.domain

string

API 域名:feishu(国内)或 lark(国际)

channels.feishu.connectionMode

string

连接模式:websocket(长连接,推荐)或 webhook(需公网地址)

channels.feishu.dmPolicy

string

私聊策略:pairing(配对码,默认)、allowlist(白名单)、open(开放)、disabled(禁用)

channels.feishu.groupPolicy

string

群聊策略:open(允许所有群)、allowlist(仅白名单群)、disabled(禁用群消息)

channels.feishu.streaming

boolean

是否启用流式卡片输出

channels.feishu.footer.elapsed

boolean

回复底部是否显示耗时

channels.feishu.footer.status

boolean

回复底部是否显示状态信息

channels.feishu.threadSession

boolean

是否启用话题绑定会话

gateway — 网关服务器配置

OpenClaw 的核心服务器设置。网关是一个多路复用的 HTTP/WebSocket 服务,统一处理所有渠道的消息收发、Agent 通信和 API 调用。

字段

类型

说明

gateway.port

number

网关监听端口,默认 18789

gateway.mode

string

运行模式:local(本地运行)或 remote(连接远程网关)

gateway.bind

string

绑定地址:loopback(仅本机,默认)、lan(局域网)、tailnet(Tailscale 网络)、auto

gateway.auth.mode

string

认证方式:token(令牌认证)、password(密码认证)、none(无认证,仅限可信本地)

gateway.auth.token

string

认证令牌,建议用 ${ENV_VAR} 引用环境变量

gateway.tailscale.mode

string

Tailscale 集成:off(关闭)、serve(仅 Tailnet 内网)、funnel(公网访问)

gateway.nodes.denyCommands

array

禁止 Node 设备执行的命令列表(安全策略)

skills — 技能配置

技能是可插拔的功能模块(如搜索、日历、代码执行等)。支持从 npm 安装、从本地目录加载,以及逐个启用/禁用。

字段

类型

说明

skills.install.nodeManager

string

Node 包管理器:npmpnpmyarn

skills.install.preferBrew

boolean

是否优先使用 Homebrew 安装

skills.allowBundled

array

内置技能白名单(不设则全部可用)

skills.load.extraDirs

array

额外的技能加载目录

skills.entries

object

技能配置集合,key 为技能名称

entries.*.enabled

boolean

是否启用该技能

entries.*.config

object

技能自定义配置(由技能自身定义)

entries.*.apiKey

string/object

技能 API 密钥,支持明文或 SecretRef

plugins — 插件配置

插件是扩展 OpenClaw 核心功能的高级模块(如新的渠道连接器、记忆系统、上下文引擎等)。插件通常以 npm 包形式安装,运行在 Gateway 进程内。

字段

类型

说明

plugins.allow

array

插件白名单(仅列出的插件会加载)

plugins.deny

array

插件黑名单(deny 优先于 allow)

plugins.load.paths

array

额外的插件加载路径

plugins.entries

object

插件配置集合,key 为插件 ID

entries.*.enabled

boolean

是否启用该插件

entries.*.config

object

插件自定义配置(由插件 schema 校验)

entries.*.apiKey

string

插件级 API 密钥

entries.*.env

object

插件专属环境变量

plugins.installs

object

CLI 管理的安装元数据(一般由 openclaw plugins install 自动维护)

installs.*.source

string

安装来源:npmgitlocal

installs.*.spec

string

npm 包标识,如 @larksuite/openclaw-lark

installs.*.installPath

string

插件安装路径

installs.*.version

string

安装时的版本

进阶字段

env — 环境变量

定义内联环境变量,供模型 API Key、插件凭据等引用。仅在进程环境缺少对应 key 时生效,不会覆盖已有环境变量。

字段

类型

说明

env.<KEY>

string

直接定义环境变量(如 OPENROUTER_API_KEY

env.vars

object

环境变量分组(功能同直接定义,仅语义区分)

env.shellEnv.enabled

boolean

是否从登录 Shell 的 profile 中导入缺失的环境变量

env.shellEnv.timeoutMs

number

Shell 环境导入超时(毫秒)

messages — 消息行为配置

控制回复前缀、ACK 反应、消息队列、入站防抖、TTS 等全局消息行为。

字段

类型

说明

messages.responsePrefix

string

回复前缀:"auto"(自动用 Agent 名称/emoji)、固定字符串、或 ""(禁用)

messages.ackReaction

string

收到消息后的 ACK 表情反应,默认取 Agent 的 identity.emoji,否则 "👀"

messages.ackReactionScope

string

ACK 范围:group-mentions(仅群@,默认)、group-all(所有群消息)、direct(私聊)、all(全部)

messages.removeAckAfterReply

boolean

回复完成后是否移除 ACK 反应

messages.queue.mode

string

消息队列策略:collect(合并为一条)、steer(插队)、interrupt(中断当前回复)

messages.queue.debounceMs

number

队列防抖间隔(毫秒)

messages.queue.cap

number

队列最大容量

messages.inbound.debounceMs

number

入站消息防抖(毫秒),将同一发送者的连续文本合并为一次 Agent 调用。0 禁用

bindings — 多 Agent 路由

将不同渠道、不同用户或群组的消息路由到不同的 Agent。适用于一个 Gateway 管理多个 Agent 的场景,即龙虾团队模式。

字段

类型

说明

bindings[].agentId

string

目标 Agent ID(需在 agents.list 中定义)

bindings[].match.channel

string

渠道名:feishutelegramdiscord

bindings[].match.peer.kind

string

对话类型:direct(私聊)或 group(群聊)

bindings[].match.peer.id

string

用户 open_id(ou_xxx)或群组 ID(oc_xxx

bindings[].match.accountId

string

多账号场景下的账号 ID(可选)

logging — 日志配置

控制系统日志的级别、输出位置和格式。

字段

类型

说明

logging.level

string

日志级别:debuginfo(默认)、warnerror

logging.file

string

日志文件路径。不设则默认 /tmp/openclaw/openclaw-YYYY-MM-DD.log

logging.consoleLevel

string

控制台日志级别,--verbose 时自动提升为 debug

logging.consoleStyle

string

控制台样式:pretty(美化)、compact(紧凑)、json

logging.redactSensitive

string

敏感信息脱敏:off(不脱敏)、tools(脱敏工具调用中的敏感内容)

browser — 浏览器配置

控制 OpenClaw 内置浏览器的行为,用于 Agent 的网页浏览和自动化操作。

字段

类型

说明

browser.enabled

boolean

是否启用浏览器工具

browser.evaluateEnabled

boolean

是否允许 act:evaluatewait --fn 操作

browser.defaultProfile

string

默认浏览器配置:openclaw(隔离浏览器)、user(用户浏览器)

browser.profiles

object

浏览器配置集合,key 为配置名

profiles.*.cdpPort

number

CDP 调试端口

browser.color

string

浏览器标识颜色(多配置区分用)

discovery — 网络发现配置

控制 mDNS(局域网设备发现)和 DNS-SD(广域网服务发现)。

字段

类型

说明

discovery.mdns.mode

string

mDNS 模式:minimal(默认,不暴露 CLI 路径和 SSH 端口)、full(完整信息)、off(关闭)

discovery.wideArea.enabled

boolean

是否启用 DNS-SD 广域网发现

cron — 定时任务配置

控制定时任务(Cron Jobs)的并发限制、会话保留和运行日志。

字段

类型

说明

cron.enabled

boolean

是否启用定时任务系统

cron.maxConcurrentRuns

number

最大并行定时任务数,默认 2

cron.sessionRetention

string

完成的定时任务会话保留时长,如 "24h"。设 false 禁用清理

cron.runLog.maxBytes

string

单个运行日志文件最大大小,默认 2mb

cron.runLog.keepLines

number

日志裁剪时保留的最新行数,默认 2000

secrets — 密钥管理配置

配置密钥提供程序,支持从环境变量、文件或外部命令获取敏感凭据。

字段

类型

说明

secrets.providers

object

密钥提供程序集合

providers.*.source

string

来源类型:env(环境变量)、file(文件)、exec(外部命令)

providers.*.path

string

file 类型的文件路径

providers.*.mode

string

file 的读取模式:json(JSON 解析)或 singleValue

providers.*.command

string

exec 类型的命令路径(必须为绝对路径)

secrets.defaults

object

各来源类型的默认提供程序

ui — 界面外观配置

控制原生应用界面的配色和 Agent 身份显示。

字段

类型

说明

ui.seamColor

string

界面主题色(Talk Mode 气泡等)

ui.assistant.name

string

界面中显示的助手名称

ui.assistant.avatar

string

助手头像:emoji、短文本、图片 URL 或 data URI

canvasHost — 画布服务配置

控制 Agent 可编辑的 HTML/JS 画布的 HTTP 服务。

字段

类型

说明

canvasHost.root

string

画布文件根目录

canvasHost.liveReload

boolean

是否启用实时重载

talk — 语音对话配置

macOS/iOS/Android 语音对话模式的默认设置,控制 TTS 语音、静默超时和打断行为。

字段

类型

说明

talk.voiceId

string

ElevenLabs 语音 ID

talk.voiceAliases

object

语音别名映射,如 {"Clawd": "EXAVITQu4vr..."}

talk.modelId

string

TTS 模型 ID

talk.outputFormat

string

输出音频格式

talk.silenceTimeoutMs

number

用户静默后发送转录的等待时间(毫秒)

talk.interruptOnSpeech

boolean

用户说话时是否打断当前播放

OpenClaw必装Skill

现在的问题从怎么领养龙虾变为了这东西能不能装,安不安全?

在 ClawHub 上已经发现有 1000+ 恶意skill,专门窃取SSH 金钥、浏览器密码和加密钱包等攻击,给用户带来极大风险

避坑工具

Skill Vetter

这是一个负责先帮你看看,这个 skill 到底靠不靠谱,权限是不是过大,值不值得继续碰。

可以直接这样说:

  • [技能名称1][技能名称2],帮我检查这几个 skill 的权限范围、潜在风险和适用场景,再按普通人优先级帮我排个序,告诉我哪些建议先装,哪些建议先别碰。
  • 帮我安装 [技能名称](与Find Skills最佳拍档)

Find Skills

这是另一个负责回答更前面的问题:你现在缺的到底是什么。

可以直接这样说:

  • 帮我找一下用于[需求描述]的技能
  • 是否有能 [需求描述] 的技能

浏览器抓取工具

Agent Browser

它是让 OpenClaw 真正到页面里去点、去看、去抓,而不是只停留在“我知道有这个链接”,例如一些社交平台的内容。

可以直接这样说:

  • [直接丢链接/某信/某书/某音等...平时抓不到的信息]

Summarize

它能够把网页、PDF、图片、音视频这些材料,先总结一版正常人能快速消化的内容,然后呈现给你。

可以直接这样说:

  • 帮我总结 [链接]

Multi Search Engine

搜索类 skill 更底层一点,它解决的是另一个问题:别只搜到第一条就当答案。多换几个搜索引擎、多比几轮,判断才会稳一点。

可以直接这样说:

  • 搜索GitHub上的Python机器学习项目
  • 搜索2024年的PDF格式机器学习教程
  • 搜索标题包含"tutorial"的Python相关页面

Agent Reach - 全网搜索神器

亮点: 一句话让你的 agent 能全网语义搜索,能看小红书、推特、YouTube、Reddit、B 站、RSS 等多种内容源。

适用场景: 比如你准备写一个 AI 产品爆火观察,不想只看官网和媒体转述,而是想把多平台用户讨论一起捞回来。

📍

安装: https://github.com/Panniantong/Agent-Reach

Prompt: 帮我围绕[主题]做一轮全网搜索,重点看小红书、X、YouTube、Reddit、B站和RSS,整理出最近最值得关注的讨论点、争议点和可写角度。

写文章Skill

Humanizer - 去 AI 味

亮点: 去除文本中的 AI 生成痕迹,让表达更自然、更像人类书写。

适用场景: 你已经有一版 AI 起草稿,信息基本够了,但句子太平、语气太像模型输出,准备发之前想再收一遍。

💡

安装: https://clawhub.ai/biostartechnology/humanizer

Prompt: 把下面[这段内容]改得更自然、更像真人写的,保留原有判断和信息,不要加空话,也不要写得太油。

description - PPT 神器

亮点: 将用户讲稿一键生成乔布斯风极简科技感竖屏 HTML 演示稿。

适用场景: 你已经写完一篇内容,接下来还要拿去做分享、路演、演讲或者内部汇报,不想再从头做一版演示文稿。

💡

安装: https://clawhub.ai/wwlyzzyorg/ppt-generator

Prompt: 根据下面[这份讲稿],生成一版乔布斯风、极简科技感的竖屏 HTML 演示稿,重点突出核心判断、关键案例和结论。

frontend-slides - HTML演示文稿

亮点: 一个用于创建精美、动画丰富的 HTML 演示文稿的 skill,可以从零开始,也可以转换 PowerPoint 文件。

适用场景: 如果说前一个更偏“极简科技感快速出稿”,那这个更像给你一套更完整的 HTML 幻灯片能力。比如你想把一篇文章、一次分享稿,进一步做成更完整、更有表现力的动态演示版本。

💡

安装: https://github.com/zarazhangrui/frontend-slides

Prompt: 把下面这篇内容改造成一版更适合演讲和展示的 HTMLslides,保留主线结构,并增加适合逐页呈现的标题和动画节奏。

baoyu-skills - 内容创作工具包

亮点: 涵盖信息图、幻灯片、漫画、图片压缩、发布社交平台等 15 个实用技能,基本把内容成品化和分发这条线都包进去了。

适用场景: 比如你已经开始稳定产出内容,需求不再只是“写一篇稿”,而是经常要顺手做信息图、补图、转格式、生成配套内容,这时候合集型 skill 会很省事。

💡

安装: https://github.com/JimLiu/baoyu-skills (因为合集比较多,建议按需安装,不用一口气全装。)

Prompt:

根据[这篇文章]的核心观点,帮我再拆出一张信息图、一版适合分享的幻灯片提纲,以及一段适合社交平台发布的摘要。

Marketing Skills for AI Agents - 营销增长包

亮点: 专注营销任务的 AI 代理技能集合,覆盖文案、SEO、分析和增长工程等场景。

适用场景: 比如你的内容已经不只是写出来,还开始承担转化、增长、分析、SEO 这些任务,需要把内容创作和营销动作接起来。

💡

安装: https://github.com/coreyhaines31/marketingskills (因为合集比较多,建议按需安装,不用一口气全装。)

Prompt: 基于[这篇内容],帮我继续生成一版 SEO 友好的标题与摘要、一个落地页文案框架,以及后续可跟踪的数据指标建议。

Prompt、Context、Harness 的底层逻辑演进

本质上,Prompt Engineering、Context Engineering、Harness Engineering,都在回答同一个问题——

如何把「对的信息」,以「对的方式」,放进模型的上下文窗口里?

Prompt Engineering(2020–2023)——学会「怎么问」

本质: 这个阶段,我们把注意力放在「那一句话」上。你是一个用户,面对一个对话框,你的武器是语言本身——角色设定、示例、思维链、输出格式要求……

这是 「用户视角」 的优化。你在学的是——如何做一个「会问问题的人」。

局限在哪? 当你从「写一篇文章」变成「让 AI 帮我处理整个工作流」时,单靠一句好 prompt 远远不够了。

Context Engineering(2024–2025)——学会「喂什么」

本质: 这个阶段,关注点从「那一句话」扩展到了「整个信息环境」。

Context Engineering 要解决的问题包括:

  • 该检索什么?
  • (RAG 策略、知识库设计)
  • 该记住什么?
  • (短期对话历史、长期记忆管理)
  • 该告诉模型哪些工具可用?
  • (Tool schemas、API 描述)
  • 该提供什么用户背景?
  • (偏好、角色、项目上下文)
  • 该裁剪什么?
  • (上下文窗口有限,什么该丢弃?)

这是 「开发者/架构师视角」 的优化。关注的不再是一次对话,而是一个系统如何持续、动态地为模型组装上下文。

Harness Engineering(2025–)——学会「搭环境」

Harness Engineering,就是围绕大模型建造的那一整套「脚手架」系统,它管理模型核心推理能力之外的一切:

组件

作用

记忆系统

短期上下文 + 长期知识库,让模型跨会话记住信息

工具调用层

定义模型可以使用哪些外部工具、API

编排引擎

多步骤任务的流程控制、状态管理

护栏机制

输入/输出验证、安全规则、行为约束

反馈回路

测试-修复循环、自我纠错机制

可观测性

日志、追踪、调试、评估基础设施

本质: Harness Engineering 不是在优化「一次调用」,而是在设计 「模型运行的整个生态环境」。

怎么理解三者的区别?

维度

Prompt Engineering

Context Engineering

Harness Engineering

关注什么

那一句指令

整个信息输入

整个运行环境

谁在用

终端用户

应用开发者

系统架构师

类比

写好一道题

准备好一整套试卷

搭建整个考场

解决的问题

模型「听不懂」

模型「不知道」

模型「做不稳」

技术典型

CoT、Few-shot

RAG、Memory、Tool Schema

Guardrails、Orchestration、Observability

关键词

措辞、格式、示例

检索、记忆、裁剪

约束、编排、反馈

对设计 Agent 做用

「Agent 效果不好?换个 Prompt 试试」

很多团队在 Agent 表现不佳时,第一反应是改 Prompt。但真正的问题往往不在 Prompt,而在 Context 或 Harness 层。

  • 模型回复不准确 → 可能不是措辞问题,而是 没有检索到正确的知识 (Context 问题)
  • 模型做了一步就卡住 → 可能不是指令不清,而是 缺少状态管理和编排逻辑 (Harness 问题)
  • 模型胡说八道 → 可能不是它不听话,而是 缺少输出验证和护栏 (Harness 问题)

「给模型越多信息越好」

Context Engineering 强调的不是「把一切都塞进去」,而是 精选 裁剪。

上下文窗口虽然越来越大,但不是无限的。而且更重要的是——注入无关信息不仅浪费 token(也就是浪费钱 💰),还会 干扰模型的注意力, 导致输出质量下降。

好的 Context Engineering 是一种 减法艺术: 只给模型「恰好需要的信息」。

┌─────────────────────────────────────┐
│  Harness Layer(系统层)             │
│  编排、工具、护栏、可观测性           │
├─────────────────────────────────────┤
│  Context Layer(信息层)             │
│  检索策略、记忆管理、上下文裁剪       │
├─────────────────────────────────────┤
│  Prompt Layer(指令层)              │
│  系统提示、角色设定、输出格式         │
└─────────────────────────────────────┘

Agent联网和浏览机器能力的一个Skill

Agent 不是能联网吗,为什么要加这个?

Agent 们都有自己的联网工具,但着实不够好用:

Claude Code:默认 Web Search 做搜索、 Web Fetch 读页面;装 Playwright、Chrome Devtool MCP 后也能控制浏览器。

OpenClaw:同样提供 Search、fetch 的轻量 web 工具,遇到需登录/动态网站,能用 CDP 模式创建 Agent 专用浏览器。

理想的 Agent 联网方案

1.灵活分配搜索、静态读取、浏览器策略,遇到障碍能自己换工具,而不是在一条死路上反复撞。

2.复用你已有的登录态,不为每个站点单独维护一套身份。

3.强大的泛化能力,适应不同联网任务与目标站的操作、反爬要求。

4.支持 Sub-Agent 分治、高并发跑海量网页。后台执行,互不干扰,不抢你的浏览器控制权。

5.沉淀联网操作经验,下次访问同一个站点不用从头试错。

Web Access Skill 完全解决了以上问题

安装方法

帮我安装 web-access skill,仓库地址是 https://github.com/eze-is/web-access。这个 skill 原为 Claude Code 设计,安装前请先理解其核心原理和工作逻辑,再结合你的 Agent 架构与电脑环境进行适配,使其真正融入当前环境,而非生硬移植。

输入“遵循 web-access skill”手动要求 Agent 参考;或直接输入你想做的联网相关的事情:

•搜索信息、查看网页内容:“帮我查 xx”

•操作网页界面(填表、点击、上传):“打开 xx”

•抓取、发布某博、某 X 等社交平台内容:“帮我在xx 平台写 xx”

•以及读取动态渲染页面、任何需要浏览器的网络任务

AI大白话,看懂AI术语

人工智能-AI的基础概念

人工智能(AI):人工智能就是让计算机像人一样思考和学习

全景图

人工智能(AI)
│
├── 机器学习(ML)
│   ├── 监督学习(有老师)
│   ├── 无监督学习(自学)
│   └── 强化学习(试错)
│
├── 深度学习(DL)
│   ├── 卷积神经网络(CNN)→ 视觉
│   ├── 循环神经网络(RNN)→ 序列
│   └── Transformer → 语言
│
├── 自然语言处理(NLP)
│   ├── 文本理解
│   └── 文本生成
│
└── 计算机视觉(CV)
    ├── 图像识别
    ├── 目标检测
    └── 图像生成

算法:算法就是解决问题的步骤清单,就像做菜的菜谱。

知识表示:知识表示就是让计算机能够"记住"和"理解"知识的方法。

知识图谱:知识图谱就是把万事万物和它们的关系画成一张巨大的网。

符号AI vs 神经符号AI:

  • 符号AI:用明确的规则推理(像做数学题)
  • 神经符号AI:结合了神经网络的学习能力和符号AI的推理能力

机器学习:让机器从数据中学习

机器学习ML:机器学习就是让计算机通过看大量数据,自己总结规律,而不是人告诉它每一条规则。

监督学习:监督学习就像有老师教你,老师给你题目和答案,你学习规律。

无监督学习:无监督学习就像给你一堆拼图碎片,没人告诉你拼成什么样,你自己找规律拼起来。

强化学习:强化学习就像训练小狗,做对了给奖励,做错了有惩罚,慢慢学会正确的行为。

  • 智能体(Agent):学习和决策的主体(比如小狗)
  • 环境(Environment:外部世界(比如训练场地)
  • 状态(State):当前情况(小狗站着、坐着、趴着)
  • 动作(Action):可以做什么(抬爪、坐下、打滚)
  • 奖励(Reward):反馈(零食=奖励,斥责=惩罚)

深度学习:AI的"大脑"

深度学习DL:深度学习就是用很多层神经网络来学习数据中越来越复杂的特征。

人工神经网络ANN:神经网络是一种模仿人脑的计算模型,由很多"神经元"相互连接组成。

输入层              隐藏层              输出层
┌─────┐           ┌─────┐           ┌─────┐
│ 像素 │ ────────→ │ 特征 │ ────────→ │ 猫? │
│ 数据 │           │ 提取 │           │ 狗? │
└─────┘           └─────┘           └─────┘
                   (多层)

卷积神经网络CNN:CNN是专门处理图像的神经网络,它能自动识别图像中的特征(边缘、形状、物体)。

  • 卷积层:用"小窗口"扫描图像,提取特征(比如边缘、线条)
  • 池化:压缩信息,保留重要特征(比如从1000个点压缩成100个)
  • 全连接层:综合所有特征,做出判断("这是猫")
原始图像
  ↓
┌─────────┐
│卷积层1  │ → 提取简单特征(边缘、线条)
└─────────┘
  ↓
┌─────────┐
│池化层1  │ → 压缩信息,保留重要特征
└─────────┘
  ↓
┌─────────┐
│卷积层2  │ → 提取复杂特征(眼睛、耳朵)
└─────────┘
  ↓
┌─────────┐
│池化层2  │ → 继续压缩
└─────────┘
  ↓
┌─────────┐
│全连接层 │ → 综合所有特征
└─────────┘
  ↓
输出:猫(95%置信度)

循环神经网络RNN:RNN是能处理序列(如文本、语音、视频)的神经网络,它能"记住"之前的内容。

Transformer:Transformer是一种基于"注意力机制"的神经网络架构,让AI能关注重要信息,改变了整个NLP领域。

自然语言处理:让机器理解人类语言

自然语言处理NLP:NLP是让计算机能够理解、解释和生成人类语言的技术。

大型语言模型(LLM:LLM是在海量文本数据上训练的巨大神经网络,能理解和生成人类语言。

分词(Tokenization):分词就是把文本切成小片段,让计算机能处理。

词嵌入(Embedding):词嵌入就是把词语变成数字向量,让意思相近的词在"空间"里离得更近。

命名实体识别NER:NER是识别文本中具有特定意义的实体(人名、地名、公司名、日期等)。

计算机视觉:让机器看见世界

计算机视觉CV:CV是让计算机能够从图像和视频中理解信息的技术。

目标检测:目标检测不仅要识别图像中的物体是什么,还要指出它在哪里(用框框出来)。

图像分割:图像分割是把图像分成若干部分,每个像素都有标签。

光学字符识别OCR:OCR是把图像中的文字转换成可编辑的文本。

生成式AI:从理解到创造

生成式AI(GenAI):生成式AI是能创造新内容的AI,不只是分析理解,而是"无中生有"。

基础模型(Foundation Models):基础模型是在海量数据上预训练的大型AI模型,可以适应广泛的下游任务。

提示工程(Prompt Engineering):提示工程是设计和优化输入提示,引导AI产生期望输出的技术。

扩散模型(Diffusion Models):扩散模型是通过学习"去噪"来生成新数据的模型。

生成对抗网络GAN:GAN由两个神经网络组成:生成器(造假)和判别器(打假),它们相互竞争。

训练技术:让模型学得更好

梯度下降GD:梯度下降是一种优化算法,通过一步步调整参数,让模型越来越准确。

反向传播(Backpropagation):反向传播是训练神经网络时计算梯度的高效算法。

激活函数Activation Function:激活函数决定神经元是否应该"激活",为网络引入非线性。

正则化Regularization:正则化是防止模型"死记硬背"训练数据的技术。

批量归一化Batch Normalization:批量归一化是对每批数据的激活值进行标准化,加速训练并提高稳定性。

模型评估:如何衡量性能

准确率(Accuracy):准确率是模型正确预测的比例。

精确率(Precision)与召回率(Recall)

精确率:预测为正例的样本中,实际为正例的比例("说它是猫的,有多少真的是猫")

召回率:实际为正例的样本中,被预测为正例的比例("所有猫中,找出了多少")

F1分数:F1分数是精确率和召回率的调和平均数,综合评估模型性能。

ROC曲线AUC

ROC曲线:展示模型在不同阈值下的性能

AUC:ROC曲线下的面积(越接近1越好)

交叉验证(Cross-Validation):交叉验证是把数据分成K份,轮流用K-1份训练,1份验证,更稳健地评估模型。

专门应用领域:AI的无限可能

机器人学(Robotics):机器人学是设计、构造、控制机器人的跨学科领域。

专家系统(Expert Systems):专家系统是模拟人类专家决策的AI系统,通常用知识库+推理引擎。

自主系统(Autonomous Systems):自主系统是能在没有人为干预的情况下独立运行、感知、决策、执行的系统。

量子AI(Quantum AI):量子AI是探索如何用量子计算增强AI能力的新兴领域。

边缘AI(Edge AI):边缘AI是在边缘设备(手机、传感器、物联网设备)上本地运行AI的技术。

数据处理:AI的燃料

大数据(Big Data:大数据是传统数据库难以处理的海量、复杂数据集。

数据增强(Data Augmentation):数据增强是通过对现有数据进行变换,人工增加训练数据的技术。

特征提取(Feature Extraction):特征提取是从原始数据中提取更有信息量的特征。

特征工程Feature Engineering:特征工程是利用领域知识从原始数据中创造、选择和转换特征的过程。

AI伦理:负责任的AI

AI伦理(AI Ethics):AI伦理是研究与AI相关的道德问题、原则和最佳实践的学科。

AI偏见(Bias in AI):AI偏见是AI系统中存在的系统性错误或不公平结果,通常源于有偏训练数据或算法缺陷。

可解释AI(XAI:可解释AI是使AI系统的决策过程和输出结果能够被人类理解的技术和方法。

人在回路(HITL:人在回路是将人类智能与AI系统相结合,人类在训练、验证或决策中扮演关键角色。

未来展望:AI的下一个十年

通用人工智能(AGI):AGI是一种理论上的人工智能形式,能够理解、学习和应用知识于任何智力任务,达到或超过人类认知能力。

多模态AI:多模态AI是能够同时处理和理解多种模态(文本、图像、音频、视频)信息的AI系统。

具身AI(Embodied AI):具身AI是具有物理或虚拟身体的AI,通过与环境的交互来学习和表现智能行为。

自主智能体(Autonomous Agents):自主智能体是能够自主设定目标、规划行动、执行任务的AI系统。

AI与科学的融合:AI正在加速科学发现的过程,从材料科学到生物学,从天文学到高能物理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐