OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么

你以为 OpenClaw 是个 Coding Agent?不,它真正在做的事情比这大得多——它在定义"AI 个人助手"应该长什么样。


大多数对 OpenClaw 的讨论都集中在"它能不能替代 Claude Code"、“代码写得好不好”、“SWE-Bench 跑了多少分”。

这些讨论都没抓到重点。

我花了两周扒完 OpenClaw 的源码,发现大家讨论最多的功能(写代码),恰恰是它最不重要的部分。OpenClaw 真正在做的事情,是解决一个被整个行业忽视了两年的根本问题——

怎样让 AI Agent 从"对话一次性消费品"变成"能持续工作的数字员工"。

这篇文章不聊功能列表,不做产品对比,只拆一件事:OpenClaw 的架构设计里藏着哪些被严重低估的技术创新,以及为什么这些创新比"能写代码"重要100倍。


一、所有人都在聊的"写代码",只是冰山一角

打开任何一篇 OpenClaw 的测评文章,你看到的都是这种内容:

  • “让它改个 Bug,居然一次就过了!”
  • “自动跑测试、自动修 lint 错误,比 Cursor 强多了”
  • “SWE-Bench 分数逼近 Claude Code”

这些描述都,但它们描述的只是冰山露出水面的那 10%。

实际上,OpenClaw 的代码能力几乎完全来自两个已经很成熟的技术:Vercel AI SDK 的内置工具调用循环模型自身的代码能力。这些能力不是 OpenClaw 独有的——任何人用同样的 SDK + 同样的模型,都能做到差不多的效果。

真正让 OpenClaw 拉开差距的,是水面以下那 90%。


二、被低估的第一层:AI 也需要"灵魂"

你有没有注意过一个现象?

同样是 Claude 3.5 模型,在 ChatGPT 的壳里表现得像个拘谨的客服,在 Claude Code 里像个利索的程序员,在 OpenClaw 里却像一个有脾气、有偏好的私人助手。

模型是同一个。为什么表现天差地别?

因为 OpenClaw 给 AI 写了一本"灵魂手册"。

这不是比喻。在 OpenClaw 的代码库里,真的有一个叫 SOUL.md 的文件:

# Core Truths

- Be genuinely helpful, not performatively helpful
  → 跳过 "Great question!" 等所有客套话

- Have opinions
  → 允许有偏好,觉得有些方案比另一些更好

- Be resourceful before asking
  → 先自己尝试解决,再向用户提问

- Earn trust through competence
  → 对外操作谨慎,对内操作大胆

第一条就击中了当前所有 AI 产品的死穴:“Be genuinely helpful, not performatively helpful”——真正有帮助,而不是表演性地有帮助。

什么是"表演性帮助"?就是你问 AI 一个问题,它先说 “Great question! I’d be happy to help you with that!”,然后给你一个面面俱到、什么都说了等于什么都没说的答案。你看着它"很积极"、“很友好”,但你的问题其实没被解决。

这条规则写进 System Prompt 之后,AI 的行为模式会发生肉眼可见的变化——输出减少 30% 的废话,直接切入问题核心。

更狠的是第二条:“Have opinions”——允许有观点。

传统 AI 产品都在追求"中立"——“方案 A 有这些优点,方案 B 也有那些优点,具体选择取决于您的需求”。这在政治正确的意义上无可挑剔,但在实际工作中毫无价值。

当你问一个高级工程师"该用 Redis 还是 Memcached"时,他不会说"两者各有优劣"。他会说:“你这个场景用 Redis,因为你后面肯定要用到它的数据结构,到时候再迁移成本更高。”

OpenClaw 通过 SOUL.md 赋予了 AI 这种"表达判断"的权限。听起来微不足道?但它直接解决了 AI 产品中最普遍的用户抱怨——“AI 总是两边讨好,给不了有价值的建议”。


三、被低估的第二层:不是一个 Prompt,是一套"上下文操作系统"

现在的 AI Agent 产品,不管外面包装得多花哨,底层逻辑大多是:

System Prompt + 用户消息 → 模型 → 回复

一坨 System Prompt 塞进去,模型输出结果。简单粗暴。

OpenClaw 的做法完全不同。它把上下文管理拆成了七个独立模块,每次会话启动时按优先级组装:

模块 内容 作用
IDENTITY.md “我是谁” 名字、类型、风格
SOUL.md “我的价值观” 行为准则、边界意识
AGENTS.md “行为宪法” 每次会话的强制规范
TOOLS.md “我的装备” 环境配置、设备信息
USER.md “我的老板是谁” 用户偏好、工作习惯
MEMORY.md “我的长期记忆” 跨 Session 的重要信息
HEARTBEAT.md “我的待办清单” 定期检查的任务

这不是一个 Prompt,这是一套操作系统。

每个模块独立维护、独立更新,互不干扰。想调整 AI 的人格?改 SOUL.md,不影响其他模块。想让 AI 记住一个新的用户偏好?更新 USER.md,下次会话自动生效。

这种设计有一个被大多数人忽视的巨大优势:可维护性

单一 System Prompt 的问题是,它会随着使用变得越来越长、越来越乱,最后谁也不敢改——改了一处可能影响其他所有行为。模块化设计让每个维度的关注点完全分离,这是软件工程中"关注点分离"原则在 Prompt 工程中的完美迁移。

更精妙的是,不同场景用不同的模块组合。主 Agent 加载全部七个模块;子代理只加载 AGENTS.md 和 TOOLS.md——因为子代理是一次性的执行单元,它不需要人格、不需要记忆、不需要知道用户是谁。这让子代理的上下文极其精简,响应更快、Token 消耗更少。


四、被低估的第三层:AI 第一次有了"时间观念"

这可能是 OpenClaw 最被低估的创新。

当前的 AI Agent 本质上都是"刺激-响应"机器——你说一句,它回一句。你不说话,它就不动。它没有时间的概念,不知道"现在是几点",不会"到点了提醒你开会",更不可能"每天晚上自动帮你总结邮件"。

OpenClaw 的 Cron 系统改变了这一点。

它让 Agent 具备了三种时间调度能力:

at:    "30分钟后提醒我开会"      → 一次性定时
every: "每小时检查一次服务器"     → 间隔重复
cron:  "工作日早9点总结昨天邮件"  → 标准 Cron 表达式

这在技术上不难实现——任何后端工程师都能写一个定时器。但关键不在定时器本身,而在它与 Agent 系统的深度集成

OpenClaw 的 Cron 任务有两种执行模式:

模式一:Main Session(主会话注入)

任务到期时,系统往主对话里塞一条系统消息。就像有人在聊天窗口里说了句"该检查邮件了",AI 在当前上下文中处理这条消息。适合简单提醒。

模式二:Isolated Session(独立会话执行)

任务到期时,系统启动一个全新的 Agent 会话,在完全隔离的环境中执行。执行完毕后,把结果汇报回主会话。

第二种模式才是真正的杀手锏。想象一下:

“每天晚上10点,自动检查服务器日志,如果有异常就生成报告发给我。”

传统 AI 做不到这件事——它只能在你打开对话的时候工作。但有了 Isolated Session,Agent 可以在后台默默干活,干完了再通知你。

这意味着 Agent 从"被动工具"进化成了"主动助手"。 这是一个质变。


五、被低估的第四层:AI 终于会"分身"了

你让 AI 做一个复杂的代码重构任务。它需要先搜索代码库找到所有相关文件,分析依赖关系,理解业务逻辑,然后才能动手。

传统做法是串行的:搜索 → 分析 → 理解 → 动手。每一步都要等上一步完成。

如果搜索过程中需要探索三个不同的方向呢?AI 只能一个个来,你只能干等。

OpenClaw 的 Subagent 系统解决了这个问题。

主 Agent 可以派出最多 8 个"影分身",每个分身独立执行一个任务:

主 Agent:  "我需要了解这个项目的结构"
    │
    ├── 分身1 (explore): "搜索认证模块的实现"
    ├── 分身2 (explore): "查找所有测试文件的模式"
    └── 分身3 (explore): "分析组件的依赖关系"
    
    ← 三个结果同时返回,主 Agent 综合分析

但这套系统真正精妙的地方,不是"能并行"——这个概念不新。精妙在安全机制的设计

铁律一:分身不能再创建分身。

if (isSubagentSessionKey(requesterSessionKey)) {
  return { status: "forbidden", error: "不允许嵌套创建" };
}

为什么?防止一个失控的子代理创建无限个子子代理,像 fork bomb 一样耗尽系统资源。

铁律二:分身的能力被严格限制。

子代理没有人格(不加载 SOUL.md)、没有记忆(不加载 MEMORY.md)、不能与用户对话(禁用 message 工具)、不能创建定时任务(禁用 cron 工具)。它唯一的职责就是:完成任务,汇报结果,然后消失

这就像你派实习生去调研——你只告诉他公司规章制度和可用资源,不需要告诉他老板的人生故事。

铁律三:分身的结果回传有"交通管制"。

如果主 Agent 正在处理用户消息,三个分身的汇报不能同时涌入——那会造成上下文混乱。OpenClaw 引入了公告队列:

  • 主 Agent 正忙?结果先排队
  • 主 Agent 空闲了?批量处理所有排队的结果

这个设计借鉴了分布式系统中"消息队列"的思想,但被巧妙地迁移到了 AI Agent 场景——看似简单,却解决了一个非常实际的工程问题。


六、被低估的第五层:Prompt 里藏着的"管理学"

如果你只看 OpenClaw 的架构图,你会觉得"也就那么回事"。真正让它跑起来的,是散布在 Prompt 各处的行为约束设计

这些设计不是技术创新,而是管理学在 AI 系统中的应用

“不做完不许停”

You MUST iterate and keep going until the problem is solved.
NEVER end your turn without having truly and completely solved the problem.

注意措辞:不是 “should”(建议),是 “MUST”(必须)和 “NEVER”(绝不)。

AI 对强制性语言的遵从度远高于建议性语言。这句话的效果是:AI 不会写到一半说"剩下的你自己来"。它会一直干到完成。

“每做完一件事,就打个勾”

OpenClaw 内置了 TodoWrite 工具,强制 AI 把复杂任务拆成步骤清单,每完成一步就标记完成。

Prompt 原文:
Use these tools VERY frequently. If you do not use this tool 
when planning, you may forget to do important tasks - and that 
is unacceptable.

“VERY frequently”、“unacceptable”——这不是温和的建议,这是 KPI。

为什么需要这个?因为 AI 最大的问题之一是**“做着做着就忘了”**。尤其在长对话中,它很容易丢失上下文、遗漏步骤。Todo 列表就像一根绳子,时刻拉着 AI 回到正轨。

“先试了再问”

Be resourceful before asking
→ 先尝试解决,再向用户提问

普通 AI 动不动就问"你想要什么格式?""确认一下你的意思是不是……"这些问题看似谨慎,实际上是在推卸责任——AI 不敢做决定,就把球踢回给用户。

这条规则让 AI 学会了先动手尝试,实在解决不了再开口问。看似一个小改动,但用户体验的提升是质变级的——你不再需要当 AI 的"微管理者"。


七、被低估的第六层:记忆不是"技术特性",是"存在条件"

每次和 AI 开新对话,你都在跟一个失忆症患者说话。你昨天花了一小时教它理解你的项目架构,今天开新窗口,它又一脸懵。

这不是技术限制——上下文窗口够长。这是设计缺陷——没人认真设计过"AI 该怎么记东西"。

OpenClaw 的记忆系统分两层:

第一层:Daily Notes(日志)

memory/2026-03-14.md — 今天发生了什么
memory/2026-03-13.md — 昨天发生了什么

原始记录,事无巨细。

第二层:MEMORY.md(提炼记忆)

从 Daily Notes 中提取真正重要的信息:关键决策、用户偏好、项目状态。只保留"值得记住的事"。

最关键的一句话在 AGENTS.md 里:

"Mental notes" are unreliable. Write to file.
"脑子里的笔记"不可靠。必须写入文件。

这句话暗藏了一个深刻的洞察:AI 的"记忆"和人类的记忆有本质区别。 人类可以模糊地记住一些东西,凭直觉调用。AI 不行——上一轮对话说的事情,下一轮可能就完全忘了。所以 AI 的记忆必须外部化——写到文件里,每次启动时重新读取。

这不是一个技术实现细节。这是 AI Agent 能够持续工作的前提条件。没有外部化记忆,Agent 就只是一个"一次性咨询工具"——每次用完就失忆,永远无法积累对你、对项目、对工作习惯的理解。


八、所以,OpenClaw 到底在做什么?

把上面六层拼在一起,你就能看清 OpenClaw 的真正蓝图:

传统 AI Agent OpenClaw
没有人格 → 每次表现不一致 SOUL.md → 稳定的行为模式和价值判断
单一 Prompt → 改一处崩全局 七模块架构 → 分离关注点,独立维护
被动响应 → 你不说话它不动 Cron 系统 → 自主调度,主动工作
串行执行 → 一件一件来 Subagent → 并行分身,同时干活
对话即失忆 → 每次重新开始 分层记忆 → 跨 Session 的连续性
写完代码就完事 → 质量靠运气 强制验证 → 自动跑 lint、测试、类型检查

你看出来了吗?这不是一个 Coding Agent。这是一套"数字员工操作系统"。

写代码只是它能做的事情之一。因为它有人格、有记忆、有时间观念、有并行能力、有自我验证——这些组合在一起,定义的是一个能独立工作的 Agent 应该具备的完整能力栈


九、为什么这件事比"能写代码"重要 100 倍?

让我们回到文章开头的问题:为什么说 90% 的人没看懂 OpenClaw?

因为大多数人还在用"工具"的思维框架理解它。“能不能写 React 组件?”“能不能修 TypeScript 错误?”“跟 Claude Code 比谁更快?”——这些问题的底层假设是:AI Agent 是一个更智能的工具

工具的特征是:你用它,它干活;你不用,它就静静躺在那。

OpenClaw 的设计指向的是另一个东西:一个能自主工作的实体。

它有自己的"性格"(SOUL.md),知道自己的"老板"是谁(USER.md),记得"昨天发生了什么"(MEMORY.md),会自己"设闹钟干活"(Cron),干不过来的时候会"派人帮忙"(Subagent),干完活会"自查一遍"(自我验证)。

这每一项单独拎出来都不新鲜。定时任务?从 Unix crontab 时代就有了。并行执行?分布式系统的标配。记忆系统?RAG 论文汗牛充栋。

但把它们组装成一个完整的"数字员工操作系统"——这是 OpenClaw 做的事。 而且是以一种工程上非常优雅的方式做的。


十、给技术人的几个 Takeaway

如果你正在做 AI Agent 相关的工作,以下是我从 OpenClaw 源码中提炼的几个核心洞察:

1. Prompt 工程被严重低估了

OpenClaw 的 Prompt 系统不是"几句话"。它是一个多模块、多层级、动态组装的上下文管理系统。包括内容截断策略(保留前 70% + 后 20%、砍中间)、场景化裁剪(子代理用精简模式)、强制行为约束。这是一整套工程实践,不是几个 Tips 能概括的。

2. "强制"比"建议"有效 100 倍

对比这两种写法:

建议版:You should try to complete tasks fully.
强制版:You MUST iterate. NEVER end without solving. 

AI 对 “MUST”、“NEVER”、“VERY IMPORTANT” 的遵从度远高于 “should”、“try”。你在设计 Agent 时用的每一个温和措辞,都在降低系统的可靠性。

3. 最小权限原则不只是安全策略

子代理只给需要的文件、只给需要的工具、只给需要的上下文——这不仅是安全考虑,更是性能优化。更少的上下文意味着更快的响应、更少的 Token 消耗、更低的幻觉概率。

4. Agent 的核心问题不是"智能",是"可靠"

模型够聪明了。真正阻碍 Agent 落地的是:做一半就停了、忘了之前的约定、改了 A 文件忘了同步 B 文件。OpenClaw 的大部分设计——TodoWrite、强制验证、记忆系统——都在解决可靠性问题,而非智能问题。

5. 现代 SDK 让很多事情变得很简单

OpenClaw 的并行子代理不是自己写的并发逻辑。它通过 Prompt 指导 LLM 在单条消息中发起多个工具调用,Vercel AI SDK 自动并行执行。你不需要自己实现多线程——教 AI "什么时候并行"就够了。


写在最后

回到标题:“OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么。”

它不是在做一个更好的 Coding Agent。它是在回答一个更本质的问题:

当 AI 足够聪明之后,我们应该怎样构建一个"能持续工作的数字实体"?

它需要人格(才能行为一致),需要记忆(才能积累理解),需要时间观念(才能主动工作),需要分身能力(才能高效执行),需要自我验证(才能可靠输出)。

OpenClaw 的源码不长,但它可能是目前对"AI Agent 应该长什么样"这个问题给出的最完整答案。

看不到这一层,你永远在讨论"它能不能写一个 React 组件"。

看到这一层,你才知道真正的战场在哪。


如果你也在做 Agent 相关的工作,强烈建议去看看 OpenClaw 的源码——不是看它怎么调 API,而是看它怎么设计"一个能工作的 AI 应该具备什么"。

觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,可以关注我的公众号:机器懂语言

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐