你是个开发者。

你每天用着 Claude 或 Codex CLI,心里老琢磨一件事:我有没有把它的能力榨干?

偶尔你会看到它干出一些蠢得离谱的事,然后不明白——为什么别人用 AI 像在造火箭,而你连两块石头都叠不稳?

你以为是工具的问题。你装了一堆插件,用了各种 harness,终端换了又换,CLAUDE.md 写了 26000 行。

但结果还是那样——你还在地上趴着,看别人在云端飞。

这篇文章,就是为你写的。

提前说明:

当我提到 CLAUDE.md 的时候,AGENT.md 也是同样的;当我提到 Claude 的时候,Codex 也是同理。这两个我都在大量使用。


没人真正懂得怎么把 Agent 用到极致

这是我这几个月最大的观察。

极少数人能让 Agent 像世界的创造者一样运转,其余大多数人则在各种工具里迷失,以为找到了"正确组合"就能解锁 AGI。

今天我只想说一句大实话:

你不需要最新的 agentic harness,不需要装一堆依赖包,也不需要每天刷文档"保持领先"。事实上,你的热情可能正在帮倒忙。

我不是说说而已。我从 Agent 刚能写代码时就开始用了。

各种包、各种框架、各种范式,都试过。

我用 Agent 搭建过真正跑在生产环境里的信号系统、基础设施和数据管道,不是玩具项目。

走了一圈下来,我现在用的是最接近裸奔的配置——只有基础 CLI,加上几个核心原则——反而做出了我最好的工作。


世界在狂奔,但你不用追

先说个背景。

AI 公司正在经历一轮历史级别的爆发,而且没有要停下来的迹象。每一代 Agent 都更听话、更能遵循复杂指令。

几代之前,你在 CLAUDE.md 里写"做任何事之前先读这个文件",它有一半概率直接无视你。现在它不仅会照做,还能跟着嵌套逻辑走:先读 A,再读 B,如果 C 成立,再读 D。

所以最重要的一条原则是:

每一代新 Agent 都会让你重新思考什么是最优解。这就是为什么越简单越好。

装了太多库和框架,你是在为一个可能根本不存在的问题锁死一套方案。

而且你知道谁是 Agent 最狂热、用得最多的人吗?

是这些 AI 公司自己的员工——他们有无限的 token 预算,用的是真正最新的模型。

这意味着什么?

如果某个问题是真实存在的,而且有好的解决方案,这些公司早就把它内置进产品里了。

Skills、记忆系统、子 Agent——这些一开始都是外部方案,后来被验证有价值,才被集成进了核心产品。

所以:

如果某个东西真的有用,Claude 和 Codex 最终会内置它。你不需要抢着用"最新工具",也不需要"随时保持更新"。

偶尔更新一下你的 CLI,看看新功能的 changelog,就够了。


上下文就是一切

这是核心。

用一堆插件和外部依赖的最大问题,是"上下文污染"——你给 Agent 塞了太多它不需要的信息。

举个例子:你让它写个 Python 版 Hangman 游戏。但它的上下文里还有 26 个会话前的"内存管理备注",71 个会话前"子进程爆炸"留下的记录,以及一条"记得写笔记"的通用规则……

这些和 Hangman 有什么关系?

你只需要给 Agent 完成任务所需的精确信息,不多也不少。

各种奇怪的记忆系统、命名混乱的 Skills、没必要的插件——这些让你在让 Agent 写一首关于红杉林的小诗时,塞给它一份炸弹说明书和一份蛋糕配方。


真正有用的做法

一、说清楚你要的实现方式

把研究和实现分开。

你说"去帮我搭一个 auth 系统",它得先研究什么是 auth 系统,有哪些方案,各有什么优劣,上下文塞满了各种可能性——等到真正实现时,早就乱了。

换成:"用 bcrypt-12 密码哈希实现 JWT 认证,refresh token 轮换,7 天过期……"它不需要调研任何其他方案,直接干活。

当然,你不总是知道细节。

这时可以这样:先开一个研究任务,搞清楚实现选项,做好决策,然后用一个全新上下文的 Agent 来实现。

这样一想,你会发现工作流里很多地方都在无谓地污染 Agent 的上下文。


二、利用好"讨好型"设计

没人想用一个整天否定自己的产品,所以 Agent 被设计成尽量顺从你、执行你的指令。

这很好用,但也有陷阱。

你说"帮我找代码里的 bug",它就会找到一个——哪怕得自己造一个出来。因为它想完成你的任务。

所以,用中性提示,不要预设结果。

不说"找 bug",改成:“梳理一下这段代码的每个模块,把你看到的情况都报给我。”

这样有时能找到真的问题,有时只是如实汇报代码运行逻辑,但不会逼着它捏造一个 bug。

你还可以反过来利用这个特性。

我会让一个"找 bug"的 Agent 打分:低影响 bug +1 分,中等 +5 分,严重 +10 分——它会非常积极地报出一大堆"bug"(含真含假)。

这是所有可能 bug 的超集

然后让一个"反驳"Agent 去证伪这些 bug:证伪成功得到对应分数,证伪失败则扣双倍——它会积极反驳,但有所顾忌。

这是真实 bug 的子集

最后让一个裁判 Agent 对两边的结论评分——我告诉它我手上有正确答案,对了 +1,错了 -1。裁判的结论我再过一遍,准确率高得吓人。

这套方法本质上是利用了 Agent 想讨好你这一特性,让不同角色在不同激励下发挥各自所长。


三、如何判断什么工具值得用?

很简单:如果 OpenAI 和 Anthropic 都实现了它,或者收购了做这件事的公司——那就是真的有用。

Skills 现在是Claude和Codex两家的官方功能;规划(planning before coding)从社区发现变成了核心能力;记忆、语音、远程工作……这些都是被验证有价值后才被内置的。

那些当时"超级有用"、后来随着新版本直接消失的 hack,就不用再费心了。

更新 CLI,读 changelog,就这样。


四、压缩、上下文与假设

你有没有遇到这种情况:Agent 时而聪明得像神,时而蠢得叫你抓狂?

关键在于它有没有被迫"脑补"。当 Agent 需要自己填空、连接信息,结果往往立刻变差。

解决方法:在 CLAUDE.md 里写一条"重新获取上下文"的规则。 每次压缩后(compaction),让 Agent 先重读任务计划和相关文件,再继续工作。


五、告诉 Agent 任务什么时候算完成

这比你想的重要得多。

人类对"完成"有很强的直觉,Agent 没有。它知道怎么开始,不知道什么时候该停——经常实现到一半就停了,用 stub 凑数。

用测试来定义"完成"。

在 X 个测试全部通过之前,任务没有结束;不允许修改测试本身。测试是确定性的,你可以清晰设定预期。

另一个好用的方法:

截图 + 验证。让 Agent 实现,跑测试,然后截图验证设计或行为——它会一直迭代,直到满足你的要求。

更进一步:

为每个任务创建一份 {TASK}_CONTRACT.md,里面列出所有需要完成的测试、截图和验证项。Agent 在完成合同里的所有要求之前,不允许终止会话。


六、关于"跑 24 小时的 Agent"

很多人问:怎么让 Agent 长时间运行又不跑偏?

方法很简单:用 stophook 阻止 Agent 在合同完成前终止。

但我要说一句——我没有发现超长运行的单一会话有多大优势。 它天然会把不相关合同的上下文混在一起,造成污染。

我更推荐这样:一个合同,一个新会话。

用一个编排层来管理:有新任务就创建新合同,开新会话去完成它。这会彻底改变你的 Agent 体验。


七、用规则和 Skills 来塑造 Agent 的"个性"

把 CLAUDE.md 当成一个逻辑目录,而不是一篇文章。

它的核心作用是:在不同场景下,告诉 Agent 去哪里找对应的规则或技能文件。

规则(Rules)

你不希望 Agent 做某件事,就写成规则,告诉它在做那件事前先读规则文件。

规则可以嵌套、可以加条件——“如果在写代码,读 coding-rules.md;如果在写测试,读 coding-test-rules.md;如果测试失败,读 coding-test-failing-rules.md”。

Agent 会老老实实跟着走。

Skills(技能)

规则是编码偏好,Skills 是编码方法。

如果你有特定的做事方式,把它写成 Skill。

甚至可以让 Agent 先研究它会怎么解决某个问题,然后把这个方案写成 Skill——你审核、修正,等到真正遇到这个问题时,它就按你认可的方式处理。


随着规则和 Skills 增多,性能会再次下降

这很正常。

规则越来越多,开始互相矛盾;或者 Agent 需要在开始写代码前读 14 个 markdown 文件,上下文又开始膨胀了。

解决方法:定期清理。

让 Agent"去做个 spa",把所有规则和 Skills 整合一遍,删掉矛盾项,向你确认最新偏好。

清理完,它又会感觉像魔法一样好用。

这就是全部的秘密。

保持简单,用规则和 Skills,把 CLAUDE.md 当目录,对上下文和 Agent 的设计限制保持清醒的认知。


假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线,

3个月即可成为模型大师,薪资直接起飞。
img

阶段1:大模型基础

img

阶段2:RAG应用开发工程

img

阶段3:大模型Agent应用架构

img

阶段4:大模型微调与私有化部署

img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述
img

img

img

img
img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐