Claude/Codex CLI 搞定！世界级 Agent 工程师只用这几招，效率翻倍！

进击的码农！

431人浏览 · 2026-03-29 16:34:48

进击的码农！ · 2026-03-29 16:34:48 发布

你是个开发者。

你每天用着 Claude 或 Codex CLI，心里老琢磨一件事：我有没有把它的能力榨干？

偶尔你会看到它干出一些蠢得离谱的事，然后不明白——为什么别人用 AI 像在造火箭，而你连两块石头都叠不稳？

你以为是工具的问题。你装了一堆插件，用了各种 harness，终端换了又换，CLAUDE.md 写了 26000 行。

但结果还是那样——你还在地上趴着，看别人在云端飞。

这篇文章，就是为你写的。

提前说明：

当我提到 CLAUDE.md 的时候，AGENT.md 也是同样的；当我提到 Claude 的时候，Codex 也是同理。这两个我都在大量使用。

没人真正懂得怎么把 Agent 用到极致

这是我这几个月最大的观察。

极少数人能让 Agent 像世界的创造者一样运转，其余大多数人则在各种工具里迷失，以为找到了"正确组合"就能解锁 AGI。

今天我只想说一句大实话：

你不需要最新的 agentic harness，不需要装一堆依赖包，也不需要每天刷文档"保持领先"。事实上，你的热情可能正在帮倒忙。

我不是说说而已。我从 Agent 刚能写代码时就开始用了。

各种包、各种框架、各种范式，都试过。

我用 Agent 搭建过真正跑在生产环境里的信号系统、基础设施和数据管道，不是玩具项目。

走了一圈下来，我现在用的是最接近裸奔的配置——只有基础 CLI，加上几个核心原则——反而做出了我最好的工作。

世界在狂奔，但你不用追

先说个背景。

AI 公司正在经历一轮历史级别的爆发，而且没有要停下来的迹象。每一代 Agent 都更听话、更能遵循复杂指令。

几代之前，你在 CLAUDE.md 里写"做任何事之前先读这个文件"，它有一半概率直接无视你。现在它不仅会照做，还能跟着嵌套逻辑走：先读 A，再读 B，如果 C 成立，再读 D。

所以最重要的一条原则是：

每一代新 Agent 都会让你重新思考什么是最优解。这就是为什么越简单越好。

装了太多库和框架，你是在为一个可能根本不存在的问题锁死一套方案。

而且你知道谁是 Agent 最狂热、用得最多的人吗？

是这些 AI 公司自己的员工——他们有无限的 token 预算，用的是真正最新的模型。

这意味着什么？

如果某个问题是真实存在的，而且有好的解决方案，这些公司早就把它内置进产品里了。

Skills、记忆系统、子 Agent——这些一开始都是外部方案，后来被验证有价值，才被集成进了核心产品。

所以：

如果某个东西真的有用，Claude 和 Codex 最终会内置它。你不需要抢着用"最新工具"，也不需要"随时保持更新"。

偶尔更新一下你的 CLI，看看新功能的 changelog，就够了。

上下文就是一切

这是核心。

用一堆插件和外部依赖的最大问题，是"上下文污染"——你给 Agent 塞了太多它不需要的信息。

举个例子：你让它写个 Python 版 Hangman 游戏。但它的上下文里还有 26 个会话前的"内存管理备注"，71 个会话前"子进程爆炸"留下的记录，以及一条"记得写笔记"的通用规则……

这些和 Hangman 有什么关系？

你只需要给 Agent 完成任务所需的精确信息，不多也不少。

各种奇怪的记忆系统、命名混乱的 Skills、没必要的插件——这些让你在让 Agent 写一首关于红杉林的小诗时，塞给它一份炸弹说明书和一份蛋糕配方。

真正有用的做法

一、说清楚你要的实现方式

把研究和实现分开。

你说"去帮我搭一个 auth 系统"，它得先研究什么是 auth 系统，有哪些方案，各有什么优劣，上下文塞满了各种可能性——等到真正实现时，早就乱了。

换成："用 bcrypt-12 密码哈希实现 JWT 认证，refresh token 轮换，7 天过期……"它不需要调研任何其他方案，直接干活。

当然，你不总是知道细节。

这时可以这样：先开一个研究任务，搞清楚实现选项，做好决策，然后用一个全新上下文的 Agent 来实现。

这样一想，你会发现工作流里很多地方都在无谓地污染 Agent 的上下文。

二、利用好"讨好型"设计

没人想用一个整天否定自己的产品，所以 Agent 被设计成尽量顺从你、执行你的指令。

这很好用，但也有陷阱。

你说"帮我找代码里的 bug"，它就会找到一个——哪怕得自己造一个出来。因为它想完成你的任务。

所以，用中性提示，不要预设结果。

不说"找 bug"，改成：“梳理一下这段代码的每个模块，把你看到的情况都报给我。”

这样有时能找到真的问题，有时只是如实汇报代码运行逻辑，但不会逼着它捏造一个 bug。

你还可以反过来利用这个特性。

我会让一个"找 bug"的 Agent 打分：低影响 bug +1 分，中等 +5 分，严重 +10 分——它会非常积极地报出一大堆"bug"（含真含假）。

这是所有可能 bug 的超集。

然后让一个"反驳"Agent 去证伪这些 bug：证伪成功得到对应分数，证伪失败则扣双倍——它会积极反驳，但有所顾忌。

这是真实 bug 的子集。

最后让一个裁判 Agent 对两边的结论评分——我告诉它我手上有正确答案，对了 +1，错了 -1。裁判的结论我再过一遍，准确率高得吓人。

这套方法本质上是利用了 Agent 想讨好你这一特性，让不同角色在不同激励下发挥各自所长。

三、如何判断什么工具值得用？

很简单：如果 OpenAI 和 Anthropic 都实现了它，或者收购了做这件事的公司——那就是真的有用。

Skills 现在是Claude和Codex两家的官方功能；规划（planning before coding）从社区发现变成了核心能力；记忆、语音、远程工作……这些都是被验证有价值后才被内置的。

那些当时"超级有用"、后来随着新版本直接消失的 hack，就不用再费心了。

更新 CLI，读 changelog，就这样。

四、压缩、上下文与假设

你有没有遇到这种情况：Agent 时而聪明得像神，时而蠢得叫你抓狂？

关键在于它有没有被迫"脑补"。当 Agent 需要自己填空、连接信息，结果往往立刻变差。

解决方法：在 CLAUDE.md 里写一条"重新获取上下文"的规则。 每次压缩后（compaction），让 Agent 先重读任务计划和相关文件，再继续工作。

五、告诉 Agent 任务什么时候算完成

这比你想的重要得多。

人类对"完成"有很强的直觉，Agent 没有。它知道怎么开始，不知道什么时候该停——经常实现到一半就停了，用 stub 凑数。

用测试来定义"完成"。

在 X 个测试全部通过之前，任务没有结束；不允许修改测试本身。测试是确定性的，你可以清晰设定预期。

另一个好用的方法：

截图 + 验证。让 Agent 实现，跑测试，然后截图验证设计或行为——它会一直迭代，直到满足你的要求。

更进一步：

为每个任务创建一份 {TASK}_CONTRACT.md，里面列出所有需要完成的测试、截图和验证项。Agent 在完成合同里的所有要求之前，不允许终止会话。

六、关于"跑 24 小时的 Agent"

很多人问：怎么让 Agent 长时间运行又不跑偏？

方法很简单：用 stophook 阻止 Agent 在合同完成前终止。

但我要说一句——我没有发现超长运行的单一会话有多大优势。 它天然会把不相关合同的上下文混在一起，造成污染。

我更推荐这样：一个合同，一个新会话。

用一个编排层来管理：有新任务就创建新合同，开新会话去完成它。这会彻底改变你的 Agent 体验。

七、用规则和 Skills 来塑造 Agent 的"个性"

把 CLAUDE.md 当成一个逻辑目录，而不是一篇文章。

它的核心作用是：在不同场景下，告诉 Agent 去哪里找对应的规则或技能文件。

规则（Rules）：

你不希望 Agent 做某件事，就写成规则，告诉它在做那件事前先读规则文件。

规则可以嵌套、可以加条件——“如果在写代码，读 coding-rules.md；如果在写测试，读 coding-test-rules.md；如果测试失败，读 coding-test-failing-rules.md”。

Agent 会老老实实跟着走。

Skills（技能）：

规则是编码偏好，Skills 是编码方法。

如果你有特定的做事方式，把它写成 Skill。

甚至可以让 Agent 先研究它会怎么解决某个问题，然后把这个方案写成 Skill——你审核、修正，等到真正遇到这个问题时，它就按你认可的方式处理。

随着规则和 Skills 增多，性能会再次下降

这很正常。

规则越来越多，开始互相矛盾；或者 Agent 需要在开始写代码前读 14 个 markdown 文件，上下文又开始膨胀了。

解决方法：定期清理。

让 Agent"去做个 spa"，把所有规则和 Skills 整合一遍，删掉矛盾项，向你确认最新偏好。

清理完，它又会感觉像魔法一样好用。

这就是全部的秘密。

保持简单，用规则和 Skills，把 CLAUDE.md 当目录，对上下文和 Agent 的设计限制保持清醒的认知。

假如你从2026年开始学大模型，按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线，

3个月即可成为模型大师，薪资直接起飞。

阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【`保证100%免费`】👇👇

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI测试智能体（agent）实战 1：拿到一个 AI Agent，别急着写用例：我是怎么拆出 190 条的？

AtomGit开源社区

天赐范式第61天：CG为什么解不动？——从泊松符号错误到加权内积错位与雨-Gamma代数共谋的逐层排查——“数值模拟是90%物理、10%数学”并非严格量化结论

AtomGit开源社区

基于AI大模型的省级三甲医院医防协同数字化转型规划设计方案

AtomGit开源社区

所有评论(0)

查看更多评论

进击的码农！

@libaiup

已为社区贡献153条内容

Claude/Codex CLI 搞定！世界级 Agent 工程师只用这几招，效率翻倍！

进击的码农！

配套文档资源+全套AI 大模型 学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

所有评论(0)

温馨提示：您尚未绑定手机号

进击的码农！

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【`保证100%免费`】👇👇