从“提示词“工程到“爱马仕工程“

cjm_success

334人浏览 · 2026-04-07 18:32:01

cjm_success · 2026-04-07 18:32:01 发布

0. 序章：为什么 AI 总是在关键时刻“翻车”？

在 2026 年的今天，开发者正面临一个尴尬的挑战：即便我们手里拿着最顶尖的模型（如 GPT-5.4），构建出的 AI 智能体（Agent）在处理复杂任务时依然经常出错。它们可能在长任务中陷入死循环，或者写出的代码虽然逻辑通顺，但却完全跑不起来。

这种挫败感揭示了一个事实：AI 的上限，不再取决于你写了多完美的提示词（Prompt），而取决于你给它搭建了什么样的“运行环境”。

与此同时，OpenAI 团队的一项内部实验震惊了业界：他们仅靠 7 名工程师，在 5 个月内自动化产出了 100 万行代码。核心规则只有一条：不准人手写代码，全部由 AI 生成。

他们成功的秘密不是找到了什么“万能提示词”，而是建立了一套被称为 马具工程 (Harness Engineering) 的系统。这套系统的目标非常务实：把重复、低级的检查工作交给机器。它不再寄希望于 AI 能一次性表现完美，而是通过一套自动化的约束和校验机制，让 AI 即使在表现平平时，也无法越过预设的逻辑底线。

1. 拒绝“大杂烩”上下文：像设计操作系统一样设计环境

如果把 AI 比作一个动力强劲的引擎，那么提示词工程（Prompt Engineering）只是在给引擎下指令。但要让引擎驱动一台复杂的机器，你需要一整套控制系统：转向、刹车和仪表盘。这套系统就是 Harness（运行环境）。

在架构师眼中，模型只是 CPU，而环境约束则是确保任务不跑偏的“操作系统”。

我们需要理清三个层次：

• 提示词 (Prompt)：最基础的指令。单纯靠修改词句来提升性能，很快就会遇到天花板。
• 按需加载 (Context Management)：不要把所有的文档一股脑塞给 AI。高效的系统会根据当前步骤，只给 AI 提供它必须掌握的“关键信息”，而不是让它去背诵整本 1000 页的说明书。
• 环境约束 (Harness)：这包括对权限的控制、状态的记录、以及每一步操作后的自动校验。如果缺乏这些硬性门禁，即使模型再聪明，在处理复杂业务时也会显得极其脆弱。

最核心的原则是：不要指望 AI 靠“自觉”把事做对，要通过环境让它“不得不”把事做对。

2. 限制越多，AI 反而越高效

一个违背直觉的发现是：为了让 AI 更聪明，你反而应该限制它的自由。

Vercel 团队发现，当他们给 AI 开放所有权限时，AI 会因为选项太多而产生各种乱操作。当他们果断 关闭了 80% 的多余权限 后，AI 的任务成功率反而大幅飙升。

为什么“限制自由”反而是好事？

• 自由是负担：如果你给 AI 100% 的自由，它会产出大量看似通顺、实则充满 Bug 的“垃圾产出”。这些垃圾最终都需要人类开发者去清理和 debug，反而增加了人类的负担。
• 约束是资产：如果你给 AI 设定死板的规则（比如：代码必须通过语法检查、必须通过 3 个 AI 的交叉评审），它会被迫不断重写，直到满足规则。

在 OpenAI 的实验中，AI 每天能产出 3.5 个 PR（代码拉取请求），靠的就是一套 “AI 评审回路”：一个 AI 写，另外几个 AI 拼命“找茬”。

在这种模式下，开发者深刻意识到：AI 的智力是不值钱的，它重做 100 次也不会累；值钱的是你设计的这套“规矩”，它自动过滤掉了所有垃圾，最后呈现在你面前的才是纯金。