2026 年最被高估的技术？不，Harness Engineering 是 AI 工程的下一个十年

小饕

657人浏览 · 2026-04-14 21:19:35

小饕 · 2026-04-14 21:19:35 发布

模型不是瓶颈，你搭的"壳"才是。

在这里插入图片描述

一、一个让所有 AI 从业者沉默的数据

2026 年初，研究者 Nate B Jones 发表了一项看似平淡无奇的研究：

同一个 AI 模型，同样的提示词，只更换它运行的"环境"，编程基准测试的成功率从 42% 跳到了 78%。

模型没换。数据没换。提示词也没换。

只是改了模型外面包裹的那层"壳"，性能翻了将近一倍。

这层壳，现在有了一个正式的名字：Harness（马具）。

而围绕它展开的工程实践，叫 Harness Engineering（驾驭工程），是 2026 年 AI 工程圈最热门、也最被误解的话题。

二、Harness 到底是什么？

2.1 一个通俗的比喻

把 AI 模型比作一匹千里马。

Harness 就是驾驭这匹马所需要的一切：缰绳、马鞍、路线规划、围栏、训练规则。

你要做的，不是让这匹马"更聪明"，而是让它跑得更稳、更快、更安全。

可能说马相关的东西比较遥远不好理解，咱们把大模型理解成发动机，古早的Agent就好比是給发动机装上地盘轮子方向盘和刹车，让这辆车能跑，但是早期汽车跑不远，想让汽车正常跑在路上你要为汽车安装好多东西，减震系统，汽车喇叭，车灯转向灯，顶棚，雨刮等，后来又安装了GPS导航，自动驾驶传感器，这些就属于Harness，以后肯定还有更多的功能。
在这里插入图片描述

具体来说，Harness 就是：

你给 AI 写的项目规则文件（AGENTS.md）
你配置的各种工具（终端、文件系统、浏览器）
你安排的任务拆分和执行顺序
你设计的测试和检查流程

这些统统都算 Harness。

2.2 核心公式

整个行业达成了一个共识公式：

Agent = Model + Harness

模型提供智能，Harness 让这个智能能被实际使用。

三、为什么是 2026 年？

3.1 三代进化

要理解 Harness 为什么现在火了，得先看它是怎么一步步"长"出来的。

阶段	时间	核心关注	比喻
Prompt Engineering	2022-2024	怎么写好单次指令	写一封好邮件
Context Engineering	2025	动态构建上下文环境	带上相关附件
Harness Engineering	2026 年 2 月起	设计完整控制系统	搭建整个办公室

三层关系是层层包含的：

Prompt 是最内层：关注"怎么给 AI 下指令"
Context 包裹着 Prompt：关注"怎么给 AI 提供信息"
Harness 把它们全部包在里面：关注"怎么让 AI 持续靠谱地干完一整件事"

3.2 引爆点：两篇博文

2026 年 2 月，两篇几乎同时发布的技术文章，把 Harness 推上了风口浪尖。

第一篇，来自 OpenAI 的 Codex 团队：

从一个空的 git 仓库开始，5 个月，大约 100 万行代码，1500 个 PR，全部由 Agent 生成，人类一行代码都没写。

团队一开始只有 3 个工程师，后来扩到 7 个。平均每位工程师每天合并 3.5 个 PR。

他们估算，如果用传统方式手写，这个项目的工期应该是现在的10 倍。

第二篇，来自 Mitchell Hashimoto（HashiCorp 联合创始人、Terraform 的缔造者）：

他把自己的 AI 采纳之旅分成六个阶段，第五个阶段给了一个名字：

Engineer the Harness

每当你发现 Agent 犯了一个错误，你就花时间去工程化一个解决方案，让它再也不会犯同样的错。

他在项目中实践了这个理念：AGENTS.md 文件里的每一行规则，背后都对应着 Agent 曾经犯过的一个错。

四、Harness 的五个核心模块

这是本文的重点。理解了这五个模块，你就理解了 Harness 的骨架。

4.1 上下文架构：让 AI 了解项目背景和规矩

做项目的第一步是什么？

了解需求、项目背景和开发规范。用 AI 做项目也一样。

常见做法：

写 AGENTS.md 规则文件，告诉 AI 技术栈、代码规范、禁止事项
但注意：OpenAI 团队踩过一个坑——把几千行规则塞进一个大文件，AI 反而更容易忽略关键信息

正确做法：把 AGENTS.md 当成目录来用，只写大约 100 行的摘要和索引，然后在 docs/ 目录下放详细的设计文档。

AGENTS.md（目录，约 100 行）
├── "前端规范看 docs/FRONTEND.md"
├── "安全相关看 docs/SECURITY.md"
└── "API 文档看 docs/API.md"

ETH Zurich 的一项研究发现：CLAUDE.md / AGENTS.md 文件应该控制在 60 行以内。过长的指令文件反而会降低 Agent 的表现。

4.2 执行能力：给 AI 装上手脚和工具

AI 模型本身只能输出文本。要让它真正帮你干活，得给它配工具。

工具清单：

Bash 终端：执行命令
文件系统：读写代码
浏览器：测试网页（Browser Use）
MCP（Model Context Protocol）：扩展能力，如读写数据库、联网搜索
Skills 技能包：把复杂工作流封装成技能

一个反直觉的发现：工具越多，不一定越好。

Vercel 的经验：把 Agent 的工具从 15 个砍到只剩 2 个，准确率反而从 80% 升到了 100%。

Stripe 有大约 500 个 MCP 工具，但给每个 Agent 的只是精心筛选过的子集。

4.3 任务编排：给 AI 安排好工作计划

如果你丢给 AI 一个大需求，它可能会一把梭全部搞定。但 AI 的上下文空间是有限的，开发到一半信息就装不下了，前面定好的方案和约束慢慢被冲淡。

怎么解决？

基本做法：

Plan Mode：先让 AI 出方案，人工确认后再动手
任务拆分：大任务拆成小任务，每次只做一个功能点
增量开发：每做完一个功能，沉淀文档（实现了什么、用了什么方案、还有哪些待办）
SubAgents 并行：多个互不依赖的小任务，可以让子代理并行执行

4.4 反馈机制：让 AI 自己检查自己的工作

AI 写完代码之后，可能会自信满满地说任务完成了，结果你一点运行，全是 Bug。

所以得让 AI 自己检查：

跑 Linter：查语法和规范问题
跑自动化测试：验证功能是否正确
Browser Use：自己打开浏览器实际操作一遍
Agent 互审：让另一个 AI 来审查代码

如果测试没通过，AI 可以自动读取报错信息，分析原因并尝试修复。

4.5 架构护栏：防止代码越改越乱

AI 生成代码有个特点：它会模仿仓库里已有的代码风格，哪怕是烂代码。

比如同样的页面代码写了好几遍，也不知道要拆分成可复用的组件。时间一长，技术债就越滚越大。

怎么防止？

架构约束 Linter：查的不是代码风格，而是架构规则（如"UI 层不能直接调用数据库层"）
Pre-commit Hooks：提交前自动拦截不合规的代码
垃圾回收机制：定期让 AI 扫描代码库，检查有没有偏离架构规范的地方，自动提交修复 PR
Git 检查点：每完成一个功能就提交一次，相当于打存档点

五、七个可以立刻上手的配置杠杆

说完了理论，来点实际的。以下是你今天就能用的 Harness 技巧：

杠杆	做法	备注
AGENTS.md	每次 AI 犯错加一条规则	控制在 60 行以内
确定性约束	Linter、类型检查、结构化测试	硬约束比软指令更可靠
工具精简	只给 AI 最必要的工具	多了反而不知道该用哪个
Sub-Agent 隔离	复杂任务拆分	防止中间噪声累积
反馈循环	AI 自己跑测试、查日志	别让什么都靠人工盯
CI 限速	最多两轮 CI	失败就转人工
垃圾回收	定期扫描技术债	尤其代码量大了之后

六、行业两大阵营：Big Model vs Big Harness

Harness Engineering 也不是没有人唱反调。而且反对者的来头都不小。

6.1 Big Model 阵营

核心观点：模型能力的增长才是主旋律，Harness 只是权宜之计。

OpenAI 的 Noam Brown 在访谈中直接表态：

Harness 就像一根拐杖，我们终将能够超越它。

他的论据：在推理模型出现之前，开发者搭建了复杂的 Agentic 系统来模拟推理能力。推理模型一出来，这些基础设施一夜之间就不需要了。

他的建议：别花六个月搭建一个可能六个月后就被淘汰的东西。

6.2 Big Harness 阵营

核心观点：模型是引擎，Harness 是方向盘和刹车。引擎再强，没有方向盘你也到不了目的地。

LlamaIndex 创始人 Jerry Liu 的话代表了这一派的立场：

Model Harness 就是一切。从 AI 那里获取价值的最大障碍，是你自己为模型做上下文工程和工作流工程的能力。

6.3 护栏悖论

我觉得两边都对了一半。

护栏悖论：车速越快，护栏越重要。

时速 30 公里的自行车道可以没有护栏
时速 120 公里的高速公路，护栏是标配
时速 300 公里的磁悬浮列车？不仅有护栏，整个轨道都是封闭的

模型就是引擎。引擎越强，速度越快，你就越需要精心设计的约束系统来确保它跑在正确的方向上。

Noam Brown 说得对，很多脚手架确实会随着模型进化而被淘汰。但架构约束、反馈循环、熵管理这些东西，本质上不会消失，只会换一种形态。

就像从马车到汽车，马鞭消失了，但方向盘和刹车不会消失。

七、一个更深层的洞察

写到这里，我忽然意识到一件事。

Harness Engineering 说的这些——上下文管理、架构约束、反馈循环、定期清理——这不就是管理吗？

想想看，一个好的技术 leader 是怎么带团队的？

管理行为	Harness 对应
给新人写 onboarding 文档	AGENTS.md
定代码规范和架构原则	Linter 和结构测试
做 Code Review 确保质量	CI/CD 检查
定期技术债清理	垃圾回收
工具选型和精简	工具链管理
反复出现的问题写进 Wiki	反馈循环

AI Agent 越强，就越像一个能力很强但需要管理的员工。

你不会把一个刚入职的天才工程师扔进一个没有文档、没有规范、没有 CI 的项目里，然后指望他写出完美的代码。

同样的道理，你也不该把一个强大的 AI 模型扔进一个没有 Harness 的环境里，然后抱怨它不好用。

八、未来会怎样？

几个值得关注的趋势：

Harness 会成为新的"服务模板"：未来的组织可能会从一组预制的 Harness 模板中选择，然后根据自己的需求定制
技术栈会收敛：当写代码本身不再是瓶颈时，团队会更偏向选择那些"有好 Harness 可用"的技术栈
Harness 会反哺模型训练：Harness 捕获的 Agent 失败轨迹，可以成为模型训练的高质量数据
"旧代码"问题：OpenAI 的实验是从空仓库开始的。但对于那些已经有几十万行代码的老项目呢？给老代码加 Harness，可能就像给一个从不跑测试的项目补测试一样痛苦
学科化：AIE Europe 已经设立了全球第一个 Harness Engineering 专题赛道。arxiv 上也有了专门的论文

九、写在最后

有人发了个"暴论"：

大模型开发将是最后的程序员，下来是 Harness Engineering 开发，所有纯码农，将在 2028 年前消失。

2028 这种预言有点太没依据。但方向大概没错：

写代码正在变得像打字一样廉价。

而在模型之外，设计让 Agent 持续、稳定、高质量工作的那套系统，正在变成最值钱的技能。

未来最稀缺的，可能不是训练模型的人。

而是管理模型的人。

参考资料：

OpenAI 博文：Harness engineering: leveraging Codex in an agent-first world
Mitchell Hashimoto 博客：My AI Adoption Journey
Martin Fowler 站点分析：Harness engineering for coding agent users
Latent Space 分析：Is Harness Engineering Real?
Stripe Dev Blog：Minions: Stripe's One-Shot End-to-End Coding Agents

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【maaath】 Flutter for OpenHarmony 跨平台健康计步应用开发实践

AtomGit开源社区

tthingsboard规则链（基于社区版本）

将入站负载解析为ThingsBoard告警，按ID获取最新告警，并将其当前状态与配置的状态集合比对。若获取的状态匹配，消息经True路由；否则经False路由。解析错误、缺少告警ID或不存在的告警会导致Failure。专门对告警消息按当前告警状态做过滤，决定是否继续往下发（通知、脚本、转发等）T适用场景：只在新告警 / 未确认告警时发邮件 / 短信已确认告警不再重复通知告警清除时触发恢复逻辑只统计