你可能已经听烦了“Prompt 工程”,但在 2026 年,硅谷开发者圈真正的热词只有一个——Harness。它不教你怎么跟模型说话,而是教你如何让模型真正干活。

前言:一匹不会拉车的千里马

在这里插入图片描述

用过 AI 写代码的人,大多经历过同一条情绪曲线:第一天觉得这玩意儿要革命,第三天开始骂街。

大模型确实聪明。它能写诗、能翻译、能解数学题,甚至能通过律师资格考试。但一旦你让它干一件稍微复杂点的事——比如“帮我重构这个模块,并写一份变更文档”——它就开始掉链子了。它会跑偏、反复犯同一个错、忘了你三分钟前说过的话,甚至项目做到一半就突然告诉你“大功告成”,而你打开代码一看,一半的接口根本没动。

大部分人的第一反应是:这模型不行,换一个更强的。但 2026 年初,开发者社区逐渐意识到:也许问题不在模型本身,而在模型外面的那一圈东西

他们给这圈东西起了个名字,叫 Harness
在这里插入图片描述

一、Harness 到底是什么?

一个让你秒懂的比喻

Harness 这个词,在英文里的本意是“马具”——就是缰绳、马鞍、嚼子、马蹄铁那一整套装备,用来驾驭马匹的。套在 AI 身上,意思几乎一模一样:

  • 大模型 = 一匹千里马,跑得快、力气大,但在荒原上横冲直撞。
  • Harness = 缰绳、马鞍、马蹄铁,让你能驾驭这匹马,让它往你想去的方向跑。
  • 骑手 = 你(工程师),你的任务是设计这套驾驭系统,而不是亲自下场写每一行代码。

LangChain 团队给了一个更工程化的定义:Agent = Model + Harness。模型提供智能,Harness 提供让这种智能真正能干活的一切基础设施——工具、记忆、规划、安全、协作、压缩……。

裸模型(比如 GPT-4o、DeepSeek、Claude)只能输入文本、输出文本。它不能执行代码,不能读写文件,不能记住上一轮对话,不能遵守你的项目规范,不能把复杂任务拆给多个专家。所有这些“不能”,都靠 Harness 来补。

工程师的角色变了

用一个经典的比喻来理解:你的客厅里来了一条龙。这条龙(大模型)聪明、强大、目前看起来还算温顺。但龙会长大,你需要的不是更粗的铁链,而是一套完整的驾驭系统,包括缰绳、马鞍、护具,以及一个懂得如何与龙共处的骑手。

Harness Engineering 的核心正是如此:把不可控的大模型,装进一个可控的工程框架里

二、为什么要搞 Harness?一个数据告诉你答案

先看一个让整个行业都坐不住的数字。

2025 年 3 月,LangChain 团队做了一个实验:不改变模型的一个参数,不换底层算力,仅仅给同一个大语言模型换上一套更精巧的 Harness 架构——然后把这个模型扔进 Terminal Bench 2.0(一个专门衡量 AI 编程能力的权威榜单)跑分。

结果让人瞠目结舌:通过率从 52.8% 直接拉升到 66.5%。同样的模型,同样的任务,排名从三十名开外狂飙到前五。

另一个更极端的例子来自工程师 Can Bölük:他只改了编辑格式,不动模型,15 个 LLM 的编码性能提升了 5 到 14 个百分点;GPT-4 Turbo 仅仅换了一种编辑格式,准确率就从 26% 飙升到 59%

这说明什么?同样的模型,换个 Harness,性能差距可以大到离谱

一个逐渐形成的行业共识是:大模型能力正在趋同,未来的技术壁垒正在从模型本身转向 Harness Engineering。

三、Harness 是怎么“驾驭”模型的?

如果说 Harness 是一个操作系统,那它有哪些核心模块?拆开来看,主要有五件套。

第一件:约束与规则——让它干不了坏事

用 AI 写过代码的人都知道,你在提示词里写“请遵守分层架构”,根本没用,Agent 下一秒就忘。

OpenAI 的解法是:把规则写成代码,而不是写进提示词。他们要求代码必须遵守分层架构,每个模块只能引用相邻层。但这不是靠提示词叮嘱,而是把这条规则写进 CI 流水线里的自动化代码检查——Agent 敢违反,代码合并请求直接过不了。

用腾讯集团高级执行副总裁汤道生的话说:“AI 落地不只是一道算法题,更是一道工程题”。HashiCorp 联合创始人 Mitchell Hashimoto 则给出了一个更朴素的定义:每当 AI 犯错,就工程化一个方案,让它永远不再犯同样的错

第二件:记忆系统——让它记得住东西

大模型天生只有一种记忆——上下文窗口。窗口满了,前面的内容就被挤掉,就像金鱼的记忆。

Harness 的做法是:在“鱼缸”外面贴满便签。OpenAI 在仓库里维护一套结构化文档,设计规范、架构决策、执行计划全放里面,Agent 随时能查。你不用指望模型自己记住所有事,你只需要确保该有的信息都在它能查得到的地方。

第三件:验证机制——做完得有检查

Agent 做完一件事,你问它“做得怎么样”,它几乎永远会说“我做得很好”。这不是段子,是真的——Agent 评估自己的产出总是盲目自信。

Anthropic 的解法干脆利落:做事的和评判的分开。一个 Agent 写代码,另一个 Agent 专门挑毛病。选手和裁判不能是同一个人。

第四件:回滚与纠错——搞砸了能重来

长时间运行的 Agent 掉进死胡同是常事,硬做只会越错越远。Anthropic 的做法简单粗暴:每次改动都走 Git,卡住了就用 Git 回滚到上一个干净状态,然后直接换一个新 Agent 接手,只给它一张交接单,写清楚前面做了什么、接下来该做什么。

第五件:子代理编排——复杂任务拆着做

一个 Agent 从头跑到尾容易迷失方向。Harness 的做法是把复杂任务拆成多个子代理,每个子代理只负责一块。这种“化整为零”的思路,在 Claude Code 和 OpenAI Codex 中都得到了充分运用。

四、从 Prompt 到 Context 再到 Harness:AI 工程的三级跳

要理解 Harness 的重要性,得看一条清晰的技术演进路线。

第一阶段:Prompt Engineering(2023-2024) ——核心问题是“怎么跟模型说话”。工程师精心雕琢每一句指令的措辞和格式,Few-shot、Chain-of-Thought、角色扮演……本质上是在一个固定的对话窗口里做文章。局限是单次交互、无状态、高度依赖个人经验。

第二阶段:Context Engineering(2025) ——核心问题是“模型应该看到什么”。工程师系统性地设计一个动态系统,在 Agent 执行每一步时为其提供恰当的上下文,包括知识库、工具调用、记忆管理。关注点从“说什么”转向“让模型看到什么”。

第三阶段:Harness Engineering(2026) ——核心问题是“怎么搭建模型周围的整套系统”。视野不再是单一对话或一段上下文,而是工具、记忆、规划、安全、协作、压缩……整个基础设施。每一次演变,关注点都在从“模型本身”向“模型之外”扩展。

五、实战案例:两个改变游戏规则的 Harness

Claude Code:运行时越笨,架构越稳定

Claude Code 是 Anthropic 推出的 AI 编程助手,它的 Harness 设计堪称教科书级别。

最值得关注的是它的执行引擎——TAOR 循环(Think-Act-Observe-Repeat) 。这个循环本身被设计得极其“愚蠢”:只负责驱动循环、执行工具调用、感知结果。所有的推理、决策、何时停止,全部交给模型。

运行时越笨,架构越稳定。把智能下沉到模型,把确定性留给框架。 这和早期 LangChain 试图在框架层做各种“聪明编排”的路线形成了鲜明对比。

Claude Code 的整个源代码跨越了约 1,900 个文件,超过 51 万行 TypeScript,更像是一个用于软件工作的操作系统——围绕模型堆叠了权限管理、记忆层、后台任务、IDE 桥接和多代理编排。

Meta-Harness:让 AI 自己优化 Harness

如果说 Claude Code 展示了人工设计 Harness 的极限,那么斯坦福大学博士生 Yoonho Lee 联合 MIT、威斯康星大学研究者推出的 Meta-Harness,则把逻辑翻了个个儿——让 AI 自己来优化 Harness

Meta-Harness 给优化器(proposer)一个完整的文件系统,里面装着所有历史候选 Harness 的源代码、每一轮的执行轨迹、命令日志、错误信息、超时行为、评分结果。Proposer 可以用标准工具自己翻查——想看哪个文件就看哪个,想搜哪个关键词就搜哪个。

结果是震撼的:Claude Haiku 4.5 的成功率达到 37.6%,登顶所有 Haiku 智能体榜首;Claude Opus 4.6 更是达到 76.4%,仅次于榜一。

六、Harness 的争议与未来

不过,Harness 并非没有争议。Anthropic 这个最早把 Harness 体系化的团队,随着模型能力的迭代,已经开始拆掉当年费尽心力搭出来的控制组件。

有观点认为,Harness 存在的一个底层前提,是认定模型在长上下文里必定会退化。但随着推理能力越来越强的模型出现,这套“脚手架”可能变得越来越薄。Claude Code 的设计哲学本身就是:随着模型变得更强,脚手架应该变薄,而不是变厚

这意味着 Harness 可能不是终点,而是通往更强大、更自治的 AI Agent 的中转站。但对于 2026 年的我们来说,理解 Harness、用好 Harness,是让 AI 从“能聊天”走向“能干活”的关键一跃

总结:模型是发动机,Harness 才是整车

回到最初那个比喻:大模型是发动机,马力大、转速高,给油就响。但你不能开着一台发动机上路。你需要方向盘、变速箱、制动器、仪表盘——这些东西加在一起,才是 Harness,才是能让发动机真正发挥价值的“整车”。

Harness Engineering 的本质,就是把 AI 的原始智能转化为稳定、可控、可用的工作引擎。它不要求你成为算法专家,但它要求你成为一名真正的“AI 骑手”——从设计提示词,走向设计环境

正如汤道生所说:“未来,每一家企业都能够借助标准化工具,快速搭建属于自己的专属智能体应用”。而 Harness,正是通往那个未来的必经之路。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐