为什么 AI Agent 的关键不是模型，而是「 Harness」

m0_63171455

418人浏览 · 2026-03-14 20:12:57

m0_63171455 · 2026-03-14 20:12:57 发布

最近在读一些关于 AI Agent 架构的技术讨论时，我反复看到一个判断：模型已经不再是唯一的核心竞争力。

很多团队在真正搭建 Agent 系统之后，会慢慢把注意力从模型本身，转移到另一个东西上：Harness**。**

YC 社区里有一个极其精准的隐喻：The model is the engine. The harness is the car. Nobody buys an engine.

模型是引擎。Harness 是整辆车。没有人会只买一个引擎。

这个比喻背后其实对应着一个很具体的工程事实：模型只是提供推理能力，但真正决定 AI 产品体验的，是整个运行系统。

如果把一个完整的 Agent 系统拆开，其实大致可以看到三层结构：

Model：模型本身
Agent Loop：多步推理循环
Harness：运行和调度这一切的系统

理解这三层关系之后，再看 AI Agent 的架构，很多事情会变得非常清晰。下面我从底层一层一层往上讲。

一、模型本身，其实只做一件事

像GPT、Claude、Gemini 这些语言模型，本质上都在做同一件事：**根据已有文本，预测接下来最可能出现的 token。**如果把结构极度简化，可以画成这样：输入 → 模型 → 输出。

模型本身其实不知道很多事情，比如：当前任务目标是什么、任务是否已经完成、下一步要不要调用工具、系统是否还会继续运行。

换句话说，模型只是一个推理组件。它并不具备完整的“任务执行能力”。

二、Agent 为什么会出现

当人们开始尝试用模型解决复杂问题时，很快会遇到一个现实限制：很多任务并不是一步完成的。

举个简单的例子，如果让 AI 帮你完成一个调研任务，过程往往会像这样：搜索资料 -> 阅读信息 -> 整理要点 -> 再搜索补充资料 -> 最后写总结。

这个过程明显是多步骤的。于是 Agent 系统通常会设计一个循环结构：观察环境 -> 模型思考 -> 选择行动 -> 执行工具 -> 获得结果 -> 继续思考。

这就是Agent Loop。

很多常见的 Agent 方法，比如 ReAct，其实都是围绕这个循环设计的。一个简化版本的逻辑大概是：

while not finished:    observation = environment()    thought = model(observation)     action = choose(thought)        result = run_tool(action)        update_state(result)

模型在这个循环里不断更新判断。每一步获得新信息，然后继续推理。Agent 看起来像是在“思考”，本质上就是这个循环在运行。

三、只有循环还不够

如果只是把模型放进一个循环里，很快会遇到一系列工程问题。例如：循环应该运行多少步、什么时候判定任务结束、工具如何注册和调用、prompt 如何组织、上下文如何管理、系统如何记录日志。

这些事情都不属于模型，也不属于 Agent Loop。但没有这些结构，Agent 系统根本无法稳定运行。于是工程架构里就出现了一个更外层的结构：Harness。

四、Harness 到底是什么：让模型真正工作的「操作系统」

在软件工程领域，Harness 其实是一个非常老的概念。最常见的是 Test Harness。它的作用是：**提供一个环境，让程序能够被运行、控制和测试。**程序本身只包含核心逻辑，而 Harness 负责：启动程序、提供输入、控制执行流程、收集运行结果。

放到 AI Agent 的世界里，可以把 Harness 理解成：让模型真正“工作”的运行系统**。**

模型是 CPU。

Agent Loop 是程序逻辑。

而 Harness 是整套运行环境。

Harness通常会包含几类关键能力。

**任务管理。**Agent 在执行任务时，需要一直记住自己在做什么。例如：当前任务目标、已完成步骤、下一步计划。如果没有任务状态管理，Agent 很容易在中途偏离目标。
**上下文管理。**模型能看到的信息，完全由系统决定。如果一个任务运行几十步，上下文就会变得非常庞大。这时系统必须做一件事情：**不断筛选和压缩信息。**例如：删除无关对话、提取关键结论、合并重复信息。如果上下文管理不好，很容易出现：hallucination（幻觉）、信息污染、任务丢失。
**工具系统。**模型本身不会执行任何真实操作。例如：搜索网页、运行代码、调用 API。这些能力全部来自工具系统。Harness 会把工具注册到系统里，然后通过 prompt 让模型知道：哪些工具可以使用。
**循环控制。**Harness 会负责运行 Agent Loop，并且控制：最大步骤数、token 使用、超时限制。否则 Agent 可能会进入无限循环。
**结果验证。**为了提高稳定性，很多系统会加入一层自动评估，例如：自检（self-check）、重新生成（rerun）、评估模型（evaluator）。这些机制能显著提高任务成功率。