Agent = Model + Harness：决定 AI Agent 性能的真正因素

小天才学习机打游戏

51人浏览 · 2026-03-21 20:43:00

小天才学习机打游戏 · 2026-03-21 20:43:00 发布

决定 AI Agent 性能的真正因素

所有人都在追逐更强大的模型，但几乎没人谈论脚手架。

这是我最近观察到的一个奇怪现象。每当有新模型发布，科技圈就会沸腾，大家讨论参数量、基准测试分数、上下文长度。但当我深入研究那些真正成功的 AI agent 产品时，我发现了一个被严重忽视的真相：决定 AI agent 性能的，不是你用哪个模型，而是你如何使用这个模型。

同一个模型，在不同的系统架构下，性能可以相差一倍。Claude Opus 4.5 在一个脚手架下得分 42%，换另一个脚手架后得分 78%。这不是模型的问题，而是围绕模型构建的系统的问题。

Tony Kipkemboi 把 agent 开发比作一个光谱：最左边是原始代码，你直接调用 API，自己管理状态，从零开始构建一切。中间是 agent framework（代理框架），给你提供结构和抽象，但你仍然需要做很多决定。最右边是 agent harness（代理脚手架），这是最有观点的方案，一切都已经内置好了。

●

Viv 则从更技术的角度给出了定义：Agent = Model + Harness。如果不是模型本身，那就是 harness。换句话说，harness 是所有不属于模型的代码、配置和执行逻辑。一个原始模型不是 agent，但当 harness 给它提供状态、工具执行、反馈循环和可执行约束时，它就变成了 agent。

CORE-Bench 的测试结果非常直接。Claude Opus 4.5 在一个脚手架下得分 42%，换另一个脚手架后得分 78%。Sonnet 4 的表现是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。这不是小幅改进，这是质的飞跃。唯一的变量是 harness，模型完全相同，基准测试完全相同。

Cursor 的懒工具加载将 token 使用量削减了 46.9%。Vercel 删除了 agent 80% 的工具，结果 agent 从失败任务变成了完成任务。这个案例特别有意思，因为它挑战了我们的直觉。我们通常认为给 agent 更多工具会让它更强大，但事实证明，工具太多反而会降低性能。

●

Claude Code 采用’模型控制循环’的理念。它是一个简单的 while(tool_call) 循环，没有复杂的 DAG 编排，没有竞争的 agent 角色。Anthropic 明确称之为’模型控制循环’而不是’代码控制模型’。这个微妙的措辞差异体现了设计哲学：给模型更大的自主权。

Cursor 的核心决策是’文件作为基本原语’。为什么？因为文件支持强大搜索、可自然分组、可版本化。他们针对每个前沿模型专门调优 harness。不同模型得到不同工具名称、提示指令和行为指导。

Manus 从推出以来已经重写了五次框架。他们最独特的做法是使用 logit masking 而不是动态移除工具。Manus 团队得出的最大教训是：最大性能提升来自删除东西。复杂工具定义被 shell 执行替代，'管理 agent’被简单交接替代。

●

Progressive disclosure 借鉴自 UI/UX 设计，核心原则：只显示现在需要的内容，按需揭示复杂性。数据非常有说服力：静态加载效率 0.8%，progressive disclosure 效率 100%，这是约 26 倍改进。

Harness 必须包含的几个核心组件：文件系统、Bash 和代码执行、沙盒和执行环境、内存和搜索、压缩。Harness 工程正在成为一门独立的学科。

Agent = Model + Harness。模型提供智能，harness 让智能有用。在追逐更强大模型的同时，我们不应该忽视 harness 工程的价值。因为最终，没有人购买引擎，大家购买的是完整的汽车。

**总结：**Agent = Model + Harness。模型提供智能，harness 让智能有用。在追逐更强大模型的同时，我们不应该忽视 harness 工程的价值。因为最终，没有人购买引擎，大家购买的是完整…

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

科学智能AI4S应用：人工智能加速加速抗生素发现（AIDD助力药物研发）

AtomGit开源社区

Vue基于SpringBoot的智能AI技术的健身跟踪系统_h8znf4d8

AtomGit开源社区

从基础模型到系统化智能：当代人工智能发展的理论主线、方法论转向与核心争议

过去十余年，人工智能的发展已由以任务为中心的模型设计，转向以大规模预训练为中心的基础模型范式；而在近两年，这一范式又进一步外扩为多模态、推理增强、工具使用、智能体系统与具身智能等相互耦合的研究格局。本文主要聚焦2020年以来、尤其是2024—2025年的公开研究，在保留必要历史背景的前提下，系统梳理人工智能发展的主要理论脉络，重点分析符号主义、概率主义、连接主义与强化学习传统如何在当代基础模型体系