Agent = Model + Harness:决定 AI Agent 性能的真正因素
决定 AI Agent 性能的真正因素
所有人都在追逐更强大的模型,但几乎没人谈论脚手架。
这是我最近观察到的一个奇怪现象。每当有新模型发布,科技圈就会沸腾,大家讨论参数量、基准测试分数、上下文长度。但当我深入研究那些真正成功的 AI agent 产品时,我发现了一个被严重忽视的真相:决定 AI agent 性能的,不是你用哪个模型,而是你如何使用这个模型。
同一个模型,在不同的系统架构下,性能可以相差一倍。Claude Opus 4.5 在一个脚手架下得分 42%,换另一个脚手架后得分 78%。这不是模型的问题,而是围绕模型构建的系统的问题。
Tony Kipkemboi 把 agent 开发比作一个光谱:最左边是原始代码,你直接调用 API,自己管理状态,从零开始构建一切。中间是 agent framework(代理框架),给你提供结构和抽象,但你仍然需要做很多决定。最右边是 agent harness(代理脚手架),这是最有观点的方案,一切都已经内置好了。
●
Viv 则从更技术的角度给出了定义:Agent = Model + Harness。如果不是模型本身,那就是 harness。换句话说,harness 是所有不属于模型的代码、配置和执行逻辑。一个原始模型不是 agent,但当 harness 给它提供状态、工具执行、反馈循环和可执行约束时,它就变成了 agent。
CORE-Bench 的测试结果非常直接。Claude Opus 4.5 在一个脚手架下得分 42%,换另一个脚手架后得分 78%。Sonnet 4 的表现是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。这不是小幅改进,这是质的飞跃。唯一的变量是 harness,模型完全相同,基准测试完全相同。
Cursor 的懒工具加载将 token 使用量削减了 46.9%。Vercel 删除了 agent 80% 的工具,结果 agent 从失败任务变成了完成任务。这个案例特别有意思,因为它挑战了我们的直觉。我们通常认为给 agent 更多工具会让它更强大,但事实证明,工具太多反而会降低性能。
●
Claude Code 采用’模型控制循环’的理念。它是一个简单的 while(tool_call) 循环,没有复杂的 DAG 编排,没有竞争的 agent 角色。Anthropic 明确称之为’模型控制循环’而不是’代码控制模型’。这个微妙的措辞差异体现了设计哲学:给模型更大的自主权。
Cursor 的核心决策是’文件作为基本原语’。为什么?因为文件支持强大搜索、可自然分组、可版本化。他们针对每个前沿模型专门调优 harness。不同模型得到不同工具名称、提示指令和行为指导。
Manus 从推出以来已经重写了五次框架。他们最独特的做法是使用 logit masking 而不是动态移除工具。Manus 团队得出的最大教训是:最大性能提升来自删除东西。复杂工具定义被 shell 执行替代,'管理 agent’被简单交接替代。
●
Progressive disclosure 借鉴自 UI/UX 设计,核心原则:只显示现在需要的内容,按需揭示复杂性。数据非常有说服力:静态加载效率 0.8%,progressive disclosure 效率 100%,这是约 26 倍改进。
Harness 必须包含的几个核心组件:文件系统、Bash 和代码执行、沙盒和执行环境、内存和搜索、压缩。Harness 工程正在成为一门独立的学科。
Agent = Model + Harness。模型提供智能,harness 让智能有用。在追逐更强大模型的同时,我们不应该忽视 harness 工程的价值。因为最终,没有人购买引擎,大家购买的是完整的汽车。
**总结:**Agent = Model + Harness。模型提供智能,harness 让智能有用。在追逐更强大模型的同时,我们不应该忽视 harness 工程的价值。因为最终,没有人购买引擎,大家购买的是完整…
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)