Harness Engineering:让AI Agent长程运行的秘密武器
你是否想过:让AI自己写代码、自己修bug、自己提交PR——而且能够连续工作数小时、数天甚至数周?OpenAI和Anthropic正在用Harness Engineering破解长程运行的密码!
🚀 从几分钟到数天的跨越
过去五个月,OpenAI做了一个大胆实验:用Codex agent从零构建一个完整产品,0行人类手写代码。更令人惊叹的是:单个Agent可以持续运行6小时以上,在人类睡觉时自主完成复杂的开发任务。
这不是科幻小说,而是Harness Engineering(驾驭工程)正在让AI Agent实现真正的"长程运行"。
什么是Harness Engineering?
一句话讲清楚👉🏻 Harness Engineering是让AI Agent实现长程运行的关键基础设施:通过设计环境、编写指令、构建反馈循环,让Agent能够跨越多个session、数小时甚至数周地持续工作,完成从设计到交付的完整开发流程。
简单来说,就是**“人类指挥,Agent持续执行”**——人类负责"指方向",Agent负责"长时间、不间断地干活"。
这个概念来自两篇重磅文章:
- OpenAI的《Harness engineering: leveraging Codex in an agent-first world》
- Anthropic的《Effective harnesses for long-running agents》
两者从不同角度解答了一个核心问题:如何让AI Agent突破单次上下文的限制,可靠地完成跨越数小时甚至数天的复杂软件开发任务?
核心挑战:长程运行的"记忆断点"
想象一个场景:软件工程师们轮班工作,每一班工程师上岗时都失去所有前序记忆,不知道之前发生了什么。听起来很荒谬?但这正是AI Agent面临的真实困境。
为什么长程运行如此困难?
AI Agent的"记忆"受限于上下文窗口(context window)。当Agent工作数小时后,上下文会耗尽,必须启动新的session——这就相当于"换班",新来的Agent对之前发生的一切一无所知。
Anthropic指出,长运行Agent面临三大核心挑战:
挑战一:试图"一口吃成胖子"
Agent拿到任务后,往往想一次性完成所有功能。结果呢?写到一半上下文就耗尽了,留下半成品,下一个session只能"猜"之前发生了什么。更糟糕的是,Agent可能花大量时间"猜测"和"修复",而不是推进真正的进度。
挑战二:过早宣布"胜利"
当一些功能完成后,新的Agent实例会环顾四周,觉得"差不多够了",然后宣布任务完成。实际上还有大量功能未实现。这是因为Agent缺乏"全局视野",不知道完整的需求是什么。
挑战三:状态管理混乱
在多个session之间,Agent的状态可能不一致:某个变量在session A被定义,session B中消失了;某个bug在session A被修复,session B中又出现了。这种"状态漂移"让长程运行变得不可靠。
这三个挑战导致Agent无法可靠地完成跨越数小时甚至数天的复杂任务。解决这些问题,正是Harness Engineering的核心使命。
OpenAI的实践:让Agent跑起来的Harness
🚀 从零开始的实验
2025年8月底,OpenAI从一个空的git仓库开始,用Codex CLI + GPT-5搭建初始框架。五个月后,他们完成了:
- 约百万行代码(应用逻辑、基础设施、工具、文档)
- 1500+个PR已合并
- 3.5个PR/工程师/天的平均吞吐量
- 产品已有数百名内部用户
关键成就:人类从未直接手写任何代码。
🌟 最惊人的:长程运行能力
OpenAI团队最自豪的成就,不是代码量,而是让Agent真正实现长程运行:
- 单个Agent运行时间:最长可达6小时以上
- 工作时段:经常在人类睡觉时,Agent持续工作
- 跨session协作:多个Agent session之间无缝衔接,就像交接班的工程师
- 状态一致性:每个session都能准确理解上一个session的进度
“我们经常看到单个Codex运行在一个任务上工作长达6小时(通常在人类睡觉时)。”—— OpenAI团队
重新定义工程师的角色
当Agent负责写代码后,工程师的工作发生了根本性变化:
| 传统模式 | Harness Engineering模式 |
|---|---|
| 写代码 | 设计环境(让Agent能长时间工作) |
| 调试bug | 编写指令(让Agent知道下一步做什么) |
| Code Review | 构建反馈循环(让Agent自我纠正) |
| 架构设计 | 制定规则和约束(防止Agent跑偏) |
正如OpenAI团队所说:“我们不是在写代码,而是在搭建让Agent能够长时间、高效工作的’赛道’。”
Anthropic的解决方案:让Agent跨越"记忆鸿沟"
针对长运行Agent的困境,Anthropic提出了一个优雅的双轨解决方案——这本质上是在Agent之间建立"交接班机制":
🎯 Initializer Agent(初始化Agent)——"第一班"的奠基工作
第一个session专门负责"奠基",为后续的长程运行打好基础:
- 创建
init.sh启动脚本(让每个session都能快速启动) - 建立
claude-progress.txt进度日志(让每个session都知道"进度条") - 编写详细的 feature list(功能清单):200+个具体功能点,每个都标记为"未通过"(让每个session都有"待办清单")
- 初始git commit(建立"版本历史"的起点)
🔄 Coding Agent(编码Agent)——持续接力,跨越session
每个后续session都像"接过接力棒"的运动员:
- 先"热身":读取git日志和进度文件,了解"昨天"发生了什么
- 启动服务:运行init.sh,启动开发服务器
- 验证基础功能:用Puppeteer MCP做端到端测试,确保没有破坏现有功能
- 选择一个功能:从feature list中挑一个最高优先级的未完成功能
- 完成后:写git commit + 更新progress.txt,留给下一个session
关键机制:每个session结束时都留下清晰的"工作记录",下一个session可以快速"接手",无需猜测。
关键洞见:渐进式披露与状态持久化
Anthropic发现,要让Agent实现长程运行,需要两个核心机制:
- 渐进式披露:不要给Agent一份"1000页的说明书"。相反,应该:
- 给出地图而不是百科全书
- 让Agent从简短的入口开始
- 引导它"想知道更多时去哪里找"
- 状态持久化:将Agent的工作状态显式化:
- feature list(任务清单)
- progress.txt(进度日志)
- git commit(版本历史)
- test results(测试结果)
这就像培训新员工:先给Overview,再逐步深入具体文档;同时建立"交接班制度",确保信息不丢失。
Agent四大失败模式与解决方案
Anthropic在实践中总结了四种常见失败模式及其解决方案:
| 问题 | Initializer Agent方案 | Coding Agent方案 |
|---|---|---|
| Agent过早宣布"胜利" | 建立feature list:基于输入规格,设置结构化JSON文件,列出端到端功能描述 | 每个session开始时读取feature list,选择单个功能开始工作 |
| Agent留下有bug的代码 | 创建初始git仓库和进度笔记文件 | session开始时读取进度笔记和git提交日志,运行基础测试;session结束时写git commit和进度更新 |
| Agent过早标记功能完成 | 建立feature list | 自我验证所有功能,仔细测试后才标记为"通过" |
| Agent花时间研究如何运行应用 | 编写init.sh脚本用于启动开发服务器 | session开始时读取init.sh |
2026行业趋势:Harness是新的护城河
著名分析师Aakash Gupta提出了一个深刻观点:“2025是Agent之年,2026是Harness之年”。
“模型是商品化的(commodity),Harness才是护城河。” —— Aakash Gupta
为什么Harness比模型更重要?
- Claude Code的崛起:真正突围的不是Claude本身,而是Claude Code——因为它有更好的Harness
- Manus的教训:6个月重写5次Harness
- LangChain的迭代:一年重构4次Open Deep Research架构
- Vercel的优化:移除80%的工具,反而获得更少步骤、更快响应
“你可以在6个月内训练一个更好的模型,但构建一个Harness需要数千工程师小时。”—— Aakash Gupta
Anthropic《2026 Agentic Coding趋势报告》八大预测
Anthropic发布的最新报告预测了八大趋势:
- 软件开发生命周期剧变:从写代码到编排Agent,周期从周缩短到小时
- 单Agent进化为协调团队:多Agent并行工作,处理复杂任务
- 长运行Agent构建完整系统:任务从分钟扩展到天甚至周
- 人类监督通过智能协作扩展:Agent学会何时寻求帮助
- Agent编程扩展到新场景:从传统语言到COBOL、Fortran等遗留语言
- 生产力提升重塑经济学:开发成本下降,时间压缩
- 非技术用例扩展:非工程师也能构建自动化
- 安全是双刃剑:Agent帮助防御者也帮助攻击者
五大最佳实践
1️⃣ 让应用"可读"给Agent
OpenAI做了什么?
- Chrome DevTools Protocol接入:Agent可以直接操作浏览器,看DOM快照、截截图、验证UI行为
- 完整可观测性栈:每个worktree有独立的日志、指标、追踪系统
- Agent可查询:用LogQL查日志、PromQL查指标、TraceQL查链路
效果:单个Agent运行可以持续6小时以上(通常在人类睡觉时)。
2️⃣ 知识必须"入库"
原则:Agent看不到的 = 不存在。
- Google Docs?Slack消息?人类脑子里的知识?Agent都看不到
- 必须把知识编码成:代码、Markdown、Schema、版本化的计划文档
OpenAI把AGENTS.md当作"目录",真正的知识放在结构化的docs/目录:
design-docs/设计文档exec-plans/执行计划(含进度和决策日志)product-specs/产品规格references/技术参考
3️⃣ 用约束代替"微管理"
OpenAI的架构约束:
- 分层领域架构:每个业务域严格分层(Types → Config → Repo → Service → Runtime → UI)
- 跨域边界明确:认证、连接器、遥测等横切关注点只能通过单一接口(Providers)进入
- 机械执行:自定义linter + 结构化测试,违规直接报错
“这通常是大公司几百人时才做的事。但在Agent时代,它是早期必修课。”
4️⃣ 吞吐量改变合并哲学
当Agent的产出远超人类审核能力时:
- 最小阻塞门:PR短生命周期
- 测试flake处理:用后续运行解决,而非无限阻塞
- 修正很便宜,等待很昂贵
OpenAI明确说:这在低吞吐量环境是"不负责任"的,但在Agent时代是正确的权衡。
5️⃣ "熵减"与垃圾回收
问题:Agent会复制已有模式,包括不均匀的、次优的代码。长期必然"腐化"。
解决方案:建立"黄金原则"持续清理
- 偏好共享工具包而非手写辅助函数
- 不"YOLO式"探查数据——验证边界或依赖类型化SDK
- 定期后台任务扫描偏差、更新质量评分、开针对性重构PR
“技术债务就像高利贷:最好持续小额偿还,而非累积后一次性痛苦偿还。”
真实案例:Agent带来的生产力飞跃
Rakuten的突破
- 任务:在vLLM(1250万行代码)中实现特定的activation vector extraction方法
- 结果:7小时 autonomous work,99.9% numerical accuracy
TELUS的规模
- 创建了13,000+个自定义AI解决方案
- 工程代码交付速度提升30%
- 每次AI交互平均节省40分钟
CRED的金融实践
- 8000万用户规模的金融平台
- 开发系统速度翻倍
- 通过"转移而非替代"实现人机协作
未来展望:从小时到天的跨越
OpenAI和Anthropic都在探索长程运行的新边界:
🌟 长程运行能力正在快速扩展
根据Anthropic的预测,长程Agent的能力将在2026年实现质的飞跃:
| 时间维度 | 2025年 | 2026年预测 | 2027年展望 |
|---|---|---|---|
| 任务时长 | 几分钟 | 几小时到几天 | 几天到几周 |
| 任务复杂度 | 单一功能 | 完整功能集 | 完整应用/系统 |
| 人类干预 | 频繁 | 关键节点 | 极少 |
🚀 端到端自主:从"一个prompt"到"一个完整产品"
OpenAI和Anthropic都在探索让Agent实现真正的端到端自主:
给定一个prompt,Agent可以:
- 验证当前状态
- 复现bug并录屏
- 实现修复
- 验证修复效果
- 录制对比视频
- 开启PR
- 回应反馈
- 处理构建失败
- 合并代码
关键进步:整个过程可能跨越多个session、持续数小时甚至数天,但Agent能够自主协调,无需人类频繁干预。
🔄 多Agent架构:团队协作模式
专门的测试Agent、QA Agent、代码清理Agent是否比单一通用Agent更强?
Anthropic认为,未来的长程运行将是多Agent协作的模式:
- Orchestrator Agent:负责整体规划和协调
- Coding Agent:负责编写代码
- Testing Agent:负责测试和验证
- Refactoring Agent:负责代码清理和优化
这种团队协作模式,让每个Agent都专注自己的领域,实现更高效的长程运行。
🌍 跨领域泛化:从Web开发到科学研究
这些方法能否从Web开发扩展到科学研究、金融建模等更多领域?
答案是肯定的。长程运行的核心机制——状态持久化、渐进式披露、反馈循环——都是通用的。任何需要长时间、多步骤、复杂推理的任务,都可以受益于Harness Engineering。
我们能学到什么?长程运行的三大支柱
Harness Engineering不是"让Agent替代工程师",而是让Agent实现真正的长程运行。其核心是三大支柱:
1️⃣ 思维转换:从"任务"到"流程"
传统思维:给Agent一个任务,期望它一次完成 长程思维:设计一个流程,让Agent跨越多个session持续推进
关键是要把"一次性任务"拆解成"可传递的流程",每个session都能从上一个session接过接力棒。
2️⃣ 基础设施优先:让Agent有"记忆"和"工具"
Agent要实现长程运行,需要:
- 记忆系统:progress.txt、feature list、git commit
- 工具链:Chrome DevTools、日志系统、测试工具
- 环境:稳定的运行环境、快速的启动脚本
没有这些基础设施,Agent无法跨越session。
3️⃣ 知识管理:让每个session都有"说明书"
把所有知识编码成Agent能访问的格式:
- 不要依赖人类的"隐性知识"
- 不要依赖口头传达或聊天记录
- 要依赖代码、文档、配置文件等显式知识
只有显式化的知识,才能在session之间传递。
正如OpenAI在文末写道:
“我们最困难的挑战,现在集中在设计环境、反馈循环和控制系统上——帮助Agent实现我们的目标:让Agent能够长时间、自主地构建和维护复杂、可靠的软件。”
长程运行不是遥不可及的未来,而是正在发生的现在。这是软件工程的范式转变,你准备好了吗?
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)