Harness Engineering:2026年最被低估的工程革命

Python编程杰哥

47人浏览 · 2026-03-26 11:53:54

Python编程杰哥 · 2026-03-26 11:53:54 发布

2026年2月,OpenAI的工程师Ryan Lopopolo在官方博客发布了一篇看似平淡的技术文章。文章描述了一个内部实验:一个3人小组,用5个月时间,构建并上线了一个拥有百万行代码的生产级产品。

这本身不算新闻。真正让整个开发者社区震动的是这句话:“0 lines of manually-written code”(零行人工编写的代码)。

不是AI辅助人类写代码,不是人类review AI生成的代码,而是从第一行到第一百万行,从应用逻辑到测试用例,从CI配置到文档,全部由Codex代理生成。人类工程师做的,只是设计环境、定义约束、建立反馈循环。

这不是一个关于"AI能写多快代码"的故事。这是一个关于软件工程本质正在发生根本性转变的故事。OpenAI把这种新的工作方式命名为Harness Engineering(驾驭工程)。

当"写代码"不再是工程师的主要工作

让我们先理解一个反直觉的事实:在这个实验中,工程师的工作量并没有减少,甚至可能更大了。

传统软件开发中,当遇到bug或需要新功能时,工程师的第一反应是"我来写代码修复它"。但在Harness Engineering的框架下,这个选项被刻意移除了。工程师唯一的选择是:让AI代理能够可靠地完成这项工作。

Ryan Lopopolo在文章中写道:“当某件事失败时,解决方案几乎从来不是’更努力地尝试’。因为前进的唯一方式是让Codex完成工作,人类工程师总是介入并问:缺少什么能力?我们如何让它对代理既可理解又可执行?”

这意味着什么?意味着工程师的角色从"实现者"(implementer)转变为"环境设计者"(environment designer)。他们不再直接解决问题,而是构建一个系统,让AI代理能够自主地、可靠地解决问题。

这种转变的效率是惊人的。3名工程师平均每人每天合并3.5个PR,随着团队扩大到7人,这个效率还在提升。产品已经被数百名内部用户日常使用,包括重度用户。

但效率只是表象。更深层的变化在于:软件工程的抽象层级发生了跃迁。

Harness的四大支柱:如何驾驭不可控的AI

如果AI代理可以生成百万行代码,那么谁来保证这些代码的质量?谁来确保它们不会产生灾难性的bug?谁来维护这个系统的长期可演进性?

答案是:Harness(驾驭系统)。

根据OpenAI的实践以及Martin Fowler团队的分析,一个有效的Harness包含四大支柱:[2]

1. 上下文工程(Context Engineering)

代理需要理解业务领域、架构决策、编码规范。OpenAI的团队在代码仓库中嵌入了持续增强的知识库,包括88个AGENTS.md文件(每个主要子系统一个),以及动态上下文如可观测性数据、浏览器导航记录。

关键洞察:代码仓库不再只是为人类工程师优化的,而是首先为AI代理的可读性优化的。就像团队会为新员工改善代码导航性一样,现在的目标是让代理能够直接从仓库本身理解完整的业务领域。[1]

2. 架构约束(Architectural Constraints)

不是给AI无限的自由,而是通过架构决策限制解决方案空间。比如强制使用特定的技术栈、设计模式、模块边界。这些约束被编码为机器可读的规则,AI代理必须遵守。

这揭示了一个违反直觉的真理:在AI时代,约束即生产力。Thoughtworks的工程师Birgitta Böckeler指出,我们可能会进入一个未来:选择技术栈和代码库结构不是因为它们最灵活,而是因为它们最"harness-friendly"。

3. 反馈循环(Feedback Loops)

包括自动化测试、CI/CD管道、可观测性系统(OpenAI使用Victoria Logs/Metrics/Traces)、自动化的PR审查、代码质量扫描。当代理生成的代码出现问题时,这些反馈循环会立即捕获并通知代理进行修复。

OpenAI的系统包括:自动PR分类(标记低质量输出)、弃用机器人(自动归档未使用的函数)、成本监控(追踪云支出并终止闲置资源)。

4. 生命周期管理(Lifecycle Management)

AI生成代码的速度远超人类理解的速度。如果不加控制,代码库会迅速积累"熵"——死代码、冗余服务、不一致的模式。OpenAI的解决方案是:让AI代理自己负责"垃圾回收"。后台扫描进程持续检测并清理无用代码,自动化重构PR保持代码库的健康。

这四大支柱共同构成了一个"defense in depth"(深度防御)系统。不依赖人类审查每一行代码,而是通过多层机制确保质量。

可验证性危机:我们必须学会信任不完全理解的系统

但这里存在一个根本性的矛盾:AI生成代码的速度,远超人类阅读和理解的速度。

传统的软件开发流程建立在一个假设之上:人类可以理解和验证系统的每个部分。Code review、单元测试、集成测试,都是基于这个假设设计的。

但当一个系统包含百万行AI生成的代码,每天产生数十个PR时,这个假设崩溃了。没有人能够真正"理解"整个系统。

Martin Fowler团队的分析指出了OpenAI文章中一个关键的缺失:功能和行为的验证。文章详细描述了如何保持内部质量和可维护性,但对于"如何确保系统做了它应该做的事"着墨不多。

这不是OpenAI的疏忽,而是揭示了一个更深层的问题:在AI驱动的软件开发中,传统的验证方法可能不再适用。

一些团队正在探索新的验证范式。Stripe的内部AI代理"Minions"每周产生超过1000个合并的PR,他们采用的是"快速发布、全面观测、快速回滚"的策略,而不是传统的"审查后合并"模式。

这意味着什么?意味着我们正在进入一个必须学会信任我们无法完全理解的系统的时代。这种信任不是盲目的,而是建立在精心设计的约束、全面的可观测性、快速的反馈循环之上的。

从Maker’s Schedule到Manager’s Schedule

Harness Engineering还揭示了开发者工作节奏的根本性转变。

传统的开发者遵循"Maker’s Schedule"(创造者日程):需要大块的不被打断的时间来深入思考和编码。但在AI代理时代,开发者越来越像是在遵循"Manager’s Schedule"(管理者日程):规划任务、分配工作、审查输出、协调资源。

许多AI编码工具的实践者都强调:与AI协作时,前期规划变得极其重要。不是"边写边想",而是先深入规划,然后让AI执行。

这不是说开发者变成了"不写代码的管理者"。而是说,开发者的核心技能正在从"tactical execution"(战术执行)转向"strategic design"(战略设计)。他们仍然需要深厚的技术功底,但这些功底的应用方式变了:不是直接实现功能,而是设计让AI能够可靠实现功能的环境。

Harness Engineering的边界与挑战

OpenAI的实验令人印象深刻,但我们必须保持清醒:这不是银弹。

首先,OpenAI有独特的优势。他们拥有最先进的AI模型Codex,拥有深厚的AI工程经验,拥有可以承受实验失败的资源。对于大多数组织来说,复制这个实验的难度极高。

其次,并非所有类型的软件都适合这种方式。OpenAI的实验是一个内部工具,用户群体可控,容错空间较大。对于安全关键系统、金融系统、医疗系统,完全依赖AI生成代码的风险可能是不可接受的。

第三,长期可维护性仍然是未知数。5个月、百万行代码,这个系统能够稳定运行多久?当需要重大架构调整时会发生什么?当原始团队离开后,新团队能否接手?这些问题还没有答案。

最后,也是最根本的:我们还没有解决AI生成代码的可验证性问题。如何确保系统的正确性?如何防止subtle bugs?如何保证安全性和隐私?这些问题仍然悬而未决。

一个新的工程学科正在诞生

尽管存在这些挑战,Harness Engineering的意义不容忽视。

它不是一个工具,不是一个框架,而是一个新的工程学科。正如DevOps重新定义了开发和运维的关系,正如Site Reliability Engineering重新定义了可靠性工程,Harness Engineering正在重新定义软件工程本身。

它的核心主张是:在AI代理时代,工程师的主要工作不再是写代码,而是设计约束、建立反馈循环、构建让AI能够可靠工作的环境。

这不是技能的降级,而是抽象层级的提升。就像高级语言的出现没有让程序员变得"不懂技术",反而让他们能够构建更复杂的系统一样,Harness Engineering让工程师能够在更高的抽象层级上工作。

Mitchell Hashimoto(HashiCorp创始人)最近提出的观点精准地概括了这个理念:“每当你发现代理犯了错误,你就花时间设计一个解决方案,让代理永远不再犯同样的错误。这就是Harness Engineering。”

这意味着,Harness Engineering不是一次性的项目,而是一个持续的过程。每一次失败都是一次学习机会,每一次修复都是对harness的增强。随着时间推移,harness变得越来越强大,AI代理能够处理的任务越来越复杂。

我们正站在一个转折点上

回到文章开头的那个实验。3个工程师,5个月,百万行代码,零人工编写。

这不是关于"AI有多强大"的故事。这是关于"人类工程师如何重新定义自己的角色"的故事。

OpenAI的团队选择"零人工代码"这个极端约束,不是为了炫技,而是作为一个forcing function——强迫自己构建真正可靠的AI工作环境。他们成功了,但更重要的是,他们展示了一种可能性:软件工程可以在完全不同的范式下运作。

2026年,我们正站在一个转折点上。AI编码工具已经无处不在——Cursor、GitHub Copilot、OpenAI Codex、Claude Code。但大多数团队仍在用传统的方式使用它们:AI辅助,人类主导。

Harness Engineering提出了一个更激进的愿景:AI主导,人类设计。这个愿景是否会成为主流?它会如何演进?它会遇到什么样的挑战?

答案还不清楚。但有一点是确定的:忽视这个趋势的工程师和组织,可能会在未来几年发现自己已经落后了一个时代。

因为当别人用AI代理每天产生数十个PR时,当别人用几个月构建百万行代码的系统时,当别人的工程师专注于战略设计而不是战术执行时——你还在用传统方式一行一行写代码,这不是坚守匠心,这是刻舟求剑。

Harness Engineering不是未来,它已经是现在。问题不是"要不要学",而是"如何学,学多快"。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～