Harness Engineering，AI时代工程师的新使命，从教AI做事到为AI筑路

小程故事多_80

245人浏览 · 2026-03-30 19:40:23

小程故事多_80 · 2026-03-30 19:40:23 发布

在这里插入图片描述

在人工智能飞速迭代的今天，我们似乎陷入了一个共同的误区，总想着手把手教AI完成每一件事，为它设计繁琐的工作流，编写冗长的提示词，用层层嵌套的逻辑去约束它的行为，仿佛AI是一个懵懂无知的新手，需要人类全程指挥才能行动。但真正懂AI落地的人早已看清，这种模式不仅效率低下，还极大限制了大模型本身的能力。

一个全新的工程理念正在悄然崛起，它就是Harness Engineering，驾驭工程。这一理念彻底颠覆了传统AI开发的思维，不再要求工程师去教AI如何开车，而是让工程师为AI打造一辆性能卓越的赛车，规划清晰的赛道，配备精准的导航，然后安心坐在副驾驶，让AI自主驰骋。当我们完成这一转变，就会发现AI的潜力被彻底释放，而工程师也找到了在AI时代真正的核心价值。

一、从疯狂实验到行业共识：Harness理念的诞生

2025年8月，OpenAI内部一个三人小团队完成了一项堪称疯狂的实验，他们启动了一个全新项目，整个项目没有一行代码由人类编写，从产品代码、测试用例，到CI配置、项目文档，再到运维脚本、内部工具，全部由Codex智能体自主完成。五个月后，这个项目拥有了百万行代码、1500个PR，还收获了真实的日活用户，在业内引发了巨大震动。

很多人好奇，在这个全程由AI开发的项目中，人类工程师究竟在做什么？答案很简单，他们没有编写一行业务代码，而是专注于打造Harness，为AI智能体构建一个能够高效工作的完整环境。这个实验也向整个行业证明，当AI拥有足够强大的能力时，人类的核心工作不再是亲自执行任务，而是为AI搭建合适的运行框架，让AI自主完成复杂工作。

在此之前，AI Agent的概念被严重滥用。市面上很多所谓的AI Agent平台，不过是用拖拽式节点、工作流编排、提示词链，把大模型塞进一个固定的流水线中，就自诩打造了智能体。但这本质上只是一个包装华丽的shell脚本，就像把飞行员绑在椅子上，用绳子连接各种开关，却声称这是自动驾驶飞机。

真正的AI Agent，是大模型本身。它经过数十亿次梯度更新训练，拥有感知、推理、行动的能力，这种自主性是模型通过学习获得的，而非人类用if-else代码编写出来的。人类工程师无法通过工程手段编码出智能体的自主能力，我们能做的，就是通过Harness Engineering，为AI提供发挥能力的条件。

简单来说，AI模型是拥有超强大脑的驾驶者，而Harness就是驾驶者赖以行动的一切载体。就像赛车手需要赛车、赛道、导航和维修站，外科医生需要手术室、器械、设备和护理团队，作家需要书房、资料、编辑和出版渠道，编程场景中的AI，也需要IDE、终端、文件系统、文档和权限管理，这一切组合起来，就是Harness。

二、Harness的核心构成：五大组件赋能AI全流程工作

Harness并非一个模糊的概念，而是有着清晰的构成体系，其核心公式可以概括为，Harness等于工具加知识加观察加行动加权限。这五大组件相互配合，为AI智能体配齐装备，让它从一个只能输出文本的模型，变成能够独立完成复杂任务的实干者。

（一）工具：为AI装上灵活做事的双手

AI模型拥有强大的推理能力，但如果没有工具，就像人没有双手，空有想法却无法落地。工具是AI与现实世界交互的媒介，让AI能够真正动手执行任务。

在编程场景中，AI需要的工具涵盖读写文件、执行Shell命令、控制浏览器、调用API、操作Git等。这些工具让AI可以查看和修改代码、安装项目依赖、运行测试用例、操作数据库、提交代码合并请求。在其他领域，工具同样不可或缺，农业AI需要控制灌溉阀门、读取土壤湿度传感器，酒店AI需要操作预订系统、发送客户确认邮件，医学AI需要检索文献数据库、控制实验仪器。

设计优秀的AI工具，要遵循原子化、可组合、描述清晰的原则。原子化意味着每个工具功能单一，专注解决一个具体问题，可组合要求工具能够像乐高积木一样自由拼接，实现复杂功能，描述清晰则是让AI能够快速理解工具的用途和使用方法。

最忌讳的就是设计大而全的万能工具，比如给AI一个do_everything函数，参数仅为自由文本。这就像递给外科医生一把瑞士军刀，让他完成心脏手术，工具过于复杂反而让AI无从下手，降低工作效率。

（二）知识：为AI赋予专业领域的认知

工具是AI的双手，知识就是AI的专业教科书，让AI在特定领域中具备专业能力，避免做出不符合业务逻辑和行业规范的决策。

OpenAI团队在实践中踩过一个关键坑，他们最初尝试编写一个超大的AGENTS.md文件，把所有项目规则、开发规范、业务逻辑全部塞进其中，结果以失败告终。究其原因，首先是信息爆炸导致核心内容被淹没，当所有信息都被标注为重要时，AI反而无法抓取关键内容，其次是文档极易过时，随着项目迭代，大量规则失效却无人更新，变成陈旧规则的坟场，最后是无法验证有效性，没人知道文档中的哪些规则还能适用。

正确的知识管理方式，是为AI提供一张知识地图，而非一本厚重的百科全书。OpenAI优化后的方案，是让AGENTS.md仅保留百余行内容，作为项目知识的目录，指引AI按需查找，架构概览、设计文档、执行计划、产品规格等内容，分门别类存放在对应的文件夹中。

这种渐进式披露的方式，让AI从一个小而稳定的切入点开始，根据任务需求逐步深入获取知识，避免被海量信息淹没。Claude Code采用的技能按需加载模式，也是同样的逻辑，AI知晓可用技能的范围，在需要时自主读取，而非将所有技能一次性塞入上下文，既节省资源，又提升效率。

（三）观察：为AI睁开感知环境的双眼

AI要完成复杂任务，不仅需要动手的能力和专业的知识，还需要清晰感知当前环境状态的能力，观察组件就是AI的双眼，让AI实时掌握任务进展、系统状态和问题所在。

在编程开发中，AI需要通过git diff查看代码修改内容，通过错误日志定位问题根源，通过测试结果了解代码是否达标，通过Lint报告掌握代码质量，通过浏览器截图查看UI展示效果。OpenAI更是将整套可观测性堆栈接入AI运行时，让AI能够通过LogQL查询日志、通过PromQL查看指标。

这让AI能够自主完成性能监测，比如确保服务启动时间控制在800毫秒内，保障关键用户旅程响应不超过两秒。AI还能接入Chrome开发者工具，通过截图、操作DOM复现并修复前端bug，成为24小时不间断工作的测试工程师。据团队反馈，单个Codex智能体单次运行，能在单个任务上持续工作超六小时，在人类休息时默默推进项目，极大提升开发效率。

（四）行动：让AI具备自主执行的能力

观察与行动是一体两面，AI只有看清环境，才能做出正确决策，而行动能力则让AI的决策落地，真正实现从思考到执行的闭环。

具备完整行动能力的AI，能够自主执行CLI命令、调用API接口、创建修改文件、发起并合并PR，甚至能自主完成功能开发的全流程。OpenAI的Codex智能体已经实现了端到端的任务驱动，从验证代码库当前状态、复现并修复bug，到录制视频展示修复效果、发起PR、处理审查反馈、修复构建失败，再到最终合并代码，全程自主完成，仅在需要人类主观判断时寻求协助。

这已经超越了传统的AI辅助编程，实现了人类描述需求，AI全权负责落地的模式，彻底解放了工程师的双手，让人类从繁琐的编码工作中解脱出来，专注于更有价值的规划和设计。

（五）权限：为AI划定安全可靠的边界

能力越强，责任越大，AI拥有强大的行动能力后，必须设置严格的权限边界，避免因误操作造成不可逆的损失，就像不能给AI一把没有保险的枪。

Harness中的权限管理，核心是为AI划定安全边界，保障任务执行可控。首先是沙箱隔离，每个任务在独立的git工作树中运行，不同任务互不干扰，避免交叉污染，其次是审批流程，对于删库、修改核心配置等破坏性操作，必须经过人类确认才能执行，最后是明确信任边界，清晰定义AI能够访问的资源和禁止操作的范围。

Claude Code采用的ask before run模式就是典型案例，AI在执行敏感操作前，会主动向用户发起确认请求。这就像企业管理中，为优秀实习生赋予充分的自主权限，但涉及核心资产操作时，必须经过上级审批，既保障效率，又守住安全底线。

三、Harness Engineering的核心原则：让AI高效且规范地工作

在搭建Harness的过程中，行业先行者总结出了一系列核心原则，这些原则是经过实践验证的经验结晶，能够帮助工程师打造更高效、更稳定、更适配AI的运行环境。

（一）代码仓库是唯一的真相之源

OpenAI团队在实践中得出一个深刻结论，对于AI智能体来说，运行时无法在上下文中访问的内容，等同于不存在。

团队在即时通讯工具中讨论的架构决策、工程师脑海中隐性的开发禁忌、文档工具中的产品需求，只要没有写入代码仓库，AI就无法感知。AI就像一个每次任务都重新入职的新员工，只能通过代码仓库中的内容理解项目，因此，所有关键信息都必须沉淀到代码仓库中。

设计决策要写成设计文档，提交到仓库的指定目录，执行计划、产品规格、架构约束也要分门别类存入仓库，甚至将隐性的开发规范编码为Lint规则，让AI能够自动感知并遵守。代码仓库不仅是代码的存储地，更是项目知识的唯一载体，是AI获取信息的核心来源。

（二）用约束替代指导，构建AI的高速公路

传统认知中，约束是对人的束缚，但对于AI来说，约束是能力的倍增器。人类面对严格的开发规范可能会感到受限，但AI在清晰的约束下，能够避免犯错，全速推进任务。

OpenAI构建了严格的分层架构，从类型定义到配置文件，从代码仓库到服务模块，再到运行时和前端界面，每一层只能依赖前序层级，认证、日志等通用能力通过统一接口注入。这些规则并非写在文档中仅供参考，而是编码为Lint规则和结构测试，自动强制执行。

当AI出现违规操作时，系统会抛出清晰的错误信息，这些信息本身就是AI的修复指令。比如服务层文件引入了UI组件，系统会直接提示服务不能依赖UI层，并指引AI将共享类型移动到指定目录。这种模式就像为AI修建高速公路，护栏和路标清晰明确，AI无需学习复杂的驾驶手册，就能安全快速地驶向目标。

（三）建立AI垃圾回收机制，清理代码副作用

AI并非完美无缺，它在开发过程中会产生特有的副作用。AI会忠实复刻代码库中的现有模式，包括不良编码风格，当项目中存在多种错误处理方式时，AI会随机选用，长期下来会导致代码风格混乱、冗余代码增多、技术债务累积。

OpenAI团队最初每周要花费20%的时间手动清理AI产生的代码残渣，但这种方式无法规模化。最终他们采用自动化垃圾回收方案，将项目最佳实践编码为Lint规则，通过后台AI任务定期扫描代码偏差，自动发起重构PR，大部分重构内容可快速审核合并。

这就像家庭中的扫地机器人，无需人工每日清扫，通过自动化机制定期清理技术债务，避免问题堆积，保障代码库长期健康。

（四）转变合并哲学，追求效率优先而非绝对完美

在AI主导开发的模式下，代码合并哲学发生了颠覆性变化，传统工程追求PR完美通过所有测试、经过严格人工审核后合并，而AI时代的核心原则是速度优于完美。

AI的开发吞吐量远超人类注意力极限，纠错成本极低，而等待人工审核的时间成本极高。测试偶发失败可以后续重新运行解决，无需因小问题阻塞整个开发流程。在AI每天能产出多个PR的环境中，快速合并、后续迭代的成本，远低于让AI等待人类逐一细致审核的成本。这就像高速公路上行驶，偶尔遇到小颠簸无需停车，远比低速小心翼翼避让更高效。

四、从编程到全行业：Harness Engineering的通用价值

很多人误以为Harness Engineering仅适用于AI编程领域，但事实上，这一理念具有极强的通用性，能够适配所有行业的AI落地场景。

无论农业、酒店、医学研究、制造业、教育还是庄园管理，核心的AI智能体都是同一个大模型，变化的只是为其搭建的Harness。农业AI的Harness包含土壤气象传感器、灌溉设备、作物知识库，酒店AI的Harness涵盖预订系统、客户渠道、设施API，制造业AI的Harness由产线传感器、质量控制工具、物流系统构成。

这一现象揭示了一个重要趋势，未来每个行业都需要专属的Harness工程师，我们的工作不再是编写智能，而是为智能构建栖居的世界。AI的智能水平由模型决定，而AI能否有效发挥能力，完全取决于Harness的质量，包括AI能否清晰感知环境、精准执行操作、获取专业知识、守住安全边界。

五、落地实操：即刻开始你的Harness Engineering实践

对于普通工程师来说，无需等待前沿技术落地，无论使用Claude Code、Codex还是Cursor，都可以立刻践行Harness Engineering理念，从日常开发细节入手，打造适配AI的工作环境。

第一，为AI提供知识地图，而非厚重手册。摒弃超长的开发规范文档，用简短的指引文件作为目录，将架构、规范、需求、决策等内容拆分存储，让AI按需查找，避免信息过载。

第二，将规则编码为代码，而非停留在文档。把开发约束、架构规范、代码风格等要求，转化为Lint规则、自动化测试等可执行代码，让AI自动感知并遵守，而非依赖文档提醒。

第三，让所有信息对AI可读。将设计决策、隐性陷阱、业务逻辑全部写入代码仓库，避免信息仅存在于即时通讯和口头沟通中，同时优化错误信息，清晰说明问题原因和修复方案，方便AI理解。

第四，赋予AI自我验证能力。为AI开放测试运行、日志查看、结果对比、UI校验等权限，让AI能够自主检查工作成果，自我修复问题，形成执行与验证的闭环。

第五，严格管理权限边界。为AI设置隔离环境，敏感操作必须经过人类审批，清晰定义AI的操作范围，在提升效率的同时，杜绝安全风险。

六、心智模式升级：AI时代工程师的核心竞争力

Harness Engineering的本质，是工程师心智模式的彻底升级。

旧的思维模式中，我们执着于开发AI Agent，设计复杂工作流，编排提示词链，构建决策树，用代码模拟智能，最终得到的系统脆弱、难以扩展、无法泛化。而新的思维模式下，我们专注于构建Harness，设计原子化工具，组织可发现的知识，提供环境观察能力，开放行动接口，设置权限边界，让模型自主做决策，Harness负责执行，最终实现高效、灵活、可扩展的AI应用。

在AI全面渗透的时代，编码能力不再是工程师的核心竞争力，亲自编写代码也不再是工程师的主要工作。能够为AI打造优质Harness，让AI充分发挥能力，解决复杂业务问题，才是新时代工程师的核心价值。

当我们为项目配置规则文件、设计AI工具、整理项目知识、搭建自动化规范时，我们就在践行Harness Engineering。这不是昙花一现的技术概念，而是AI时代软件工程的发展方向，是每一位工程师都需要掌握的核心能力。

未来已来，与其教AI如何做事，不如为AI筑好前行的路。做好Harness Engineering，让AI释放最大潜能，而我们，将成为AI时代真正的驾驭者，引领技术变革，创造更大价值。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

openclaw添加大模型-千问大模型-qwen3-max

本文介绍了如何在OpenClaw中集成阿里云千问大模型(Qwen3-Max)。主要内容包括：通过百炼平台开通模型服务并获取API Key；在Docker容器中配置OpenClaw，设置自定义模型提供商，指定API基础URL和密钥；配置完成后重启相关服务即可在Web界面使用该大模型。文档特别提醒要注意百万免费额度的使用限制，建议开启"用完即停"功能避免超额收费。配置过程通过交互式