掌握AI原生工程8大等级,从编程小白到高手,收藏这份进阶指南!
文章探讨了AI辅助编程能力的演进路径,提出了AI原生工程的8个等级。从自动补全到Agent IDE,再到上下文工程、复利工程、MCP与技能、环境工程、后台智能体直至自主Agent团队,每个等级都代表着AI编程能力的巨大飞跃。文章强调了上下文工程、复利工程和自动化反馈环的重要性,并指出了多Agent协同的潜力和挑战。对于想要提升AI编程能力的开发者来说,掌握这些等级并逐步进阶是关键。
AI 的编程能力正在超越人类有效驾驭它的能力。这就是为什么 SWE-bench 的刷分成绩与工程管理层真正关心的生产力指标之间存在脱节。当 Anthropic 的团队能在 10 天内交付像 Cowork 这样的产品,而另一支团队在使用相同模型的情况下甚至无法搞定一个破损的 POC 时,差距就在于前者已经填补了能力与实践之间的鸿沟。
这种差距的弥合并非一蹴而就,而是分阶段实现的。我将其划分为 8 个等级。大多数人可能已经跨越了前几个等级,你应该渴望达到更高层次,因为每一级的晋升都意味着产出的巨大飞跃,而模型能力的每一次提升都会进一步放大这些收益。
另一个值得关注的原因是“多玩家效应”。你的产出比你想象的更依赖于队友的水平。假设你是一个 7 级高手,在睡觉时能通过后台 Agent 提交好几个高质量 PR。但如果你的仓库要求同事审批才能合并,而那位同事还停留在 2 级,仍在手动审查 PR,这就会严重制约你的吞吐量。因此,提升团队整体水平符合你的切身利益。
通过与多个实践 AI 辅助编程的团队和个人交流,我总结出了以下演进路径(并非严格线性):

AI 原生工程的 8 个等级
第 1 级与第 2 级:自动补全与 Agent IDE
这两级我会快速带过。
一切始于 Copilot 和 Tab 键补全。点击 Tab,代码自动生成。这可能已被许多人遗忘,甚至被 AI 编程的新手直接跳过。它更青睐资深开发者,因为他们能熟练地构建代码骨架,再让 AI 填充细节。
以 Cursor 为代表的 AI 优先 IDE 改变了游戏规则,它将 Chat 与代码库连接起来,使多文件编辑变得异常简单。但瓶颈始终在于上下文。模型只能根据它“看到”的内容提供帮助,而令人恼火的是,它经常要么没看到正确的上下文,要么看到了太多无关的上下文。
处于这一级别的开发者大多也在尝试编程 Agent 的“计划模式”(Plan Mode):将粗略的想法转化为结构化的分步计划,不断迭代该计划,然后触发执行。在现阶段这种方式效果不错,也是保持控制权的合理手段。不过在更高等级中,对计划模式的依赖会逐渐减少。
第 3 级:上下文工程(Context Engineering)
作为 2025 年的热门词汇,上下文工程在模型能够可靠地遵循指令并处理适量上下文时应运而生。嘈杂的上下文与不明确的上下文同样糟糕,因此核心工作在于提高每个 Token 的信息密度。“每个 Token 都必须为自己在 Prompt 中的位置而战”成为了当时的信条。

相同的消息,更少的 Token —— 信息密度是关键 (来源: humanlayer/12-factor-agents)
在实践中,上下文工程涉及的范围比人们想象的要广。它包括系统提示词和规则文件(如 .cursorrules、CLAUDE.md);包括对工具(Tools)的描述,因为模型通过阅读这些描述来决定调用哪个工具;包括管理对话历史,以防长时间运行的 Agent 在十轮对话后跑题;还包括决定每轮对话暴露哪些工具,因为过多的选项会像干扰人类一样干扰模型。
如今关于上下文工程的讨论少了,因为模型变得更加强大,能够容忍更嘈杂的上下文并在混乱的逻辑中进行推理(更大的上下文窗口也有帮助)。尽管如此,关注上下文消耗依然具有现实意义。以下是几个容易踩坑的场景:
- 小模型对上下文更敏感。 语音应用通常使用小模型,上下文大小与首字延迟(TTFT)直接相关,进而影响响应速度。
- 消耗 Token 的工具和模态。 像 Playwright 这样的 MCP 和图像输入会迅速烧掉 Token,让你比预期更早地进入 Claude Code 的“压缩会话”状态。
- 拥有数十个工具的 Agent。 模型在解析工具 Schema 上花费的 Token 甚至比执行实际任务还多。
更广泛地说,上下文工程并未消失,只是进化了。重心已从“过滤掉糟糕的上下文”转向“确保在正确的时间提供正确的上下文”。这种转变正是迈向第 4 级的基石。
等级 4:复利工程
上下文工程优化的是当前会话,而复利工程[1]优化的是此后的每一个会话。复利工程由 Kieran Klaassen 推广,它不仅是我,也是许多人的转折点——它证明了“氛围编码(vibe coding)”远不止于原型开发。
这是一种“计划、委派、评估、固化”的循环。你为 LLM 提供足够的上下文进行任务计划;委派任务;评估输出;然后最关键的一步是,固化你学到的经验:哪些行得通、哪里出了错、下次应该遵循什么模式。

复利循环:计划、委派、评估、固化——每一次循环都让下一次变得更好
正是“固化(codify)”这一步实现了复利。LLM 是无状态的。如果它们重新引入了你昨天明确删除的依赖项,除非你告诉它们不要这样做,否则它们明天还会再犯。闭环最常见的方式是更新你的 CLAUDE.md(或等效的规则文件),将教训刻进未来的每一个会话中。注意:将所有内容都塞进规则文件的本能反映可能会适得其反(指令过多等于没有指令)。更好的做法是创造一个让 LLM 能够轻松自主发现有用上下文的环境,例如维护一个最新的 docs/ 文件夹(详见等级 7)。
复利工程的实践者通常对喂给 LLM 的上下文极度敏感。当 LLM 出错时,他们的直觉是先思考缺失了哪些上下文,而不是质疑模型的能力。这种直觉正是通往等级 5 到等级 8 的基石。
级别 5:MCP 与技能
如果说级别 3 和 4 解决了上下文问题,那么级别 5 则解决了能力问题。通过 MCP(模型上下文协议)和自定义技能,LLM 可以访问数据库、API、CI 流水线、设计系统、用于浏览器测试的 Playwright 以及用于通知的 Slack。模型不再仅仅是“思考”代码库,而是能够直接对其采取“行动”。
关于 MCP 和技能的优秀资料已经很多,这里不再赘述其定义。以下是我的一些实际应用案例:我们团队共享一个共同迭代的 PR 评审技能,它会根据 PR 的性质有条件地启动子智能体(subagents)。其中一个负责数据库集成的安全性;另一个进行复杂度分析,标记冗余或过度工程;还有一个检查 Prompt 健康状况,确保符合团队标准。此外,它还会运行 Linter 和 Ruff。

单个 PR 触发评审技能,并分发给多个专门的子智能体——每个子智能体负责检查不同的质量维度
为什么要投入这么多精力在评审技能上?因为随着智能体开始批量产出 PR,人工评审将成为瓶颈,而非质量的守护者。Latent Space 曾提出一个引人深思的观点[2]:我们所认知的传统代码评审已经过时,取而代之的是自动化、一致性且基于技能的评审。
在 MCP 方面,我使用 Braintrust MCP 让 LLM 查询评估日志并直接进行修改;使用 DeepWiki MCP 让智能体访问任何开源项目的文档,而无需手动将其拉入上下文。
一旦团队中有多人开始编写相同技能的不同版本,就值得将其整合到共享注册表中。Block[3] 对此有一篇精彩的总结:他们构建了一个内部技能市场,包含 100 多个技能,并为特定角色和团队提供精选包。技能享受与代码相同的待遇:有 PR、评审和版本历史。
还有一个值得关注的趋势:LLM 使用 CLI 工具而非 MCP 变得越来越普遍(许多公司都在发布此类工具:如 Google Workspace CLI[4],Braintrust 也即将发布)。其核心原因在于 Token 效率。无论智能体是否使用,MCP 服务器都会在每一轮对话中将完整的工具 Schema 注入上下文。CLI 则相反:智能体运行特定命令,只有相关的输出才会进入上下文窗口。正因如此,相比 Playwright MCP,我更倾向于频繁使用 agent-browser。
级别 3 到 5 是后续一切的基础。LLM 在某些方面表现惊人,在另一些方面则不尽如人意,在叠加更多自动化之前,你需要对这些边界建立直觉。如果上下文充斥噪音、Prompt 定义不清或工具描述糟糕,级别 6 到 8 只会放大这些混乱。
等级 6:环境工程与自动化反馈环
这一阶段是效能爆发的关键。
上下文工程(Context engineering)侧重于精选模型接收的信息,而环境工程(Harness engineering)[5]则致力于构建整套环境、工具链和反馈环,让智能体(Agent)无需人工干预即可可靠地完成工作。要给智能体提供完整的反馈闭环,而不仅仅是一个编辑器。

OpenAI 的 Codex 环境:集成到智能体运行时的全栈可观测性工具,使其能够查询、关联并推理自身输出(来源:OpenAI)
OpenAI 的 Codex 团队将 Chrome DevTools、可观测性工具和浏览器导航接入智能体运行时,使其能够截屏、驱动 UI 路径、查询日志并验证修复结果。只需一个提示词,智能体就能复现 Bug、录制视频并实现修复。随后,它通过操作应用进行验证、提交 PR、响应评审意见并合并代码,仅在需要人工决策时才进行升级上报。智能体不再只是写代码,它能观察代码的运行结果并像人类开发者一样进行迭代。
我的团队在开发用于技术排障的语音和聊天智能体,为此我构建了一个名为 converse 的 CLI 工具。它允许任何 LLM 与我们的后端接口对接并进行多轮对话。LLM 修改代码后,利用 converse 对线上系统进行对话测试并持续迭代。有时这种自我优化循环会连续运行数小时。当结果可验证时(例如:对话必须遵循特定流程,或在特定场景下调用特定工具,如转接人工),这种模式威力巨大。
支撑这一模式的核心概念是背压(Backpressure)[6]:即自动化的反馈机制(类型系统、测试、Linter、pre-commit 钩子),让智能体在没有人工干预的情况下识别并纠正错误。想要实现自主性,就必须引入背压,否则只会得到一个不断产出垃圾代码的机器。这一点同样适用于安全领域。Vercel 的 CTO 指出[7],智能体、其生成的代码以及你的敏感信息(Secrets)应当处于不同的信任域。因为如果所有内容共享同一个安全上下文,埋在日志文件中的提示词注入(Prompt Injection)可能会诱骗智能体外泄凭证。安全边界也是一种背压:它们定义了智能体在偏离轨道时“能做什么”的硬约束,而不仅仅是“该做什么”的软引导。
以下两点非常有帮助:
- 设计追求吞吐量,而非完美。 如果要求每次提交都必须完美,智能体往往会在同一个 Bug 上死磕,甚至互相覆盖修复方案。更好的做法是容忍非阻塞的小错误,并在发布前进行最终质量检查。我们对人类同事也是如此。
- 约束优于指令。 步骤式的提示词(“先做 A,再做 B,然后做 C”)正逐渐过时。根据我的经验,定义边界比提供清单更有效,因为智能体往往会死盯着清单而忽略清单之外的一切。更好的提示方式是:“这是我的目标,持续优化直到通过所有这些测试。”
环境工程的另一半工作是确保智能体能独立导航你的代码库。OpenAI 的方法是:维护一个约 100 行的 AGENTS.md 文件作为目录,指向其他结构化文档,并将文档的更新维护纳入 CI 流程,而不是依赖容易过时的手动更新。
当你构建完这一切,一个自然而然的问题随之而来:如果智能体能够验证自身工作、导航代码库并自主纠错,那么为什么还需要你坐在电脑前呢?
第 7 级:后台智能体
有个观点:计划模式(plan mode)正在走向消亡。
Claude Code 的创始人 Boris Cherny 提到,他目前仍有 80% 的任务[8] 是从计划模式开始的。但随着模型迭代,计划后的单次执行成功率在不断攀升。我认为我们正处于一个临界点:计划模式作为一个独立的“人工干预”步骤将逐渐淡出。这并非因为计划不再重要,而是因为模型自主计划的能力已经足够强。不过这有个大前提:你必须已经完成了第 3 到第 6 级的工作。如果上下文清晰、约束明确、工具描述准确且反馈闭环紧密,模型就能在无需人工预审的情况下可靠地完成计划。否则,你还是得盯着它。
需要明确的是,作为通用实践的“计划”不会消失,只是形态发生了变化。对于初学者,计划模式仍是最佳入口(如第 1、2 级所述)。但在第 7 级处理复杂功能时,“计划”更像是一种探索:探测代码库、在工作树(worktrees)中构建原型、映射解决方案空间。而这种探索正越来越多地由后台智能体(background agents)代劳。
这正是解锁后台智能体的关键。如果智能体能生成可靠计划并在无需签发的情况下执行,它就能在你处理其他事务时异步运行。这是从“手忙脚乱切标签页”到“工作自动推进”的关键跨越。
Ralph 循环[9]是一个流行的切入点:这是一种自主智能体循环,它会重复运行编码 CLI,直到完成 PRD 中的所有项,且每次迭代都会生成一个上下文干净的新实例。经验表明,调优 Ralph 循环很难,PRD 中任何定义不清或遗漏的地方都会导致问题,这种“发后即忘”的模式风险较高。
虽然可以并行运行多个 Ralph 循环,但随着智能体数量增加,你会发现时间都花在了协调、排序、检查输出和微调方向上。你不再是写代码的,而变成了“中层管理”。这时你需要一个调度智能体(orchestrator agent)来处理分发,让你专注于意图而非琐事。

Dispatch 并行启动 3 个模型的 5 个工作进程 - 保持主会话轻量,由智能体完成重活
我经常使用的工具是 Dispatch[10],这是我构建的一个 Claude Code 技能[11],它能将你的会话变成指挥中心。你留在干净的主会话中,而工作进程在隔离的上下文中处理重活。调度器负责计划、委派和跟踪,从而保护主上下文窗口用于编排。当工作进程卡住时,它会抛出问题请求澄清,而不是静默失败。
Dispatch 在本地运行,非常适合需要快速反馈、交互式调试且无基础设施开销的开发场景。Ramp 的 Inspect[12] 则是处理长耗时、高自主性工作的互补方案:每个智能体会话都在带有完整开发环境的云端沙盒虚拟机中启动。PM 发现 UI Bug 并在 Slack 中标记,Inspect 就能接手处理,哪怕你关上电脑也没关系。其代价是运维复杂度(基础设施、快照、安全),但它提供了本地智能体无法比拟的扩展性和可复现性。建议本地和云端后台智能体结合使用。
这一层级中还有一个非常强大的模式:针对不同任务使用不同模型。顶尖工程团队不会全是“克隆人”,而是由思维方式、训练背景和优势各异的人组成。LLM 亦然。不同模型经过不同的后训练,表现出明显的倾向性。我通常调度 Opus 进行实现,Gemini 进行探索性研究,Codex 进行代码审查。这种累加的产出比单一模型更强。这本质上是代码领域的“群体智慧”。
至关重要的一点是,必须将执行者与评审者解耦。如果同一个模型实例既负责实现又负责评估自己的工作,就会产生偏差。它会掩盖问题,并在任务未完成时谎称已全部搞定。这并非恶意,而是出于“自己不能给自己改卷子”的朴素道理。引入另一个模型(或带有特定评审提示词的另一个实例)进行评审,信号质量会大幅提升。

不要让同一个模型给自己改卷子——将执行者与评审者分离
后台 Agent 还为 CI 与 AI 的结合打开了大门。一旦 Agent 可以脱离人工干预运行,就可以通过现有基础设施触发它们。例如:在每次合并时自动重新生成文档并提交 PR 以更新 CLAUDE.md 的文档机器人(我们就在这么干,非常省时间);扫描 PR 并提交修复方案的安全评审机器人;或者能真正升级依赖包并运行测试套件,而不只是标记风险的依赖机器人。高质量的上下文、复利化的规则、强大的工具以及自动化反馈回路,现在都在自主运行。
Level 8:自主 Agent 团队
目前还没有人完全攻克这一层级,但少数先行者正在尝试。这是目前最前沿的领域。
在 Level 7 中,通常由一个中枢 LLM 以星型拓扑结构向各个 Worker LLM 分发任务。Level 8 则消除了这个瓶颈。Agent 之间直接协同,自主领取任务、共享发现、标记依赖并解决冲突,而无需通过单一的中枢进行路由。
Claude Code 实验性的 Agent Teams[13] 功能就是一个早期实现:多个实例在共享代码库上并行工作,队友们在各自的上下文窗口中运行并直接通信。Anthropic 曾使用 16 个并行 Agent 从零构建了一个能编译 Linux 的 C 编译器。Cursor 则运行了数百个并发 Agent 持续数周,从零构建了一个浏览器,并将自家的代码库从 Solid 迁移到了 React。
但仔细观察就能发现其中的破绽。Cursor 发现,如果没有层级结构,Agent 会变得畏首畏尾,陷入无意义的反复而没有进展。Anthropic 的 Agent 则不断破坏现有功能,直到引入了 CI 流水线来防止回归。在这个层级探索的人都有共识:多 Agent 协同是一个极难的问题,目前离最优解还差得远。
坦白说,我认为现有的模型在大多数任务上还不足以支撑这种程度的自主。即便它们足够聪明,其运行速度和 Token 消耗也使得这种模式在编译器或浏览器构建等“登月项目”之外显得不划算。对于大多数人的日常工作,Level 7 才是杠杆效应最高的地方。我不怀疑 Level 8 最终会成为主流模式,但现阶段我会把精力放在 Level 7(除非你是 Cursor,这种突破本身就是你的核心业务)。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)