从辅助编程到自主 Agent:开发者的心路历程
从辅助编程到自主 Agent:开发者的心路历程
写在前面:这是我对 2025-2026 年 Agent 开发范式的深度思考,记录了一个全栈开发者从"用 AI 写代码"到"让 AI 自己写代码"的完整心路历程。文章可能有点长,但每一段都是实战中踩坑总结出来的。
📖 目录
- 双维度演进模型
- 失败场景分析
- 我的当前定位
- 任务维度 Agent 架构
- 下一步探索方向
- 开放讨论
🎯 双维度演进模型
Agent 的发展不是单一路径,而是两个维度的交叉演进:
纵向:5 阶段演进(人类放权程度)
| 阶段 | 人类关注点 | AI 职责 | 边界划定 | 典型场景 |
|---|---|---|---|---|
| 阶段 1 辅助开发 | 学习 + 辅助 coding | 辅助编码 | 人类完全掌控 | 问一句写一行 |
| 阶段 2 划定边界 | 技术栈 + 功能测试 | 自行开发 + 修改 | 人类划定边界 | AI 开发→人测试 |
| 阶段 3 功能描述 | 功能描述 | 选型 + 实现细节 | 宽泛边界 | 说功能,AI 实现 |
| 阶段 4 自循环 | 业务/公司/习惯 | 自循环测试 + 开发 + 需求审核 | 明确流程 | 全流程自动化 |
| 阶段 5 AI 自主 | 环境边界(人能提供什么) | 自行划分边界 + 研发测试 | AI 自主划定 | 完全意图驱动 |
横向:3 种交互形态
| 形态 | 特征 | 人类认知 | 适用场景 |
|---|---|---|---|
| 形态 1 Vibe Coding | 简单对话,简单功能 | 不考究细节,不规划边界 | 快速原型、创意发散 |
| 形态 2 自由细节调整 | AI 完全掌握模块 | 回答/判断/解决已有功能问题 | 复杂模块开发、bug 修复 |
| 形态 3 人说要有光 | 只说想要什么 | 技术人员知道权限 + 路径 | 明确意图的完整任务 |
📊 5×3 演进矩阵
💡 使用说明:查看你当前所处的阶段和主要使用的交互形态
| 阶段 \ 形态 | 形态 1 Vibe Coding | 形态 2 自由细节调整 | 形态 3 人说要有光 |
|---|---|---|---|
| 阶段 1 辅助开发 | ✅ 当前主流 问一句写一行 | ⚠️ 偶发 帮忙改 bug | ❌ 不可能 人类还没放手 |
| 阶段 2 划定边界 | ⚠️ 减少使用 快速验证想法 | ✅ 主要形态 AI 开发→人测试 | ❌ 不成熟 边界还不够宽 |
| 阶段 3 功能描述 | ✅ 仍需要 原型探索 | ✅ 成熟 功能细节调整 | 🔄 萌芽 简单功能可放手 |
| 阶段 4 自循环 | ⚠️ 偶尔用 创意发散 | ✅ 标准流程 复杂模块开发 | ✅ 部分实现 明确意图即可 |
| 阶段 5 AI 自主 | ❌ 不需要 人类不干预了 | ✅ 底层能力 AI 自我完善 | ✅ 终极形态 完全意图驱动 |
💡 关键洞察:
- 对角线演进路径:大多数人会沿着
阶段 1→形态 1→阶段 2→形态 2→阶段 3→形态 3的路径演进 - Vibe Coding 不会消失:即使在阶段 5,它仍是创意发散的好工具
- "相信 AI"的本质:信任是逐步建立的,不是一蹴而就的
⚠️ 失败场景分析
演进不是一帆风顺的。我总结了5 种典型失败模式,每一款都是我或我见过的人踩过的坑。
失败场景 1:依赖成瘾 🪝
位置:阶段 1 × 形态 1
现象:
- 每写一行代码都要问 AI
- 失去独立思考和解决问题的能力
- 离开 AI 就不会写代码
根本原因:把 AI 当"答案机器"而非"思考伙伴"
预防措施:
- 强制独立思考时间(例如:遇到问题先自己想 10 分钟)
- 设定 AI 代码占比上限(建议 < 70%)
🤔 思考题:你现在还依赖 AI 写代码吗?离开 AI 还能独立完成任务吗?
失败场景 2:审查疲劳 😫
位置:阶段 2 × 形态 2
现象:
- AI 生成的代码每次都要逐行 review
- 花的时间比自己写还多
- 逐渐失去耐心,开始"差不多就行"
根本原因:没有建立信任积累机制,缺乏自动化测试作为安全网
预防措施:
- 建立自动化测试网(单元测试 + 集成测试)
- 设定 Review 时间/代码行数阈值,超过就优化流程
🤔 思考题:你 review AI 代码的时间比自己写代码还多吗?
失败场景 3:需求漂移 🎯
位置:阶段 3 × 形态 3
现象:
- 只说"我想要一个视频",AI 做出来的完全不是想要的
- 反复修改,越改越偏离初衷
- 最后放弃,重新自己做
根本原因:
- 人类自己都不清楚想要什么
- AI 缺乏领域知识和上下文理解
预防措施:
- 需求确认清单(必须包含:目标用户、核心功能、验收标准)
- 设定修改次数上限(建议 < 3 次),超过就重新澄清需求
🤔 思考题:你有多少次是因为"说不清楚想要什么"而放弃 AI 协助的?
失败场景 4:黑箱失控 📦
位置:阶段 4 × 形态 3
现象:
- Agent 自循环运行,人类看不懂中间过程
- 出问题了不知道哪里错了
- 想干预但找不到切入点
根本原因:缺乏可解释性设计,没有人工干预检查点
预防措施:
- 设计人工检查点(关键决策必须人类确认)
- 要求 Agent 输出中间过程和决策理由
🤔 思考题:你的 Agent 流程中,人类可以在哪些环节介入?
失败场景 5:人类无用化 🤖
位置:阶段 5 × 形态 3
现象:
- AI 完全自主,人类变成"按按钮的人"
- 人类失去对领域的理解和掌控
- AI 犯大错时人类无法补救
根本原因:过度自动化导致人类技能退化,缺乏人类监督的必要机制
预防措施:
- 保留核心技能训练(定期独立完成任务)
- 设计人类监督机制(关键决策必须人类审批)
🤔 思考题:如果 AI 能做的越来越多,你希望自己是"按按钮的人"还是"设计按钮的人"?
失败场景演进路径
💡 演进规律:随着阶段推进,失败场景会从"效率问题"演变为"控制问题"
| 阶段过渡 | 失败场景演进 | 根本原因 |
|---|---|---|
| 阶段 1→2 信任建立 | 依赖成瘾 → 审查疲劳 | 没有建立有效的信任机制 |
| 阶段 2→3 边界放宽 | 审查疲劳 → 需求漂移 | 人类需求表达能力跟不上 AI 能力 |
| 阶段 3→4 流程自动化 | 需求漂移 → 黑箱失控 | 复杂度超出人类理解范围 |
| 阶段 4→5 完全自主 | 黑箱失控 → 人类无用化 | 人类技能退化 + 缺乏监督机制 |
📍 我的当前定位
定位:阶段 2 → 阶段 3 过渡期,主要使用形态 2,正在探索形态 3
核心挑战:从"审查疲劳"向"需求漂移"过渡
关注重点:
- 自动测试:建立自动化测试网,减少人工 review 成本
- 需求精准描述:设计对话式澄清流程,避免需求漂移
正在探索的架构:任务维度 Agent 设计(详见下一节)
🏗️ 任务维度 Agent 架构
为什么不是"职能导向"?
我之前设计过"新闻官/日程官/反思官"等角色分工的 Agent 架构,但后来发现有问题:
| 维度 | 职能导向 | 任务导向 |
|---|---|---|
| 设计思路 | 按专业分工(新闻、日程) | 按人的目标组织(做视频、写报告) |
| 优点 | 职责清晰 | 符合人类思维方式 |
| 缺点 | 跨职能协作复杂 | 任务边界需要仔细设计 |
| 适用场景 | 稳定业务流程 | 创新性、探索性任务 |
结论:对于个人 Agent 体系,任务导向更符合"以人为本"的理念。
三层架构设计
💡 设计思想:自上而下抽象程度递增,自下而上自动化程度递增
| 层级 | 职责与示例 | 测试类型与标准 | 自动化程度 |
|---|---|---|---|
| 第一层 目标层 (Goal) | 「做视频」「写报告」「旅行规划」人类只与这一层交互 | 人类确认 + AI 预评估 满意度评分 ≥ 8/10 | 20% |
| 第二层 任务层 (Task) | 「调研」「文案」「剪辑」「发布」「审查」「测试」可复用的任务模块 | 自动化检查清单 + 质量评分 检查项通过率 100% | 80% |
| 第三层 能力层 (Capability) | 「搜索」「写作」「视频处理」「API 调用」「存储」底层原子能力 | 单元测试 + 集成测试 测试用例通过率 100% | 100% |
设计原则
| 层级 | 设计原则 | 人类干预点 | 自动化程度 |
|---|---|---|---|
| 目标层 | 自然语言描述,模糊可接受 | ✅ 人类定义目标 | 20% |
| 任务层 | 标准化接口,可组合 | ⚠️ 可选干预(检查点) | 80% |
| 能力层 | 完全自动化,黑箱 | ❌ 人类不干预 | 100% |
💡 关键洞察:测试的自动化程度应该自下而上递减,人类干预程度应该自下而上递增。
上下文管理策略
💡 设计原则:分层管理,避免污染,任务完成后只保留归档结果
| 层级 | 内容与示例 | 生命周期 | 传递规则 |
|---|---|---|---|
| L1 任务上下文 | 当前任务的完整信息 如调研结果、文案草稿 | 任务开始 → 完成 → 归档 | 任务内完整传递 完成后销毁 |
| L2 项目上下文 | 同一项目的共享信息 如风格指南、素材库 | 项目开始 → 结束 | 部分传递给子任务 作为背景知识 |
| L3 用户上下文 | 用户的长期偏好和习惯 如偏好风格、禁忌内容 | 永久(除非用户修改) | 所有任务共享 偏好自动应用 |
专家模式 vs 简单模式
考虑到"强者越强,弱者越依赖"的社会分化趋势,我设计的 Agent 架构应该同时支持两种模式:
| 维度 | 专家模式 (Expert Mode) | 简单模式 (Simple Mode) |
|---|---|---|
| 目标用户 | 自驱型用户(想要控制细节) | 依赖型用户(想要一键完成) |
| 中间状态 | ✅ 可查看所有 Agent 的中间状态 | ❌ 不展示 |
| 干预能力 | ✅ 可干预任意检查点 | ❌ 只有「通过/不通过」 |
| 失败处理 | ✅ 可查看测试报告和失败追溯 | 🔄 失败时自动重试 |
| 切换机制 | ← 无缝切换 → | ← 无缝切换 → |
关键设计:两种模式可以无缝切换——用户在简单模式下遇到不满意的结果时,可以切换到专家模式查看细节。
🚀 下一步探索方向
方向 1:测试失败追溯机制
问题:当目标层测试失败(人类不满意)时,如何快速定位问题层级?
思考:
- 是任务层的问题?(文案写得烂)
- 还是能力层的问题?(搜索没找到好素材)
- 还是目标层本身的问题?(人类需求表达不清)
目标:设计一个"根因分析"流程,自动追溯失败原因。
方向 2:对话式澄清的具体实现
思考的混合式澄清流程:
| 步骤 | 内容与示例 | 目的 |
|---|---|---|
| 第一步 对话收集 | 开放性问题「你想做什么样的视频?」 | 收集初始需求 |
| 第二步 结构化确认 | 基于回答生成确认清单「你提到要专业风格,我理解为:□ 使用正式语言 □ 避免表情包 □ 引用数据来源 □ 时长 3-5 分钟 对吗?」 | 将模糊需求转为结构化 |
| 第三步 示例校准 | 展示 1-2 个示例「类似这种风格吗?」 | 对齐认知,避免歧义 |
| 第四步 风险提醒 | 预判潜在风险「数据可能不够新」「素材可能有版权问题」 | 提前管理预期 |
目标:对话是输入方式,但内部要转换成结构化表示,便于后续测试和追溯。
方向 3:需求精准描述工具
问题:人类往往不知道自己真正想要什么,如何让需求表达更精准?
思考方向:
- 结构化表单?(太僵硬)
- 对话式澄清?(可能疲劳)
- 示例驱动?(给几个例子,AI 推断规律)
倾向:对话式澄清 + 结构化确认的混合模式
方向 4:任务粒度设计
问题:任务粒度如何确定?
| 粒度类型 | 示例与问题 | 适用场景 |
|---|---|---|
| 太粗 | 「做视频」Agent 内部还是要拆分成调研/文案/剪辑/发布 | 简单任务,人类全程参与 |
| 太细 | 「裁剪视频」Agent 人类需要协调太多 Agent | 高度自动化场景 |
| 我的粒度 | 「一部分问题」边界在哪里? | 探索中 |
思考方向:
- 按人类注意力边界划分(一个任务人类能完整理解)
- 按测试边界划分(一个任务能独立测试)
💬 开放讨论
这篇文章是我的阶段性思考,肯定有很多不成熟的地方。如果你也在使用或开发 Agent,欢迎一起讨论:
讨论题 1:你处于哪个阶段?
用 5×3 矩阵定位一下自己:
- 纵向:你现在处于阶段 1-5 的哪个?
- 横向:你主要使用形态 1-3 的哪个?
- 有没有遇到过我提到的失败场景?
讨论题 2:你如何看待"人类无用化"?
我认为"学习本身就是人类的欲望与乐趣",所以人类不会无用化。但:
- AI 能做的越多,真正强大的人学习得越快、越多
- 没有自驱力的人会被 AI 淘汰还是会被 AI 赋能?
- 社会分化会不会加剧?(强者越强,弱者越依赖)
讨论题 3:你的 Agent 架构是什么样的?
- 是按职能划分(新闻官、日程官)?
- 还是按任务划分(做视频、写报告)?
- 有没有更好的设计思路?
📝 更新日志
| 日期 | 版本 | 更新内容 |
|---|---|---|
| 2026-03-18 | v2.0 | 重构为公开分享版本,增加失败场景分析和任务维度架构 |
| 2025-12-01 | v1.0 | 初稿,记录 5 阶段 +3 形态演进模型 |
最后的话:Agent 的发展才刚刚开始,这篇文章也会持续更新。如果你有任何想法或建议,欢迎随时交流。毕竟,好的思考都是在讨论中打磨出来的。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)