AI 编程的核心,正在从“模型”变成“工作流”
想到什么说什么
过去两年,AI 编程圈一直在追求一件事:
“有没有一个 AI 能解决所有问题?”
但最近半年,我越来越明显地感觉到,很多团队已经不太讨论“哪个模型最强”了。
真正影响开发效率的,开始变成:
哪个模型适合哪个环节
尤其项目一复杂之后,这种感觉会特别明显。
真实工程里会同时出现很多完全不同的问题。
有的是架构。
有的是历史代码。
有的是 migration。
有的是 CI。
还有一堆 TypeScript 报错、上下文污染、模块联动。
这些事情本来就不是一种能力。
所以现在很多团队的 workflow,会慢慢变成类似这样:
Codex → 做分析和规划
Claude Code → 做工程执行
DeepSeek → 大规模生成代码
Cursor → 日常开发
至少我最近接触到的一些团队,已经开始往这种方向走了。
它未必算行业标准。
但确实越来越常见。
AI 编程已经不太像“聊天”了
最早那批 AI Coding,其实非常简单。
问 ChatGPT
复制代码
粘贴 IDE
那时候大家更多是在“问答案”。
后来开始出现:
- Cursor
- Claude Code
- Codex CLI
- Gemini
- DeepSeek
整个事情就开始变化了。
因为项目一复杂,大家很快会发现:
有些模型更适合:
- 想方案
- 看架构
- 做 code review
有些模型则更适合:
- 改文件
- patch
- 跑命令
- 修 TypeScript
再后来,很多团队就不再执着于“一个 AI 全能”。
而是开始把不同模型放进不同环节。
现在大家聊 workflow 的频率,已经明显比前两年高很多了。
Cursor 为什么现在还是很多人的主力
前段时间一直有人说:
Claude Code 出来后,Cursor 会不会被淘汰?
但至少从实际使用来看,我没太感觉到。
很多人现在的状态反而是:
Cursor 干日常
Claude Code 干重任务
因为 Cursor 最强的东西,本来就不是 Agent。
而是开发流畅度。
尤其:
- Inline 编辑
- 自动补全
- 文件跳转
- 小步修改
这些东西会直接影响你一天写代码的节奏。
很多时候你只是:
改个接口
修个 bug
调个 API
改下组件样式
这种场景下,Cursor 的体验还是很舒服。
它有点像“AI 增强版 VSCode”。
尤其前端开发里,这种小步迭代特别重要。
真正长期写工程的人其实很清楚:
大部分时间并不是在“重构系统”。
而是在修各种细碎问题。
Claude Code 真正改变的是什么
Claude Code 火起来之后,很多人第一次感觉到:
AI 开始真的“参与工程”了。
以前的模型更像:
给建议
现在很多 Agent 已经开始:
- 改多个文件
- 跑 shell
- patch 工程
- 自动修错误
- 跑测试
这个变化其实挺大的。
因为它已经不只是“生成代码”。
而是在真正操作项目。
但这里有个很容易被忽略的问题。
Agent 一旦开始真正动工程,就很容易失控。
我之前有次只是让 Claude Code 修 websocket reconnect。
结果它顺手把整个状态管理从 zustand 改成了 xstate。
最后 git diff 接近两千行。
而且最离谱的是:
它甚至还顺便改了几个完全不相关的 hooks。
从那之后,我基本不太会让 Agent 自由发挥。
尤其大型 TypeScript 项目里。
因为 context 一长之后,模型真的会越来越“自信”。
后面甚至会开始引用已经删掉的 interface。
这种问题,只要长期跑过 Agent workflow,基本都见过。
Agentic Coding 和 Vibe Coding 其实不是一回事
现在很多人会把这两个词混着用。
但实际差别挺大。
Vibe Coding 更像:
想到什么
直接让 AI 写
很多 demo、个人项目、前端页面,其实很适合这种方式。
因为重点是:
快速出东西
但 Agentic Coding 更偏工程。
它重点不是“生成”。
而是:
AI 开始真正参与执行
比如:
- 自动改多个文件
- 自动 patch
- 自动执行命令
- 自动跑测试
某种程度上,它更像一个“会操作终端的 AI 实习生”。
而且还是那种:
很积极。
但偶尔会过度发挥的实习生。
为什么很多团队开始把 DeepSeek 当“工程劳动力”
这件事其实挺现实的。
因为真实工程里,大量工作并不需要最强 reasoning。
很多任务本质上就是:
改文件
补接口
批量 patch
修 ts error
这种事情数量特别多。
而且会持续消耗 token。
所以很多团队现在会把:
- Claude
- GPT
- Codex
放在:
分析
规划
code review
再把大量执行类任务丢给 DeepSeek。
核心原因其实就两个:
便宜
够用
尤其长任务里,成本差距会非常明显。
很多 Agent workflow 一跑就是几十分钟。
如果全部用高价模型,成本会非常夸张。
所以现在不少团队会形成一种比较固定的模式:
贵模型负责思考
便宜模型负责执行
这其实比“全程一个顶级模型”更符合真实工程。
很多人误解了 Claude Code
很多新人会以为:
Claude Code = Claude 模型
但其实不太准确。
至少在很多开发者实际 workflow 里:
Claude Code 更像一个工程操作层。
真正负责输出代码的模型,反而可能是:
- DeepSeek
- GPT
- Gemini
- Claude 本身
也就是说:
很多时候真正重要的,不只是模型能力。
而是:
谁在控制工程
因为一旦 Agent 能:
- 读项目
- 改文件
- 跑 shell
- patch
- git 操作
事情就已经完全不一样了。
我后来为什么不再追求“全自动 Agent”
一开始很多人都会觉得:
自动化越高越高级
但真跑过大型 workflow 之后,会慢慢发现:
全自动其实非常容易翻车。
尤其:
- context 污染
- 无限 patch
- overengineering
- token 爆炸
- agent 死循环
这种问题。
有时候你只是想修一个登录 bug。
结果 Agent:
- 顺手重构 auth
- 改 middleware
- 更新 schema
- 调整目录结构
最后 CI 直接炸掉。
而且很多修改单看其实都“有道理”。
但合在一起之后,项目会开始慢慢失控。
所以现在很多成熟 workflow 其实反而没那么自动化。
甚至很多所谓“双终端并行”:
左边 Codex
右边 Claude Code
中间人类复制粘贴
听起来很土。
但意外地稳定。
因为:
人类仍然在控制上下文
这一点其实特别重要。
真正重要的能力,其实是“任务切割”
现在很多人会误以为:
高手 = 自动化程度高
但我自己的感觉反而是:
真正稳定的 AI Coding,核心一直是任务拆分。
比如很多人让 Agent 干活时,任务会写成:
重构整个 auth 系统
这种 prompt 很容易失控。
但如果换成:
把 auth service 拆成:
- token.service.ts
- session.service.ts
保持 API 不变
不要修改 controller
模型稳定性会高很多。
很多长期跑 Agent workflow 的人,最后都会慢慢收敛到这种方式。
也就是:
- 大任务拆小
- 上下文隔离
- 明确边界
- 控制 diff
因为 AI 最大的问题之一,其实不是能力不够。
而是太容易“顺手多做”。
现在很多 workflow,本质上还是“半自动”
这一点很多新人刚接触时会很意外。
因为大家会以为:
AI 自动调用 AI
AI 自动同步 AI
AI 自动调度 AI
但现实里,很多高手 workflow 其实没那么科幻。
很多时候就是:
tmux 开几个窗口
不同 Agent 干不同事情
人类负责调度
甚至很多流程仍然靠复制粘贴。
但这种方式有个很大的优点:
可控。
尤其大型工程里,这件事比“全自动”重要得多。
现在比较常见的几种组合
虽然每个人 workflow 不一样。
但有几种组合出现频率确实特别高。
Cursor + Claude
这个应该是现在最常见的组合之一。
尤其前端。
很多人现在基本就是:
Cursor 写日常
Claude 处理复杂逻辑
Cursor 的优势主要还是开发流畅度。
而 Claude 更适合:
- UI 重构
- reasoning
- code review
- 长逻辑分析
尤其 React 项目里,这套组合其实已经很成熟了。
Cursor + Claude Code + DeepSeek
这个组合在 Agent workflow 里特别常见。
通常是:
Cursor → 日常开发
Claude Code → 工程操作
DeepSeek → 生成代码
因为很多真正耗 token 的任务,其实都是一些重复工程活。
比如 patch、批量改文件、修 ts error。
这些东西如果长期用高价模型跑,成本会很夸张。
所以不少团队现在已经开始:
贵模型负责思考
便宜模型负责执行
这个模式最近越来越常见。
Codex + Claude Code + DeepSeek
这套组合最近其实特别常见。
尤其已经开始长期跑 Agent workflow 的团队。
很多人的流程现在会变成:
Codex
↓
Claude Code
↓
DeepSeek
Codex 负责前面的分析和拆任务。
比如:
- 看项目结构
- 找技术债
- 拆 migration
- 做 refactor 方案
很多时候我会先让它:
先别改代码
先分析
因为一旦直接进入 Agent 执行阶段,context 很容易越来越脏。
后面甚至会开始:
- 引用已经删掉的 interface
- patch 错文件
- 重复修改逻辑
尤其大型 TypeScript 项目里,这种问题特别明显。
所以很多人现在会先让 Codex 做:
任务切割
然后再把小任务交给 Claude Code。
Claude Code 负责真正操作工程。
比如:
- 改文件
- 跑 shell
- patch
- 跑测试
但真正大量生成代码的时候,很多团队又不会全程用 Claude。
因为太贵。
尤其长时间 Agent workflow,token 消耗会非常夸张。
所以最后很多执行类任务,会继续接 DeepSeek。
特别是一些高频工程活。
像:
- CRUD
- 批量修改
- 接口补全
- 重复逻辑
现在越来越多团队其实已经慢慢形成一种固定模式:
Codex 负责分析
Claude Code 负责操作工程
DeepSeek 负责大量生成代码
而人类负责:
控方向
控上下文
控 diff
Claude Code + Gemini
这个组合比较适合大型仓库。
尤其:
- monorepo
- 老项目
- 多模块系统
因为 Gemini 长上下文确实有优势。
很多人会让 Gemini:
读全局
分析依赖
整理调用链
然后再交给 Claude Code 真正执行。
尤其代码历史很乱的时候,这种 workflow 会舒服很多。
AI 编程真正变化的,其实不是模型
这两年最大的变化,我觉得未必是哪个模型突然碾压所有人。
更明显的变化其实是:
很多团队开始慢慢形成自己的 workflow。
比如:
| 任务 | 工具 |
|---|---|
| 自动补全 | Cursor |
| 架构分析 | Codex / GPT |
| 工程执行 | Claude Code |
| 大规模代码生成 | DeepSeek |
| 长上下文分析 | Gemini |
| PR Review | Claude |
而且这种分工,未来大概率还会越来越细。
因为真实工程本来就不是单一能力。
至少我现在已经很少再纠结“哪个模型最强”了。
更多时候我关心的是:
哪个模型放在哪个环节
能少翻车
workflow 怎么稳定
尤其项目规模一大之后,这种感觉会特别明显。
因为真正复杂的工程问题,很多时候根本不是“写代码”。
而是:
- 怎么拆任务
- 怎么控制上下文
- 怎么减少 diff
- 怎么避免 Agent 失控
某种程度上说。
AI 编程的核心,确实已经开始慢慢变成“工作流设计”了。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)