从Codex更新看AI Agent未来:通用智能体正在崛起

AI Agent、Codex、Cloud Code、通用智能体、垂直智能体、Multi-Agent、MCP、ReAct Loop、强化学习、Minus

Codex客户端下载

Codex客户端下载地址:

https://codexdown.cn/

在这里插入图片描述

最近看到 Codex 再次更新了一批能力,包括数据分析、销售支持、投资研究、产品设计等多个方向。

原本已经非常疲惫,刚从外面回来,但看到这次更新后,还是决定把自己的想法整理出来。

因为这次更新,再一次验证了我在半年前就反复表达过的一个观点:

真正的未来不是无数垂直智能体,而是越来越强大的通用智能体。

当时很多人并不认可这个判断,甚至遭到过不少质疑。

但随着 OpenAI、Anthropic、Google 等厂商不断推进 Agent 能力,这个趋势正在变得越来越清晰。

今天就结合 Codex 的这次更新,聊聊我去年就坚持的几个判断。


目录

  • 前言
  • 为什么我认为编程 Agent 本质就是通用 Agent
  • 垂直智能体最大的壁垒其实并不存在
  • Skill 正在被高估
  • Multi-Agent 的价值为什么在下降
  • 为什么我一直看好 Minus
  • 给 AI 从业者的两个建议
  • 总结

前言

去年 11 月的时候,我曾经和很多朋友聊过一个观点:

Cloud Code、Codex 这类产品最终一定会从 Coding Agent 演变成 General Agent(通用智能体)。

当时很多人的认知还停留在:

  • 写代码是写代码
  • 做销售是做销售
  • 数据分析是数据分析
  • 产品设计是产品设计

似乎每个领域都需要一个独立 Agent。

但我的判断恰恰相反:

当模型足够强时,大多数工作最终会收敛到同一种 Agent 架构。

而今天 Codex 的更新,恰恰印证了这一点。


为什么我认为编程 Agent 本质就是通用 Agent

直到今天,很多技术从业者依然不认可这个观点。

但只要认真看过任何一个 Agent 框架源码,就会发现一个事实:

Coding Agent 和 General Agent 背后的技术几乎完全一致。


工具层完全通用

以常见 Coding Agent 为例:

工具能力

Read File
Write File
Edit File
Execute Bash
Search
Browser
Terminal

这些工具其实并不属于编程领域。

例如:

数据分析

读取CSV
执行Python
生成图表
输出报告

产品设计

读取需求文档
分析竞品
整理PRD
生成原型

投资研究

搜索资料
分析数据
输出结论

本质上依然是:

Read
Write
Search
Execute

同样的工具组合。


Agent 的核心一直是 ReAct Loop

目前绝大多数 Agent 都遵循类似逻辑:

思考
↓
调用工具
↓
观察结果
↓
再次思考
↓
继续调用工具

即经典的:

Reason + Act

也就是大家熟悉的:

ReAct Loop

其流程如下:

用户任务

模型推理

工具调用

获取结果

输出答案

很多人以为 Agent 框架存在某种神秘能力。

事实上并没有。

真正决定 Agent 上限的,一直是:

模型能力

而不是框架能力。


为什么 Coding Agent 正在变成通用 Agent

原因其实很简单。

过去强化学习主要集中在 Coding 场景。

因为代码结果天然可验证。

例如:

编译是否通过
测试是否通过
结果是否正确

因此 RL 更容易 Scale。


但近一年最大的变化是:

通用任务上的强化学习正在快速进步。

例如:

  • 长任务执行
  • 浏览器操作
  • 文档处理
  • 数据分析
  • 商业研究

这些能力正在被不断强化。

所以很多人误以为:

Agent 框架变强了

实际上是:

模型变强了

Agent Framework 从一开始就已经 Ready。

真正缺的是大脑。

而现在,大脑正在快速升级。


垂直智能体最大的壁垒其实并不存在

我一直有个问题。

如果今天的大模型已经比绝大多数人更聪明。

那么:

垂直智能体
VS
通用智能体

最大的区别到底是什么?

我认为只有两个:

第一:工具

例如:

CRM系统
ERP系统
数据库
企业内部API

但 MCP 的出现已经解决了这个问题。

MCP = 标准化工具接入

工具正在变成公共能力。

因此:

工具 ≠ 壁垒

第二:提示词

很多垂直 Agent 的核心竞争力是 Prompt。

例如:

律师 Prompt
医生 Prompt
销售 Prompt
运营 Prompt

但这里有一个问题。

如果模型已经足够聪明。

那么:

写 Prompt 本身是不是也可以由模型完成?

答案显然是可以。

甚至很多团队的 Prompt:

本来就是模型写的

那么最终会出现什么情况?

Prompt
↓
被模型优化

Prompt Engineering
↓
被模型内化

这就是我认为:

大量垂直 Agent 护城河并没有想象中那么深。


Skill 正在被高估

这是我一直比较坚持的观点。

很多人认为:

Skill = 核心竞争力

但我觉得:

真正重要的 Skill 最终都会被模型吸收。

例如:

  • 写代码
  • 数据分析
  • 文案创作
  • 研究总结

这些高频能力一定会不断被模型内化。


而那些不会被模型内化的 Skill 呢?

往往又价值有限。

因此长期来看:

Skill
↓
模型能力

正在发生融合。


Multi-Agent 的价值为什么在下降

这是目前依然存在争议的话题。

很多团队还在疯狂做:

Agent Team
Multi-Agent
Agent Society

但我一直持保留态度。


Multi-Agent 成立的前提

必须满足:

Agent之间能力差异足够大

例如:

律师Agent
程序员Agent
财务Agent
设计师Agent

各自拥有明显优势。


但问题来了。

随着模型越来越强。

Agent 之间的能力差距正在缩小。

最终会变成:

Agent A
IQ 190

Agent B
IQ 195

Agent C
IQ 200

此时协作收益开始下降。


一个简单类比

假设有两个绝顶聪明的人。

你给他们:

  • 不同教材
  • 不同计算器
  • 不同参考书

会对考试结果产生巨大差异吗?

答案大概率不会。

因为:

智力水平
>>>
工具差异

同样的逻辑也适用于 Agent。

未来主航道依然是:

模型越来越聪明

而不是:

Agent越来越多

为什么我一直看好 Minus

提到 Agent,就不得不提 Minus。

我一直是 Minus 的长期付费用户。

在我看来:

Minus 是行业里被严重低估的产品之一。


去年 6 月左右。

Minus 已经能够实现很多今天才被大规模讨论的能力:

  • 自动执行任务
  • 浏览网页
  • 信息收集
  • 长流程工作流
  • 自动交付结果

甚至某些体验今天依然领先。


最让我认可的是交互设计

很多 AI 产品的问题是:

能力很强
体验很差

而 Minus 最大优势之一是:

能力 × 体验

同时在线。

从产品角度看。

这比单纯堆模型参数更难。


所以我一直认为:

对真正做出创新的团队,应该给予更多耐心。

行业需要的是:

尊重创新

而不是:

先否定
再嘲讽
最后跟随

给 AI 从业者的两个建议

建议一:远离低质量信息源

这些年参加过很多创新创业活动。

也听过很多所谓的大咖分享。

我的感受越来越强烈:

很多内容的信息密度极低。

甚至只是重复行业共识。


相比之下。

真正有价值的是:

一线 Builder

因为他们每天都在:

  • 做产品
  • 跑实验
  • 调模型
  • 接触用户

他们掌握的是第一手信息。


建议二:多做多看,少空想

AI 行业最大的特点就是:

变化速度极快

昨天正确的认知。

一个月后可能已经失效。

因此最重要的能力不是预测未来。

而是:

快速更新认知

而更新认知最好的方法永远是:

实践

形成这样一个循环:

实践
↓
获得反馈
↓
更新认知
↓
再次实践
↓
继续迭代

这才是成长最快的路径。


总结

Codex 这次更新,在我看来不仅仅是新增了几个功能。

更重要的是再次验证了一个趋势:

Agent 的未来不是越来越细分,而是越来越通用。

回顾这一年的发展:

趋势 变化
Agent框架 基本稳定
MCP生态 快速扩张
工具能力 标准化
Prompt工程 逐渐被内化
模型能力 持续提升
通用Agent 快速成型

很多人仍然在讨论:

哪个Agent更强

但我更关注的是:

模型还能变得多聪明

因为最终决定上限的,从来不是工具本身。

而是那个使用工具的大脑。

或许未来几年后再回头看:

真正改变行业的,不是某个垂直 Agent。

而是一个足够聪明、足够通用、能够完成绝大多数工作的超级 Agent。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐