【Agent智能体3 | 智能体AI的优势】
声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。


如图我们可以看到,为大语言模型引入**“代理(Agentic)工作流**,可以大幅提升其编写代码的能力!
- 基础模型能力有限(Non-agentic):看左侧的绿点可以看出,在没有任何辅助机制的的“非代理”状态下,GPT-3.5 的准确率仅为 48%,而 GPT-4 虽然更强,但也只达到了 67%
- Agentic(代理)系统为大模型带来了巨大飞跃:右侧标注了“Agentic systems”(代理系统)。我们可以看到无论基础模型是 GPT-3.5 还是 GPT-4,当为其配备了反思(Reflection)、工具使用(Tools Use)、规划(Palnning)或多代理(Multiagent)等复杂工作流后,准确率都获得了爆发式增长,集中在 70% 到 95% 以上的区间
所以我们不难得出结论,“一般的模型+代理系统”,也可以战胜“强模型”,例如图中的搭载了代理工作流的 GPT-3.5,其表现远远超过了没有任何辅助的GPT-4(67%)。这说明在处理复杂编程任务时,优秀的系统工程和思维框架比单纯依靠底层模型的原始智力更重要。

工作流还有一个很重要的有点就是,可以并行执行:
Parallelization for speed(提高速度的并行化处理)展示了在构建 AI 智能体(Agent)工作流时,如何通过并行化(Parallelization)策略来大幅提升任务处理的速度和效率,图表以“写一篇关于黑洞的文章(Write an essay about black holes)”为例。
- 任务拆分与并行搜索 (3 parallel searches)
- 接收到提示词之后,系统并没有让大模型(LLM)去执行单一的线性搜索,而是同时派生出 3 个平行的搜索任务。
- 这三个并行的大模型节点可能会采用不同的关键词(例如:一个搜索“黑洞的形成”,一个搜索“黑洞的最新发现”,一个搜索“黑洞的物理特性”),从而在同一时间内获取更广泛的信息。
- 提取结果与并行抓取网页 (9 parallel web page downloads)
- 每个并行搜索任务完成后,系统会从中分别提取排名前 3 的网页链接(Fetch top 3 results)。由于有 3 个搜索分支,总共会得到 9 个网页链接。
- 系统随后派生出 9 个平行的
LLM + Web fetch(网页抓取)节点。这意味着 AI 会在同一时刻并发地下载并阅读这 9 个不同的网页,而不是排队一个接一个地阅读。
- 最终汇总与内容生成 (Write an essay)
- 这 9 个并行节点抓取并提取完网页内容后,将所有收集到的庞大信息流汇总到最后一个单一的大模型(LLM)节点中。
- 最终的这个 LLM 根据前面所有并行节点收集来的丰富背景知识,综合提炼,写出最终关于黑洞的完整文章。
核心思想:用算力换时间。
如果按照传统线性方式,AI 需要“搜索 -> 读网页1 -> 读网页2 -> … -> 读网页9 -> 写文章”,这将耗费大量等待时间。
通过引入并行化架构,系统将搜索和阅读任务同时分发处理,使得原本可能需要几分钟才能完成的深度调研和写作任务,能够在几秒到十几秒内极速完成,极大地提高了 Agent 系统的运行效率。

总结一下代理工作流三大核心好处:
- 性能大幅提升 (Much better performance)
- 工作流能让能力稍弱的模型(如 GPT-3.5)发挥出超越更强模型(如 GPT-4)的战斗力
- 远超人类的处理速度(Faster than humans because of parallelization)
- AI 代理可以利用并行化(Parallelization)技术,在一秒钟内同时分发几十个子任务去搜索、抓取并阅读不同的网页
- 高度的模块化 (Modular: can add or update tools, swap out models)
代理工作流就像玩乐高积木。- 更换大脑(模型):如果今天推出了一个更便宜、速度更快的全新大模型,你随时可以把底层的旧模型拔掉,插上新模型,而不需要重新编写整个业务逻辑。
- 更新武器(工具):如果你的 AI 需要算账,你可以塞给它一个计算器工具;如果需要画图,就塞给它一个绘图 API。系统架构可以随着需求的变化,非常灵活地添加、删除或升级各种外部工具。
如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)