大模型应用发展及Agent前沿技术趋势（二）

江南十四行

362人浏览 · 2026-04-30 22:33:11

江南十四行 · 2026-04-30 22:33:11 发布

3. AI Agent 背后的理论

人类的优势是能够吸收相对大量的信息，过滤掉不重要的细节，并根据关键信息做出决策。比如在处理一件事情之前，我们通常会先将大问题分解为一个个小的假设，然后尝试通过观察逐步支持或反驳这些假设。**从这个现实的观点出发，启发 AI Agent 早期范式的一篇论文 [REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS](https://arxiv.org/pdf/2210.03629) 中使用“思维链提示”来模仿这个概念，它将多步骤问题分解为中间步骤:

- 发起一项行动，让大模型观察所选环境的反馈

- 在流程中收集所有信息并使用它来决定下一步采取什么合适的行动

- 迭代地执行此操作来解决更大、更复杂的任务，使用一种称为“推理跟踪”的方法，该方法涉及跟踪整个过程所经历的步骤或阶段以得出结论或解决方案。

如下图所示，整个过程是一个动态循环。代理不断从环境中学习，通过其行动影响环境，然后根据环境的反馈继续调整其行动和策略。这种模式特别适用于那些需要理解和生成自然语言的应用场景，如聊天机器人、自动翻译系统或其他形式的自动化客户支持。

如上图所示，展示了一个人工智能代理的基本架构，包括它与环境的互动、感知输入、大脑处理及其决策过程。具体来说：

1. 环境（Environment）： AI代理接收来自其周围环境的信息。环境可以是一个网站、数据库或任何其他类型的系统。

2. 感知（Perception）：即输入。AI代理通过多种方式感知环境，如视觉（图像）、听觉（声音）、文本（文字信息）和其他传感器输入（如位置、温度等）。这些输入帮助代理理解当前的环境状态。

3. 大脑（Brain）：

- 存储（Storage）：

- 记忆（Memory）：存储先前的经验和数据，类似于人类的记忆。

- 知识（Knowledge）：包括事实、信息和代理用于决策的程序。

- 决策制定（Decision Making）：

- 总结（Summary）、回忆（Recall）、学习（Learn）、检索（Retrieve）：这些功能帮助AI在需要时回顾和利用存储的知识。

- 规划/推理（Planning/Reasoning）：基于当前输入和存储的知识，制定行动计划。

4. 行动（Action）：代理基于其感知和决策过程产生响应或行动。这可以是物理动作、发送API请求、生成文本或其他形式的输出。

所以从这个过程中，我们就可以抽象出 AI Agent 的最经典，同时也是目前任何一套Agent 框架的基本框架，如下图所示：

这套智能代理架构是指自主代理的结构化设计，自主代理是能够独立感知环境、做出决策并采取行动以实现特定目标的系统或实体。该架构描述了代理的各个组件如何交互以促进智能行为。该架构包含四个关键组件：

- 规划（Planning）：该组件将代理置于动态环境中，使其能够根据其目标和收集的信息制定策略并规划未来的行动。

- 记忆（Memory）：该组件使智能体能够回忆过去的行为、经历和结果，这对于学习和适应至关重要。

- 行动（Action）：该组件将智能体的决策转化为具体的行动，执行计划的任务以达到预期的结果。

- 工具（Tools）：拥有一名仅拥有LLM的代理人就像使用一台没有任何额外设备的计算机一样。工具让代理能够使用互联网、获取特殊知识或与擅长特定事物的几种不同的人工智能模型一起工作，从而使代理变得更加有用。

人工智能代理的特点是其主动性和决策能力。与被动工具不同，它们主动参与环境，做出选择并采取行动来实现其指定目标。在企业环境中，人工智能代理通过自动化日常任务和分析复杂数据来提高效率，从而使员工能够专注于战略和创造性工作。这些代理补充而不是取代人类的努力，促进提高劳动力的生产力和效率。

让我们想象一个中国市场销售经理李华和他的人工智能助理的场景。

李华的工作日以检查电子邮件开始。他收到了来自潜在客户张伟的邮件，张伟对他公司提供的高效解决方案感兴趣。李华的人工智能助手直接连接到他的电子邮件系统，并且实时监控这些互动。根据李华过去的回复习惯和公司提供的信息库，人工智能助手草拟了一封详细的回复。邮件中不仅总结了公司的高效解决方案及其优势，还根据张伟的需求定制了相关建议。

李华审阅了这份草稿邮件，加入了一些个人化的语句，以显得更加友好和专业，然后发送给了张伟。随后，人工智能建议的后续步骤包括安排与张伟的电话会议、发送一份详细的产品介绍手册，或者如果一周内没有得到回复，提醒李华进行跟进。李华同意了这些建议，人工智能助手随即整理他的日程，通过电子邮件发送产品手册，并在他的电子日历中设置了跟进提醒。通过让人工智能处理这些日常但关键的任务，李华可以将更多精力投入到其他重要的业务拓展活动中。

这个过程中AI Agent 展现出来的关键能力：

- AI Agent 利用大模型固有的语言理解能力来解释指令、上下文和目标。这使它们能够根据人类的提示自主或半自主地运作。

- AI Agent 可以使用各种工具（阅读邮件，计算器、搜索引擎等）来收集信息并采取行动来完成分配的任务。它们的能力超出了单纯的语言处理范围。

- AI Agent 能够展示复杂的推理技术，可以建立逻辑联系来得出结论和解决问题，而不仅仅是简单的文本理解。

- AI Agent 可以通过将上下文和目标集成到其语言生成能力中，生成用于特定目的的定制文本，例如电子邮件、报告和营销材料。

- AI Agent 代理可以完全自主或半自主运行，需要与用户进行不同级别的交互。

人工智能代理的好处不仅仅是效率。它们营造协作环境，降低人为错误的风险，并腾出宝贵的时间进行创造性和战略性思考。从本质上讲，人工智能代理不仅仅是工具，更是工具。他们是补充人类能力并推动创新的合作伙伴。

4. Agent 背后的 Agent

接下来需要明确的是，AI Agent能够连续执行正确的工具，不断观察结果，然后决定下一步需要哪种工具。这种函数的迭代执行是由 `AgentExecutor` 执行的。 `AgentExecutor` 指的是代理运行时，整个过程一遍又一遍地重复，直到达到预定义的终止标准。随着企业认识到即将到来的人工智能代理革命，解决方案提供商纷纷涌现，它们会提供工具和框架，使构建这些人工智能代理变得容易。从无代码、低代码到完整的 Python 库等等。框架和工具的列表简直是令人眼花缭乱。但最根本的区别，无非是基于Agent经典框架的扩展及不同的`AgentExecutor` 构建理念和流程。

每个`AgentExecutor`都有自己的执行任务和制定决策的方法和方法。`AgentExecutor`的选择主要取决于手头任务的具体要求、决策过程的复杂性以及希望代理展现的自主性或智能水平，不同的`AgentExecutor`也就形成了多个不同的产品和工具。

人工智能代理代表了技术领域的变革力量。它们的能力，从简单的自动化到像 Devin 这样的系统所展示的独创性，都在迅速扩展。我们正在见证它们在客户服务和虚拟协助等日常任务中的成功，而这仅仅是开始。在日益复杂的大模型的支持下，新一代人工智能代理迎来了一个前所未有的效率和创新时代。而随着企业大规模采用人工智能代理，对熟练人员（能够设计、部署和管理这些系统的人员）的需求将会猛增。除了某些行业可能出现的工作岗位流失之外，人工智能还将创造令人兴奋的新职业。为了在这种不断变化的环境中蓬勃发展，我们必须具备适应能力和持续学习能力。