在大模型技术爆发的当下,“智能体(Agent)”早已不是晦涩的学术概念,而是正在重构软件研发模式的核心工具。无论是自动生成代码的AI助手,还是智能客服系统,背后都藏着Agent的身影。对于刚入门大模型的程序员小白,或是想落地AI应用的开发者来说,搞懂Agent的底层逻辑,就等于掌握了下一波技术红利的钥匙。本文将用最通俗的语言拆解Agent,搭配实战案例和代码片段,帮你快速入门。

1 、一分钟搞懂:到底什么是Agent?

智能体(Agent)的核心定义很简单:能感知环境自主决策执行行动,最终达成目标的智能系统。这个概念听起来抽象,但我们可以把它类比成“数字员工”——就像真实员工会观察工作场景、思考任务方案、动手解决问题一样,Agent也在数字世界里完成这套闭环。

举个贴近生活的例子:你用外卖APP点了一杯奶茶,APP里的“订单调度Agent”就是典型代表。它通过系统感知到你的下单信息(位置、时间)、商家出餐状态、骑手实时位置这些“环境数据”;接着计算最优配送路径、匹配空闲骑手(决策);最后向骑手推送订单、向你发送取餐提醒(行动),整个过程无需人工干预,就能完成“精准配送”的目标。

再回到我们自身的行为:雨天出门看到地面湿滑,会自动放慢脚步——眼睛“感知”湿滑环境,大脑“决策”减速,双脚“行动”执行。Agent的工作逻辑和这个过程完全对应,这也引出了它的四大核心模块。

2 、Agent核心模块

见下图,不同的机构或团队对Agent的核心模块划分不同,但都包含了感知记忆规划行动四个模块。

2.1 LLM(大语言模型)

先简单说下大语言模型,它是智能体的核心,相当于人的大脑,背后的神经网络设计也是基于人类大脑的神经系统,尤其是神经元(Neuron)之间的连接与信号传递方式。

关于大语言模型就不再详细说了,大家基本每天都在用。然后还是想着重说下深度学习,因为它与传统的软件研发流程不一样。就像AI大神卡帕西(斯坦福读书时的导师是李飞飞, OpenAI的创始成员之一,后面被马斯克亲自招募,出任特斯拉的AI总监,之后又回到OpenAI,去年,他正式宣布离开OpenAI)最近的一个演讲中,提到的一个概念,叫 “软件3.0”

  • 软件1.0,是我们最熟悉的传统软件研发流程,指的是由人类程序员一行行编写代码的方式,我们之前的研发流程都属于软件1.0。
  • 软件2.0,是随着深度学习的兴起而出现的。它的核心已经不再是人工编写的代码,而是通过训练来控制神经网络的权重。这个阶段,很多事情不再依赖程序员去手动写逻辑,而是依靠数据驱动模型进行“学习”,而且泛化能力也很好。
  • 软件3.0,就是我们现在通过cursor、trae、winself等AI 开发工具用自然语言进行编程,它大大降低了软件创造的门槛。

但仔细想想我们好像直接从1.0跳到了3.0,并没有经过2.0,但实际上软件2.0的应用其实还是蛮多的,尤其是一些垂直行业,如医疗健康,让机器学习看片子,帮助医生看病;如农业领域,能够预测作物产量和优化种植策略;还有教育行业,能够个性化学习路径和提高学习效率等等。

所以我觉得大家有兴趣可以了解了解。推荐两本书:《深度学习革命》、《深入浅出神经网络与深度学习》

2.2 Perception(感知)

即智能体对环境的感知,一个人可以通过眼睛、耳朵来感知环境,机器人可以通过雷达和摄像头感知环境,软件中主要是基于我们输入的上下文数据,可以是文本、图片、视频、语音、文件等等。

2.3 Memory(记忆)

大模型其实是没有记忆的,只能通过外部技术(如RAG、ES)模拟记忆效果,以增强任务表现和交互连贯性。

分为短期记忆(Short-term)长期记忆(Long-term)。个人认为记忆对于大模型来说非常重要,因为随着对模型的不断使用,如果模型厂商如果把这些使用的记录全部变成记忆,那模型就会越来越懂我们,使用起来也会越来越顺手,而不像现在,每次在提示词上要还很多时间,而且换个窗口后又得重来一次。

2.3.1 短期记忆依赖模型上下文的token限制

参考代码如下, 在每次调用大模型的时候,需要将工具返回的信息、人的反馈信息等都塞到messages中,然后去调用大模型接口。

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
interface ChatMessage {
role: 'user' | 'assistant' | 'system' | 'tool';
content: string;
tool_calls?: xxx;
call_id?: string;
}
class Memory {
private messages: ChatMessage[] = [];
constructor() {
this.messages = [];
}
addMessage(message: ChatMessage) {
this.messages.push(message);
}
getMessages() {
return this.messages;
}
}

2.3.2长期记忆依赖于外部组件(如RAG, elasticsearch)

可以通过文件或数据库来做存储介质,可以搜索、更新, 长期记忆又可以继续分,如用户画像记忆,情景记忆,事实记忆等。

  • 接下来讲下在蛋糕烘培助手案例中是如何处理记忆的,实时的对话信息作为工作记忆,存在内存中,到达一定阈值后,由大模型来提取关键信息来作为短期记忆。然后上半年商机挖掘项目能够分析出客户画像,将这部分信息作为长期记忆存储起来,后续的对话,每次调用大模型的时候会进行召回并更新短期记忆的召回次数。这些短期记忆会进行周期性的评估(包括召回次数和重要性),重要的会合并进核心记忆,不重要的进行遗忘。
  • 整体会分三层:工作记忆、短期记忆、 长期记忆
  • 每次询问通过向量检索更新短期记忆召回次数
  • 短期记忆由大模型来进行提取为边缘记忆,并设置重要性评分
2.4 Action(行动)

行动很好理解,LLM相当于我们的大脑,但是光有大脑,没有手脚也做不成事,所以Agent就需要借助外部的工具进行行动。

我们需要把我们的工具(包括名称、描述和需要的参数)告诉LLM,当LLM来决定是否用工具,以及什么时机用工具。

介绍下案例中使用的商品查询工具,即用户通过一个问题或图片就能找到商家后台商品库的商品

  • 商品的关键词查找处理:

  • 将商家后台的商品图片和标题通过多模态模型提取出关键信息;

  • 大模型会提取出关键信息,然后让工具执行,在执行过程中将关键词和商家后台商品的关键信息项进行相似度检索,从而找出匹配的;

  • 图片的查找处理:

  • 将商家后台的商品图片向量化;

  • 模型提取出用户想要的蛋糕商品图片链接,然后和商家后台商品图片进行相似度匹配;

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
// 定义tools
const tools = [
{
"type": "function",
"function": {
"name": "query_goods",
"description": "查询蛋糕商品信息",
"parameters": {
"type": "object",
"properties": {
"keywords": {
"type": "array",
"items": {
"type": "string",
"description": "蛋糕商品关键信息项",
},
"description": "蛋糕商品关键信息,包含适用场合、目标人群、风格、口味、主题、颜色等",
},
"image_url": {
"type": "string",
"description": "蛋糕商品图片链接",
},
}
},
}
},
...
];

2.5 Planning(规划)

规划这部分相对会复杂点,接下来主要将常见的两种规划模式,分别是ReActPlan-and-Resolve,除了这两种模式还有多Agent模式等。

2.5.1 ReAct(Reason + Action 推理 - 行动 - 反馈)

通过不断的推理、行动和反馈来最终完成用户的目标。

蛋糕烘培助手的流程如下图:

2.5.2 Plan-and-Solve

将任务分解成子目标并分布执行,这个和ReAct的区别是:Plan-and-Solve是先通过大模型将任务拆解,然后再分布执行,和ReAct是一步一步的去执行,两种模式适用的场景不一样。

比如说旅游规划的agent,就可以用Plan-and-Solve模式,先生成计划(如要了解天气、要了解住宿等),然后再解决计划, 最终整合让大模型完成回答, 当然中间也可以加反思,对计划进行反思等。

下面是基于Plan-and-Solve的流程图:

3 、Agent评估报告

评估报告是Agent开发过程中不可或缺的环节,包括响应时间、完成度、工具使用情况、后续优化等,它能够系统性地收集和分析Agent的运行数据,为后续的优化和迭代提供科学依据。

所以在agent的设计环节都需要将这些数据都记录下来。

4 、Agent成本分析

在做AI应用的过程中,我们经常会被问到一个问题,做个东西的成本怎么样?

AI相关应用与传统的应用之间的计费方式完全不一样了,所以Agent中每次的模型调用,所以针对Agent需要做成本分析。

基于成本分析可以进行价值回顾和agent的优化。

5 、Agent vs Workflow

用一句话来概括它们之间的区别就是:Agent是你只需要告诉我你要什么,不需要告诉我怎么做,而workflow就是你要按照我编排好的路径来执行。一个是基于大模型来规划,一个是基于人来规划。

如何选择?

  • 选Workflow

  • 数据处理管道

  • 文档审批流程

  • 任务流程相对固定,步骤可预定义

  • 需要严格的执行顺序和质量控制

  • 要求高可靠性和可重复性

  • 涉及多个系统集成,需要标准化流程

  • 合规要求严格,需要审计追踪

  • 如:数据处理管道、文档审批流程

  • 选Agent

  • 智能客服助手

  • 个人AI助理

  • 复杂问题诊断

  • 任务需要动态决策和灵活应对

  • 环境不确定性高,需要自主判断

  • 要求个性化和上下文理解

  • 需要创造性解决问题

  • 用户交互频繁,需要对话式体验

  • 如:智能客服助手、个人AI助理、复杂问题诊断

6 、FM Agent 与 RL Agent

以上讲的都是FM Agent,是基于大型预训练模型(Foundation Model) 的智能体,比如基于 GPT-4、Claude、Gemini 等大模型构建的智能体。

核心能力是利用大语言模型(LLM)的理解、推理、规划和生成能力来感知世界、做决策、执行任务。

除了FM Agent,还有RL Agent,它是基于强化学习(Reinforcement Learning) 原理构建的 Agent

它与环境交互,根据奖励信号学习最优策略,以最大化长期累计奖励。如DeepMind的AlphaGo Zero,在围棋游戏中击败了世界顶级选手,就是一个RL Agent。

7、 最后

今天的分享只是掀开了 Agent 世界的一角。它的深度与潜力远不止于此,新的思路、框架与落地案例正层出不穷。希望这份经验与尝试,能为大家点亮一条更高效、更有趣的道路。

回过头来看,不论是 LLM、Workflow 还是 Agent,终究只是工具。只有当它们与真实业务场景发生化学反应,切实解决痛点,创造价值时,技术的光芒才会真正被点亮。愿我们带着好奇与敬畏,把技术的锋利,打磨成改变世界的钥匙。

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐