收藏！小白程序员轻松入门大模型Agent，从感知到行动全解析

学网安的喵桑

103人浏览 · 2026-03-11 14:12:41

学网安的喵桑 · 2026-03-11 14:12:41 发布

本文深入浅出地介绍了智能体（Agent）的概念，以人类行为为例，阐述了Agent的核心模块：感知、记忆、规划和行动。重点解析了LLM（大语言模型）作为智能体大脑的角色，以及软件3.0时代自然语言编程的变革。同时，详细探讨了记忆模块的短期与长期记忆机制，以及行动模块如何借助外部工具实现任务。此外，文章还介绍了ReAct和Plan-and-Resolve两种规划模式，并对比了Agent与Workflow的区别。最后，提出了Agent评估与成本分析的重要性，并展望了Agent技术的未来潜力。

1 什么是Agent

智能体（Agent） 是指能够感知环境、进行决策并采取行动以实现某种目标的系统。

现在我们把Agent想象成一个人，这样便于我们更好的理解，比如说我们走在路上，看到对面有辆车开过来了，这个时候我们本能的会去躲避，那整个过程是怎么发生的呢？

看到对面有车开过来，这是通过眼睛看到信息，通过神经传递给大脑，大脑调动之前的记忆发现如果这个时候不躲开，就有可能会被车撞，然后驱动着脚走到旁边去。

上面的过程就是感知路面环境、大脑决策最后采取行动的过程。基于上面的过程我们可以看出，Agent会包含以下核心模块。

2 Agent核心模块

见下图，不同的机构或团队对Agent的核心模块划分不同，但都包含了感知、记忆、规划和行动四个模块。

2.1 LLM（大语言模型）

先简单说下大语言模型，它是智能体的核心，相当于人的大脑，背后的神经网络设计也是基于人类大脑的神经系统，尤其是神经元（Neuron）之间的连接与信号传递方式。

关于大语言模型就不再详细说了，大家基本每天都在用。然后还是想着重说下深度学习，因为它与传统的软件研发流程不一样。就像AI大神卡帕西（斯坦福读书时的导师是李飞飞, OpenAI的创始成员之一，后面被马斯克亲自招募，出任特斯拉的AI总监，之后又回到OpenAI，去年，他正式宣布离开OpenAI）最近的一个演讲中，提到的一个概念，叫 “软件3.0”。

软件1.0，是我们最熟悉的传统软件研发流程，指的是由人类程序员一行行编写代码的方式，我们之前的研发流程都属于软件1.0。
软件2.0，是随着深度学习的兴起而出现的。它的核心已经不再是人工编写的代码，而是通过训练来控制神经网络的权重。这个阶段，很多事情不再依赖程序员去手动写逻辑，而是依靠数据驱动模型进行“学习”，而且泛化能力也很好。
软件3.0，就是我们现在通过cursor、trae、winself等AI 开发工具用自然语言进行编程，它大大降低了软件创造的门槛。

但仔细想想我们好像直接从1.0跳到了3.0，并没有经过2.0，但实际上软件2.0的应用其实还是蛮多的，尤其是一些垂直行业，如医疗健康，让机器学习看片子，帮助医生看病；如农业领域，能够预测作物产量和优化种植策略；还有教育行业，能够个性化学习路径和提高学习效率等等。

所以我觉得大家有兴趣可以了解了解。推荐两本书：《深度学习革命》、《深入浅出神经网络与深度学习》。

2.2 Perception（感知）

即智能体对环境的感知，一个人可以通过眼睛、耳朵来感知环境，机器人可以通过雷达和摄像头感知环境，软件中主要是基于我们输入的上下文数据，可以是文本、图片、视频、语音、文件等等。

2.3 Memory（记忆）

大模型其实是没有记忆的，只能通过外部技术（如RAG、ES）模拟记忆效果，以增强任务表现和交互连贯性。

分为短期记忆（Short-term） 和 长期记忆（Long-term）。个人认为记忆对于大模型来说非常重要，因为随着对模型的不断使用，如果模型厂商如果把这些使用的记录全部变成记忆，那模型就会越来越懂我们，使用起来也会越来越顺手，而不像现在，每次在提示词上要还很多时间，而且换个窗口后又得重来一次。

2.3.1 短期记忆依赖模型上下文的token限制

参考代码如下，在每次调用大模型的时候，需要将工具返回的信息、人的反馈信息等都塞到messages中，然后去调用大模型接口。

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
interface ChatMessage {
role: 'user' | 'assistant' | 'system' ｜ 'tool';
content: string;
tool_calls?: xxx;
call_id?: string;
}
class Memory {
private messages: ChatMessage[] = [];
constructor() {
this.messages = [];
}
addMessage(message: ChatMessage) {
this.messages.push(message);
}
getMessages() {
return this.messages;
}
}

2.3.2长期记忆依赖于外部组件（如RAG， elasticsearch）

可以通过文件或数据库来做存储介质，可以搜索、更新, 长期记忆又可以继续分，如用户画像记忆，情景记忆，事实记忆等。

接下来讲下在蛋糕烘培助手案例中是如何处理记忆的，实时的对话信息作为工作记忆，存在内存中，到达一定阈值后，由大模型来提取关键信息来作为短期记忆。然后上半年商机挖掘项目能够分析出客户画像，将这部分信息作为长期记忆存储起来，后续的对话，每次调用大模型的时候会进行召回并更新短期记忆的召回次数。这些短期记忆会进行周期性的评估（包括召回次数和重要性），重要的会合并进核心记忆，不重要的进行遗忘。
整体会分三层：工作记忆、短期记忆、长期记忆
每次询问通过向量检索更新短期记忆召回次数
短期记忆由大模型来进行提取为边缘记忆，并设置重要性评分

2.4 Action（行动）

行动很好理解，LLM相当于我们的大脑，但是光有大脑，没有手脚也做不成事，所以Agent就需要借助外部的工具进行行动。

我们需要把我们的工具（包括名称、描述和需要的参数）告诉LLM，当LLM来决定是否用工具，以及什么时机用工具。

介绍下案例中使用的商品查询工具，即用户通过一个问题或图片就能找到商家后台商品库的商品

商品的关键词查找处理：

将商家后台的商品图片和标题通过多模态模型提取出关键信息；
大模型会提取出关键信息，然后让工具执行，在执行过程中将关键词和商家后台商品的关键信息项进行相似度检索，从而找出匹配的；

图片的查找处理：

将商家后台的商品图片向量化；
模型提取出用户想要的蛋糕商品图片链接，然后和商家后台商品图片进行相似度匹配；

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
// 定义tools
const tools = [
{
"type": "function",
"function": {
"name": "query_goods",
"description": "查询蛋糕商品信息",
"parameters": {
"type": "object",
"properties": {
"keywords": {
"type": "array",
"items": {
"type": "string",
"description": "蛋糕商品关键信息项",
},
"description": "蛋糕商品关键信息，包含适用场合、目标人群、风格、口味、主题、颜色等",
},
"image_url": {
"type": "string",
"description": "蛋糕商品图片链接",
},
}
},
}
},
...
];

2.5 Planning（规划）

规划这部分相对会复杂点，接下来主要将常见的两种规划模式，分别是ReAct和Plan-and-Resolve，除了这两种模式还有多Agent模式等。

2.5.1 ReAct（Reason + Action 推理 - 行动 - 反馈）

通过不断的推理、行动和反馈来最终完成用户的目标。

蛋糕烘培助手的流程如下图：

2.5.2 Plan-and-Solve

将任务分解成子目标并分布执行，这个和ReAct的区别是：Plan-and-Solve是先通过大模型将任务拆解，然后再分布执行，和ReAct是一步一步的去执行，两种模式适用的场景不一样。

比如说旅游规划的agent，就可以用Plan-and-Solve模式，先生成计划（如要了解天气、要了解住宿等），然后再解决计划，最终整合让大模型完成回答，当然中间也可以加反思，对计划进行反思等。

下面是基于Plan-and-Solve的流程图：

3 Agent评估报告

评估报告是Agent开发过程中不可或缺的环节，包括响应时间、完成度、工具使用情况、后续优化等，它能够系统性地收集和分析Agent的运行数据,为后续的优化和迭代提供科学依据。

所以在agent的设计环节都需要将这些数据都记录下来。

4 Agent成本分析

在做AI应用的过程中，我们经常会被问到一个问题，做个东西的成本怎么样？

AI相关应用与传统的应用之间的计费方式完全不一样了，所以Agent中每次的模型调用，所以针对Agent需要做成本分析。

基于成本分析可以进行价值回顾和agent的优化。

5 Agent vs Workflow

用一句话来概括它们之间的区别就是：Agent是你只需要告诉我你要什么，不需要告诉我怎么做，而workflow就是你要按照我编排好的路径来执行。一个是基于大模型来规划，一个是基于人来规划。

如何选择？

选Workflow

数据处理管道
文档审批流程
任务流程相对固定，步骤可预定义
需要严格的执行顺序和质量控制
要求高可靠性和可重复性
涉及多个系统集成，需要标准化流程
合规要求严格，需要审计追踪
如：数据处理管道、文档审批流程

选Agent

智能客服助手
个人AI助理
复杂问题诊断
任务需要动态决策和灵活应对
环境不确定性高，需要自主判断
要求个性化和上下文理解
需要创造性解决问题
用户交互频繁，需要对话式体验
如：智能客服助手、个人AI助理、复杂问题诊断

6 FM Agent 与 RL Agent

以上讲的都是FM Agent，是基于大型预训练模型（Foundation Model）的智能体，比如基于 GPT-4、Claude、Gemini 等大模型构建的智能体。

核心能力是利用大语言模型（LLM）的理解、推理、规划和生成能力来感知世界、做决策、执行任务。

除了FM Agent，还有RL Agent，它是基于强化学习（Reinforcement Learning）原理构建的 Agent。

它与环境交互，根据奖励信号学习最优策略，以最大化长期累计奖励。如DeepMind的AlphaGo Zero，在围棋游戏中击败了世界顶级选手，就是一个RL Agent。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

qKnow开源版原生部署“排雷”全指南：死磕 DeepKE 与核心组件的 7 大深坑

摘要：qKnow开源版原生部署面临诸多挑战，尤其DeepKE模块存在三大核心痛点：1) Python与Java环境版本冲突，需严格隔离；2) 模型路径配置必须使用容器内绝对路径；3) Shell脚本中的硬编码容器ID需动态修正。此外，Neo4j数据导入需注意路径与库名一致性，Maven需手动安装私有依赖。本文提供针对性解决方案，帮助开发者规避常见陷阱，实现高效部署。（149字）