第一章初识Agent

qq_43301756

581人浏览 · 2026-05-20 11:54:31

qq_43301756 · 2026-05-20 11:54:31 发布

第一章初识Agent

chapt 初识Agent

1,智能体的定义

核心四要素: 传感器(sensors) 环境(Environment) 执行器(actuator) 自主性(Autonomy)

智能体 = 能通过传感器感知环境 + 自主通过执行器采取行动 + 达成目标的实体

面试回答版

我理解 Agent 本质上是一个能自主完成目标的 AI 系统，跟传统 AI 最核心的区别在于「自主性」和「能行动」。

传统 AI 是你问一个问题它回答一个问题，每次都是独立的，被动响应；而 Agent 有自己的规划能力，你给它一个复杂目标，它会自己把任务拆成多步，通过调工具、访问记忆、感知环境来一步步执行，直到完成。

2.智能体的类型

智能体类型	核心逻辑（一句话）	关键特点（关键词）	典型例子
简单反射型	感知→直接动作映射，不看历史	无记忆、规则固定	恒温器
基于模型的反射型	感知 + 内部环境模型→决策	有状态记忆、处理部分可观察	特斯拉自动驾驶
基于目标的智能体	以目标为导向，规划动作序列	主动规划、目标驱动	A * 路径规划算法
基于效用的智能体	效用最大化，选最优动作 / 方案	优化结果、多选项决策	客服
学习型智能体	通过反馈循环自主优化策略	可进化、适应未知环境	AlphaGo

chapt 智能体的构成与运行原理

1.任务环境定义

->PESA模型

在人工智能领域，通常使用PEAS 模型来精确描述一个任务环境，即分析其性能度量(Performance)、环境(Environment)、执行器(Actuators)和传感器(Sensors) 。以上文提到的智能旅行助手为例，下表 1.2 展示了如何运用 PEAS 模型对其任务环境进行规约。

表 1.2 智能旅行助手的 PEAS 描述

2.智能体的运行机制

图 1.5 智能体与环境交互的基本循环

智能体的行动会引起环境 (Environment) 的状态变化 (State Change)，环境随即会产生一个新的观察 (Observation) 作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获，形成一个持续的“感知-思考-行动-观察”的闭环。智能体正是通过不断重复这一循环，逐步推进任务，从初始状态向目标状态演进。

3.智能体的感知与行动

为了让 LLM 能够有效驱动这个循环，我们需要一套明确的交互协议 (Interaction Protocol) 来规范其与环境之间的信息交换。

Thought (思考)：这是智能体内部决策的“快照”。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解，并最终规划出下一步的具体行动。
Action (行动)：这是智能体基于思考后，决定对环境施加的具体操作，通常以函数调用的形式表示。

Action字段构成了对外部世界的指令。一个外部的解析器 (Parser) 会捕捉到这个指令，并调用相应的get_weather函数。

感知系统的一个重要职责就是扮演传感器的角色：将这个原始输出处理并封装成一段简洁、清晰的自然语言文本，即观察。

这段Observation文本会被反馈给智能体，作为下一轮循环的主要输入信息，供其进行新一轮的Thought和Action。

习题与答案

请分析以下四个 case 中的主体是否属于智能体，如果是，那么属于哪种类型的智能体（可以从多个分类维度进行分析），并说明理由：

case A：一台符合冯·诺依曼结构的超级计算机，拥有高达每秒 2EFlop 的峰值算力

case B：特斯拉自动驾驶系统在高速公路上行驶时，突然检测到前方有障碍物，需要在毫秒级做出刹车或变道决策

case C：AlphaGo在与人类棋手对弈时，需要评估当前局面并规划未来数十步的最优策略

case D：ChatGPT 扮演的智能客服在处理用户投诉时，需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪

答案

仅 case A 的超级计算机本身不属于智能体；

B、C、D 的主体均满足智能体核心特征，且可按不同维度归为对应的智能体类型。

B 基于模型的反射型 agent

C 基于目标的智能体 +学习

D 基于效用 + 学习

假设你需要为一个"智能健身教练"设计任务环境。这个智能体能够：

通过可穿戴设备监测用户的心率、运动强度等生理数据
根据用户的健身目标（减脂/增肌/提升耐力）动态调整训练计划
在用户运动过程中提供实时语音指导和动作纠正
评估训练效果并给出饮食建议

请使用 PEAS 模型完整描述这个智能体的任务环境，并分析该环境具有哪些特性（如部分可观察、随机性、动态性等）。

答案

PEAS ->

P Performance 性能度量
评判做的好不好的标准 -> 减肥增肌的效果、保障运动安全、动作纠正精准、训练计划适配合理、饮食建议科学、
E environment 环境

环境场地在家还是在健身房、健身器材、日常作息饮食、

A Actuators 执行器

实时语音指导和动作纠错、动态台调整运动训练方案、推送饮食食谱建议、

S Sensors 感知器

采集心率、运动强度、识别动作、获取运动目标

某电商公司正在考虑两种方案来处理售后退款申请：

方案 A（Workflow）：设计一套固定流程，例如：

A.1 对于一般商品且在 7 天之内，金额 < 100RMB 自动通过；100-500RMB 由客服审核；>500RMB 需主管审批；而特殊商品（如定制品）一律拒绝退款

A.2 对于超过 7 天的商品，无论金额，只能由客服审核或主管审批；

方案 B（Agent）：搭建一个智能体系统，让它理解退款政策、分析用户历史行为、评估商品状况，并自主决策是否批准退款

请分析：
- 这两种方案各自的优缺点是什么？
- 在什么情况下 Workflow 更合适？什么情况下 Agent 更有优势？如果你是该电商公司的负责人，你更倾向于采用哪种方案？
- 是否存在一个方案 C，能够结合两种方案，达到扬长避短的效果？
答案
1.优缺点

A 优点规则透明、成本低、易上线、可审计、无黑箱问题

缺点规则死板一刀切、无法适配特殊场景、容易被薅羊毛

用户体验差、缺乏差异化服务

B 优点：
- 灵活适配复杂场景，能结合用户信誉、订单情况判断
- 识别恶意退款，降低平台损失
- 减少人工成本，策略可随数据迭代优化
缺点：
- 开发成本高、周期长
- 决策黑箱，可解释性弱
- 存在误判风险，冷启动效果不稳定
2.Workflow 更合适：小平台 / 订单少、规则简单、成本敏感、对合规性要求极高

Agent 更有优势：大平台 / 订单量大、售后场景复杂、恶意退款多、追求精细化运营

3、方案 C（融合方案）

核心：分级处理，流程 + 智能 + 人工三层结合
1. 标准化场景用 Workflow：处理小额、低风险退款，保证效率与稳定
2. 复杂场景用 Agent：处理超期、大额、争议订单，给出决策建议
3. 人工兜底复核：处理智能体无法判断的订单、用户申诉，解决误判与合规问题
在 1.3 节的智能旅行助手基础上，请思考如何添加以下功能（可以只描述设计思路，也可以进一步尝试代码实现）：

提示：思考如何修改 Thought-Action-Observation 循环来实现这些功能。
- 添加一个"记忆"功能，让智能体记住用户的偏好（如喜欢历史文化景点、预算范围等）
- 当推荐的景点门票已售罄时，智能体能够自动推荐备选方案
- 如果用户连续拒绝了 3 个推荐，智能体能够反思并调整推荐策略

答案：

1.在Observation 观察环节新增字典式短期记忆，用循环次数做键，存入用户输入、执行动作、反馈结果，逻辑合理贴合 TAO 原生循环

设置阈值自动压缩短期记忆、定时摘要沉淀为长期偏好记忆，区分临时对话和永久喜好，设计很标准

依靠记忆库就能实现偏好留存、拒推统计、缺票替换，全部需求都能覆盖

2.Thought 思考阶段先拟定主推景点

Action 执行阶段调用票务实时接口查询余票

Observation 拿到结果，判定售罄后

直接回到 Thought 层，同类型同价位调取备选景点，无需用户二次提问，无缝替换。

3。连续拒绝 3 次反思调整主流标准流程

记忆模块实时计数用户拒绝推荐次数

累计满 3 次，触发反思触发器

强制清空当前推荐思路

重读用户长期偏好 + 隐性需求

Thought 层彻底更换推荐维度（换风格、换价位、换地区）

重新生成全新推荐列表

卡尼曼的"系统 1"（快速直觉）和"系统 2"（慢速推理）理论[2]为神经符号主义 AI 提供了很好的类比。请首先构思一个具体的智能体的落地应用场景，然后说明场景中的：

提示：医疗诊断助手、法律咨询机器人、金融风控系统等都是常见的应用场景

哪些任务应该由"系统 1"处理？
哪些任务应该由"系统 2"处理？
这两个系统如何协同工作以达成最终目标？

一、系统 1（快速直觉）负责任务

快速识别常见轻微病症、基础症状匹配

快速比对常规体检数据，筛查明显异常指标

给出通用日常健康建议、基础用药提醒

快速判断紧急危险症状，立刻发出预警

简单问诊问答、重复性健康咨询回复

二、系统 2（慢速理性推理）负责任务

结合病史、多项检查报告综合分析病因

诊断疑难复杂疾病、区分相似病症

制定个性化治疗方案、康复调理方案

评估病情严重程度、预判病情发展趋势

严谨排查病因，排除误诊可能性

尽管大语言模型驱动的智能体系统展现出了强大的能力，但它们仍然存在诸多局限。请分析以下问题：

为什么智能体或智能体系统有时会产生"幻觉"（生成看似合理但实际错误的信息）？
在 1.3 节的案例中，我们设置了最大循环次数为 5 次。如果没有这个限制，智能体可能会陷入什么问题？
如何评估一个智能体的"智能"程度？仅使用准确率指标是否足够？

一、智能体产生 "幻觉" 的核心原因

本质缺陷：大模型基于统计规律学习文本关联，不具备真实世界的事实认知和逻辑推理能力，只能生成 "看起来合理" 的文本

数据问题：训练数据存在错误、过时、矛盾或缺失的信息，模型会学习并复现这些错误

推理机制：模型生成时优先保证语句流畅性和连贯性，当信息不足时会主动编造内容填补空白

能力边界：缺乏实时外部事实校验能力，无法验证生成内容的真实性

上下文限制：上下文窗口有限，无法完整记住所有相关信息，容易出现信息混淆和张冠李戴

举个例子，如果你问它一篇不存在的论文，它会编出作者、发表期刊甚至摘要，就是因为它只在模仿论文的格式，而不知道这篇论文根本不存在。

二、无最大循环次数限制的严重问题

如果没有最大循环次数限制，智能体一定会陷入无限死循环，具体会带来三个严重问题：

任务永远无法完成：它会反复做同样的无效动作，比如反复调用同一个搜索工具，永远不会主动终止

资源严重浪费：会持续占用大量 CPU、内存和网络资源，导致整个系统变慢甚至崩溃

第三方接口风险：如果涉及调用外部 API，会反复请求同一个接口，很容易被限流甚至封禁，影响其他业务

所以设置最大循环次数是智能体系统最基础的安全机制，必须要有。

三、智能体 "智能" 程度的评估

肯定不够。准确率只能衡量 "结果对不对"，但智能体的核心价值是 "自主解决问题的能力"，这是准确率无法体现的。

我认为评估一个智能体的智能程度，至少要看这几个维度：

任务完成能力：能不能最终达成目标

自主规划能力：能不能把复杂任务拆成一步步来做

环境适应能力：遇到突发情况能不能灵活调整

反思纠错能力：做错了能不能自己发现并改正

资源利用效率：完成同样的任务，用的时间和资源更少

比如两个智能体都完成了订机票的任务，一个一次就成功，另一个反复查了 10 次才订到，它们的准确率都是 100%，但智能程度明显不一样。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C 语言入门第 1 讲：C 语言常见概念（超详细）

AtomGit开源社区

HITL：让人类随时叫停 AI，并且能优雅地继续

AtomGit开源社区

深入底层：从SAR ADC原理到模拟前端设计，解析高精度数据采集卡的硬件架构

从SAR ADC的微伏级建立精度，到三重隔离的电磁兼容设计，打造一块高精度工业数据采集卡，是对硬件工程师综合实力的极限考验。ZLinear开源电子通过开源的胸怀和硬核的技术，将原本高高在上的工业级方案拉下神坛。如果您正在寻找靠谱的数据采集方案，或者希望深入学习工业DAQ的底层设计，欢迎访问ZLinear官网获取全套资料，让我们共同推动工业测控技术的普及与进步！