AI人工智能-Agent相关介绍-第十四周（小白）

独孤--蝴蝶

811人浏览 · 2026-01-24 15:15:01

独孤--蝴蝶 · 2026-01-24 15:15:01 发布

一、Agent是什么

Agent翻译过来时“智能体”，你可以把它理解为一个“有自主能力的智能助手”——它不用人一步步指挥，能自己理解任务，规划步骤、使用工具、记住过往经历，甚至和其他Agent或人类协作，最终完成目标。

简单说：普通LLM是“你问我答”的工具，二Agent是“你交代任务，它自己搞定”的帮手。比如你让普通LLM写代码，它只给代码；但让变成Agent写代码，他会先问清需求细节，查相关语法、生成代码后测试，有bug还会自己修改，全程自主推进。

二、Agent的发展脉络（了解即可）

这张图记录了 2021-2023 年 Agent 相关的关键项目，能清晰看到 Agent 的爆发历程：

横坐标：时间（从 2021 年 1 月到 2023 年 8 月）；
纵坐标：推测是项目关注度或相关工作数量（数值越高越受重视）；
核心信息：
1. 2022 年之前：Agent 相关探索很少（只有 WebGPT 等少数项目），还处于萌芽期；
2. 2023 年是 “Agent 爆发年”：从 2 月到 8 月，大量关键项目集中出现（AutoGPT、HuggingGPT、MetaGPT 等），涵盖工具使用、游戏、协作等多个方向；
3. 类型多样：图中提到了 Tool Agent（工具型）、Generative Agent（生成型）、Game Agent（游戏型）等，说明 Agent 已经渗透到不同场景。

简单总结：Agent 是基于 LLM 发展来的 “进阶形态”，2023 年开始成为 NLP 领域的热门方向，核心是让 AI 从 “被动问答” 变成 “主动做事”。

三、Agent的4大核心特征（为什么他能“自主做事”）

这张图把Agent拆成4个核心模块，就像人的“人设、大脑、手脚、记忆”

1.专有场景（Profile:智能体的“人设”）

每个Agent都有自己的“专属身份和场景”，不是万能的。比如：

智能客服 Agent：场景是 “处理用户售后问题”，人设是 “耐心、专业、熟悉产品规则”；
编程 Agent：场景是 “代码开发”，人设是 “懂语法、会调试、熟悉开发工具”。PPT 里的 Profile 包含 “人口统计学信息（比如‘虚拟年龄 25 岁’）、性格（比如‘严谨细心’）、社交信息（比如‘擅长和工程师协作’）”，这些都是为了让 Agent 在专属场景里更 “贴合角色”。

2.保留记忆（Memory：智能体的“大脑存储”）

Agent能像人一样“记事情”，下次互动式直接用，不用重复交代。比如你跟理财Agent说“我风险承受能力低”，它会记住这个信息，下次推荐基金时，就不会推高风险产品。

记忆类型：有 “统一记忆”（所有信息存在一起）、“混合记忆”（分短期记忆和长期记忆）；
记忆操作：能 “读”（回忆过往信息）、能 “写”（记录新信息）、还能 “反思”（比如总结 “上次用户投诉是因为物流慢，这次要重点关注物流问题”）。

3.任务规划（Planning：智能体的“思考能力”）

Agent接到任务后，会自己拆分成步骤，不用人指挥，

比如你让它 “写一篇 AI 行业月度总结”，它会规划：

检索本月 AI 行业关键事件；
整理核心数据（比如融资额、新发布模型）；
按 “事件 + 数据 + 趋势” 结构写初稿；
检查是否有遗漏信息，优化语言。

规划方式：分 “无反馈规划”（按固定思路拆步骤）和 “有反馈规划”（根据环境或人类反馈调整步骤）；
推理模式：“单路径推理”（一条路走到黑）和 “多路径推理”（想多个方案，选最优的）。

4.使用工具（Action:智能体的“手脚”）

Agent不会只靠自己的知识，还会调用外部工具帮自己完成任务。比如：

查实时数据：调用搜索引擎；
处理表格：调用 Excel 工具；
生成图片：调用画图模型；
写代码：调用编程工具。

四、Agent的3种关键交付模式（它怎么和外界打交道）

Agent不是孤立的，会和其他Agent、人类、环境互动

1.Agent之间协作（像团队分工做事）

多个Agent一起完成复杂任务，有两种协作方式

有序协作（有明确角色和流程）：比如图片中里的 “软件开发团队”，有产品经理（写需求文档）、架构师（做设计）、工程师（写代码）、QA（做测试），各司其职，按流程沟通。例子中设计师说 “要简化界面”，工程师提醒 “简化可能影响性能”，最后一起平衡，就是有序协作；
无序协作（无固定角色，交流随意）：比如几个 Agent 闲聊，没有明确任务，对话混乱（图里的 “&%#*…” 就是模拟无序交流），这种协作适合轻松场景，不适合复杂任务。

2.Agent和人类交互（像“人和助手/伙伴相处”）

有两种交互范式，对应不同关系：

指导者 - 执行者范式（你是老板，它是员工）：你下达指令，它负责执行。比如你说 “设计一款节能产品”，它就按要求做设计，全程听你指挥，有问题向你反馈；
平等伙伴范式（你和它是朋友）：没有上下级，互相理解。比如你说 “最近压力大，什么都不想做”，它不会直接给任务解决方案，而是共情 “确实会有这种时候，不如先休息一下”，这种模式适合情感陪伴、创意讨论等场景。

3.Agent与环境交互（像“人适应周围世界”）

Agent能“感知”环境，然后做出对应动作，环境可以是虚拟的，也可以是真实的：

核心逻辑：Agent 的 “性格” 决定它的行为，环境给它反馈，它再调整。比如：

虚拟环境（游戏）：Minecraft 里的 Voyager Agent，性格是 “探索欲强”，感知到 “有未开采的矿石”，就会做出 “挖矿” 动作，挖不到就换个地方（环境反馈→调整行为）；
物理环境（现实）：智能家居 Agent，性格是 “贴心”，感知到 “主人说要睡觉”，就会做出 “关灯、调空调温度” 的动作，主人说 “温度太高”（环境反馈），就会再调低温度。

五、Agent VS Workflow

很多人会把 Agent 和 Workflow（工作流）搞混，用 “剧本” 来比喻最通俗：

对比维度	Workflow（工作流）	Agent（智能体）
核心逻辑	固定剧本：按预先写好的代码路径执行，步骤不能改	即兴发挥：根据任务动态选路径，步骤可灵活调整
举例说明	投诉处理工作流：1. 接收投诉→2. 按关键词分类→3. 生成固定回复→4. 发送回复（不管投诉多复杂，都按这 4 步走）	投诉处理 Agent：1. 接收投诉→2. 分析投诉原因（简单投诉直接回复，复杂投诉查历史案例）→3. 生成个性化回复→4. 询问用户是否满意（不满意就重新调整）
灵活性	低：只能处理预设场景，遇到新情况就 “卡壳”	高：能应对突发情况，自主调整策略

关键提醒：国内很多时候会把 “复杂 Workflow” 也叫 Agent，但本质上看 “是否能动态调整路径” 就能区分 —— 能自主改步骤的是真 Agent，只能按固定步骤走的是 Workflow。

六、常见的Agent系统设计

1.多LLM链路设计（流水线式）

核心逻辑：多个 LLM 按顺序分工，像流水线一样处理任务；
举例（投诉处理机器人）：
1. LLM Call1：分析用户投诉文本，找出核心不满点（比如 “物流慢”）；
2. Gate（过滤模块）：按规则判断是否为无理投诉（比如 “恶意抹黑” 就直接忽略）；
3. LLM Call2：结合历史案例，生成处理方案（比如 “补偿 10 元优惠券，承诺下次加快物流”）；
4. LLM Call3：评估方案是否合理（比如 “是否覆盖用户诉求，语气是否友好”），合理就输出，不合理就重新生成。

2.中控分发设计（总调度式）

核心逻辑：一个 “中控模块（Router）” 当总调度，根据用户意图分给专门的 Agent；
举例（智能音响）：
1. Router：用户说 “打开客厅灯，再讲个睡前故事”，Router 判断意图是 “控制智能家居 + 创意内容”；
2. 分发任务：把 “开灯” 分给 “智能家居 Agent”，把 “讲故事” 分给 “创意内容 Agent”；
3. 执行反馈：两个 Agent 分别执行，再由 Router 汇总结果告诉用户。

3.多Agent协作合并设计（团队协作式）

核心逻辑：协调者（Orchestrator）分发任务给多个 Agent，每个 Agent 负责一部分，最后汇总结果；
举例（文章美化编辑）：
1. Orchestrator：接收 “美化一篇科普文章” 的任务，拆分给 3 个 Agent；
2. 分工执行：LLM1 改语法错误，LLM2 丰富论据（比如加数据），LLM3 优化可读性（比如把专业术语通俗化）；
3. 汇总结果：Synthesizer 把 3 个 Agent 的修改内容整合，生成最终版本。

4.生成-评估迭代设计（反复优化式）

核心逻辑：一个 Agent 生成结果，另一个 Agent 评估，不合格就反馈优化，直到满意；
举例（智能客服回复）：
1. Generator（生成器）：用户问 “衣服尺码不对怎么换货”，生成回复 “订单页申请换货，寄回指定地址”；
2. Evaluator（评估器）：按标准评估（是否说明步骤、是否提运费、语气是否友好），发现 “没说运费”，输出 “Rejected + 反馈”；
3. 迭代优化：Generator 根据反馈重新生成 “订单页申请换货，寄回指定地址，运费我们承担～”，评估通过后输出给用户。

七、Agent System（完整的Agent系统怎么运作）

Agentic System 是 “闭环流程”，简单说就是 “人→Agent→环境→反馈→调整” 的循环，用两个例子就能看懂：

例子 1：智能家居语音助手

Human（人）：“我要睡觉了，帮我调整家居设备”；
LLM Call（Agent 思考）：分析需求，生成指令 “关闭客厅灯、卧室灯调暖光、空调设 25 度、拉窗帘”；
Environment（环境）：智能家居设备执行指令；
Feedback（反馈）：设备告诉 Agent “所有指令都已执行”；
Stop（停止）：Agent 确认任务完成，流程结束（如果用户说 “空调调 26 度”，就重新进入循环）。

例子 2：AI 编程辅助工具

Human（人）：“生成 Python 代码，读取 CSV 文件，筛选 30 岁以上记录，计算平均薪资”；
LLM Call（Agent 思考）：生成对应的 Python 代码；
Environment（环境）：代码运行环境执行代码，发现 “找不到 data.csv 文件”；
Feedback（反馈）：环境告诉 Agent “文件不存在”；
循环调整：Agent 修改代码，添加 “文件路径提示”，重新执行，直到代码运行成功，流程结束。

八、Agent的经典应用示例（这些工具都是Agent）

1. Generative Agents（虚拟人类社群）

核心功能：模仿真实人类的行为和互动，构建虚拟社群；
举例：虚拟城市里的 Agent 会 “约咖啡”“分享新闻”“上班上学”，比如 Abigail 问 Klaus “能不能一起喝咖啡”，Klaus 回应 “当然可以，你最近怎么样”，就像真实的人聊天；
开源链接：https://github.com/joonspk-research/generative_agents

2. AutoGPT（在线自主任务助手）

核心功能：帮你自动完成在线任务，不用手动操作；
两个经典例子：
1. Reddit 营销 Agent：自动读 Reddit 评论，找到问你产品的人，自动回复；
2. YouTube 内容转换 Agent：订阅你的 YouTube 频道，新视频发布后自动转录，生成 SEO 优化的博客，发布到 Medium；
开源链接：https://github.com/Significant-Gravitas/AutoGPT

3. HuggingGPT（模型调度 Agent）

核心功能：LLM 当 “控制器”，根据任务自动选 HuggingFace 上的模型；
举例：你让它 “描述图片内容，计数物体，还要模仿男孩姿势生成女孩读书的图，最后转语音”，它会：
1. 选 “姿势识别模型” 分析男孩姿势；
2. 选 “图像生成模型” 生成女孩读书图；
3. 选 “目标检测模型” 计数物体；
4. 选 “语音生成模型” 把描述转成音频；
开源链接：https://github.com/microsoft/JARVIS

4. MetaGPT（多 Agent 协作编程）

核心功能：模拟软件公司的团队协作，自动完成编程项目；
角色分工：产品经理（写需求文档 PRD）→架构师（做设计）→工程师（写代码）→QA（写测试用例）→项目经理（分配任务、审核）；
举例：你输入 “做一个简单的待办清单 APP”，它会自动分工，最后输出完整的代码和测试用例；
开源链接：https://github.com/geekan/MetaGPT/tree/main

5. Voyager（游戏学习 Agent）

核心功能：自主学习玩 Minecraft（我的世界），不用人教；
特点：能自己探索世界、学习制作工具、打怪、完成任务，还能积累经验，越玩越熟练；
开源链接：https://github.com/MineDojo/Voyager/tree/main

6. Character-LLM（角色扮演 Agent）

核心功能：模仿特定人物的性格和知识，和你聊天；
举例：模仿贝多芬，你问 “你的老师是谁”，它会根据贝多芬的真实生平回应 “我的老师是 Christian Gottlob Neefe，他对我的音乐创作影响很大”；
开源链接：https://github.com/choosewhatulike/trainable-agents/

7. ChatDB（数据库交互 Agent）

核心功能：用自然语言和数据库交互，不用写 SQL；
举例：你说 “查用户表中年龄大于 30 的用户平均薪资”，它会自动把自然语言转成 SQL，查询数据库后，用自然语言告诉你结果；
开源链接：https://github.com/huchenxucs/ChatDB

总结：Agent 的核心价值

Agent 的本质是 “让 AI 拥有自主能力”—— 从 “被动响应” 变成 “主动解决问题”。它不用人一步步指挥，能自己规划、用工具、记事情、协作，适合处理复杂、多变的任务。

现在 Agent 已经应用在编程、游戏、客服、营销、智能家居等多个场景，未来还会渗透到更多行业（比如医疗、教育、金融），核心优势就是 “省时间、降成本、能应对复杂场景”。

对于你学了十三周 NLP 来说，记住一句话就能抓住 Agent 的核心：Agent = LLM（大脑）+ 记忆（存储）+ 规划（思考）+ 工具（手脚）+ 交互（沟通），它是 LLM 的 “超级升级版”。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【2026更新】Python基础学习指南（AI版）——安装

AtomGit开源社区

5 分钟上手 renderdoc-mcp：让 AI 帮你分析 GPU 抓帧

不用再手动翻事件列表了。配置好 renderdoc-mcp，直接用自然语言提问，AI 就能帮你查看 draw call、管线状态、shader 和资源。

AtomGit开源社区

剪映视频去水印+去字幕+去logo三合一操作流程（新手必备）

但在实际使用中，不少人会遇到一个共性问题：剪映导出的视频自带水印、素材中夹杂多余字幕，或搬运、引用的素材带有品牌Logo，尤其当下用即梦、豆包生成的视频素材，往往会附带平台水印或冗余字幕，这些元素不仅拉低视频质感，还可能影响作品传播效果。导入视频后用选框标记需要去除的区域，开启“AI跟踪”功能可自动追踪动态字幕、logo的轨迹，选择合适的AI去除模式，设置好分辨率和导出格式后点击导出即可，支持4K