一、定义

Agent = 能自主思考、自己做任务的智能体,不是只会问答的工具。

Agent 是具备感知、思考、规划、执行能力的智能系统

现在很多大模型做的智能体、AI 助理、自动化助手,本质都是 Agent

1.1 Prompt

提示词 / 指令

发给 AI 的所有文字,都叫 Prompt。

作用:告诉 AI 要做什么、怎么做。

1.2 Context Window

上下文窗口 / 短期记忆
模型一次性能记住的最大 Token 数量。
比如:8k、16k、32k、128k 窗口。
超过这个长度,前面的内容就会被忘掉。

Context Window = AI 的短期记忆容量。

1.3 Token

AI 理解文字的最小单位

AI 不认识汉字 / 单词,只认识 Token

可以理解成:文字的碎片。
中文:大概 1 个汉字 ≈ 1 个 Token
英文:大概 1 个单词 ≈ 1~3 个 Token

标点、空格、换行 也算 Token

二、核心架构(核心组件)

1、用户意图层/感知层(Goal)

接收任务:做什么、要什么结果

理解目标、约束、偏好

2、记忆层(Memory)

短期记忆:上下文、对话历史

长期记忆:知识、经验、历史任务结果

作用:让 Agent 不 “失忆”

3、思考 / 推理层(Reasoning & Planning)这是 Agent 的大脑,最核心:

拆解任务:大目标 → 小步骤

决策:先做什么、后做什么

反思:做得对不对,要不要重来

典型:CoT、ReAct、Reflexion

4、工具调用层(Tool Use)

调用外部能力:搜索、代码、API、数据库、文件、浏览器

让 Agent 能做事,而不只是聊天

5、执行 & 反馈层(Execution & Feedback)

执行动作 → 拿到结果 → 回传给思考层判断是否完成 → 循环直到目标达成

Agent 的完整闭环:
感知 → 记忆 → 推理 → 执行 → 反馈 → 再学习

三、三大范式

3.1 ReAct 范式(现在最主流的 Agent 思路)

核心思想(边思考边行动)

LLM(大语言模型)不是一次性回答,而是循环:

  1. 思考(Thought):我要干嘛?缺什么信息?用什么工具?
  2. 行动(Action):调用工具 / 搜索 / 查询
  3. 观察(Observation):工具返回了什么结果?
  4. 再思考 → 再行动 → … 直到完成任务

3.2 CoT 范式(思维链)

逻辑:先把推理步骤想完整 → 再给出答案

特点:只动脑、不动手,适合逻辑题、数学题。

3.2.1 Self-Consistency(自一致性)

用来解决LLM 推理不稳定的情况,是CoT的升级版

核心原理

  1. 同样一个问题,让模型生成 N 个不同的思考过程和答案
  2. 统计哪个答案出现次数最多
  3. 选这个最一致、最常见的作为最终结果(投票,少数服从多数)

3.3 Toolformer / 工具调用范式(纯工具型)

核心:LLM 专门学会调用外部工具(搜索、计算器、代码、数据库)

逻辑:判断什么时候用工具 → 调用 → 拿结果 → 回答

特点:专门解决 “LLM 自己算不对、不知道” 的问题。

四、强化学习基础(RL 极简版)

核心四要素

  1. Agent(智能体):做事的主体
  2. Environment(环境):外部世界
  3. Action(动作):Agent 能做的操作
  4. Reward(奖励):做得好加分,做错扣分

核心逻辑

Agent 不断尝试动作 → 拿到奖励 → 学习怎样拿更高分

应用:游戏 AI、机器人控制、自动驾驶、推荐系统优化。

五、记忆体系

Short-term memory:短期记忆(上下文)
只能存 “当前对话 / 任务” 的即时信息;受限于token

Long-term memory:长期记忆(知识库 / 向量库)
永久、容量大、一般存在向量数据库(Chroma/Milvus) 里,需要时检索调用

Working memory:工作记忆(中间步骤)
存 Agent 解决复杂任务时的中间步骤 / 临时结果

六、落地

6.1 RAG检索增强生成(解决知识过时、幻觉)

核心含义:

先从外部知识库(比如文档、数据库)检索相关信息,再把这些信息喂给 LLM,让 LLM 基于检索结果生成答案;

核心解决:LLM “知识过时”(比如不知道 2025 年新政策)、“幻觉”(瞎编)的问题;

6.2 Hallucination 幻觉(瞎编)

LLM/Agent 在没有依据、没有相关知识的情况下,凭空编造看似合理但错误的信息

这是 Agent 落地最大的坑之一,尤其在金融、医疗、法律等严肃场景绝对不能有;

常见原因:LLM 训练数据过时、上下文信息不足、推理错误。

6.3 Zero-shot零样本(直接做)

不给任何示例,直接让 Agent 完成任务;

考验 LLM 的通用能力,适合简单、通用的任务;

例子:
你对 Agent 说:“帮我把这段英文翻译成中文”(没给任何翻译示例);
Agent 直接完成翻译,这就是 Zero-shot 调用。

6.4 Few-shot:少样本(给几个例子)

给 Agent 1~5 个示例,让它照着示例的逻辑完成同类任务;

适合复杂、有特定格式要求的任务,能大幅提升准确率;

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐