Agent相关概念
一、定义
Agent = 能自主思考、自己做任务的智能体,不是只会问答的工具。
Agent 是具备感知、思考、规划、执行能力的智能系统
现在很多大模型做的智能体、AI 助理、自动化助手,本质都是 Agent。
1.1 Prompt
提示词 / 指令
发给 AI 的所有文字,都叫 Prompt。
作用:告诉 AI 要做什么、怎么做。
1.2 Context Window
上下文窗口 / 短期记忆
模型一次性能记住的最大 Token 数量。
比如:8k、16k、32k、128k 窗口。
超过这个长度,前面的内容就会被忘掉。
Context Window = AI 的短期记忆容量。
1.3 Token
AI 理解文字的最小单位
AI 不认识汉字 / 单词,只认识 Token
可以理解成:文字的碎片。
中文:大概 1 个汉字 ≈ 1 个 Token
英文:大概 1 个单词 ≈ 1~3 个 Token
标点、空格、换行 也算 Token
二、核心架构(核心组件)
1、用户意图层/感知层(Goal)
接收任务:做什么、要什么结果
理解目标、约束、偏好
2、记忆层(Memory)
短期记忆:上下文、对话历史
长期记忆:知识、经验、历史任务结果
作用:让 Agent 不 “失忆”
3、思考 / 推理层(Reasoning & Planning)这是 Agent 的大脑,最核心:
拆解任务:大目标 → 小步骤
决策:先做什么、后做什么
反思:做得对不对,要不要重来
典型:CoT、ReAct、Reflexion
4、工具调用层(Tool Use)
调用外部能力:搜索、代码、API、数据库、文件、浏览器
让 Agent 能做事,而不只是聊天
5、执行 & 反馈层(Execution & Feedback)
执行动作 → 拿到结果 → 回传给思考层判断是否完成 → 循环直到目标达成
Agent 的完整闭环:
感知 → 记忆 → 推理 → 执行 → 反馈 → 再学习
三、三大范式
3.1 ReAct 范式(现在最主流的 Agent 思路)
核心思想(边思考边行动)
LLM(大语言模型)不是一次性回答,而是循环:
- 思考(Thought):我要干嘛?缺什么信息?用什么工具?
- 行动(Action):调用工具 / 搜索 / 查询
- 观察(Observation):工具返回了什么结果?
- 再思考 → 再行动 → … 直到完成任务
3.2 CoT 范式(思维链)
逻辑:先把推理步骤想完整 → 再给出答案
特点:只动脑、不动手,适合逻辑题、数学题。
3.2.1 Self-Consistency(自一致性)
用来解决LLM 推理不稳定的情况,是CoT的升级版
核心原理
- 同样一个问题,让模型生成 N 个不同的思考过程和答案
- 统计哪个答案出现次数最多
- 选这个最一致、最常见的作为最终结果(投票,少数服从多数)
3.3 Toolformer / 工具调用范式(纯工具型)
核心:LLM 专门学会调用外部工具(搜索、计算器、代码、数据库)
逻辑:判断什么时候用工具 → 调用 → 拿结果 → 回答
特点:专门解决 “LLM 自己算不对、不知道” 的问题。
四、强化学习基础(RL 极简版)
核心四要素
- Agent(智能体):做事的主体
- Environment(环境):外部世界
- Action(动作):Agent 能做的操作
- Reward(奖励):做得好加分,做错扣分
核心逻辑
Agent 不断尝试动作 → 拿到奖励 → 学习怎样拿更高分
应用:游戏 AI、机器人控制、自动驾驶、推荐系统优化。
五、记忆体系
Short-term memory:短期记忆(上下文)
只能存 “当前对话 / 任务” 的即时信息;受限于token
Long-term memory:长期记忆(知识库 / 向量库)
永久、容量大、一般存在向量数据库(Chroma/Milvus) 里,需要时检索调用
Working memory:工作记忆(中间步骤)
存 Agent 解决复杂任务时的中间步骤 / 临时结果
六、落地
6.1 RAG检索增强生成(解决知识过时、幻觉)
核心含义:
先从外部知识库(比如文档、数据库)检索相关信息,再把这些信息喂给 LLM,让 LLM 基于检索结果生成答案;
核心解决:LLM “知识过时”(比如不知道 2025 年新政策)、“幻觉”(瞎编)的问题;
6.2 Hallucination 幻觉(瞎编)
LLM/Agent 在没有依据、没有相关知识的情况下,凭空编造看似合理但错误的信息;
这是 Agent 落地最大的坑之一,尤其在金融、医疗、法律等严肃场景绝对不能有;
常见原因:LLM 训练数据过时、上下文信息不足、推理错误。
6.3 Zero-shot零样本(直接做)
不给任何示例,直接让 Agent 完成任务;
考验 LLM 的通用能力,适合简单、通用的任务;
例子:
你对 Agent 说:“帮我把这段英文翻译成中文”(没给任何翻译示例);
Agent 直接完成翻译,这就是 Zero-shot 调用。
6.4 Few-shot:少样本(给几个例子)
给 Agent 1~5 个示例,让它照着示例的逻辑完成同类任务;
适合复杂、有特定格式要求的任务,能大幅提升准确率;
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)