【AI超级智能体】什么是智能体?智能体实现的关键技术有哪些?
智能体基础概念
本篇文章为个人学习ai笔记,部分资源来源于网上,仅供学习记录分享,无其他用途。
什么是智能体?
智能体(Agent)是一个能够感知环境、进行推理、制定计划、做出决策并自主采取行动以实现特定目标的 AI 系统。它以大语言模型为核心,集成 记忆、知识库和工具 等能力为一体,构造了完整的决策能力、执行能力和记忆能力,就像一个有主观能动性的人类一样。与普通的 AI 大模型不同,智能体能够:
- 感知环境:通过各种输入渠道获取信息(多模态),理解用户需求和环境状态
- 自主规划任务步骤:将复杂任务分解为可执行的子任务,并设计执行顺序
- 主动调用工具完成任务:根据需要选择并使用各种外部工具和 API,扩展自身能力边界
- 进行多步推理:通过思维链(Chain of Thought)逐步分析问题并推导解决方案
- 持续学习和记忆过去的交互:保持上下文连贯性,利用历史交互改进决策
- 根据环境反馈调整行为:根据执行结果动态调整策略,实现闭环优化
智能体的分类
1)反应式智能体:仅根据当前输入和固定规则做出反应,类似简单的聊天机器人,没有真正的规划能力。23 年时的大多数 AI 聊天机器人应用,几乎都是反应式智能体。
2)有限规划智能体:能进行简单地多步骤执行,但执行路径通常是预设的或有严格限制的。鉴定为 “能干事、但干不了复杂的大事”。24 年流行的很多可联网搜索内容、调用知识库和工具的 AI 应用,都属于这类智能体。比如 ChatGPT + Plugins
3)自主规划智能体:也叫目标导向智能体,能够根据任务目标自主分解任务、制定计划、选择工具并一步步执行,直到完成任务。比如 25 年初很火的 Manus 项目,它的核心亮点在于其 “自主执行” 能力。据官方介绍,Manus 能够在虚拟机中调用各种工具(如编写代码、爬取数据)完成任务。其应用场景覆盖旅行规划、股票分析、教育内容生成等 40 余个领域,所以在当时给了很多人震撼感。
智能体实现的关键技术
一、CoT 思维链
CoT(Chain of Thought)思维链是一种让 AI 像人类一样 “思考” 的技术,帮助 AI 在处理复杂问题时能够按步骤思考。对于复杂的推理类问题,先思考后执行,效果往往更好。而且还可以让模型在生成答案时展示推理过程,便于我们理解和优化 AI。
CoT 的实现方式其实很简单,可以在输入 Prompt 时,给模型提供额外的提示或引导,比如 “让我们一步一步思考这个问题”,让模型以逐步推理的方式生成回答。还可以运用 Prompt 的优化技巧 few shot,给模型提供包含思维链的示例问题和答案,让模型学习如何构建自己的思维链。
二、Agent Loop 执行循环
Agent Loop 是智能体最核心的工作机制,指智能体在没有用户输入的情况下,自主重复执行推理和工具调用的过程。
在传统的聊天模型中,每次用户提问后,AI 回复一次就结束了。但在智能体中,AI 回复后可能会继续自主执行后续动作(如调用工具、处理结果、继续推理),形成一个自主执行的循环,直到任务完成(或者超出预设的最大步骤数)。
// Agent Loop 的实现原理其实很简单,参考如下代码
public String execute() {
List<String> results = new ArrayList<>();
while (currentStep < MAX_STEPS && !isFinished) {
currentStep++;
// 执行每一步(具体执行细节由子类实现)
String stepResult = executeStep();
results.add("步骤 " + currentStep + ": " + stepResult);
}
if (currentStep >= MAX_STEPS) {
results.add("达到最大步骤数: " + MAX_STEPS);
}
return String.join("\n", results);
}
三、ReAct 模式
ReAct(Reasoning + Acting)是一种结合推理和行动的智能体架构,它模仿人类解决问题时 ” 思考 - 行动 - 观察” 的循环,目的是通过交互式决策解决复杂任务,是目前最常用的智能体工作模式之一。
核心思想:
- 推理(Reason):将原始问题拆分为多步骤任务,明确当前要执行的步骤,比如 “第一步需要打开xxx网站”。
- 行动(Act):调用外部工具执行动作,比如调用搜索引擎、打开浏览器访问网页等。
- 观察(Observe):获取工具返回的结果,反馈给智能体进行下一步决策。比如将打开的网页代码输入给 AI。
- 循环迭代:不断重复上述 3 个过程,直到任务完成或达到终止条件。
// 具体实现代码逻辑(示例代码)如下:
void executeReAct(String task) {
String state = "开始";
// 根据任务状态判断
while (!state.equals("完成")) {
// 第一步:先思考
String thought = "思考下一步行动";
System.out.println("推理: " + thought);
// 第二步:思考后采取行动
String action = "执行具体操作";
System.out.println("行动: " + action);
// 第三步:观察行动后的结果进行反馈
String observation = "观察执行结果";
System.out.println("观察: " + observation);
// 如果任务完成或者达到终止条件(最大次数)就要改变任务状态跳出循环
state = "完成";
}
}

四、额外所需支持系统
除了上诉几种基本的工作机制外,智能体的实现还依赖于很多支持系统。
1)首先是 AI 大模型,这个就不多说了,大模型提供了思考、推理和决策的核心能力(也就是智能体的大脑),越强的 AI 大模型通常执行任务的效果越好。
2)记忆系统:智能体需要记忆系统来存储对话历史、中间结果和执行状态,这样它才能够进行连续对话并根据历史对话分析接下来的工作步骤。可以使用 Spring AI 的 ChatMemory 来实现对话记忆。
3)知识库:尽管大语言模型拥有丰富的参数知识,但针对特定领域的专业知识往往需要额外的知识库支持。通过 RAG 检索增强生成 + 向量数据库等技术,智能体可以检索并利用专业知识回答问题。
4)工具调用:工具是扩展智能体能力边界的关键,智能体通过工具调用可以访问搜索引擎、数据库、API 接口等外部服务,极大地增强了其解决实际问题的能力。当然,MCP 也可以算是工具调用的一种。
综合上面 4 类技术,并且结合 CoT、Agent Loop、ReAct 等机制(可以总称为 “规划执行机制”),我们就可以构建一个完整的、有自主规划能力的智能体系统啦。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)