提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

AI智能体(Agent)的底层逻辑,可以概括为:将大语言模型(LLM)从“大脑”升级为“行动主体”,通过“感知→规划→行动→记忆”的闭环,自主完成复杂任务

一、核心模块?

二、工作流程

典型的智能体运行在一个循环中:

  1. 感知:接收用户输入或环境状态(如当前页面、传感器数据)。

  2. 规划:将目标分解为子任务(例如:“订机票” → 搜索航班 → 选择座位 → 支付)。可能生成多个候选计划,并评估最优路径。

  3. 行动:调用对应的工具或执行代码。如果是多步行动,每步后都会观察结果。

  4. 观察与反思:获取行动后的反馈(执行结果、错误信息、环境变化)。将反馈与当前状态合并,判断是否需要调整计划。

  5. 循环:直到目标达成或达到终止条件。

这个循环的实现依赖于LLM的推理能力工程化的执行框架(如LangChain、AutoGen、CrewAI等)。


三、关键设计思想

3.1 ReAct 模式

Reason + Act(推理+行动)

智能体在思考时交替输出“推理过程”和“行动指令”。例如:

text

Thought: 用户想知道明天北京的天气,我需要调用天气API。
Action: search_weather(city="北京", date="明天")
Observation: 明天北京晴,25℃。
Thought: 我已经获取了信息,可以回答用户了。
Answer: 明天北京晴天,最高25℃。

这种交替让模型能够动态调整,避免盲目执行。

3.2 工具调用(Function Calling)

大模型本身无法执行计算、查数据库等操作,但通过训练使其输出结构化参数(如JSON),由外围系统实际调用工具,并将结果回填给模型,从而实现“知行合一”。

3.3 记忆管理

  • 短期记忆:利用LLM的上下文窗口(如128K tokens)保存当前任务的完整轨迹。

  • 长期记忆:当上下文超长或需要跨会话持久化时,采用向量数据库(如Chroma、Pinecone)存储嵌入式信息,通过检索增强生成(RAG)注入相关记忆。

3.4 多智能体协作

复杂任务可由多个智能体分工协作,各自扮演不同角色(如程序员、测试员、项目经理),通过消息传递协同工作。底层依赖对话管理、任务分配和冲突解决机制。


四、底层技术栈

  • 模型层:GPT-4、Claude、Llama 等支持函数调用的LLM。

  • 框架层:LangChain(编排)、AutoGen(多智能体)、Semantic Kernel(微软)、CrewAI(角色协作)。

  • 工具层:API接口、代码解释器、浏览器、数据库、文件系统。

  • 存储层:向量数据库(Milvus、Pinecone)、Redis(状态缓存)。


五、本质

智能体的底层逻辑本质是:用大模型作为“推理引擎”,将自然语言目标转化为一系列可执行的操作序列,并通过环境反馈进行自适应调整。它并非真正拥有意识,而是通过精心设计的提示、循环、工具调用,模拟了人类的“规划-执行-检查-调整”的工作流。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐