一、AI Agent 是啥

AI Agent(智能体)= 能自主感知、思考、行动,带记忆与工具调用的大模型系统,核心是自主循环决策(不是固定流程),目标是替人完成复杂多步骤任务。
一句话:会自己 “想步骤、调工具、拿结果、再优化” 的数字员工,区别于传统聊天机器人(只能问答、不能动手)。

二、标准结构(五大核心组件)

经典公式:Agent = LLM(大脑)+ 记忆 + 规划 + 工具调用 + 调度循环
1)LLM 大脑(核心)
  • 负责理解、推理、决策、生成计划
  • 主流:GPT-4、Claude、Gemini、Qwen、Llama 等
2)记忆模块(经验)
  • 短期记忆:当前对话上下文(窗口内)
  • 长期记忆:用户画像、历史交互、知识库(向量库存储)
  • 工作记忆:当前任务状态、中间结果
3)规划模块(策略)
  • 把大目标拆成小步骤(CoT/ToT 思维链)
  • 动态排优先级、处理异常、回溯反思
4)工具调用(手脚)
  • 连接外部能力:搜索、数据库、API、代码执行、文件读写
  • LLM 只输出结构化调用请求(JSON),不直接执行
5)调度循环(核心引擎)
  • 无限循环:感知→思考→行动→观察→再思考(ReAct 模式)
  • 直到任务完成或触发终止条件(最大轮数 / 超时 / 预算)

三、调用流程(一步一步走)

以 “查今天南京天气并写一句话总结” 为例:
1. 感知(接收请求)
  • 用户:“查今天南京天气并总结”
  • Agent 加载长期记忆(用户偏好)+ 短期上下文,整理成 Prompt 发给 LLM
2. 思考(决策 & 规划)
  • LLM 推理:需要调用搜索工具,参数:城市 = 南京,日期 = 今天
  • 输出结构化请求:
{"name":"Search","parameters":{"city":"南京","date":"2026-06-11"}}
3. 行动(执行工具)
  • Agent 框架拦截请求,沙箱安全执行(LLM 不碰外部系统)
  • 调用搜索 API,拿到结果:“晴,25–32℃,微风”
4. 观察(结果回传)
  • 把工具结果包装成 “Observation”,追加到对话历史,再次发给 LLM
5. 再思考(生成最终答案)
  • LLM 结合结果,判断无需再调工具,直接生成自然语言:“南京今日晴,气温 25–32℃,体感偏热,适合户外活动。”
6. 输出(结束循环)
  • 返回结果给用户,本轮完成;有新请求则开启下一轮循环

四、和传统聊天机器人的区别

对比项
传统 ChatBot
AI Agent
核心能力
问答、闲聊
自主规划 + 工具执行 + 记忆
信息来源
仅训练数据
训练数据 +
实时 API / 数据库
任务类型
单轮简单问答
多步骤复杂任务
(写报告、订机票、数据分析)
决策方式
固定流程 / 规则
模型动态决定下一步

五、极简代码内核(理解本质)

# 最简 Agent 循环(7行核心)
while True:
    response=llm(messages)  # 思考
    if response.has_tool_calls:
        results=execute(response.tool_calls)  # 行动
        messages.append(results)  # 观察
    else:
        return response.text  # 输出最终答案
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐