中国AI Agent发展现状与生态分析

关键词:AI Agent, 中国AI生态, 大语言模型基座, 自主决策, 工具调用, 多模态Agent, 垂直场景落地

摘要:本文像一场「AI小精灵的城市探险」,从小学生能听懂的「什么是AI Agent」讲起,对比中国与全球AI Agent的核心发展脉络;用ER实体关系图梳理中国AI Agent的五层生态模型——从核心的「大模型基座工厂」到最终的「AI Agent应用超市」;再用数学模型量化自主决策能力、工具调用效率,用Python实现一个极简的垂直场景AI Agent(外卖小哥路线规划+在线点餐助手);最后深入分析中国AI Agent的优势、挑战与未来。全文10000+字,覆盖背景、问题、解决、落地、趋势等完整维度,让技术小白和从业者都能有所收获。


1. 背景介绍:我们要造会「自己动脑子」的AI

1.1 故事引入:从ChatGPT的「传话筒到「会开门买菜做饭陪你下棋的小助手

各位亲爱的读者朋友,有没有玩过「传话游戏」吗?就是一个人对着话筒说出一个复杂任务,比如「给住在北京朝阳区青年路的奶奶,帮奶奶查今天下午3点有雨吗?如果有,取消明天去香山公园的计划,改成看《长安三万里》3D版的票,影院选朝阳大悦城金逸影城3号厅,时间订明天下午2点到4点半,座位选第5排中间三个?
现在的普通大语言模型(比如GPT-4之前的、或者国内早期的小模型),就像传话游戏里只会「只会重复第一步的小朋友:它能听懂你说的每个词,也能说出「今天下午3点朝阳区有雨」「朝阳大悦城金逸影城3号厅明天下午2点20有《长安三万里》3D版有空位,但它不会**自己连起来思考、不会自己去查天气软件、不会自己去订电影票APP——你得一步一步给它下命令:「第一步,查青年路明天的雨;第二步,取消香山计划;第三步,查大悦城3号厅……中间任何一个环节出错(比如天气软件返回的是海淀的雨,它可能还会硬着头皮说朝阳有朝阳的票),这就是「工具依赖的指令链大模型。

而今天我们要讲的AI Agent(中文可以翻译为「智能体」「自主AI助手」「自主AI小精灵」),就像传话游戏里那个最后能自己规划路线、自己应对突发情况、自己完成整个任务链的队长小朋友——他不需要你说每一步,他会自己想「奶奶的任务有几个目标?每个目标需要什么工具?工具用的顺序是什么?如果第一个工具查错了怎么办?比如查完发现朝阳大悦城3号厅2点20的票只有两个中间,要不要问问你选其他位置还是换时间换影院?这种「自主思考、自主行动、自主反馈」的AI,就是我们今天的主角。

1.2 目的和范围

1.2.1 目的
  1. 给**技术小白:用最简单的语言讲清楚「什么是AI Agent」「AI Agent和普通大模型有什么不一样」
  2. 技术从业者:梳理中国AI Agent的五层核心生态模型,分析每一层的玩家、技术、产品、市场占比
  3. 创业者/投资人:找到中国AI Agent的垂直落地黄金赛道,分析挑战与机遇
  4. 给**政策制定者参考:从技术、市场、人才、政策四个维度梳理中国AI Agent的发展现状
1.2.2 范围
  1. 研究时间范围:2022年11月ChatGPT发布(普通大模型爆发的起点)到202X年X月(假设我们现在写的是202X年11月,ChatGPT发布两周年,AI Agent元年的第二年)
  2. 研究地域范围:主要研究**中国本土的AI Agent企业、产品、技术、政策、人才,同时对比全球头部玩家(比如OpenAI的GPT-4o with GPTs、Anthropic的Claude 3 Opus with Workflows、Google的Gemini Advanced with Agents Builder)
  3. 研究技术范围:主要研究**基于大语言模型(LLM)/大视觉语言模型(VLM)/大音频模型(ALM)/多模态大模型(MM-LLM)的通用AI Agent和垂直AI Agent,不研究基于强化学习(RL)的传统AI Agent(比如AlphaGo、AlphaFold)
  4. 研究产品范围:主要研究**to C的通用AI Agent(比如豆包4.0 with Agent、文心一言4.0 with Workspace、通义千问3.0 with Agent Studio)、to B/to G的垂直AI Agent(比如阿里云通义千问金融Agent、华为云盘古气象Agent、腾讯云智绘文档Agent)、AI Agent开发平台(比如字节跳动的Coze、百度的文心千帆Agent Studio、阿里巴巴的通义千问Agent Studio、腾讯的混元Agent开发平台)

1.3 预期读者

  1. **技术小白:对AI感兴趣,想了解AI最新发展的普通人
  2. **技术从业者:软件工程师、AI工程师、产品经理、UI/UX设计师
  3. **创业者/投资人:寻找AI创业项目的创业者、天使投资人、风险投资人
  4. **政策制定者参考:科技部、工信部、发改委、教育部等相关部门的工作人员
  5. **学生:计算机科学与技术、人工智能、软件工程等相关专业的本科生、硕士生、博士生

1.4 文档结构概述

本文就像一场「AI小精灵的中国城市探险」,我们会按以下路线走:

  1. 第一站(第1章): 到「探险队集合点」,介绍背景,认识「什么是AI Agent」的预热
  2. 第二站(第2章): 到「探险队装备库」,梳理AI Agent的核心概念、核心属性、核心架构、核心算法、核心数学模型
  3. 第三站(第3章): 到「全球AI小精灵城市」,对比中国与全球AI Agent的发展历史、核心玩家、核心产品、核心技术
  4. 第四站(第4章): 到「中国AI小精灵生态工厂」,用五层生态模型梳理中国AI Agent的每一层(从核心的大模型基座工厂到最终的AI Agent应用超市)
  5. 第五站(第5章): 到「数学模型实验室」,用数学模型量化AI Agent的自主决策能力、工具调用效率
  6. 第六站(第6章): 到「代码实践基地」,用Python实现一个极简的垂直场景AI Agent(外卖小哥路线规划+在线点餐助手)
  7. 第七站(第7章): 到「垂直场景应用区」,分析中国AI Agent在金融、教育、医疗、政务、电商、物流、文娱等黄金赛道的落地情况
  8. 第八站(第8章): 到「中国AI小精灵优势与挑战墙」,分析中国AI Agent的优势、挑战
  9. 第九站(第9章): 到「未来发展趋势馆」,预测中国AI Agent的未来发展趋势
  10. 第十站(第10章): 到「探险总结大会」,总结本文的主要内容
  11. 第十一站(第11章): 到「小脑筋动一动区」,提出一些思考题
  12. 第十二站(第12章): 到「常见问题解答站」,解答一些常见问题
  13. 第十三站(第13章): 到「扩展阅读与参考资料站」,列出一些扩展阅读与参考资料

1.5 术语表

1.5.1 核心术语定义
  1. AI Agent(智能体/自主AI助手/自主AI小精灵): 一种基于大模型(LLM/VLM/ALM/MM-LLM)的AI系统,它具有感知环境、自主思考、自主行动、自主反馈的四大核心能力,能够独立完成用户指定的复杂任务链。
  2. 感知环境:AI Agent能够通过文本、图像、音频、视频、传感器数据等多种方式感知外部环境和内部状态的变化。
  3. 自主思考:AI Agent能够根据用户的任务目标、感知到的环境和内部状态的变化,自主规划任务链、自主调整任务链、自主解决任务链中的问题。
  4. 自主行动:AI Agent能够通过工具调用(API调用)、物理操作(比如控制机器人、控制智能家居设备)等多种方式执行任务链。
  5. 自主反馈:AI Agent能够将任务链的执行情况、执行结果、遇到的问题等反馈给用户。
  6. 大语言模型(LLM):一种基于Transformer架构的深度学习模型,能够理解和生成人类语言。
  7. 大视觉语言模型(VLM):一种基于Transformer架构的深度学习模型,能够理解和生成文本和图像。
  8. **多模态大模型(MM-LLM):一种基于Transformer架构的深度学习模型,能够理解和生成文本、图像、音频、视频等多种模态的数据。
  9. **工具调用(API调用):AI Agent通过调用外部软件、外部服务、外部API的方式执行任务链。
  10. **任务链规划(Task Chain Planning):AI Agent根据用户的任务目标,将复杂任务分解成多个子任务,然后规划子任务的执行顺序。
  11. **反思(Reflection):AI Agent根据任务链的执行情况、执行结果、遇到的问题,反思自己的任务链规划是否正确,是否需要调整。
  12. **记忆(Memory):AI Agent能够存储用户的历史对话、任务链的执行情况、执行结果、遇到的问题等信息,以便后续使用。
1.5.2 相关概念解释
  1. 普通大语言模型(指令链大模型): 一种只能理解和生成人类语言,但不能自主规划任务链、不能自主调用工具、不能自主反思、不能自主记忆的AI系统,需要用户一步一步给它下命令。
  2. GPTs(OpenAI的通用AI Agent开发平台): OpenAI推出的通用AI Agent开发平台,用户可以通过拖拽的方式创建自己的通用AI Agent,不需要编写代码。
  3. Workflows(Anthropic的任务链规划工具): Anthropic推出的任务链规划工具,用户可以通过可视化的方式规划任务链,然后让Claude 3 Opus执行。
  4. Coze(字节跳动的通用AI Agent开发平台): 字节跳动推出的通用AI Agent开发平台,用户可以通过拖拽的方式创建自己的通用AI Agent,不需要编写代码,也可以通过Python编写代码扩展功能。
  5. Prompt Engineering(提示词工程): 一种通过编写提示词(Prompt)来引导大模型/AI Agent完成任务的技术。
1.5.3 缩略词列表
  1. AI: Artificial Intelligence(人工智能)
  2. LLM: Large Language Model(大语言模型)
  3. VLM: Vision-Language Model(大视觉语言模型)
  4. MM-LLM: Multi-Modal Large Language Model(多模态大模型)
  5. API: Application Programming Interface(应用程序编程接口)
  6. Transformer: 一种深度学习架构,是大模型的核心
  7. GPT: Generative Pre-trained Transformer(生成式预训练Transformer)
  8. Claude: Anthropic推出的大语言模型
  9. Gemini: Google推出的多模态大模型
  10. Coze: 字节跳动推出的通用AI Agent开发平台
  11. Workspace: 百度推出的通用AI Agent开发平台
  12. Agent Studio: 阿里巴巴推出的通用AI Agent开发平台
  13. 混元: 腾讯推出的大语言模型
  14. 豆包: 字节跳动推出的通用AI大模型产品
  15. 文心一言: 百度推出的通用AI大模型产品
  16. 通义千问: 阿里巴巴推出的通用AI大模型产品

2. 核心概念与联系:AI小精灵的四大核心能力和身体结构

2.1 故事引入:AI小精灵小美的一天

各位亲爱的读者朋友,今天我们要介绍一个AI小精灵小美,她住在北京市海淀区中关村的一个公寓里,她的主人是小明——一个在字节跳动做产品经理的年轻人。让我们看看小美今天的一天是怎么过的:

  1. 感知环境(早上7点): 小美通过小明的手机闹钟感知到早上7点了,通过窗外的摄像头感知到今天是晴天,通过小明的日历感知到今天是星期二,小明今天上午9点有一个重要的产品评审会,下午2点有一个客户拜访。
  2. 自主思考(早上7点01分): 小美根据感知到的信息,自主规划今天的任务链:
    a. 第一步: 叫醒小明,播放轻快的音乐
    b. 第二步: 给小明准备早餐推荐菜单(小明喜欢吃清淡的,最近在减肥,需要低热量高蛋白的)
    c. 第三步: 帮小明查今天上午9点产品评审会的路线(小明住在海淀区中关村,产品评审会在朝阳区国贸三期,需要查地铁+共享单车+步行的路线,查地铁的拥挤程度,查共享单车的数量,查需要的时间,确保小明能提前10分钟到达)
    d. 第四步: 帮小明把今天上午9点产品评审会的PPT检查一遍(有没有错别字、有没有格式错误、有没有逻辑错误、有没有数据错误)
    e. 第五步: 帮小明准备今天下午2点客户拜访的资料(客户是阿里巴巴的,需要整理小明之前和客户的所有对话记录,整理产品的最新功能,整理产品的成功案例,整理产品的报价单)
    f. 第六步: 提醒小明下午1点半出门去客户拜访
  3. 自主行动(早上7点02分开始):
    a. 第一步行动: 调用小明的手机闹钟播放器,播放轻快的音乐《小幸运》
    b. 第二步行动: 调用美团外卖的API,给小明推荐低热量高蛋白的早餐菜单(比如全麦面包、水煮鸡胸肉、水煮鸡蛋、无糖豆浆)
    c. 第三步行动: 调用高德地图的API,查今天上午9点产品评审会的路线(地铁4号线转地铁10号线,国贸站C口出,骑共享单车5分钟到国贸三期,需要的时间是1小时20分钟,地铁4号线中关村站到海淀黄庄站比较拥挤,建议提前5分钟出门,总共需要提前1小时30分钟出门,也就是早上7点30分出门)
    d. 第四步行动: 调用Microsoft 365的API,打开小明今天上午9点产品评审会的PPT,检查一遍(发现有一个错别字:「功能」写成了「工能」,有一个格式错误:第5页的图表标题没有居中,有一个数据错误:第8页的用户增长率写成了200%,应该是20%),然后自动修改这些错误
    e. 第五步行动: 调用飞书的API,整理小明之前和客户的所有对话记录,整理产品的最新功能,整理产品的成功案例,整理产品的报价单,然后生成一个PDF文件,发送到小明的飞书邮箱
    f. 第六步行动: 调用小明的手机闹钟播放器,下午1点半提醒小明出门去客户拜访
  4. 自主反馈(早上7点30分小明出门前、下午1点半小明出门前):
    a. 第一次反馈(早上7点30分小明出门前): 小美告诉小明:「早上好!今天是星期二,晴天,你今天上午9点有一个重要的产品评审会,我已经帮你:1. 播放了《小幸运》;2. 推荐了低热量高蛋白的早餐菜单;3. 查了路线,需要提前1小时30分钟出门,也就是现在出门;4. 检查了PPT,修改了三个错误;5. 整理了客户拜访的资料,发送到了你的飞书邮箱。」
    b. 第二次反馈(下午1点半小明出门前): 小美告诉小明:「你好!现在是下午1点半,你今天下午2点有一个客户拜访,我已经帮你整理了客户拜访的资料,发送到了你的飞书邮箱,建议你现在出门。」

各位亲爱的读者朋友,这就是AI小精灵小美的一天,她具有感知环境、自主思考、自主行动、自主反馈的四大核心能力,这就是AI Agent和普通大模型的最大区别。

2.2 核心概念解释(像给小学生讲故事一样)

2.2.1 核心概念一:感知环境——AI小精灵的眼睛、耳朵、鼻子、舌头、皮肤

各位亲爱的读者朋友,我们人类有眼睛、耳朵、鼻子、舌头、皮肤,能够看到东西、听到声音、闻到气味、尝到味道、摸到东西,这就是我们的**感知环境能力。

AI小精灵小美也有她的「眼睛、耳朵、鼻子、舌头、皮肤」:

  1. 眼睛:小美可以通过文本理解(比如读取你的飞书消息、读取你的PPT、读取你的Excel表格)、图像理解(比如读取你拍的照片、读取窗外的摄像头画面)、视频理解(比如读取你拍的视频、读取你看的电影)等方式「看到」东西。
  2. 耳朵:小美可以通过音频理解(比如听你说的话、听你听的音乐、听你看的视频的声音)等方式「听到」声音。
  3. 鼻子、舌头、皮肤:目前AI小精灵的「鼻子、舌头、皮肤」还不太发达,但未来可能会通过传感器数据理解(比如读取家里的温度传感器、湿度传感器、空气质量传感器的数据)等方式「闻到」气味、「尝到」味道、「摸到」东西。
2.2.2 核心概念二:自主思考——AI小精灵的大脑

各位亲爱的读者朋友,我们人类有大脑,能够思考问题、规划路线、解决问题,这就是我们的**自主思考能力。

AI小精灵小美也有她的「大脑」,她的「大脑」就是**大语言模型(LLM)/大视觉语言模型(VLM)/大音频模型(ALM)/多模态大模型(MM-LLM),她的「大脑」能够:

  1. 理解用户的任务目标:比如理解小明说的「帮我准备今天的一天」。
  2. 将复杂任务分解成多个子任务:比如将「帮我准备今天的一天」分解成「叫醒小明」「给小明准备早餐推荐菜单」「帮小明查路线」「帮小明检查PPT」「帮小明准备客户拜访的资料」「提醒小明出门」等多个子任务。
  3. 规划子任务的执行顺序:比如先「叫醒小明」,再「给小明准备早餐推荐菜单」,再「帮小明查路线」,再「帮小明检查PPT」,再「帮小明准备客户拜访的资料」,再「提醒小明出门」。
  4. 调整子任务的执行顺序:比如如果查路线发现地铁4号线出了故障,需要调整路线,调整子任务的执行顺序(比如先查新的路线,再叫醒小明,再给小明准备早餐推荐菜单)。
  5. 解决子任务中的问题:比如如果查PPT发现有一个数据错误,需要自动修改这个错误。
2.2.3 核心概念三:自主行动——AI小精灵的手、脚

各位亲爱的读者朋友,我们人类有手、脚,能够拿东西、走路、开车,这就是我们的**自主行动能力。

AI小精灵小美也有她的「手、脚」,她的「手、脚」就是**工具调用(API调用)、物理操作(比如控制机器人、控制智能家居设备),她的「手、脚」能够:

  1. 工具调用(API调用):比如调用小明的手机闹钟播放器、调用美团外卖的API、调用高德地图的API、调用Microsoft 365的API、调用飞书的API。
  2. 物理操作(比如控制机器人、控制智能家居设备):目前AI小精灵的「物理操作」还不太发达,但未来可能会通过控制机器人(比如控制扫地机器人扫地、控制送餐机器人送餐)、控制智能家居设备(比如控制空调开关、控制灯光开关、控制窗帘开关)等方式「拿东西」「走路」「开车」。
2.2.4 核心概念四:自主反馈——AI小精灵的嘴巴

各位亲爱的读者朋友,我们人类有嘴巴,能够说话、写字、发消息,这就是我们的**自主反馈能力。

AI小精灵小美也有她的「嘴巴」,她的「嘴巴」就是**文本生成、图像生成、音频生成、视频生成,她的「嘴巴」能够:

  1. 文本生成:比如告诉小明「早上好!今天是星期二,晴天,你今天上午9点有一个重要的产品评审会……」。
  2. 图像生成:比如给小明生成一张今天产品评审会路线的地图。
  3. 音频生成:比如给小明生成一段轻快的音乐。
  4. 视频生成:比如给小明生成一段今天产品评审会的模拟演示视频。
2.2.5 核心概念五:记忆——AI小精灵的日记本

各位亲爱的读者朋友,我们人类有记忆,能够记住过去的事情、记住别人说的话、记住自己做的事情,这就是我们的**记忆能力。

AI小精灵小美也有她的「日记本」,她的「日记本」就是**记忆系统,她的「日记本」能够:

  1. 短期记忆:比如记住今天早上7点叫醒小明的事情、记住今天上午查路线的事情、记住今天上午检查PPT的事情。
  2. 长期记忆:比如记住小明喜欢吃清淡的、最近在减肥、需要低热量高蛋白的早餐、记住小明的生日是10月1日、记住小明之前和阿里巴巴客户的所有对话记录。

2.3 核心概念之间的关系(用小学生能理解的比喻)

各位亲爱的读者朋友,AI小精灵的感知环境、自主思考、自主行动、自主反馈、记忆五大核心能力,就像一个探险队的五个成员,他们一起合作完成任务:

  1. **感知环境(侦察兵):侦察兵负责侦察周围的环境,把侦察到的信息告诉队长。
  2. **记忆(档案管理员):档案管理员负责保管探险队的所有档案,包括之前的探险记录、队员的信息、任务的信息等,随时给队长提供需要的档案。
  3. **自主思考(队长):队长负责根据侦察兵侦察到的信息、档案管理员提供的档案,自主规划任务链、自主调整任务链、自主解决任务链中的问题,然后给队员下达命令。
  4. **自主行动(执行兵):执行兵负责根据队长下达的命令,自主执行任务链。
  5. **自主反馈(通讯员):通讯员负责把执行兵执行任务链的执行情况、执行结果、遇到的问题等反馈给队长,同时也反馈给用户。
2.3.1 感知环境(侦察兵)和记忆(档案管理员)的关系

侦察兵(感知环境)侦察到的信息,会先交给档案管理员(记忆)保管,档案管理员(记忆)会把这些信息分类整理,随时给队长(自主思考)提供需要的信息。比如侦察兵(感知环境)侦察到今天是晴天,档案管理员(记忆)会把这个信息分类整理到「今天的天气」档案里,队长(自主思考)需要的时候会随时查看。

2.3.2 感知环境(侦察兵)和自主思考(队长)的关系

侦察兵(感知环境)会把侦察到的实时信息直接告诉队长(自主思考),队长(自主思考)会根据这些实时信息调整任务链。比如侦察兵(感知环境)侦察到地铁4号线出了故障,会直接告诉队长(自主思考),队长(自主思考)会立即调整路线。

2.3.3 记忆(档案管理员)和自主思考(队长)的关系

档案管理员(记忆)会把之前的探险记录、队员的信息、任务的信息等随时给队长(自主思考)提供需要的信息,队长(自主思考)会根据这些信息规划任务链。比如档案管理员(记忆)会把小明喜欢吃清淡的、最近在减肥、需要低热量高蛋白的早餐的信息提供给队长(自主思考),队长(自主思考)会根据这些信息给小明准备早餐推荐菜单。

2.3.4 自主思考(队长)和自主行动(执行兵)的关系

队长(自主思考)会给执行兵(自主行动)下达命令,执行兵(自主行动)会根据队长(自主思考)下达的命令,自主执行任务链。比如队长(自主思考)会给执行兵(自主行动)下达命令「调用高德地图的API,查今天上午9点产品评审会的路线」,执行兵(自主行动)会自主调用高德地图的API,查路线。

2.3.5 自主行动(执行兵)和自主反馈(通讯员)的关系

执行兵(自主行动)会把执行任务链的执行情况、执行结果、遇到的问题等告诉通讯员(自主反馈),通讯员(自主反馈)会把这些信息反馈给队长(自主思考),同时也反馈给用户。比如执行兵(自主行动)会把查路线的结果告诉通讯员(自主反馈),通讯员(自主反馈)会把这个结果反馈给队长(自主思考),同时也反馈给小明。

2.3.6 自主反馈(通讯员)和自主思考(队长)的关系

通讯员(自主反馈)会把执行任务链的执行情况、执行结果、遇到的问题等反馈给队长(自主思考),队长(自主思考)会根据这些信息反思自己的任务链规划是否正确,是否需要调整。比如通讯员(自主反馈)会把查PPT发现有一个数据错误的信息反馈给队长(自主思考),队长(自主思考)会反思自己的任务链规划是否正确(是不是应该先检查PPT再查路线?),然后调整任务链规划,同时给执行兵(自主行动)下达命令「自动修改这个数据错误」。

2.4 核心概念原理和架构的文本示意图(专业定义)

各位亲爱的读者朋友,现在我们用专业定义来梳理AI Agent的核心概念原理和架构,文本示意图如下:

AI Agent 核心架构文本示意图
=====================================
┌─────────────────────────────────────────────────────────────────────────┐
│                                用户界面层(User Interface Layer)                          │
│  功能:接收用户的任务指令,展示AI Agent的执行结果和反馈信息                      │
│  例子:飞书聊天窗口、微信小程序、APP、网页、机器人屏幕、机器人语音                          │
└─────────────────────────────────────────────────────────────────────────┘
                                        ↓
┌─────────────────────────────────────────────────────────────────────────┐
│                                感知层(Perception Layer)                                      │
│  功能:感知外部环境和内部状态的变化,将感知到的多模态数据转换成文本/结构化数据                      │
│  核心组件:文本理解模块、图像理解模块、音频理解模块、视频理解模块、传感器数据理解模块                      │
│  例子:读取飞书消息、读取PPT、读取Excel表格、读取照片、读取摄像头画面、读取视频、读取温度传感器数据                      │
└─────────────────────────────────────────────────────────────────────────┘
                                        ↓
┌─────────────────────────────────────────────────────────────────────────┐
│                                记忆层(Memory Layer)                                          │
│  功能:存储用户的历史对话、感知到的多模态数据、任务链的执行情况、执行结果、遇到的问题等信息                      │
│  核心组件:短期记忆模块、长期记忆模块、知识图谱模块                      │
│  短期记忆:存储最近的对话、最近的感知数据、最近的任务执行情况(类似人类的工作记忆)                      │
│  长期记忆:存储用户的个人信息、历史偏好、历史任务记录(类似人类的长期记忆)                      │
│  知识图谱:存储通用知识、垂直领域知识(类似人类的知识库)                      │
└─────────────────────────────────────────────────────────────────────────┘
                                        ↓ ↑ 双向交互
┌─────────────────────────────────────────────────────────────────────────┐
│                                决策层(Decision Layer)                                          │
│  功能:根据用户的任务目标、感知到的环境和内部状态的变化、记忆层存储的信息,自主规划任务链、自主调整任务链、自主解决任务链中的问题                      │
│  核心组件:任务理解模块、任务分解模块、任务链规划模块、任务链调整模块、问题解决模块、反思模块                      │
│  核心技术:大语言模型(LLM)/大视觉语言模型(VLM)/多模态大模型(MM-LLM)、强化学习(RL)、思维链(Chain-of-Thought, CoT)、思维树(Tree-of-Thought, ToT)、ReAct(Reasoning + Acting)                      │
└─────────────────────────────────────────────────────────────────────────┘
                                        ↓ ↑ 双向交互
┌─────────────────────────────────────────────────────────────────────────┐
│                                行动层(Action Layer)                                          │
│  功能:根据决策层下达的命令,自主调用工具、自主执行物理操作                      │
│  核心组件:工具调用模块、物理操作模块                      │
│  工具调用模块:调用外部软件、外部服务、外部API(类似人类使用工具)                      │
│  物理操作模块:控制机器人、控制智能家居设备(类似人类使用手、脚)                      │
└─────────────────────────────────────────────────────────────────────────┘
                                        ↓
┌─────────────────────────────────────────────────────────────────────────┐
│                                反馈层(Feedback Layer)                                        │
│  功能:将行动层执行任务链的执行情况、执行结果、遇到的问题等反馈给决策层,同时也反馈给用户界面层                      │
│  核心组件:文本生成模块、图像生成模块、音频生成模块、视频生成模块                      │
└─────────────────────────────────────────────────────────────────────────┘

2.5 概念之间的关系:ER实体关系图、交互关系图

2.5.1 核心属性维度对比markdown表格

各位亲爱的读者朋友,现在我们用核心属性维度对比markdown表格来梳理普通大模型、通用AI Agent、垂直AI Agent的区别:

核心属性维度 普通大模型(指令链大模型) 通用AI Agent(比如GPT-4o with GPTs、豆包4.0 with Agent) 垂直AI Agent(比如通义千问金融Agent、华为云盘古气象Agent)
自主思考能力 无(需要用户一步一步下命令) 有(能够自主规划任务链、自主调整任务链、自主解决问题) 有(在垂直领域内能够自主规划任务链、自主调整任务链、自主解决问题)
工具调用能力 有(但需要用户明确告诉调用哪个工具) 有(能够自主选择工具、自主调用工具) 有(能够自主选择垂直领域内的工具、自主调用工具)
记忆能力 弱(只有短期记忆,一般只有几千个token) 强(有短期记忆和长期记忆,一般有几十万个token甚至更多) 强(有短期记忆和长期记忆,还有垂直领域的知识图谱)
反思能力 无(不会反思自己的任务链规划是否正确) 有(会反思自己的任务链规划是否正确,是否需要调整) 有(会反思自己在垂直领域内的任务链规划是否正确,是否需要调整)
适用场景 简单的单任务(比如写一篇文章、翻译一段话、回答一个问题) 复杂的多任务(比如帮你准备一天的工作、帮你安排一次旅行、帮你管理一个项目) 垂直领域内的复杂多任务(比如帮你分析股票行情、帮你预测天气、帮你诊断疾病)
开发难度 低(只需要提示词工程) 中(可以通过拖拽的方式开发,也可以通过代码扩展功能) 高(需要垂直领域的知识图谱、需要垂直领域的工具、需要垂直领域的训练数据)
准确率 低(在复杂的多任务场景下准确率低) 中(在复杂的多任务场景下准确率中等) 高(在垂直领域内的复杂多任务场景下准确率高)
2.5.2 ER实体关系mermaid架构图

各位亲爱的读者朋友,现在我们用ER实体关系mermaid架构图来梳理AI Agent生态中的核心实体和它们之间的关系:

使用

反馈

使用

开发

调用

调用

提供

提供

应用于

提供垂直领域工具

USER

string

user_id

string

user_name

string

user_preference

string

user_history

AI_AGENT

string

agent_id

string

agent_name

string

agent_type

string

agent_capabilities

string

agent_price

DEVELOPER

string

developer_id

string

developer_name

string

developer_skill

AI_AGENT_DEVELOPMENT_PLATFORM

string

platform_id

string

platform_name

string

platform_type

string

platform_features

LARGE_MODEL_BASE

string

model_id

string

model_name

string

model_type

string

model_capabilities

string

model_price

TOOL_MARKETPLACE

string

marketplace_id

string

marketplace_name

string

marketplace_tools

VERTICAL_SCENARIO

string

scenario_id

string

scenario_name

string

scenario_requirements

2.5.3 交互关系mermaid流程图

各位亲爱的读者朋友,现在我们用交互关系mermaid流程图来梳理AI Agent的核心交互流程:

用户输入任务指令

AI Agent用户界面层接收任务指令

AI Agent感知层理解任务指令

AI Agent记忆层存储任务指令

AI Agent决策层从记忆层获取任务指令和相关信息

AI Agent决策层理解任务目标

AI Agent决策层将复杂任务分解成多个子任务

AI Agent决策层规划子任务的执行顺序

AI Agent决策层给行动层下达执行第一个子任务的命令

AI Agent行动层从工具市场调用需要的工具

AI Agent行动层执行第一个子任务

AI Agent反馈层将第一个子任务的执行情况执行结果遇到的问题反馈给决策层

决策层判断第一个子任务是否成功

决策层判断是否还有子任务

AI Agent反馈层将所有子任务的执行结果反馈给用户界面层

AI Agent用户界面层展示所有子任务的执行结果给用户

AI Agent决策层反思失败原因

AI Agent决策层调整子任务的执行顺序或调整子任务或更换工具


3. 核心算法原理 & 具体操作步骤:AI小精灵的大脑是怎么工作的

3.1 故事引入:AI小精灵小美是怎么帮小明查路线的

各位亲爱的读者朋友,在第2章我们介绍了AI小精灵小美的一天,现在我们来看小美是怎么帮小明查路线的,这个过程中用到了AI Agent的核心算法——ReAct(Reasoning + Acting,推理+行动)算法。让我们用小学生能听懂的语言来解释这个过程:

  1. Reasoning(推理): 小美想:「小明的任务目标是查今天上午9点产品评审会的路线,从海淀区中关村到朝阳区国贸三期,需要查地铁+共享单车+步行的路线,查地铁的拥挤程度,查共享单车的数量,查需要的时间,确保小明能提前10分钟到达。首先我需要调用高德地图的API,输入起点是海淀区中关村,终点是朝阳区国贸三期,出行方式是地铁+共享单车+步行,时间是今天上午9点到达。
  2. Acting(行动): 小美调用了高德地图的API,输入了这些参数。
  3. Reasoning(推理): 小美看了高德地图API返回的结果:「地铁4号线转地铁10号线,国贸站C口出,骑共享单车5分钟到国贸三期,需要的时间是1小时20分钟,地铁4号线中关村站到海淀黄庄站比较拥挤,建议提前5分钟出门,总共需要提前1小时30分钟出门,也就是早上7点30分出门。」这个结果符合小明的要求吗?是的,符合小明的要求,提前10分钟到达国贸三期。
  4. Acting(行动): 小美把这个结果告诉了小明。

各位亲爱的读者朋友,这就是ReAct算法的核心思想——一边推理,一边行动,一边根据行动的结果继续推理,一边根据推理的结果继续行动,直到完成任务。

3.2 核心算法原理讲解:ReAct算法

3.2.1 什么是ReAct算法

ReAct算法是2022年10月由Google Research和普林斯顿大学联合提出的一种AI Agent核心算法,它的核心思想是将推理(Reasoning)和行动(Acting)结合起来,让AI Agent能够一边推理,一边行动,一边根据行动的结果继续推理,一边根据推理的结果继续行动,直到完成任务。

ReAct算法的提出,解决了普通大模型的两个核心问题:

  1. **幻觉问题(Hallucination Problem):普通大模型经常会编造一些不存在的信息,比如编造一个不存在的公司名称、编造一个不存在的电话号码、编造一个不存在的数据。ReAct算法通过让AI Agent调用外部工具,获取真实的信息,从而减少幻觉问题。
  2. **任务链规划问题:普通大模型不能自主规划任务链,需要用户一步一步下命令。ReAct算法通过让AI Agent一边推理,一边行动,自主规划任务链,自主调整任务链,自主解决任务链中的问题,从而解决了任务链规划问题。
3.2.2 ReAct算法的数学原理

各位亲爱的读者朋友,现在我们用数学原理来梳理ReAct算法的工作原理,数学公式如下:

ReAct算法的目标是最大化任务完成的概率,可以表示为:

P(Task Complete∣Task Instruction)=∏t=1TP(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)×P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction) P(\text{Task Complete} | \text{Task Instruction}) = \prod_{t=1}^{T} P(a_t | r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction}) \times P(r_t | a_t, r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction}) P(Task CompleteTask Instruction)=t=1TP(atr1,a1,r2,a2,...,rt1,at1,Task Instruction)×P(rtat,r1,a1,r2,a2,...,rt1,at1,Task Instruction)

其中:

  • Task Instruction\text{Task Instruction}Task Instruction:用户的任务指令
  • TTT:任务链的总步数
  • ata_tat:第ttt步的行动(比如调用高德地图的API)
  • rtr_trt:第ttt步的行动结果(比如高德地图API返回的结果)
  • P(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)P(a_t | r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction})P(atr1,a1,r2,a2,...,rt1,at1,Task Instruction):第ttt步的行动概率(比如根据之前的推理和行动结果,选择调用高德地图的API的概率)
  • P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)P(r_t | a_t, r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction})P(rtat,r1,a1,r2,a2,...,rt1,at1,Task Instruction):第ttt步的行动结果概率(比如调用高德地图的API后,返回符合要求的结果的概率)

各位亲爱的读者朋友,这个数学公式看起来可能有点复杂,但其实它的核心思想很简单——**每一步的行动都是根据之前的推理和行动结果来选择的,每一步的行动结果都是根据之前的行动来生成的,直到完成任务。

3.2.3 ReAct算法的具体操作步骤

各位亲爱的读者朋友,现在我们用具体操作步骤来梳理ReAct算法的工作流程,具体操作步骤如下:

  1. 步骤1:初始化
    a. 接收用户的任务指令
    b. 初始化短期记忆和长期记忆
    c. 设置任务完成的标志为False
    d. 设置当前步数为1

  2. 步骤2:推理(Reasoning)
    a. 从短期记忆和长期记忆中获取之前的推理、行动、行动结果
    b. 理解当前的任务状态
    c. 生成下一步的行动(比如调用哪个工具,输入什么参数)
    d. 将推理结果存储到短期记忆中

  3. 步骤3:行动(Acting)
    a. 执行下一步的行动(比如调用工具)
    b. 获取行动的结果
    c. 将行动结果存储到短期记忆中

  4. 步骤4:判断(Judge)
    a. 判断任务是否完成
    b. 如果任务完成,设置任务完成的标志为True,跳转到步骤6
    c. 如果任务没有完成,跳转到步骤5

  5. 步骤5:调整(Adjust)
    a. 反思任务失败的原因
    b. 调整下一步的行动(比如更换工具,调整参数)
    c. 将调整结果存储到短期记忆中
    d. 当前步数加1,跳转到步骤2

  6. 步骤6:结束(End)
    a. 将所有的推理、行动、行动结果存储到长期记忆中
    b. 将最终的行动结果反馈给用户

3.3 核心算法原理讲解:思维链(Chain-of-Thought, CoT)算法

各位亲爱的读者朋友,除了ReAct算法,思维链(Chain-of-Thought, CoT)算法也是AI Agent的核心算法之一,它的核心思想是让大模型/AI Agent在推理的过程中,把自己的推理过程说出来,从而提高推理的准确率。

3.3.1 什么是思维链(Chain-of-Thought, CoT)算法

思维链(Chain-of-Thought, CoT)算法是2022年5月由Google Research提出的一种大模型/AI Agent核心算法,它的核心思想是在提示词中加入几个示例,让大模型/AI Agent在推理的过程中,把自己的推理过程说出来,从而提高推理的准确率。

3.3.2 思维链(Chain-of-Thought, CoT)算法的具体操作步骤

各位亲爱的读者朋友,现在我们用具体操作步骤来梳理思维链(Chain-of-Thought, CoT)算法的工作流程,具体操作步骤如下:

  1. **步骤1:准备
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐