中国AI Agent发展现状与生态分析
中国AI Agent发展现状与生态分析
关键词:AI Agent, 中国AI生态, 大语言模型基座, 自主决策, 工具调用, 多模态Agent, 垂直场景落地
摘要:本文像一场「AI小精灵的城市探险」,从小学生能听懂的「什么是AI Agent」讲起,对比中国与全球AI Agent的核心发展脉络;用ER实体关系图梳理中国AI Agent的五层生态模型——从核心的「大模型基座工厂」到最终的「AI Agent应用超市」;再用数学模型量化自主决策能力、工具调用效率,用Python实现一个极简的垂直场景AI Agent(外卖小哥路线规划+在线点餐助手);最后深入分析中国AI Agent的优势、挑战与未来。全文10000+字,覆盖背景、问题、解决、落地、趋势等完整维度,让技术小白和从业者都能有所收获。
1. 背景介绍:我们要造会「自己动脑子」的AI
1.1 故事引入:从ChatGPT的「传话筒到「会开门买菜做饭陪你下棋的小助手
各位亲爱的读者朋友,有没有玩过「传话游戏」吗?就是一个人对着话筒说出一个复杂任务,比如「给住在北京朝阳区青年路的奶奶,帮奶奶查今天下午3点有雨吗?如果有,取消明天去香山公园的计划,改成看《长安三万里》3D版的票,影院选朝阳大悦城金逸影城3号厅,时间订明天下午2点到4点半,座位选第5排中间三个?
现在的普通大语言模型(比如GPT-4之前的、或者国内早期的小模型),就像传话游戏里只会「只会重复第一步的小朋友:它能听懂你说的每个词,也能说出「今天下午3点朝阳区有雨」「朝阳大悦城金逸影城3号厅明天下午2点20有《长安三万里》3D版有空位,但它不会**自己连起来思考、不会自己去查天气软件、不会自己去订电影票APP——你得一步一步给它下命令:「第一步,查青年路明天的雨;第二步,取消香山计划;第三步,查大悦城3号厅……中间任何一个环节出错(比如天气软件返回的是海淀的雨,它可能还会硬着头皮说朝阳有朝阳的票),这就是「工具依赖的指令链大模型。
而今天我们要讲的AI Agent(中文可以翻译为「智能体」「自主AI助手」「自主AI小精灵」),就像传话游戏里那个最后能自己规划路线、自己应对突发情况、自己完成整个任务链的队长小朋友——他不需要你说每一步,他会自己想「奶奶的任务有几个目标?每个目标需要什么工具?工具用的顺序是什么?如果第一个工具查错了怎么办?比如查完发现朝阳大悦城3号厅2点20的票只有两个中间,要不要问问你选其他位置还是换时间换影院?这种「自主思考、自主行动、自主反馈」的AI,就是我们今天的主角。
1.2 目的和范围
1.2.1 目的
- 给**技术小白:用最简单的语言讲清楚「什么是AI Agent」「AI Agent和普通大模型有什么不一样」
- 给技术从业者:梳理中国AI Agent的五层核心生态模型,分析每一层的玩家、技术、产品、市场占比
- 给创业者/投资人:找到中国AI Agent的垂直落地黄金赛道,分析挑战与机遇
- 给**政策制定者参考:从技术、市场、人才、政策四个维度梳理中国AI Agent的发展现状
1.2.2 范围
- 研究时间范围:2022年11月ChatGPT发布(普通大模型爆发的起点)到202X年X月(假设我们现在写的是202X年11月,ChatGPT发布两周年,AI Agent元年的第二年)
- 研究地域范围:主要研究**中国本土的AI Agent企业、产品、技术、政策、人才,同时对比全球头部玩家(比如OpenAI的GPT-4o with GPTs、Anthropic的Claude 3 Opus with Workflows、Google的Gemini Advanced with Agents Builder)
- 研究技术范围:主要研究**基于大语言模型(LLM)/大视觉语言模型(VLM)/大音频模型(ALM)/多模态大模型(MM-LLM)的通用AI Agent和垂直AI Agent,不研究基于强化学习(RL)的传统AI Agent(比如AlphaGo、AlphaFold)
- 研究产品范围:主要研究**to C的通用AI Agent(比如豆包4.0 with Agent、文心一言4.0 with Workspace、通义千问3.0 with Agent Studio)、to B/to G的垂直AI Agent(比如阿里云通义千问金融Agent、华为云盘古气象Agent、腾讯云智绘文档Agent)、AI Agent开发平台(比如字节跳动的Coze、百度的文心千帆Agent Studio、阿里巴巴的通义千问Agent Studio、腾讯的混元Agent开发平台)
1.3 预期读者
- **技术小白:对AI感兴趣,想了解AI最新发展的普通人
- **技术从业者:软件工程师、AI工程师、产品经理、UI/UX设计师
- **创业者/投资人:寻找AI创业项目的创业者、天使投资人、风险投资人
- **政策制定者参考:科技部、工信部、发改委、教育部等相关部门的工作人员
- **学生:计算机科学与技术、人工智能、软件工程等相关专业的本科生、硕士生、博士生
1.4 文档结构概述
本文就像一场「AI小精灵的中国城市探险」,我们会按以下路线走:
- 第一站(第1章): 到「探险队集合点」,介绍背景,认识「什么是AI Agent」的预热
- 第二站(第2章): 到「探险队装备库」,梳理AI Agent的核心概念、核心属性、核心架构、核心算法、核心数学模型
- 第三站(第3章): 到「全球AI小精灵城市」,对比中国与全球AI Agent的发展历史、核心玩家、核心产品、核心技术
- 第四站(第4章): 到「中国AI小精灵生态工厂」,用五层生态模型梳理中国AI Agent的每一层(从核心的大模型基座工厂到最终的AI Agent应用超市)
- 第五站(第5章): 到「数学模型实验室」,用数学模型量化AI Agent的自主决策能力、工具调用效率
- 第六站(第6章): 到「代码实践基地」,用Python实现一个极简的垂直场景AI Agent(外卖小哥路线规划+在线点餐助手)
- 第七站(第7章): 到「垂直场景应用区」,分析中国AI Agent在金融、教育、医疗、政务、电商、物流、文娱等黄金赛道的落地情况
- 第八站(第8章): 到「中国AI小精灵优势与挑战墙」,分析中国AI Agent的优势、挑战
- 第九站(第9章): 到「未来发展趋势馆」,预测中国AI Agent的未来发展趋势
- 第十站(第10章): 到「探险总结大会」,总结本文的主要内容
- 第十一站(第11章): 到「小脑筋动一动区」,提出一些思考题
- 第十二站(第12章): 到「常见问题解答站」,解答一些常见问题
- 第十三站(第13章): 到「扩展阅读与参考资料站」,列出一些扩展阅读与参考资料
1.5 术语表
1.5.1 核心术语定义
- AI Agent(智能体/自主AI助手/自主AI小精灵): 一种基于大模型(LLM/VLM/ALM/MM-LLM)的AI系统,它具有感知环境、自主思考、自主行动、自主反馈的四大核心能力,能够独立完成用户指定的复杂任务链。
- 感知环境:AI Agent能够通过文本、图像、音频、视频、传感器数据等多种方式感知外部环境和内部状态的变化。
- 自主思考:AI Agent能够根据用户的任务目标、感知到的环境和内部状态的变化,自主规划任务链、自主调整任务链、自主解决任务链中的问题。
- 自主行动:AI Agent能够通过工具调用(API调用)、物理操作(比如控制机器人、控制智能家居设备)等多种方式执行任务链。
- 自主反馈:AI Agent能够将任务链的执行情况、执行结果、遇到的问题等反馈给用户。
- 大语言模型(LLM):一种基于Transformer架构的深度学习模型,能够理解和生成人类语言。
- 大视觉语言模型(VLM):一种基于Transformer架构的深度学习模型,能够理解和生成文本和图像。
- **多模态大模型(MM-LLM):一种基于Transformer架构的深度学习模型,能够理解和生成文本、图像、音频、视频等多种模态的数据。
- **工具调用(API调用):AI Agent通过调用外部软件、外部服务、外部API的方式执行任务链。
- **任务链规划(Task Chain Planning):AI Agent根据用户的任务目标,将复杂任务分解成多个子任务,然后规划子任务的执行顺序。
- **反思(Reflection):AI Agent根据任务链的执行情况、执行结果、遇到的问题,反思自己的任务链规划是否正确,是否需要调整。
- **记忆(Memory):AI Agent能够存储用户的历史对话、任务链的执行情况、执行结果、遇到的问题等信息,以便后续使用。
1.5.2 相关概念解释
- 普通大语言模型(指令链大模型): 一种只能理解和生成人类语言,但不能自主规划任务链、不能自主调用工具、不能自主反思、不能自主记忆的AI系统,需要用户一步一步给它下命令。
- GPTs(OpenAI的通用AI Agent开发平台): OpenAI推出的通用AI Agent开发平台,用户可以通过拖拽的方式创建自己的通用AI Agent,不需要编写代码。
- Workflows(Anthropic的任务链规划工具): Anthropic推出的任务链规划工具,用户可以通过可视化的方式规划任务链,然后让Claude 3 Opus执行。
- Coze(字节跳动的通用AI Agent开发平台): 字节跳动推出的通用AI Agent开发平台,用户可以通过拖拽的方式创建自己的通用AI Agent,不需要编写代码,也可以通过Python编写代码扩展功能。
- Prompt Engineering(提示词工程): 一种通过编写提示词(Prompt)来引导大模型/AI Agent完成任务的技术。
1.5.3 缩略词列表
- AI: Artificial Intelligence(人工智能)
- LLM: Large Language Model(大语言模型)
- VLM: Vision-Language Model(大视觉语言模型)
- MM-LLM: Multi-Modal Large Language Model(多模态大模型)
- API: Application Programming Interface(应用程序编程接口)
- Transformer: 一种深度学习架构,是大模型的核心
- GPT: Generative Pre-trained Transformer(生成式预训练Transformer)
- Claude: Anthropic推出的大语言模型
- Gemini: Google推出的多模态大模型
- Coze: 字节跳动推出的通用AI Agent开发平台
- Workspace: 百度推出的通用AI Agent开发平台
- Agent Studio: 阿里巴巴推出的通用AI Agent开发平台
- 混元: 腾讯推出的大语言模型
- 豆包: 字节跳动推出的通用AI大模型产品
- 文心一言: 百度推出的通用AI大模型产品
- 通义千问: 阿里巴巴推出的通用AI大模型产品
2. 核心概念与联系:AI小精灵的四大核心能力和身体结构
2.1 故事引入:AI小精灵小美的一天
各位亲爱的读者朋友,今天我们要介绍一个AI小精灵小美,她住在北京市海淀区中关村的一个公寓里,她的主人是小明——一个在字节跳动做产品经理的年轻人。让我们看看小美今天的一天是怎么过的:
- 感知环境(早上7点): 小美通过小明的手机闹钟感知到早上7点了,通过窗外的摄像头感知到今天是晴天,通过小明的日历感知到今天是星期二,小明今天上午9点有一个重要的产品评审会,下午2点有一个客户拜访。
- 自主思考(早上7点01分): 小美根据感知到的信息,自主规划今天的任务链:
a. 第一步: 叫醒小明,播放轻快的音乐
b. 第二步: 给小明准备早餐推荐菜单(小明喜欢吃清淡的,最近在减肥,需要低热量高蛋白的)
c. 第三步: 帮小明查今天上午9点产品评审会的路线(小明住在海淀区中关村,产品评审会在朝阳区国贸三期,需要查地铁+共享单车+步行的路线,查地铁的拥挤程度,查共享单车的数量,查需要的时间,确保小明能提前10分钟到达)
d. 第四步: 帮小明把今天上午9点产品评审会的PPT检查一遍(有没有错别字、有没有格式错误、有没有逻辑错误、有没有数据错误)
e. 第五步: 帮小明准备今天下午2点客户拜访的资料(客户是阿里巴巴的,需要整理小明之前和客户的所有对话记录,整理产品的最新功能,整理产品的成功案例,整理产品的报价单)
f. 第六步: 提醒小明下午1点半出门去客户拜访 - 自主行动(早上7点02分开始):
a. 第一步行动: 调用小明的手机闹钟播放器,播放轻快的音乐《小幸运》
b. 第二步行动: 调用美团外卖的API,给小明推荐低热量高蛋白的早餐菜单(比如全麦面包、水煮鸡胸肉、水煮鸡蛋、无糖豆浆)
c. 第三步行动: 调用高德地图的API,查今天上午9点产品评审会的路线(地铁4号线转地铁10号线,国贸站C口出,骑共享单车5分钟到国贸三期,需要的时间是1小时20分钟,地铁4号线中关村站到海淀黄庄站比较拥挤,建议提前5分钟出门,总共需要提前1小时30分钟出门,也就是早上7点30分出门)
d. 第四步行动: 调用Microsoft 365的API,打开小明今天上午9点产品评审会的PPT,检查一遍(发现有一个错别字:「功能」写成了「工能」,有一个格式错误:第5页的图表标题没有居中,有一个数据错误:第8页的用户增长率写成了200%,应该是20%),然后自动修改这些错误
e. 第五步行动: 调用飞书的API,整理小明之前和客户的所有对话记录,整理产品的最新功能,整理产品的成功案例,整理产品的报价单,然后生成一个PDF文件,发送到小明的飞书邮箱
f. 第六步行动: 调用小明的手机闹钟播放器,下午1点半提醒小明出门去客户拜访 - 自主反馈(早上7点30分小明出门前、下午1点半小明出门前):
a. 第一次反馈(早上7点30分小明出门前): 小美告诉小明:「早上好!今天是星期二,晴天,你今天上午9点有一个重要的产品评审会,我已经帮你:1. 播放了《小幸运》;2. 推荐了低热量高蛋白的早餐菜单;3. 查了路线,需要提前1小时30分钟出门,也就是现在出门;4. 检查了PPT,修改了三个错误;5. 整理了客户拜访的资料,发送到了你的飞书邮箱。」
b. 第二次反馈(下午1点半小明出门前): 小美告诉小明:「你好!现在是下午1点半,你今天下午2点有一个客户拜访,我已经帮你整理了客户拜访的资料,发送到了你的飞书邮箱,建议你现在出门。」
各位亲爱的读者朋友,这就是AI小精灵小美的一天,她具有感知环境、自主思考、自主行动、自主反馈的四大核心能力,这就是AI Agent和普通大模型的最大区别。
2.2 核心概念解释(像给小学生讲故事一样)
2.2.1 核心概念一:感知环境——AI小精灵的眼睛、耳朵、鼻子、舌头、皮肤
各位亲爱的读者朋友,我们人类有眼睛、耳朵、鼻子、舌头、皮肤,能够看到东西、听到声音、闻到气味、尝到味道、摸到东西,这就是我们的**感知环境能力。
AI小精灵小美也有她的「眼睛、耳朵、鼻子、舌头、皮肤」:
- 眼睛:小美可以通过文本理解(比如读取你的飞书消息、读取你的PPT、读取你的Excel表格)、图像理解(比如读取你拍的照片、读取窗外的摄像头画面)、视频理解(比如读取你拍的视频、读取你看的电影)等方式「看到」东西。
- 耳朵:小美可以通过音频理解(比如听你说的话、听你听的音乐、听你看的视频的声音)等方式「听到」声音。
- 鼻子、舌头、皮肤:目前AI小精灵的「鼻子、舌头、皮肤」还不太发达,但未来可能会通过传感器数据理解(比如读取家里的温度传感器、湿度传感器、空气质量传感器的数据)等方式「闻到」气味、「尝到」味道、「摸到」东西。
2.2.2 核心概念二:自主思考——AI小精灵的大脑
各位亲爱的读者朋友,我们人类有大脑,能够思考问题、规划路线、解决问题,这就是我们的**自主思考能力。
AI小精灵小美也有她的「大脑」,她的「大脑」就是**大语言模型(LLM)/大视觉语言模型(VLM)/大音频模型(ALM)/多模态大模型(MM-LLM),她的「大脑」能够:
- 理解用户的任务目标:比如理解小明说的「帮我准备今天的一天」。
- 将复杂任务分解成多个子任务:比如将「帮我准备今天的一天」分解成「叫醒小明」「给小明准备早餐推荐菜单」「帮小明查路线」「帮小明检查PPT」「帮小明准备客户拜访的资料」「提醒小明出门」等多个子任务。
- 规划子任务的执行顺序:比如先「叫醒小明」,再「给小明准备早餐推荐菜单」,再「帮小明查路线」,再「帮小明检查PPT」,再「帮小明准备客户拜访的资料」,再「提醒小明出门」。
- 调整子任务的执行顺序:比如如果查路线发现地铁4号线出了故障,需要调整路线,调整子任务的执行顺序(比如先查新的路线,再叫醒小明,再给小明准备早餐推荐菜单)。
- 解决子任务中的问题:比如如果查PPT发现有一个数据错误,需要自动修改这个错误。
2.2.3 核心概念三:自主行动——AI小精灵的手、脚
各位亲爱的读者朋友,我们人类有手、脚,能够拿东西、走路、开车,这就是我们的**自主行动能力。
AI小精灵小美也有她的「手、脚」,她的「手、脚」就是**工具调用(API调用)、物理操作(比如控制机器人、控制智能家居设备),她的「手、脚」能够:
- 工具调用(API调用):比如调用小明的手机闹钟播放器、调用美团外卖的API、调用高德地图的API、调用Microsoft 365的API、调用飞书的API。
- 物理操作(比如控制机器人、控制智能家居设备):目前AI小精灵的「物理操作」还不太发达,但未来可能会通过控制机器人(比如控制扫地机器人扫地、控制送餐机器人送餐)、控制智能家居设备(比如控制空调开关、控制灯光开关、控制窗帘开关)等方式「拿东西」「走路」「开车」。
2.2.4 核心概念四:自主反馈——AI小精灵的嘴巴
各位亲爱的读者朋友,我们人类有嘴巴,能够说话、写字、发消息,这就是我们的**自主反馈能力。
AI小精灵小美也有她的「嘴巴」,她的「嘴巴」就是**文本生成、图像生成、音频生成、视频生成,她的「嘴巴」能够:
- 文本生成:比如告诉小明「早上好!今天是星期二,晴天,你今天上午9点有一个重要的产品评审会……」。
- 图像生成:比如给小明生成一张今天产品评审会路线的地图。
- 音频生成:比如给小明生成一段轻快的音乐。
- 视频生成:比如给小明生成一段今天产品评审会的模拟演示视频。
2.2.5 核心概念五:记忆——AI小精灵的日记本
各位亲爱的读者朋友,我们人类有记忆,能够记住过去的事情、记住别人说的话、记住自己做的事情,这就是我们的**记忆能力。
AI小精灵小美也有她的「日记本」,她的「日记本」就是**记忆系统,她的「日记本」能够:
- 短期记忆:比如记住今天早上7点叫醒小明的事情、记住今天上午查路线的事情、记住今天上午检查PPT的事情。
- 长期记忆:比如记住小明喜欢吃清淡的、最近在减肥、需要低热量高蛋白的早餐、记住小明的生日是10月1日、记住小明之前和阿里巴巴客户的所有对话记录。
2.3 核心概念之间的关系(用小学生能理解的比喻)
各位亲爱的读者朋友,AI小精灵的感知环境、自主思考、自主行动、自主反馈、记忆五大核心能力,就像一个探险队的五个成员,他们一起合作完成任务:
- **感知环境(侦察兵):侦察兵负责侦察周围的环境,把侦察到的信息告诉队长。
- **记忆(档案管理员):档案管理员负责保管探险队的所有档案,包括之前的探险记录、队员的信息、任务的信息等,随时给队长提供需要的档案。
- **自主思考(队长):队长负责根据侦察兵侦察到的信息、档案管理员提供的档案,自主规划任务链、自主调整任务链、自主解决任务链中的问题,然后给队员下达命令。
- **自主行动(执行兵):执行兵负责根据队长下达的命令,自主执行任务链。
- **自主反馈(通讯员):通讯员负责把执行兵执行任务链的执行情况、执行结果、遇到的问题等反馈给队长,同时也反馈给用户。
2.3.1 感知环境(侦察兵)和记忆(档案管理员)的关系
侦察兵(感知环境)侦察到的信息,会先交给档案管理员(记忆)保管,档案管理员(记忆)会把这些信息分类整理,随时给队长(自主思考)提供需要的信息。比如侦察兵(感知环境)侦察到今天是晴天,档案管理员(记忆)会把这个信息分类整理到「今天的天气」档案里,队长(自主思考)需要的时候会随时查看。
2.3.2 感知环境(侦察兵)和自主思考(队长)的关系
侦察兵(感知环境)会把侦察到的实时信息直接告诉队长(自主思考),队长(自主思考)会根据这些实时信息调整任务链。比如侦察兵(感知环境)侦察到地铁4号线出了故障,会直接告诉队长(自主思考),队长(自主思考)会立即调整路线。
2.3.3 记忆(档案管理员)和自主思考(队长)的关系
档案管理员(记忆)会把之前的探险记录、队员的信息、任务的信息等随时给队长(自主思考)提供需要的信息,队长(自主思考)会根据这些信息规划任务链。比如档案管理员(记忆)会把小明喜欢吃清淡的、最近在减肥、需要低热量高蛋白的早餐的信息提供给队长(自主思考),队长(自主思考)会根据这些信息给小明准备早餐推荐菜单。
2.3.4 自主思考(队长)和自主行动(执行兵)的关系
队长(自主思考)会给执行兵(自主行动)下达命令,执行兵(自主行动)会根据队长(自主思考)下达的命令,自主执行任务链。比如队长(自主思考)会给执行兵(自主行动)下达命令「调用高德地图的API,查今天上午9点产品评审会的路线」,执行兵(自主行动)会自主调用高德地图的API,查路线。
2.3.5 自主行动(执行兵)和自主反馈(通讯员)的关系
执行兵(自主行动)会把执行任务链的执行情况、执行结果、遇到的问题等告诉通讯员(自主反馈),通讯员(自主反馈)会把这些信息反馈给队长(自主思考),同时也反馈给用户。比如执行兵(自主行动)会把查路线的结果告诉通讯员(自主反馈),通讯员(自主反馈)会把这个结果反馈给队长(自主思考),同时也反馈给小明。
2.3.6 自主反馈(通讯员)和自主思考(队长)的关系
通讯员(自主反馈)会把执行任务链的执行情况、执行结果、遇到的问题等反馈给队长(自主思考),队长(自主思考)会根据这些信息反思自己的任务链规划是否正确,是否需要调整。比如通讯员(自主反馈)会把查PPT发现有一个数据错误的信息反馈给队长(自主思考),队长(自主思考)会反思自己的任务链规划是否正确(是不是应该先检查PPT再查路线?),然后调整任务链规划,同时给执行兵(自主行动)下达命令「自动修改这个数据错误」。
2.4 核心概念原理和架构的文本示意图(专业定义)
各位亲爱的读者朋友,现在我们用专业定义来梳理AI Agent的核心概念原理和架构,文本示意图如下:
AI Agent 核心架构文本示意图
=====================================
┌─────────────────────────────────────────────────────────────────────────┐
│ 用户界面层(User Interface Layer) │
│ 功能:接收用户的任务指令,展示AI Agent的执行结果和反馈信息 │
│ 例子:飞书聊天窗口、微信小程序、APP、网页、机器人屏幕、机器人语音 │
└─────────────────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────┐
│ 感知层(Perception Layer) │
│ 功能:感知外部环境和内部状态的变化,将感知到的多模态数据转换成文本/结构化数据 │
│ 核心组件:文本理解模块、图像理解模块、音频理解模块、视频理解模块、传感器数据理解模块 │
│ 例子:读取飞书消息、读取PPT、读取Excel表格、读取照片、读取摄像头画面、读取视频、读取温度传感器数据 │
└─────────────────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────┐
│ 记忆层(Memory Layer) │
│ 功能:存储用户的历史对话、感知到的多模态数据、任务链的执行情况、执行结果、遇到的问题等信息 │
│ 核心组件:短期记忆模块、长期记忆模块、知识图谱模块 │
│ 短期记忆:存储最近的对话、最近的感知数据、最近的任务执行情况(类似人类的工作记忆) │
│ 长期记忆:存储用户的个人信息、历史偏好、历史任务记录(类似人类的长期记忆) │
│ 知识图谱:存储通用知识、垂直领域知识(类似人类的知识库) │
└─────────────────────────────────────────────────────────────────────────┘
↓ ↑ 双向交互
┌─────────────────────────────────────────────────────────────────────────┐
│ 决策层(Decision Layer) │
│ 功能:根据用户的任务目标、感知到的环境和内部状态的变化、记忆层存储的信息,自主规划任务链、自主调整任务链、自主解决任务链中的问题 │
│ 核心组件:任务理解模块、任务分解模块、任务链规划模块、任务链调整模块、问题解决模块、反思模块 │
│ 核心技术:大语言模型(LLM)/大视觉语言模型(VLM)/多模态大模型(MM-LLM)、强化学习(RL)、思维链(Chain-of-Thought, CoT)、思维树(Tree-of-Thought, ToT)、ReAct(Reasoning + Acting) │
└─────────────────────────────────────────────────────────────────────────┘
↓ ↑ 双向交互
┌─────────────────────────────────────────────────────────────────────────┐
│ 行动层(Action Layer) │
│ 功能:根据决策层下达的命令,自主调用工具、自主执行物理操作 │
│ 核心组件:工具调用模块、物理操作模块 │
│ 工具调用模块:调用外部软件、外部服务、外部API(类似人类使用工具) │
│ 物理操作模块:控制机器人、控制智能家居设备(类似人类使用手、脚) │
└─────────────────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────┐
│ 反馈层(Feedback Layer) │
│ 功能:将行动层执行任务链的执行情况、执行结果、遇到的问题等反馈给决策层,同时也反馈给用户界面层 │
│ 核心组件:文本生成模块、图像生成模块、音频生成模块、视频生成模块 │
└─────────────────────────────────────────────────────────────────────────┘
2.5 概念之间的关系:ER实体关系图、交互关系图
2.5.1 核心属性维度对比markdown表格
各位亲爱的读者朋友,现在我们用核心属性维度对比markdown表格来梳理普通大模型、通用AI Agent、垂直AI Agent的区别:
| 核心属性维度 | 普通大模型(指令链大模型) | 通用AI Agent(比如GPT-4o with GPTs、豆包4.0 with Agent) | 垂直AI Agent(比如通义千问金融Agent、华为云盘古气象Agent) |
|---|---|---|---|
| 自主思考能力 | 无(需要用户一步一步下命令) | 有(能够自主规划任务链、自主调整任务链、自主解决问题) | 有(在垂直领域内能够自主规划任务链、自主调整任务链、自主解决问题) |
| 工具调用能力 | 有(但需要用户明确告诉调用哪个工具) | 有(能够自主选择工具、自主调用工具) | 有(能够自主选择垂直领域内的工具、自主调用工具) |
| 记忆能力 | 弱(只有短期记忆,一般只有几千个token) | 强(有短期记忆和长期记忆,一般有几十万个token甚至更多) | 强(有短期记忆和长期记忆,还有垂直领域的知识图谱) |
| 反思能力 | 无(不会反思自己的任务链规划是否正确) | 有(会反思自己的任务链规划是否正确,是否需要调整) | 有(会反思自己在垂直领域内的任务链规划是否正确,是否需要调整) |
| 适用场景 | 简单的单任务(比如写一篇文章、翻译一段话、回答一个问题) | 复杂的多任务(比如帮你准备一天的工作、帮你安排一次旅行、帮你管理一个项目) | 垂直领域内的复杂多任务(比如帮你分析股票行情、帮你预测天气、帮你诊断疾病) |
| 开发难度 | 低(只需要提示词工程) | 中(可以通过拖拽的方式开发,也可以通过代码扩展功能) | 高(需要垂直领域的知识图谱、需要垂直领域的工具、需要垂直领域的训练数据) |
| 准确率 | 低(在复杂的多任务场景下准确率低) | 中(在复杂的多任务场景下准确率中等) | 高(在垂直领域内的复杂多任务场景下准确率高) |
2.5.2 ER实体关系mermaid架构图
各位亲爱的读者朋友,现在我们用ER实体关系mermaid架构图来梳理AI Agent生态中的核心实体和它们之间的关系:
2.5.3 交互关系mermaid流程图
各位亲爱的读者朋友,现在我们用交互关系mermaid流程图来梳理AI Agent的核心交互流程:
3. 核心算法原理 & 具体操作步骤:AI小精灵的大脑是怎么工作的
3.1 故事引入:AI小精灵小美是怎么帮小明查路线的
各位亲爱的读者朋友,在第2章我们介绍了AI小精灵小美的一天,现在我们来看小美是怎么帮小明查路线的,这个过程中用到了AI Agent的核心算法——ReAct(Reasoning + Acting,推理+行动)算法。让我们用小学生能听懂的语言来解释这个过程:
- Reasoning(推理): 小美想:「小明的任务目标是查今天上午9点产品评审会的路线,从海淀区中关村到朝阳区国贸三期,需要查地铁+共享单车+步行的路线,查地铁的拥挤程度,查共享单车的数量,查需要的时间,确保小明能提前10分钟到达。首先我需要调用高德地图的API,输入起点是海淀区中关村,终点是朝阳区国贸三期,出行方式是地铁+共享单车+步行,时间是今天上午9点到达。
- Acting(行动): 小美调用了高德地图的API,输入了这些参数。
- Reasoning(推理): 小美看了高德地图API返回的结果:「地铁4号线转地铁10号线,国贸站C口出,骑共享单车5分钟到国贸三期,需要的时间是1小时20分钟,地铁4号线中关村站到海淀黄庄站比较拥挤,建议提前5分钟出门,总共需要提前1小时30分钟出门,也就是早上7点30分出门。」这个结果符合小明的要求吗?是的,符合小明的要求,提前10分钟到达国贸三期。
- Acting(行动): 小美把这个结果告诉了小明。
各位亲爱的读者朋友,这就是ReAct算法的核心思想——一边推理,一边行动,一边根据行动的结果继续推理,一边根据推理的结果继续行动,直到完成任务。
3.2 核心算法原理讲解:ReAct算法
3.2.1 什么是ReAct算法
ReAct算法是2022年10月由Google Research和普林斯顿大学联合提出的一种AI Agent核心算法,它的核心思想是将推理(Reasoning)和行动(Acting)结合起来,让AI Agent能够一边推理,一边行动,一边根据行动的结果继续推理,一边根据推理的结果继续行动,直到完成任务。
ReAct算法的提出,解决了普通大模型的两个核心问题:
- **幻觉问题(Hallucination Problem):普通大模型经常会编造一些不存在的信息,比如编造一个不存在的公司名称、编造一个不存在的电话号码、编造一个不存在的数据。ReAct算法通过让AI Agent调用外部工具,获取真实的信息,从而减少幻觉问题。
- **任务链规划问题:普通大模型不能自主规划任务链,需要用户一步一步下命令。ReAct算法通过让AI Agent一边推理,一边行动,自主规划任务链,自主调整任务链,自主解决任务链中的问题,从而解决了任务链规划问题。
3.2.2 ReAct算法的数学原理
各位亲爱的读者朋友,现在我们用数学原理来梳理ReAct算法的工作原理,数学公式如下:
ReAct算法的目标是最大化任务完成的概率,可以表示为:
P(Task Complete∣Task Instruction)=∏t=1TP(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)×P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction) P(\text{Task Complete} | \text{Task Instruction}) = \prod_{t=1}^{T} P(a_t | r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction}) \times P(r_t | a_t, r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction}) P(Task Complete∣Task Instruction)=t=1∏TP(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)×P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)
其中:
- Task Instruction\text{Task Instruction}Task Instruction:用户的任务指令
- TTT:任务链的总步数
- ata_tat:第ttt步的行动(比如调用高德地图的API)
- rtr_trt:第ttt步的行动结果(比如高德地图API返回的结果)
- P(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)P(a_t | r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction})P(at∣r1,a1,r2,a2,...,rt−1,at−1,Task Instruction):第ttt步的行动概率(比如根据之前的推理和行动结果,选择调用高德地图的API的概率)
- P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction)P(r_t | a_t, r_1, a_1, r_2, a_2, ..., r_{t-1}, a_{t-1}, \text{Task Instruction})P(rt∣at,r1,a1,r2,a2,...,rt−1,at−1,Task Instruction):第ttt步的行动结果概率(比如调用高德地图的API后,返回符合要求的结果的概率)
各位亲爱的读者朋友,这个数学公式看起来可能有点复杂,但其实它的核心思想很简单——**每一步的行动都是根据之前的推理和行动结果来选择的,每一步的行动结果都是根据之前的行动来生成的,直到完成任务。
3.2.3 ReAct算法的具体操作步骤
各位亲爱的读者朋友,现在我们用具体操作步骤来梳理ReAct算法的工作流程,具体操作步骤如下:
-
步骤1:初始化
a. 接收用户的任务指令
b. 初始化短期记忆和长期记忆
c. 设置任务完成的标志为False
d. 设置当前步数为1 -
步骤2:推理(Reasoning)
a. 从短期记忆和长期记忆中获取之前的推理、行动、行动结果
b. 理解当前的任务状态
c. 生成下一步的行动(比如调用哪个工具,输入什么参数)
d. 将推理结果存储到短期记忆中 -
步骤3:行动(Acting)
a. 执行下一步的行动(比如调用工具)
b. 获取行动的结果
c. 将行动结果存储到短期记忆中 -
步骤4:判断(Judge)
a. 判断任务是否完成
b. 如果任务完成,设置任务完成的标志为True,跳转到步骤6
c. 如果任务没有完成,跳转到步骤5 -
步骤5:调整(Adjust)
a. 反思任务失败的原因
b. 调整下一步的行动(比如更换工具,调整参数)
c. 将调整结果存储到短期记忆中
d. 当前步数加1,跳转到步骤2 -
步骤6:结束(End)
a. 将所有的推理、行动、行动结果存储到长期记忆中
b. 将最终的行动结果反馈给用户
3.3 核心算法原理讲解:思维链(Chain-of-Thought, CoT)算法
各位亲爱的读者朋友,除了ReAct算法,思维链(Chain-of-Thought, CoT)算法也是AI Agent的核心算法之一,它的核心思想是让大模型/AI Agent在推理的过程中,把自己的推理过程说出来,从而提高推理的准确率。
3.3.1 什么是思维链(Chain-of-Thought, CoT)算法
思维链(Chain-of-Thought, CoT)算法是2022年5月由Google Research提出的一种大模型/AI Agent核心算法,它的核心思想是在提示词中加入几个示例,让大模型/AI Agent在推理的过程中,把自己的推理过程说出来,从而提高推理的准确率。
3.3.2 思维链(Chain-of-Thought, CoT)算法的具体操作步骤
各位亲爱的读者朋友,现在我们用具体操作步骤来梳理思维链(Chain-of-Thought, CoT)算法的工作流程,具体操作步骤如下:
- **步骤1:准备
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)