AI Agent生态:平台型技术供应商的机会
AI Agent生态:平台型技术供应商的机会
1. 引入与连接(唤起兴趣与建立关联)
1.1 故事引入:假如明天醒来,你拥有了一支AI“私人助理军团”
你有没有过这样的幻想?
- 早上7:30,AI健康监测Agent先轻推卧室窗帘,根据你的睡眠周期、血糖历史和今天的PM2.5数据,发送一份定制的晨跑路线、配速调整建议,以及低糖高蛋白的早餐食谱——同时还下单了你小区楼下那家鲜榨牛油果橙汁;
- 8:10,商务智能Agent帮你整理好昨晚的美股异动、竞品新发布的内测截图预览、三个潜在客户的社交媒体最新动态,甚至自动生成了一封针对A轮融资潜在客户的跟进邮件初稿,只等你审核签字;
- 9:00开会时,实时协作Agent自动屏蔽你的私人消息,同步会议室投影的内容和语音转文字,还根据发言人的身份和会议主题,为你生成实时的“关键决策节点标记清单”和“需要补充的行业数据建议链接”;
- 下班前半小时,生活规划Agent弹出今天的任务进度——商务Agent负责的邮件已经通过初步审核并发送了2封,协作Agent标记的5个关键决策里你已经参与讨论了4个,还有1个竞品PR的补充数据需要AI内容生成Agent帮你在下班前10分钟快速写完;
- 晚上8:00,你在沙发上休息时,家庭娱乐Agent根据你最近看的纪录片《地球脉动》、听的纯音乐歌单,以及昨天没看完的悬疑小说章节,推荐了一部BBC新出的自然悬疑混合纪录片,还调整了客厅的灯光、温度和香薰浓度。
这并不是遥远的科幻电影场景——2023年底OpenAI DevDay上发布的GPT-4 Turbo与Assistants API,2024年初字节跳动的豆包开放平台“智能体”功能,腾讯云的TI-ONE Agent Factory,阿里的通义千问Agent Studio,已经让这样的“私人助理军团”雏形变成了现实。
1.2 与读者已有知识建立连接
如果你是互联网从业者,你肯定接触过“BOT(聊天机器人)”——比如淘宝客服的智能回复、微信小程序里的查询机器人、银行APP里的语音助手。但AI Agent和BOT完全不是一回事:BOT就像只会背诵固定台词的舞台剧演员,只能回答你预设好的问题;而AI Agent就像拥有自主意识、可以自己学习和决策的真人助理,它能理解模糊的需求,主动规划任务,调用外部工具,甚至反思自己的错误。
如果你是企业决策者,你肯定在思考“如何用AI降本增效”——比如用AI写文案、用AI做数据分析、用AI处理客户投诉。但目前的单模态AI(比如只会写文案的GPT-3.5、只会做数据分析的Tableau GPT)就像只会一种技能的“工具人”,你每次要用新的技能,都要换一个工具,还要自己把这些工具的结果拼起来;而AI Agent生态就像一支“专业化协作团队”,每个Agent只会一种技能,但它们可以互相沟通、互相协作,自动完成从“理解需求”到“交付结果”的全流程。
如果你是技术开发者,你肯定在研究“大模型(LLM)的落地应用”——但目前大模型的落地主要面临三个痛点:一是大模型没有记忆(每次对话都是全新的,除非你手动粘贴上下文),二是大模型不会用外部工具(比如不能查天气、不能发邮件、不能调用数据库),三是大模型不会规划复杂任务(比如不能把“策划一场线上发布会”拆成“写策划案”“找赞助商”“做直播准备”“处理用户报名”等子任务)。而AI Agent的核心功能,就是解决这三个痛点:记忆系统(Memory)+ 工具调用(Tools)+ 任务规划(Planning)。
1.3 学习价值与应用场景预览
这篇文章的核心学习价值,是帮助你从知识架构师、思维导师、教育传播者的角度,全方位理解AI Agent生态的本质,以及平台型技术供应商(不是应用开发者,不是大模型厂商,更不是终端用户)在这个生态里的核心机会。
具体来说,这篇文章会解决以下几个问题:
- 核心概念:什么是AI Agent?什么是AI Agent生态?什么是平台型技术供应商?
- 问题背景:为什么现在AI Agent生态突然火了?大模型厂商为什么要开放Assistants API?应用开发者为什么需要AI Agent平台?
- 问题描述:目前AI Agent生态的发展现状是什么?存在哪些痛点和挑战?平台型技术供应商在这些痛点和挑战里能扮演什么角色?
- 问题解决:平台型技术供应商应该如何构建AI Agent平台?AI Agent平台的核心功能是什么?核心架构是什么?
- 实际场景应用:AI Agent平台在哪些行业已经有了成功的应用案例?这些案例给我们带来了什么启示?
- 行业发展与未来趋势:AI Agent生态的发展历史是什么?未来3-5年的发展趋势是什么?平台型技术供应商应该如何提前布局?
这篇文章的适用场景包括:
- 企业技术负责人:思考如何引入或构建AI Agent平台,帮助企业降本增效;
- 技术创业者:寻找AI Agent生态里的创业机会,尤其是平台型技术供应商的机会;
- 大模型厂商/云服务商:思考如何完善自己的AI Agent平台,吸引更多的应用开发者和企业用户;
- 技术研究者/学生:全方位理解AI Agent生态的理论基础和实践应用。
1.4 学习路径概览
这篇文章会按照知识金字塔构建者的“金字塔式知识结构”来展开:
- 基础层:用生活化的比喻和直观的示例,解释AI Agent、AI Agent生态、平台型技术供应商的核心概念,澄清常见的误解;
- 连接层:用概念图、ER实体关系图、交互关系图,展示AI Agent生态的核心要素和它们之间的关系,对比单模态AI、BOT、AI Agent的核心属性;
- 深度层:用第一性原理分析AI Agent的底层逻辑,用数学模型描述AI Agent的决策过程,用算法流程图展示AI Agent的任务规划和工具调用流程,用Python源代码实现一个简单的AI Agent;
- 整合层:从历史视角、实践视角、批判视角、未来视角,全方位理解AI Agent生态;
- 实践转化:详细介绍如何构建一个AI Agent平台,包括项目介绍、环境安装、系统功能设计、系统架构设计、系统接口设计、系统核心实现源代码、最佳实践tips;
- 整合提升:回顾核心观点,重构知识体系,给出思考问题与拓展任务,推荐学习资源与进阶路径。
2. 概念地图(建立整体认知框架)
2.1 核心概念与关键术语
在进入正式内容之前,我们先明确几个核心概念和关键术语:
2.1.1 AI Agent(人工智能智能体)
生活化比喻:AI Agent就像拥有自主意识、可以自己学习和决策的“真人助理”。
简明定义:AI Agent是一种基于大语言模型(LLM)或多模态大模型(MLLM)的智能系统,它拥有记忆系统(Memory)、工具调用能力(Tools)、任务规划能力(Planning),能够理解模糊的需求、主动感知环境、自主规划和执行任务、反思自己的错误并优化决策,最终自动完成从“理解需求”到“交付结果”的全流程。
关键术语补充:
- 单Agent(Single Agent):只有一个智能体的系统,比如一个只会写文案的AI内容生成Agent;
- 多Agent系统(Multi-Agent System, MAS):有多个智能体的系统,这些智能体可以互相沟通、互相协作、互相竞争,最终完成复杂的任务,比如一支“专业化协作的AI助理军团”;
- 自主程度(Autonomy Level):衡量AI Agent自主决策能力的指标,从0级(完全由人类控制,不会自主决策)到5级(完全自主,不需要人类干预);
- 感知能力(Perception):AI Agent获取外部环境信息的能力,比如通过文本、语音、图像、视频获取信息;
- 行动能力(Action):AI Agent对外部环境产生影响的能力,比如调用外部工具、发送消息、修改文件;
- 学习能力(Learning):AI Agent从历史经验中学习,优化自己的决策和行动的能力。
2.1.2 AI Agent生态(AI Agent Ecosystem)
生活化比喻:AI Agent生态就像一个“现代化的城市”。
- 大模型厂商:就像“城市的电力公司”,提供核心能源(大模型);
- 云服务商:就像“城市的基础设施供应商”,提供道路(网络)、供水(存储)、供电(算力);
- 平台型技术供应商:就像“城市的工业园区开发商”,提供标准化的厂房(Agent开发框架)、公共设施(Agent托管服务、Agent市场、工具库)、政策支持(安全合规服务、技术培训服务);
- 应用开发者:就像“城市的工厂主”,在工业园区里租用标准化的厂房,使用公共设施,生产各种产品(AI Agent应用);
- 工具供应商:就像“城市的零部件供应商”,提供各种工具(API接口),供工厂主生产产品;
- 终端用户:就像“城市的消费者”,购买工厂主生产的产品(AI Agent应用)。
简明定义:AI Agent生态是一个由大模型、云服务、AI Agent平台、AI Agent应用、工具库、终端用户、安全合规体系、技术培训体系等多个核心要素组成的复杂系统,这些要素之间互相依存、互相促进,共同推动AI Agent技术的发展和应用的普及。
关键术语补充: - Agent开发框架(Agent Development Framework):帮助应用开发者快速构建AI Agent的软件框架,比如LangChain、AutoGPT、CrewAI、BabyAGI;
- Agent托管服务(Agent Hosting Service):帮助应用开发者部署、管理、监控AI Agent的云服务,比如OpenAI Assistants API、字节跳动豆包开放平台“智能体托管”、腾讯云TI-ONE Agent Factory托管服务;
- Agent市场(Agent Marketplace):供应用开发者发布、销售AI Agent应用,供终端用户搜索、购买、使用AI Agent应用的平台,比如OpenAI GPT Store、字节跳动豆包“智能体广场”、腾讯云TI-ONE Agent Market;
- 工具库(Tool Library):供应用开发者调用的各种API接口的集合,比如天气查询API、邮件发送API、数据库查询API、支付API;
- 安全合规体系(Security and Compliance System):保障AI Agent生态安全、合规运行的体系,比如数据加密、身份认证、权限管理、内容审核、隐私保护。
2.1.3 平台型技术供应商(Platform Technology Provider)
生活化比喻:平台型技术供应商就像“苹果公司的App Store生态运营方”或者“阿里巴巴的淘宝生态运营方”——它不生产具体的产品(AI Agent应用),也不提供核心能源(大模型),而是提供一个标准化的、开放的、安全的、高效的平台,连接上游的大模型厂商、云服务商、工具供应商,和下游的应用开发者、终端用户,从中获取收益。
简明定义:平台型技术供应商是指不直接生产AI Agent应用,也不直接提供大模型(可能会合作或自研大模型,但核心竞争力不是大模型),而是提供AI Agent开发、部署、管理、监控、交易、安全合规等全流程服务的企业。
关键术语补充:
- 平台化(Platformization):将技术、资源、服务整合到一个标准化的平台上,供多方使用的过程;
- 网络效应(Network Effect):平台的价值随着用户数量的增加而增加的现象——比如Agent市场里的应用开发者越多,终端用户就越多;终端用户越多,应用开发者就越多;
- 双边市场(Two-sided Market):同时连接两类不同用户(比如应用开发者和终端用户)的市场,平台需要同时吸引这两类用户,才能形成网络效应;
- 多边市场(Multi-sided Market):同时连接三类或三类以上不同用户(比如大模型厂商、云服务商、工具供应商、应用开发者、终端用户)的市场,平台需要同时吸引所有这些用户,才能形成更强的网络效应。
2.2 概念间的层次与关系
AI Agent生态的核心要素可以分为四层结构:
- 基础设施层(Infrastructure Layer):提供核心能源(大模型)和基础资源(算力、存储、网络),包括大模型厂商、云服务商;
- 平台服务层(Platform Service Layer):提供AI Agent开发、部署、管理、监控、交易、安全合规等全流程服务,是本文的核心——即平台型技术供应商;
- 应用服务层(Application Service Layer):提供具体的AI Agent应用,包括应用开发者;
- 终端用户层(End-user Layer):使用AI Agent应用的用户,包括个人用户和企业用户。
这四层结构之间的关系是自上而下的依赖关系和自下而上的反馈关系:
- 自上而下的依赖关系:终端用户层依赖应用服务层,应用服务层依赖平台服务层,平台服务层依赖基础设施层;
- 自下而上的反馈关系:终端用户层的需求反馈给应用服务层,应用服务层的需求反馈给平台服务层,平台服务层的需求反馈给基础设施层。
2.3 学科定位与边界
AI Agent生态的学科定位是跨学科领域,涉及以下几个学科:
- 人工智能(AI):包括大语言模型(LLM)、多模态大模型(MLLM)、强化学习(RL)、知识图谱(KG)、自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)、语音合成(TTS)等;
- 软件工程(SE):包括软件框架、微服务架构、容器化、DevOps、监控告警等;
- 云计算(Cloud Computing):包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)、Serverless(无服务器)等;
- 经济学(Economics):包括平台经济学、网络效应、双边市场、多边市场等;
- 法学(Law):包括数据安全法、个人信息保护法、人工智能伦理规范等;
- 心理学(Psychology):包括用户体验(UX)、人类行为学、认知科学等。
AI Agent生态的边界是不包括底层的硬件(比如芯片、服务器),但会依赖底层的硬件;不包括具体的终端设备(比如手机、电脑、智能家居设备),但会通过API接口连接这些终端设备。
2.4 概念图(思维导图)
为了更直观地展示AI Agent生态的核心要素和它们之间的关系,我们可以用以下的思维导图(Mermaid架构图)来表示:
3. 基础理解(建立直观认识)
3.1 核心概念的生活化解释
3.1.1 AI Agent vs 单模态AI vs BOT:真人助理 vs 工具人 vs 舞台剧演员
为了更直观地理解AI Agent、单模态AI、BOT的区别,我们可以用以下的生活化比喻和对比表格来表示:
生活化比喻:
- BOT(聊天机器人):就像只会背诵固定台词的舞台剧演员——你问它“今天天气怎么样?”,它只会回答你预设好的天气查询API的结果;你问它“今天天气怎么样?我适合穿什么衣服?”,它可能就不会回答了,因为它没有“根据天气推荐衣服”的预设台词;
- 单模态AI(比如只会写文案的GPT-3.5):就像只会一种技能的“工具人”——你让它写一篇关于“奶茶店开业”的文案,它能写得很好;但你让它“写一篇关于‘奶茶店开业’的文案,然后查询附近3公里内的目标用户群体画像,最后在抖音和小红书上发布这篇文案”,它就不会了,因为它只会写文案,不会调用外部工具,也不会规划复杂任务;
- AI Agent(比如基于GPT-4 Turbo的Assistants API构建的奶茶店开业策划Agent):就像拥有自主意识、可以自己学习和决策的“真人助理”——你只需要告诉它“帮我策划一场下周一下午3点的奶茶店开业活动,预算5000元,目标是吸引附近3公里内的1000名年轻女性用户关注”,它就能自动完成以下任务:
- 理解模糊的需求:虽然你没有明确说“年轻女性用户的年龄是18-35岁”、“活动形式是什么”、“发布渠道是什么”,但它能根据常识和历史经验,理解你的需求;
- 主动感知环境:它会查询下周一下午3点的天气情况,附近3公里内的竞品奶茶店的活动情况,抖音和小红书上的奶茶店开业活动的热门话题;
- 自主规划和执行任务:它会把你的需求拆成“制定活动方案”、“查询目标用户群体画像”、“写活动文案和海报文案”、“设计活动海报”、“联系印刷商印刷海报”、“联系抖音和小红书上的KOL/KOC合作”、“在抖音和小红书上发布活动内容”、“在奶茶店附近发放传单”、“准备开业活动的礼品”、“统计开业活动的参与人数和关注人数”等子任务,然后调用外部工具(比如天气查询API、用户画像查询API、内容生成API、图像生成API、印刷商API、KOL/KOC合作API、社交媒体发布API、传单设计API、礼品采购API、数据统计API),自动执行这些子任务;
- 反思自己的错误并优化决策:如果它查询到下周一下午3点会下雨,它会自动调整活动方案,把“户外发放传单”改成“线上发放电子优惠券”;如果它联系的KOL/KOC的报价超过了预算,它会自动调整合作方案,比如减少KOL的数量,增加KOC的数量;如果它发现抖音上的热门话题是“#秋天的第一杯奶茶升级版”,它会自动调整活动文案和海报文案,加入这个热门话题;
- 自动交付结果:它会把活动方案、目标用户群体画像、活动文案和海报文案、活动海报、印刷商报价、KOL/KOC合作方案、社交媒体发布计划、电子优惠券设计、礼品采购清单、数据统计模板等所有结果整理成一份PPT,发送给你,只等你审核签字。
概念核心属性维度对比表格:
| 核心属性维度 | BOT(聊天机器人) | 单模态AI(比如GPT-3.5) | AI Agent(比如基于GPT-4 Turbo的Assistants API) |
|---|---|---|---|
| 核心依赖 | 规则引擎、关键词匹配 | 大语言模型/多模态大模型 | 大语言模型/多模态大模型 + 记忆系统 + 工具调用 + 任务规划 |
| 理解能力 | 只能理解预设好的关键词或简单的自然语言 | 能理解复杂的自然语言,但不能理解模糊的需求(需要明确的Prompt) | 能理解复杂的自然语言和模糊的需求(不需要明确的Prompt,能根据常识和历史经验推断) |
| 记忆能力 | 几乎没有记忆(每次对话都是全新的,除非你手动粘贴上下文) | 有短期记忆(比如GPT-3.5有4K/8K/16K/32K的上下文窗口),但长期记忆能力弱 | 有强大的记忆系统(包括短期记忆、长期记忆、工作记忆、知识记忆) |
| 工具调用能力 | 只能调用预设好的少数几个工具(比如天气查询API、FAQ数据库) | 没有工具调用能力(除非你手动调用外部工具,然后把结果粘贴到Prompt里) | 有强大的工具调用能力(能调用任意的API接口,包括第三方工具和自定义工具) |
| 任务规划能力 | 没有任务规划能力(只能执行预设好的简单任务) | 没有任务规划能力(只能执行单一的任务,比如写文案、做数据分析) | 有强大的任务规划能力(能把复杂的任务拆成多个子任务,然后自动执行这些子任务,还能根据环境变化调整任务规划) |
| 自主程度 | 0级(完全由人类控制,不会自主决策) | 1级(能执行单一的任务,但不会自主决策,需要人类明确的指令) | 3-4级(能自主规划和执行复杂的任务,能根据环境变化调整决策,但需要人类的审核和干预) |
| 应用场景 | 简单的客户服务、FAQ查询、信息查询 | 单一的内容生成、数据分析、代码生成 | 复杂的个人助理、企业服务、行业垂直应用 |
3.1.2 平台型技术供应商 vs 大模型厂商 vs 应用开发者:工业园区开发商 vs 电力公司 vs 工厂主
为了更直观地理解平台型技术供应商、大模型厂商、应用开发者的区别,我们可以用以下的生活化比喻和对比表格来表示:
生活化比喻:
- 大模型厂商(比如OpenAI):就像“城市的电力公司”——它生产核心能源(大模型),然后卖给工业园区开发商(平台型技术供应商)和工厂主(应用开发者),从中获取收益;它的核心竞争力是“生产高质量的核心能源”(即研发高性能的大模型);
- 平台型技术供应商(比如假设我们是一家做AI Agent平台的创业公司):就像“城市的工业园区开发商”——它从电力公司(大模型厂商)购买核心能源(大模型),从基础设施供应商(云服务商)购买道路(网络)、供水(存储)、供电(算力),然后建设标准化的厂房(Agent开发框架)、公共设施(Agent托管服务、Agent市场、工具库)、政策支持(安全合规服务、技术培训服务),最后把这些厂房和公共设施租给工厂主(应用开发者),从中获取收益;它的核心竞争力是“建设标准化的、开放的、安全的、高效的工业园区”(即构建完善的AI Agent平台);
- 应用开发者(比如假设我们是一家做奶茶店开业策划Agent的创业公司):就像“城市的工厂主”——它从工业园区开发商(平台型技术供应商)租用标准化的厂房(Agent开发框架)和公共设施(Agent托管服务、Agent市场、工具库),从零部件供应商(工具供应商)购买各种零部件(API接口),然后生产各种产品(AI Agent应用),最后在Agent市场上卖给消费者(终端用户),从中获取收益;它的核心竞争力是“生产满足消费者需求的高质量产品”(即开发受欢迎的AI Agent应用)。
概念核心属性维度对比表格:
| 核心属性维度 | 大模型厂商 | 平台型技术供应商 | 应用开发者 |
|---|---|---|---|
| 核心业务 | 研发、训练、销售大模型 | 构建、运营AI Agent平台 | 开发、销售AI Agent应用 |
| 核心竞争力 | 高性能的大模型、强大的研发团队、充足的算力和数据 | 完善的AI Agent平台、强大的网络效应、良好的生态运营能力 | 满足用户需求的AI Agent应用、良好的用户体验、强大的运营能力 |
| 收益来源 | 大模型API调用费用、大模型授权费用 | Agent开发框架使用费、Agent托管服务费、Agent市场交易佣金、工具库使用费、安全合规服务费、技术培训服务费 | AI Agent应用销售费用、AI Agent应用订阅费用、AI Agent应用广告费用 |
| 风险 | 技术风险(大模型性能落后)、政策风险(大模型安全合规问题)、竞争风险(其他大模型厂商的竞争) | 生态风险(吸引不到足够的应用开发者和终端用户)、技术风险(AI Agent平台性能落后)、竞争风险(其他平台型技术供应商的竞争) | 市场风险(AI Agent应用不受欢迎)、技术风险(AI Agent应用性能落后)、竞争风险(其他应用开发者的竞争) |
| 例子 | OpenAI、字节跳动、腾讯、阿里、Anthropic | LangChain、OpenAI Assistants API运营方(虽然OpenAI也是大模型厂商,但Assistants API运营方可以看作是平台型技术供应商)、假设的AI Agent平台创业公司 | 个人开发者、做奶茶店开业策划Agent的创业公司、做客户服务Agent的传统企业 |
3.2 简化模型与类比
3.2.1 AI Agent的简化模型:“感知-决策-行动-学习”循环
AI Agent的核心运作机制可以用一个简化的模型来表示:“感知(Perception)-决策(Decision)-行动(Action)-学习(Learning)”循环,这个模型就像“人类的大脑运作机制”:
- 感知(Perception):人类的眼睛、耳朵、鼻子、舌头、皮肤等感官器官获取外部环境的信息,然后传递给大脑;AI Agent的感知模块(比如文本输入模块、语音输入模块、图像输入模块、视频输入模块)获取外部环境的信息,然后传递给大模型;
- 决策(Decision):人类的大脑根据感知到的信息、记忆中的知识和经验,做出决策;AI Agent的大模型根据感知到的信息、记忆系统中的知识和经验、任务规划模块的建议,做出决策;
- 行动(Action):人类的手、脚、嘴巴等运动器官根据大脑的决策,对外部环境产生影响;AI Agent的行动模块(比如工具调用模块、消息发送模块、文件修改模块)根据大模型的决策,对外部环境产生影响;
- 学习(Learning):人类的大脑根据行动的结果,更新记忆中的知识和经验,优化未来的决策;AI Agent的学习模块根据行动的结果,更新记忆系统中的知识和经验,优化未来的决策。
为了更直观地展示这个循环,我们可以用以下的Mermaid架构图来表示:
3.2.2 AI Agent生态的简化模型:“多边市场网络效应”模型
AI Agent生态的核心运作机制可以用另一个简化的模型来表示:“多边市场网络效应”模型,这个模型就像“苹果公司的App Store生态”:
- 上游用户:大模型厂商、云服务商、工具供应商——他们为平台提供核心能源、基础资源、零部件;
- 平台:AI Agent平台——它连接上游用户和下游用户,提供标准化的服务;
- 下游用户:应用开发者、终端用户——应用开发者在平台上开发、发布AI Agent应用,终端用户在平台上搜索、购买、使用AI Agent应用;
- 网络效应:
- 上游网络效应:上游用户越多,平台的核心能源、基础资源、零部件就越丰富,就越能吸引下游用户;
- 下游网络效应:
- 应用开发者-终端用户网络效应:应用开发者越多,平台的AI Agent应用就越丰富,就越能吸引终端用户;终端用户越多,平台的流量就越大,应用开发者的收益就越高,就越能吸引更多的应用开发者;
- 应用开发者-应用开发者网络效应:应用开发者越多,他们之间的交流和合作就越多,就越能开发出更好的AI Agent应用;
- 跨边网络效应:上游用户和下游用户之间也存在网络效应——上游用户越多,下游用户就越多;下游用户越多,上游用户就越多。
为了更直观地展示这个模型,我们可以用以下的Mermaid架构图来表示:
3.3 直观示例与案例
3.3.1 直观示例:用Python实现一个简单的AI Agent
为了更直观地理解AI Agent的运作机制,我们可以用Python实现一个简单的AI Agent——这个AI Agent拥有短期记忆、天气查询工具、简单的任务规划能力,能够回答“今天天气怎么样?我适合穿什么衣服?”这样的问题。
注意:这个示例只是一个简化的AI Agent,没有长期记忆、复杂的任务规划能力、反思能力,也没有使用专业的Agent开发框架(比如LangChain),但它能帮助我们理解AI Agent的核心运作机制。
前置条件:
- 安装Python 3.8或更高版本;
- 安装requests库(用于调用天气查询API):
pip install requests; - 注册OpenWeatherMap账号,获取API Key(免费的API Key每天可以调用60次):https://openweathermap.org/api;
- (可选)注册OpenAI账号,获取API Key(如果想使用GPT-3.5/4作为决策模块):https://platform.openai.com/;如果不想使用OpenAI,也可以使用本地的大模型(比如Llama 2),或者使用规则引擎作为决策模块——本示例使用规则引擎作为决策模块,方便大家理解。
Python源代码:
import requests
from typing import List, Dict
# ------------------------------
# 1. 定义记忆系统(简化版:只有短期记忆,存储对话历史)
# ------------------------------
class ShortTermMemory:
def __init__(self, max_history_length: int = 10):
self.max_history_length = max_history_length
self.history: List[Dict[str, str]] = []
def add_message(self, role: str, content: str):
"""添加一条消息到记忆系统"""
self.history.append({"role": role, "content": content})
# 如果记忆超过最大长度,删除最早的消息
if len(self.history) > self.max_history_length:
self.history.pop(0)
def get_history(self) -> List[Dict[str, str]]:
"""获取对话历史"""
return self.history.copy()
# ------------------------------
# 2. 定义工具(简化版:只有天气查询工具)
# ------------------------------
class WeatherTool:
def __init__(self, api_key: str):
self.api_key = api_key
self.base_url = "https://api.openweathermap.org/data/2.5/weather"
def call(self, city: str, units: str = "metric") -> Dict:
"""调用天气查询API,获取当前天气信息"""
params = {
"q": city,
"appid": self.api_key,
"units": units
}
try:
response = requests.get(self.base_url, params=params)
response.raise_for_status() # 如果请求失败,抛出异常
data = response.json()
# 提取关键信息
weather_info = {
"city": city,
"temperature": data["main"]["temp"],
"description": data["weather"][0]["description"],
"humidity": data["main"]["humidity"],
"wind_speed": data["wind"]["speed"]
}
return weather_info
except requests.exceptions.RequestException as e:
return {"error": f"调用天气查询API失败:{str(e)}"}
# ------------------------------
# 3. 定义决策模块(简化版:使用规则引擎)
# ------------------------------
class RuleBasedDecisionModule:
def __init__(self, weather_tool: WeatherTool):
self.weather_tool = weather_tool
def make_decision(self, user_input: str, memory: ShortTermMemory) -> str:
"""根据用户输入和记忆系统,做出决策"""
# 首先,判断用户输入是否包含“天气”或“穿什么”关键词
if "天气" in user_input or "穿什么" in user_input:
# 然后,判断用户输入是否包含城市名称——如果没有,询问用户
# (简化版:假设用户输入包含城市名称,或者从记忆系统中获取)
city = None
# 先从当前用户输入中查找城市名称(简化版:假设城市名称是两个字或三个字的常见城市,比如“北京”、“上海”、“广州”)
common_cities = ["北京", "上海", "广州", "深圳", "杭州", "南京", "成都", "重庆", "武汉", "西安"]
for common_city in common_cities:
if common_city in user_input:
city = common_city
break
# 如果当前用户输入中没有城市名称,从记忆系统中查找
if not city:
for message in memory.get_history():
if message["role"] == "user":
for common_city in common_cities:
if common_city in message["content"]:
city = common_city
break
if city:
break
# 如果记忆系统中也没有城市名称,询问用户
if not city:
return "请问你想查询哪个城市的天气?"
# 如果找到了城市名称,调用天气查询工具
weather_info = self.weather_tool.call(city)
# 如果调用失败,返回错误信息
if "error" in weather_info:
return weather_info["error"]
# 如果调用成功,根据天气信息推荐衣服
temperature = weather_info["temperature"]
description = weather_info["description"]
clothing_recommendation = ""
if temperature < 0:
clothing_recommendation = "建议穿羽绒服、厚毛衣、厚裤子、雪地靴,戴帽子、围巾、手套。"
elif 0 <= temperature < 10:
clothing_recommendation = "建议穿棉衣、厚毛衣、厚裤子、皮鞋或运动鞋,戴帽子、围巾。"
elif 10 <= temperature < 20:
clothing_recommendation = "建议穿风衣、毛衣、薄裤子、皮鞋或运动鞋。"
elif 20 <= temperature < 28:
clothing_recommendation = "建议穿长袖衬衫、薄毛衣、薄裤子、运动鞋或凉鞋。"
else:
clothing_recommendation = "建议穿短袖衬衫、短裤、凉鞋,注意防晒。"
if "雨" in description or "雪" in description:
clothing_recommendation += "另外,今天有雨/雪,建议带伞。"
# 最后,返回天气信息和衣服推荐
return (f"{city}今天的天气情况:\n"
f"- 温度:{temperature}℃\n"
f"- 天气:{description}\n"
f"- 湿度:{weather_info['humidity']}%\n"
f"- 风速:{weather_info['wind_speed']}m/s\n\n"
f"衣服推荐:{clothing_recommendation}")
# 如果用户输入不包含“天气”或“穿什么”关键词,返回默认回复
else:
return "对不起,我只能查询天气和推荐衣服,请你问我相关的问题。"
# ------------------------------
# 4. 定义AI Agent(整合记忆系统、工具、决策模块)
# ------------------------------
class SimpleAIAgent:
def __init__(self, weather_api_key: str):
self.memory = ShortTermMemory()
self.weather_tool = WeatherTool(weather_api_key)
self.decision_module = RuleBasedDecisionModule(self.weather_tool)
def run(self, user_input: str) -> str:
"""运行AI Agent,处理用户输入"""
# 第一步:添加用户输入到记忆系统
self.memory.add_message("user", user_input)
# 第二步:决策模块做出决策
response = self.decision_module.make_decision(user_input, self.memory)
# 第三步:添加AI Agent的回复到记忆系统
self.memory.add_message("assistant", response)
# 第四步:返回AI Agent的回复
return response
# ------------------------------
# 5. 测试AI Agent
# ------------------------------
if __name__ == "__main__":
# 请替换成你自己的OpenWeatherMap API Key
WEATHER_API_KEY = "YOUR_OPENWEATHERMAP_API_KEY"
# 创建AI Agent
agent = SimpleAIAgent(WEATHER_API_KEY)
# 测试AI Agent
print("AI Agent:你好!我是天气和衣服推荐助手,请你问我相关的问题。")
while True:
user_input = input("你:")
if user_input.lower() in ["exit", "quit", "再见"]:
print("AI Agent:再见!")
break
response = agent.run(user_input)
print(f"AI Agent:{response}")
测试结果示例:
AI Agent:你好!我是天气和衣服推荐助手,请你问我相关的问题。
你:北京今天天气怎么样?
AI Agent:北京今天的天气情况:
- 温度:15℃
- 天气:多云
- 湿度:60%
- 风速:3m/s
衣服推荐:建议穿风衣、毛衣、薄裤子、皮鞋或运动鞋。
你:我适合穿什么衣服?
AI Agent:北京今天的天气情况:
- 温度:15℃
- 天气:多云
- 湿度:60%
- 风速:3m/s
衣服推荐:建议穿风衣、毛衣、薄裤子、皮鞋或运动鞋。
你:上海今天天气怎么样?
AI Agent:上海今天的天气情况:
- 温度:22℃
- 天气:小雨
- 湿度:75%
- 风速:4m/s
衣服推荐:建议穿长袖衬衫、薄毛衣、薄裤子、运动鞋或凉鞋。另外,今天有雨/雪,建议带伞。
你:再见
AI Agent:再见!
3.3.2 成功案例:OpenAI GPT Store与字节跳动豆包“智能体广场”
OpenAI GPT Store:
- 项目介绍:OpenAI GPT Store是OpenAI于2024年1月正式推出的AI Agent市场,供应用开发者发布、销售自定义的GPT(即AI Agent),供终端用户搜索、购买、使用自定义的GPT;
- 发展现状:截至2024年6月,OpenAI GPT Store已经有超过300万个自定义GPT,涵盖了个人助理、企业服务、教育辅导、医疗健康、法律咨询等多个领域,月活跃用户超过1亿;
- 成功原因:
- 强大的大模型支持:OpenAI GPT Store基于GPT-3.5 Turbo和GPT-4 Turbo,拥有强大的理解能力、记忆能力、工具调用能力、任务规划能力;
- 简单易用的开发工具:OpenAI为应用开发者提供了简单易用的GPT Builder工具——应用开发者不需要写代码,只需要通过自然语言描述自己的需求,上传自己的知识文件(比如PDF、Word、Excel),配置自己的工具(比如OpenAI自己的工具或第三方工具),就能快速构建一个自定义的GPT;
- 强大的网络效应:OpenAI拥有超过1亿的ChatGPT月活跃用户,这些用户可以直接在ChatGPT中搜索、购买、使用自定义的GPT,为GPT Store带来了巨大的流量;同时,巨大的流量也吸引了大量的应用开发者发布自定义的GPT,形成了良性的网络效应;
- 清晰的收益模式:OpenAI为应用开发者提供了清晰的收益模式——应用开发者可以通过两种方式获取收益:一是GPT的订阅费用(应用开发者可以自己设置订阅价格,OpenAI收取30%的交易佣金);二是OpenAI的GPT Creator Fund(OpenAI每月会向表现最好的自定义GPT的开发者提供奖金)。
字节跳动豆包“智能体广场”:
- 项目介绍:字节跳动豆包“智能体广场”是字节跳动于2024年1月正式推出的AI Agent市场,供应用开发者发布、销售自定义的智能体(即AI Agent),供终端用户搜索、购买、使用自定义的智能体;
- 发展现状:截至2024年6月,字节跳动豆包“智能体广场”已经有超过100万个自定义的智能体,涵盖了个人助理、企业服务、教育辅导、医疗健康、法律咨询、游戏娱乐等多个领域,月活跃用户超过5000万;
- 成功原因:
- 强大的大模型支持:字节跳动豆包“智能体广场”基于豆包系列大模型(比如豆包4.0、豆包4.0 Turbo),拥有强大的理解能力、记忆能力、工具调用能力、任务规划能力;
- 简单易用的开发工具:字节跳动为应用开发者提供了简单易用的“智能体构建器”工具——应用开发者不需要写代码,只需要通过自然语言描述自己的需求,上传自己的知识文件(比如PDF、Word、Excel、视频、音频),配置自己
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)