告别 Chatbot:为何 Agent 才是大模型的终极形态

关键词:大模型 Agent,Chatbot 局限,自主决策,工具调用,任务闭环,上下文记忆,强化学习

摘要:本文将从你每天可能接触到的“只会聊天的智能客服小妹”这个故事说起,用通俗易懂的小学生比喻,对比Chatbot和大模型Agent的核心差异。我们会像玩积木搭城堡一样,拆解Agent的三大核心模块——「超级大脑+记忆宫殿+工具箱」,一步步画流程图、写Python代码、看实际项目案例,最后聊聊Agent的未来和挑战。读完这篇文章,你会明白为什么Chatbot只是大模型的“幼儿园阶段”,而Agent才是能帮你“写论文+订机票+做PPT演讲+陪你完成一周工作”的“超级小管家”。


背景介绍:从只会说“请稍等”的智能客服说起

目的和范围

这篇文章的目的,就是帮你彻底搞懂:

  1. 什么是Chatbot?它为啥让人“爱不起来又离不开”?
  2. 什么是大模型Agent?它和Chatbot有啥本质区别(注意不是换个名字哦)?
  3. Agent是怎么“搭积木”一样工作的?核心模块是啥?
  4. 我们能用Python写个简单但能用的Agent吗?比如帮你搜天气、记日程、算数学题?
  5. Agent现在在哪些地方用?未来能变成啥样?有没有什么需要担心的?

我们的范围主要聚焦在基于大语言模型(LLM)的Agent,不聊以前那种“关键词匹配的老式Chatbot”,也不聊其他类型的智能体(比如游戏里的NPC,工业机器人那种)。

预期读者

这篇文章是写给所有对AI感兴趣的人看的——不管你是刚接触AI的小学生,还是学编程的大学生,还是做产品的经理,还是写代码的程序员。我会用“搭积木”“魔法盒子”“整理书包”这种小学生都能懂的比喻,讲清楚复杂的技术;同时也会放专业的流程图、数学公式、Python代码,满足技术爱好者的需求。

文档结构概述

我们的文章结构就像“逛科技馆”一样:

  1. 入口厅(背景介绍):先看老式智能客服的故事,搞懂我们为啥要“告别Chatbot”。
  2. 概念馆(核心概念与联系):对比Chatbot和Agent的定义,用比喻讲Agent的三大核心模块,画ER图和交互图,放专业的架构图。
  3. 原理馆(核心算法原理&具体操作步骤):拆解Agent的核心工作流程——感知→思考→决策→行动→反馈→学习,放Mermaid流程图,写伪代码和Python的具体实现步骤。
  4. 数学馆(数学模型和公式):用简单的数学公式讲Agent的强化学习、思维链(CoT)、工具调用机制,不用怕难,我会用“加减乘除”解释。
  5. 实践馆(项目实战):手把手教你用LangChain(一个搭Agent的“积木盒”)和OpenAI的GPT-4o-mini(不用花钱哦,有免费额度)搭一个**“个人小管家Agent”**,它能帮你搜今天的天气、记明天的日程、算简单的数学题、整理你给的零散信息。
  6. 应用馆(实际应用场景):看Agent在客服、教育、医疗、编程、办公这些领域的实际案例,比如微软的Copilot Studio,字节的豆包Agent,OpenAI的GPT-4o。
  7. 资源馆(工具和资源推荐):推荐搭Agent的工具(LangChain、AutoGPT、CrewAI)、学习资源(书籍、课程、论文)、社区(GitHub、知乎、Discord)。
  8. 未来馆(未来发展趋势与挑战):聊Agent的发展历史(从图灵测试到现在的大模型Agent)、未来趋势(多模态Agent、多Agent协作、通用人工智能AGI)、挑战(安全性、可靠性、成本、隐私)。
  9. 出口厅(总结+思考题+附录):总结我们学到的东西,出几个思考题让你“动动小脑筋”,放常见问题解答和扩展阅读。

术语表

核心术语定义
  1. 大语言模型(LLM):就像一个“读了全世界所有书的超级小学生”,它能听懂你说的话,能写文章、能回答问题,但它不会自己主动做事,也记不住太长的对话,更不会用工具(比如搜天气、订机票)。
  2. Chatbot(聊天机器人):就像一个“只会背台词的餐厅服务员”——以前的是“听到关键词就说对应的台词”,现在基于LLM的是“能看懂台词但只会按规则回应”,它的目的只是聊天,或者只能帮你做非常简单的、一步就能完成的事(比如查一下公司地址)。
  3. 大模型Agent(智能体):就像一个“住在魔法盒子里的超级小管家”——它有“读了全世界书的超级大脑(LLM)”、有“能记住所有事情的记忆宫殿(长期记忆+短期记忆)”、有“装满各种工具的工具箱(搜天气、订机票、写代码、做PPT)”,它的目的是帮你完成一个“复杂的、多步骤的任务闭环”(比如“帮我订明天从北京到上海的机票,要上午9点到11点起飞的,经济舱,预算1000块以内,订好后给我发个日程提醒,还要帮我查一下上海明天的天气,准备好穿什么衣服的建议”)。
  4. 任务闭环:就像“帮妈妈买酱油”的整个过程——听到妈妈的指令→去门口的便利店→找酱油→看价格(不能超过妈妈给的5块钱)→付钱→拿酱油→回家给妈妈→妈妈说“谢谢”或者“买错了换个牌子”→如果买错了就再去换。这个过程从“听到指令”开始,到“任务完成或者确认无法完成”结束,中间可能有很多步骤,还有反馈和调整。
  5. 工具调用:就像“超级小管家需要用计算器算数学题,需要用手机搜天气,需要用剪刀剪彩纸”——Agent自己不会做这些“具体的、需要外部信息或外部能力的事”,但它知道什么时候用什么工具,怎么用工具,用了工具之后怎么把结果拿回来继续处理。
  6. 上下文记忆:就像“超级小管家能记住你昨天说的‘我明天要出差去上海’,今天你说‘帮我订机票’,它就知道是订去上海的,不用你再说一遍”——上下文记忆分为“短期记忆”(比如最近的10条对话)和“长期记忆”(比如你所有的日程、所有的偏好、所有的历史对话)。
相关概念解释
  1. 思维链(Chain of Thought, CoT):就像“超级小管家做数学题时,会一步一步写下来‘第一步算加法,第二步算乘法,第三步算除法’,而不是直接给出答案”——思维链能让LLM的推理更清晰,结果更准确,也能让我们知道LLM是怎么想的。
  2. 强化学习(Reinforcement Learning, RL):就像“教小狗握手——小狗握手了就给它一颗狗粮,没握手就不给,慢慢的小狗就学会了握手”——强化学习能让Agent通过“尝试→犯错→得到奖励→调整策略”的方式,不断变得更聪明,更能完成复杂的任务。
  3. 多Agent协作:就像“一群小朋友一起搭积木城堡——有的小朋友负责找积木,有的负责搭地基,有的负责搭城墙,有的负责搭屋顶,大家分工合作,很快就能搭好一个大城堡”——多Agent协作能让多个Agent一起完成一个“超级复杂的任务”(比如“帮我写一篇关于人工智能的论文,需要有人查资料,有人写摘要,有人写正文,有人修改格式,有人做PPT演讲”)。
  4. 多模态Agent:就像“超级小管家不仅能听懂你说的话,还能看到你拍的照片,听到你录的音乐,甚至能‘摸’到你家里的温度(通过传感器)”——多模态Agent能处理“文字、图片、音频、视频、传感器数据”等多种类型的信息,能帮你完成更多更复杂的任务。
缩略词列表
  1. LLM:Large Language Model,大语言模型
  2. Agent:大模型智能体(本文中有时直接简称Agent)
  3. Chatbot:聊天机器人
  4. CoT:Chain of Thought,思维链
  5. RL:Reinforcement Learning,强化学习
  6. RLHF:Reinforcement Learning from Human Feedback,基于人类反馈的强化学习
  7. API:Application Programming Interface,应用程序编程接口(就像“超级小管家和工具之间的电话——小管家给工具打电话说‘帮我搜一下北京明天的天气’,工具就把天气信息发回来”)
  8. LangChain:一个用来搭LLM应用和Agent的开源框架(就像“一个装满各种搭积木零件的盒子,你可以随便拿零件搭你想要的东西”)
  9. GPT:Generative Pre-trained Transformer,生成式预训练Transformer(OpenAI开发的一系列大语言模型的名字)
  10. AGI:Artificial General Intelligence,通用人工智能(就像“一个和人类一样聪明,甚至比人类更聪明的超级小管家,它能帮你做任何人类能做的事,甚至更多”)

核心概念与联系:Chatbot是“只会背台词的服务员”,Agent是“会干活的超级小管家”

故事引入:两个“智能客服”的对比

假设你今天早上起来,发现自己的手机坏了,你想找华为的智能客服问一下“怎么办”。

第一个智能客服:老式关键词匹配Chatbot

你:“你好,我的手机开不了机了。”
Chatbot:“您好,请说关键词,比如‘手机维修’‘手机售后’‘退换货’。”
你:“手机开不了机属于手机维修吧?那我换一个说法:‘手机维修’。”
Chatbot:“您好,手机维修请拨打400-830-8300,或者访问https://consumer.huawei.com/cn/support/repair/ 。”
你:“可是我现在不想打电话,也不想访问网站,我想知道‘自己能不能先试试修一下’?”
Chatbot:“您好,请说关键词,比如‘手机维修’‘手机售后’‘退换货’。”
你:“……(心里默念:这是什么破客服!)”

第二个智能客服:基于LLM的新型Chatbot(比如华为的小艺)

你:“你好,我的华为Mate 60 Pro今天早上起来开不了机了,怎么办?”
小艺(基于LLM):“您好,很抱歉听到您的手机开不了机了。您可以先试试以下几个简单的方法:

  1. 长按电源键10秒以上,强制重启手机;
  2. 检查一下手机有没有电,插上充电器充30分钟再试试;
  3. 如果以上方法都不行,可能是硬件问题,建议您拨打华为官方客服电话400-830-8300,或者访问https://consumer.huawei.com/cn/support/repair/ 找附近的华为授权服务中心。”
    你:“好的,我先试试强制重启。哦,对了,我明天要出差去深圳,需要订一个华为授权服务中心附近的酒店,预算300块钱以内,离服务中心步行不超过10分钟,能帮我吗?”
    小艺(基于LLM):“您好,我是华为的智能客服,主要负责华为产品的咨询和售后,订酒店的话您可以使用美团、携程、飞猪等酒店预订APP哦。”
    你:“……(心里默念:这个客服比刚才的好,但还是只会做自己分内的事,不能帮我完成一个完整的任务)”
第三个智能客服:华为Mate 60 Pro里的“超级小管家Agent”(假设华为已经做出来了)

你:“你好,我的华为Mate 60 Pro今天早上起来开不了机了,怎么办?而且我明天要出差去深圳,需要:

  1. 先帮我自己试试修手机;
  2. 如果修不好,帮我找离我家最近的华为授权服务中心;
  3. 帮我预约明天早上8点到9点的服务;
  4. 帮我取消明天早上8点到深圳的机票(因为我可能修不好手机,要改签到后天);
  5. 帮我订后天早上8点到深圳的机票,经济舱,预算1000块以内;
  6. 帮我找深圳华为坂田基地附近的酒店,预算300块钱以内,离基地步行不超过10分钟;
  7. 帮我查一下深圳后天的天气,准备好穿什么衣服的建议;
  8. 把所有这些信息整理成一个日程表,发到我的微信里。”
    超级小管家Agent:“好的,主人,我马上帮您处理!
    第一步:我先帮您试试强制重启手机——请您现在长按电源键10秒以上,您做了吗?
    (你按了10秒,手机还是开不了机)
    你:“还是开不了机。”
    超级小管家Agent:“好的,第二步:检查一下手机有没有电——您的手机昨晚充到多少电了?睡前有没有用到没电自动关机?
    你:“昨晚充到100%了,睡前用到50%就插上充电器了,早上起来看到充电器没插好,手机可能没电自动关机了?不过刚才我插上充电器充了5分钟,还是开不了机。”
    超级小管家Agent:“好的,第三步:我帮您找离您家最近的华为授权服务中心——通过您手机的GPS定位(虽然手机开不了机,但您的华为账号里有最近的定位记录),您家住在北京市朝阳区望京SOHO T1附近,离您家最近的华为授权服务中心是‘华为授权服务中心(北京朝阳望京SOHO店)’,地址是北京市朝阳区望京SOHO T3-B座1层103,步行只需要5分钟,营业时间是每天早上9点到晚上8点。
    第四步:帮您预约明天早上8点到9点的服务——哦,不对,这家店明天早上9点才开门,我帮您预约明天早上9点到10点的服务可以吗?
    你:“可以,没问题。”
    超级小管家Agent:“好的,预约成功!我已经把预约码发到您的华为账号邮箱里了,明天您去的时候记得带身份证和手机购买凭证哦。
    第五步:帮您取消明天早上8点到深圳的机票——通过您的携程账号(您之前授权过我访问携程),您订的是明天早上8点05分从北京首都国际机场T3航站楼到深圳宝安国际机场T3航站楼的中国国航CA1301航班,经济舱,票价899元,现在取消的话只需要扣50元手续费,可以吗?
    你:“可以,取消吧。”
    超级小管家Agent:“好的,取消成功!退款会在3-5个工作日内原路返回您的支付宝账户。
    第六步:帮您订后天早上8点到深圳的机票——我帮您搜了一下,后天早上8点到11点起飞的、从北京到深圳的、经济舱、预算1000块以内的航班有:
  9. 中国国航CA1303,早上8点10分起飞,11点25分到达,票价879元;
  10. 南方航空CZ3152,早上8点30分起飞,11点45分到达,票价859元;
  11. 东方航空MU5131,早上8点50分起飞,12点05分到达,票价839元。
    您想订哪一个?
    你:“订南方航空CZ3152吧,最便宜。”
    超级小管家Agent:“好的,订票成功!我已经把机票信息发到您的华为账号邮箱和微信里了。
    第七步:帮您找深圳华为坂田基地附近的酒店——我帮您搜了一下,离深圳华为坂田基地步行不超过10分钟的、预算300块钱以内的酒店有:
  12. 7天连锁酒店(深圳华为坂田基地店),地址是深圳市龙岗区坂田街道雪岗北路2018号,步行到华为坂田基地只需要3分钟,房价259元/晚,有免费WiFi、免费早餐、免费洗漱用品;
  13. 如家快捷酒店(深圳华为坂田基地店),地址是深圳市龙岗区坂田街道五和大道北5001号,步行到华为坂田基地只需要5分钟,房价279元/晚,有免费WiFi、免费早餐、免费停车场;
  14. 汉庭酒店(深圳华为坂田基地店),地址是深圳市龙岗区坂田街道岗头社区雪岗北路1001号,步行到华为坂田基地只需要7分钟,房价289元/晚,有免费WiFi、免费早餐、免费健身房。
    您想订哪一个?
    你:“订7天连锁酒店吧,最便宜,步行也最近。”
    超级小管家Agent:“好的,订房成功!我已经把酒店信息发到您的华为账号邮箱和微信里了。
    第八步:帮您查一下深圳后天的天气——深圳后天(10月20日)的天气是多云转晴,气温22℃到28℃,东北风3级,空气质量优。建议您穿长袖衬衫或者薄外套,白天可以穿短袖,晚上有点凉,记得带一件薄外套。
    第九步:把所有这些信息整理成一个日程表——我已经整理好了,日程表如下:
    【10月19日(明天)日程】
  • 9:00-10:00:华为授权服务中心(北京朝阳望京SOHO店)修手机,地址:北京市朝阳区望京SOHO T3-B座1层103,预约码:HUAWEI123456,记得带身份证和手机购买凭证
    【10月20日(后天)日程】
  • 6:30:起床,收拾行李
  • 7:00:从家出发去北京首都国际机场T3航站楼
  • 8:30:南方航空CZ3152航班起飞,座位号:32A
  • 11:45:到达深圳宝安国际机场T3航站楼
  • 12:30:从机场出发去7天连锁酒店(深圳华为坂田基地店)
  • 13:30:办理入住,休息一下
  • 14:30:去华为坂田基地开会
    【深圳后天天气建议】
  • 天气:多云转晴,气温22℃-28℃,东北风3级,空气质量优
  • 穿着:长袖衬衫或薄外套,白天可穿短袖,晚上带薄外套
    我已经把这个日程表发到您的微信里了,同时也添加到了您的华为日历里,明天早上会提前1小时提醒您去修手机,后天早上会提前2小时提醒您去机场。
    主人,还有什么需要我帮忙的吗?”
    你:“哇!太棒了!谢谢你!”
    超级小管家Agent:“不客气,主人,这是我应该做的!有什么需要随时叫我哦!”

核心概念解释(像给小学生讲故事一样)

现在,我们通过刚才的故事,来正式解释一下Chatbot大模型Agent这两个核心概念,以及Agent的三大核心模块

核心概念一:什么是Chatbot?

我们刚才故事里的第一个和第二个智能客服,都是Chatbot——第一个是老式关键词匹配Chatbot,第二个是基于LLM的新型Chatbot

我们用一个**“只会背台词的餐厅服务员”**的比喻来解释Chatbot:

  • 老式关键词匹配Chatbot:就像一个“刚上岗的、只会背50句台词的餐厅服务员”——你说“你好”,它说“您好,欢迎光临!”;你说“菜单”,它说“您好,请拿好菜单!”;你说“我要一份宫保鸡丁”,它说“您好,宫保鸡丁一份,马上到!”;但如果你说“我要一份‘辣一点的、不要花生的、少放糖的’宫保鸡丁”,它就听不懂了,只会说“您好,请说关键词,比如‘宫保鸡丁’‘鱼香肉丝’‘麻婆豆腐’”。
  • 基于LLM的新型Chatbot:就像一个“上岗了一段时间、背了10000句台词、还能稍微改一下台词的餐厅服务员”——你说“我要一份‘辣一点的、不要花生的、少放糖的’宫保鸡丁”,它能听懂,会说“好的,辣一点、不要花生、少放糖的宫保鸡丁一份,马上到!”;但如果你说“我要一份宫保鸡丁,还要帮我订一张明天晚上7点的电影票,电影是《流浪地球3》,座位要中间的,预算50块钱以内”,它就会说“您好,我是餐厅服务员,主要负责点餐和上菜,订电影票的话您可以使用猫眼、淘票票等电影票预订APP哦”。

所以,Chatbot的本质特征是:

  1. 目的单一:要么只是聊天,要么只能帮你做非常简单的、一步就能完成的、在它“分内”的事(比如查公司地址、点餐、查天气)。
  2. 不会自主决策:它只能按照“预设的规则”或者“LLM的简单推理”来回应,不会自己主动思考“下一步该做什么”
  3. 不会工具调用(或者只会调用非常少的、预设的工具):老式Chatbot完全不会工具调用,基于LLM的新型Chatbot可能会调用1-2个预设的工具(比如查天气的工具),但不会自己选择工具、组合工具、多次调用工具
  4. 上下文记忆有限:基于LLM的新型Chatbot可能会记住最近的5-10条对话,但记不住太长的对话(比如你昨天说的话),也记不住你的偏好(比如你喜欢吃辣的、不喜欢吃花生)。
  5. 不会任务闭环:它只能帮你完成任务的“某一个步骤”,不会帮你完成整个任务(比如从“手机开不了机”到“修好手机、订好机票、订好酒店、整理好日程表”的整个过程)。

核心概念二:什么是大模型Agent?

我们刚才故事里的第三个智能客服,就是大模型Agent——我们用一个**“住在魔法盒子里的超级小管家”**的比喻来解释它:
这个超级小管家住在一个“魔法盒子”里,魔法盒子里有三样东西:

  1. 超级大脑(LLM):就像一个“读了全世界所有书、会说所有语言、会做所有数学题、会写所有文章的超级小学生”——它能听懂你说的任何话,能回答你问的任何问题,能做任何简单的推理,但它不会自己主动做事,也记不住太长的对话,更不会用工具
  2. 记忆宫殿:就像一个“超级大的、整理得非常整齐的图书馆”——图书馆里有两个房间:
    • 短期记忆房间:就像图书馆里的“临时书架”——只能放最近的100-1000条对话、最近的10-100个工具调用结果,放满了就会把旧的东西扔掉,给新的东西腾位置。
    • 长期记忆房间:就像图书馆里的“永久书架”——能放你所有的日程、所有的偏好、所有的历史对话、所有的工具调用记录,永远不会扔掉,你想找什么就能找到什么。
  3. 工具箱:就像一个“超级大的、装满各种工具的工具箱”——里面有“搜天气的工具”“订机票的工具”“订酒店的工具”“搜资料的工具”“写代码的工具”“做PPT的工具”“整理信息的工具”“发微信的工具”“添加日历的工具”……等等,只要你能想到的工具,里面都有;而且超级小管家知道什么时候用什么工具、怎么用工具、用了工具之后怎么把结果拿回来继续处理

除了这三样东西,这个超级小管家还有一个**“任务闭环流程”**——就像“帮妈妈买酱油”的整个过程:

  1. 感知(Perception):听到妈妈的指令(“帮我买一瓶酱油,要海天牌的,500ml装的,预算5块钱以内”)。
  2. 思考(Thinking):用思维链一步一步想——“第一步,我要去门口的便利店;第二步,我要找海天牌的500ml装的酱油;第三步,我要看价格,不能超过5块钱;第四步,我要付钱;第五步,我要拿酱油回家给妈妈”。
  3. 决策(Decision):决定“去门口的全家便利店,因为全家便利店离我家最近,而且有海天牌的酱油”。
  4. 行动(Action):执行决策——去全家便利店,找海天牌的500ml装的酱油,看价格(4.9元,符合预算),付钱(用妈妈给的5块钱),拿酱油。
  5. 反馈(Feedback):把结果拿回来给妈妈——“妈妈,我买回来了,是海天牌的500ml装的酱油,花了4.9元,找了1毛钱”。
  6. 学习(Learning):如果妈妈说“谢谢,买得很好”,下次就还会这么做;如果妈妈说“买错了,我要的是生抽不是老抽”,下次就会记住“妈妈要的是海天牌的500ml装的生抽”。

所以,大模型Agent的本质特征是:

  1. 目的明确:它的目的不是聊天,而是帮你完成一个“复杂的、多步骤的任务闭环”(比如从“手机开不了机”到“修好手机、订好机票、订好酒店、整理好日程表”的整个过程)。
  2. 会自主决策:它能自己主动思考“下一步该做什么”,不用你每一步都告诉它。
  3. 会工具调用:它能自己选择工具、组合工具、多次调用工具,完成复杂的任务。
  4. 上下文记忆强大:它有“短期记忆”和“长期记忆”,能记住太长的对话(比如你昨天说的话),也能记住你的偏好(比如你喜欢吃辣的、不喜欢吃花生)。
  5. 会任务闭环:它能帮你完成整个任务,从“听到指令”开始,到“任务完成或者确认无法完成”结束,中间可能有很多步骤,还有反馈和调整。

核心概念三:Agent的三大核心模块(超级大脑+记忆宫殿+工具箱)

刚才我们用“超级小管家的魔法盒子”的比喻,提到了Agent的三大核心模块——现在我们来正式、详细地解释一下这三个模块:

模块一:超级大脑(LLM,大语言模型)

超级大脑是Agent的核心中的核心——没有超级大脑,Agent就只是一个“空壳子”,什么都做不了。

超级大脑的主要功能是:

  1. 感知理解:听懂你说的话(文字、语音、图片、视频等多模态信息),理解你的意图(你到底想让它做什么)。
  2. 思考推理:用思维链(CoT)、思维树(ToT)、思维图(GoT)等方法,一步一步思考推理,找到完成任务的最佳方法。
  3. 决策规划:决定“下一步该做什么”“用什么工具”“怎么组合工具”,制定一个详细的“任务执行计划”。
  4. 生成输出:生成文字、语音、图片、视频等输出,或者生成“工具调用指令”(告诉工具该做什么)。
  5. 反馈调整:根据工具调用的结果、你的反馈,调整“任务执行计划”,重新思考推理,重新决策规划。

我们可以把超级大脑比作“超级小管家的脑袋”——脑袋里装着所有的知识,能思考、能推理、能决策、能说话。

现在市面上常用的超级大脑(LLM)有:

  • OpenAI的GPT-4o、GPT-4o-mini、GPT-4 Turbo
  • 字节跳动的豆包4.0、豆包3.5
  • 阿里巴巴的通义千问4.0、通义千问3.5
  • 百度的文心一言4.0、文心一言3.5
  • 腾讯的混元4.0、混元3.5
  • Anthropic的Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku
  • Meta的Llama 3、Llama 2

模块二:记忆宫殿(Memory,记忆系统)

记忆宫殿是Agent的“图书馆”——没有记忆宫殿,Agent就像一个“健忘症患者”,刚和你说过的话就忘了,刚用工具查过的信息就忘了,你的偏好也记不住,根本无法完成复杂的任务。

记忆宫殿分为两个部分

  1. 短期记忆(Short-Term Memory, STM):也叫“工作记忆(Working Memory)”——就像图书馆里的“临时书架”,只能放最近的100-1000条对话、最近的10-100个工具调用结果,放满了就会把旧的东西扔掉,给新的东西腾位置。
    • 短期记忆的存储位置:通常存储在“超级大脑的上下文窗口(Context Window)”里——比如GPT-4o的上下文窗口是128K tokens(大概相当于10万字左右),GPT-4 Turbo的上下文窗口是1M tokens(大概相当于80万字左右)。
    • 短期记忆的主要功能:帮助超级大脑“记住最近发生的事情”,比如刚才的对话、刚才的工具调用结果,这样超级大脑就能继续完成任务,不用你每一步都重复之前的信息。
  2. 长期记忆(Long-Term Memory, LTM):也叫“持久记忆(Persistent Memory)”——就像图书馆里的“永久书架”,能放你所有的日程、所有的偏好、所有的历史对话、所有的工具调用记录,永远不会扔掉,你想找什么就能找到什么。
    • 长期记忆的存储位置:通常存储在“外部数据库”里——比如向量数据库(Vector Database,用来存储“语义信息”,比如你说过的话的意思,这样超级大脑就能通过“语义搜索”找到你之前说过的相关内容)、关系型数据库(Relational Database,比如MySQL、PostgreSQL,用来存储“结构化信息”,比如你的日程、你的偏好)、NoSQL数据库(比如MongoDB,用来存储“非结构化信息”,比如你的历史对话记录)。
    • 长期记忆的主要功能:帮助超级大脑“记住很久以前发生的事情”,比如你昨天说的话、你上个月的偏好、你去年的历史对话,这样超级大脑就能“个性化”地为你服务,比如知道你喜欢吃辣的、不喜欢吃花生,订机票的时候只订经济舱、预算1000块以内。

记忆宫殿还有一个重要的组件——记忆检索器(Memory Retriever):就像图书馆里的“图书管理员”——当超级大脑需要找“之前的信息”时,它会告诉图书管理员“我要找什么”,图书管理员就会从“短期记忆房间”和“长期记忆房间”里找到相关的信息,拿给超级大脑。

记忆检索器的主要检索方法是:

  1. 关键词检索(Keyword Retrieval):就像图书管理员通过“书名”“作者名”“关键词”找书——比如超级大脑说“我要找‘海天牌酱油’的相关信息”,图书管理员就会找所有包含“海天牌酱油”这个关键词的信息。
  2. 语义检索(Semantic Retrieval):就像图书管理员通过“书的内容意思”找书——比如超级大脑说“我要找‘妈妈让我买的调料’的相关信息”,图书管理员就会找所有“和妈妈让我买的调料相关的信息”,不管有没有包含“海天牌酱油”这个关键词。
  3. 混合检索(Hybrid Retrieval):就是“关键词检索+语义检索”——先用语义检索找到最相关的100条信息,再用关键词检索从这100条信息里找到最匹配的10条信息,拿给超级大脑。

我们可以把记忆宫殿比作“超级小管家的大脑袋旁边的一个超级大的笔记本”——短期记忆是“笔记本的前几页,刚写的内容,随时可以看”,长期记忆是“笔记本的后面所有页,写了很久的内容,需要翻一下才能找到”,记忆检索器是“超级小管家的手指,用来翻笔记本找内容”。


模块三:工具箱(Tools,工具系统)

工具箱是Agent的“武器库”——没有工具箱,Agent就只是一个“只会说不会做的书呆子”,能回答你问的问题,但不能帮你做“具体的、需要外部信息或外部能力的事”(比如搜天气、订机票、写代码)。

工具箱里的工具可以分为三大类

  1. 信息获取类工具(Information Retrieval Tools):用来获取“外部信息”——比如搜天气的工具、搜新闻的工具、搜资料的工具、搜股票的工具、搜地图的工具。
  2. 操作执行类工具(Action Execution Tools):用来执行“外部操作”——比如订机票的工具、订酒店的工具、订电影票的工具、发微信的工具、发邮件的工具、添加日历的工具、写代码的工具、做PPT的工具、控制智能家居的工具(比如开灯、关灯、开空调)。
  3. 辅助处理类工具(Auxiliary Processing Tools):用来处理“内部信息或外部信息”——比如计算器(用来算数学题)、翻译器(用来翻译文字)、摘要器(用来总结长文章)、整理器(用来整理零散信息)、图像识别器(用来识别图片里的内容)、语音识别器(用来识别语音里的内容)、语音合成器(用来把文字变成语音)。

工具箱里的工具通常是通过**API(应用程序编程接口)**来调用的——就像“超级小管家和工具之间的电话”:

  • 超级小管家给工具打电话说“帮我搜一下北京明天的天气”(这就是“API请求”);
  • 工具收到电话后,去查北京明天的天气,然后把天气信息发回来(这就是“API响应”);
  • 超级小管家收到天气信息后,继续处理任务。

现在市面上常用的工具API有:

  • 信息获取类:OpenWeatherMap(天气)、NewsAPI(新闻)、Google Search API(搜索)、SerpAPI(搜索)、Alpha Vantage(股票)、Google Maps API(地图)。
  • 操作执行类:Amadeus API(机票、酒店)、TripAdvisor API(酒店、景点)、猫眼API(电影票)、微信开放平台API(发微信)、SendGrid API(发邮件)、Google Calendar API(添加日历)、GitHub API(写代码)、Canva API(做PPT)、小米智能家居API(控制智能家居)。
  • 辅助处理类:Google Calculator API(计算器)、Google Translate API(翻译)、OpenAI Summarization API(摘要)、Tesseract OCR(图像识别)、OpenAI Whisper API(语音识别)、OpenAI Text-to-Speech API(语音合成)。

我们还可以自己开发工具——比如你可以开发一个“帮你查公司内部通讯录的工具”“帮你生成公司内部报表的工具”“帮你管理公司内部项目的工具”,然后把这些工具放到Agent的工具箱里,让Agent帮你做公司内部的事。

现在市面上常用的搭Agent工具的框架有:

  • LangChain Tools:LangChain自带了很多常用的工具,你也可以自己开发工具。
  • LlamaIndex Tools:LlamaIndex也自带了很多常用的工具,你也可以自己开发工具。
  • AutoGPT Tools:AutoGPT也自带了很多常用的工具,你也可以自己开发工具。

我们可以把工具箱比作“超级小管家的手里的一个超级大的工具箱”——里面有“螺丝刀、扳手、钳子、锤子、计算器、手机、电脑……等等”,只要你能想到的工具,里面都有;而且超级小管家知道什么时候用什么工具、怎么用工具、用了工具之后怎么把结果拿回来继续处理。


核心概念之间的关系:Chatbot vs Agent 对比,Agent三大模块的交互

现在我们来对比一下ChatbotAgent的核心差异,以及Agent的**三大核心模块(超级大脑+记忆宫殿+工具箱)**是如何交互的。


对比一:Chatbot vs Agent 核心属性维度对比(markdown表格)

我们用一个对比表格来更清晰地展示Chatbot和Agent的核心差异:

核心属性维度 老式关键词匹配Chatbot 基于LLM的新型Chatbot 大模型Agent
核心目的 聊天、关键词匹配回应 聊天、简单的一步式任务处理 完成复杂的多步骤任务闭环
是否会自主决策 不会,完全按照预设规则回应 不会,按照LLM的简单推理和预设规则回应 会,能自己主动思考下一步该做什么、制定任务执行计划
工具调用能力 完全不会工具调用 只会调用1-2个预设的工具 会自己选择工具、组合工具、多次调用工具
上下文记忆能力 完全没有上下文记忆 有短期记忆,能记住最近的5-10条对话 有短期记忆+长期记忆,能记住所有的历史对话和偏好
是否会任务闭环 不会,只能完成任务的某一个关键词匹配的回应 不会,只能完成任务的某一个一步式的步骤 会,能从听到指令开始到任务完成或确认无法完成结束
个性化程度 完全没有个性化,所有人得到的回应都是一样的 有一点点个性化,能根据最近的对话调整回应 有很强的个性化,能根据所有的历史对话和偏好调整服务
推理能力 完全没有推理能力 有简单的推理能力,能回答简单的问题 有很强的推理能力,能用思维链、思维树等方法完成复杂推理
学习能力 完全没有学习能力 有一点点学习能力,能通过RLHF调整LLM的回应方式 有很强的学习能力,能通过强化学习、人类反馈不断变得更聪明
适用场景 简单的关键词匹配场景,比如查公司地址、查营业时间 简单的聊天场景和一步式任务处理场景,比如查天气、点餐 复杂的多步骤任务闭环场景,比如个人助理、客服、教育、医疗、编程、办公

对比二:Chatbot vs Agent 交互流程对比(Mermaid流程图)

我们用两个Mermaid流程图来更清晰地展示Chatbot和Agent的交互流程:

流程一:基于LLM的新型Chatbot交互流程

用户输入问题或指令

LLM接收输入并理解意图

是否需要调用预设工具?

LLM生成回应

调用1-2个预设工具获取结果

LLM根据工具结果生成回应

用户收到回应

用户是否继续输入?

结束交互

流程二:大模型Agent交互流程

用户输入任务指令

超级大脑LLM接收输入并理解意图

从记忆宫殿检索相关信息

用思维链制定详细的任务执行计划

任务执行计划是否需要调整?

根据记忆宫殿的信息和用户可能的反馈调整计划

选择并调用第一个工具

获取工具调用结果

把工具调用结果存入记忆宫殿的短期记忆

任务执行计划是否完成?

用思维链分析工具结果并制定下一步的子计划

从记忆宫殿检索所有相关信息

超级大脑LLM生成最终的任务结果

把最终的任务结果和整个任务执行过程存入记忆宫殿的长期记忆

用户收到最终的任务结果

用户是否满意?

结束任务,给Agent一个正面奖励

询问用户不满意的地方,获取反馈

把用户的反馈存入记忆宫殿的长期记忆

用户是否有新的任务?

结束交互


对比三:Agent三大核心模块的交互关系(ER实体关系图+交互关系图)

我们用一个ER实体关系图和一个交互关系图来更清晰地展示Agent三大核心模块(超级大脑LLM、记忆宫殿Memory、工具箱Tools)的交互关系:

图一:Agent三大核心模块的ER实体关系图(Mermaid ER图)

使用

包含

包含

使用

读取/写入

调用

包含

包含

包含

包含

包含

包含

USER

AGENT

LLM

MEMORY

TOOL

SHORT_TERM_MEMORY

LONG_TERM_MEMORY

MEMORY_RETRIEVER

INFORMATION_RETRIEVAL_TOOL

ACTION_EXECUTION_TOOL

AUXILIARY_PROCESSING_TOOL

图二:Agent三大核心模块的交互关系图(Mermaid架构图)
渲染错误: Mermaid 渲染失败: Parse error on line 24: ... N[短期记忆单元] ----------------------^ Expecting 'SEMI', 'NEWLINE', 'SPACE', 'EOF', 'subgraph', 'end', 'acc_title', 'acc_descr', 'acc_descr_multiline_value', 'AMP', 'COLON', 'STYLE', 'LINKSTYLE', 'CLASSDEF', 'CLASS', 'CLICK', 'DOWN', 'DEFAULT', 'NUM', 'COMMA', 'NODE_STRING', 'BRKT', 'MINUS', 'MULT', 'UNICODE_TEXT', 'direction_tb', 'direction_bt', 'direction_rl', 'direction_lr', 'direction_td', got '1'
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐