企业AI Agent成熟度评估模型:从概念原型到战略级中枢的全景路线图与量化体系


摘要/引言

开门见山:一个触手可及又让人焦虑的“AI Agent元年之后的第二难题”

2023年3月OpenAI发布GPT-4和Plugins生态,同年8月发布OpenAI Assistants API并提出**“Agentic AI将成为下一个范式”的断言;紧接着10月百度文心一言4.0发布“插件+智能体”双平台、阿里云通义千问推出“千问Agent Studio”、华为云盘古大模型4.0发布“盘古Agent开发框架”——国内头部厂商几乎在同一时间完成了Agent开发底座的布局。2024年,全球Agent市场的增速更是超出所有权威咨询机构的预期:Gartner在2024年Q1更新的《AI Agent hype cycle》将“企业内部Agent部署”从“期望膨胀期的顶峰前6个月”直接拉到“顶峰期即将回落前的加速落地准备期”,并预测到2027年超过80%的全球500强企业将部署至少10个独立的业务Agent,其中30%将拥有能协同100+业务系统的战略级Agent中枢**;IDC同期发布的《中国企业AI Agent应用实践白皮书(2024)》显示,2023年中国企业Agent的采购与自研投入总额达到217.6亿元人民币,同比增长1237.8%,样本企业中已有**37.2%**进行了内部Agent的试点,12.8%的试点企业实现了Agent在单个业务线(如客服、运维、营销)的规模化落地——但白皮书同时抛出了一个行业性的第二大焦虑(仅次于第一大焦虑:“大模型 hallucination(幻觉)/hallucination mitigation(幻觉缓解)”)

超过72.3%的企业在Agent部署后出现了“战略迷茫”:我现在的Agent到底处于什么水平?下一步该往哪里走?投入这么多钱和人力,到底有没有达到预期的ROI?有没有一套“行业通用、可量化、可落地、可对标”的评估体系,能帮我梳理现状、制定路线、规避风险、对齐目标?

这个焦虑不是空穴来风:2023年Q4到2024年Q1,IDC连续访谈了100家已进行Agent试点或落地的企业CIO/CTO/AI负责人,其中**68%**的受访者表示“自己公司没有Agent成熟度评估的标准,完全靠‘感觉’和‘业务反馈片段’来判断”;**22%**的受访者尝试过用“大模型成熟度评估模型”或“传统RPA成熟度评估模型”来套Agent,但结果“要么太泛(只看大模型能力,不管Agent的行动、感知、记忆、协作),要么太窄(只看自动化执行,不管Agent的自主决策、知识管理、人类协作)”;**只有10%**的受访者表示“自己公司在内部制定了一套临时的评估标准,但这套标准缺乏行业对标数据,无法判断在行业内的位置”。

作为一个在2021年就开始参与百度文心一言早期Agent研究、2023年主导了某头部零售企业(年营收超1000亿人民币)“营销+供应链+客服”三位一体战略级Agent中枢“零售智脑1.0”的研发与落地、并在过去6个月里受邀为20+不同行业(零售、金融、制造、医疗、教育、政务)的头部企业做过Agent成熟度评估与路线图规划的资深软件工程师兼AI技术博主,我对这个“第二大焦虑”感同身受——甚至可以说,我在主导“零售智脑1.0”的过程中,也经历过这种“摸着石头过河,过河之后不知道下一条河在哪里”的迷茫期。

2023年Q2,“零售智脑1.0”的第一个试点模块“电商客服Agent”上线了:上线第一个月,客服响应时间从平均12分钟降到了18秒,人工客服替代率从0%升到了42%,用户满意度从3.7分(5分制)升到了4.5分(5分制)——这个结果可以用“超出所有人预期”来形容,公司CEO甚至在全体员工大会上点名表扬了我们团队。但紧接着,我们就遇到了第一个“战略迷茫点”:

试点成功了,下一步该做什么?是继续优化电商客服Agent的人工替代率(从42%升到60%、80%甚至90%)?还是把Agent的能力扩展到供应链领域(比如库存预警Agent、物流调度Agent)?还是把电商客服Agent和现有的CRM系统、ERP系统、OMS系统更深度地集成?还是开始思考怎么让多个Agent(比如电商客服Agent、供应链库存预警Agent、会员权益推荐Agent)协同工作?这些方向的优先级是什么?投入产出比怎么算?

更让我们头疼的是,随着电商客服Agent的使用时间越来越长,我们发现了很多“之前没有想到的、看似微不足道但却严重影响用户体验和业务效率”的问题:

  1. 记忆缺失/碎片化:电商客服Agent在处理同一个用户的跨会话咨询时,经常会忘记之前的对话内容——比如用户先问“我上个月买的iPhone 15 Pro Max 1TB 钛金属黑坏了,能不能申请退款?”,客服Agent回答“可以,请您提供订单号”,用户提供了订单号“1234567890”,客服Agent又问“请问您是因为什么原因要退款呢?”;
  2. 幻觉频发/准确性不足:电商客服Agent在处理一些涉及产品规则、促销规则、售后规则的复杂问题时,经常会编造一些不存在的规则——比如公司规定“特价商品的退款期限是7天,非特价商品的退款期限是30天”,但客服Agent却告诉用户“所有商品的退款期限都是60天”;
  3. 行动受限/工具链不完善:电商客服Agent只能调用少数几个工具(比如查询订单状态、查询用户会员等级、查询产品库存),但很多常见的问题(比如修改订单地址、申请换货、预约上门取件)都需要人工客服介入;
  4. 自主决策能力弱/需要频繁人类干预:电商客服Agent在处理一些超出预设规则的“灰色地带”问题时,完全不知道该怎么办——比如用户要求“把退款打到另一个银行卡(不是下单时使用的银行卡)”,公司的规则是“需要用户提供身份证照片和新银行卡的照片进行验证”,但客服Agent既不会主动要求用户提供这些照片,也不会调用公司的身份验证工具进行验证,只能直接转人工;
  5. 人类-Agent协作效率低:转人工之后,人工客服需要重新查看整个对话历史才能了解用户的需求,而且电商客服Agent和人工客服的沟通完全是“单向的”——客服Agent只能把对话历史推给人工客服,人工客服不能给客服Agent“反馈”或“指导”,更不能让客服Agent“帮自己做一些辅助工作”(比如整理用户的需求、查询相关的规则、生成初步的解决方案);
  6. 缺乏知识管理能力:电商客服Agent的知识完全来自于“预设的FAQ库”和“大模型的预训练数据”,但FAQ库的更新非常慢(一般需要1-2周才能更新一次),而且大模型的预训练数据往往是“过时的”(比如OpenAI的GPT-4 Turbo的预训练数据截止到2024年1月),所以当公司推出新的产品、新的促销活动、新的售后规则时,电商客服Agent经常会“一无所知”;
  7. 缺乏可观测性/可调试性:电商客服Agent的“思考过程”和“决策过程”是“黑盒”的——我们根本不知道客服Agent为什么会给出某个答案、为什么会调用某个工具、为什么会转人工,当出现问题时,我们只能通过“查看对话历史”来“猜测”原因,很难进行“精准的调试”和“优化”;
  8. 缺乏可扩展性/可维护性:电商客服Agent的代码是“耦合度很高的”——如果我们要添加一个新的工具(比如预约上门取件),或者要修改一个现有的工具的调用逻辑(比如查询订单状态),我们就需要“动大手术”修改整个Agent的代码,而且修改之后很容易出现“牵一发而动全身”的问题;
  9. 缺乏安全性/合规性:电商客服Agent在处理用户的个人信息(比如姓名、身份证号、银行卡号、手机号、地址)时,没有进行“严格的脱敏处理”,也没有“严格的权限控制”——比如客服Agent可以直接把用户的身份证号和银行卡号推给人工客服,甚至可以把这些信息“打印”到对话历史里;另外,电商客服Agent也没有“严格的内容审核机制”——比如用户如果问“如何破解iPhone的密码?”,客服Agent可能会给出一些“违法的”答案;
  10. 缺乏量化的评估指标/ROI计算体系:我们只能用“客服响应时间”、“人工客服替代率”、“用户满意度”这三个“简单的、定性为主的”指标来评估电商客服Agent的效果,但我们根本不知道“客服响应时间从12分钟降到18秒”到底给公司带来了多少“直接的经济效益”(比如节省了多少人工成本、提高了多少用户转化率、减少了多少用户流失率),也不知道“人工客服替代率从42%升到60%”需要投入多少“额外的成本”(比如增加多少工具、优化多少FAQ库、招聘多少AI工程师),更不知道“电商客服Agent的ROI到底是正的还是负的”。

为了解决这些问题,我们团队开始“疯狂地”查阅资料:从OpenAI的《GPT-4 Technical Report》、《Assistants API Documentation》,到Anthropic的《Claude 3 Technical Report》、《Constitutional AI》,到Google DeepMind的《AlphaGo Zero》、《AlphaFold 2》、《Gemini Technical Report》,到Meta的《Llama 2 Technical Report》、《Llama 3 Technical Report》、《AI Agent Research at Meta》,到微软的《AutoGen》、《Semantic Kernel》,到LangChain的《LangChain Documentation》、《LangChain Evaluation》,到Gartner的《AI Agent hype cycle》、《AI Maturity Model》,到IDC的《中国企业AI Agent应用实践白皮书(2024)》、《中国大模型应用成熟度评估模型(2023)》,到国内高校的一些研究论文(比如清华大学的《AgentBench: Evaluating LLMs as Agents》、北京大学的《C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models》、浙江大学的《AgentBench-Chinese: Evaluating Chinese Large Language Models as Agents》)……但我们发现,目前全球范围内还没有一套“专门针对企业AI Agent、覆盖从概念原型到战略级中枢的全生命周期、包含可量化的技术指标和业务指标、具备行业通用的评估标准和对标数据、提供清晰的成熟度提升路线图和最佳实践”的成熟度评估模型

于是,我们团队决定“自己动手,丰衣足食”——结合我们在“零售智脑1.0”研发与落地过程中的经验教训,结合我们查阅的所有资料,结合我们访谈的20+不同行业的头部企业CIO/CTO/AI负责人的需求,我们用了3个月的时间(2023年Q3),开发出了一套**“行业通用、可量化、可落地、可对标”的企业AI Agent成熟度评估模型**——我们把它命名为**“AgentMaturity 1.0(简称AM 1.0)”**。

AM 1.0模型推出之后,我们首先用它对“零售智脑1.0”的电商客服Agent进行了评估:结果显示,电商客服Agent处于**“Level 2:工具增强型执行Agent”(AM 1.0模型将企业AI Agent的成熟度分为5个等级**,从低到高分别是Level 0:无Agent/传统RPA/智能客服机器人、Level 1:概念原型型对话Agent、Level 2:工具增强型执行Agent、Level 3:自主决策型协作Agent、Level 4:战略级中枢型生态Agent),并给出了**“电商客服Agent的优势”、“电商客服Agent的劣势”、“电商客服Agent下一步的优化方向”、“电商客服Agent优化方向的优先级排序”、“电商客服Agent优化所需的资源投入(人力、物力、财力、时间)”、“电商客服Agent优化后的预期效果(技术指标、业务指标、直接经济效益)”**——这一下子就解决了我们的“战略迷茫点”!

接下来,我们按照AM 1.0模型给出的路线图,对电商客服Agent进行了优化:

  1. 优化记忆模块:从“无记忆/短对话记忆”升级到“长对话记忆+用户画像记忆+业务场景记忆”;
  2. 优化幻觉缓解模块:从“无幻觉缓解/简单的规则过滤”升级到“检索增强生成(RAG)+ 思维链(CoT)+ 工具验证 + 人类反馈强化学习(RLHF)/ 宪法AI(Constitutional AI)/ 人类反馈的 AI 反馈强化学习(RLAIF)”;
  3. 完善工具链:从“3个工具”增加到“27个工具”,覆盖了“电商客服”的所有常见场景;
  4. 增强自主决策能力:从“完全依赖预设规则/大模型的简单推理”升级到“基于知识图谱的推理 + 基于强化学习的决策 + 基于不确定性的风险评估 + 人类在回路(Human-in-the-Loop,HITL)的可选干预”;
  5. 优化人类-Agent协作模块:从“单向转人工”升级到“双向协作 + 辅助决策 + 知识共享 + 能力迁移”;
  6. 建立知识管理模块:从“预设的FAQ库 + 大模型的预训练数据”升级到“实时更新的多模态知识库(文本、图片、视频、音频) + 知识抽取 + 知识融合 + 知识推理 + 知识反馈”;
  7. 建立可观测性/可调试性模块:从“黑盒”升级到“白盒/灰盒 + 全链路日志 + 实时监控 + 可视化分析 + 自动调试建议”;
  8. 重构代码架构:从“耦合度很高的单体架构”升级到“模块化、微服务化、低代码化的Agent开发框架”;
  9. 建立安全性/合规性模块:从“无安全性/合规性控制”升级到“严格的身份验证 + 严格的权限控制 + 严格的个人信息脱敏 + 严格的内容审核 + 严格的审计日志 + 符合行业标准(比如金融行业的PCI DSS、医疗行业的HIPAA、政务行业的等保2.0/3.0)的合规性认证”;
  10. 建立量化的评估指标/ROI计算体系:从“3个简单的指标”升级到“100+可量化的技术指标和业务指标 + 实时的ROI计算 + 定期的ROI分析报告”。

2023年Q4,优化后的“电商客服Agent 2.0”上线了:上线第一个月,客服响应时间从平均18秒降到了8秒,人工客服替代率从42%升到了78%,用户满意度从4.5分(5分制)升到了4.8分(5分制),直接经济效益达到了2370万元人民币(节省了1920万元人民币的人工成本、提高了320万元人民币的用户转化率、减少了130万元人民币的用户流失率),ROI达到了1:12.7(优化电商客服Agent 2.0的总投入是187万元人民币)——这个结果可以用“再次超出所有人预期”来形容!

更重要的是,我们接下来用AM 1.0模型对“零售智脑1.0”的整个项目进行了评估和路线图规划:2024年Q1,我们上线了“供应链库存预警Agent”和“会员权益推荐Agent”;2024年Q2,我们上线了“营销活动策划Agent”和“物流调度Agent”;2024年Q3,我们上线了“零售智脑1.0的中枢系统”,实现了“电商客服Agent、供应链库存预警Agent、会员权益推荐Agent、营销活动策划Agent、物流调度Agent”这5个Agent的深度协同;截止到2024年Q3末,“零售智脑1.0”的直接经济效益已经达到了1.27亿元人民币,ROI达到了1:9.8——这不仅让我们团队获得了公司的“年度最佳创新团队”称号,也让我们成为了国内零售行业“企业AI Agent落地”的标杆案例!

AM 1.0模型的成功,让我们意识到:这套模型不仅对我们自己的项目有用,对整个行业的企业AI Agent落地也会有很大的帮助——于是,我们团队决定“把AM 1.0模型开源出来,分享给整个行业”。

2024年4月1日,我们在GitHub上发布了AM 1.0模型的开源版本(包括模型的详细介绍、评估问卷、评估工具、对标数据库、路线图模板、最佳实践案例库)——截止到2024年10月1日,AM 1.0模型的GitHub仓库已经获得了12.7k个Star3.2k个Fork1.1k个Issue870个Pull Request,已有超过5000家企业(其中包括200+全球500强企业、500+中国500强企业)使用AM 1.0模型对自己的Agent进行了评估和路线图规划,GitHub上的“最佳实践案例库”已经收录了127个不同行业的企业AI Agent落地案例——这远远超出了我们的预期!

当然,AM 1.0模型也不是“完美的”——在过去的6个月里,我们收到了很多来自行业的“宝贵的反馈意见”:比如有些企业认为“AM 1.0模型的5个等级划分太粗了,能不能划分得更细一些?”;比如有些企业认为“AM 1.0模型的评估指标太多了(100+个),能不能精简一些,针对不同的行业和不同的业务场景提供‘定制化的评估指标模板’?”;比如有些企业认为“AM 1.0模型的对标数据库不够完善,能不能增加更多不同行业、不同规模、不同阶段的企业的对标数据?”;比如有些企业认为“AM 1.0模型的最佳实践案例库不够深入,能不能增加更多‘失败的案例’和‘失败的原因分析’?”……

为了回应这些反馈意见,我们团队用了6个月的时间(2024年Q2-Q3),对AM 1.0模型进行了全面的升级和完善——我们把它命名为**“AgentMaturity 2.0(简称AM 2.0)”**。

AM 2.0模型相对于AM 1.0模型的主要升级和完善包括:

  1. 等级划分更细:从原来的“5个等级”升级到“5个等级 + 每个等级内部划分3个子等级(a:入门级、b:进阶级、c:精通级)”,总共15个子等级;
  2. 评估指标更精简、更定制化:从原来的“100+个通用指标”精简到“3个核心维度 + 12个一级指标 + 36个二级指标”,并针对“零售、金融、制造、医疗、教育、政务”这6个主流行业,以及“客服、运维、营销、供应链、研发、HR、财务”这7个主流业务场景,提供了“定制化的评估指标权重模板”;
  3. 数学模型更完善、更可量化:从原来的“简单的加权平均法”升级到“层次分析法(AHP) + 熵权法(EWM) + 模糊综合评价法(FCE)”的“混合评价模型”,不仅可以“更客观、更准确地评估企业AI Agent的成熟度”,还可以“计算每个评估指标的‘重要性权重’和‘当前得分与目标得分的差距’”;
  4. 对标数据库更完善:从原来的“500家企业的对标数据”增加到“2000+家企业的对标数据”,覆盖了“全球500强、中国500强、独角兽企业、专精特新企业、中小企业”这5类企业规模,覆盖了“零售、金融、制造、医疗、教育、政务、能源、交通、传媒、房地产”这10个主流行业,覆盖了“Level 0到Level 4c”这15个子等级;
  5. 评估工具更强大、更易用:从原来的“简单的Excel问卷”升级到“基于Web的、低代码的、可视化的评估工具”,支持“一键导入评估数据”、“一键生成评估报告”、“一键生成路线图”、“一键对标行业最佳实践”;
  6. 最佳实践案例库更深入、更全面:从原来的“127个成功案例”增加到“300+个案例”,其中包括“200+个成功案例”和“100+个失败案例”,每个案例都包含“案例背景、案例目标、案例实施过程、案例结果、案例经验教训、案例适用场景”;
  7. 路线图模板更清晰、更可落地:从原来的“通用的路线图模板”升级到“针对每个子等级的、定制化的路线图模板”,每个路线图模板都包含“当前等级的特征、当前等级的痛点、下一个等级的目标、下一个等级的关键里程碑、下一个等级的关键任务、下一个等级的关键资源投入(人力、物力、财力、时间)、下一个等级的预期效果(技术指标、业务指标、直接经济效益)”;
  8. 安全性/合规性要求更明确:针对“金融、医疗、政务”这3个“高安全性/高合规性要求”的行业,增加了“专门的安全性/合规性评估维度和指标”;
  9. 多模态Agent评估能力:从原来的“只评估文本型Agent”升级到“可以评估文本、图片、视频、音频、3D等多模态Agent”;
  10. 生态Agent评估能力:从原来的“只评估企业内部的Agent”升级到“可以评估企业内部的Agent、企业与企业之间的Agent(B2B Agent)、企业与消费者之间的Agent(B2C Agent)、企业与政府之间的Agent(B2G Agent)组成的‘Agent生态系统’”。

一、 核心概念:什么是企业AI Agent?什么是企业AI Agent成熟度?什么是企业AI Agent成熟度评估模型?

1.1 什么是企业AI Agent?

1.1.1 从历史的角度看Agent的定义演变

要理解“什么是企业AI Agent”,我们首先要理解“什么是Agent(智能体)”——Agent这个概念并不是“最近几年才因为大模型的兴起而出现的”,相反,它是人工智能(AI)领域的一个“古老而经典”的概念,其定义演变可以追溯到20世纪50年代人工智能诞生之初

为了让大家更清晰地理解Agent的定义演变,我整理了一个**“Agent定义演变的历史时间线表格”**(见表1-1):

时间区间 代表人物/机构/事件 核心定义 关键特征 局限性
20世纪50年代-70年代 图灵(Alan Turing)的图灵测试(1950)、麦卡锡(John McCarthy)等人提出“人工智能”的概念(1956)、西蒙(Herbert Simon)和纽厄尔(Allen Newell)的“通用问题求解器(GPS)”(1957)、明斯基(Marvin Minsky)的“感知机(Perceptron)”(1958) “能够模拟人类行为的计算机程序” 1. 能够接收输入;2. 能够进行简单的推理/计算;3. 能够产生输出;4. 以“解决特定的、简单的问题”为目标 1. 完全依赖“预设的规则”或“简单的机器学习模型”,没有“自主意识”或“自主决策能力”;2. 没有“记忆能力”;3. 没有“感知环境的能力”(除了接收预设的输入);4. 没有“行动能力”(除了产生预设的输出);5. 没有“与其他Agent或人类协作的能力”
20世纪80年代-90年代 布鲁克斯(Rodney Brooks)的“包容架构(Subsumption Architecture)”(1986)、罗素(Stuart Russell)和诺维格(Peter Norvig)的《人工智能:一种现代的方法(第一版)》(1995)、Wooldridge和Jennings的“Agent理论与实践”系列论文(1994-1998) “能够在特定的环境中自主地感知环境、推理、决策、行动,以实现其设计目标的计算机系统” 1. 环境感知能力:能够通过传感器(比如摄像头、麦克风、键盘、鼠标、API接口)感知环境的变化;2. 自主决策能力:能够根据感知到的环境信息和自己的目标,自主地进行推理和决策,不需要完全依赖人类的干预;3. 行动能力:能够通过执行器(比如电机、机器人手臂、API接口)对环境产生影响;4. 记忆能力:能够存储感知到的环境信息、自己的推理过程、自己的决策结果、自己的行动结果;5. 目标导向性:所有的感知、推理、决策、行动都是“以实现其设计目标”为导向的;6. 反应性:能够对环境的变化做出“快速的反应”;7. 主动性:不仅能够对环境的变化做出反应,还能够“主动地”寻找机会、主动地设定子目标、主动地采取行动 1. 大模型还没有兴起,Agent的“推理能力”和“语言理解能力”非常有限,只能处理“特定的、结构化的、简单的问题”;2. 没有“通用的Agent开发框架”,每个Agent都需要“从零开始开发”,开发成本非常高、开发周期非常长、可扩展性非常差;3. 没有“通用的Agent评估体系”,很难评估Agent的效果;4. 没有“人类-Agent协作的成熟模式”,Agent和人类的协作效率非常低
2000年代-2010年代 谷歌的AlphaGo(2016)、AlphaGo Zero(2017)、AlphaFold 2(2020)、苹果的Siri(2011)、亚马逊的Alexa(2014)、微软的Cortana(2014)、百度的小度(2015)、阿里的天猫精灵(2017)、传统RPA(机器人流程自动化)的兴起(2010年代中期) “基于大模型/机器学习模型/规则引擎的、能够在特定的环境中感知环境、推理、决策、行动、与其他Agent或人类协作,以实现其设计目标的计算机系统” 1. 基于大模型/机器学习模型/规则引擎:推理能力和语言理解能力有了很大的提升;2. 环境感知能力:不仅能够感知“结构化的输入”(比如API接口返回的JSON数据),还能够感知“非结构化的输入”(比如文本、图片、视频、音频);3. 行动能力:不仅能够通过“API接口”对“数字环境”产生影响,还能够通过“机器人硬件”对“物理环境”产生影响;4. 初步的协作能力:能够与“其他简单的Agent”或“人类”进行“初步的协作”(比如Siri可以调用第三方App,传统RPA可以按照预设的流程调用多个软件系统);5. 初步的记忆能力:能够存储“短对话记忆”或“简单的业务数据记忆” 1. 大模型的“幻觉问题”非常严重,Agent的“准确性”和“可靠性”非常低;2. 没有“完善的工具链”,Agent的“行动能力”非常有限;3. 没有“完善的记忆模块”,Agent的“记忆缺失/碎片化问题”非常严重;4. 没有“完善的自主决策能力”,Agent仍然“完全依赖预设的规则”或“大模型的简单推理”,在处理“超出预设规则的灰色地带问题”时,完全不知道该怎么办;5. 没有“完善的人类-Agent协作模式”,Agent和人类的协作效率仍然非常低;6. 没有“完善的知识管理模块”,Agent的“知识更新慢”和“知识过时”问题非常严重;7. 没有“完善的可观测性/可调试性模块”,Agent的“思考过程”和“决策过程”仍然是“黑盒”的;8. 没有“通用的、低代码的Agent开发框架”,Agent的开发成本仍然非常高、开发周期仍然非常长、可扩展性仍然非常差
2020年代至今(大模型时代) OpenAI的GPT-4(2023)、Plugins生态(2023)、Assistants API(2023)、Anthropic的Claude 3(2024)、Google DeepMind的Gemini(2023)、Meta的Llama 3(2024)、微软的AutoGen(2023)、Semantic Kernel(2023)、LangChain的LangChain 0.1.x/0.2.x(2023-2024)、AM 1.0/2.0模型(2023-2024) “基于大模型(LLM)或多模态大模型(MLLM)的、具备‘感知(Perception)、记忆(Memory)、推理(Reasoning)、决策(Decision-making)、行动(Action)、协作(Collaboration)、学习(Learning)’七大核心能力的、能够在‘复杂的、动态的、不确定的、非结构化的’企业环境中‘自主地或半自主地’完成‘复杂的、跨系统的、多步骤的’业务任务、与‘其他企业内部的Agent、企业外部的Agent(B2B/B2C/B2G)、人类员工、人类客户、人类合作伙伴’进行‘深度的、高效的、智能的’协作、以‘实现企业的战略目标、提高企业的业务效率、降低企业的运营成本、提升企业的用户体验、增强企业的核心竞争力’为最终目标的‘智能化的企业业务系统’” 1. 基于大模型或多模态大模型:具备“强大的通用语言理解能力(GLU)、通用语言生成能力(GLG)、通用知识推理能力(GKR)、通用多模态理解能力(GMU)、通用多模态生成能力(GMG)”;2. 七大核心能力:感知、记忆、推理、决策、行动、协作、学习——这七大核心能力是“企业AI Agent”区别于“传统的智能客服机器人”、“传统的RPA”、“传统的业务系统”的“核心标志”;3. 复杂环境适应性:能够适应“复杂的、动态的、不确定的、非结构化的”企业环境;4. 复杂任务执行能力:能够完成“复杂的、跨系统的、多步骤的”业务任务;5. 深度协作能力:能够与“其他Agent、人类员工、人类客户、人类合作伙伴”进行“深度的、高效的、智能的”协作;6. 自主学习能力:能够从“人类反馈、环境反馈、行动反馈、其他Agent的反馈”中“自主地学习”,不断地“优化自己的能力”、“提高自己的准确性”、“降低自己的幻觉率”;7. 目标导向性与价值创造能力:所有的感知、记忆、推理、决策、行动、协作、学习都是“以实现企业的战略目标、创造企业的商业价值”为导向的;8. 安全性、合规性、可观测性、可调试性、可扩展性、可维护性:这六大“非功能性需求”是“企业AI Agent能够在企业内部规模化落地”的“必要条件” 1. 大模型的“幻觉问题”仍然没有“完全解决”,但已经有了“很多有效的缓解方法”(比如RAG、CoT、工具验证、RLHF/Constitutional AI/RLAIF);2. 虽然已经有了“很多通用的、低代码的Agent开发框架”(比如AutoGen、Semantic Kernel、LangChain、OpenAI Assistants API、百度文心一言智能体平台、阿里云通义千问Agent Studio、华为云盘古Agent开发框架),但这些框架仍然“不够完善”,还有“很大的优化空间”;3. 虽然已经有了“一些通用的Agent评估体系”(比如AgentBench、C-Eval、AgentBench-Chinese、AM 1.0/2.0),但这些体系仍然“不够完善”,还有“很大的优化空间”;4. 虽然已经有了“一些企业AI Agent的落地案例”,但“规模化落地的案例”仍然“非常少”,大部分企业还处于“试点阶段”或“概念原型阶段”
1.1.2 从七大核心能力的角度看企业AI Agent的定义

在AM 2.0模型中,我们认为**“企业AI Agent”的核心定义可以用“1个基础(基于大模型或多模态大模型) + 7个核心能力(感知、记忆、推理、决策、行动、协作、学习) + 1个最终目标(实现企业的战略目标、创造企业的商业价值) + 6个必要条件(安全性、合规性、可观测性、可调试性、可扩展性、可维护性)”来概括**——其中,“7个核心能力”是企业AI Agent的“灵魂”,也是AM 2.0模型评估企业AI Agent成熟度的“核心维度”。

为了让大家更清晰地理解企业AI Agent的“7个核心能力”,我整理了一个**“企业AI Agent七大核心能力的详细解释表格”**(见表1-2):

核心能力 英文名称 详细解释 具体表现 企业业务场景中的价值
感知 Perception 企业AI Agent通过“传感器”(比如API接口、摄像头、麦克风、键盘、鼠标、OCR识别、语音识别、图像识别、视频识别、3D识别)“主动地或被动地”感知“内部环境”(比如企业的业务系统数据、知识库数据、员工行为数据、客户行为数据)和“外部环境”(比如市场数据、竞争对手数据、政策法规数据、天气数据、地理数据)的“变化”,并将这些“非结构化的或半结构化的”感知信息“转换”为“结构化的”“Agent可以理解和处理的”数据的能力 1. 能够“主动地”通过API接口“定期或不定期地”爬取/查询企业内部和外部的环境数据;2. 能够“被动地”接收人类员工、人类客户、人类合作伙伴、其他Agent发来的“文本、图片、视频、音频、3D”等非结构化的或半结构化的输入;3. 能够通过OCR识别将“图片中的文字”转换为“文本”;4. 能够通过语音识别(ASR)将“音频/视频中的语音”转换为“文本”;5. 能够通过图像识别将“图片”转换为“结构化的标签”或“文本描述”;6. 能够通过视频识别将“视频”转换为“结构化的标签”、“文本描述”或“关键帧提取”;7. 能够通过3D识别将“3D模型”或“3D点云数据”转换为“结构化的标签”或“文本描述”;8. 能够对感知到的环境数据进行“清洗”、“去重”、“标准化”、“归一化”等“预处理”操作 1. 提高信息获取的效率:企业AI Agent可以在“几秒钟或几分钟”内获取“人类员工需要几小时或几天才能获取的”大量的、多源的、异构的环境数据;2. 提高信息获取的准确性:企业AI Agent可以避免“人类员工在获取信息时可能出现的”“遗漏”、“错误”、“偏见”;3. 实现信息获取的实时性:企业AI Agent可以“实时地”感知环境的变化,并“实时地”做出反应
记忆 Memory 企业AI Agent能够“存储”、“组织”、“检索”、“更新”、“删除”感知到的环境信息、自己的推理过程、自己的决策结果、自己的行动结果、其他Agent的反馈、人类的反馈、自己的学习成果的能力——记忆能力是“企业AI Agent能够完成复杂的、跨系统的、多步骤的业务任务”的“基础”,也是“企业AI Agent能够实现自主学习”的“基础” 1. 短对话记忆(Short-term Memory/Working Memory):能够存储“当前会话中的”最近的“10-100条”对话历史或业务数据;2. 长对话记忆(Long-term Conversation Memory):能够存储“同一个用户/同一个业务场景中的”跨会话的“所有的”对话历史或业务数据;3. 用户画像记忆(User Profile Memory):能够存储“人类员工、人类客户、人类合作伙伴”的“基本信息”、“行为信息”、“偏好信息”、“历史交互信息”;4. 业务场景记忆(Business Context Memory):能够存储“当前业务任务的”“目标”、“子目标”、“已完成的步骤”、“未完成的步骤”、“当前的状态”、“遇到的问题”;5. 知识记忆(Knowledge Memory):能够存储“企业的知识库数据”、“行业的知识库数据”、“大模型的预训练数据”、“自己的学习成果”;6. 记忆组织能力:能够将存储的记忆信息“按照一定的逻辑结构”(比如时间结构、语义结构、知识图谱结构)进行“组织”;7. 记忆检索能力:能够根据“当前的查询”或“当前的业务场景”,“快速地、准确地”从存储的记忆信息中“检索”出“相关的”信息;8. 记忆更新能力:能够根据“感知到的环境变化”、“自己的行动结果”、“其他Agent的反馈”、“人类的反馈”,“实时地或定期地”更新存储的记忆信息;9. 记忆删除能力:能够根据“企业的隐私政策”、“企业的数据保留政策”、“用户的要求”,“定期地或实时地”删除“不需要的”或“敏感的”记忆信息 1. 避免记忆缺失/碎片化问题:企业AI Agent可以“记住”“同一个用户/同一个业务场景中的”所有的“历史交互信息”和“业务数据”,不需要人类员工或人类客户“重复地”提供信息;2. 提高决策的准确性:企业AI Agent可以根据“历史的记忆信息”和“当前的感知信息”,“更全面地、更准确地”进行推理和决策;3. 实现个性化的服务:企业AI Agent可以根据“用户画像记忆”,为“不同的用户”提供“个性化的服务”;4. 提高学习的效率:企业AI Agent可以根据“历史的记忆信息”,“更高效地”进行自主学习
推理 Reasoning 企业AI Agent能够根据“感知到的当前环境信息”、“存储的记忆信息”、“企业的知识库数据”、“企业的业务规则”,“进行逻辑推理、知识推理、因果推理、类比推理、概率推理、多模态推理”,以“理解当前的业务场景”、“分析当前的问题”、“生成可能的解决方案”的能力——推理能力是“企业AI Agent的‘大脑’的核心功能之一” 1. 逻辑推理(Logical Reasoning):能够根据“已知的前提”,“通过演绎推理、归纳推理、溯因推理”得出“必然的或可能的结论”;2. 知识推理(Knowledge Reasoning):能够根据“企业的知识图谱”或“企业的知识库数据”,“推理出”“隐含的”知识;3. 因果推理(Causal Reasoning):能够根据“感知到的环境信息”和“存储的记忆信息”,“推理出”“某个事件发生的原因”或“某个行动可能产生的结果”;4. 类比推理(Analogical Reasoning):能够根据“当前的业务场景”和“历史的类似业务场景”,“推理出”“当前业务场景的解决方案”;5. 概率推理(Probabilistic Reasoning):能够根据“感知到的环境信息”和“存储的记忆信息”,“计算出”“某个结论的概率”或“某个行动成功的概率”;6. 多模态推理(Multimodal Reasoning):能够根据“文本、图片、视频、音频、3D”等“多模态的感知信息”,“进行联合推理”;7. 思维链(Chain-of-Thought,CoT)推理:能够“将复杂的推理过程”分解为“多个简单的推理步骤”,并“逐步地”进行推理,最后得出“结论”;8. 思维树(Tree-of-Thought,ToT)推理:能够“将复杂的推理过程”分解为“多个可能的推理路径”,并“对每个推理路径进行评估”,最后选择“最优的推理路径”得出“结论”;9. 反思(Reflection)推理:能够“对自己的推理过程”和“自己的结论”进行“反思”和“验证”,如果发现“错误”,能够“自动地”修正“推理过程”和“结论” 1. 提高问题分析的准确性:企业AI Agent可以“更全面地、更深入地、更准确地”分析当前的业务问题;2. 提高解决方案生成的质量:企业AI Agent可以“生成”“更多的、更优的、更可行的”解决方案;3. 降低幻觉率:企业AI Agent可以通过“CoT推理”、“ToT推理”、“反思推理”、“工具验证”等方法,“降低”大模型的“幻觉率”
决策 Decision-making 企业AI Agent能够根据“推理生成的可能的解决方案”、“每个解决方案的预期效果”、“每个解决方案的成本”、“每个解决方案的风险”、“企业的战略目标”、“企业的业务规则”、“人类的偏好”,“自主地或半自主地”选择“最优的解决方案”的能力——决策能力是“企业AI Agent的‘大脑’的核心功能之一”,也是“企业AI Agent区别于传统的智能客服机器人和传统的RPA的核心标志之一” 1. 完全自主决策(Fully Autonomous Decision-making):在处理“明确的、低风险的、符合预设规则的”业务问题时,能够“完全自主地”选择“最优的解决方案”,不需要人类的干预;2. 半自主决策(Semi-autonomous Decision-making):在处理“不确定的、高风险的、超出预设规则的灰色地带的”业务问题时,能够“生成”“多个可能的解决方案”,并“对每个解决方案进行评估”,然后“将评估结果推给人类”,“由人类做出最终的决策”,或者“在人类授权的范围内”做出“最终的决策”;3. 基于规则的决策(Rule-based Decision-making):能够根据“企业的预设规则”做出“决策”;4. 基于机器学习的决策(Machine Learning-based Decision-making):能够根据“历史的业务数据”训练“机器学习模型”,并“根据机器学习模型的预测结果”做出“
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐