AI Agent即服务(Agent as a Service):云厂商的新战场与创业机会

关键词:AI Agent、Agent as a Service (AaaS)、大语言模型 (LLM)、云服务、多Agent协作、自动化工作流、低代码/无代码平台


摘要

想象一下:你只需要用自然语言描述“我要帮我管理公众号选题,每周自动爬取科技类热榜,结合公司近3个月爆款文章的风格生成3个初稿选题,再通过分析粉丝评论倾向筛选出最优的1个,最后生成选题大纲和配套的互动评论模板”——30秒内,一个完整的、可直接运行的“公众号选题专家”AI助手就出现在你面前,你甚至可以一键把它部署成微信小程序或API接口。这不是科幻电影,而是正在成为现实的AI Agent即服务(Agent as a Service, 简称AaaS)

本文将以“一步步思考”的方式,带你深入理解AaaS的前世今生、核心概念、技术原理,解析云厂商如何在这片新战场排兵布阵,创业者又能从中挖掘哪些细分机会,最后还会提供一个基于OpenAI GPT-4o和LangChain搭建的“极简版个人任务管理AaaS原型”的完整代码。全文约9800字,既有宏观的行业分析,也有微观的技术落地,适合AI产品经理、开发者、创业者以及对AI应用感兴趣的普通读者阅读。


一、背景介绍:从工具到助手,再到自主代理的进化

1.1 问题背景

让我们先回忆一下过去20年互联网和AI工具的发展历程,看看我们是怎么一步步走到需要AaaS的今天的:

  • Web 1.0/2.0时代:工具是“被动响应式”的——你必须点击按钮、输入指令、填写表单,工具才会执行任务。比如你要查股票,得打开同花顺App,输入股票代码,点击“查询”;你要写邮件,得登录Gmail,点“写邮件”,填收件人、主题、内容,再点“发送”。这时候的工具就像“雇佣来的钟点工”,你说一句他做一句,绝不越雷池一步。
  • 大语言模型(LLM)元年(2023年):工具进化成了“主动式顾问”——你不再需要严格的指令格式,自然语言就能搞定一切。比如你可以问ChatGPT“如何用Python实现一个简单的线性回归?”,它会直接给你代码、注释和示例数据;你可以让Midjourney“画一幅赛博朋克风格的上海外滩夜景,要有东方明珠、无人机快递和戴着VR眼镜逛豫园的游客”,它会生成4张风格不同的图片。但顾问毕竟只是顾问——它不会帮你打开Jupyter Notebook运行代码,不会帮你修改模型参数直到准确率达标,也不会帮你把生成的图片上传到Instagram并配文。你还得自己动手完成“最后一公里”的落地。
  • 2024年以来:我们需要的是“自主行动的管家”——它不仅能理解你的需求、提供建议,还能主动制定计划、调用工具、完成任务、遇到问题时自行调整,甚至可以长期跟踪目标并持续优化。这就是AI Agent:一个具备感知、推理、决策、行动、记忆能力的“智能实体”。

但问题来了:

  1. 开发门槛太高:要从零开始做一个能解决实际问题的AI Agent,你需要精通LLM API调用、Prompt Engineering(提示词工程)、向量数据库(记忆存储)、多Agent协作框架(比如LangGraph、AutoGen)、低代码/无代码工具封装、云服务部署等一大堆技术。普通开发者都要花好几个月才能做出一个原型,更别说创业者或非技术人员了。
  2. 部署和维护成本高:开发好的Agent需要部署在云服务器上,需要配置向量数据库、缓存、API网关、负载均衡、监控告警等基础设施,还要处理LLM API限流、数据隐私、Agent崩溃重启等问题。对中小企业和个人来说,这是一笔不小的开销。
  3. 复用性和标准化差:每个团队做的Agent都是“独立王国”——Agent的接口不同、记忆存储格式不同、工具调用方式不同,很难和其他Agent或现有系统集成,也很难复用已有的Agent组件。

这时候,**Agent as a Service(AaaS)**就应运而生了:它就像云厂商提供的SaaS(软件即服务)一样,把AI Agent的开发、部署、维护、监控、复用等全流程“封装成服务”,用户只需要用自然语言或低代码/无代码工具就能快速构建、定制、部署自己的AI Agent,不需要关心底层的技术细节。

1.2 目标读者

本文的目标读者主要分为三类:

  1. AI产品经理:了解AaaS的核心功能和应用场景,学会如何用AaaS快速设计和落地AI产品。
  2. 开发者:掌握AaaS的技术原理和开发框架,能够基于开源或商业AaaS平台开发自定义Agent组件或完整应用。
  3. 创业者:分析AaaS的市场格局和竞争态势,挖掘细分领域的创业机会。
  4. 非技术人员:理解AaaS的基本概念,能够用低代码/无代码AaaS平台构建简单的AI助手。

1.3 核心问题或挑战

在本文中,我们将重点解决以下几个核心问题:

  1. 什么是AI Agent?它和传统的AI工具、ChatGPT有什么区别?
  2. 什么是AaaS?它的核心价值是什么?
  3. AaaS的技术架构是怎样的?涉及哪些核心技术?
  4. 云厂商(比如阿里云、腾讯云、AWS、Azure)是如何布局AaaS的?它们的产品各有什么特点?
  5. 创业者在AaaS领域有哪些细分机会?需要注意哪些坑?
  6. 如何基于开源工具快速搭建一个极简版的AaaS原型?

二、核心概念解析:从“智能实体”到“即服务”的拆解

2.1 核心概念:AI Agent的定义与组成要素

2.1.1 什么是AI Agent?

让我们用一个生活化的比喻来解释AI Agent:AI Agent就像你的“私人智能管家”——他有眼睛(感知能力)、有大脑(推理决策能力)、有手有脚(行动能力)、有日记本和备忘录(长期和短期记忆)、有一套行事准则(人格设定)

比如一个合格的“私人健康管家”AI Agent应该具备以下能力:

  • 感知能力:能够通过智能手表、体重秤、血糖监测仪等设备获取你的健康数据(心率、步数、体重、血糖),能够通过微信或语音助手收到你的健康咨询,甚至能够通过摄像头观察你的饮食情况(比如识别你今天吃了炸鸡、薯条等高热量食物)。
  • 推理决策能力:能够结合你的健康数据、历史健康记录、医学知识库(比如《中国居民膳食指南》)进行推理,比如发现你今天的步数只有3000步(正常成人需要6000-10000步),而且血糖偏高,就会决定“提醒你出去散步30分钟,同时给你推荐一份低热量、低糖的晚餐食谱”。
  • 行动能力:能够调用各种工具来完成任务,比如给你发微信提醒、打开手机地图推荐附近的公园、打开美团外卖推荐符合要求的餐厅或生鲜、甚至能够帮你预约下周的体检。
  • 长期和短期记忆:短期记忆用来记住你今天的健康数据和对话内容,长期记忆用来记住你的过敏史、病史、饮食偏好、运动习惯等历史信息。
  • 人格设定:比如设定成“温柔耐心的营养师姐姐”,说话的时候用亲切的语气,避免生硬的医学术语。
2.1.2 AI Agent vs 传统AI工具 vs 通用LLM(比如ChatGPT)

为了更清楚地理解AI Agent的特点,我们可以做一个对比表格:

对比维度 传统AI工具(比如同花顺、Photoshop) 通用LLM(比如ChatGPT-4o、Claude 3 Opus) AI Agent(比如私人健康管家)
交互方式 严格的指令格式(按钮、表单、快捷键) 自然语言(对话式) 自然语言+主动推送+设备交互
主动性 完全被动(用户说一句做一句) 半被动(仅在对话中提供建议,不主动行动) 完全主动(长期跟踪目标,自主决策行动)
能力边界 单一能力(比如同花顺只能查股票) 通用知识能力(几乎什么都懂,但不精通) 多能力集成(结合通用知识+专业知识+多种工具)
记忆能力 无(或仅存储用户配置) 短期会话记忆(对话结束后就忘记) 长期+短期+结构化记忆(存储历史数据、任务进度、知识图谱等)
自主决策能力 无(完全按照预设规则执行) 弱(仅在对话中提供多个建议,让用户选择) 强(自主制定计划、调整计划、选择工具)
落地能力 强(直接执行任务) 弱(仅提供建议,需要用户动手落地) 强(直接调用工具执行任务,完成“最后一公里”)
2.1.3 AI Agent的核心组成要素

根据斯坦福大学HAI(Human-Centered AI Institute)在2023年发布的《Generative Agents: Interactive Simulacra of Human Behavior》论文,以及目前主流的AI Agent框架(比如LangChain、AutoGen、LangGraph、CrewAI),一个完整的AI Agent应该包含以下5+1个核心组成要素(+1是可选的协作要素):

  1. 核心大脑(LLM/多模态模型):Agent的“CPU+操作系统”,负责理解用户需求、推理决策、生成任务计划、生成工具调用指令、生成自然语言回复等。
  2. 感知模块(Perception):Agent的“眼睛、耳朵、鼻子、皮肤”,负责从各种渠道获取信息——比如从用户的自然语言对话中获取文本信息,从图像/视频中获取视觉信息,从音频中获取语音信息,从API/数据库中获取结构化数据,从智能设备中获取传感器数据等。
  3. 记忆模块(Memory):Agent的“日记本+备忘录+图书馆”,负责存储和检索各种信息——一般分为三层:
    • 短期记忆(Short-Term Memory, STM):类似人类的“工作记忆”,存储当前会话的上下文信息,容量有限(比如GPT-4o的上下文窗口是128K tokens),对话结束后可能会被清空或压缩。
    • 长期记忆(Long-Term Memory, LTM):类似人类的“长期记忆”,存储历史对话、任务进度、用户偏好、专业知识等大容量信息,一般存储在向量数据库(比如Pinecone、Chroma、Milvus)中,通过**语义检索(Semantic Search)**的方式快速找到相关信息。
    • 结构化记忆(Structured Memory):类似人类的“知识图谱”或“备忘录表格”,存储高度结构化的信息——比如用户的过敏史、病史、家人信息、任务清单的状态(待办、进行中、已完成)等,一般存储在关系型数据库(比如MySQL、PostgreSQL)或图数据库(比如Neo4j)中,通过**精确查询(Exact Search)**的方式获取。
  4. 推理决策模块(Reasoning & Decision Making):Agent的“大脑前额叶皮层”,负责制定任务计划、调整任务计划、选择工具、处理异常情况等——常用的技术包括:
    • Chain-of-Thought(CoT,思维链):让LLM一步一步地思考问题,比如先拆解任务,再分析每个步骤需要的工具,最后制定计划。
    • Tree-of-Thought(ToT,思维树):在CoT的基础上,生成多个可能的推理路径,然后评估每个路径的可行性,选择最优的路径。
    • ReAct(Reasoning + Acting,推理+行动):让LLM交替进行推理和行动——先推理下一步需要做什么,然后调用工具执行,再根据工具的返回结果继续推理,直到任务完成。
    • Plan-and-Execute(计划-执行):把任务分成“计划阶段”和“执行阶段”——计划阶段让LLM制定一个详细的、可执行的任务计划(分解成多个子任务),执行阶段让另一个LLM或专门的执行模块按照计划逐一执行子任务,遇到问题时可以回到计划阶段调整计划。
  5. 行动模块(Action/Tool Use):Agent的“手和脚”,负责调用各种工具来完成任务——工具可以分为三类:
    • 内置工具:AaaS平台或Agent框架自带的工具,比如搜索工具(Google Search、Bing Search)、数学计算工具(Wolfram Alpha)、文件读写工具(PDF解析、Excel读写)、代码执行工具(Python Interpreter)等。
    • 自定义工具:用户或开发者自己开发的工具,比如调用公司内部API的工具、调用智能设备的工具等。
    • 第三方工具:集成在AaaS平台上的第三方SaaS工具,比如Slack、Discord、微信、美团外卖、淘宝、Zoom等。
  6. 协作模块(Collaboration,可选):如果是多Agent系统(多个Agent一起工作),还需要协作模块——负责协调多个Agent之间的分工、沟通、同步等,常用的技术包括:
    • 角色分工(Role Assignment):给每个Agent分配不同的角色,比如“产品经理Agent”、“开发工程师Agent”、“测试工程师Agent”、“UI设计师Agent”。
    • 通信协议(Communication Protocol):定义Agent之间的沟通方式,比如用自然语言沟通、用JSON格式的结构化消息沟通、用黑板机制(Blackboard Pattern)共享信息等。
    • 任务分配与调度(Task Allocation & Scheduling):根据每个Agent的能力和当前状态,分配合适的子任务,并调度任务的执行顺序。

为了更直观地理解AI Agent的核心组成要素,我们可以用一个Mermaid架构图来表示:

输入信息

处理后的信息

存储/检索信息

推理需求

推理结果/决策指令

工具调用指令

执行结果/数据

反馈信息

更新记忆

自然语言回复/结构化数据

分工/沟通/同步

协作信息

用户/外部系统/智能设备

感知模块
文本/图像/音频/API/传感器

核心大脑
LLM/多模态模型

记忆模块
STM/LTM/结构化记忆

推理决策模块
CoT/ToT/ReAct/Plan-and-Execute

行动模块/工具调用
内置工具/自定义工具/第三方SaaS

协作模块
多Agent系统可选

反馈回路

其他Agent


三、核心概念解析:AaaS的定义、核心价值与概念结构

3.1 什么是Agent as a Service(AaaS)?

3.1.1 从云服务的发展历程看AaaS的定位

让我们先回忆一下云服务的发展历程,看看AaaS在其中的位置:

  • IaaS(Infrastructure as a Service,基础设施即服务):云厂商把服务器、存储、网络等基础设施“封装成服务”,用户只需要按需租用,不需要自己购买和维护硬件设备——比如AWS EC2、阿里云ECS、腾讯云CVM。
  • PaaS(Platform as a Service,平台即服务):云厂商把开发、测试、部署、运行应用的平台“封装成服务”,用户只需要关注自己的应用代码,不需要关心底层的操作系统、中间件、数据库等——比如AWS Elastic Beanstalk、阿里云SAE、腾讯云Serverless Cloud Function。
  • SaaS(Software as a Service,软件即服务):云厂商把完整的应用程序“封装成服务”,用户只需要通过浏览器或App就能使用,不需要自己开发、部署、维护应用——比如钉钉、企业微信、Salesforce、Zoom。
  • MaaS(Model as a Service,模型即服务):随着LLM的兴起,云厂商把预训练好的大模型“封装成服务”,用户只需要通过API就能调用,不需要自己训练和部署大模型——比如阿里云通义千问API、腾讯云混元API、OpenAI GPT-4o API、Anthropic Claude 3 Opus API。
  • AaaS(Agent as a Service,代理即服务):MaaS的下一个阶段——云厂商把**“基于大模型的自主AI Agent的全生命周期管理”**封装成服务,用户只需要用自然语言或低代码/无代码工具就能快速构建、定制、部署、监控、复用自己的AI Agent,不需要关心底层的大模型API调用、提示词工程、向量数据库、工具集成、云服务部署等技术细节。
3.1.2 AaaS的生活化比喻

为了更清楚地理解AaaS,我们可以用一个**“智能管家定制公司”**的比喻来解释:

  • 云厂商:就是“智能管家定制公司”——它有一个很大的“管家培训基地”(训练大模型),有一个“工具仓库”(内置工具、第三方SaaS集成),有一个“记忆存储中心”(向量数据库、关系型数据库),有一个“管家调度中心”(多Agent协作框架、监控告警系统),还有一群“管家设计师”(提示词工程专家、工具开发专家)。
  • 用户(比如企业HR):就是“需要智能管家的雇主”——他只需要用自然语言告诉定制公司“我要一个HR智能管家,能够帮我发布招聘信息、筛选简历、预约面试、跟踪面试进度、发送录用通知、管理员工档案”。
  • 定制公司的工作流程
    1. 需求分析:“管家设计师”(或专门的需求分析Agent)理解用户的需求,拆解成多个功能模块。
    2. 管家组装:从“工具仓库”里拿出对应的工具(比如招聘网站API、简历解析工具、日历工具、邮件工具、员工档案管理工具),从“管家培训基地”里拿出预训练好的HR专业大模型,配置好“记忆存储中心”的权限,设定好管家的“行事准则”(比如保密员工信息、优先筛选985/211高校的简历、面试前24小时提醒候选人)。
    3. 管家测试:“测试工程师Agent”对组装好的HR智能管家进行测试,比如发布一个虚假的招聘信息,上传一些虚假的简历,看看管家能不能正确筛选、预约面试。
    4. 管家部署:把测试通过的HR智能管家部署到“管家调度中心”,用户可以通过API、微信小程序、钉钉、企业微信等渠道使用。
    5. 管家维护与监控:“管家调度中心”24小时监控管家的运行状态,遇到问题时自动重启或调整;“管家设计师”定期根据用户的反馈和新的招聘趋势优化管家的提示词和工具。
  • 用户的使用体验:就像雇佣了一个真实的HR智能管家——你只需要用自然语言告诉他“帮我发布一个Java开发工程师的招聘信息,月薪20k-30k,要求3年以上工作经验,熟悉Spring Boot框架”,他就会自动帮你完成所有事情;你还可以随时问他“现在有多少份Java开发工程师的简历?”“下周一的面试安排是什么?”,他会立刻给你答案。

3.2 AaaS的核心价值

AaaS的核心价值可以总结为**“降本、增效、 democratize AI Agent(让AI Agent民主化)”**:

  1. 降本
    • 开发成本:不需要雇佣精通LLM、提示词工程、向量数据库等技术的高端开发者,普通开发者甚至非技术人员就能快速构建AI Agent——开发成本可以降低90%以上。
    • 部署和维护成本:不需要自己购买和维护云服务器、向量数据库、API网关等基础设施,只需要按需付费——部署和维护成本可以降低80%以上。
  2. 增效
    • 开发效率:从零开始做一个AI Agent原型,传统方式需要几个月,用AaaS平台只需要几个小时甚至几分钟——开发效率可以提升100倍以上。
    • 迭代效率:可以根据用户的反馈快速调整Agent的提示词、工具、记忆模块——迭代效率可以提升10倍以上。
  3. Democratize AI Agent(让AI Agent民主化)
    • 普通开发者能够快速构建和部署AI Agent,不需要掌握复杂的底层技术。
    • 非技术人员(比如产品经理、HR、运营、销售、医生、教师)能够用自然语言或低代码/无代码工具构建自己的AI助手,解决自己的实际问题。
    • 中小企业和个人能够用上和大企业一样强大的AI Agent,不需要投入大量的资金和人力。

3.3 AaaS的概念结构与核心要素组成

一个完整的AaaS平台应该包含以下6个核心层次

  1. 基础设施层(Infrastructure Layer):提供底层的云基础设施——比如服务器、存储、网络、GPU/TPU(用于大模型推理)等,一般由云厂商自己的IaaS服务提供。
  2. 模型层(Model Layer):提供预训练好的大模型——比如通用LLM(通义千问、GPT-4o、Claude 3)、专业领域LLM(比如医疗LLM、法律LLM、金融LLM)、多模态模型(比如GPT-4o、Claude 3 Opus、通义千问VL)等,一般由云厂商自己的MaaS服务提供,也可以集成第三方MaaS服务。
  3. 核心组件层(Core Components Layer):提供构建AI Agent所需的核心组件——比如感知模块、记忆模块(向量数据库、关系型数据库)、推理决策模块(CoT/ToT/ReAct/Plan-and-Execute框架)、行动模块(工具仓库、工具开发SDK)、协作模块(多Agent协作框架)等。
  4. 开发层(Development Layer):提供给用户构建AI Agent的工具——比如自然语言构建工具、低代码/无代码拖拽式构建工具、代码构建SDK(支持Python、Java、JavaScript等多种编程语言)、提示词工程工具(提示词模板库、提示词优化工具)、测试工具(Agent测试平台、仿真环境)等。
  5. 部署与运维层(Deployment & Operations Layer):提供给用户部署和运维AI Agent的工具——比如一键部署工具(支持部署成API、微信小程序、钉钉机器人、企业微信机器人、Slack机器人、Discord机器人等)、监控告警工具(监控Agent的运行状态、响应时间、LLM API调用次数、费用等)、日志管理工具(记录Agent的所有对话、工具调用、推理过程)、优化工具(根据用户的反馈和日志自动优化Agent的提示词和工具)等。
  6. 应用层(Application Layer):提供给用户直接使用的预构建AI Agent模板(Template Marketplace)——比如HR智能管家、销售智能助手、客服智能机器人、个人任务管理助手、学习助手、医疗咨询助手等,用户可以直接使用这些模板,也可以在模板的基础上进行定制。

为了更直观地理解AaaS的概念结构,我们可以用一个Mermaid分层架构图来表示:

用户角色

AaaS平台分层架构

直接使用/自然语言定制

低代码拖拽/代码SDK

代码SDK/自定义核心组件

基础设施层
IaaS:服务器/存储/网络/GPU/TPU

模型层
MaaS:通用LLM/专业LLM/多模态模型

核心组件层
感知/记忆/推理决策/行动/协作

开发层
自然语言构建/低代码拖拽/代码SDK/提示词工具/测试工具

部署与运维层
一键部署/监控告警/日志管理/优化工具

应用层
Template Marketplace:预构建Agent模板

非技术用户

普通开发者

高级开发者


四、概念之间的关系:AaaS与相关概念的对比与联系

4.1 AaaS与相关概念的核心属性维度对比

为了更清楚地理解AaaS与MaaS、SaaS、RPA(机器人流程自动化)、Low-Code/No-Code AI平台等相关概念的区别,我们可以做一个对比表格:

对比维度 AaaS(Agent as a Service) MaaS(Model as a Service) SaaS(Software as a Service) RPA(机器人流程自动化) Low-Code/No-Code AI平台
核心定位 AI Agent的全生命周期管理服务 大模型的API调用服务 完整的应用程序服务 模拟人类操作软件的自动化工具 快速构建AI应用的低代码/无代码工具
交互方式 自然语言+主动推送+设备交互 自然语言/结构化数据输入API 浏览器/App操作 预设的操作流程(鼠标点击、键盘输入) 低代码拖拽/自然语言
主动性 完全主动 完全被动 半被动(部分SaaS有自动化功能) 完全被动(仅按照预设流程执行) 半被动(仅按照预设规则执行)
能力边界 多能力集成(通用知识+专业知识+多种工具) 通用/专业知识能力 单一或有限的应用场景能力 模拟人类操作软件的能力 有限的AI能力(比如图像识别、文本分类、简单的对话)
记忆能力 长期+短期+结构化记忆 短期会话记忆(可选) 用户配置+业务数据存储 无(或仅存储操作流程) 有限的业务数据存储
自主决策能力 强(自主制定计划、调整计划、选择工具) 无(仅按照用户输入生成结果) 弱(仅按照预设规则执行) 无(仅按照预设流程执行) 弱(仅按照预设规则执行)
落地能力 强(直接调用工具执行任务) 弱(仅提供结果,需要用户动手落地) 强(直接执行任务) 强(直接模拟人类操作软件) 中(部分工具能直接执行任务)
开发门槛 极低(非技术人员也能构建) 中(需要会调用API) 无(直接使用) 中(需要会配置操作流程) 低(非技术人员也能构建)
定制化程度 极高(可以完全自定义Agent的功能、人格、工具) 低(仅能调整提示词、模型参数) 低(仅能调整用户配置、部分功能) 中(可以自定义操作流程) 中(可以自定义AI模型、规则)
典型产品 阿里云百炼Agent平台、腾讯云智能体平台、AWS Bedrock Agents、Microsoft Copilot Studio、Dify 阿里云通义千问API、腾讯云混元API、OpenAI API、Anthropic Claude API 钉钉、企业微信、Salesforce、Zoom UiPath、Automation Anywhere、Blue Prism 百度文心千帆AppBuilder、Google Vertex AI Studio、Microsoft Power Platform

4.2 AaaS与相关概念的ER实体关系图

为了更清楚地理解AaaS与相关概念的联系,我们可以用一个Mermaid ER实体关系图来表示:

使用

依赖

集成

集成

集成/输出为

由...构建/部署/运维

调用

使用

是一种

是一种

是一种

由...构建

由...开发

AaaS

MaaS

IaaS

LowCodeNoCodeAI

RPA

SaaS

AI_Agent

Tools

CustomTools

CodeSDK

4.3 AaaS与相关概念的交互关系图

为了更清楚地理解AaaS与相关概念的交互流程,我们可以用一个Mermaid交互关系图来表示:

IaaS服务 工具(RPA/SaaS/自定义工具) MaaS服务 AI Agent AaaS平台 用户 IaaS服务 工具(RPA/SaaS/自定义工具) MaaS服务 AI Agent AaaS平台 用户 AaaS平台的所有服务都部署在IaaS上 自然语言描述需求/定制Agent 调用需求分析模型 返回拆解后的功能模块 组装/定制Agent 使用Agent(自然语言输入/设备触发) 转发请求 调用推理决策模型 返回推理结果/工具调用指令 调用工具 返回执行结果 调用回复生成模型 返回自然语言回复/结构化数据 返回回复 展示回复

五、技术原理与实现:AaaS的核心技术与极简版原型搭建

5.1 AaaS的核心技术

AaaS的核心技术主要包括以下几个方面:

5.1.1 大语言模型(LLM)/多模态模型

LLM是AaaS的“核心大脑”,没有LLM就没有AI Agent,更没有AaaS。目前主流的LLM包括:

  • 通用LLM:OpenAI GPT-4o、GPT-4 Turbo、Claude 3 Opus/Sonnet/Haiku、阿里云通义千问3.5/4、腾讯云混元3、百度文心一言4.0、Google Gemini 1.5 Pro/Flash。
  • 专业领域LLM:医疗领域的阿里健康大模型、腾讯觅影大模型、平安医联体大模型;法律领域的北大法宝大模型、华宇元典大模型;金融领域的蚂蚁集团天枢大模型、京东科技言犀大模型。
  • 多模态模型:能够处理文本、图像、音频、视频等多种模态的输入和输出,比如OpenAI GPT-4o、Claude 3 Opus/Sonnet、阿里云通义千问VL/VL+、腾讯云混元Vision-Language、Google Gemini 1.5 Pro/Flash。
5.1.2 提示词工程(Prompt Engineering)

提示词工程是“和LLM对话的艺术”,它决定了LLM的输出质量——一个好的提示词可以让LLM生成准确、有用、符合要求的结果,一个坏的提示词可能会让LLM生成错误、无用、甚至有害的结果。

对于AI Agent来说,提示词工程主要包括以下几个方面:

  1. 系统提示词(System Prompt):设定Agent的角色、人格、行事准则、能力边界、记忆使用规则、工具使用规则等——比如一个HR智能管家的系统提示词可能是这样的:
    你是一位专业的HR智能管家,名叫“小招”。
    你的性格是:温柔耐心、严谨细致、保密意识强。
    你的主要职责是:
    1. 发布招聘信息到招聘网站(BOSS直聘、猎聘、前程无忧)。
    2. 解析收到的简历,提取候选人的基本信息(姓名、性别、年龄、学历、工作经验、技能)。
    3. 根据招聘要求筛选简历(比如要求3年以上Java开发经验、熟悉Spring Boot框架)。
    4. 预约候选人的面试时间(和候选人、面试官协调时间)。
    5. 跟踪面试进度(待面试、已面试、通过、未通过)。
    6. 发送录用通知或未通过通知。
    7. 管理员工档案。
    你的行事准则是:
    1. 严格保密候选人的个人信息和公司的招聘信息。
    2. 优先筛选符合招聘要求的候选人,如果没有符合要求的候选人,要如实告诉用户。
    3. 面试前24小时要提醒候选人和面试官。
    4. 如果遇到不确定的问题,要先询问用户,不要自行决定。
    你的记忆使用规则是:
    1. 短期记忆:存储当前会话的上下文信息。
    2. 长期记忆:存储历史招聘信息、候选人信息、面试记录、员工档案。
    3. 每次回答用户的问题之前,先从长期记忆中检索相关信息。
    你的工具使用规则是:
    1. 如果你需要完成某个任务(比如发布招聘信息、解析简历),先看看有没有对应的工具,如果有,就调用工具;如果没有,就告诉用户。
    2. 调用工具之前,先仔细阅读工具的使用说明,确保参数正确。
    3. 调用工具之后,根据工具的返回结果继续推理,如果返回结果有误,就重新调用工具或询问用户。
    
  2. 任务提示词(Task Prompt):设定具体的任务要求——比如用户说“帮我发布一个Java开发工程师的招聘信息”,任务提示词可能是用户的这句话,也可能是AaaS平台根据用户的历史招聘信息自动补充的(比如月薪、工作地点、学历要求等)。
  3. 工具调用提示词(Tool Use Prompt):告诉LLM如何调用工具——一般包括工具的名称、描述、参数列表、返回结果格式等,比如一个“发布招聘信息到BOSS直聘”的工具调用提示词可能是这样的:
    你可以调用以下工具:
    工具名称:publish_to_boss
    工具描述:发布招聘信息到BOSS直聘
    工具参数:
    - job_title: 字符串,必填,职位名称
    - job_description: 字符串,必填,职位描述
    - salary_min: 整数,必填,最低月薪(单位:元)
    - salary_max: 整数,必填,最高月薪(单位:元)
    - work_location: 字符串,必填,工作地点
    - education_requirement: 字符串,必填,学历要求(大专/本科/硕士/博士)
    - experience_requirement: 字符串,必填,工作经验要求(应届/1-3年/3-5年/5-10年/10年以上)
    工具返回结果格式:JSON格式,包含以下字段:
    - success: 布尔值,是否发布成功
    - message: 字符串,发布结果的消息
    - job_id: 字符串,发布成功后的职位ID(仅当success为true时存在)
    调用工具的格式:
    <tool_call>
    <name>publish_to_boss</name>
    <parameters>
    <job_title>Java开发工程师</job_title>
    <job_description>负责公司后端系统的开发和维护...</job_description>
    <salary_min>20000</salary_min>
    <salary_max>30000</salary_max>
    <work_location>杭州市余杭区</work_location>
    <education_requirement>本科</education_requirement>
    <experience_requirement>3-5年</experience_requirement>
    </parameters>
    </tool_call>
    
  4. 提示词优化(Prompt Optimization):根据用户的反馈和Agent的运行日志自动优化提示词——常用的技术包括自动提示词工程(Auto Prompt Engineering, APE)、提示词链(Prompt Chaining)、提示词选择(Prompt Selection)等。
5.1.3 向量数据库(Vector Database)

向量数据库是AI Agent的“长期记忆存储中心”,它可以将文本、图像、音频等非结构化数据转换成向量(Vector,一组数字),然后通过**语义检索(Semantic Search)**的方式快速找到与用户查询最相关的信息——而传统的关系型数据库只能进行精确匹配或模糊匹配,无法进行语义检索。

比如用户问“我上个月面试过的那个会用Spring Cloud Alibaba的Java开发工程师叫什么名字?”,传统的关系型数据库需要用户提供精确的关键词(比如“Spring Cloud Alibaba”、“Java开发工程师”、“上个月”),而且可能会漏掉一些同义词或相关词(比如“Spring Cloud”、“微服务架构”);而向量数据库可以将用户的查询转换成向量,然后和存储在数据库中的候选人简历、面试记录的向量进行相似度计算,快速找到最相关的信息。

目前主流的向量数据库包括:

  • 商业向量数据库:Pinecone、Weaviate、Zilliz Cloud(Milvus的商业版)、阿里云向量检索服务(Vector Search Service, VSS)、腾讯云向量数据库(Tencent Cloud VectorDB)。
  • 开源向量数据库:Chroma、Milvus、Qdrant、FAISS(Facebook AI Similarity Search,Facebook开发的相似度搜索库,不是完整的数据库)。

向量数据库的核心技术是向量嵌入(Vector Embedding)近似最近邻搜索(Approximate Nearest Neighbor Search, ANN Search)

  1. 向量嵌入(Vector Embedding):将非结构化数据转换成向量的过程——一般使用预训练好的嵌入模型(Embedding Model),比如OpenAI text-embedding-3-small/large、阿里云通义千问text-embedding-v3、腾讯云混元text2vec-large、 sentence-transformers/all-MiniLM-L6-v2(开源)。
    向量嵌入的数学原理是:将非结构化数据映射到一个高维向量空间(比如1536维、768维),使得语义相似的数据在向量空间中的距离更近(比如用欧氏距离、余弦相似度来衡量)。
    余弦相似度的计算公式是:
    cos⁡(θ)=A⃗⋅B⃗∥A⃗∥∥B⃗∥=∑i=1nAiBi∑i=1nAi2∑i=1nBi2 \cos(\theta) = \frac{\vec{A} \cdot \vec{B}}{\|\vec{A}\| \|\vec{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}} cos(θ)=A ∥∥B A B =i=1nAi2 i=1nBi2 i=1nAiBi
    其中,A⃗\vec{A}A B⃗\vec{B}B 是两个n维向量,cos⁡(θ)\cos(\theta)cos(θ)的取值范围是[-1, 1],值越大表示两个向量的语义越相似。
  2. 近似最近邻搜索(ANN Search):在高维向量空间中快速找到与查询向量最相似的k个向量的过程——因为高维向量空间中的精确最近邻搜索(Exact Nearest Neighbor Search, KNN Search)时间复杂度是O(N)O(N)O(N)(N是向量的数量),当N很大时(比如几百万、几千万),搜索速度会非常慢;而ANN Search可以在保证一定准确率的前提下,将时间复杂度降低到O(log⁡N)O(\log N)O(logN)O(1)O(1)O(1)
    常用的ANN Search算法包括:
    • 树算法:KD-Tree、Ball-Tree(适合低维向量空间,比如10维以下)。
    • 哈希算法:Locality-Sensitive Hashing(LSH,局部敏感哈希)。
    • 图算法:Hierarchical Navigable Small World(HNSW,分层导航小世界图,目前最流行的算法,适合高维向量空间)。
    • 量化算法:Product Quantization(PQ,乘积量化)、Scalar Quantization(SQ,标量量化)。
5.1.4 多Agent协作框架

多Agent协作框架是构建多Agent系统的核心工具,它可以协调多个Agent之间的分工、沟通、同步等——比如一个“软件开发团队”多Agent系统可能包含“产品经理Agent”、“UI设计师Agent”、“后端开发工程师Agent”、“前端开发工程师Agent”、“测试工程师Agent”,它们可以一起协作完成一个软件开发项目。

目前主流的多Agent协作框架包括:

  • LangGraph:LangChain团队开发的多Agent协作框架,基于状态机(State Machine)的思想,适合构建复杂的、有状态的Agent和多Agent系统。
  • AutoGen:Microsoft团队开发的多Agent协作框架,支持Agent之间的自然语言沟通、结构化消息沟通、工具调用、代码执行等,适合构建协作式AI应用。
  • CrewAI:一个开源的多Agent协作框架,专门为构建“AI团队”设计,支持角色分工、任务分配、沟通协调等,使用简单,适合初学者。
  • MetaGPT:一个开源的多Agent协作框架,模拟软件开发团队的工作流程,包含“产品经理Agent”、“架构师Agent”、“项目经理Agent”、“开发工程师Agent”、“测试工程师Agent”,可以自动生成需求文档、架构设计文档、代码、测试用例等。
5.1.5 低代码/无代码工具

低代码/无代码工具是让非技术人员也能构建AI Agent的核心工具——它一般采用拖拽式的界面,用户只需要把Agent的核心组件(比如感知模块、记忆模块、推理决策模块、行动模块、工具)拖拽到界面上,然后连接起来,配置好参数,就能快速构建一个AI Agent。

目前主流的低代码/无代码AaaS工具包括:

  • Dify:一个开源的低代码/无代码AI应用开发平台,支持构建AI Agent、Chatbot、Text Generation应用等,集成了OpenAI、Claude、通义千问、混元等多个大模型,支持向量数据库、工具调用、多Agent协作等功能。
  • Microsoft Copilot Studio:Microsoft开发的低代码/无代码Copilot开发平台,支持构建企业级Copilot,集成了Microsoft 365、Azure、Power Platform等多个Microsoft产品,支持向量数据库、工具调用、多Agent协作等功能。
  • 阿里云百炼Agent平台:阿里云开发的低代码/无代码Agent开发平台,支持构建企业级Agent,集成了通义千问、向量检索服务、函数计算等多个阿里云产品,支持工具调用、多Agent协作等功能。
  • 腾讯云智能体平台:腾讯云开发的低代码/无代码智能体开发平台,支持构建企业级智能体,集成了混元、向量数据库、云函数等多个腾讯云产品,支持工具调用、多Agent协作等功能。

5.2 极简版个人任务管理AaaS原型搭建

为了让大家更直观地理解AaaS的技术原理,我们将基于OpenAI GPT-4o、LangChain、LangGraph、Chroma(向量

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐