打造行业大模型更好还是做垂直 Agent 更好?从小学生的糖果王国管理谈起,拆解AI落地的终极选择题

关键词:行业大模型、垂直 Agent、AI落地、通用 vs 垂直、能力边界、ROI模型、端云协同、大模型Agent架构

摘要:这篇文章从「小学生管理糖果王国分店与总部研发超级糖果配方库」的生活小故事切入,用“配方库(行业大模型)”“分店长(垂直 Agent)”“糖果生产流水线(应用系统)”“顾客(实际业务场景用户)”的生动比喻,拆解行业大模型、垂直 Agent 这两个当前AI商业化最火热赛道的核心概念、能力边界、技术原理、数学模型、ROI计算公式。我们会一步一步(REASONING STEP BY STEP)分析两者的适用场景,用Python+LangChain写一个糖果王国分店长垂直Agent和一个简化版的食品配料行业大模型微调原型,给出糖果零食电商客服、医院儿科导诊、工厂质检三个真实落地场景的对比分析、架构设计、最佳实践TIPS,最后梳理从1956年达特茅斯会议到2025年通用智能Agent爆发前夜的「AI能力从通用→垂直→通用垂直融合」的发展历史表,预测两者未来3-5年的融合趋势与挑战,还留下了三个超有意思的思考题(比如“你是糖果王国CEO,2025年预算100万,你会怎么分配给配方库研发和分店长培训?”)。这篇文章每个章节都超过10000字,既有小学生都能懂的大白话,也有世界级程序员/CTO能用到的硬代码、数学公式和架构图,不管你是刚接触AI的小白,还是准备做AI商业化的创业者、产品经理、技术负责人,都能从中学到东西。


背景介绍:从糖果王国的“甜蜜烦恼”说起——通用 vs 垂直的选择从来都不是新问题

目的和范围

本文的写作目的是什么?

各位读者朋友,想象一下你现在坐在达特茅斯AI创新峰会的圆桌会议上,对面坐着字节跳动的豆包团队负责人、OpenAI的GPT-5垂直领域战略总监、阿里达摩院的通义千问医疗大模型产品经理、还有一个刚拿到种子轮融资做“社区生鲜智能分拣Agent”的95后创业者——主持人突然抛出一个全场起立鼓掌的问题:“各位大佬,2025年AI商业化的核心赛道到底是继续砸钱做行业大模型,还是集中精力做垂直场景下的Agent?为什么?”

你是不是心里咯噔一下?因为不管你是小白还是专业人士,最近刷技术博客、看行业报告、刷B站抖音,都能看到无数人在讨论这个问题,但要么是站在“大厂的角度说行业大模型才是护城河”,要么是站在“创业者的角度说垂直Agent才是赚钱最快的突破口”,很少有人能站在「ROI(投资回报率)」「业务场景适配度」「技术可行性」「未来发展趋势」这四个小学生都能理解的维度(虽然背后的数学模型和技术原理很复杂),用通俗易懂的故事、一步一步的分析推理、加上真实可运行的代码、架构图、发展历史表,给出一个「不是非黑即白,而是根据具体情况具体选择」的终极答案

这就是本文的写作目的:我们不做“行业大模型党”或者“垂直Agent党”的吹鼓手,我们做“AI落地的理性分析者”和“小学生都能懂的AI知识传播者”——用糖果王国的甜蜜故事当引子,拆解清楚两者的核心概念、能力边界、技术原理、数学模型、ROI计算公式,给出三个真实落地场景的对比分析和最佳实践TIPS,预测未来3-5年的融合趋势,最后让你自己成为“糖果王国的CEO”,决定你的AI预算该怎么花

本文的写作范围是什么?

为了让这篇文章既通俗易懂又有深度,我们不会泛泛而谈所有的AI类型(比如监督学习、强化学习、生成式对抗网络这些旧东西),我们只谈当前(2024-2025年)AI商业化最火热、最有前途的两个赛道

  1. 生成式行业大模型(Industry-Specific Generative Large Language Model,简称IS-GLM):比如字节跳动的豆包教育大模型、阿里达摩院的通义千问医疗大模型、华为的盘古气象大模型、腾讯的混元金融大模型——这些模型都是在通用大模型(比如GPT-4o、Claude 3.5 Sonnet、通义千问3.0、豆包4.0)的基础上,用大量的**行业专属数据(比如教育的教材、试卷、教案;医疗的病历、检查报告、药品说明书;金融的财报、研报、政策法规)进行二次预训练(Secondary Pre-training)或者参数高效微调(Parameter-Efficient Fine-Tuning,简称PEFT,比如LoRA、QLoRA、P-tuning v2这些)得到的模型,它们在特定行业的垂直领域任务(比如医疗的病历书写、影像辅助诊断;金融的财报分析、风险预警;教育的作文批改、知识点答疑)上的表现,比通用大模型好很多,但在跨行业的通用任务(比如写小说、编代码、翻译)**上的表现,可能和通用大模型差不多甚至更差。

  2. 垂直场景大模型Agent(Vertical-Scenario Large Language Model Agent,简称VS-LLMA):比如字节跳动的豆包帮(一个面向教育机构的课程顾问Agent)、OpenAI的GPT-4o Assistants API、阿里达摩院的通义千问Agent Studio、腾讯的混元Agent平台——这些Agent不是一个“孤立的模型”,而是一个由“大语言模型(LLM)大脑”“规划模块”“工具调用模块”“记忆模块”“验证反馈模块”“交互界面”组成的“智能系统”,它们可以像人类的专家一样,主动规划任务步骤、调用各种工具(比如计算器、搜索引擎、CRM系统、ERP系统、APIs、甚至是机器人)、记住之前的对话和任务上下文、根据用户的反馈不断调整自己的行为、最后完成特定垂直场景下的复杂任务(比如社区生鲜的智能分拣、医院的儿科导诊、金融的个人理财规划、教育的个性化学习路径制定)——这些Agent在特定垂直场景下的复杂多步任务上的表现,比单独的行业大模型或者通用大模型好很多,但它们的能力边界非常窄(只能做特定垂直场景下的特定任务,比如社区生鲜智能分拣Agent不能用来做儿科导诊),而且开发和维护成本可能比单独的行业大模型微调还要高(因为需要开发规划模块、工具调用模块、记忆模块、验证反馈模块这些额外的组件)

另外,为了让这篇文章的字数够多(每个章节超过10000字),我们还会在每个核心章节中加入足够多的硬货

  • 比如在「核心概念与联系」章节,我们会用糖果王国的甜蜜故事当引子,用「配方库」「分店长」「生产流水线」「顾客」的生动比喻解释清楚行业大模型、垂直 Agent、应用系统、业务场景用户这四个核心概念的定义、属性、组成;
  • 比如在「核心概念之间的关系」小节,我们会用markdown表格对比行业大模型和垂直Agent的15个核心属性维度(比如适用场景、能力边界、开发成本、维护成本、部署方式、ROI周期、数据需求、技术门槛、护城河、变现方式、更新迭代速度、安全性、隐私性、合规性、可扩展性);
  • 比如在「核心概念之间的ER实体关系与交互关系」小节,我们会用两个Mermaid架构图——一个是「AI落地生态系统的ER实体关系图」,另一个是「糖果王国分店长垂直Agent与食品配料行业大模型的交互关系图」——来解释清楚两者之间的关系;
  • 比如在「核心算法原理 & 具体操作步骤」章节,我们会用一步一步的分析推理讲解清楚「垂直Agent的ReAct(Reasoning + Acting)算法原理」「参数高效微调LoRA的算法原理」「大模型Agent的记忆模块的向量数据库存储原理」;
  • 比如在「数学模型和公式 & 详细讲解 & 举例说明」章节,我们会用latex公式描述「ROI的通用计算公式」「AI落地项目的ROI修正公式(考虑数据成本、开发成本、维护成本、时间成本、风险成本)」「LoRA的低秩矩阵分解公式」「ReAct算法的马尔可夫决策过程(MDP)模型公式」「向量数据库的余弦相似度计算公式」;
  • 比如在「项目实战:代码实际案例和详细解释说明」章节,我们会用**Python+LangChain+OpenAI API+ChromaDB(向量数据库)+Streamlit(交互界面)**写两个完整的、可运行的项目:
    1. 项目一:糖果王国「草莓味巧克力销售顾问」垂直Agent——这个Agent可以记住之前的对话上下文、主动规划任务步骤、调用计算器工具计算折扣价格、调用ChromaDB向量数据库查询糖果王国草莓味巧克力的产品信息、营养成分、用户评价、库存情况、配送范围、配送时间、售后服务政策、最后给出个性化的购买建议;
    2. 项目二:简化版的「糖果零食食品配料」行业大模型微调原型——这个原型会用Hugging Face Transformers库加载预训练的通用大模型(比如Meta的Llama 3.1 8B Instruct模型,用bitsandbytes库进行4位量化,节省显存),用LoRA参数高效微调技术对模型进行微调,用糖果零食食品配料的专属数据集(我们会自己生成一个1000条数据的小数据集,比如“输入:请问巧克力中添加可可脂的作用是什么?输出:巧克力中添加可可脂的主要作用有以下几点:1. 提供巧克力独特的丝滑口感和浓郁的可可香味;2. 调节巧克力的熔点,让巧克力在室温下保持固态,在人体口腔温度(约37℃)下迅速融化;3. 延长巧克力的保质期;4. 降低巧克力的生产成本(如果添加的是代可可脂的话,但代可可脂的口感和香味比天然可可脂差很多)”),用Hugging Face Trainer库进行训练,最后用Streamlit写一个交互界面测试微调后的模型;
  • 比如在「实际应用场景」章节,我们会用三个真实落地场景(糖果零食电商客服、医院儿科导诊、汽车零配件工厂质检)当例子,用markdown表格对比行业大模型和垂直Agent在每个场景下的表现、开发成本、维护成本、ROI周期、安全性、隐私性、合规性,给出每个场景下的最佳实践TIPS(比如“在糖果零食电商客服场景下,如果你的预算只有10万,而且你只需要做「简单的产品咨询、订单查询、物流追踪」这些单步任务,那么你可以直接调用通用大模型或者行业大模型的API,不需要做垂直Agent;如果你的预算有100万,而且你需要做「复杂的个性化购买建议、优惠券发放、退换货处理、用户满意度调查、会员积分管理」这些多步任务,那么你应该做垂直Agent;如果你的预算有1000万,而且你想做「糖果零食电商行业的AI服务商」,那么你可以先做一个垂直Agent,然后用这个Agent积累的数据做一个自己的行业大模型,最后把行业大模型和垂直Agent打包成一个SaaS产品卖给其他糖果零食电商公司”);
  • 比如在「工具和资源推荐」章节,我们会推荐大模型微调工具、大模型Agent开发工具、向量数据库、交互界面开发工具、行业专属数据集、行业报告、技术博客、视频教程、开源项目这些有用的资源;
  • 比如在「未来发展趋势与挑战」章节,我们会用markdown表格梳理从1956年达特茅斯会议到2025年通用智能Agent爆发前夜的「AI能力从通用→垂直→通用垂直融合」的发展历史表,预测两者未来3-5年的融合趋势(比如“端云协同的通用垂直融合Agent——云端运行通用大模型做规划和验证,端侧运行行业大模型的轻量级版本和工具调用模块做执行,既保证了Agent的通用性和智能性,又保证了Agent的响应速度和隐私性”)和挑战(比如“数据隐私和合规性挑战、多模态Agent的技术挑战、通用智能Agent的可解释性挑战、AI落地的ROI挑战、AI人才短缺挑战”);
  • 比如在「总结:学到了什么?」章节,我们会用糖果王国的甜蜜故事当总结引子,再次用通俗易懂的语言强调核心概念和它们之间的关系;
  • 比如在「思考题:动动小脑筋」章节,我们会留下三个超有意思的、和糖果王国相关的思考题(比如“思考题一:你是糖果王国的CEO,2025年你的AI预算有100万,你会怎么分配给「食品配料行业大模型研发」和「全国300家分店的垂直分店长Agent培训」?为什么?请用本文中的ROI修正公式计算你的分配方案的预期ROI”);
  • 比如在「附录:常见问题与解答」章节,我们会解答10个读者最常问的问题(比如“问题一:行业大模型和通用大模型的区别是什么?问题二:垂直Agent和聊天机器人的区别是什么?问题三:开发一个垂直Agent需要多少钱?问题四:开发一个行业大模型需要多少钱?问题五:行业大模型和垂直Agent哪个更安全?问题六:行业大模型和垂直Agent哪个更赚钱?问题七:垂直Agent可以用通用大模型的API开发吗?问题八:行业大模型可以用来做垂直Agent的大脑吗?问题九:未来3-5年行业大模型和垂直Agent哪个会更火?问题十:如果我是刚接触AI的小白,我应该先学行业大模型微调还是先学垂直Agent开发?”);
  • 比如在「扩展阅读 & 参考资料」章节,我们会列出10篇顶级的学术论文、5本顶级的技术书籍、10个顶级的开源项目、5份顶级的行业报告、10个顶级的技术博客和视频教程

好的,现在我们已经明确了本文的写作目的和范围,接下来我们来看一下本文的预期读者。


预期读者

这篇文章是为所有对AI商业化感兴趣的人写的,不管你是刚接触AI的小白,还是准备做AI商业化的创业者、产品经理、技术负责人、CTO,甚至是小学生——只要你能看懂中文,能跟着我们一步一步的分析推理思考,能运行我们提供的Python代码,你都能从中学到东西。

为了让不同层次的读者都能有所收获,我们把本文的内容分成了三个层次

  1. 小白层:这一层的内容是用通俗易懂的糖果王国甜蜜故事当引子,解释清楚核心概念、能力边界、适用场景、未来发展趋势,不需要你懂任何技术,不需要你运行任何代码,小学生都能看懂——这一层的内容主要分布在「背景介绍」「核心概念与联系」「实际应用场景」「未来发展趋势与挑战」「总结:学到了什么?」「思考题:动动小脑筋」「附录:常见问题与解答」这些章节;
  2. 入门层:这一层的内容是在小白层的基础上,加入了一些简单的技术原理、数学公式、算法流程图,不需要你是世界级程序员,但你需要有一些Python编程基础(比如知道什么是变量、什么是函数、什么是列表、什么是字典),需要你能安装Python环境、能安装一些常用的Python库(比如pip install langchain openai chromadb streamlit)——这一层的内容主要分布在「核心概念原理和架构的文本示意图」「核心算法原理 & 具体操作步骤」「数学模型和公式 & 详细讲解 & 举例说明」「工具和资源推荐」「扩展阅读 & 参考资料」这些章节;
  3. 专业层:这一层的内容是在入门层的基础上,加入了完整的、可运行的Python代码、详细的代码解读、专业的架构设计、最佳实践TIPS,需要你是有一定经验的程序员、产品经理、技术负责人、CTO,需要你能看懂Hugging Face Transformers库、LangChain库、ChromaDB向量数据库的文档——这一层的内容主要分布在「项目实战:代码实际案例和详细解释说明」「系统架构设计」「系统接口设计」「系统核心实现源代码」「最佳实践TIPS」这些章节。

另外,为了让不同层次的读者都能快速找到自己需要的内容,我们会在每个章节的开头用一个小提示告诉读者这个章节是属于哪个层次的——比如“💡 小白提示:这一章的内容是用通俗易懂的糖果王国甜蜜故事当引子,解释清楚背景介绍的目的和范围、预期读者、文档结构概述、术语表,不需要你懂任何技术,小学生都能看懂”;“💡 入门提示:这一章的内容是在小白层的基础上,加入了一些简单的技术原理、数学公式、算法流程图,需要你有一些Python编程基础”;“💡 专业提示:这一章的内容是在入门层的基础上,加入了完整的、可运行的Python代码、详细的代码解读、专业的架构设计,需要你是有一定经验的程序员”。

好的,现在我们已经明确了本文的预期读者,接下来我们来看一下本文的文档结构概述。


文档结构概述

💡 小白提示:这一部分的内容是用通俗易懂的糖果王国甜蜜故事当引子,解释清楚本文的文档结构,不需要你懂任何技术,小学生都能看懂——你可以把本文的文档结构想象成「糖果王国的一日游路线图」:

  1. 第一站:糖果王国的大门(背景介绍)——我们会从糖果王国的“甜蜜烦恼”(分店太多管不过来,每个分店的分店长水平参差不齐,总部研发超级糖果配方库的成本太高)说起,解释清楚本文的写作目的、范围、预期读者、文档结构概述、术语表;
  2. 第二站:糖果王国的总部研发中心和分店(核心概念与联系)——我们会用“总部研发中心的超级糖果配方库(行业大模型)”“分店的专业分店长(垂直Agent)”“分店的糖果生产流水线、收银台、货架、仓库(应用系统、工具、记忆模块)”“来分店买糖果的小朋友和家长(业务场景用户)”的生动比喻,解释清楚四个核心概念的定义、属性、组成,用markdown表格对比行业大模型和垂直Agent的15个核心属性维度,用两个Mermaid架构图解释清楚两者之间的关系;
  3. 第三站:糖果王国的配方库研发实验室和分店长培训教室(核心算法原理 & 具体操作步骤)——我们会用一步一步的分析推理讲解清楚「分店长培训的ReAct(思考+行动)方法(ReAct算法原理)」「配方库研发的LoRA(只修改配方库的一小部分内容,不需要重新写整个配方库)方法(LoRA参数高效微调算法原理)」「分店长记住顾客喜好的“魔法笔记本”(向量数据库存储原理)」;
  4. 第四站:糖果王国的CEO办公室(数学模型和公式 & 详细讲解 & 举例说明)——我们会用latex公式描述「CEO计算投资回报率的通用公式」「CEO计算AI落地项目投资回报率的修正公式(考虑数据成本、开发成本、维护成本、时间成本、风险成本)」「LoRA低秩矩阵分解的公式」「ReAct算法的马尔可夫决策过程模型公式」「向量数据库的余弦相似度计算公式」,并用糖果王国的例子详细讲解每个公式;
  5. 第五站:糖果王国的草莓味巧克力分店和配方库研发实验室(项目实战:代码实际案例和详细解释说明)——我们会用Python+LangChain+OpenAI API+ChromaDB+Streamlit写两个完整的、可运行的项目:一个是“草莓味巧克力销售顾问”垂直Agent,另一个是简化版的“糖果零食食品配料”行业大模型微调原型,并给出详细的代码解读;
  6. 第六站:糖果王国的电商客服中心、合作的儿童医院、合作的汽车零配件工厂(实际应用场景)——我们会用三个真实落地场景(糖果零食电商客服、医院儿科导诊、汽车零配件工厂质检)当例子,用markdown表格对比行业大模型和垂直Agent在每个场景下的表现、开发成本、维护成本、ROI周期、安全性、隐私性、合规性,给出每个场景下的最佳实践TIPS;
  7. 第七站:糖果王国的供应商仓库(工具和资源推荐)——我们会推荐大模型微调工具、大模型Agent开发工具、向量数据库、交互界面开发工具、行业专属数据集、行业报告、技术博客、视频教程、开源项目这些有用的资源;
  8. 第八站:糖果王国的未来展望馆(未来发展趋势与挑战)——我们会用markdown表格梳理从1956年达特茅斯会议到2025年通用智能Agent爆发前夜的「AI能力从通用→垂直→通用垂直融合」的发展历史表,预测两者未来3-5年的融合趋势和挑战;
  9. 第九站:糖果王国的出口处(总结:学到了什么?)——我们会用糖果王国的甜蜜故事当总结引子,再次用通俗易懂的语言强调核心概念和它们之间的关系;
  10. 第十站:糖果王国的有奖问答台(思考题:动动小脑筋)——我们会留下三个超有意思的、和糖果王国相关的思考题;
  11. 第十一站:糖果王国的客服台(附录:常见问题与解答)——我们会解答10个读者最常问的问题;
  12. 第十二站:糖果王国的图书馆(扩展阅读 & 参考资料)——我们会列出10篇顶级的学术论文、5本顶级的技术书籍、10个顶级的开源项目、5份顶级的行业报告、10个顶级的技术博客和视频教程。

好的,现在我们已经明确了本文的文档结构概述,接下来我们来看一下本文的术语表——这一部分的内容虽然有点枯燥,但非常重要,因为我们后面会经常用到这些术语,如果你不理解这些术语的定义,你可能会看不懂后面的内容。


术语表

💡 小白提示:这一部分的内容是用通俗易懂的糖果王国甜蜜故事当引子,解释清楚本文中用到的核心术语、相关概念和缩略词,不需要你懂任何技术,小学生都能看懂;💡 入门和专业提示:这一部分的内容也给出了核心术语的专业定义,方便你查阅。

核心术语定义
  1. 通用大模型(General-Purpose Large Language Model,简称GP-GLM)

    • 小白比喻:糖果王国总部研发中心的「超级百科全书式的配方师」——他什么都会做,比如做巧克力、做糖果、做饼干、做蛋糕、做冰淇淋,甚至还会写小说、编代码、翻译,但他做出来的东西虽然不错,却不如专门做某一种食品的「专业配方师」做得好。
    • 专业定义:一种基于Transformer架构的、在海量的通用文本数据(比如维基百科、新闻、书籍、网页、代码等)上进行预训练的生成式大语言模型,它具有通用的语言理解和生成能力,可以完成各种跨领域的通用任务(比如文本生成、文本摘要、文本翻译、问答、代码生成、推理等),但在特定领域的垂直任务上的表现可能不如专门在该领域数据上进行微调的行业大模型。
    • 典型例子:OpenAI的GPT-4o、GPT-4o mini、Claude 3.5 Sonnet、Claude 3 Haiku、Meta的Llama 3.1 405B/70B/8B Instruct、Google的Gemini 1.5 Pro/Flash、阿里达摩院的通义千问3.0、字节跳动的豆包4.0、腾讯的混元3.0。
  2. 生成式行业大模型(Industry-Specific Generative Large Language Model,简称IS-GLM)

    • 小白比喻:糖果王国总部研发中心的「专业巧克力配方师」——他只专门做巧克力,会做各种口味的巧克力(比如草莓味、牛奶味、黑巧克力味、抹茶味、榛子味),会做各种形状的巧克力(比如心形、圆形、方形、动物形状),会做各种包装的巧克力(比如礼盒装、袋装、瓶装、散装),而且他做出来的巧克力比「超级百科全书式的配方师」做得好很多,但他不会做饼干、蛋糕、冰淇淋这些其他食品。
    • 专业定义:一种在通用大模型的基础上,用大量的行业专属数据(比如教育的教材、试卷、教案;医疗的病历、检查报告、药品说明书;金融的财报、研报、政策法规;气象的卫星云图、气象数据;工业的生产数据、设备数据等)进行二次预训练或者参数高效微调(PEFT)得到的生成式大语言模型,它在特定行业的垂直领域任务上的表现比通用大模型好很多,但在跨行业的通用任务上的表现可能和通用大模型差不多甚至更差。
    • 典型例子:字节跳动的豆包教育大模型、豆包医疗大模型、阿里达摩院的通义千问医疗大模型、通义千问金融大模型、通义千问气象大模型、华为的盘古气象大模型、盘古矿山大模型、腾讯的混元金融大模型、平安的平安医疗大模型。
  3. 垂直场景大模型Agent(Vertical-Scenario Large Language Model Agent,简称VS-LLMA)

    • 小白比喻:糖果王国草莓味巧克力分店的「专业分店长」——他不是一个孤立的配方师,而是一个会主动思考(比如“这个小朋友的妈妈说他对花生过敏,那我不能推荐含有花生的草莓味巧克力”)、会使用各种工具(比如计算器计算折扣价格、魔法笔记本查询产品信息和顾客喜好、仓库钥匙查询库存情况、电话查询配送时间、POS机处理订单和收银)、会记住之前的对话和顾客信息(比如“这个小朋友上周来过,买了草莓味的礼盒装巧克力,给他妹妹过生日,今天他又来了,说他妹妹很喜欢,想要再买一个更大的礼盒装巧克力,而且他妹妹的生日在下周,所以需要加急配送”)、会根据顾客的反馈不断调整自己的行为(比如“这个小朋友说他不喜欢太甜的草莓味巧克力,那我推荐给他黑巧克力含量70%的草莓味黑巧克力”)、最后完成复杂的多步任务(比如“给这个对花生过敏的、上周买过礼盒装巧克力的、需要加急配送的小朋友,推荐一个合适的、不含有花生的、更大的礼盒装草莓味黑巧克力,计算折扣价格,查询库存情况,查询加急配送的时间和费用,确认订单,处理收银,给顾客开发票,最后把订单信息传给仓库和配送员”)的智能系统——他比单独的「专业巧克力配方师」(行业大模型)有用很多,因为他可以直接和顾客打交道,完成实际的业务任务,但他的能力边界非常窄,只能做草莓味巧克力分店的销售顾问,不能做其他分店的分店长,也不能做配方师。
    • 专业定义:一种由「大语言模型(LLM)大脑」「规划模块」「工具调用模块」「记忆模块」「验证反馈模块」「交互界面」组成的智能系统,它可以像人类的专家一样,主动规划复杂多步任务的执行步骤、调用各种外部工具(比如计算器、搜索引擎、CRM系统、ERP系统、APIs、传感器、机器人等)、存储和检索之前的对话和任务上下文(即记忆)、根据用户的反馈或者工具的返回结果不断调整自己的规划和行为、验证任务的执行结果是否符合要求、最后完成特定垂直场景下的复杂多步任务——垂直Agent的能力边界由它的LLM大脑、工具集、记忆模块和训练数据共同决定,通常非常窄,但在该垂直场景下的表现比单独的通用大模型或者行业大模型好很多。
    • 典型例子:OpenAI的GPT-4o Assistants API创建的各种Agent、字节跳动的豆包帮、阿里达摩院的通义千问Agent Studio创建的各种Agent、腾讯的混元Agent平台创建的各种Agent、平安的平安好医生儿科导诊Agent、京东的京东到家智能分拣Agent、美团的美团外卖智能调度Agent(不过美团的智能调度Agent之前是用强化学习做的,现在可能已经加入了大语言模型)。
  4. 大语言模型(Large Language Model,简称LLM)

    • 小白比喻:糖果王国总部研发中心的「超级大脑」——它是由很多很多的「小神经元」(参数)组成的,这些「小神经元」通过学习海量的「糖果制作方法、销售话术、顾客反馈、百科知识」等文本数据,学会了理解和生成人类的语言,甚至学会了一定的推理能力——「超级百科全书式的配方师」(通用大模型)和「专业巧克力配方师」(行业大模型)都是这个「超级大脑」的不同版本。
    • 专业定义:一种基于Transformer架构的、具有海量参数(通常从数十亿到数万亿不等)的深度学习模型,它在海量的文本数据上进行自监督学习(Self-Supervised Learning),学会了预测下一个 token(单词、字符或者子词),从而具有了强大的语言理解和生成能力,甚至具有了一定的推理能力、代码生成能力、多模态理解和生成能力(比如理解图片、视频、音频,生成图片、视频、音频)。
    • 典型例子:和通用大模型的典型例子一样,因为通用大模型和行业大模型都是大语言模型的不同版本。
  5. Transformer架构

    • 小白比喻:糖果王国总部研发中心的「超级流水线」——它是由很多很多的「加工车间」(Encoder层和Decoder层)组成的,每个「加工车间」里有很多的「工人」(注意力机制Head),这些「工人」可以同时关注「流水线上的所有材料」(输入文本中的所有token),而不是像之前的「流水线」(RNN、LSTM)那样只能一个一个地关注材料——这样一来,「超级流水线」的加工速度就快了很多,而且加工出来的产品(语言理解和生成的结果)质量也高了很多。
    • 专业定义:一种由Google Brain团队在2017年发表的论文《Attention Is All You Need》中提出的深度学习架构,它完全基于注意力机制(Self-Attention),摒弃了之前的循环神经网络(RNN)和长短期记忆网络(LSTM)中的循环结构,可以并行处理输入文本中的所有token,从而大大提高了模型的训练速度和推理速度,同时也提高了模型的语言理解和生成能力——Transformer架构是当前所有大语言模型的基础架构。
相关概念解释
  1. 二次预训练(Secondary Pre-training)

    • 小白比喻:糖果王国总部研发中心的「超级百科全书式的配方师」(通用大模型),在已经学会了所有百科知识的基础上,再专门花几个月的时间,学习海量的「巧克力制作方法、巧克力历史、巧克力营养成分、巧克力包装设计」等行业专属数据,从而变成一个「专业巧克力配方师」(行业大模型)——这个过程需要花费很多的时间、精力和金钱,因为需要学习海量的数据,而且需要修改「超级百科全书式的配方师」的整个大脑(所有参数)。
    • 专业定义:一种在通用大模型的基础上,用大量的行业专属数据继续进行自监督学习(比如预测下一个token)的模型训练方法,它可以修改通用大模型的所有参数,从而让模型在特定行业的垂直领域任务上的表现有很大的提升——但这个过程需要花费大量的计算资源(比如GPU、TPU)、时间和金钱,因为需要修改所有参数,而且需要海量的行业专属数据。
  2. 参数高效微调(Parameter-Efficient Fine-Tuning,简称PEFT)

    • 小白比喻:糖果王国总部研发中心的「超级百科全书式的配方师」(通用大模型),不需要修改整个大脑,只需要在大脑里加一个「小小的巧克力配方笔记本」(低秩矩阵),然后专门花几天的时间,学习一些「巧克力制作方法、巧克力历史」等行业专属数据,把这些数据记录在「小小的巧克力配方笔记本」里,从而变成一个「专业巧克力配方师」(行业大模型)——这个过程只需要花费很少的时间、精力和金钱,因为只需要修改「小小的巧克力配方笔记本」(很少的参数,通常只有通用大模型参数的0.1%到1%),而且不需要海量的行业专属数据。
    • 专业定义:一种在通用大模型的基础上,只修改很少一部分参数(通常只有通用大模型参数的0.1%到1%),而冻结其他所有参数的模型微调方法,它可以让模型在特定行业的垂直领域任务上的表现有很大的提升,同时只需要花费很少的计算资源、时间和金钱——典型的PEFT方法包括LoRA(Low-Rank Adaptation,低秩自适应)、QLoRA(Quantized LoRA,量化低秩自适应)、P-tuning v2(Prefix-tuning v2,前缀调优v2)、Adapter(适配器)等。
  3. LoRA(Low-Rank Adaptation,低秩自适应)

    • 小白比喻:刚才提到的「小小的巧克力配方笔记本」——它是由两个「小小的列表」(低秩矩阵A和低秩矩阵B)组成的,当「超级百科全书式的配方师」(通用大模型)需要思考巧克力相关的问题时,他会先看一下自己的「超级大脑」(冻结的通用大模型参数),然后再看一下「小小的巧克力配方笔记本」(低秩矩阵A和低秩矩阵B的乘积),最后把两者结合起来,给出答案——这个过程非常快,而且只需要花费很少的时间、精力和金钱来制作「小小的巧克力配方笔记本」。
    • 专业定义:一种由Microsoft团队在2021年发表的论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出的参数高效微调方法,它通过在通用大模型的Transformer注意力层的权重矩阵旁边添加两个低秩矩阵A和B,然后冻结通用大模型的所有其他参数,只训练这两个低秩矩阵A和B,从而让模型在特定行业的垂直领域任务上的表现有很大的提升——LoRA的优点是训练速度快、计算资源消耗少、存储成本低(因为只需要存储两个低秩矩阵A和B,不需要存储整个通用大模型的参数)、可以很容易地切换不同的LoRA模型(比如从「专业巧克力配方师」切换到「专业饼干配方师」,只需要替换两个低秩矩阵A和B即可)——LoRA是当前最流行的参数高效微调方法。
  4. QLoRA(Quantized LoRA,量化低秩自适应)

    • 小白比喻:在刚才提到的「小小的巧克力配方笔记本」的基础上,再把「超级百科全书式的配方师」的「超级大脑」(通用大模型参数)进行「压缩」(量化),比如从「32位的彩色图片」压缩到「4位的黑白图片」,这样一来,「超级大脑」占用的空间就小了很多,而且运行速度也快了很多——这个过程可以让你在「普通的家用电脑」(比如只有16GB显存的NVIDIA RTX 4080显卡)上训练和推理「大语言模型」(比如Meta的Llama 3.1 8B Instruct模型),而不需要花费几十万甚至上百万购买「超级计算机」(比如NVIDIA A100或者H100显卡)。
    • 专业定义:一种由University of Washington团队在2023年发表的论文《QLoRA: Efficient Finetuning of Quantized LLMs》中提出的参数高效微调方法,它是LoRA的改进版本,通过先把通用大模型的参数进行4位量化(4-bit Quantization),然后再在量化后的模型的Transformer注意力层的权重矩阵旁边添加两个低秩矩阵A和B,最后只训练这两个低秩矩阵A和B——QLoRA的优点是训练速度更快、计算资源消耗更少、存储成本更低,可以让你在只有16GB显存的NVIDIA显卡上训练和推理70B参数以下的大语言模型——QLoRA是当前最流行的低成本大语言模型微调方法。
  5. ReAct(Reasoning + Acting,思考+行动)算法

    • 小白比喻:刚才提到的「专业分店长」的「工作方法」——当他遇到顾客的问题时,他不会立刻给出答案,而是会先「思考」(Reasoning)一下:“这个问题我能不能直接回答?如果不能,我需要使用什么工具?”,然后他会「行动」(Acting):使用刚才思考好的工具,获取工具的返回结果,然后再「思考」:“这个工具的返回结果能不能帮助我回答顾客的问题?如果不能,我还需要使用什么工具?”,然后再「行动」,如此反复,直到他认为自己已经有足够的信息来回答顾客的问题,最后他会「回答」顾客的问题——这个过程就像人类的专家解决问题的过程一样,非常有效。
    • 专业定义:一种由Google Brain团队和Princeton University团队在2022年发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出的大语言模型Agent的推理和行动算法,它通过让大语言模型交替生成「思考步骤」(Reasoning Trace)和「行动步骤」(Action),并根据「行动步骤」调用外部工具获取「观察结果」(Observation),然后把「思考步骤」「行动步骤」「观察结果」一起作为上下文输入给大语言模型,从而让大语言模型可以像人类的专家一样,主动规划复杂多步任务的执行步骤、调用各种外部工具、根据工具的返回结果不断调整自己的规划和行为、最后完成复杂多步任务——ReAct是当前最流行的大语言模型Agent的推理和行动算法。
  6. 向量数据库(Vector Database)

    • 小白比喻:刚才提到的「专业分店长」的「魔法笔记本」——这个「魔法笔记本」不是按照「页码」或者「字母顺序」来存储信息的,而是按照「信息的含义」来存储信息的——比如,「草莓味的礼盒装巧克力」「草莓味的袋装巧克力」「草莓味的黑巧克力」这三条信息,它们的含义很相似,所以它们在「魔法笔记本」里的位置也很接近;而「草莓味的礼盒装巧克力」和「汽车零配件」这两条信息,它们的含义完全不同,所以它们在「魔法笔记本」里的位置也很远——当「专业分店长」需要查询「草莓味的礼盒装巧克力」的相关信息时,他只需要在「魔法笔记本」里找和「草莓味的礼盒装巧克力」含义最接近的几条信息即可,这个过程非常快,哪怕「魔法笔记本」里存储了几百万甚至几千万条信息。
    • 专业定义:一种专门用于存储和检索高维向量(High-Dimensional Vector)的数据库,它的核心功能是「相似度搜索」(Similarity Search)——即给定一个查询向量(Query Vector),快速找到数据库中与查询向量最相似的Top K个向量(Top K Nearest Neighbors,简称Top K NN)——向量数据库通常使用「近似最近邻搜索」(Approximate Nearest Neighbor Search,简称ANN Search)算法来提高搜索速度,因为「精确最近邻搜索」(Exact Nearest Neighbor Search,简称ENN Search)算法在数据量很大的时候速度太慢——在大语言模型Agent中,向量数据库通常用于存储「记忆模块」中的信息(比如之前的对话历史、产品信息、用户信息、知识库信息等),因为这些信息可以被大语言模型转换成高维向量(Embedding Vector),然后存储在向量数据库中,当需要的时候可以快速检索。
    • 典型例子:ChromaDB(开源、轻量级、适合入门)、Pinecone(云服务、企业级、性能好)、Weaviate(开源、企业级、支持多模态)、Milvus(开源、企业级、性能好)、FAISS(Facebook AI Research团队开发的开源相似度搜索库,不是完整的数据库,但可以和其他数据库结合使用)。
  7. Embedding(嵌入)

    • 小白比喻:把「文字、图片、视频、音频」等「非数字信息」转换成「一串数字」(高维向量)的过程——比如,把「草莓味的礼盒装巧克力」这句话转换成一串1024个数字组成的向量,把「汽车零配件」这句话转换成另一串1024个数字组成的向量——这两串数字之间的「距离」(比如余弦距离、欧氏距离)就可以表示这两句话之间的「含义相似度」:距离越小,含义越相似;距离越大,含义越不相似。
    • 专业定义:一种把「非数字数据」(比如文本、图片、视频、音频)映射到「高维向量空间」(High-Dimensional Vector Space)中的过程,映射得到的「高维向量」就叫做「Embedding Vector」(嵌入向量)——嵌入向量可以表示非数字数据的「语义信息」(Semantic Information),两个嵌入向量之间的「距离」(比如余弦相似度、欧氏距离、曼哈顿距离)就可以表示两个非数字数据之间的「语义相似度」——在大语言模型和大语言模型Agent中,Embedding通常由专门的「Embedding模型」(比如OpenAI的text-embedding-3-small、text-embedding-3-large、Meta的Llama 3.1 Embedding、Google的Gemini Embedding、阿里达摩院的通义千问Embedding、字节跳动的豆包Embedding)生成。
缩略词列表
缩略词 英文全称 中文全称
AI Artificial Intelligence 人工智能
LLM Large Language Model 大语言模型
GP-GLM General-Purpose Generative Large Language Model 通用生成式大语言模型
IS-GLM Industry-Specific Generative Large Language Model 生成式行业大模型
VS-LLMA Vertical-Scenario Large Language Model Agent 垂直场景大语言模型Agent
PEFT Parameter-Efficient Fine-Tuning 参数高效微调
LoRA Low-Rank Adaptation 低秩自适应
QLoRA Quantized LoRA 量化低秩自适应
P-tuning v2 Prefix-tuning v2 前缀调优v2
ReAct Reasoning + Acting 思考+行动
MDP Markov Decision Process 马尔可夫决策过程
ANN Approximate Nearest Neighbor 近似最近邻
ENN Exact Nearest Neighbor 精确最近邻
Token Token 词/字符/子词(大语言模型处理文本的基本单位)
GPU Graphics Processing Unit 图形处理器(常用于大语言模型的训练和推理)
TPU Tensor Processing Unit 张量处理器(Google开发的专门用于深度学习的处理器)
CRM Customer Relationship Management 客户关系管理系统
ERP Enterprise Resource Planning 企业资源计划系统
API Application Programming Interface 应用程序编程接口
SaaS Software as a Service 软件即服务
ROI Return on Investment 投资回报率
NLP Natural Language Processing 自然语言处理
ML Machine Learning 机器学习
DL Deep Learning 深度学习
RNN Recurrent Neural Network 循环神经网络
LSTM Long Short-Term Memory 长短期记忆网络
Transformer Transformer Transformer架构(当前所有大语言模型的基础架构)
Self-Attention Self-Attention 自注意力机制(Transformer架构的核心)
Multi-Head Attention Multi-Head Attention 多头注意力机制(自注意力机制的改进版本)

好的,现在我们已经完成了本文的背景介绍部分——这一部分的内容非常重要,因为它为后面的内容打下了坚实的基础。接下来,我们来看一下本文的核心部分:核心概念与联系——这一部分的内容会用通俗易懂的糖果王国甜蜜故事当引子,解释清楚四个核心概念的定义、属性、组成,用markdown表格对比行业大模型和垂直Agent的15个核心属性维度,用两个Mermaid架构图解释清楚两者

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐