生成式大型语言模型(LLM)在处理专业任务时存在局限性,如“模型幻觉”和数据陈旧问题。检索增强生成(RAG)技术通过整合外部知识源,为LLM提供实时、任务专属数据,提升响应准确性和相关性。RAG架构包括外部知识源、提示词模板和生成式模型,工作流程分为数据摄入和推理两个阶段。RAG应用广泛,如实时信息检索、内容推荐系统和个人AI助手。实现RAG可借助LangChain、LlamaIndex等框架,并可通过组件级和端到端评估方法进行评估。与微调技术相比,RAG无需更新模型权重,更便捷高效。

生成模型的局限性

生成式模型通过在大规模数据集上训练而来,这些数据集涵盖(但不限于)社交媒体帖子、书籍、学术论文以及抓取的网页,这使得模型能够掌握通用知识。因此,这类模型能够生成类人文本、回答各类问题,并辅助完成问答、总结、创意写作等任务。 然而,生成式模型的训练数据集必然存在局限性:一方面,它们缺乏特定小众领域的相关信息,也无法涵盖数据集 “截止日期” 之后出现的新进展;另一方面,模型无法获取企业内部数据库或资源库中的专有数据。此外,当这些模型无法回答某个问题时,往往会尝试 “猜测”,且有时猜测结果并不准确。这种以看似可信的方式生成错误或虚构信息的现象,被称为 “模型幻觉”(hallucination),在面向客户的人工智能应用中,这种情况可能会对企业声誉造成切实损害。 要提升模型在专业任务上的表现并减少 “幻觉”,关键在于为生成式模型提供其训练数据中未包含的额外信息。而检索增强生成(RAG)技术,正是解决这一问题的核心方案。

什么是检索增强生成(RAG)?

检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种框架,它能从外部数据源中检索与当前任务相关的额外数据,为生成式大型语言模型(LLM)补充通用知识。 外部数据源范围广泛,既可以是企业内部的数据库、文件和资源库,也可以是新闻文章、网站或其他在线内容等公开可用数据。获取这些数据后,模型能够基于事实生成回答,在回复中引用信息来源,并且在遇到原始训练数据中未包含的信息查询时,避免进行 “猜测”。 RAG 的常见应用场景包括:检索最新信息、获取特定领域的专业知识,以及解答复杂的、基于数据的查询。

RAG 架构

检索增强生成(RAG)流水线的基本构成可拆解为三个组件:外部知识源(external knowledge source)、提示词模板(prompt template)和生成式模型(generative model)。这三个组件协同工作,使基于大型语言模型(LLM)开发的应用能够借助有价值的任务专属数据,生成更准确的响应。

如上图,对外挂数据库(Documents)按照一定规则切块(chunks),通过嵌入模型(embedding)计算切块和query的相关性,将相关性较大的切块作为提示词模版(prompt template)的上下文(context),最后喂入大模型(LLM),得到生成结果(Response)。

外部知识源(external knowledge source)

若无法获取外部知识,生成式模型只能基于其 “参数化知识”(即模型在训练阶段习得的知识)生成响应,能力存在明显局限。而借助 RAG 技术,我们可以在流水线中融入 “外部知识源”—— 这类知识也被称为 “非参数化知识”。 外部数据源通常具有 “任务专属” 属性,其涵盖的信息往往超出模型原始训练数据(即参数化知识)的范围。此外,外部数据常存储于向量数据库中,且在主题和格式上呈现出高度多样性。 常见的外部数据源包括企业内部数据库、法律法规及相关文件、医学与科学文献,以及抓取的网页等。私有数据源同样可应用于 RAG 技术:以微软 Copilot 为代表的个人 AI 助手,会整合电子邮件、文档、即时消息等多种个人数据源,从而提供更贴合用户需求的定制化响应,并更高效地实现任务自动化。

提示词模版(prompt template)

提示词(Prompts)是我们向生成式模型传递需求的工具。一条提示词可能包含多个要素,但通常会涵盖 “查询内容”“指令说明” 和 “上下文信息”—— 这些要素共同引导模型生成符合需求的相关响应。 提示词模板则为生成 “标准化提示词” 提供了结构化方案,可在模板中插入不同的查询内容和上下文信息。在 RAG 流水线中,系统会从外部数据源检索出相关数据,并将其嵌入提示词模板,进而实现 “提示词增强”。本质上,提示词模板是连接外部数据与模型的 “桥梁”:在模型推理过程中,它为模型提供与当前任务相关的上下文信息,助力模型生成准确响应。

prompt_template = "Context information is below.\n"                  "---------------------\n"                  "{context_str}\n"                  "---------------------\n"                  "Given the context information and not prior knowledge, "                  "answer the query.\n"                  "Query: {query_str}\n"                  "Answer: "

生成式大型语言模型(LLM)

RAG 架构中的最后一个组件是生成式大型语言模型(LLM,简称生成式模型),其作用是针对用户的查询生成最终响应。融合了外部知识库信息的 “增强型提示词” 会被发送至该模型,模型随后结合自身的内部知识与新检索到的数据,生成对应的回答。 至此,我们已介绍完 RAG 的架构及其核心组件,接下来让我们看看这些组件在 RAG 工作流程中是如何协同运作的。

RAG是如何工作的

RAG 是一个多步骤框架,主要通过两个阶段实现功能:首先,在数据摄入阶段(Ingestion Stage),对外部知识进行预处理,为后续的检索操作做好准备;其次,在推理阶段(Inference Stage),模型从外部知识库中检索相关数据,将其与用户的提示词结合以增强提示词信息,最终生成响应。接下来,我们将详细拆解这两个阶段的具体流程。

阶段1:数据摄入(Ingestion stage)

首先,需要对外部知识源进行预处理。本质上,就是对外部数据进行清洗,并将其转换为模型可理解的格式 —— 这一过程即称为 “数据摄入阶段”。 在该阶段,文本或图像等原始数据会通过 “向量化”(Vectorization)处理,转化为 “嵌入向量”(Embeddings)。生成嵌入向量后,需要以方便后续检索的方式存储这些向量。最常用的存储方式是将其存入向量数据库(Vector Database),这样能为后续任务快速、高效地检索所需信息提供支持。

阶段2:推理(Inference stage)

当外部数据完成编码与存储后,便可在推理阶段被检索调用,此时模型会针对用户需求生成响应或回答问题。推理阶段具体可拆解为三个步骤:检索(Retrieval)、增强(Augmentation)与生成(Generation)。

检索(Retrieval)

推理阶段始于检索,即根据用户查询从外部知识源中检索数据。检索方法在形式和复杂度上各不相同,而在简单的 RAG 架构中,外部知识经过嵌入处理后存储在向量数据库中,相似性搜索是最简单的检索形式。 要进行相似性搜索,首先需将用户查询嵌入到与外部数据相同的多维空间中,这样才能直接对比查询与已嵌入的外部数据。在相似性搜索过程中,会计算查询与外部数据点之间的距离,返回距离最短的数据点,从而完成检索流程。

增强(Augmentation)

从外部数据源中检索出最相关的数据点后,增强过程会将这些外部信息整合进来,具体方式是将其插入到预定义的提示模板中。

生成(Generation)

增强后的提示被输入到模型的上下文窗口后,模型便开始生成针对用户提示的最终响应。在生成阶段,模型会结合自身的内部语言理解能力和增强后的外部数据,生成连贯且符合上下文的答案。 这一步骤需要以流畅自然的方式构建响应,同时借助丰富的信息确保输出内容既准确又与用户查询相关。增强侧重于整合外部事实,而生成则是将整合后的知识转化为结构合理、类人化且符合特定请求的输出。

RAG应用场景

既然我们已经介绍了 RAG 是什么、其工作原理及架构,接下来就让我们探讨一些实际应用场景,看看这一框架在现实环境中是如何发挥作用的。通过用最新的、特定任务的数据增强生成式大语言模型,能提升模型的准确性、相关性以及处理专业任务的能力。因此,RAG 被广泛应用于实时信息检索、构建内容推荐系统和开发个人 AI 助手等领域。

实时信息检索

生成式模型单独使用时,只能检索到其训练数据集中的信息。但在 RAG 框架下,这些模型能够从外部来源检索数据和信息,从而确保响应更准确、更及时。例如,ChatGPT-4o 能够直接从网络实时获取和检索信息。这就是 RAG 的一个应用案例,它利用了未嵌入向量数据库的外部数据源,在回应用户关于新闻或其他时事(如股票价格、旅行建议、天气更新等)的查询时特别有用。

内容推荐系统

内容推荐系统通过分析用户数据和偏好,向用户推荐相关产品或内容。传统上,这类系统需要复杂的集成模型和海量的用户偏好数据集。RAG 简化了推荐系统,它将外部的、与上下文相关的用户数据直接与模型的通用知识相结合,从而生成个性化推荐。

个人AI助手

我们的个人数据(包括文件、电子邮件、Slack 消息和笔记等)是生成式模型的宝贵数据源。在个人数据上运行 RAG,能让我们以对话的方式与之交互,提高效率并实现日常任务的自动化。借助微软的 Copilot、Notion 的 Ask AI 等 AI 助手,我们可以通过简单的提示来搜索相关文档、撰写个性化电子邮件、总结文档和会议记录、安排会议等。

如何实现RAG

既然我们已经了解了 RAG 的工作原理,接下来就探讨如何构建一个可用的 RAG 流程。RAG 可通过多种不同框架实现,这些框架提供了预构建的工具和模块,用于集成各个 RAG 组件以及向量数据库、嵌入生成工具和其他 API 等外部服务,从而简化构建过程。 LangChain、LlamaIndex 和 DSPy 都是功能强大的开源 Python 库,拥有高度活跃的社区,它们为构建和优化 RAG 流程及大语言模型应用提供了强大的工具和集成能力。 LangChain 提供了构建块、组件和第三方集成,助力开发由大语言模型驱动的应用。它可与 LangGraph 配合用于构建智能体化 RAG 流程,与 LangSmith 配合用于 RAG 评估。 LlamaIndex 是一个框架,提供工具用于构建与外部数据源集成的大语言模型驱动应用。LlamaIndex 维护着 LlamaHub,这是一个丰富的资源库,包含数据加载器、智能体工具、数据集和其他组件,能简化 RAG 流程的创建。 DSPy 是一个用于优化大语言模型流程的模块化框架。在 DSPy 中,既可以配置大语言模型(LLMs),也可以配置检索模型(RMs),从而实现 RAG 流程的无缝优化。

RAG技术

基础版 RAG 流程通常由嵌入向量数据库的外部数据源构成,通过相似性搜索进行检索。不过,有多种方法可以增强 RAG 流程,以产生更准确、更稳健的结果,这些方法统称为高级 RAG(Advanced RAG)。 RAG 流程的功能可以通过整合图数据库和智能体得到进一步扩展,这使得更高级的推理和动态数据检索成为可能。在接下来的部分中,我们将介绍一些常见的高级 RAG 技术,并概述智能体化 RAG(Agentic RAG)和图 RAG(Graph RAG)。

高级RAG(Advanced RAG)

高级 RAG 技术可在流程的各个阶段部署。检索前(pre-retrieval)策略(如元数据过滤(metadata filtering)和文本分块(chunking))通过缩小搜索范围并确保只考虑数据中最相关的部分,有助于提高检索效率和相关性。采用更先进的检索技术(如混合搜索(hybrid search),即结合相似性搜索与关键词搜索的优势)也能产生更稳健的检索结果。最后,使用排序模型对检索结果进行重新排序,以及使用在特定领域数据上微调过的生成式大语言模型,都有助于提升生成结果的质量。

智能体RAG(Agentic RAG)

人工智能智能体是能够解读信息、制定计划并做出决策的自主系统。将智能体加入 RAG 流程后,若初始结果不准确或不相关,智能体可以重新表述用户查询,并重新检索更相关的信息。智能体化 RAG 还能处理需要多步推理的复杂查询,例如跨多个文档对比信息、提出后续问题,以及迭代调整检索和生成策略。

图RAG(Graph RAG)

传统 RAG 在仅通过检索就能解决的简单问答任务上表现出色,但无法基于整个外部知识库回答问题并得出结论。图 RAG 旨在解决这一问题:它利用生成式模型构建知识图谱,提取并存储关键实体之间的关系,然后将该图谱作为数据源加入 RAG 流程。这使得 RAG 系统能够响应要求对比和总结多个文档及数据源的查询。

如何评估RAG

RAG 是一个多阶段、多步骤的框架,需要从整体和细粒度两个层面进行评估。这种评估方式既能确保各组件的可靠性,又能保证整体的准确性。在本节中,我们将探讨这两种评估方法,并简要介绍一种常用的评估框架 ——RAGAS。

组件级评估(component-level evaluation)

在组件层面,RAG 评估通常重点关注检索器和生成器的质量,因为这两个组件在生成准确且相关的响应中都发挥着关键作用。 对检索器的评估围绕准确性和相关性展开。在此语境下,准确性衡量检索器选择的信息与查询的直接匹配程度,而相关性则评估检索到的数据与查询的特定需求及上下文的契合度。 另一方面,对生成器的评估侧重于忠实度和正确性。忠实度用于判断模型生成的响应是否准确反映了相关文档中的信息,并检查响应与原始来源的一致性;正确性则评估生成的响应是否真实符合事实,以及是否与基于查询上下文的真实答案或预期答案一致。

端到端评估(end-to-end evaluation)

尽管检索器和生成器是两个独立的组件,但它们需要相互配合才能对用户查询生成连贯的响应。 计算答案语义相似度是评估检索器和生成器协同工作效果的一种简单高效的方法。该方法通过计算生成的响应与真实样本之间的语义相似度来实现评估。若生成的响应与真实样本高度相似,说明该流程能够检索到相关信息并生成符合上下文的适当响应。

RAG vs fine-tune

RAG 只是扩展生成式大语言模型能力、缓解其局限性的多种方法之一。微调大语言模型是一项尤为流行的技术,通过在特定领域数据上训练模型,使其能够适应高度专业化的任务。虽然微调在某些应用场景中可能是理想选择(例如训练大语言模型采用特定语气或写作风格),但 RAG 往往是提升模型准确性、减少幻觉现象以及让大语言模型适应特定任务的最便捷途径。 RAG 的精妙之处在于,其底层生成式模型的权重无需更新 —— 而权重更新可能既昂贵又耗时。RAG 能让模型动态访问外部数据,无需耗费成本进行重新训练就能提高准确性,这使其成为需要实时信息的应用场景的实用解决方案。

总结

在本文中,我们为你介绍了 RAG—— 这是一种借助特定任务的外部知识来提升生成式模型驱动应用性能的框架。我们了解了 RAG 流程的各个组成部分,包括外部知识源、提示模板和生成式模型,以及它们在检索、增强和生成这三个环节中如何协同工作。我们还探讨了 RAG 的常见应用场景和用于实现的框架,如 LangChain、LlamaIndex 和 DSPy。最后,我们简要介绍了一些专门的 RAG 技术(包括高级 RAG 方法、智能体化 RAG 和图 RAG)以及评估 RAG 流程的方法。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐