RAG 从"基础检索"到"知识运行时"

RAG是大模型通用能力转化为企业实际需求落地的有效方案之一


RAG

2020 年,RAG奠基性文献发表——Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

在这之后,一方面是大模型(LLM)不断进化,另外一方面是企业落地AI的推进。RAG演变成一场涉及检索架构、推理机制、记忆系统与 Agent 编排的系统性发展。

RAG 从基础的"嵌入查询、取 top-k 块、塞进上下文窗口、生成"流水线演化成一个多阶段、可自我修正、具备规划能力的知识编排系统。

(gpt image2 生成~)


第一代:Naive RAG(2020–2022)

架构形态

Naive RAG 是最简洁的流程链路:

用户查询 → 向量检索(top-k)→ 拼接上下文 → LLM 生成

Naive RAG 流程由以下几个关键阶段构成:数据加载(导入所有文档)、数据分割(将大文档切分为小块)、数据嵌入(用嵌入模型将数据转为向量)、数据存储(将向量存入向量数据库以便搜索)。查询时,用同一嵌入模型将用户输入编码为查询向量,再与数据库中的所有向量进行相似度匹配,找出最近邻。

奠基

AI 系统与外部知识的交互方式,为知识密集型任务落地可行性打下基础。

大模型训练时自有知识库与外部知识库融合,能显著提升 AI 在这类任务上的表现。

局限性

Naive RAG 的简洁性使其易于起步,但也限制了它扩展和企业环境下持续交付准确结果的能力:由于仅根据相似度得分检索文档,存在相当大的准确性问题。

另外,整个流程链路是线性的、静态的、无反馈的。不支持在检索失败时自我修复、固定长度切块会割裂跨段落的上下文关联,导致检索到的块在语义上是孤立的碎片、嵌入模型的语义鸿沟则使专有名词、型号、缩写等词汇型查询容易漏检…


第二代:Advanced RAG(2023–2024 初)

为了提升 RAG 模型的整体效果与可持续性,检索系统从 Naive RAG 演进到了 Advanced RAG 和 Modular RAG,这其实是企业实践后对性能、成本和效率综合需求推动下的改进。

Advanced RAG 的核心理念是在检索前后各加一层优化:

[预检索优化] → 向量/混合检索 → [后检索优化] → 生成

预检索优化

查询改写与扩展:用户的原始查询往往简短、模糊,与文档中的表述存在语义距离。查询改写通过 LLM 将问题转化为更利于检索的表述;多查询扩展则生成多个视角的变体查询,并行检索后融合结果,扩大召回面。

HyDE(假设文档嵌入):用"问题向量"检索"答案向量",两者在语义空间中天然存在偏移;先让 LLM 生成一段假设性答案文档,再用该文档的向量去检索。

语义化分块:将固定长度切块替换为基于语义边界的切块,在段落、句群、话题转折处切分,而非机械地按字符数截断,使每个 chunk 在语义上更为自洽。

后检索优化

混合检索(Hybrid Search):纯向量检索无法做到对词汇精确匹配。混合检索将稠密向量检索与 BM25 稀疏检索结合,通过倒数排名融合(RRF)合并结果集,既覆盖语义相似性,也覆盖关键词匹配。

重排序器(Reranker):双编码器(bi-encoder,有些叫双塔)在检索阶段只能做近似匹配;交叉编码器(cross-encoder)则对每对查询-文档(query-doc成对出现)进行联合注意力计算,精度显著更高。成熟的检索系统可以组合使用多种方案:用蒸馏双编码器做第一阶段检索,交叉编码器对 top 候选重排,语义缓存跳过重复工作,ColBERT 类模型在延迟预算紧张时作为备选。

上下文压缩:不是把整个 chunk 塞进上下文,而是先提取 chunk 中与当前问题最相关的句子,再填入提示词,减少噪声的同时节省了上下文窗口空间。


第三代:Modular RAG 与自校正 RAG(2023–2024)

Advanced RAG 仍然是线性的。第三代的核心是让 RAG 系统具备了自我审视的能力(Agent的思路和反馈思路)。

Modular RAG 乐高化的检索架构

Modular RAG 将范式从静态、顺序的流水线转变为具备组合智能的动态目标导向系统。在这一架构中,RAG 过程被分解为专门的、可互换的模块:查询规划器、检索器、重排序器、答案生成器,由一个中央 Agent 或控制器编排。系统不再是固定的流水线,而是可以根据查询类型动态路由的模块组合。

Self-RAG 让模型自己决定何时检索

Self-RAG 训练模型按需决定何时检索,而不仅仅是检索什么,通过引入特殊的反思令牌(reflection tokens)来评估检索的必要性和质量。这使检索频率更合理,避免了"总是检索"带来的延迟浪费,也避免了"从不检索"带来的幻觉风险。

CRAG 为错误的检索结果设计纠错策略

CRAG 的核心目标是通过增强自动自我修正能力和对检索文档的高效利用,提升生成过程的鲁棒性。CRAG 引入了一个轻量级的检索评估器,对检索文档的相关性进行评分,并据此触发不同动作:正确则直接使用,错误则触发网络搜索兜底,模糊则对文档进行分解-重组以提取精华。

FLARE 与 Adaptive RAG

FLARE 主动预判未来内容,在长文生成过程中每当模型对即将输出的内容感到不确定时就触发检索。Adaptive RAG 则是一种基于分类器的方案,根据预测的查询复杂度将其路由至单步、迭代或无检索的不同管道。


第四代:GraphRAG 与结构化知识检索(2024)

向量检索的本质是"找相似",但有一类问题解决不了:跨文档的关系推理。"因为孤立的向量 chunk 之间没有任何连接。

GraphRAG 全局检索

GraphRAG 通过利用 LLM 生成的知识图谱,大幅提升了 LLM 在分析复杂信息时的问答能力。借助 LLM 生成的知识图谱,GraphRAG 大幅改善了"检索"环节,用更高相关性的内容填充上下文窗口,同时为每个生成的响应提供可溯源的来源依据。

GraphRAG 结合了文本抽取、网络分析与 LLM 摘要,构成一个端到端系统。

LightRAG 与图谱检索生态

LightRAG 通过双层检索和图增强索引提升了可扩展性;

GRAG 引入软剪枝技术以减轻检索子图中无关实体的影响,并采用图感知提示调优帮助 LLM 理解拓扑结构;

StructRAG 通过动态选择最优图模式来匹配特定任务。

局限性

高质量的知识图谱与对检索内容的合理重排序,对性能提升有正向作用。然而结构化知识检索并非银弹:GraphRAG 方法在简单问答场景下并不优于 Naive RAG,其优势主要体现在复杂多跳推理和全局主题分析上。知识图谱的构建本身依赖 LLM 的信息抽取质量,若抽取错误,图谱中的噪声会直接污染下游检索。


第五代:Agentic RAG(2025–2026)

Agentic RAG 是工程上的一次混搭,AI的事情那就AI来处理:谁来决定检索什么、何时检索、检索多少次?

从管道到智能体

Agentic RAG 系统不再是固定的顺序流水线,而是自主的、能够制定决策的智能体,在循环中规划、检索、推理、批判、改写、反思,最后输出结果。

Agentic RAG 能够规划、迭代检索、用分支逻辑推理、批判自身输出、从过去的失败中学习,并在每一步经济性地决定使用哪个模型。它们是真正意义上的自主信息系统。

关键技术组件

有状态图编排:LangGraph 将整个 RAG 系统建模为有向循环图(DCG),支持条件分支、持久化检查点和人在回路(human-in-the-loop)中断点。"检索-评估-再检索"的循环得以优雅地表达为图中的环路。

多工具调用与动态路由:Agentic RAG 中的智能体可以像调用函数一样调用不同的检索工具:向量数据库、SQL 数据库、网络搜索、REST API,并根据返回结果动态决定下一步行动。不同类型的查询被路由至最合适的数据源。

多层记忆系统:RAG 的三个核心特性是推理(Reasoning)、记忆(Memory)和多模态(Multimodality),前两者与 Agent 系统天然紧密关联。Agentic RAG 区分短期记忆(对话上下文)、长期记忆(跨会话偏好)和知识记忆(外部文档索引),多层协同避免重复检索已知信息。


RAG 的未来

长上下文

很多模型已经支持百万级 token上下文窗口,而大推理模型进一步推动了解决极复杂任务的可能性。

然而很多大模型在处理极长或噪声极多的输入上下文时依旧存在很多问题,实际有效上下文长度远不如宣传的那样,往往无法有效提取关键信息,而大推理模型在处理无关或冗余内容时会产生过多推理开销。

RAG 的价值依旧存在,节省上下文空间和精确控制信息质量一直是大模型和企业实际需求的必选项。

知识运行时

传统的 RAG 基本模式是"检索文档、填充上下文、生成答案",实际场景下更多企业部署把 RAG 视为知识运行时:一个将检索、验证、推理、访问控制和审计追踪作为集成操作统一管理的编排层。

类比 K8s管理应用工作负载的方式,知识运行时将对信息流实施检索质量门控、来源验证和治理控制,嵌入每一次操作之中。

这个背后驱动是Demo 与真实生产价值之间存在巨大落差。

多模态 RAG

文本已不再是唯一的检索单元。现实需求下的数据多样化,图像、表格、流程图等都是检索的对象。多模态 RAG 将视觉编码器引入检索管道,使系统能够处理视觉信息与文本信息的联合查询。


RAG在不断发展,与围绕LLM的其他技术一样;语义相似性和精准匹配之间本来就不可能是相等性质;追求绝对的准确性、速度、成本可能是个伪命题。

无论哪一代RAG,无论哪一种RGA,都不是简单的好坏、过时与不过时,Demo始终是Demo,实际生产场景中检索效率、经济效益、需求价值才是关键因素。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

在这里插入图片描述

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐