本文深入解析了RAG(检索增强生成)技术的底层实现逻辑,旨在帮助初学者和程序员理解如何构建RAG以解决大模型的幻觉、知识截止和实时性问题。文章详细阐述了RAG的核心原理,即通过检索(Retrieval)和生成(Generation)结合,利用外部知识库为模型提供事实依据。同时,文章还介绍了向量数据库在存储和检索语义信息方面的关键作用,以及文档采集、文本分块(Chunking)、向量生成(Embedding)等关键步骤,为构建高效的RAG系统提供了全面的指导。

RAG的本质与底层逻辑

前文已经简单介绍了RAG相关知识,简单的可以表示为:

RAG = 检索(Retrieval)+ 生成(Generation)

在不修改大模型参数的情况下,通过外部知识库检索为大模型提供事实依据,让生成结果是基于事实而非模型自身的臆测。

核心痛点解决方案

知识截止:数据训练时大模型的“能力”的源泉,训练数据以外的知识对大模型来说是陌生的。数据存在时效性,模型在某个特定时间点之前所学习到的知识是有效的。

幻觉:模型根据自身的训练数据编造结果,一本正经的胡说八道。

成本:RAG之前,要增强模型能力就必须加入训练数据并重新训练模型,这样成本高、模型能力更新不及时。

图1:RAG架构示意图

RAG构建流程

外部知识包含各类结构化、非结构化信息,如:语音、图片、视频、各类文档(Word、PDF、Excel等)。在RAG中,是通过向量数据库来存储这些结构化、非结构化信息的,它不同于传统的关系型和非关系型数据库。

图2:RAG构建流程

向量数据库的相关背景知识

为什么要用向量数据库?

RAG的核心是:先找相关知识,再生成答案。而“找相关知识”的前提是需要理解信息的“含义”然后才能推理生成最终结果。因此,在存储时需要保留各种信息的语义,而不仅仅是保存信息内容。

传统数据库局限:主要通过关键词搜索的方式,匹配字面相似的信息,而无法匹配语义相似的信息。例如:“2025年营收增长多少”和“2025年Q1收入涨幅”的意思相同但表述不同,关键字匹配只能匹配其中一个。

直接输入LLM的问题:不经过处理直接把文档输入LLM会出现:容易超出上下文窗口;速度慢、成本高;无关信息会干扰答案生成。

向量数据库正是为解决传统数据库无法满足的“大规模语义检索”而产生的,它不是简单存储文本,而是存储文本的语义向量,并能非常高效的(毫秒级)找到与问题向量语义最相似的文本片段。

图3:向量数据库语义检索示意图

语义相似度示例

以下是问题与文档片段的语义相似度对比:

问题向量 文档向量 余弦相似度
XX公司2025年总收入多少? 营收23亿 0.92(高度相似)
研发12亿 0.15(几乎无关)

表1:语义相似度对比示例

向量数据库如何保留语义?

首先需要明确的是:语义的载体是“向量”,而非数据库本身。向量数据库本身不生产“语义”,它的核心作用是:

存储已经编码了语义的向量(由Embedding模型生成)

按“语义相似度”快速找到匹配的向量

简单说:Embedding模型是“语义翻译官”(把文字转语义向量),向量数据库是“语义仓库 + 语义检索”

文档采集

文档采集是RAG的基石,文档采集的质量直接决定了后续检索是否充足、准确。文档采集不仅仅是“上传文件”,它是一个将多格式、多来源的原始数据转化为纯净、结构化文本的复杂过程,它包含三个关键步骤:连接数据源 → 解析不同格式的文件 → 清洗与预处理。

连接与获取数据源

需要从不同的数据源获取数据,常见的数据源来自:

各类文档:PDF、Word、Excel、PPT、TXT等

云端/数据库:Notion、Confluence、Google Drive、SharePoint等

公开网页:技术文档、博客、行业报告等

PDF文档的解析策略

PDF是最常见的文档格式,但其内部结构千差万别,对解析工具的选择至关重要:

文档类型 推荐工具/技术 技术细节与适用场景
纯文本/排版简单 PyMuPDF 全能型库,不仅能提取文本,还能提取图片、元数据
扫描件/图片型 Tesseract OCR 使用OCR技术进行图片文字识别,支持多语言
高结构化需求 Docling 进阶工具,能精准识别文档的结构,转换为JSON格式

表2:PDF文档解析工具对比

文本分块(Chunking)

文本分块(Chunking)是RAG构建流程中承上启下的核心环节。如果说文档采集决定了数据的质量,那么文本分块策略就决定了知识的“颗粒度”。

简单来说,分块就是将长文档切分成适合模型处理的较小片段。这并非简单的“切蛋糕”,而是在语义完整性与检索精准度之间寻找最佳平衡点。

图4:文本分块策略示意图

分块的目的

适配模型窗口限制:无论是Embedding模型还是LLM,都有上下文长度限制,分块确保单个片段能被模型完整处理

提升检索信噪比:用户的问题通常是针对文档的某个具体细节,小颗粒度的分块能更精准地匹配实际意图

降低成本、延迟:处理和存储大量无用的长文本会显著增加计算成本和响应时间

分块策略对比

根据技术复杂度和适用场景,目前主流的分块策略主要分为以下几类:

基础策略

策略名称 核心原理 优点 缺点
固定大小 设定固定的字符数进行硬切分 实现简单,计算开销小 极易切断句子,破坏语义完整性
基于句子/段落 利用NLP工具识别句子边界切分 保证基本语义单元完整性 段落长短不一,块大小差异大

表3:基础分块策略对比

进阶策略

类型 核心思想 优点 缺点
递归字符分块 由粗到细的分隔符递归分割 最大程度保留语义完整性 复杂格式文档效果有限
基于文档结构 利用Markdown、HTML等天然结构切分 逻辑完整性极高 强依赖文档解析质量
语义分块 利用Embedding计算句子间语义相似度进行切分 语义最连贯,完整性高 计算成本高昂
滑动窗口 适当的块重叠,确保跨块语义不丢失 防止边界信息丢失 存储与计算成本激增

表4:进阶分块策略对比

向量生成(Embedding)

向量生成是连接“人类语言”与“机器计算”的纽带,它是将输入的文字转化为数字向量,从而可以通过计算实现“语义的相似度”。

图5:Embedding向量化过程

向量化步骤

当一段文本进入Embedding模型时,通过以下步骥对其向量化:

分词与嵌入层:对文本进行分词(Tokenization)处理;每个词被映射到一个初始的高维向量(Word Embedding)

上下文编码:(核心)通过Transformer自注意力机制,模型会分析每个词与句子中其他词的关系;经过多层(如BERT的12层)的计算,每个词的向量都融合了深层的上下文信息

池化与输出:为了得到整个句子的向量,模型通常会对所有词向量进行均值池化(Mean Pooling)或使用特殊CLS标记向量;最终输出一个固定长度的向量(如768维或1536维)

向量存储

将上一步生成的“语义向量”进行持久化存储,并构建向量索引以支持高效检索。这不仅仅是简单的“存数据”,而是一个涉及数据关联、索引构建和存储优化的系统过程。

存储步骥

向量数据库连接与初始化:初始化向量数据库的客户端,并指定或创建一个集合(Collection)或索引

数据插入:将准备好的“向量 + 文本 + 元数据”打包,写入数据库

构建索引(最耗时、最关键):缺乏索引的数据库在检索时会进行暴力搜索(时间复杂度O(N)),向量数据库通过构建近似最近邻(ANN)索引来提升检索效率

至此,RAG外部知识库就创建好了,其在不改变模型本身的情况下,通过“检索+生成”的协同,让大模型能够利用外部知识,从而生成更准确、更专业、更可信的结果。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐