收藏！小白程序员快速入门RAG，让大模型回答更准确、更有依据！

程序员糖仔

492人浏览 · 2026-03-24 13:42:04

程序员糖仔 · 2026-03-24 13:42:04 发布

本文介绍了RAG（检索增强生成）技术，旨在解决大模型在回答问题时可能出现的“幻觉”和“编造”内容的问题。RAG通过结合检索和生成技术，让大模型在回答前先查询外部知识库，从而提供更准确、有依据的答案。文章详细阐述了RAG的完整流程，包括文档准备、索引、检索和生成四个阶段，并列举了RAG在多个领域的应用场景。对于想要了解和掌握RAG技术的程序员来说，本文提供了一个全面而实用的入门指南。

1、RAG是什么？

一句话定义：

检索增强生成（Retrieval-Augmented Generation，RAG）是一种结合检索和生成技术的模型。它通过引用外部知识库的信息来生成答案或内容，具有较强的可解释性和定制能力，适用于问答系统、文档生成、智能助手等多个自然语言处理任务中。

内容来自百度百科词条

RAG = 检索（Retrieval）+ 增强（Augmented）+ 生成（Generation）

通俗点说：让大模型在回答用户问题之前，先去你的知识库里“查资料”，然后根据查到的“真凭实据”来组织答案，给大模型的提示词示例：

你是一个专业的问答机器人。
请仅基于以下提供的上下文片段来回答问题。如果上下文无法回答问题，请回答“无法从现有资料中找到答案”。
### 上下文开始 ###
{这里放置检索到的文本块}
### 上下文结束 ###
用户的问题是：{这里放置用户输入}
请生成专业、准确、且基于上下文的回答：

2、RAG完整流程

RAG的完整流程可以分成4个阶段：文档准备阶段、索引阶段、检索阶段、生成阶段

1.文档准备阶段

这是RAG的起点，也可看成文档预处理阶段，这也是最容易被忽视却最重要的一步，文档质量直接决定检索效果。

流程拆解：

文档收集 → 格式转换 → 清洗去噪 → 元数据提取

每一步在做什么：


步骤	理解
文档收集	把各个地方的文档文件整理在一起
格式转换	把PDF、Word、Excel、图片统一转成可处理的文本
清洗去噪	去掉页眉页脚、广告、无关标记
元数据提取	给文档打标签：文档属性、作者、部门、日期、版本、权限

2.索引阶段

这一阶段主要是要构建可检索的知识库。

流程拆解：

清洗后的文档 → 文本分割 → 向量化 → 存入向量数据库

往往在实际中需要进行召回率测试：针对一批标准问题，看哪种分割方式能让检索器找到包含答案的正确块。

文本分割的有下面几类常用的方法，同时也要注意RAG实践中往往不是只用一种，而是多种组合：


方法论	解释
固定大小	按固定的字符数或Token数硬性切割，常配合重叠窗口使用（如块大小500，重叠50），防止关键信息被切断
递归分割	按优先级顺序尝试不同的分隔符（如：先按段落\n\n，再按句子\n，最后按空格或字符）进行分割，直到块大小符合要求
父子分割	检索时用小的子块匹配，提交上下文时用大的父块，以期兼顾精确度与上下文丰富度
语义分割	利用嵌入模型计算句子间的语义相似度，将相似度高的连续句子聚合为一个块，在语义转折处切分
文档结构分割	利用文档的固有结构（如Markdown的标题层级#、HTML标签、PDF的章节）作为分割边界
模型智能分割	直接提示大语言模型根据语义完整性来生成分割块，或让Agent动态决定如何分块以完成特定任务

向量化是把把文本片段转换成数学向量的过程，比如，“苹果”这个词，被向量化后，可能会变成一个像这样的数学向量：

“苹果”→ [0.8, 0.1, 0.9, 0.3, …]

常用的向量（Embedding）模型：Qwen3-Embedding、bge-m3

常用的向量数据库：Milvus、Qdrant、Weaviate、Elasticsearch、FAISS、Chroma

3.检索阶段

检索阶段的核心目标是在召回率（Recall）和精准度（Precision）之间取得平衡。召回率不足可能导致漏掉正确答案，而精准度不够则可能返回错误答案。

从用户提出问题到获得最相关的知识片段，通常经历以下关键步骤：

每一步在做什么：


步骤	理解
查询处理+检索路由决策	对用户查询进行预处理，并决定采用哪种检索策略：纯向量检索、纯关键词检索还是混合检索
纯向量检索	将用户问题向量化，用同一个Embedding模型转换成向量，在向量数据库中计算与所有文档片段的相似度（如余弦相似度）
纯关键词检索	使用BM25等算法进行关键词匹配检索，适合精确词匹配场景
混合检索	向量检索 + 关键词检索双路并行，结果合并去重，兼顾语义理解与词法匹配
结果融合与重排序（Rerank）	用交叉编码器对初筛结果重新排序，把最相关的往前排

重排序（Rerank）原理图：

来自Dify官网，详见：https://docs.dify.ai

4.生成（Generation）阶段

流程拆解：

（用户问题 + 检索到的片段）→ 组装Prompt → 调用大模型 → 生成答案 → 后处理

每一步在做什么：


步骤	理解
组装Prompt	把问题和检索到的资料按提示词模板组织成提示词
调用大模型	把Prompt发给LLM
生成答案	模型基于资料生成回答
后处理	检查格式、加引用标注、过滤敏感词

最后，了解下目前RAG的应用场景：


场景	举例
企业服务	企业知识管理、员工自助服务、新员工培训
公共/政务	政务咨询与服务、政策解读与推送
金融	智能投研分析、合规风控咨询、智能客服、呼叫中心质检
医疗	临床决策支持、辅助疾病诊断、药物管理与研究
法律	合同审查、法律咨询、案例检索与法规匹配
其他	智能车载助手、教育学习、体育训练分析等

RAG不是什么黑科技，它只是一种设计思想：让大模型在回答前先查资料。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

手把手教你学基于 Linux 的 NPU 固件开发--第 06 讲（深度篇）：共享内存与环形缓冲区设计构建 Host 与 NPU 之间的高速公路

(Head): Host 下一个要写入的位置。(Tail): Host 认为 NPU 已经处理完的位置（用于回收资源）。(Head): NPU 下一个要写入完成状态的位置（如果是双向队列）。(Tail): NPU 下一个要读取命令的位置。注：为了简化，通常采用单向命令队列：Host 写 Cmd，NPU 读 Cmd 并原地更新状态，或维护一个单独的完成队列。这里我们采用双指针单向队列模型：Host

AtomGit开源社区

（包含安装包）Windows 一键部署OpenClaw教程 5分钟搭建本地AI智能体

AtomGit开源社区

零基础学基于Linux的NPU固件开发专栏--“7.3.1 关注NPU技术趋势：存算一体、稀疏计算、低精度量化

本文探讨了NPU技术发展的三大核心趋势：存算一体、稀疏计算和低精度量化。存算一体通过计算存储融合突破"内存墙"瓶颈，实现能效提升10-100倍；稀疏计算利用数据冗余特性，仅处理非零元素提升算力效率；低精度量化在精度损失可控的前提下，显著降低计算资源消耗。三者协同应用可产生"1+1+1>3"的效果，共同应对AI算力需求爆发、功耗约束收紧和场景碎片化的挑战