RAG 智能问答技术详解：从原理到实践的全面指南

像风一样自由2020

439人浏览 · 2026-05-01 07:19:52

像风一样自由2020 · 2026-05-01 07:19:52 发布

RAG 智能问答技术详解：从原理到实践的全面指南

在这里插入图片描述

本文系统介绍 RAG（Retrieval-Augmented Generation）技术的核心原理、完整流程、关键技术及实践方案，帮助你从零到一理解和构建 RAG 智能问答系统。

一、为什么需要 RAG？

1.1 大模型的困境

大语言模型（LLM）虽然强大，但存在几个固有缺陷：

问题	表现	示例
知识截断	训练数据有时间截止点，无法获取最新信息	问"2026年最新政策"，模型可能回答过时内容
幻觉问题	模型会"一本正经地胡说八道"，编造不存在的事实	编造不存在的论文、法律条文
领域知识不足	对企业私有数据、专业领域知识覆盖有限	无法回答公司内部制度、产品细节
无法溯源	回答缺乏来源引用，难以验证可信度	用户无法判断回答是否可靠

1.2 RAG 的解题思路

RAG 的核心思想非常直观：先查资料，再回答问题。

就像一个学生在开卷考试中——先翻书找到相关章节，再根据书本内容组织答案。这样既利用了大模型强大的语言理解和生成能力，又确保回答有据可依。

传统 LLM：  用户提问 → 模型凭"记忆"回答（闭卷考试）
RAG：       用户提问 → 检索相关文档 → 模型参考文档回答（开卷考试）

1.3 RAG vs 微调 vs 长上下文

除了 RAG，还有两种常见方案，各有优劣：

方案	原理	优点	缺点	适用场景
RAG	检索外部知识注入 prompt	知识可实时更新、可溯源、成本低	检索质量影响效果	知识问答、客服、文档助手
微调（Fine-tuning）	用领域数据继续训练模型	模型内化知识、风格可控	成本高、知识更新慢、可能遗忘	特定风格、特定任务
长上下文	将全部资料放入 context window	实现简单	token 成本高、有长度限制	短文档分析

实践建议：大多数场景优先考虑 RAG，必要时 RAG + 微调结合使用。

二、RAG 核心架构

2.1 整体流程

一个完整的 RAG 系统分为离线准备和在线服务两个阶段：

╔══════════════════════════════════════════════════════════════════╗
║                        离线阶段（数据准备）                        ║
║                                                                  ║
║  原始文档 → 文档解析 → 文本分块 → 向量化(Embedding) → 存入向量数据库  ║
╚══════════════════════════════════════════════════════════════════╝
                              │
                              ▼
╔══════════════════════════════════════════════════════════════════╗
║                        在线阶段（问答服务）                        ║
║                                                                  ║
║  用户提问 → 查询处理 → 检索召回 → 重排序 → Prompt构建 → LLM生成回答  ║
╚══════════════════════════════════════════════════════════════════╝

2.2 详细流程图

┌─────────────────────────────────────────────────────────────────┐
│                         离线数据准备                              │
│                                                                 │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐        │
│  │ PDF/Word │  │  网页爬取  │  │ 数据库    │  │ API接口   │        │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘  └────┬─────┘        │
│       └──────────────┴─────────────┴──────────────┘              │
│                          │                                       │
│                          ▼                                       │
│                   ┌──────────────┐                               │
│                   │   文档解析    │  提取纯文本                     │
│                   └──────┬───────┘                               │
│                          ▼                                       │
│                   ┌──────────────┐                               │
│                   │   文本清洗    │  去噪、去重、格式统一            │
│                   └──────┬───────┘                               │
│                          ▼                                       │
│                   ┌──────────────┐                               │
│                   │   文本分块    │  切分为合适大小的片段            │
│                   └──────┬───────┘                               │
│                          ▼                                       │
│                   ┌──────────────┐                               │
│                   │  Embedding   │  文本 → 向量                   │
│                   └──────┬───────┘                               │
│                          ▼                                       │
│                   ┌──────────────┐                               │
│                   │  向量数据库   │  存储向量 + 建立索引             │
│                   └──────────────┘                               │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│                         在线问答服务                              │
│                                                                 │
│  ┌──────────┐                                                    │
│  │ 用户提问  │                                                    │
│  └────┬─────┘                                                    │
│       ▼                                                          │
│  ┌──────────────┐                                                │
│  │  查询理解/改写 │  意图识别、Query扩展、HyDE                     │
│  └──────┬───────┘                                                │
│         │                                                        │
│    ┌────┴────┐                                                   │
│    ▼         ▼                                                   │
│ ┌──────┐ ┌──────┐                                                │
│ │向量检索│ │关键词 │  混合检索                                      │
│ │      │ │检索   │                                                │
│ └──┬───┘ └──┬───┘                                                │
│    └────┬────┘                                                   │
│         ▼                                                        │
│  ┌──────────────┐                                                │
│  │   重排序      │  Cross-Encoder / Reranker                      │
│  └──────┬───────┘                                                │
│         ▼                                                        │
│  ┌──────────────┐                                                │
│  │ Prompt 构建   │  检索结果 + 问题 → 提示词模板                   │
│  └──────┬───────┘                                                │
│         ▼                                                        │
│  ┌──────────────┐                                                │
│  │  LLM 生成     │  基于上下文生成回答                              │
│  └──────┬───────┘                                                │
│         ▼                                                        │
│  ┌──────────────┐                                                │
│  │  输出优化     │  引用标注、幻觉检测、格式化                       │
│  └──────────────┘                                                │
└─────────────────────────────────────────────────────────────────┘

三、核心组件详解

3.1 文档解析（Document Parsing）

目标：将各种格式的原始文档转换为纯文本。

常见文档格式与解析方案

文档格式	解析工具	注意事项
PDF	PyMuPDF、PDFPlumber、Unstructured	需处理扫描件（OCR）、表格、图片
Word	python-docx、Unstructured	注意样式、表格、页眉页脚
HTML	BeautifulSoup、Trafilatura	去除导航栏、广告等噪声
Markdown	直接解析	结构化程度高，保留标题层级
Excel/CSV	Pandas	需设计如何将表格转为自然语言
PPT	python-pptx	提取文字和备注

关键挑战

表格处理：表格需要转为结构化的自然语言描述，而非简单拼接单元格
图文混排：图片中的文字需要 OCR 识别，图表需要描述性文字
扫描件 PDF：需要 OCR 引擎（如 Tesseract、PaddleOCR）配合使用
多栏排版：需要正确识别阅读顺序

3.2 文本分块（Chunking）

目标：将长文档切分为大小合适、语义完整的片段。

分块是 RAG 中最关键也最容易被低估的环节。分块质量直接决定检索效果。

分块策略对比

策略	原理	优点	缺点	适用场景
固定长度分块	按字符数/Token数切分	实现简单、速度快	可能切断语义	快速原型
递归字符分块	按分隔符层级递归切分（段落→句子→字符）	保留一定语义完整性	需要调参	通用场景（推荐起点）
语义分块	用 Embedding 计算相邻句子相似度，在语义断裂处切分	语义最完整	计算成本高	高质量要求场景
文档结构分块	按标题、章节等文档结构切分	保留文档层级关系	依赖文档格式	结构化文档
递归总结分块	先分块，再对每块生成摘要，摘要作为父块	层次化信息	实现复杂	长文档问答

分块参数选择

chunk_size（块大小）：
  - 太小：丢失上下文，语义不完整
  - 太大：引入噪声，检索精度下降
  - 推荐起点：512 tokens（约 300-500 中文字）

chunk_overlap（重叠大小）：
  - 目的：避免在块边界处丢失信息
  - 推荐：chunk_size 的 10%-20%
  - 例如：chunk_size=512，overlap=50-100

Parent-Child 分块策略

一种高级分块策略，同时维护大小两种块：

┌─────────────────────────────────────────┐
│              Parent Chunk               │
│         （大块，用于最终返回）             │
│                                         │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐   │
│  │ Child 1 │ │ Child 2 │ │ Child 3 │   │
│  │(小块,检索)│ │(小块,检索)│ │(小块,检索)│   │
│  └─────────┘ └─────────┘ └─────────┘   │
└─────────────────────────────────────────┘

检索时匹配 Child（精度高），返回时取 Parent（上下文完整）

3.3 文本向量化（Embedding）

目标：将文本转换为高维向量，使语义相似的文本在向量空间中距离相近。

Embedding 原理

"今天天气真好"  →  [0.12, -0.34, 0.56, ..., 0.78]  （1536维向量）
"今日阳光明媚"  →  [0.11, -0.33, 0.55, ..., 0.77]  （语义相近 → 向量相近）
"股市大跌了"    →  [-0.45, 0.89, -0.12, ..., 0.23]  （语义不同 → 向量远离）

向量之间的距离（余弦相似度、欧氏距离等）可以衡量文本的语义相似度。

主流 Embedding 模型

模型	维度	中文效果	部署方式	推荐场景
OpenAI text-embedding-3-large	3072	良好	API	英文为主、预算充足
OpenAI text-embedding-3-small	1536	良好	API	性价比之选
BGE-large-zh (BAAI)	1024	优秀	本地部署	中文场景首选
BGE-M3	1024	优秀	本地部署	多语言、多粒度
M3E-base	768	良好	本地部署	轻量中文场景
Jina Embeddings v3	1024	良好	API/本地	多语言、长文本
GTE-Qwen2	1536	优秀	本地部署	阿里系中文场景

选型建议

追求效果：BGE-M3 或 GTE-Qwen2（中文），OpenAI text-embedding-3-large（英文）
追求性价比：BGE-large-zh（中文免费本地部署）
快速验证：OpenAI text-embedding-3-small（API 调用简单）

3.4 向量数据库（Vector Database）

目标：高效存储和检索向量数据。

为什么需要向量数据库？

传统数据库（如 MySQL）无法高效地进行"相似度搜索"。向量数据库专门优化了向量的存储和近似最近邻（ANN）搜索。

用户查询向量: [0.12, -0.34, ...]
         │
         ▼ 在百万级向量中快速找到最相似的 Top-K 个
         │
  ┌──────┴──────┐
  ▼             ▼
结果1 (0.95)  结果2 (0.93)  结果3 (0.91) ...

主流向量数据库对比

数据库	类型	特点	适用规模	学习成本
FAISS	本地库	Meta开源，速度极快，纯内存	中小规模（百万级）	低
Chroma	嵌入式	轻量，API简洁，内置Embedding	小规模（十万级）	极低
Milvus	分布式	生产级，支持十亿级向量，高可用	大规模	中
Qdrant	独立服务	Rust编写，性能优秀，过滤功能强	中大规模	中
Weaviate	独立服务	支持混合搜索，GraphQL接口	中大规模	中
Pinecone	SaaS	全托管，无需运维	中大规模	低
Elasticsearch	搜索引擎	8.x+ 支持向量搜索，混合检索	大规模	中
pgvector	PostgreSQL扩展	利用现有PG，向量+关系查询	中小规模	低

索引类型

向量数据库使用 ANN（近似最近邻）算法加速搜索：

索引类型	原理	特点
HNSW	分层可导航小世界图	查询快、精度高、内存占用大（推荐）
IVF	倒排索引 + 聚类	内存友好、需训练
PQ	乘积量化压缩	极致压缩、精度有损
ScaNN	Google开源	各项指标均衡

3.5 检索策略（Retrieval）

目标：从向量数据库中准确召回与用户问题最相关的文档片段。

3.5.1 向量检索（语义检索）

用户问题: "如何申请年假？"
    │
    ▼ Embedding
查询向量: [0.12, -0.34, 0.56, ...]
    │
    ▼ 余弦相似度计算
    │
Top-K 最相似文档片段

优点：理解语义，“年假"能匹配"带薪休假”
缺点：对专有名词、编号等精确匹配较弱

3.5.2 关键词检索（稀疏检索）

使用 BM25 等传统算法，基于词频和文档频率进行匹配：

优点：精确匹配能力强，对专有名词友好
缺点：无法理解语义，“年假"匹配不到"带薪休假”

3.5.3 混合检索（Hybrid Search）

同时使用向量检索和关键词检索，融合两者的排序结果：

           查询
         ┌──┴──┐
         ▼     ▼
    向量检索  关键词检索
    Top-K    Top-K
         │     │
         ▼     ▼
    ┌──────────────┐
    │  融合排序     │  RRF (Reciprocal Rank Fusion)
    └──────┬───────┘
           ▼
      最终 Top-K

RRF（倒数排序融合）公式：

RRF_score(d) = Σ 1 / (k + rank_i(d))

其中 k 通常取 60，rank_i(d) 是文档 d 在第 i 个检索器中的排名

实践建议：混合检索通常比单一检索效果提升 5%-15%，建议作为默认方案。

3.6 重排序（Reranking）

目标：对初步召回的候选文档进行精排，提升最终送入 LLM 的文档质量。

为什么需要重排序？

检索阶段（Bi-Encoder）为了速度，对问题和文档分别编码计算相似度，精度有损失。重排序阶段使用 Cross-Encoder 对问题和文档联合编码，精度更高但速度更慢。

检索阶段（粗排）：快，召回 20 个候选
    │
    ▼
重排序（精排）：慢但准，从中选出 Top 5
    │
    ▼
送入 LLM

主流 Reranker

模型	来源	特点
Cohere Rerank	Cohere	API调用，效果优秀
BGE-Reranker-large	BAAI	开源，中文效果好
BGE-Reranker-v2-m3	BAAI	开源，多语言
Jina Reranker v2	Jina	多语言，支持长文本
Cross-Encoder (Sentence-Transformers)	HuggingFace	可自定义训练

重排序效果

典型场景下，重排序可以将检索准确率提升 10%-30%。

3.7 查询处理（Query Processing）

目标：优化用户原始查询，提升检索效果。

3.7.1 查询改写（Query Rewriting）

用 LLM 将用户的口语化提问改写为更适合检索的形式：

原始问题："那个请假的流程是啥来着？"
    │
    ▼ LLM 改写
改写后："企业员工请假申请流程及审批步骤"

3.7.2 HyDE（Hypothetical Document Embeddings）

先让 LLM 生成一个"假设性回答"，再用这个回答去检索：

用户问题："什么是 RAG？"
    │
    ▼ LLM 生成假设性回答
假设回答："RAG 是一种将检索与生成结合的技术架构..."
    │
    ▼ 用假设回答的 Embedding 去检索
    │
检索结果（通常比直接用问题检索更准）

原理：假设性回答与真实文档在向量空间中更接近。

3.7.3 查询扩展（Query Expansion）

将一个问题扩展为多个子问题，分别检索后合并结果：

原始问题："RAG 系统如何优化？"
    │
    ▼ 扩展为多个子问题
    ├─ "RAG 检索阶段有哪些优化方法？"
    ├─ "RAG 生成阶段如何提升质量？"
    └─ "RAG 分块策略怎么选择？"
    │
    ▼ 分别检索，合并去重
    │
最终结果

3.8 Prompt 构建与 LLM 生成

目标：将检索到的文档片段组装成有效的提示词，引导 LLM 生成高质量回答。

Prompt 模板示例

你是一个专业的知识问答助手。请严格根据以下参考内容回答用户问题。

要求：
1. 只基于提供的参考内容回答，不要编造信息
2. 如果参考内容中没有相关信息，请明确说明"根据已有资料无法回答"
3. 回答时请标注信息来源（标注文档编号）
4. 使用清晰、专业的语言

## 参考内容：
{context}

## 用户问题：
{question}

## 回答：

关键设计原则

角色设定：明确 LLM 的身份和行为边界
约束指令：限制模型只基于检索内容回答，减少幻觉
引用要求：要求模型标注来源，便于用户验证
格式控制：指定输出格式（如 Markdown、JSON）

四、高级 RAG 技术

4.1 Self-RAG（自适应检索）

让模型自己判断是否需要检索：

用户提问
    │
    ▼ LLM 判断
    ├─ 需要检索 → 执行 RAG 流程
    └─ 不需要检索 → 直接回答（如"你好"等简单问题）

优势：避免对简单问题进行不必要的检索，降低延迟和成本。

4.2 Corrective RAG（纠正式检索）

对检索结果进行质量评估，如果质量不足则触发补充检索：

检索结果
    │
    ▼ 评估检索质量
    ├─ 质量足够 → 正常生成
    └─ 质量不足 → 改写查询 / 切换检索策略 / 补充检索

4.3 Graph RAG（图谱增强检索）

将文档中的实体和关系构建为知识图谱，结合图结构进行检索：

传统 RAG：文档片段 → 向量检索
Graph RAG：文档 → 知识图谱 → 图查询 + 向量检索

优势：擅长处理多跳推理问题（如"A公司的CEO毕业于哪所大学？"）。

4.4 Multi-hop RAG（多跳检索）

对于需要多步推理的复杂问题，进行多次检索：

问题："张三所在部门的预算是多少？"
    │
    ▼ 第一轮检索
    "张三属于市场部"
    │
    ▼ 第二轮检索（基于第一轮结果）
    "市场部2026年预算为500万"
    │
    ▼ 综合回答
    "张三所在部门（市场部）的预算是500万"

4.5 Agentic RAG（智能体式检索）

将 RAG 嵌入 Agent 框架，让模型自主决定：

是否需要检索
检索哪个知识库
是否需要多次检索
如何整合多个来源的信息

用户提问
    │
    ▼ Agent 规划
    ├─ 步骤1：检索文档库 A
    ├─ 步骤2：检索数据库 B
    ├─ 步骤3：调用 API C
    └─ 步骤4：综合所有信息生成回答

五、效果评估

5.1 评估维度

维度	说明	评估指标
检索质量	检索到的文档是否相关	Recall@K、Precision@K、MRR、NDCG
回答质量	回答是否准确、完整	Faithfulness、Answer Relevance
忠实度	回答是否忠实于检索内容	是否存在幻觉
引用准确性	引用来源是否正确	Citation Precision/Recall

5.2 评估框架

框架	特点
RAGAS	专注 RAG 评估，自动计算 Faithfulness、Relevance 等指标
TruLens	可视化评估，支持 Feedback Functions
LangSmith	LangChain 配套，全链路追踪
DeepEval	支持多种评估指标，易于集成

5.3 RAGAS 核心指标

# RAGAS 四大核心指标
metrics = {
    "faithfulness": "回答是否忠实于检索内容（幻觉检测）",
    "answer_relevancy": "回答与问题的相关程度",
    "context_precision": "检索内容中相关内容的精确度",
    "context_recall": "检索内容对回答所需信息的召回率",
}

六、技术选型建议

6.1 快速原型方案（1-2天搭建）

框架：LangChain / LlamaIndex
Embedding：OpenAI text-embedding-3-small
向量数据库：Chroma（本地）
LLM：GPT-4o / Claude
文档解析：LangChain DocumentLoader

6.2 中文生产方案

框架：LangChain / LlamaIndex / Dify
Embedding：BGE-large-zh 或 BGE-M3
向量数据库：Milvus / Qdrant
Reranker：BGE-Reranker-v2-m3
LLM：Qwen-Plus / DeepSeek / GPT-4o
文档解析：Unstructured / RAGFlow

6.3 企业级方案

框架：自研 / LangChain + LangServe
Embedding：BGE-M3（本地部署）+ API 备选
向量数据库：Milvus 集群 / Elasticsearch（混合检索）
Reranker：自训练 Cross-Encoder
LLM：私有化部署 Qwen / DeepSeek
文档解析：RAGFlow（深度文档理解）
评估：RAGAS + 自定义评估
监控：LangSmith / 自建链路追踪

七、典型应用场景

7.1 企业知识库问答

场景：员工查询公司制度、流程、产品文档
特点：文档更新频繁、需要精确回答、需要引用来源

7.2 智能客服

场景：基于产品文档自动回答用户咨询
特点：需要多轮对话、需要准确的产品信息、需要人工兜底

7.3 法律/医疗咨询助手

场景：基于法规/医学文献提供参考信息
特点：对准确性要求极高、需要严格的引用溯源

7.4 代码助手

场景：基于代码仓库和技术文档回答开发问题
特点：需要理解代码结构、需要结合多个文件

7.5 学术研究助手

场景：基于论文库进行文献检索和综述
特点：需要处理大量学术文献、需要引用原文

八、常见问题与优化方向

8.1 检索不到相关内容

检查分块策略是否合理
尝试查询改写 / HyDE
使用混合检索（向量 + 关键词）
检查 Embedding 模型是否适合当前领域

8.2 检索到了但回答不准确

增加重排序（Reranking）环节
优化 Prompt 模板
调整 chunk_size，避免块过大引入噪声
尝试 Parent-Child 分块策略

8.3 存在幻觉

在 Prompt 中明确要求"只基于提供的内容回答"
增加幻觉检测环节
使用 Self-RAG 架构
对回答进行 Faithfulness 评估

8.4 性能与延迟

使用缓存（对相同/相似问题缓存检索结果）
优化 Embedding 和检索的批处理
考虑异步处理和流式输出
向量数据库选择 HNSW 索引

九、RAG 技术发展趋势

9.1 从 Naive RAG 到 Advanced RAG

Naive RAG          →  Advanced RAG        →  Modular RAG
（基础检索+生成）      （查询优化+重排序+        （可插拔组件，
                       多步检索）              灵活组合）

9.2 关键趋势

Agentic RAG：RAG 与 Agent 深度融合，模型自主决策检索策略
多模态 RAG：不仅检索文本，还检索图片、表格、音视频
端到端优化：检索和生成联合训练，而非独立优化
长上下文冲击：随着 LLM 上下文窗口增长（100K+），部分场景可直接塞入全文
知识图谱融合：Graph RAG 将结构化知识与非结构化检索结合

9.3 长上下文 vs RAG

随着 Claude、GPT-4 等模型支持超长上下文（100K-1M tokens），有人质疑 RAG 是否还有必要：

维度	长上下文	RAG
实现复杂度	低	高
Token 成本	高（每次都传全文）	低（只传相关片段）
知识规模	受窗口限制	理论上无限
实时更新	需重新传入	更新向量库即可
准确性	可能"大海捞针"	精准检索

结论：两者互补，不是替代关系。小规模知识用长上下文，大规模知识用 RAG。

十、总结

RAG 是当前将大模型落地到实际业务场景中最成熟、最实用的技术方案。它的核心价值在于：

让 AI 有据可依：减少幻觉，提升可信度
知识可更新：无需重新训练模型，更新知识库即可
可溯源：每个回答都能追溯到原始文档
成本可控：相比微调，RAG 的实施和维护成本更低

构建一个 RAG 系统并不难，但构建一个高质量的 RAG 系统需要在每一个环节精心打磨——从文档解析、分块策略，到 Embedding 选型、检索优化，再到 Prompt 工程和效果评估。

希望本文能帮助你系统理解 RAG 的全貌，并在实际项目中少走弯路。

参考资料

Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS 2020

Gao et al., “Retrieval-Augmented Generation for Large Language Models: A Survey”, 2024

LangChain Documentation: https://docs.langchain.com

LlamaIndex Documentation: https://docs.llamaindex.ai

RAGAS Documentation: https://docs.ragas.io

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

天赐范式第36天：独立创作者的一天——明天论文前途未卜

AtomGit开源社区

你怎么理解skill？如何在这个项目运用skill或者不用你的判断？在这个过程中badcase是自动评估的吗有做自动回流吗？需要人工评badcase还是可以自动化？评估体系如何迭代数据指标是什么

指标计算公式目标值采集方式完成率完成考试数/开始考试数>70%埋点：exam_start vs exam_complete准确率(1 -AI分数-人工分数/9) * 100%Badcase率Badcase数/总会话数<10%数据库统计修复周期<3天数据库时间戳召回率人工发现的错误数/总错误数>90%抽样人工全量审核优先级任务判断P0保持当前人工审核 Badcase数据量小，人工更准P1上线后加自动

AtomGit开源社区

面向医疗群体智能的协同诊疗与群体决策支持系统（上）

AtomGit开源社区

所有评论(0)

查看更多评论

像风一样自由2020

@weixin_37647148

已为社区贡献25条内容

RAG 智能问答技术详解：从原理到实践的全面指南

像风一样自由2020

RAG 智能问答技术详解：从原理到实践的全面指南

一、为什么需要 RAG？

1.1 大模型的困境

1.2 RAG 的解题思路

1.3 RAG vs 微调 vs 长上下文

二、RAG 核心架构

2.1 整体流程

2.2 详细流程图

三、核心组件详解

3.1 文档解析（Document Parsing）

常见文档格式与解析方案

关键挑战

3.2 文本分块（Chunking）

分块策略对比

分块参数选择

Parent-Child 分块策略

3.3 文本向量化（Embedding）

Embedding 原理

主流 Embedding 模型

选型建议

3.4 向量数据库（Vector Database）

为什么需要向量数据库？

主流向量数据库对比

索引类型

3.5 检索策略（Retrieval）

3.5.1 向量检索（语义检索）

3.5.2 关键词检索（稀疏检索）

3.5.3 混合检索（Hybrid Search）

3.6 重排序（Reranking）

为什么需要重排序？

主流 Reranker

重排序效果

3.7 查询处理（Query Processing）

3.7.1 查询改写（Query Rewriting）

3.7.2 HyDE（Hypothetical Document Embeddings）

3.7.3 查询扩展（Query Expansion）

3.8 Prompt 构建与 LLM 生成

Prompt 模板示例

关键设计原则

四、高级 RAG 技术

4.1 Self-RAG（自适应检索）

4.2 Corrective RAG（纠正式检索）

4.3 Graph RAG（图谱增强检索）

4.4 Multi-hop RAG（多跳检索）

4.5 Agentic RAG（智能体式检索）

五、效果评估

5.1 评估维度

5.2 评估框架

5.3 RAGAS 核心指标

六、技术选型建议

6.1 快速原型方案（1-2天搭建）

6.2 中文生产方案

6.3 企业级方案

七、典型应用场景

7.1 企业知识库问答

7.2 智能客服

7.3 法律/医疗咨询助手

7.4 代码助手

7.5 学术研究助手

八、常见问题与优化方向

8.1 检索不到相关内容

8.2 检索到了但回答不准确

8.3 存在幻觉

8.4 性能与延迟

九、RAG 技术发展趋势

9.1 从 Naive RAG 到 Advanced RAG

9.2 关键趋势

9.3 长上下文 vs RAG

十、总结

所有评论(0)

温馨提示：您尚未绑定手机号

像风一样自由2020