摘要

随着Deepseek V4、 Gemini 1.5 Pro、Claude等模型将上下文窗口扩展至百万 token 量级,检索增强生成(RAG)系统是否仍有存在意义?本文从准确率、延迟、成本三个维度对两种范式进行系统比较,并给出可落地的架构选型决策框架,得出结论:二者并非替代关系,而是在不同场景下互补共存——长上下文替代的是简单 RAG,Agentic RAG 则正成为企业级 AI 应用的核心基础设施。


目录

  1. 背景:百万 token 时代的冲击
  2. 维度一:准确率
  3. 维度二:延迟
  4. 维度三:成本
  5. RAG 的不可替代性
  6. RAG 的演化方向
  7. 选型决策框架
  8. 结论

1. 背景:百万 token 时代的冲击

近两年,大语言模型的上下文处理能力经历了指数级跃升。Gemini 1.5 Pro 将上下文窗口扩展至 100 万 token,Claude 3 系列支持 200K token,这一趋势使"将整个知识库直接塞入上下文"的方案从理论成为现实。

这一变化引发了一个自然的质疑:既然模型可以直接"看到"全部文档,RAG 检索系统还有存在意义吗?

要回答这个问题,需要跳出"谁替代谁"的零和思维,从工程实践的三个核心维度——准确率、延迟、成本——分别评估两种方案的取舍,并引入近期的实验数据加以支撑。

📌 本文立场:长上下文模型与 RAG 并非替代关系。长上下文替代的是简单 RAG,而复杂的 Agentic RAG 正在成为企业级 AI 应用的核心基础设施。


2. 维度一:准确率

长上下文的理论优势

Li et al. (2024) 的综合研究发现,在资源充足的条件下,长上下文方案(LC)在几乎所有测试场景中准确率均高于 RAG。这一结论的直觉也不难理解:完整上下文避免了 RAG 的检索遗漏问题——相关内容如果未被检索到,模型就永远无从利用。

位置偏差:长上下文的致命软肋

然而,这个优势建立在一个脆弱的前提之上。Liu et al. 在 TACL 2024 发表的经典论文《Lost in the Middle》揭示了一个关键缺陷:当相关信息的位置在上下文中变化时,模型性能呈现显著的 U 型曲线——对开头和结尾的内容注意力最强,对中间内容的利用最弱。

⚠️ 关键发现:Liu et al. 的实验表明,GPT-3.5 和 Claude 在多文档问答任务中,当答案所在文档位于上下文中间位置时,准确率出现显著下滑。后续研究进一步确认,这种 U 型性能曲线源于模型内在的注意力位置偏差,与内容本身的相关性无关。

这意味着:将数万篇企业文档直接塞入百万 token 的上下文,如果答案"不幸"落在中间,准确率将显著下滑。反观 RAG,通过检索将最相关内容提到最前,反而规避了这个位置偏差问题。

Elasticsearch 的实测也印证了这一点:在大量上下文输入时,模型注意力分散,RAG 系统在精度上优于直接使用海量上下文的方案。

📊 准确率小结:文档量小、总量在窗口内——长上下文略优;文档量大、需从海量内容中定位答案——RAG 更稳定可靠。


3. 维度二:延迟

延迟的差异根植于 Transformer 的计算复杂度。自注意力机制的计算量与上下文长度的平方成正比——这意味着 100 万 token 的推理延迟,远非 1,000 token 的 1,000 倍,而是更高数量级。

RAG 的延迟优势

RAG 管道在交互式场景中的响应速度通常更快,延迟稳定可预期。长上下文方案的延迟随文档规模线性甚至超线性增长,随着用户数量增加或文档规模扩大,扩展性很差;而 RAG 能够将每次查询所需的 token 数量控制在较低水平,延迟保持稳定。

在企业级知识库问答场景下,用户对响应时间的容忍度通常在 3–5 秒以内。每次查询携带 100 万 token 的长上下文方案,在高并发场景下很难满足这一 SLA 要求。

📊 延迟小结:交互式问答场景,RAG 延迟明显优于长上下文;一次性批处理分析任务,延迟不是主要约束,长上下文方案可以接受。


4. 维度三:成本

成本维度上,RAG 的优势最为压倒性,差距可达千倍量级。

💰 实测数据:Elasticsearch 的测试数据显示,RAG 每次查询平均费用约为 0.00008,而全上下文 LLM 查询平均约为 0.10——差距超过 1,250 倍。[5]

更重要的是,Li et al. (2024) 的研究还发现:RAG 与长上下文方案的回答,在超过 60% 的查询上完全一致。这意味着对于大多数"不复杂"的问题,RAG 已能以极低成本达到与长上下文相同的效果。

对于日均请求量数十万级的企业应用而言,这个成本差距决定了两种方案在商业上的可行性是否存在本质区别。

📊 成本小结:对成本敏感的场景,RAG 几乎没有替代方案。60% 以上的查询用 RAG 即可以极低成本达到相同效果;剩余复杂查询再考虑引入长上下文。


5. RAG 的不可替代性

除上述三个量化维度外,RAG 还具备若干长上下文方案从根本上无法替代的特性:

规模约束

企业知识库动辄数百万文档、数十亿 token,任何现有模型的上下文窗口都无法覆盖。这不是模型能力问题,而是物理与经济的硬约束。即便窗口扩展到 1000 万 token,对于真实企业场景仍然不够。

实时性

模型训练有截止日期,参数化知识无法实时更新。RAG 检索的外部知识库可以随时更新,这是长上下文方案的根本局限。

可解释性与合规溯源

RAG 可以返回"答案来自第 X 号文档第 Y 段"的精确来源,在法律、医疗、金融等合规场景中,答案溯源往往是监管硬要求,而长上下文方案的生成过程对此无能为力。


6. RAG 的演化方向

RAG 本身也在快速进化,不再是简单的"分块 + 向量检索"流水线:

传统 RAG 现代 RAG
固定分块 语义分块 / 层级索引
单路向量检索 混合检索(向量 + BM25)
一次检索 多跳推理检索(Agentic RAG)
被动检索 主动判断"是否需要检索"

Agentic RAG 与混合路由

目前最有活力的方向是 Agentic RAG 与混合路由策略。Li et al. 在 EMNLP 2024 提出的 SELF-ROUTE 方法表明,让模型自主判断是否需要完整上下文还是聚焦检索,可以在提升整体准确率的同时显著降低计算成本。

路由逻辑:

简单的事实查询      →  RAG(低成本,快速)
复杂多跳推理任务    →  长上下文(高准确率,高成本)

LlamaIndex 的 "Small-to-Big Retrieval" 模式体现了类似思路:用细粒度分块做精确检索,再扩展到更大的上下文窗口做推理——将两者的优势结合,而非非此即彼。


7. 选型决策框架

综合以上分析,给出一个可操作的场景选型框架。LaRA的研究结论也印证了这一判断:没有放之四海而皆准的方案,最优选择取决于模型规模、任务类型、上下文长度和检索质量等多重因素。

场景描述 RAG 长上下文
文档 < 几十篇,总量 < 100K token 可用 ✅ 推荐
文档数万篇以上的大型知识库 ✅ 推荐 ❌ 无法覆盖
需要实时更新的动态知识 ✅ 推荐 ❌ 受训练截止限制
对成本高度敏感的高频查询 ✅ 推荐 ❌ 成本过高
需要精确答案溯源(合规场景) ✅ 推荐 ❌ 无溯源能力
跨文档综合推理(一次性任务) 可用 ✅ 更强
复杂多跳推理 + 大规模知识库 ✅ Agentic RAG 混合路由

对于大多数企业知识库问答场景,当前最合理的架构是:RAG 作为默认路径,长上下文作为复杂推理的兜底,通过智能路由在二者之间动态切换。


8. 结论

长上下文模型与 RAG 不是替代关系,而是互补关系。更准确的表述是:长上下文替代的是简单 RAG(小规模、低频、一次性任务),而复杂的 Agentic RAG 正在成为构建企业级 AI 应用的核心基础设施。

RAG 的终点不是消亡,而是从一个"知识补丁方案"演进为模型与外部世界交互的标准接口。它解决的不仅是上下文长度问题,更是规模、成本、实时性与合规可溯源等长上下文方案根本无法覆盖的工程约束。

对于从事企业 AI 应用开发的工程师,建议的实践路径是:先用 RAG 建立基线,对准确率不足的复杂查询引入混合路由,逐步向 Agentic RAG 演化——而不是为了"先进性"直接拥抱长上下文方案。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐