前段时间有个学员来找我复盘,他面了京东的大模型工程岗,项目里做了一套金融保险公司的 RAG 问答系统。他说被面试官问到怀疑人生。他的 RAG 系统在检索阶段做得相当不错——向量召回精准,重排序也加了,Top-5 的文档质量很高。但面试官偏偏不问检索,直接奔着 Prompt 去了。

对话是这样的:

面试官:“你的检索结果准,那最终答案还是有幻觉,问题出在哪?”

他:“可能是检索召回的文档不够相关……”

面试官:“我刚说了检索结果很准。再想想。”

他沉默了几秒:“是不是模型能力不够强?”

面试官摇摇头:“我给你换 GPT-4,幻觉还在。你的 System Prompt 和 User Prompt 是怎么分工的?”

他:“System Prompt 写了角色,User Prompt 传了检索片段和用户问题……”

面试官:“那你的约束怎么写的?模型怎么知道它只能用你传进去的文档,不能用自己的知识?”

他彻底卡住了,支支吾吾说不清楚。

面试官最后说了一句话,让他记了很久:“Prompt 是 RAG 系统的最后一道防线,检索把对的文档找回来,Prompt 决定模型用不用这些文档。

今天我们把 RAG 系统的 Prompt 工程从头到尾拆清楚。

一、RAG Prompt 的独特挑战:它和普通 Prompt 不一样

很多人把 RAG Prompt 当成普通 Prompt 来写,这是根本性的认知错误。

普通 LLM Prompt 的逻辑很简单:你问一个问题,模型用自己训练时积累的参数知识来回答。模型的知识边界就是答案边界,这是完全合理的设计。

RAG Prompt 的逻辑完全不同:你传进去问题 + 检索到的文档片段,要求模型只用这些文档片段来回答,不能用参数知识。

这里有一个根本性的矛盾:LLM 在预训练阶段见过海量文本,脑子里已经存了大量知识。当你给它一段检索文档,问它问题,它的默认行为是:把检索文档的信息和自己的参数知识混合使用

这个混合,就是幻觉的来源。

拿我们项目举例。这是一个金融保险公司的 RAG 问答系统,语料库包含 5000 份保险合同和理赔文档。用户问:“重大疾病险的等待期是多久?”

检索系统召回了一份特定产品的条款,明确写着等待期 180 天。但如果 Prompt 写得不好,模型可能回答 90 天——因为市场上有些产品确实是 90 天,这个信息在模型预训练数据里存在。模型没有意识到它应该只看你给它的那份文档,它默默地把两个知识源混合了。

用户拿到错误的等待期信息,去理赔,被拒。这是真实的业务风险。

所以 RAG Prompt 的核心任务是:切断模型对参数知识的依赖,强制它只从检索文档里找答案

那具体怎么解决这个混合问题?从 System Prompt 的结构设计开始说起。

RAG专用Prompt结构设计

二、System Prompt 设计:角色 + 规则 + 负面约束

System Prompt 是整个 RAG Prompt 架构的基础层,它做三件事:定义角色、设置规则、写明负面约束。

先看我们在保险 RAG 项目中实际使用的 System Prompt:

你是金融保险公司的智能客服助手。 你只能基于提供的参考文档回答用户问题。  回答规则: 1. 只使用参考文档中明确提到的信息,不要添加文档中没有的内容 2. 如果参考文档中没有足够信息回答问题,直接说"根据现有资料,我无法完整回答这个问题",不要猜测 3. 回答时引用来源,格式:[来源:文档名称第X页] 4. 涉及金额、时限等关键数字,必须与文档原文完全一致 5. 不确定的信息前加"根据文档显示",确定的信息直接陈述

这段 System Prompt 的每一条都有其设计逻辑,我逐条解释。

角色定义:明确身份边界

“你是金融保险公司的智能客服助手”——这句话不只是客套,它在给模型划定知识边界。一个保险客服助手,不应该去聊股票行情,不应该去聊其他公司的产品。角色定义是第一层过滤。

紧接着"你只能基于提供的参考文档回答用户问题",这是整个 System Prompt 最重要的一句话。注意用词是"只能",不是"尽量",不是"主要",是"只能"。这个词的强度直接影响模型的行为。

规则第1条:正向约束

“只使用参考文档中明确提到的信息”——这是正向约束,告诉模型能做什么。关键词是"明确提到",不是"相关的",不是"可以推断的",是"明确提到"。这把推理空间大幅压缩,强迫模型找原文,而不是推断。

规则第2条:拒绝兜底

当检索文档里真的没有答案时,模型该怎么办?这条规则给了明确指令:承认不知道,不猜测。很多初级写法里没有这条,导致模型在文档信息不足时,会悄悄调用参数知识来"补全"答案,这正是幻觉的高发场景。

规则第3条:引用要求(反幻觉的核武器)

强制引用来源,格式是 [来源:文档名称第X页],这条规则的效果在后面的数据对比里你会看到。它的原理是:模型要写出引用,必须真的在文档里找到对应内容。如果文档里没有,它无法凭空捏造一个引用(当然极少数情况也会捏造,但概率大幅下降)。引用要求本质上是给模型增加了一个"验证步骤",它必须先找到原文,再写回答。

规则第4条:数字核实

金融保险场景里,数字错误是最危险的。等待期、保额、免赔额、理赔时限——任何一个数字写错都可能产生纠纷。这条规则把数字单独列出来,加强约束。

规则第5条:置信度标记

"根据文档显示"vs 直接陈述,这是一种微妙但有用的设计。它让回答本身携带置信度信息,用户可以据此判断信息的可靠程度。

System Prompt 把规则定好了,User Prompt 要解决的是如何把每次请求的内容结构化地传进去。

三、User Prompt 设计:问题 + 上下文的结构化组织

System Prompt 设好了基础规则,User Prompt 负责把每次请求的具体内容传进去:检索到的文档片段 + 用户问题。

关键点在于格式化。你不能把五段检索文档直接拼一起扔给模型,模型会搞不清楚哪段是哪段。

看我们项目的实际实现:

def build_rag_prompt(query: str, retrieved_docs: list) -> str:     # 格式化参考文档     context_parts = []     for i, doc in enumerate(retrieved_docs, 1):         context_parts.append(             f"参考文档{i}(来自:{doc['source']}):\n{doc['text']}"         )     context = "\n\n".join(context_parts)      user_prompt = f"""参考文档: {context}  用户问题:{query}  请基于以上参考文档回答用户问题。如果文档中没有足够信息,请如实说明。"""     return user_prompt

这段代码的设计有几个细节值得说明。

第一,每段文档标了编号和来源。参考文档1(来自:XX产品条款第3页) 这样的格式,让模型在引用时有依据,不用自己猜来源名称。

第二,文档之间用双换行分隔。这比单换行更清晰,减少文档边界模糊带来的混淆。

第三,问题放在文档后面,不放在前面。这个顺序是有讲究的。大量实验表明,先文档后问题的顺序,比先问题后文档的顺序,幻觉率更低。原因可能是:先文档让模型先把上下文"读进去",再看问题时有了基础,而先问题可能激活模型的参数知识,导致后续处理文档时仍受参数知识干扰。

第四,结尾的指令再次重申了"基于文档"和"没有就说没有"。System Prompt 的规则有时候在长上下文中会被稀释,User Prompt 末尾再提一次,起到强化作用。

格式定好了,下一步是弄清楚约束措辞本身的强弱差异有多大。

四、约束写法的强弱对比:一字之差,幻觉率相差一倍

System Prompt 里的约束,措辞不同,效果差异极大。这不是玄学,是可以量化的。

我们在 200 条测试样本上做了系统对比,来看不同约束写法的效果:

弱约束写法:

参考以上文档回答用户问题。

这句话看似没问题,但"参考"这个词给了模型很大的自由度。“参考"意味着"可以不完全依赖”,模型于是把参数知识混进来,幻觉率 18%。

中等约束写法:

请主要基于参考文档回答问题,尽量不要添加文档之外的内容。

加了"主要"和"尽量",但这两个词依然是软性约束。模型理解为:如果文档不够用,我可以补充一点自己的知识。幻觉率 12%,有改善但不够好。

强约束写法:

只能使用参考文档中明确提到的信息,文档中未提及的内容不得回答。

"只能"和"不得"是强制性语气,没有任何弹性空间。幻觉率 9%。

强约束 + 引用要求:

只能使用参考文档中明确提到的信息,文档中未提及的内容不得回答。 每一个陈述必须标注来源,格式:[来源:文档名称第X页]。

加上引用要求后,模型被迫先找原文,再写答案。幻觉率降至 7%,有引用的回答占比从 32% 升至 91%。

这里有一个有意思的 badcase,可以说明问题。

测试集里有一条问题:"意外险的等待期是多久?"检索系统召回了 A 产品的条款(等待期 0 天,意外险通常无等待期)和 B 产品的条款(等待期 15 天,这个产品比较特殊)。

弱约束下,模型回答:“意外险通常没有等待期,但也有产品设置 30 天等待期。”——30 天这个数字来自哪里?是模型参数知识里其他产品的数据,文档里根本没有。

强约束 + 引用要求下,模型回答:“根据文档显示,A产品意外险等待期为 0 天 [来源:A产品条款第2页],B产品意外险等待期为 15 天 [来源:B产品条款第3页]。如需了解具体产品,请告知产品名称。”——精准,有引用,拒绝了编造。

约束写法解决了正常长度输入的问题,但当检索结果很多、上下文变得很长时,还有另一个挑战需要处理。

五、长上下文压缩策略:超长时怎么处理

我们项目里,用户有时会问跨产品的比较类问题,或者问涉及多个条款的复杂问题。检索系统可能召回 10-15 个片段,总 token 数轻松超过 32K。

超长上下文带来两个问题:第一,超过模型的上下文窗口,直接报错;第二,即使没超,"迷失在中间"现象(Lost in the Middle)——模型对上下文中间部分的注意力显著弱于开头和结尾,导致关键信息被忽略。

我们用了三种策略,根据场景选择:

策略一:截断法

保留相关性最高的 Top-3 片段,其余丢弃。实现最简单,延迟几乎不增加,但信息损失大,适合对速度敏感、问题比较简单的场景。

策略二:压缩法(我们主要用的)

用 LLM 把每个片段压缩为关键信息摘要,保留核心内容,剔除冗余。信息损失小,但增加了一次 LLM 调用的延迟。看具体实现:

def compress_context(docs: list, query: str, max_tokens: int = 2000) -> str:     """超出token限制时,压缩每个文档片段"""     compressed = []     for doc in docs:         if len(doc['text']) > 500:             # 用LLM提炼关键信息             summary = llm.invoke(                 f"从以下文本中提炼与问题'{query}'相关的关键信息(50字以内):\n{doc['text']}"             )             compressed.append(summary.content)         else:             compressed.append(doc['text'])     return "\n\n".join(compressed)

注意压缩提示词里有 '{query}'——这是 query-aware 压缩,不是通用摘要。模型会优先保留与用户问题相关的信息,而不是文档本身认为重要的信息。这个细节影响很大,用通用摘要的话,压缩出来的内容往往是文档的前几句(因为那里通常是主题句),而不是用户真正需要的那部分。

策略三:分批处理

把 N 个文档片段分成几批,每批单独问模型,得到多个中间答案,最后再用一次 LLM 把中间答案合并成最终答案。适合超长文档,但延迟最高,也最复杂。我们在用户问"帮我总结所有产品的等待期规定"这类问题时才启用。

Prompt优化前后幻觉率对比

三种策略加起来,超过 32K token 的请求处理成功率从 45% 提升到 92%。另外 8% 基本是极端情况(单个文档本身就超长,无法有效压缩),我们对这类请求做了降级处理,返回"该文档过长,建议直接查阅原文"。

长上下文处理好之后,整个 Prompt 体系还需要一套系统的测试方法来验证效果,不能靠感觉。

六、Prompt 迭代测试方法:怎么知道你的 Prompt 好不好

写完 Prompt 不能靠感觉判断好坏,必须建立系统的评测机制。

我们的做法是建立 Prompt 版本库,用 Git 管理每一版 Prompt,提交记录里写清楚改了什么、为什么改、改后的测试指标变化。这样几个月后回头看,能清楚地看到每次优化的效果,也能方便地回滚。

评测指标:忠实度(Faithfulness)

衡量 RAG 系统幻觉的核心指标是忠实度——模型的回答有多大比例可以在检索文档里找到原文依据。

我们在 200 条测试样本上计算忠实度,样本覆盖了:

  • 文档里有明确答案的问题(应该回答正确)
  • 文档里只有部分答案的问题(应该部分回答,说明缺失)
  • 文档里完全没有答案的问题(应该拒绝回答)

三类样本都要测,光测第一类是不够的。很多团队在"文档有答案"的情况下表现不错,但在"文档没答案"时模型会编造,这才是最危险的场景。

典型 badcase 复盘

测试过程中发现一个高频 badcase:用户问"等待期多久",模型回答时混入了其他产品的数据。

复盘下来,原因有三层:

第一层,检索召回了多个产品的条款片段,模型混淆了。这是检索层的问题,但 Prompt 也要应对这种情况。

第二层,Prompt 里没有要求模型区分不同产品分开回答。加了"如果文档涉及多个产品,请分产品分别回答"之后,混淆大幅减少。

第三层,引用要求不够细。之前要求"标注文档名称",但文档名称里有时候没有产品名称,加了"引用时必须包含产品名称"之后,模型被迫把产品信息搞清楚才能写引用。

这种层层深挖的 badcase 复盘,是 Prompt 迭代最有价值的工作。每个 badcase 背后都有原因,找到原因,加一条规则,验证效果,这就是 Prompt 工程的核心循环。

掌握了这套设计和测试方法,再遇到面试官追问 RAG Prompt 的问题,就可以有条理地把这几个层次都讲清楚。

RAG上下文长度处理策略

七、面试怎么答 RAG Prompt 设计?

面试官问这个问题,考察的是三个层次的理解:知道问题在哪、知道怎么设计、知道怎么验证。

第一层:说清楚 RAG Prompt 的独特性

不要一上来就讲技术细节。先定性:RAG Prompt 和普通 Prompt 的根本差异在于,普通 Prompt 让模型用参数知识回答,RAG Prompt 要切断参数知识依赖,强制模型只用检索文档。这个前提讲清楚,面试官知道你理解问题的本质。

第二层:讲 System/User 分工原则

System Prompt 管"规则",是跨所有请求不变的:角色定义、回答约束、引用要求、拒绝策略。User Prompt 管"内容",是每次请求不同的:这次检索到的文档、这次用户的问题。

分工清晰有两个好处:一是逻辑清晰,调试容易;二是 System Prompt 可以复用,修改规则时不用动 User Prompt 的构建逻辑。

第三层:讲约束强度和引用要求

面试官通常会追问:你具体怎么写约束?这里要把"弱约束 vs 强约束"的对比讲清楚,然后重点讲引用要求。引用要求是 RAG Prompt 里反幻觉效果最显著的单一手段,要说清楚原理:强制引用迫使模型先找原文,无法凭空编造。

第四层:讲长上下文处理

很多候选人讲到第三层就停了,能讲到长上下文处理的人不多。这里说三个策略(截断、压缩、分批),以及 query-aware 压缩的细节,是很好的加分项。

第五层:讲评测方法

如果面试还有时间,补一句 Prompt 迭代怎么测:建版本库、200 条测试集、跑忠实度指标、复盘 badcase。这说明你不是靠感觉写 Prompt,而是有系统方法。能讲到这一层,基本稳了。

一个完整的回答框架(60 秒版本):

“RAG Prompt 的核心挑战是切断模型对参数知识的依赖。我们 System Prompt 负责三件事:角色定义、强约束(只能用文档,不得猜测)、引用要求(每句话必须标来源)。User Prompt 负责格式化检索文档和用户问题。约束写法上,'只能’比’尽量’效果差很多,加引用要求后幻觉率从 18% 降到 7%。上下文超长时,我们用 query-aware 压缩,根据用户问题提炼每个片段的关键信息,处理成功率从 45% 提到 92%。整个 Prompt 迭代用版本库管理,在测试集上跑忠实度指标,通过 badcase 复盘找问题。”

总结

RAG Prompt 设计不是写一段文字那么简单。System Prompt 是规则层,负责角色定义和约束体系;User Prompt 是内容层,负责格式化检索文档和用户问题。约束要用强制性语气,"只能"和"不得"比"尽量"和"主要"有效得多。引用要求是反幻觉效果最显著的单一手段,强制模型先找原文才能写答案。长上下文用 query-aware 压缩来处理,保留与用户问题最相关的信息。整个体系要用测试集和忠实度指标来量化,用 badcase 复盘来持续迭代。

检索把对的文档找回来,Prompt 决定模型用不用这些文档。两者缺一不可。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐