RAG评测！如何确保AI答案不是“瞎编“，而是查资料来的真实信息？

程序员王饱饱

74人浏览 · 2026-05-13 20:20:55

程序员王饱饱 · 2026-05-13 20:20:55 发布

本文深入探讨了如何通过RAG评测确保知识检索生成的答案准确、有信息量。文章重点阐述了评测集构建的关键步骤，包括文档筛选、上下文选取、问答生成、问题改写和质量评估，并提出了多场景、多类型问题的设计方法。此外，还详细介绍了评估指标的选取，涵盖检索指标、生成指标和性能指标，强调结合业务场景选择合适的指标。评测集的构建需要充足的数据分析和真实用户沟通，以确保评测的有效性和实用性。

如何判断知识检索生成的答案是查资料来的还是AI瞎编？

RAG评测可以确保生成的文本准确、有信息量，能够有效利用到知识库中的信息。它对于提升用户体验、增强系统可信度以及促进模型的迭代优化至关重要。

根据我们的实践经验，最重要的是评测集的构建，需要对原始数据做好充足分析，并未要和真实用户深入沟通。评测集的构成要有业务上的解释。其次是评估指标的选取，要结合具体的业务场景选择合适的指标。

评测集构建

构建评测集首先要对输入数据进行分层分类，可以从业务层面和数据特征进行设计。构建多场景、多类型的问题，有助于发现薄弱点。

我们将评测集分为3类：

事实型问题：问题通常有唯一或确定答案，答案直接存在于检索到的上下文中。

推理型问题（需要逻辑推理）：答案不能直接从上下文中提取，需结合多信息点推理，需要模型理解上下文中的隐含关系。

多跳查询问题（需要多步推理）：答案需要结合多个上下文片段进行多步推理，问题中的信息点可能分散在不同文档或段落中。

接下来就是评测集的构建，我们将构建过程分为5步：

1、文档筛选

我们按照业务分类的重要性等比例缩放筛选文档，而不是采取随机的方式。

2、上下文选取

从数据格式来看，文本、表格、图片、跨页、超长内容、多格式组合等，所有格式都要覆盖。知识文档中表格出现的概率很大，同时表格的类型、样式种类也很多，对解析能力有较高要求。

3、问答生成

使用大模型辅助生成 + 人工编写的方式构建评测集。普通文本格式的上下文，使用大模型来生成问答时，每个上下文自动生成3个问题和参考答案。表格、图片等格式的问答需要人工构建。

问答生成和上下文选取建议：

减少判断类、二选一的问题，召回不准模型也可能答对。
不要领域行业内比较通识的问题，模型不用召回就能答对。
问题要基于完整的上下文，不能只基于一个片段，避免召回评估不准确。
问题与答案、上下文之间重复的关键字要少。
宽泛的问题要给出详细的答案，避免使用总结性的上下文。
标准答案尽量贴近原文，不要有冗余信息，否则影响答准率的评估。
上下文尽量在同一知识库，减少多来源召回。

4、问题改写

使用大模型辅助改写 + 人工改写的方式构建评测集。为什么需要改写？因为模型生成的初始问题一般比较简单，通过改写可以提升问题难度。例如同义词、关键词的替换。

我们使用的问题改写方式：

逻辑推理：将给定的问题改写为需要一次或多次推理的问题。
补充场景条件：在问题前加入一些具体的情境，这种改写更加易于理解贴近真实场景。

5、质量评估

对生成的问答进行自动化和人工评估，过滤掉低质量的问答。

我们使用裁判模型，从以下维度进行打分：

基于性：问题是否可以从给定的上下文中回答？
独立性：问题是否独立且在领域知识的情况下无需任何上下文即可理解？
忠实性：参考答案是够基于给定的上下文？
相关性：参考答案是够回答了提供的问题？

评估指标选取

评估指标包含检索指标、生成指标、性能指标三大类。

检索指标：

1、上下文准确性：衡量有助于根据问题得出的标准回答的上下文排名是否靠前。

2、上下文召回率：衡量标准回答能否归因于上下文。

3、命中率：判断标准上下文是否包含在检索的上下文中。

4、上下文相关性：衡量上下文与问题的相关性。

5、平均倒数排名（MRR）：衡量检索到的标准上下文在上下文中排名是否靠前。

我们使用命中率和平均倒数排名指标：

命中率：通过ROUGE-L算法计算检索上下文和标准上下文之间的相似度（范围0-1），0.7以上为通过，最终统计评测集和检索正确的用例占比。

平均倒数排名（MRR）：评测结果可以很好的反馈项目中用到的Rerank能力和检索能力，是一个比较有效的评估指标。

生成指标：

1、回答正确性：衡量回答的正确性，包括与标准回答的语义相似度和事实相似度。

2、回答相关性：衡量回答与问题的相关性。

3、回答语义相似度：衡量回答与标准回答的语义相似度。

4、忠实性：衡量回答与检索到的上下文之间的事实一致性，是否基于上下文生成。

我们使用回答正确性、忠实性：

回答正确性：使用裁判模型对比系统回答和标准回答，从核心内容的准确性，逻辑完整性等维度对系统回答进行打分（范围0-5分），4分及以上为通过，最终统计评测集中回答正确的用例占比。

忠实性：评测集中回答忠实性普遍接近1（越接近1越好），只要提示词写得不差，如今的模型能力基本不会有问题，大部分场景可以忽略这个指标。

性能指标：

1、检索延迟：接受请求到检索完成所需的时间。

2、检索吞吐量：检索子系统每秒能够处理的请求数。

3、端到端延迟：接受请求到回答所需的时间。

4、端到端吞吐量：RAG系统每秒能够处理的请求数。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。