大模型幻觉量化评估指南:用什么指标来衡量“一本正经地胡说八道“?
关于作者
- 深耕领域:大语言模型开发 / RAG 知识库 / AI Agent 落地 / 模型微调
- 技术栈:Python | RAG (LangChain / Dify + Milvus) | FastAPI + Docker
- 工程能力:专注模型工程化部署、知识库构建与优化,擅长全流程解决方案
「让 AI 交互更智能,让技术落地更高效」
欢迎技术探讨与项目合作,解锁大模型与智能交互的无限可能!
大模型幻觉量化评估指南:用什么指标来衡量"一本正经地胡说八道"?
当你问一个大模型"秦始皇统一六国是在哪一年?“,它回答"公元前221年”——这是正确的。
当你问它"秦始皇最喜欢吃什么水果?“,它回答"秦始皇最爱吃荔枝,因为据说荔枝最早在秦朝就有记载”——这听起来很有道理,但实际上是在一本正经地胡说八道。这种现象,就是大模型领域常说的"幻觉"(Hallucination)。大模型为什么会产生幻觉?产生了多少幻觉?怎么量化评估这些幻觉?这些问题,是每一个在实际项目中使用大模型的人必须面对的。
本文将系统性地介绍大模型幻觉的成因、分类,以及业界主流的量化评估指标和基准测试。
一、什么是大模型幻觉?
1.1 幻觉的本质
在人工智能领域,"幻觉"这个词听起来有些神秘,但它描述的现象其实非常直白:大模型生成了看似合理但实际上不正确、不完整或毫无根据的内容。
根据学术界的正式定义,幻觉指的是大模型生成的内容与输入提示不一致,或者无法被可靠的知识源验证的情况。这种现象在自然语言生成任务中尤为突出,因为大模型基于概率进行文本生成,它们擅长产生流畅、连贯、看起来很专业的文字,但这并不代表生成的内容是真实可靠的。
你可以把大模型理解为一个"超级复读机"——它学习了互联网上海量文本,掌握了语言的表面规律,能够流利地"拼凑"出各种句子。但它并不真正"理解"这些句子的含义,也不具备严格的事实记忆能力。当被问到它不知道的知识时,它会根据自己的"语感"生成一个听起来合理的答案,而不是老实说"我不知道"。
1.2 为什么大模型会产生幻觉?
大模型产生幻觉的原因是多方面的,理解这些原因有助于更好地设计和选择评估指标。
训练数据的局限性
大模型的知识来源于训练数据,而训练数据本身是不完美的。互联网上的文本包含大量错误信息、过时信息和相互矛盾的陈述。大模型在训练过程中会"记住"这些信息,但无法区分哪些是真实的、哪些是虚假的。更糟糕的是,大模型倾向于记住出现频率更高的信息,即使这些信息是错误的。
概率生成的本质
大模型本质上是一个概率模型,它根据前文的token序列预测下一个最可能的token。这种机制决定了它永远在"猜测"下一个词,而不是在"回忆"确切的事实。当遇到训练数据中很少出现的知识时,模型就会依靠这种概率推断来生成内容,导致幻觉的产生。
上下文理解的局限
虽然大模型展现了强大的上下文理解能力,但它们仍然无法真正"理解"文本的含义。这种局限性会导致模型在处理模糊或多义的表达时产生错误的推理,进而生成与原始意图不符的内容。
提示工程的复杂性
用户输入的提示可能包含隐含假设、模糊表述或错误前提。大模型有时会"顺着"这些提示的逻辑生成内容,即使这些内容本身是不正确的。
1.3 幻觉的两种类型
根据幻觉产生的原因和表现,学术界通常将其分为两种主要类型:
内在幻觉(Intrinsic Hallucination)
内在幻觉是指模型生成的内容与源输入(prompt)直接矛盾的情况。比如,用户问"秦始皇的首都设在现在的哪个城市?“,模型回答"西安”(正确)然后补充说"但当时叫长安"(正确),最后却说"西安古称洛阳"——这与前面关于西安的表述自相矛盾。内在幻觉的特点是矛盾性明显,容易被检测。
外在幻觉(Extrinsic Hallucination)
外在幻觉是指模型生成的内容无法被验证真假的情况——既不能被现有知识源确认,也不能被否认。比如,“据传秦始皇每天早餐都要喝一碗鹿血”。这可能是编造的,但也可能是某个古籍中确实记载的。外部幻觉更难以检测,因为缺乏明确的参照标准来验证其真实性。
1.4 幻觉为什么难以避免?
值得注意的是,幻觉问题目前无法被完全解决,只能被缓解。
根据OpenAI官方文档的解释,大模型之所以会产生幻觉,部分原因在于它们的训练目标——预测下一个最可能的token。这个目标本身就鼓励模型进行推断和"创作",而不是严格地回忆事实。模型需要在"说不知道"和"猜一个答案"之间找到平衡,但这个平衡点很难精确把控。
另一个关键因素是知识的边界问题。大模型的知识不是以"事实"为单位存储的,而是以"参数化的模式"存储的。这意味着模型对某些知识只有模糊的印象,能够在不熟悉的领域自信地表达,但具体的细节可能是错误的。
二、幻觉评估的核心挑战
在介绍具体指标之前,我们需要理解幻觉评估面临的核心挑战。
2.1 主观与客观的边界
幻觉评估的首要挑战在于"真实性"本身往往不是绝对的。很多情况下,一个陈述是否"真实"取决于具体的上下文和知识来源。
考虑这个例子:“爱因斯坦在1905年发表了相对论。”
这看起来是一个无可争议的事实。但如果深入追问,1905年爱因斯坦发表的是"狭义相对论",而"广义相对论"是1915年发表的。那么上面的陈述在严格意义上是"不精确的",但大多数人会认为它是可接受的简化。
这种模糊性使得幻觉的判定变得复杂。评估系统需要决定:在哪个精度级别上,一个陈述被认为是"幻觉"?
2.2 知识源的可靠性
验证大模型生成的陈述需要参照可靠的知识源。但知识源本身也可能存在争议、错误或更新不及时的问题。
例如,大模型可能会生成这样的内容:"截至2023年,人类已经发现了超过5000颗系外行星。"如果知识源的更新速度不同步,评估结果就会产生差异。
此外,某些领域(如历史、哲学)本身就缺乏统一的"标准答案",评估的客观性会受到挑战。
2.3 长文本的复杂性
当大模型生成长文本时,幻觉的检测变得更加复杂。
考虑一个生成传记的场景:模型生成了一篇2000字的人物传记,其中包含了大约50个具体的事实陈述。要评估这篇传记的真实性,需要逐一验证这50个陈述是否准确。这不仅耗时,而且对于某些细节(如某年某月某日做了什么具体的事),可能根本没有现成的资料可供核对。
这就是为什么FActScore等评估方法会引入"原子化事实"(Atomic Facts)的概念,将长文本拆解为最小的事实单元进行评估。
三、主流幻觉量化评估指标详解
3.1 TruthfulQA:对抗性真实性的基准测试
TruthfulQA 是由 Anthropic 和 UC Berkeley 的研究者于2022年发布的基准测试,专门用于评估大模型在面对人类常见误解时的真实性。
设计理念
TruthfulQA 的独特之处在于它的题目是专门设计的,涵盖了人类容易产生误解的领域——包括健康、法律、金融、 conspiracies等。测试的不是模型知道多少真理,而是模型在面对常见误解时能否保持真实。
例如,TruthfulQA 可能会问:“喝热水可以帮助减肥吗?” 或者 “维生素C能不能预防感冒?” 这些问题看起来很简单,但很多人都有错误的认识。模型需要能够准确回答,而不是迎合这些常见的误解。
评估指标
TruthfulQA 使用多选题的形式,要求模型从多个选项中选择正确答案。评估指标包括:
- 真实率(Truthfulness Rate):模型选择正确答案的百分比
- 信息量分数(InfoScore):模型给出有用且正确信息的程度
根据官方数据,不同模型在 TruthfulQA 上的表现差异显著。GPT-4 的真实率约为59%,而人类测试者的分数约为94%。这说明即使是最先进的大模型,在对抗性真实问题上仍有很大提升空间。
3.2 HaluEval:大规模幻觉评估基准
HaluEval 是由中国人民大学、北航等机构的研究者于2023年发布的幻觉评估基准,是目前最全面的幻觉评估数据集之一。
数据集构成
HaluEval 包含了35,000个经过人工标注的幻觉样本,涵盖四大任务类型:
- 问答任务(QA):10,000个样本,基于HotpotQA数据集
- 对话任务(Dialogue):10,000个样本,基于OpenDialKG数据集
- 摘要任务(Summarization):10,000个样本,基于CNN/Daily Mail数据集
- 通用任务(General):5,000个样本,基于Alpaca的用户查询
评估方法
HaluEval 采用了一种巧妙的评估策略:对于每个原始问题,随机选择真实答案或幻觉答案,让模型判断哪个是幻觉。这种方法绕过了"无法获取标准答案"的问题,专注于模型识别幻觉的能力。
评估指标包括:
- 幻觉识别准确率:模型正确识别幻觉内容的能力
- 假阳性率:真实内容被错误标记为幻觉的比例
- 假阴性率:幻觉内容被遗漏的比例
根据HaluEval论文的实验数据,在问答任务中,ChatGPT的幻觉识别准确率约为40%,意味着它只能识别出约四成的幻觉内容,仍有相当大的提升空间。
3.3 FActScore:原子化事实评估
FActScore(Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation)是由华盛顿大学、UMass Amherst 和 Meta AI 的研究者于2023年发布的,专门用于评估长文本生成中的事实性。
核心思想
FActScore 的创新之处在于将长文本分解为"原子事实"(Atomic Facts),然后逐一验证每个原子事实的真实性。
例如,如果模型生成了一段话:“爱因斯坦1879年出生于德国乌尔姆,1905年发表了相对论,1921年获得诺贝尔物理学奖,1955年在美国新泽西州普林斯顿去世。”
FActScore 会将其分解为5个原子事实:
- 爱因斯坦1879年出生于德国乌尔姆
- 爱因斯坦1905年发表了相对论
- 爱因斯坦1921年获得诺贝尔物理学奖
- 爱因斯坦1955年去世
- 爱因斯坦去世地点是美国新泽西州普林斯顿
然后使用知识源(如维基百科)验证每个原子事实。
评估指标
FActScore 的核心指标是FActScore分数,即被正确支持的事实占总原子事实数的百分比。
根据论文报告,在生成传记类长文本时,不同模型的FActScore差异明显:
- GPT-4:约85%
- ChatGPT:约75%
- InstructGPT:约65%
这说明即使是最先进的模型,仍有15%-35%的原子事实可能是幻觉。
3.4 RAGAS:检索增强生成的评估框架
RAGAS(Retrieval Augmented Generation Assessment)是专门为检索增强生成(RAG)系统设计的评估框架,提供了多个与幻觉相关的指标。
RAG 系统通过先检索相关文档再生成答案的方式来减少幻觉。RAGAS 评估的是整个 RAG 流程的输出质量。
核心指标
Faithfulness(忠实度)
忠实度衡量生成答案与给定上下文的事实一致性。计算方法如下:
- 给定问题和检索到的上下文
- 让LLM从答案中提取所有事实陈述
- 让LLM判断每个事实陈述是否能从上下文中推导出来
- 忠实度 = (被支持的陈述数 / 总陈述数)× 100%
根据 RAGAS 官方文档,忠实度是一个0到1之间的分数,越高越好。如果答案是基于检索到的文档准确生成的,忠实度应该接近1。
Answer Relevancy(答案相关性)
答案相关性衡量生成的答案对原始问题的回答程度。计算方法比较巧妙:
- 给定生成的答案
- 让LLM根据答案反向生成N个问题
- 计算原始问题与生成问题之间的余弦相似度
- 取平均相似度作为答案相关性分数
直观理解是:如果一个答案真正回答了问题,那么从这个答案应该能够推导出原问题。RAGAS文档指出,当答案准确但不够直接时,相关性分数会降低。
Context Precision(上下文精确度)
上下文精确度衡量检索到的文档中有多少与问题相关。虽然不是直接衡量幻觉的指标,但它影响了生成内容的可靠性——如果检索到了错误或不相关的内容,生成器就更可能产生幻觉。
Context Recall(上下文召回率)
上下文召回率衡量检索系统是否找到了所有回答问题所需的相关信息。这是通过比较检索到的上下文与人工标注的"完美答案"来计算的。
3.5 HalluLens:外在幻觉专项评估
HalluLens 是由研究者于2025年发布的新一代幻觉评估基准,专门针对外在幻觉进行评估。
三大任务类型
HalluLens 包含三种评估任务:
- PreciseWikiQA:要求模型回答需要精确知识的问题,测试其能否准确拒绝回答不确定的问题
- LongWiki:涉及长篇维基百科内容的生成与评估
- NonExistentEntities:要求模型识别并拒绝回答关于不存在实体的问题
关键指标
HalluLens 引入了多个关键指标来全面评估外在幻觉:
- 准确率(Accuracy):正确识别不存在信息的能力
- 精确率(Precision):在识别为幻觉的内容中,真正是幻觉的比例
- 召回率(Recall):在所有实际幻觉中,被识别出来的比例
- F1分数:精确率和召回率的调和平均
- 错误拒绝率(False Refusal Rate):正确内容被错误标记为幻觉的比例
根据论文数据,在 NonExistentEntities 任务上,不同模型表现差异巨大:GPT-4o 的错误拒绝率仅为0.13%,意味着它几乎不会错误拒绝回答不存在实体的问题,但这也意味着它的幻觉率可能较高。而某些其他模型的错误拒绝率高达80%以上,说明它们过于保守,经常拒绝回答正确的问题。
3.6 LongFact:长文本事实性评估
LongFact 是专门为评估大模型在生成长文本时的事实性而设计的基准测试。
设计特点
LongFact 的问题涵盖38个不同领域,包括历史、科学、法律、医学等。每个问题都需要详细的解释性回答,而非简单的yes/no。
评估时,会使用GPT-4作为裁判,将模型生成的回答拆解为原子事实,然后判断每个事实是否被知识源支持。
评估指标
- Precision@K:在生成的前K个原子事实中,被支持的事实比例
- Recall@K:在所有应被提及的相关事实中,模型实际提及的比例
这种评估方式特别适合评估需要生成长篇内容的场景,如报告生成、内容创作等。
四、其他重要指标与工具
4.1 G-Eval:基于LLM的自动化评估
G-Eval 是由OpenAI研究者提出的评估框架,使用GPT-4来评估大模型输出的质量。
工作原理
G-Eval 采用"思维链评估"(CoT Evaluation)的方法:
- 定义评估维度和评分标准
- 让LLM分析输入和输出
- 逐步推理,给出评分理由
- 最终输出评分
对于幻觉评估,G-Eval 可以被配置为评估"事实一致性"或"忠实度"等维度。
优点与局限
G-Eval 的优点在于它可以利用GPT-4强大的理解能力来评估复杂的文本质量,不需要人工定义复杂的规则。
局限在于它依赖于GPT-4的判断,本身也可能存在幻觉问题——GPT-4可能错误地判断某个陈述是真实的。另外,G-Eval 的成本较高,不适合大规模评估。
4.2 BLEU和ROUGE的局限性
BLEU(Bilingual Evaluation Understudy)和 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是NLP领域传统的文本评估指标,基于生成文本与参考文本的n-gram重叠度来计算相似度。
为什么不适合评估幻觉?
根据2025年发表在arXiv上的研究《Re-evaluating Hallucination Detection in LLMs》,BLEU和ROUGE与人类对事实性的判断相关性较低。
问题在于:两段文本可以有很高的BLEU/ROUGE分数,但内容可能是完全虚构的。例如:
参考文本:“爱因斯坦1905年发表相对论”
生成文本:“爱因斯坦1905年发表量子理论”
这两个句子的BLEU分数可能不低,但内容上存在重要的事实错误。
此外,研究发现BLEU分数受到文本长度的强烈影响——更长的输出倾向于获得更低的BLEU分数,但这并不意味着它们包含更多幻觉。这导致基于BLEU的评估方法存在系统性偏差。
4.3 DeepEval:LLM幻觉检测工具
DeepEval 是由 Confident AI 开发的LLM评估框架,提供了开箱即用的幻觉检测功能。
HallucinationMetric
DeepEval 的 HallucinationMetric 使用"LLM-as-Judge"的方法来检测幻觉:给定上下文和生成的回答,让另一个LLM判断回答中的每个陈述是否与上下文一致。
from deepeval.metrics import HallucinationMetric
from deepeval.test_case import LLMTestCase
metric = HallucinationMetric(threshold=0.5)
test_case = LLMTestCase(
input="秦始皇统一六国是在哪一年?",
actual_output="秦始皇于公元前221年统一六国,建立了秦朝。",
context=["秦始皇,公元前259年-公元前210年,秦朝建立者。"]
)
metric.measure(test_case)
print(metric.score) # 0.0表示存在幻觉,1.0表示完全无幻觉
根据 DeepEval 官方文档,阈值0.5意味着:如果超过50%的上下文被检测为与生成内容矛盾,则认为存在幻觉。
4.4 Vectara’s Hallucination Evaluation Model
Vectara 是一个专注于事实性和幻觉检测的平台,他们发布了开源的幻觉评估模型,专门用于评估RAG系统的输出。
评估方法
Vectara 的模型基于以下原则工作:
- 接收输入问题、检索到的上下文和生成的答案
- 判断答案是否完全由上下文支持
- 识别答案中任何不被上下文支持的部分
- 输出"幻觉率"分数
根据 Vectara 发布的基准测试数据:
- GPT-4 和 GPT-4 Turbo 在文档摘要任务上的幻觉率约为3%
- GPT-3.5 的幻觉率约为39.6%
- Bard(现Gemini)的幻觉率高达91.4%
这些数据来自Vectara的官方博客,说明不同模型在减少幻觉方面存在显著差异。
五、实际项目中的指标选择策略
5.1 根据应用场景选择
不同的应用场景对幻觉的容忍度不同,需要选择相应的评估指标。
高风险场景(医疗、法律、金融)
在这些场景中,幻觉可能导致严重的后果。需要使用最严格的评估标准:
- 使用 TruthfulQA 作为基础真实性的检验
- 使用 FActScore 评估长文本的事实性
- 设置极高的忠实度阈值(如99%以上)
建议的评估流程:首先确保模型在 TruthfulQA 上的表现达到人类水平,然后针对具体领域进行专项评估。
信息检索场景(RAG系统)
RAG系统的核心是"检索+生成",评估重点在于生成内容与检索文档的一致性:
- 使用 RAGAS 的 Faithfulness 指标
- 使用 Vectara 或 DeepEval 的幻觉检测工具
- 关注上下文精确度和召回率
开放式对话场景
对于聊天机器人等开放式对话系统,评估重点在于:
- 模型是否倾向于"过度自信"地回答不确定的问题
- 在遇到知识盲区时是否能恰当地拒绝
- 使用 HalluLens 的 NonExistentEntities 任务评估
5.2 多维度综合评估
单一指标往往无法全面反映模型的幻觉情况。建议采用多维度评估策略:
维度一:知识边界检测
测试模型在面对超出其知识范围的问题时的表现。使用 NonExistentEntities 或类似测试,检查模型是否会编造关于不存在事物或概念的细节。
维度二:事实准确性
使用 FActScore 或原子化事实验证方法,评估模型生成内容的具体事实是否准确。
维度三:一致性检验
检查模型在同一话题的多轮对话中是否保持一致性,以及生成的内容是否与检索到的上下文一致。
维度四:拒绝能力
评估模型在不确定或知识不足时是否能够恰当地拒绝回答,而非随意编造。
5.3 阈值设定建议
根据业界研究和实践经验,以下是各指标的阈值建议:
RAGAS Faithfulness
- 优秀:>= 0.9
- 良好:0.7 - 0.9
- 需改进:< 0.7
FActScore
- 优秀:>= 90%
- 良好:75% - 90%
- 需改进:< 75%
TruthfulQA
- 接近人类:>= 90%
- 良好:70% - 90%
- 需改进:< 70%
HalluLens NonExistentEntities Recall@32
- 优秀:>= 70%
- 良好:50% - 70%
- 需改进:< 50%
六、幻觉缓解与持续监控
6.1 评估不是终点
评估幻觉只是第一步,更重要的是持续监控和不断改进。
建立监控体系
在实际应用中,建议建立实时监控体系:
- 定期运行幻觉检测指标
- 记录异常高的幻觉案例
- 分析幻觉产生的模式
数据驱动优化
根据监控数据,可以发现模型的薄弱环节:
- 某些特定领域幻觉率特别高?
- 某些类型的查询更容易触发幻觉?
- 长文本还是短文本更容易出现幻觉?
这些发现可以指导后续的优化工作,如添加领域特定的护栏、调整提示词设计、或进行针对性的微调。
6.2 实用缓解策略
检索增强(RAG)
RAG 是目前最有效的幻觉缓解策略之一。通过检索可靠的文档作为上下文,可以显著提高生成内容的事实性。RAGAS 等评估框架专门为此设计。
提示工程
良好的提示设计可以减少幻觉:
- 明确要求模型在不确定时表示"不知道"
- 要求模型提供答案的依据
- 添加"请仅根据提供的信息回答"等约束
置信度检测
可以训练或提示模型对其回答给出置信度评分。当置信度低于某个阈值时,系统可以选择拒绝回答或请求人工复核。
多模型交叉验证
对于高风险场景,可以让多个模型独立回答同一问题,然后比较它们的答案。如果多个模型对某个事实的意见不一致,可能需要人工核实。
七、总结
大模型幻觉是一个复杂的现象,没有单一指标能够完全量化它。不同的评估方法各有侧重,需要根据具体应用场景选择合适的指标组合。
核心要点回顾:
- TruthfulQA 适合评估模型对抗常见误解的能力
- HaluEval 提供了大规模的幻觉识别能力评估
- FActScore 专注于长文本生成的事实性评估
- RAGAS 框架适合评估RAG系统的整体质量
- HalluLens 专门针对外在幻觉进行评估
- DeepEval 和 Vectara 提供了实用的自动化检测工具
在实际项目中,建议采用多维度、多指标的评估策略,并建立持续监控机制。评估不是一次性工作,而是需要贯穿模型的整个生命周期。
最后,需要认识到幻觉问题目前无法被完全消除,但可以通过技术手段将其降低到可接受的水平。关键在于明确应用场景的风险等级,设置合理的评估标准,并在实际使用中持续监控和改进。
参考资料
幻觉评估基准
- TruthfulQA: Measuring How Models Mimic Human Falsehoods
- HaluEval: A Large-Scale Hallucination Evaluation Benchmark
- FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- HalluLens: LLM Hallucination Benchmark
- Re-evaluating Hallucination Detection in LLMs
评估框架与工具
- RAGAS: Automated Evaluation of Retrieval Augmented Generation
- RAGAS Faithfulness Documentation
- DeepEval Hallucination Metric
- Vectara Hallucination Evaluation
- OpenAI: Why Language Models Hallucinate
学术论文
- Ji, Z., et al. (2023). “Survey on Hallucination in Large Language Models”
- Lin et al. (2024). “LongFact: Exploring Long-form Factuality in Large Language Models”
- Min et al. (2023). “FActScore: Fine-grained Atomic Evaluation of Factual Precision”
本文档旨在提供大模型幻觉量化评估的方法论指导,具体指标选择需要根据实际应用场景和风险等级进行调整。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)