LLM概念学习记录-Day02-模型评估方法了解

纸上的章鱼烧

305人浏览 · 2026-03-16 11:49:34

纸上的章鱼烧 · 2026-03-16 11:49:34 发布

文本生成类任务

基于 n-gram 重叠的指标

BLEU

最经典。核心思想是看生成结果和参考答案之间 n-gram 的精确率，通常会结合 1-gram 到 4-gram，再加上 brevity penalty（长度惩罚），避免答案过短。

特点

偏重“生成内容和参考答案重合了多少”
更关注 precision，不太关注 recall

适用于

机器翻译
文本生成早期评估

ROUGE

在摘要任务里特别常见。本质上也是看 n-gram 重叠，不过和 BLEU 不同，ROUGE 更强调召回率。

常见变种

ROUGE-N：统计 n-gram 重叠，最常见的是 ROUGE-1、ROUGE-2；
ROUGE-L：基于最长公共子序列（LCS），不完全是传统 n-gram，但通常和 ROUGE 系列一起提；
ROUGE-S / ROUGE-SU：基于 skip-bigram。

适用于

文本摘要
生成式问答

METEOR

也是一种基于词级重叠的指标。和 BLEU 相比，它不只看精确匹配，还会考虑：

unigram 匹配
precision 和 recall 的结合
词形变化
同义词匹配
词序惩罚

所以它比纯 n-gram 重叠更灵活一些，但本质上仍属于表面重叠类指标。

适用于

翻译
文本生成

GLEU

可以理解为 BLEU 的一种变体，常见于文本纠错任务。它同时考虑生成内容和参考答案之间的重叠，以及错误修改是否合理。

NIST

和 BLEU 很像，也是基于 n-gram。区别在于它对信息量更大的 n-gram 给予更高权重，而不是把所有 n-gram 一视同仁。

chrF / chrF++

基于字符 n-gram 的指标，而不是词 n-gram。在机器翻译评估里比较常见，尤其适合：

形态变化丰富的语言
对拼写和局部形式敏感的任务

语义相似度类指标

弥补词面匹配的缺陷，常用：

BERTScore
Sentence embedding similarity
MoverScore（相对少一些）

图像描述生成类任务

CIDEr

CIDEr (Consensus-based Image Description Evaluation，基于共识的图像描述评估指标)，是图像描述生成任务里常用的自动评估指标。它不是只拿生成句子去对比一条标准答案，而是同时和多条人工参考描述比较，从而衡量模型生成的 caption 是否接近人类对这张图片的共识性表达。CIDEr 的特点是会对 n-gram 做 TF-IDF 加权，再计算相似度，因此既考虑了词语重合，也更重视那些真正有区分度、信息量更高的表达。

为什么需要共识
一张图片往往可以有很多种合理描述，所以图像描述任务不像分类那样只有唯一标准答案。CIDEr 采用多条参考描述，目的就是更接近“人类通常会怎么描述这张图”的共识，而不是只接受某条文本。原论文就是把它定义为一种衡量生成句子与多条人工描述相似度的自动指标。

计算方式
CIDEr 会把候选 caption 和参考 caption 里的 1-gram 到 4-gram 提取出来，并用 TF-IDF 做加权，然后计算它们之间的相似度，最后汇总成一个分数。这样做的好处是，像 “a”“the” 这种常见词权重会更低，而更有辨识度的内容词会更重要。

优点