LLM概念学习记录-Day02-模型评估方法了解
文本生成类任务
基于 n-gram 重叠的指标
BLEU
最经典。核心思想是看生成结果和参考答案之间 n-gram 的精确率,通常会结合 1-gram 到 4-gram,再加上 brevity penalty(长度惩罚),避免答案过短。
特点
- 偏重“生成内容和参考答案重合了多少”
- 更关注 precision,不太关注 recall
适用于
- 机器翻译
- 文本生成早期评估
ROUGE
在摘要任务里特别常见。本质上也是看 n-gram 重叠,不过和 BLEU 不同,ROUGE 更强调召回率。
常见变种
- ROUGE-N:统计 n-gram 重叠,最常见的是 ROUGE-1、ROUGE-2;
- ROUGE-L:基于最长公共子序列(LCS),不完全是传统 n-gram,但通常和 ROUGE 系列一起提;
- ROUGE-S / ROUGE-SU:基于 skip-bigram。
适用于
- 文本摘要
- 生成式问答
METEOR
也是一种基于词级重叠的指标。和 BLEU 相比,它不只看精确匹配,还会考虑:
- unigram 匹配
- precision 和 recall 的结合
- 词形变化
- 同义词匹配
- 词序惩罚
所以它比纯 n-gram 重叠更灵活一些,但本质上仍属于表面重叠类指标。
适用于
- 翻译
- 文本生成
GLEU
可以理解为 BLEU 的一种变体,常见于文本纠错任务。它同时考虑生成内容和参考答案之间的重叠,以及错误修改是否合理。
NIST
和 BLEU 很像,也是基于 n-gram。区别在于它对信息量更大的 n-gram 给予更高权重,而不是把所有 n-gram 一视同仁。
chrF / chrF++
基于字符 n-gram 的指标,而不是词 n-gram。在机器翻译评估里比较常见,尤其适合:
- 形态变化丰富的语言
- 对拼写和局部形式敏感的任务
语义相似度类指标
弥补词面匹配的缺陷,常用:
- BERTScore
- Sentence embedding similarity
- MoverScore(相对少一些)
图像描述生成类任务
CIDEr
CIDEr (Consensus-based Image Description Evaluation,基于共识的图像描述评估指标),是图像描述生成任务里常用的自动评估指标。它不是只拿生成句子去对比一条标准答案,而是同时和多条人工参考描述比较,从而衡量模型生成的 caption 是否接近人类对这张图片的共识性表达。CIDEr 的特点是会对 n-gram 做 TF-IDF 加权,再计算相似度,因此既考虑了词语重合,也更重视那些真正有区分度、信息量更高的表达。
为什么需要共识
一张图片往往可以有很多种合理描述,所以图像描述任务不像分类那样只有唯一标准答案。CIDEr 采用多条参考描述,目的就是更接近“人类通常会怎么描述这张图”的共识,而不是只接受某条文本。原论文就是把它定义为一种衡量生成句子与多条人工描述相似度的自动指标。
计算方式
CIDEr 会把候选 caption 和参考 caption 里的 1-gram 到 4-gram 提取出来,并用 TF-IDF 做加权,然后计算它们之间的相似度,最后汇总成一个分数。这样做的好处是,像 “a”“the” 这种常见词权重会更低,而更有辨识度的内容词会更重要。
优点
- CIDEr 的优势在于它比单纯的 n-gram 重叠指标更适合 image captioning,因为它利用了多参考描述,并且通过 TF-IDF 强调信息量更高的表达,所以和人工判断通常有更好的相关性。
缺点
- CIDEr 本质上还是基于文本重叠和统计加权的方法,所以它仍然依赖参考描述质量;如果生成句子语义正确但表述方式和参考差异很大,分数可能不一定高。另外,后续研究也指出,在某些数据集或更长句子场景下,CIDEr-D 可能存在局限,因此后来又有像 CIDEr-R 这样的改进工作。
与BLEU区别
BLEU 主要是统计 n-gram precision,更偏通用文本生成评估;CIDEr 是专门为 image captioning 设计的,强调多参考描述之间的共识,并通过 TF-IDF 提升关键词和关键信息的权重,所以通常更适合图像描述任务。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)