目录

前言

一、混淆矩阵四大基础指标定义

简易记忆口诀

生活案例辅助理解

二、各评估指标计算公式与含义

1. 准确率 Accuracy

2. 精确率 Precision

3. 召回率 Recall

三、指标之间核心关系

四、指标选用场景总结

五、总结


前言

在分类模型训练、效果评估场景中,混淆矩阵衍生出的 TP、FP、FN、TN 四个基础指标,以及准确率、精确率、召回率,是评判模型好坏的核心依据。很多初学者容易混淆几组指标含义与计算公式,本文用通俗案例 + 公式推导,理清指标定义、相互关系与适用场景,轻松看懂分类评估标准。

一、混淆矩阵四大基础指标定义

二分类任务为例,样本只分为正类、负类两类,结合模型预测结果与真实标签,划分四种结果:

  1. TP(True Positive)真正例 真实为正,模型预测也为正,预测正确。
  2. FP(False Positive)假正例 真实为负,模型误判为正,预测错误。
  3. FN(False Negative)假负例 真实为正,模型误判为负,预测错误。
  4. TN(True Negative)真负例 真实为负,模型预测也为负,预测正确。

简易记忆口诀

T = 预测正确,F = 预测错误; P = 判定为正样本,N = 判定为负样本。

生活案例辅助理解

疾病检测场景:患病 = 正样本,健康 = 负样本

  • TP:确实患病,检测出患病
  • FP:身体健康,误诊得病
  • FN:身患疾病,漏诊健康
  • TN:身体健康,检测无病

二、各评估指标计算公式与含义

基于 TP、FP、FN、TN 四个数值,推导常用三大评估指标。

1. 准确率 Accuracy

衡量整体样本预测正确的比例,反映模型全局预判能力。 公式: 

accuracy=(TP+TN)/(TP+TN+FP+FN)

适用:正负样本数量均衡的数据集。

2. 精确率 Precision

模型判定为正样本中,真正正确的占比,代表预测正结果的靠谱程度。 公式:

precision=TP/(TP+FP)

​ 适用:杜绝误判场景,如诈骗识别、病毒查杀。

3. 召回率 Recall

所有真实正样本中,被模型成功识别出来的比例,衡量查全能力。 公式:

recall=TP/(TP+FN)

适用:杜绝漏判场景,如疾病筛查、故障检测。

三、指标之间核心关系

  1. 基础从属关系 准确率、精确率、召回率全部由 TP、FP、FN、TN 计算得出,四大基础值是所有分类指标的底层数据。

  2. 精确率与召回率制衡关系 二者呈此消彼长的博弈关系:

  • 提高判定正样本阈值,精确率上升、召回率下降;
  • 降低判定阈值,召回率提升、精确率下降。
  1. 准确率局限性 样本不均衡时,准确率无法客观评价模型。 例:990 个健康人、10 个病人,模型全部预判健康,准确率依旧极高,但完全失去检测意义,此时优先参考精确率、召回率。

  2. 指标取值范围 所有指标数值区间均为[0,1],数值越趋近 1,模型分类效果越好。

四、指标选用场景总结

  1. 样本分布均衡、无偏向需求:优先看准确率
  2. 害怕误判、减少无效干扰:重点参考精确率
  3. 害怕漏判、保证全部筛查:优先看重召回率

五、总结

TP、FP、FN、TN 是分类评估的基石,所有主流指标均依托这四个统计值计算而来。准确率评判整体效果,精确率把控预测正样本可信度,召回率衡量样本全覆盖能力。实际建模时,不能单一依靠某一个指标判定模型优劣,结合业务场景搭配指标综合评估,才能客观选出最优分类模型。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐