缩写 全称 真实标签 模型预测 猫狗场景 通俗理解
TP True Positive 猫(正类) 猫(正类) 真猫被模型认成猫 认对了的猫
FN False Negative 猫(正类) 狗(负类) 真猫被模型认成狗 漏掉的猫
FP False Positive 狗(负类) 猫(正类) 真狗被模型认成猫 认错的猫
TN True Negative 狗(负类) 狗(负类) 真狗被模型认成狗 认对了的狗

1. 准确率(Accuracy)

公式:Accuracy=TP+TN​/(TP+TN+FP+FN)

白话解释:所有预测里,模型 “说对了” 的比例

  • 分子:模型说对的次数(认对的猫 + 认对的狗)
  • 分母:所有图片的总数(猫 + 狗的总数)

2. 精确率(Precision,查准率)

公式:Precision=TP​/(TP+FP)

白话解释:模型说 “这是猫” 的图片里,到底有多少真的是猫?

  • 分子:模型说 “是猫” 里,真正的猫(TP)
  • 分母:模型说 “是猫” 的所有图片(TP+FP,也就是真猫 + 被误判成猫的狗)

4. F1 Score

公式:F1=2×(Precision+Recall/Precision×Recall​)

精确率和召回率的 “综合平均分”,用来衡量模型既不 “漏判” 也不 “误判” 的能力。

  • 精确率高,说明模型喊 “猫” 的时候很谨慎,很少把狗认成猫,但代价是很多猫会被漏掉(召回率低)
  • 召回率高,说明模型宁可把狗认成猫,也要把所有猫都找出来,但代价是误判很多(精确率低)
  • F1 就是这两个指标的调和平均,F1 越高,说明模型在两者之间的平衡越好。
  • 精确率(Precision):准不准?(说的对不对)
  • 召回率(Recall):全不全?(有没有漏)

P-R 曲线的全称是精确率 - 召回率曲线(Precision-Recall Curve),它的横轴是召回率(Recall),纵轴是精确率(Precision)。

阈值设置 精确率(模型说 “猫” 时,真的是猫的比例) 召回率(所有猫里,模型找出来的比例)
高阈值(比如 0.9) 很高(模型只认很像猫的图片,很少把狗认成猫) 很低(很多置信度不高的猫被漏掉了)
低阈值(比如 0.1) 很低(很多狗被误判成猫) 很高(几乎所有猫都被找出来了)
  • 曲线越靠近右上角越好
    • 右上角代表 “高精确率 + 高召回率”,说明模型既能准确识别猫,又不会漏掉猫。
    • 两条曲线对比时,完全包住另一条的曲线,对应的模型性能更好
  • AUC(曲线下面积)越大越好
    • P-R 曲线和坐标轴围成的面积,就是 AUC 值。
    • AUC 越接近 1,说明模型在各种阈值下的综合表现越好;AUC 越小,说明模型越差。

ROC 曲线的全称是受试者工作特征曲线(Receiver Operating Characteristic Curve),它的横轴和纵轴,是从混淆矩阵里衍生出来的两个新指标:

指标 全称 公式 白话理解(猫狗场景)
纵轴:TPR(真正例率) True Positive Rate TPR=TP​/TP+FN 召回率!所有真猫里,模型找出来了多少?(找猫的能力)
横轴:FPR(假正例率) False Positive Rate FPR=FP​/FP+TN 所有真狗里,被误判成猫的比例?(把狗认错的概率)
  • TPR 越高越好:代表找猫的能力越强
  • FPR 越低越好:代表把狗认错的概率越低

图像对比:

对比项 ROC 曲线 P-R 曲线
横轴 FPR(把负类认错的概率) Recall(找正类的比例)
纵轴 TPR(找正类的比例) Precision(找出来的正类里,真的是正类的比例)
适用场景 正负样本均衡时,模型性能对比很直观 正负样本不均衡时,更能反映模型对正类的识别能力
核心优势 对样本不均衡不敏感,能稳定反映模型整体区分正负样本的能力 更聚焦于正类的表现,在正负样本差很多时更有参考价值

相关问题:

  • 准确率为什么不适合不均衡样本?
  • 答:当负样本远多于正样本时,模型只要全预测为负类,准确率也会很高,但完全没识别出正类,无法反映真实性能。
  • 精确率和召回率为什么是矛盾的?
  • 答:提高精确率,就要收紧判断标准(比如只认置信度极高的猫),会导致很多猫被漏掉,召回率下降;反之,降低标准提高召回率,会把更多狗误判成猫,精确率下降。
  • P-R 曲线和 ROC 曲线的核心区别?
  • 答:ROC 对样本不均衡不敏感,更适合评估模型整体区分正负样本的能力;P-R 更聚焦于正类,在正负样本数量差距大时,能更真实地反映模型性能。
  • AUC 代表什么?
  • 答:AUC 是曲线下面积,衡量模型把 “随机选到的正样本排在负样本前面” 的概率,越接近 1,模型区分正负样本的能力越强。

核心结论总结

  1. ROC 曲线 / ROC-AUC 是 “整体视角”:它关注模型区分正负样本的通用能力,对样本不均衡不敏感,适合正负样本均衡的场景,但在不均衡数据上容易 “报喜不报忧”。
  2. P-R 曲线 / P-R-AUC 是 “正类视角”:它聚焦于模型对少数类(正类)的识别性能,对样本不均衡非常敏感,能真实反映模型在 “找猫” 这件事上的表现,在不均衡数据上更有参考价值。
  3. AUC 是量化指标,依附于曲线存在:ROC-AUC 和 P-R-AUC 的数值含义不同,不能直接对比;但它们的核心判断标准是一致的 ——AUC 越接近 1,曲线越靠近理想位置,模型性能越好
  • 当数据集正负样本均衡时,用 ROC 曲线 + ROC-AUC 评估模型整体性能
  • 当数据集正负样本严重不均衡(比如目标检测、异常检测),优先看 P-R 曲线 + P-R-AUC,ROC-AUC 只能作为辅助参考

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐