机器学习零基础吃透混淆矩阵！准确率 / 精确率 / 召回率 / F1 分数

m沐沐

878人浏览 · 2026-05-20 23:39:15

m沐沐 · 2026-05-20 23:39:15 发布

文章目录

前言
一、混淆矩阵
- 1.混淆矩阵简介
- 2.混淆矩阵图例
二、混淆矩阵四大核心评估指标
总结

前言

本篇文章从零起步，不讲晦涩公式推导，用大白话讲懂混淆矩阵所有知识点，零基础也能一次性吃透，学完直接用于项目实战、论文实验、模型调优。

一、混淆矩阵

1.混淆矩阵简介

混淆矩阵是分类任务中最核心的模型评估表格，专门用来直观统计模型预测结果对错分布，主要应用在二分类、多分类场景，日常使用最多的是二分类混淆矩阵。
简单理解：把真实标签和模型预测标签两两对应摆放，统计每一种组合的样本数量，形成的二维表格就是混淆矩阵。
它的最大作用就是不再只看单一正确率，能清晰看出模型哪里预测错了、偏向误判哪一类样本，精准发现模型缺陷，比如漏检、误判严重等问题。
在二分类任务里，我们统一定义两个类别：
1.正样本：我们重点想要识别出来的目标
2.负样本：非目标无关样本
由此衍生出混淆矩阵四大核心基础概念：
TP（真正例）：真实是正样本，模型预测也为正样本，预测正确
FN（假反例）：真实是正样本，模型预测成负样本，漏检
FP（假正例）：真实是负样本，模型预测成正样本，误判
TN（真反例）：真实是负样本，模型预测也为负样本，预测正确

2.混淆矩阵图例

在这里插入图片描述
以疫情核酸检测举例，理解四个值代表的含义：
TP：确诊患病，检测结果阳性（正确查出病人）
FN：确诊患病，检测结果阴性（漏诊，大病查不出来）
FP：身体健康，检测结果阳性（误诊，无辜被判生病）
TN：身体健康，检测结果阴性（正常无误）
做项目时，可直接套用这个逻辑，快速分清四个基础指标含义，再也不会记混。

二、混淆矩阵四大核心评估指标

依托混淆矩阵能够衍生出准确率、精确率、召回率以及 F1 分数等多项评价指标，借助各类指标可多角度综合评判模型实际效果，便于结合实际业务需求完成模型调优与性能优化。

1.准确率（Accuracy）

含义：整体预测正确的样本占全部样本的比例，也就是大家最常说的正确率。
计算公式

  准确率 = (TP + TN) / (TP + FN + FP + TN)

不管正负样本，只要预测对就算数，代表模型整体猜对的概率。
它适用于正负样本数量分布均匀的普通分类任务。

2.精确率（Precision）

含义：模型所有预测为正样本里面，真正是正样本的比例，也叫查准率。
计算公式

 精确率 = TP / (TP + FP)

可以理解为模型说：”它是目标“，这句话靠谱的概率有多高，重点衡量不误判能力。
它适用于杜绝误判的场景比如垃圾短信拦截、人脸识别、金融风控、违规内容检测。

3. 召回率（Recall）

含义：所有真实正样本里面，被模型成功找出来的比例，也叫查全率。
计算公式

  召回率 = TP / (TP + FN)

可以理解为所有真正的目标样本，模型能成功找出来多少，重点衡量不漏检能力。

4.F1 分数（F1 Score）

含义：精确率和召回率的调和平均数，用来平衡两者矛盾，是综合评估指标。
精确率和召回率天生相互制约：提高精确率大概率降低召回率，提高召回率容易降低精确率，无法同时拉满。
F1 分数越接近 1，代表模型综合分类效果越好；越接近 0 效果越差。
计算公式

  F1 = 2 × (精确率 × 召回率) / (精确率 + 召回率)

它适用于既不想大量误判，也不想大量漏检，需要兼顾两边效果的绝大多数通用分类任务。

总结

混淆矩阵是分类模型的结果明细表格，依托 TP、FN、FP、TN 四个基础值，清晰展现模型预测对错分布，是优化模型的重要依据。
日常做图像分类、文本分类、二分类项目时，优先输出混淆矩阵，再搭配 F1 分数评估，比单一准确率更加专业靠谱，也能快速定位模型过拟合、类别识别偏差等问题。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP