整合完整版·西瓜书2.3性能度量全章节公式深度解析

本文内容选自周志华《机器学习》(西瓜书)2.3 性能度量章节,隶属于机器学习/统计学习理论核心内容,围绕模型预测效果评估展开,核心研究性能度量(performance measures) 指标体系。
整体分为两大核心场景:回归任务的均方误差、分类任务的错误率与精度,结合高等数学、概率论、统计学习理论,逐公式拆解符号定义、数学原理、统计学内涵、理论联系与实际应用,同时区分有限样本经验误差与全局分布泛化误差。


一、基础前置背景(监督学习通用定义)

在监督学习框架下,给定数据集:
D={x1,y1),(x2,y2),…,(xm,ym)}D = \{\boldsymbol{x}_1, y_1), (\boldsymbol{x}_2, y_2), \dots, (\boldsymbol{x}_m, y_m)\}D={x1,y1),(x2,y2),,(xm,ym)}

  • xi∈X\boldsymbol{x}_i \in \mathcal{X}xiX:第 iii 个样本的多维特征向量(模型输入)
  • yi∈Yy_i \in \mathcal{Y}yiY:第 iii 个样本的真实标签(模型输出)
  • mmm:数据集总样本数量
  • f:X→Yf: \mathcal{X}\to\mathcal{Y}f:XY:训练完成的预测模型(学习器)
    模型评估的核心逻辑:量化预测值 f(xi)f(\boldsymbol{x}_i)f(xi) 与真实标签 yiy_iyi 的差异

二、回归任务:均方误差 MSE

回归任务适配连续型标签输出,使用平方损失构建均方误差作为核心评价指标。

1. 公式(2.2) 离散形式·经验误差

E(f;D)=1m∑i=1m(f(xi)−yi)2 E(f; D) = \frac{1}{m} \sum_{i=1}^{m} \left( f(\boldsymbol{x}_i) - y_i \right)^2 E(f;D)=m1i=1m(f(xi)yi)2

符号与含义
  • f(xi)f(\boldsymbol{x}_i)f(xi):模型对第 iii 个样本的预测值
  • f(xi)−yif(\boldsymbol{x}_i)-y_if(xi)yi:预测残差,存在正负,无法直接求和统计误差
  • 平方运算:消除正负抵消、放大大幅度误差、保证函数连续可导
  • 整体含义:模型在有限训练/测试样本集 DDD 上的平均平方误差
数学与统计原理
  1. 属于二次损失函数,是经验风险最小化(ERM)的基础损失;
  2. 凸函数性质,满足全局最优条件,便于梯度下降等算法优化;
  3. 理论等价于高斯噪声假设下的最大似然估计
  4. 属于经验误差:仅反映模型在已知有限样本上的表现。

2. 公式(2.3) 连续形式·期望泛化误差

E(f;D)=∫x∼D(f(x)−y)2p(x) dx E(f; \mathcal{D}) = \int_{\boldsymbol{x} \sim \mathcal{D}} \left( f(\boldsymbol{x}) - y \right)^2 p(\boldsymbol{x}) \, d\boldsymbol{x} E(f;D)=xD(f(x)y)2p(x)dx

符号与含义
  • D\mathcal{D}D:数据整体真实概率分布(客观存在、无法直接获取)
  • p(x)p(\boldsymbol{x})p(x):输入特征的边缘概率密度函数
  • 积分运算:对全域所有样本,以概率密度为权重做加权平均。
数学与统计原理
  1. 离散样本公式的理论推广,本质为损失函数的数学期望
    E(f;D)=EX,Y[(f(X)−Y)2]E(f;\mathcal{D})=\mathbb{E}_{\boldsymbol{X},Y}\big[(f(\boldsymbol{X})-Y)^2\big]E(f;D)=EX,Y[(f(X)Y)2]
  2. 代表泛化误差,衡量模型在全局未知数据上的预测能力;
  3. 最优回归理论:最小化MSE的最优模型为条件期望 f∗(x)=E[Y∣X=x]f^*(\boldsymbol{x})=\mathbb{E}[Y\mid \boldsymbol{X}=\boldsymbol{x}]f(x)=E[YX=x]
  4. 依托泛函分析 L2L^2L2 空间投影理论,是连续变量回归的理论基石。

三、分类任务:错误率 & 精度

分类任务适配离散型标签输出(如类别、二分类0/1),以0-1损失为核心,定义错误率与精度。

1. 公式(2.4) 离散形式·经验错误率

E(f;D)=1m∑i=1mI(f(xi)≠yi) E(f; D) = \frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\big(f(\boldsymbol{x}_i) \neq y_i\big) E(f;D)=m1i=1mI(f(xi)=yi)

核心定义:示性函数

I(A)={1,事件A 成立0,事件A 不成立 \mathbb{I}(A)= \begin{cases} 1,\quad \text{事件}A\text{ 成立}\\ 0,\quad \text{事件}A\text{ 不成立} \end{cases} I(A)={1,事件A 成立0,事件A 不成立

  • I(f(xi)≠yi)\mathbb{I}(f(\boldsymbol{x}_i)\neq y_i)I(f(xi)=yi):预测错误记为1,预测正确记为0;
  • 整体含义:错误样本数量占总样本的比例,即0-1损失的经验风险

2. 公式(2.5) 离散形式·精度

acc(f;D)=1m∑i=1mI(f(xi)=yi)=1−E(f;D) \mathrm{acc}(f; D) = \frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\big(f(\boldsymbol{x}_i) = y_i\big) = 1 - E(f; D) acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f;D)

  • 统计正确分类样本的占比;
  • 核心关系:精度+错误率=1\boldsymbol{精度 + 错误率 = 1}精度+错误率=1,二者完全互补;
  • 局限性:在类别不平衡数据集中,高精度不代表模型有效,需搭配F1、AUC等指标。

3. 公式(2.6) 连续形式·全局错误率

E(f;D)=∫x∼DI(f(x)≠y) p(x) dx E(f; \mathcal{D}) = \int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}\big(f(\boldsymbol{x}) \neq y\big) \, p(\boldsymbol{x}) \, d\boldsymbol{x} E(f;D)=xDI(f(x)=y)p(x)dx

数学原理
  1. 对应分类任务的期望风险,严谨表达式:
    E(f)=EX,Y[I(f(X)≠Y)]E(f)=\mathbb{E}_{\boldsymbol{X},Y}\big[\mathbb{I}(f(\boldsymbol{X})\neq Y)\big]E(f)=EX,Y[I(f(X)=Y)]
  2. 物理意义:从全局数据分布中随机采样,模型分类出错的理论概率
  3. 贝叶斯最优准则:后验概率最大化 f∗(x)=argmaxc P(Y=c∣X=x)f^*(\boldsymbol{x})=\mathrm{argmax}_c \,P(Y=c\mid\boldsymbol{X}=\boldsymbol{x})f(x)=argmaxcP(Y=cX=x),可达到理论最小错误率。

四、核心数学框架:统一风险表达式

回归与分类所有性能指标,可通过损失函数+风险实现统一:
R(f)=E(x,y)∼D[L(f(x),y)] R(f) = \mathbb{E}_{(\boldsymbol{x},y)\sim\mathcal{D}}\big[L(f(\boldsymbol{x}),y)\big] R(f)=E(x,y)D[L(f(x),y)]

任务 损失函数 LLL 离散经验形式 连续期望形式
回归 L=(f−y)2L=(f-y)^2L=(fy)2 样本均值求和 概率密度积分
分类 L=I(f≠y)L=\mathbb{I}(f\ne y)L=I(f=y) 样本均值求和 概率密度积分

五、关键核心概念深度总结

  1. 经验风险 VS 期望风险

    • 经验风险:基于有限样本集计算,可直接编程求解,用于模型训练;
    • 期望风险:基于真实数据分布的理论值,代表泛化能力,是机器学习的终极优化目标。
  2. 核心数学工具

    • 示性函数 I(⋅)\mathbb{I}(\cdot)I():将离散逻辑判断转为0/1数值,打通离散分类与连续微积分;
    • 期望、概率密度积分:连接有限样本与无限总体的核心桥梁;
    • 损失函数:回归用平方损失(可导可优化),分类用0-1损失(直观但不可导)。
  3. 工程实操关键结论

    • 0-1损失非凸、不连续、无法直接优化,深度学习/传统分类算法会使用代理损失(交叉熵、Hinge损失、对数损失);
    • MSE天然适配连续回归,但对异常值敏感;
    • 单一精度/错误率无法适配所有场景,复杂任务需多指标联合评估。

六、拓展理论(统计学习进阶)

  1. 偏差-方差-噪声分解
    模型泛化误差可拆解为:固有噪声+模型偏差+模型方差,解释过拟合与欠拟合本质;
  2. 泛化误差上界
    通过VC维、拉德马赫复杂度,证明:经验误差可在一定条件下逼近期望误差;
  3. 损失函数体系
    0-1损失、平方损失、交叉熵损失、指数损失构成机器学习损失函数完整谱系,分别适配不同任务与算法。

终极总结

本组公式是机器学习模型评估的数学基石
针对回归任务,借助平方误差量化连续预测值的偏离程度;
针对分类任务,借助示性函数与0-1损失量化离散类别的判断正误;
全部指标依托概率论、数学期望、积分、损失函数、风险最小化理论搭建,既支撑模型训练优化,也定义了人工智能模型“好坏”的量化标准。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐