西瓜书2.3性能度量全章节公式深度解析

tobias.b

342人浏览 · 2026-04-29 07:44:52

tobias.b · 2026-04-29 07:44:52 发布

整合完整版·西瓜书2.3性能度量全章节公式深度解析

本文内容选自周志华《机器学习》（西瓜书）2.3 性能度量章节，隶属于机器学习/统计学习理论核心内容，围绕模型预测效果评估展开，核心研究性能度量（performance measures） 指标体系。
整体分为两大核心场景：回归任务的均方误差、分类任务的错误率与精度，结合高等数学、概率论、统计学习理论，逐公式拆解符号定义、数学原理、统计学内涵、理论联系与实际应用，同时区分有限样本经验误差与全局分布泛化误差。

一、基础前置背景（监督学习通用定义）

在监督学习框架下，给定数据集：
$\{\boldsymbol{x}_1, y_1), (\boldsymbol{x}_2, y_2), \dots, (\boldsymbol{x}_m, y_m)\}$

$xi∈X\boldsymbol{x}_i \in \mathcal{X}$ ：第 $i$ 个样本的多维特征向量（模型输入）
$yi∈Yy_i \in \mathcal{Y}$ ：第 $i$ 个样本的真实标签（模型输出）
$m$ ：数据集总样本数量
$\mathcal{X}\to\mathcal{Y}$ ：训练完成的预测模型（学习器）
模型评估的核心逻辑：量化预测值 $f(xi)f(\boldsymbol{x}_i)$ 与真实标签 $y_i$ 的差异。

二、回归任务：均方误差 MSE

回归任务适配连续型标签输出，使用平方损失构建均方误差作为核心评价指标。

1. 公式(2.2) 离散形式·经验误差

$\frac{1}{m} \sum_{i=1}^{m} \left( f(\boldsymbol{x}_i) - y_i \right)^2$

符号与含义

$f(xi)f(\boldsymbol{x}_i)$ ：模型对第 $i$ 个样本的预测值
$f(xi)−yif(\boldsymbol{x}_i)-y_i$ ：预测残差，存在正负，无法直接求和统计误差
平方运算：消除正负抵消、放大大幅度误差、保证函数连续可导
整体含义：模型在有限训练/测试样本集 $D$ 上的平均平方误差。

数学与统计原理

属于二次损失函数，是经验风险最小化（ERM）的基础损失；
凸函数性质，满足全局最优条件，便于梯度下降等算法优化；
理论等价于高斯噪声假设下的最大似然估计；
属于经验误差：仅反映模型在已知有限样本上的表现。

2. 公式(2.3) 连续形式·期望泛化误差

$\mathcal{D}) = \int_{\boldsymbol{x} \sim \mathcal{D}} \left( f(\boldsymbol{x}) - y \right)^2 p(\boldsymbol{x}) \, d\boldsymbol{x}$

符号与含义

$D\mathcal{D}$ ：数据整体真实概率分布（客观存在、无法直接获取）
$p(x)p(\boldsymbol{x})$ ：输入特征的边缘概率密度函数
积分运算：对全域所有样本，以概率密度为权重做加权平均。

数学与统计原理

离散样本公式的理论推广，本质为损失函数的数学期望：
$E(f;D)=EX,Y[(f(X)−Y)2]E(f;\mathcal{D})=\mathbb{E}_{\boldsymbol{X},Y}\big[(f(\boldsymbol{X})-Y)^2\big]$
代表泛化误差，衡量模型在全局未知数据上的预测能力；
最优回归理论：最小化MSE的最优模型为条件期望 $f∗(x)=E[Y∣X=x]f^*(\boldsymbol{x})=\mathbb{E}[Y\mid \boldsymbol{X}=\boldsymbol{x}]$ ；
依托泛函分析 $L^2$ 空间投影理论，是连续变量回归的理论基石。

三、分类任务：错误率 & 精度

分类任务适配离散型标签输出（如类别、二分类0/1），以0-1损失为核心，定义错误率与精度。

1. 公式(2.4) 离散形式·经验错误率

$\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\big(f(\boldsymbol{x}_i) \neq y_i\big)$

核心定义：示性函数

$\mathbb{I}(A)= \begin{cases} 1,\quad \text{事件}A\text{ 成立}\\ 0,\quad \text{事件}A\text{ 不成立} \end{cases}$

$I(f(xi)≠yi)\mathbb{I}(f(\boldsymbol{x}_i)\neq y_i)$ ：预测错误记为1，预测正确记为0；
整体含义：错误样本数量占总样本的比例，即0-1损失的经验风险。

2. 公式(2.5) 离散形式·精度

$\mathrm{acc}(f; D) = \frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\big(f(\boldsymbol{x}_i) = y_i\big) = 1 - E(f; D)$

统计正确分类样本的占比；
核心关系： $精度+错误率=1\boldsymbol{精度 + 错误率 = 1}$ ，二者完全互补；
局限性：在类别不平衡数据集中，高精度不代表模型有效，需搭配F1、AUC等指标。

3. 公式(2.6) 连续形式·全局错误率

$\mathcal{D}) = \int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}\big(f(\boldsymbol{x}) \neq y\big) \, p(\boldsymbol{x}) \, d\boldsymbol{x}$

数学原理

对应分类任务的期望风险，严谨表达式：
$E(f)=EX,Y[I(f(X)≠Y)]E(f)=\mathbb{E}_{\boldsymbol{X},Y}\big[\mathbb{I}(f(\boldsymbol{X})\neq Y)\big]$
物理意义：从全局数据分布中随机采样，模型分类出错的理论概率；
贝叶斯最优准则：后验概率最大化 $P(Y=c∣X=x)f^*(\boldsymbol{x})=\mathrm{argmax}_c \,P(Y=c\mid\boldsymbol{X}=\boldsymbol{x})$ ，可达到理论最小错误率。

四、核心数学框架：统一风险表达式

回归与分类所有性能指标，可通过损失函数+风险实现统一：
$\mathbb{E}_{(\boldsymbol{x},y)\sim\mathcal{D}}\big[L(f(\boldsymbol{x}),y)\big]$

任务	损失函数 $L$	离散经验形式	连续期望形式
回归	$L=(f-y)^2$	样本均值求和	概率密度积分
分类	$L=I(f≠y)L=\mathbb{I}(f\ne y)$	样本均值求和	概率密度积分

五、关键核心概念深度总结

经验风险 VS 期望风险
- 经验风险：基于有限样本集计算，可直接编程求解，用于模型训练；
- 期望风险：基于真实数据分布的理论值，代表泛化能力，是机器学习的终极优化目标。
核心数学工具
- 示性函数 $I(⋅)\mathbb{I}(\cdot)$ ：将离散逻辑判断转为0/1数值，打通离散分类与连续微积分；
- 期望、概率密度积分：连接有限样本与无限总体的核心桥梁；
- 损失函数：回归用平方损失（可导可优化），分类用0-1损失（直观但不可导）。
工程实操关键结论
- 0-1损失非凸、不连续、无法直接优化，深度学习/传统分类算法会使用代理损失（交叉熵、Hinge损失、对数损失）；
- MSE天然适配连续回归，但对异常值敏感；
- 单一精度/错误率无法适配所有场景，复杂任务需多指标联合评估。

六、拓展理论（统计学习进阶）

偏差-方差-噪声分解
模型泛化误差可拆解为：固有噪声+模型偏差+模型方差，解释过拟合与欠拟合本质；
泛化误差上界
通过VC维、拉德马赫复杂度，证明：经验误差可在一定条件下逼近期望误差；
损失函数体系
0-1损失、平方损失、交叉熵损失、指数损失构成机器学习损失函数完整谱系，分别适配不同任务与算法。

终极总结

本组公式是机器学习模型评估的数学基石：
针对回归任务，借助平方误差量化连续预测值的偏离程度；
针对分类任务，借助示性函数与0-1损失量化离散类别的判断正误；
全部指标依托概率论、数学期望、积分、损失函数、风险最小化理论搭建，既支撑模型训练优化，也定义了人工智能模型“好坏”的量化标准。