机器学习相关知识点汇总

薰丶 · 2026-03-29 20:38:51 发布

这份整理涵盖了机器学习的基础概念、模型评估、经典算法以及聚类与降维的核心知识点。

定义：机器学习是研究如何通过计算手段，利用“经验”（通常以“数据”形式存在）来改善系统自身性能的学科。
基本术语：
- 样本 (Sample/Instance)：数据集中的一条记录，代表一个具体的对象。
- 特征 (Feature/Attribute)：反映对象在某方面的性质，如“颜色”、“大小”。
- 标签 (Label/Target)：我们希望预测的结果，如“西瓜的甜度”或“是否好瓜”。
任务类型：
- 回归 (Regression)：预测连续的数值（如预测房价 $250.5$ 万）。
- 分类 (Classification)：预测离散的类别（如判断邮件是否为垃圾邮件）。
数据集划分：
- 训练数据：用于训练模型，让模型学习数据中的规律。
- 验证数据 (Validation Set)：在开发阶段用于调整超参数、挑选模型。
- 测试数据 (Test Set)：模型训练完成后，用于评估最终的泛化能力（模拟真实环境）。

欠拟合 (Underfitting)：模型没学好，在训练集和测试集上表现都差。
- 原因：模型复杂度过低（如用直线拟合曲线）。
- 解决：增加模型复杂度、增加特征、减少正则化。
过拟合 (Overfitting)：模型学过头了，把噪声当规律。训练集表现极好，测试集表现极差。
- 原因：数据量太少、模型太复杂、训练轮数过多。
- 解决：增加数据量、正则化（L1/L2）、Dropout、提前止损（Early Stopping）、简化模型。

评估方法：
- 留出法 (Hold-out)：直接将数据集划分为两个互斥的集合。
- 交叉验证法 (Cross Validation)：将数据分为 $k$ 个大小相似的互斥子集，轮流用 $k - 1$ 个做训练，剩下的做验证。
- 自助法 (Bootstrapping)：有放回地随机采样，适用于数据集较小的情况。
性能度量：
- 错误率：分类错误样本数占总数的比例。
- 精度 (Accuracy)：分类正确样本数占总数的比例。
- 查准率 (Precision)：预测为正的样本中，真实为正的比例。
- 查全率 (Recall)：真实为正的样本中，被预测为正的比例。
- F1分数：查准率和查全率的调和平均数， $\frac{2 \times P \times R}{P + R}$ 。

最小二乘法 (Least Squares)：通过最小化均方误差 (MSE) 来寻找最佳拟合参数。
多分类拆分策略：
- 一对一 (OvO)：将 $N$ 个类别两两配对，训练 $N (N - 1) /2$ 个分类器。
- 一对其余 (OvR)：将一个类作为正例，其余所有类作为负例。
- 多对多 (MvM)：如 ECOC 编码，利用纠错码原理进行拆分。

核心指标：
- 信息熵 (Entropy)：度量样本集合纯度，熵越小纯度越高。
- 信息增益 (Gain)：ID3 算法使用。划分后熵的减少量，缺点是偏向取值较多的特征。
- 增益率 (Gain Ratio)：C4.5 算法使用。引入分裂信息来抵消取值较多特征的影响。
- 基尼系数 (Gini Index)：CART 算法使用。衡量随机抽取两个样本类别不一致的概率，值越小纯度越高。

贝叶斯决策论：基于概率分布进行决策。
- 先验概率：根据以往经验获得的概率。
- 似然：在类别已知的前提下，数据表现出的特征概率。
- 证据：用于归一化的全概率。
有向图结构：
- 同父结构 (Tail-to-tail)：一个父节点指向两个子节点。
- V型结构 (Head-to-head)：两个父节点指向一个子节点。
- 顺序结构 (Head-to-tail)：A 影响 B，B 影响 C。

性能度量：
- 外部指标：与标准参考模型进行比较（如兰德指数）。
- 内部指标：考察聚类结果自身的紧凑度和分离度（如轮廓系数、DB指数）。
距离计算：闵可夫斯基距离（包括欧氏距离、曼哈顿距离）、切比雪夫距离、海明距离（用于分类/布尔变量）、余弦相似度。
层次聚类：
- 聚合策略 (AGNES)：自底向上，将每个样本看作一个簇，逐渐合并。
- 分拆策略 (DIANA)：自顶向下，将所有样本看作一个大簇，逐渐分裂。