机器学习相关知识点汇总
·
这份整理涵盖了机器学习的基础概念、模型评估、经典算法以及聚类与降维的核心知识点。
一、 机器学习基础概念
- 定义:机器学习是研究如何通过计算手段,利用“经验”(通常以“数据”形式存在)来改善系统自身性能的学科。
- 基本术语:
- 样本 (Sample/Instance):数据集中的一条记录,代表一个具体的对象。
- 特征 (Feature/Attribute):反映对象在某方面的性质,如“颜色”、“大小”。
- 标签 (Label/Target):我们希望预测的结果,如“西瓜的甜度”或“是否好瓜”。
- 任务类型:
- 回归 (Regression):预测连续的数值(如预测房价 250.5250.5250.5 万)。
- 分类 (Classification):预测离散的类别(如判断邮件是否为垃圾邮件)。
- 数据集划分:
- 训练数据:用于训练模型,让模型学习数据中的规律。
- 验证数据 (Validation Set):在开发阶段用于调整超参数、挑选模型。
- 测试数据 (Test Set):模型训练完成后,用于评估最终的泛化能力(模拟真实环境)。
二、 学习方式
- 有监督学习:训练数据有标签(如分类、回归)。
- 无监督学习:训练数据无标签,旨在发现数据内在结构(如聚类、降维)。
- 半监督学习:利用少量有标签数据和大量无标签数据进行训练。
三、 过拟合与欠拟合
- 欠拟合 (Underfitting):模型没学好,在训练集和测试集上表现都差。
- 原因:模型复杂度过低(如用直线拟合曲线)。
- 解决:增加模型复杂度、增加特征、减少正则化。
- 过拟合 (Overfitting):模型学过头了,把噪声当规律。训练集表现极好,测试集表现极差。
- 原因:数据量太少、模型太复杂、训练轮数过多。
- 解决:增加数据量、正则化(L1/L2)、Dropout、提前止损(Early Stopping)、简化模型。
四、 评估与选择方法
- 评估方法:
- 留出法 (Hold-out):直接将数据集划分为两个互斥的集合。
- 交叉验证法 (Cross Validation):将数据分为 kkk 个大小相似的互斥子集,轮流用 k−1k-1k−1 个做训练,剩下的做验证。
- 自助法 (Bootstrapping):有放回地随机采样,适用于数据集较小的情况。
- 性能度量:
- 错误率:分类错误样本数占总数的比例。
- 精度 (Accuracy):分类正确样本数占总数的比例。
- 查准率 (Precision):预测为正的样本中,真实为正的比例。
- 查全率 (Recall):真实为正的样本中,被预测为正的比例。
- F1分数:查准率和查全率的调和平均数,F1=2×P×RP+RF1 = \frac{2 \times P \times R}{P + R}F1=P+R2×P×R。
五、 线性模型与多分类
- 最小二乘法 (Least Squares):通过最小化均方误差 (MSE) 来寻找最佳拟合参数。
- 多分类拆分策略:
- 一对一 (OvO):将 NNN 个类别两两配对,训练 N(N−1)/2N(N-1)/2N(N−1)/2 个分类器。
- 一对其余 (OvR):将一个类作为正例,其余所有类作为负例。
- 多对多 (MvM):如 ECOC 编码,利用纠错码原理进行拆分。
六、 决策树 (Decision Tree)
- 核心指标:
- 信息熵 (Entropy):度量样本集合纯度,熵越小纯度越高。
- 信息增益 (Gain):ID3 算法使用。划分后熵的减少量,缺点是偏向取值较多的特征。
- 增益率 (Gain Ratio):C4.5 算法使用。引入分裂信息来抵消取值较多特征的影响。
- 基尼系数 (Gini Index):CART 算法使用。衡量随机抽取两个样本类别不一致的概率,值越小纯度越高。
七、 支持向量机 (SVM)
- 最大间隔:寻找一个超平面,使得它到距离最近的训练样本(支持向量)的间隔最大。
- 软间隔 (Soft Margin):允许部分样本不满足约束(分错或进入间隔内),以防止过拟合。
- 松弛变量 (ξ\xiξ):对应软间隔,衡量样本不满足约束的程度。
八、 贝叶斯与概率图模型
- 贝叶斯决策论:基于概率分布进行决策。
- 先验概率:根据以往经验获得的概率。
- 似然:在类别已知的前提下,数据表现出的特征概率。
- 证据:用于归一化的全概率。
- 有向图结构:
- 同父结构 (Tail-to-tail):一个父节点指向两个子节点。
- V型结构 (Head-to-head):两个父节点指向一个子节点。
- 顺序结构 (Head-to-tail):A 影响 B,B 影响 C。
九、 聚类 (Clustering)
- 性能度量:
- 外部指标:与标准参考模型进行比较(如兰德指数)。
- 内部指标:考察聚类结果自身的紧凑度和分离度(如轮廓系数、DB指数)。
- 距离计算:闵可夫斯基距离(包括欧氏距离、曼哈顿距离)、切比雪夫距离、海明距离(用于分类/布尔变量)、余弦相似度。
- 层次聚类:
- 聚合策略 (AGNES):自底向上,将每个样本看作一个簇,逐渐合并。
- 分拆策略 (DIANA):自顶向下,将所有样本看作一个大簇,逐渐分裂。
十、 降维与算法
- KD树 (K-Dimensional Tree):一种分割 kkk 维数据空间的数据结构,常用于加速寻找最近邻。
- PCA (主成分分析):一种通过线性变换将原始高维数据投影到低维空间的降维方法。
- 核心思想:最大化投影后的方差,保留数据最主要的特征。
希望这份梳理对你备考或复习有所帮助。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)