全文目录图示

Week 1 机器学习入门:基本概念、回归与误差分析

├─ 摘要

├─ Abstract

├─ 1 机器学习基础

│  ├─ 1.1 为什么需要机器学习

│  ├─ 1.2 AI、机器学习与深度学习

│  ├─ 1.3 机器学习的数学本质

│  ├─ 1.4 机器学习的基本流程

│  └─ 1.5 常见机器学习任务

├─ 2 回归模型

│  ├─ 2.1 回归任务定义

│  ├─ 2.2 线性模型

│  ├─ 2.3 损失函数

│  ├─ 2.4 梯度下降

│  ├─ 2.5 学习率

│  └─ 2.6 特征选择

├─ 3 误差分析

│  ├─ 3.1 模型误差来源

│  ├─ 3.2 偏差

│  ├─ 3.3 方差

│  ├─ 3.4 欠拟合与过拟合

│  └─ 3.5 偏差与方差权衡

└─ 总结

摘要

本周主要学习了机器学习的基本概念、典型任务类型、监督学习流程、回归模型的建立方法,以及模型误差来源分析。课程从“为什么需要机器学习”这一核心问题切入,帮助我们逐步厘清机器学习的本质,即从海量数据中挖掘规律,构建输入到输出的映射函数。在此基础上,本次学习以回归任务为核心实例,系统掌握了模型构建、损失函数、梯度下降、学习率设置、特征选择等核心知识点。最后,通过偏差与方差的核心理论,剖析了模型的误差来源,清晰区分了欠拟合与过拟合的核心特征,并掌握了两类模型问题的优化改进思路。

Abstract

This weekly report summarizes the foundational concepts of machine learning, including the relationship between artificial intelligence, machine learning, and deep learning. It introduces the general learning framework of selecting a model, defining a loss function, and optimizing parameters. Regression is used as a concrete example to explain linear models, loss functions, gradient descent, learning rate, and feature selection. The report also discusses error analysis through bias and variance, providing a basic understanding of underfitting, overfitting, and model generalization.

1 机器学习基础

1.1 为什么需要机器学习

传统程序的运行逻辑高度依赖人工编写的固定规则,通过大量条件判断语句定义系统的行为逻辑。但在现实场景中,多数复杂任务无法依靠人工编写完整规则实现,传统程序的局限性十分突出。

语音识别、图像识别、智能推荐系统等典型场景,均存在输入数据复杂、场景变化多样、潜在规律难以人工总结的特点。而机器学习的核心价值,是让机器自主从海量数据中挖掘、总结潜在规律,摆脱对人工预设规则的过度依赖。

综上,机器学习本质是一种依托数据提取内在规律、构建智能预测能力的技术方法。

1.2 AI、机器学习与深度学习

人工智能(Artificial Intelligence)是整体技术目标,旨在让机器具备模拟人类的智能行为。机器学习(Machine Learning)是实现人工智能的核心技术方法,是人工智能体系的重要组成部分。深度学习(Deep Learning)则是机器学习的重要分支,主要通过多层神经网络拟合数据的复杂特征与内在规律。

三者的层级包含关系可概括为:AI > Machine Learning > Deep Learning

其中,人工智能侧重最终的智能实现目标,机器学习侧重数据驱动的学习方法,深度学习则是机器学习领域中依托神经网络的具体技术路线。

1.3 机器学习的数学本质

机器学习的核心数学本质,是从海量数据中拟合、筛选出适配任务的最优映射函数。

在各类机器学习任务中,模型接收外部输入数据,通过函数运算输出预测结果,而模型训练的核心目标,是不断优化函数参数,让模型预测值无限贴近真实结果。

常见应用场景如下:

输入图像数据,输出对应的图像分类结果;

输入邮件文本内容,输出垃圾邮件识别结果;

输入历史空气质量监测数据,输出未来时段PM2.5预测数值。

从数学层面而言,机器学习的全过程,就是持续寻找、优化输入与输出之间映射关系的过程。

1.4 机器学习的基本流程

所有典型的机器学习任务,均遵循标准化的三步执行流程,逻辑清晰且层层递进。

第一步,选择模型。模型决定了函数的拟合范围,限定了可供选择的函数集合,是任务实现的基础框架。

第二步,定义损失函数。损失函数是核心评价指标,用于精准衡量模型预测结果与真实标签之间的误差大小。

第三步,算法优化参数。依托专业的优化算法,在模型参数空间内迭代搜索,持续缩小损失函数的误差值。

该流程可简化概括为:Model -> Loss Function -> Optimization

模型训练完成后,核心评价标准并非训练集的优异表现,而是模型的泛化能力,即模型在从未接触过的全新测试数据上的适配与预测能力。

1.5 常见机器学习任务

根据输出结果的形式差异,机器学习任务主要分为三大类,适配不同的业务场景。

回归任务的输出为连续型数值,典型应用包括房价预测、气温预测、空气质量PM2.5数值预测等。

分类任务的输出为离散型类别标签,典型应用包括垃圾邮件识别、图像分类、新闻文本分类等。

结构化学习任务的输出为具备完整结构的目标对象,典型应用包括语音识别输出文本语句、机器翻译输出目标语言文本、目标检测输出物体类别与位置坐标等。

不同任务的输出形式存在本质区别,需匹配对应的模型结构与评价指标。

2 回归模型

2.1 回归任务定义

回归是机器学习中最基础、最核心的基础任务之一,核心目标是基于输入特征,预测得到连续型数值结果。

以空气质量预测任务为例,可将历史时段的各类污染物监测数据作为模型输入特征,对未来指定时间节点的PM2.5数值进行预测。整个任务的核心,是挖掘输入特征与输出数值之间的内在关联,构建稳定的映射关系。

2.2 线性模型

线性模型是回归任务中结构简单、实用性极强的基础模型,核心假设为模型输出是各类输入特征的加权求和结果。

线性模型的通用公式:y = b + w1*x1 + w2*x2 + ... + wn*xn

参数释义:x 代表输入特征,w 代表特征对应的权重,b 代表偏置项,y 代表模型最终预测值。

线性回归模型的训练过程,本质是迭代优化权重与偏置参数,不断缩小预测值与真实值的误差,提升模型拟合精度。

2.3 损失函数

损失函数是量化模型预测误差的核心工具,用于直观反映预测结果与真实结果的偏差程度。

回归任务中最常用的损失函数为平方误差损失函数,计算公式为:loss = (真实值 - 预测值)²

模型预测值与真实值越接近,损失函数数值越小,代表模型拟合效果越好;两者偏差越大,损失值越高,模型性能越差。

因此,模型训练的核心目标,就是求解最优参数组合,让所有训练样本的总损失值最小化。

2.4 梯度下降

梯度下降是机器学习中主流的参数优化算法,核心作用是迭代更新模型参数,实现损失函数的最小化。

梯度下降的完整执行流程:

1. 随机初始化模型的全部参数;

2. 计算当前参数组合下的模型总损失值;

3. 求解损失函数的梯度,确定损失值的上升方向;

4. 沿梯度的反方向更新模型参数,降低整体损失值;

5. 循环迭代上述步骤,直至损失值趋于稳定、不再明显下降。

梯度代表损失函数上升速度最快的方向,因此参数更新需反向迭代,以此持续优化模型性能。

2.5 学习率

学习率是模型训练中关键的超参数,主要用于控制每一轮参数更新的步长大小,直接影响模型的训练效率与收敛效果。

若学习率设置过小,参数迭代更新速度极慢,模型需要大量迭代轮次才能完成收敛,训练效率极低;若学习率设置过大,参数更新步长过大会越过最优参数点,导致损失值剧烈震荡、无法收敛,甚至出现数值发散的问题。

合理设置学习率,能够保障模型快速、稳定收敛,是模型训练调优的核心环节。

2.6 特征选择

特征是模型学习数据规律的核心依据,直接决定模型能够挖掘的数据信息维度。

以PM2.5预测任务为例,可单独使用前一小时的PM2.5监测数据作为特征,也可融合多时段历史污染物数据,同时还可引入温度、湿度、风速等环境辅助特征,丰富模型输入维度。

优质的特征能够有效提升模型的预测精度与泛化能力,但冗余、无关的特征会增加模型计算复杂度,极易引发过拟合问题。因此,特征选择需要结合任务场景、数据质量综合判断,筛选高价值特征。

3 误差分析

3.1 模型误差来源

当模型预测效果不佳时,不能简单判定为模型精度不足,需系统性拆解误差来源。机器学习模型的常见误差成因包括:模型表达能力不足、模型复杂度过高、训练样本数量不足、特征选择不合理、训练集与测试集数据分布不一致等。

为实现精准的误差诊断,可通过偏差与方差两大核心指标,系统分析模型存在的问题。

3.2 偏差

偏差用于衡量模型预设假设与数据真实规律之间的差距,反映模型的拟合能力上限。

高偏差的核心成因是模型结构过于简单,无法拟合数据中复杂的内在规律。例如数据真实规律为非线性曲线,而模型仅能实现线性拟合,会导致拟合效果极差。

高偏差会直接引发欠拟合问题,具体表现为模型在训练集和测试集上的误差均较高,整体拟合效果较差。

降低模型偏差的常用方法:选用复杂度更高的模型、新增有效特征、弱化模型约束条件、充分完成模型迭代训练。

3.3 方差

方差用于衡量模型对训练数据波动的敏感程度,反映模型的稳定性与泛化能力。

高方差的核心成因是模型复杂度过高,过度学习了单批次训练数据中的噪声与随机特征,忽略了数据的通用规律。这类模型通常在训练集上表现优异,但在陌生的测试集上误差大幅升高。

高方差会直接引发过拟合问题,本质是模型记忆了训练数据的个体噪声,未学习到可通用的核心规律。

降低模型方差的常用方法:扩充训练样本数量、引入正则化约束、降低模型复杂度、借助验证集筛选最优模型。

3.4 欠拟合与过拟合

欠拟合和过拟合是模型训练过程中最常见的两类缺陷,直接决定模型的泛化性能。

欠拟合由模型复杂度不足、偏差过高导致,核心特征是训练误差与测试误差均处于较高水平,模型无法捕捉数据核心规律。

过拟合由模型复杂度过高、方差过高导致,核心特征是训练误差极低,但测试误差显著偏高,模型泛化能力极差。

可通过对比训练误差与测试误差,快速判定模型状态:

训练误差、测试误差均偏高:模型存在欠拟合问题;

训练误差偏低、测试误差偏高:模型存在过拟合问题;

训练误差、测试误差均偏低且数值接近:模型拟合效果优异、泛化能力良好。

3.5 偏差与方差权衡

偏差-方差权衡是机器学习模型优化的核心思想,是模型调优的核心准则。

通常情况下,简单模型的拟合能力有限,偏差较高、方差较低,模型稳定性强但精度不足;复杂模型的拟合能力极强,偏差较低、方差较高,精度优异但极易过拟合、稳定性差。

模型优化的核心目标,并非一味提升模型复杂度,而是在偏差与方差之间寻找最优平衡,让模型既能够精准学习数据内在规律,又具备良好的泛化能力,适配全新数据场景。

总结

本周的机器学习入门学习,构建了“基础概念-模型实践-误差诊断”的完整知识体系。首先,我明确了机器学习的核心本质是依托数据自主学习规律,构建输入输出的映射函数,厘清了人工智能、机器学习与深度学习三者的层级关系。其次,掌握了机器学习标准化训练流程,即选择模型、定义损失函数、迭代优化参数。同时,以线性回归任务为载体,吃透了模型结构、损失函数、梯度下降、学习率、特征选择等核心实操知识点。最后,通过偏差与方差理论,系统掌握了模型误差的分析方法,能够精准区分欠拟合与过拟合的特征,并掌握对应的优化方案。

通过本次学习,我不仅梳理了机器学习的整体运行逻辑,更打破了“仅追求训练集高精度”的认知误区,深刻理解了模型训练的核心目标是提升泛化能力,保障模型在真实未知场景中能够稳定输出优质结果。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐