Week 1: 机器学习入门：基本概念、回归与误差分析

CN_lyl

311人浏览 · 2026-05-24 21:12:06

CN_lyl · 2026-05-24 21:12:06 发布

全文目录图示

Week 1 机器学习入门：基本概念、回归与误差分析

├─ 摘要

├─ Abstract

├─ 1 机器学习基础

│ ├─ 1.1 为什么需要机器学习

│ ├─ 1.2 AI、机器学习与深度学习

│ ├─ 1.3 机器学习的数学本质

│ ├─ 1.4 机器学习的基本流程

│ └─ 1.5 常见机器学习任务

├─ 2 回归模型

│ ├─ 2.1 回归任务定义

│ ├─ 2.2 线性模型

│ ├─ 2.3 损失函数

│ ├─ 2.4 梯度下降

│ ├─ 2.5 学习率

│ └─ 2.6 特征选择

├─ 3 误差分析

│ ├─ 3.1 模型误差来源

│ ├─ 3.2 偏差

│ ├─ 3.3 方差

│ ├─ 3.4 欠拟合与过拟合

│ └─ 3.5 偏差与方差权衡

└─ 总结

摘要

本周主要学习了机器学习的基本概念、典型任务类型、监督学习流程、回归模型的建立方法，以及模型误差来源分析。课程从“为什么需要机器学习”这一核心问题切入，帮助我们逐步厘清机器学习的本质，即从海量数据中挖掘规律，构建输入到输出的映射函数。在此基础上，本次学习以回归任务为核心实例，系统掌握了模型构建、损失函数、梯度下降、学习率设置、特征选择等核心知识点。最后，通过偏差与方差的核心理论，剖析了模型的误差来源，清晰区分了欠拟合与过拟合的核心特征，并掌握了两类模型问题的优化改进思路。

Abstract

This weekly report summarizes the foundational concepts of machine learning, including the relationship between artificial intelligence, machine learning, and deep learning. It introduces the general learning framework of selecting a model, defining a loss function, and optimizing parameters. Regression is used as a concrete example to explain linear models, loss functions, gradient descent, learning rate, and feature selection. The report also discusses error analysis through bias and variance, providing a basic understanding of underfitting, overfitting, and model generalization.

1 机器学习基础

1.1 为什么需要机器学习

传统程序的运行逻辑高度依赖人工编写的固定规则，通过大量条件判断语句定义系统的行为逻辑。但在现实场景中，多数复杂任务无法依靠人工编写完整规则实现，传统程序的局限性十分突出。

语音识别、图像识别、智能推荐系统等典型场景，均存在输入数据复杂、场景变化多样、潜在规律难以人工总结的特点。而机器学习的核心价值，是让机器自主从海量数据中挖掘、总结潜在规律，摆脱对人工预设规则的过度依赖。

综上，机器学习本质是一种依托数据提取内在规律、构建智能预测能力的技术方法。

1.2 AI、机器学习与深度学习

人工智能（Artificial Intelligence）是整体技术目标，旨在让机器具备模拟人类的智能行为。机器学习（Machine Learning）是实现人工智能的核心技术方法，是人工智能体系的重要组成部分。深度学习（Deep Learning）则是机器学习的重要分支，主要通过多层神经网络拟合数据的复杂特征与内在规律。

三者的层级包含关系可概括为：AI > Machine Learning > Deep Learning

其中，人工智能侧重最终的智能实现目标，机器学习侧重数据驱动的学习方法，深度学习则是机器学习领域中依托神经网络的具体技术路线。

1.3 机器学习的数学本质

机器学习的核心数学本质，是从海量数据中拟合、筛选出适配任务的最优映射函数。

在各类机器学习任务中，模型接收外部输入数据，通过函数运算输出预测结果，而模型训练的核心目标，是不断优化函数参数，让模型预测值无限贴近真实结果。

常见应用场景如下：

输入图像数据，输出对应的图像分类结果；

输入邮件文本内容，输出垃圾邮件识别结果；

输入历史空气质量监测数据，输出未来时段PM2.5预测数值。

从数学层面而言，机器学习的全过程，就是持续寻找、优化输入与输出之间映射关系的过程。

1.4 机器学习的基本流程

所有典型的机器学习任务，均遵循标准化的三步执行流程，逻辑清晰且层层递进。

第一步，选择模型。模型决定了函数的拟合范围，限定了可供选择的函数集合，是任务实现的基础框架。

第二步，定义损失函数。损失函数是核心评价指标，用于精准衡量模型预测结果与真实标签之间的误差大小。

第三步，算法优化参数。依托专业的优化算法，在模型参数空间内迭代搜索，持续缩小损失函数的误差值。

该流程可简化概括为：Model -> Loss Function -> Optimization

模型训练完成后，核心评价标准并非训练集的优异表现，而是模型的泛化能力，即模型在从未接触过的全新测试数据上的适配与预测能力。

1.5 常见机器学习任务

根据输出结果的形式差异，机器学习任务主要分为三大类，适配不同的业务场景。

回归任务的输出为连续型数值，典型应用包括房价预测、气温预测、空气质量PM2.5数值预测等。

分类任务的输出为离散型类别标签，典型应用包括垃圾邮件识别、图像分类、新闻文本分类等。

结构化学习任务的输出为具备完整结构的目标对象，典型应用包括语音识别输出文本语句、机器翻译输出目标语言文本、目标检测输出物体类别与位置坐标等。

不同任务的输出形式存在本质区别，需匹配对应的模型结构与评价指标。

2 回归模型

2.1 回归任务定义

回归是机器学习中最基础、最核心的基础任务之一，核心目标是基于输入特征，预测得到连续型数值结果。

以空气质量预测任务为例，可将历史时段的各类污染物监测数据作为模型输入特征，对未来指定时间节点的PM2.5数值进行预测。整个任务的核心，是挖掘输入特征与输出数值之间的内在关联，构建稳定的映射关系。

2.2 线性模型

线性模型是回归任务中结构简单、实用性极强的基础模型，核心假设为模型输出是各类输入特征的加权求和结果。

线性模型的通用公式：y = b + w1*x1 + w2*x2 + ... + wn*xn

参数释义：x 代表输入特征，w 代表特征对应的权重，b 代表偏置项，y 代表模型最终预测值。

线性回归模型的训练过程，本质是迭代优化权重与偏置参数，不断缩小预测值与真实值的误差，提升模型拟合精度。

2.3 损失函数

损失函数是量化模型预测误差的核心工具，用于直观反映预测结果与真实结果的偏差程度。

回归任务中最常用的损失函数为平方误差损失函数，计算公式为：loss = (真实值 - 预测值)²

模型预测值与真实值越接近，损失函数数值越小，代表模型拟合效果越好；两者偏差越大，损失值越高，模型性能越差。

因此，模型训练的核心目标，就是求解最优参数组合，让所有训练样本的总损失值最小化。

2.4 梯度下降

梯度下降是机器学习中主流的参数优化算法，核心作用是迭代更新模型参数，实现损失函数的最小化。

梯度下降的完整执行流程：

1. 随机初始化模型的全部参数；

2. 计算当前参数组合下的模型总损失值；

3. 求解损失函数的梯度，确定损失值的上升方向；

4. 沿梯度的反方向更新模型参数，降低整体损失值；

5. 循环迭代上述步骤，直至损失值趋于稳定、不再明显下降。

梯度代表损失函数上升速度最快的方向，因此参数更新需反向迭代，以此持续优化模型性能。

2.5 学习率

学习率是模型训练中关键的超参数，主要用于控制每一轮参数更新的步长大小，直接影响模型的训练效率与收敛效果。

若学习率设置过小，参数迭代更新速度极慢，模型需要大量迭代轮次才能完成收敛，训练效率极低；若学习率设置过大，参数更新步长过大会越过最优参数点，导致损失值剧烈震荡、无法收敛，甚至出现数值发散的问题。

合理设置学习率，能够保障模型快速、稳定收敛，是模型训练调优的核心环节。

2.6 特征选择

特征是模型学习数据规律的核心依据，直接决定模型能够挖掘的数据信息维度。

以PM2.5预测任务为例，可单独使用前一小时的PM2.5监测数据作为特征，也可融合多时段历史污染物数据，同时还可引入温度、湿度、风速等环境辅助特征，丰富模型输入维度。

优质的特征能够有效提升模型的预测精度与泛化能力，但冗余、无关的特征会增加模型计算复杂度，极易引发过拟合问题。因此，特征选择需要结合任务场景、数据质量综合判断，筛选高价值特征。

3 误差分析

3.1 模型误差来源

当模型预测效果不佳时，不能简单判定为模型精度不足，需系统性拆解误差来源。机器学习模型的常见误差成因包括：模型表达能力不足、模型复杂度过高、训练样本数量不足、特征选择不合理、训练集与测试集数据分布不一致等。

为实现精准的误差诊断，可通过偏差与方差两大核心指标，系统分析模型存在的问题。

3.2 偏差

偏差用于衡量模型预设假设与数据真实规律之间的差距，反映模型的拟合能力上限。

高偏差的核心成因是模型结构过于简单，无法拟合数据中复杂的内在规律。例如数据真实规律为非线性曲线，而模型仅能实现线性拟合，会导致拟合效果极差。

高偏差会直接引发欠拟合问题，具体表现为模型在训练集和测试集上的误差均较高，整体拟合效果较差。

降低模型偏差的常用方法：选用复杂度更高的模型、新增有效特征、弱化模型约束条件、充分完成模型迭代训练。

3.3 方差

方差用于衡量模型对训练数据波动的敏感程度，反映模型的稳定性与泛化能力。

高方差的核心成因是模型复杂度过高，过度学习了单批次训练数据中的噪声与随机特征，忽略了数据的通用规律。这类模型通常在训练集上表现优异，但在陌生的测试集上误差大幅升高。

高方差会直接引发过拟合问题，本质是模型记忆了训练数据的个体噪声，未学习到可通用的核心规律。

降低模型方差的常用方法：扩充训练样本数量、引入正则化约束、降低模型复杂度、借助验证集筛选最优模型。

3.4 欠拟合与过拟合

欠拟合和过拟合是模型训练过程中最常见的两类缺陷，直接决定模型的泛化性能。

欠拟合由模型复杂度不足、偏差过高导致，核心特征是训练误差与测试误差均处于较高水平，模型无法捕捉数据核心规律。

过拟合由模型复杂度过高、方差过高导致，核心特征是训练误差极低，但测试误差显著偏高，模型泛化能力极差。

可通过对比训练误差与测试误差，快速判定模型状态：

训练误差、测试误差均偏高：模型存在欠拟合问题；

训练误差偏低、测试误差偏高：模型存在过拟合问题；

训练误差、测试误差均偏低且数值接近：模型拟合效果优异、泛化能力良好。

3.5 偏差与方差权衡

偏差-方差权衡是机器学习模型优化的核心思想，是模型调优的核心准则。

通常情况下，简单模型的拟合能力有限，偏差较高、方差较低，模型稳定性强但精度不足；复杂模型的拟合能力极强，偏差较低、方差较高，精度优异但极易过拟合、稳定性差。

模型优化的核心目标，并非一味提升模型复杂度，而是在偏差与方差之间寻找最优平衡，让模型既能够精准学习数据内在规律，又具备良好的泛化能力，适配全新数据场景。

总结

本周的机器学习入门学习，构建了“基础概念-模型实践-误差诊断”的完整知识体系。首先，我明确了机器学习的核心本质是依托数据自主学习规律，构建输入输出的映射函数，厘清了人工智能、机器学习与深度学习三者的层级关系。其次，掌握了机器学习标准化训练流程，即选择模型、定义损失函数、迭代优化参数。同时，以线性回归任务为载体，吃透了模型结构、损失函数、梯度下降、学习率、特征选择等核心实操知识点。最后，通过偏差与方差理论，系统掌握了模型误差的分析方法，能够精准区分欠拟合与过拟合的特征，并掌握对应的优化方案。

通过本次学习，我不仅梳理了机器学习的整体运行逻辑，更打破了“仅追求训练集高精度”的认知误区，深刻理解了模型训练的核心目标是提升泛化能力，保障模型在真实未知场景中能够稳定输出优质结果。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从开发者视角看 Codex 订阅稳定性：为什么近期使用体验差异变大？

2026 年之后，AI 编程助手已经逐渐从“新鲜工具”变成了开发者的日常工具。对于 Codex 这类产品来说，大家关注的重点也在变化。过去更关注：它会不会写代码？它懂不懂框架？它生成得准不准？现在还需要关注：能不能长期稳定使用？订阅状态是否可靠？是否适合放进日常开发流程？出现异常时是否容易恢复？开发者选择工具，不能只看短期成本，更要看长期效率。一个稳定、可持续、能融入工作流的 AI 编程助手，才是