机器学习概述:从概念到建模流程

机器学习概述

知识导图

机器学习概述
├─ 三大概念:AI(仿人类智能)→ ML(自动学习)→ DL(深度神经网络)
├─ 学习方式:基于规则(if-else) vs 基于模型(从数据学规律)
├─ 核心术语:样本、特征、标签、训练集、测试集
├─ 算法分类:监督/无监督/半监督/强化学习
├─ 建模流程:获取数据→数据处理→特征工程→模型训练→评估→上线
├─ 特征工程:提取、预处理、降维、选择、组合
├─ 模型拟合:欠拟合(太简单)、过拟合(太复杂)、泛化能力
└─ 开发环境:scikit-learn 工具库

1 人工智能三大概念

名词解释

人工智能(AI)
让机器模仿人类智能,使计算机像人一样思考、学习、决策。

机器学习(ML)
让计算机自动从数据中学习规律,无需人工显式编程规则。

深度学习(DL)
机器学习的一个分支,模拟大脑神经元结构,用多层神经网络学习复杂特征。

三者关系

  • 机器学习是实现人工智能的途径

  • 深度学习是机器学习的一种方法
    在这里插入图片描述

2 两种学习方式(对比辨析)

2.1 基于规则的学习

  • 人工编写 if-else 规则

  • 适合规则明确的场景

  • 缺点:复杂问题(图像、语音)无法写规则

2.2 基于模型的学习

  • 数据中自动学习规律

  • 模型:如线性方程 y = ax + b

  • 适合复杂任务:图像、语音、NLP(Natural Language Processing 自然语言处理)
    在这里插入图片描述

对比表

方式 原理 适用场景 复杂度
规则学习 人工 if-else 简单明确规则
模型学习 数据自动归纳 图像 / 语音 / 预测

3 机器学习应用领域

  • 计算机视觉(CV):图像识别、无人驾驶

  • 自然语言处理(NLP):智能翻译、对话

  • 数据挖掘、医疗诊断、金融预测


4 机器学习发展史

  • 1956:达特茅斯会议 → AI 元年

  • 1997:深蓝战胜卡斯帕罗夫

  • 2012:AlexNet → 深度学习兴起

  • 2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)

  • 2017:自然语言处理NLP的Transformer框架出现

  • 2022:ChatGPT → AIGC 时代 ( Artificial Intelligence Generated Content 人工智能生成式内容)


5 AI 发展三要素

数据、算法、算力

  • CPU:I/O 密集型

  • GPU:计算密集型

  • TPU:专为大模型训练设计

在这里插入图片描述


6 机器学习核心术语

名词解释

样本(sample):一行数据,一条记录
特征(feature):一列属性,用于预测的信息
标签(label/target):要预测的目标值
训练集(train):训练模型
测试集(test):评估模型

在这里插入图片描述


7 机器学习算法分类(对比辨析)

7.1 监督学习(有标签)

  • 分类:预测离散值(好瓜 / 坏瓜)

  • 回归:预测连续值(房价、薪资)

7.2 无监督学习(无标签)

  • 聚类:按相似度自动分组

  • 目标:发现数据内部结构

7.3 半监督学习

  • 少量有标签 + 大量无标签

  • 降低标注成本

7.4 强化学习

  • 智能体 + 环境 + 动作 + 奖励

  • 目标:长期收益最大化(AlphaGo、游戏)
    在这里插入图片描述

对比表

类型 数据 目标 例子
监督学习 有标签 预测 分类 / 回归
无监督 无标签 分组 聚类
半监督 部分标签 低成本学习 文本分类
强化学习 交互数据 最大奖励 游戏、机器人

8 机器学习建模流程

  1. 获取数据

  2. 数据基本处理(缺失值、异常值)

  3. 特征工程

  4. 模型训练

  5. 模型评估

  6. 在线服务 / 预测

在这里插入图片描述


9 特征工程(核心)

名词解释

特征工程:用专业方法处理数据,让模型效果最优。
数据和特征决定上限,模型只逼近上限。

五大子领域

  1. 特征提取:从原始数据抽取有效信息

  2. 特征预处理:归一化、标准化

  3. 特征降维:减少特征数量,保留主要信息

  4. 特征选择:挑选重要特征,不修改原数据

  5. 特征组合:多特征合并(相乘 / 相加)

在这里插入图片描述


10 模型拟合问题

名词解释

拟合:模型对数据的模拟程度
泛化能力:模型在新数据上的表现

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型

1. 欠拟合(under-fitting)

  • 模型太简单

  • 训练集差、测试集差

2. 过拟合(over-fitting)

  • 模型太复杂

  • 训练集极好、测试集极差

原因

  • 欠拟合:模型简单、特征少

  • 过拟合:数据噪声、模型复杂、样本少

在这里插入图片描述


11 机器学习开发环境

scikit-learn

  • Python 机器学习库

  • 基于 NumPy、SciPy、matplotlib

  • 简单高效、开源免费

安装:

pip install scikit-learn

在这里插入图片描述


12 核心知识点总结

  1. AI → ML → DL 是包含关系

  2. 学习方式分:规则学习、模型学习

  3. 核心术语:样本、特征、标签、训练集 / 测试集

  4. 四大算法:监督、无监督、半监督、强化学习

  5. 建模六步:数据→处理→特征→训练→评估→上线

  6. 特征工程决定模型上限

  7. 欠拟合(太简单)、过拟合(太复杂)

  8. 开发工具:scikit-learn

AI → ML → DL 是包含关系

本质:从大到小的 “套娃” 层级

  • AI(人工智能):最大的概念,目标是让机器模拟人类智能(包括推理、感知、学习等)。

  • ML(机器学习):AI 的一个分支,核心是让机器从数据中自动学习规律,而不是靠人工写死规则。

  • DL(深度学习):ML 的一个子集,用多层神经网络自动学习特征,是现在 AI 的主流技术(比如大模型、CV、NLP 都用它)。

一句话记: AI 是目标,ML 是方法,DL 是实现 ML 的热门技术。


学习方式分:规则学习、模型学习

本质:机器 “怎么学会做事” 的两种思路

  • 规则学习(传统方式):人工写死规则,比如 “如果邮件包含‘中奖’,就判定为垃圾邮件”。优点是简单透明,缺点是规则复杂时写不完、覆盖不全。

  • 模型学习(机器学习):给机器大量数据,让它自己学规律,比如用 KNN / 逻辑回归自动判断垃圾邮件。优点是能处理复杂场景,缺点是需要数据、结果可能不透明。

一句话记: 规则学习是 “人教它怎么做”,模型学习是 “它自己从数据里学怎么做”。


核心术语:样本、特征、标签、训练集 / 测试集

本质:机器学习的 “基本零件”,必须分清

易错点: 测试集只能用来评估模型效果,绝对不能用测试集调参,否则会导致过拟合。


四大算法:监督、无监督、半监督、强化学习

本质:根据数据是否带标签、学习目标不同的分类

  • 监督学习:数据有标签,模型学 “输入→输出” 的映射。比如分类(猫狗识别)、回归(房价预测)。

  • 无监督学习:数据无标签,模型自己找规律。比如聚类(客户分群)、降维(PCA)。

  • 半监督学习:大部分数据无标签,少量有标签,结合两者优点。比如用少量标注数据 + 大量无标注数据训练模型。

  • 强化学习:模型通过和环境交互,靠 “奖励 / 惩罚” 学最优策略。比如 AlphaGo、游戏 AI、机器人控制。

一句话记: 监督是 “带答案做题”,无监督是 “自己找规律”,半监督是 “半带答案半自学”,强化学习是 “靠奖惩试错学”。


建模六步:数据→处理→特征→训练→评估→上线

本质:机器学习项目的完整流水线,按顺序执行

  1. 数据获取:收集业务数据(比如用户行为、业务日志)。

  2. 数据处理:清洗数据(去重、补缺失值、处理异常值)。

  3. 特征工程:把原始数据转成模型能用的特征(比如文本转词向量、类别编码)。

  4. 模型训练:选算法(KNN / 随机森林 / 神经网络),用训练集拟合模型。

  5. 模型评估:用测试集看效果(准确率、MAE 等),调参优化。

  6. 模型上线:把模型部署到生产环境,提供预测服务。

关键考点: 特征工程和数据处理占项目 80% 的工作量,模型训练只占 20%。


特征工程决定模型上限

本质:数据和特征决定了模型的天花板,算法只是在逼近这个上限

  • 再好的算法,用垃圾特征也做不出好效果;而好的特征,用简单的算法也能出好结果。

  • 比如预测房价,“地段、学区、地铁距离” 这些高质量特征,比用复杂的深度学习模型更重要。

  • 特征工程包括:特征选择、特征构造、特征变换(标准化 / 归一化)、特征降维。

一句话记: 数据和特征是 “地基”,算法是 “房子”,地基差,房子再豪华也不牢。


欠拟合(太简单)、过拟合(太复杂)

本质:模型在训练集和测试集上的表现失衡,是调参的核心问题

  • 欠拟合:模型太简单,连训练集的规律都没学会,训练集和测试集效果都差。比如用线性回归拟合非线性数据。解决:增加模型复杂度(比如换随机森林)、增加特征。

  • 过拟合:模型太复杂,把训练集的噪声也当成规律学了,训练集效果极好,测试集效果极差。比如 KNN 中 K=1,完全跟着训练数据走,泛化能力差。解决:降低模型复杂度(增大 K 值)、正则化、增加数据量、交叉验证。

一句话记: 欠拟合是 “没学会”,过拟合是 “学歪了,只会死记硬背训练题”。


开发工具:scikit-learn

本质:Python 中最主流的传统机器学习库,简单高效、开箱即用

  • 核心功能:

    • 分类 / 回归 / 聚类 / 降维等算法实现(比如 KNN、SVM、随机森林)。

    • 数据预处理(标准化、编码、拆分训练 / 测试集)。

    • 模型调优(网格搜索、交叉验证)。

  • 适用场景:中小规模数据、传统机器学习任务(非深度学习),是入门学习和工业界原型开发的首选。

一句话记: scikit-learn 是传统机器学习的 “瑞士军刀”,所有基础算法和工具都集成好了。


🔗 知识点串联总结

这些知识点是一个完整的体系:AI的目标 → 用ML的方法实现 → 按数据类型选学习方式(监督/无监督等) → 按流水线建模(数据→特征→训练→评估) → 重点关注特征工程和过拟合/欠拟合问题 → 用scikit\-learn工具落地


(注:文档部分内容可能由 AI 生成)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐