AI_机器学习-5.机器学习概述
机器学习基础:五大类别详解
本文重新组织内容结构,先建立宏观框架(时间线、概念层级),再分述五大类别,最后对比总结,帮助清晰理解。
目录
- 引言
- 历史时间线与概念层级总览
- 五大类别详解
- 3.1 监督学习
- 3.2 无监督学习
- 3.3 半监督学习
- 3.4 强化学习
- 3.5 深度学习
- 强化学习 vs 深度学习:深度对比
- 综合对比表
- 总结与选择指南
1. 引言
机器学习是人工智能的核心,让计算机从数据中自动学习规律。根据训练数据的不同和学习目标,主要分为五大类别:
- 监督学习:使用带标签数据,预测未知标签。
- 无监督学习:使用无标签数据,发现内在结构。
- 半监督学习:少量标签 + 大量无标签。
- 强化学习:与环境交互,最大化累积奖励。
- 深度学习:使用深层神经网络自动提取特征(可应用于前四类)。
其中,强化学习和深度学习经常被混淆,本文会重点澄清它们的区别与联系。
2. 历史时间线与概念层级总览
2.1 提出时间简表
| 领域 | 关键事件 | 时间 | 意义 |
|---|---|---|---|
| 强化学习 | 图灵提出奖惩学习思想 | 1950年 | 思想奠基 |
| 贝尔曼提出动态规划 | 1950年代 | 数学框架 | |
| 沃特金斯提出Q-learning | 1989年 | 里程碑算法 | |
| DQN(深度强化学习) | 2015年 | 融合深度学习 | |
| 深度学习 | M-P神经元模型 | 1943年 | 神经网络起源 |
| 感知机发明 | 1958年 | 首次实践 | |
| 辛顿等正式提出“深度学习”概念 | 2006年 | 概念确立 | |
| AlexNet爆发 | 2012年 | 技术繁荣 |
2.2 概念层级图
flowchart TD
AI[人工智能 AI]
ML[机器学习 Machine Learning]
SL[监督学习]
UL[无监督学习]
RL[强化学习]
subgraph DL[深度学习 Deep Learning]
DNN[深层神经网络]
end
AI --> ML
ML --> SL
ML --> UL
ML --> RL
ML --> DL
RL -.-> |深度强化学习| DL
SL -.-> |深度监督学习| DL
UL -.-> |深度无监督学习| DL
- 机器学习(ML):人工智能的子领域,研究如何从数据中学习。
- 监督/无监督/强化学习:三种学习范式(解决“做什么”)。
- 深度学习(DL):一种技术实现(解决“如何做”),使用深层神经网络,可服务于任何范式。
核心区别:强化学习是一种学习范式,深度学习是一种模型技术。两者正交,可以独立使用,也可以结合(深度强化学习)。
3. 五大类别详解
3.1 监督学习(Supervised Learning)
类比:考试有标准答案 —— 给你习题和答案,学会后做新题。
定义:使用带有标签的数据训练模型,学习从输入到输出的映射。
主要任务:
- 分类(输出离散类别)
- 回归(输出连续数值)
常用算法:
- 分类:逻辑回归、SVM、KNN、决策树、随机森林、XGBoost、朴素贝叶斯
- 回归:线性回归、岭回归、Lasso、SVR
适用场景:垃圾邮件检测、房价预测、图像识别、信用评分。
时间线:1950s-1990s逐步成熟(感知机、最近邻、决策树等)。
3.2 无监督学习(Unsupervised Learning)
类比:整理散乱的玩具 —— 按形状、颜色自发分组。
定义:使用没有标签的数据,发现数据中的结构或模式。
主要任务:
- 聚类
- 降维
- 关联规则挖掘
常用算法:
- 聚类:K-Means、DBSCAN、层次聚类、GMM
- 降维:PCA、t-SNE、UMAP、自编码器
- 关联规则:Apriori、FP-Growth
适用场景:客户分群、推荐系统、图像压缩、异常检测。
时间线:1960s-1990s(K-Means、PCA、Apriori等)。
3.3 半监督学习(Semi-supervised Learning)
类比:少量带答案的习题 + 大量无答案习题 —— 先学后推。
定义:同时使用少量有标签数据和大量无标签数据训练,降低标注成本。
常用算法:标签传播、标签扩散、半监督SVM(S3VM)、基于图的方法。
适用场景:网页分类、医疗影像分析、语音识别。
时间线:1990s兴起。
3.4 强化学习(Reinforcement Learning, RL)
类比:训练小狗 —— 做对给零食,做错不给,通过试错学会最大化奖励。
定义:智能体与环境交互,学习策略:在某个状态下采取什么动作,使得累积奖励最大。没有固定标签,只有延迟的奖励信号。
核心要素:智能体、环境、状态、动作、奖励、策略。
常用算法:
- 基于价值:Q-Learning、DQN
- 基于策略:Policy Gradient、PPO、A3C
- 结合:Actor-Critic、SAC、TD3
适用场景:游戏AI(AlphaGo)、机器人控制、自动驾驶、推荐系统(在线学习)。
关键时间点:
- 1950年:图灵思想
- 1989年:Q-learning
- 2015年:深度Q网络(DQN)—— 与深度学习融合
概念定位:强化学习是一种学习范式,与监督/无监督并列。它不限定模型,可用表格、线性函数或神经网络实现。
3.5 深度学习(Deep Learning, DL)
类比:多层流水线 —— 第一层检测边缘,第二层检测形状,第三层识别物体部件,逐层抽象。
定义:机器学习的一个子集,使用多层神经网络自动从原始数据中学习层次化特征。它是表示学习技术,可应用于监督、无监督、强化学习。
什么是“深度”:
- 深度 = 神经网络的隐藏层数量。
- 浅层网络:1个隐藏层。
- 深度网络:≥2个隐藏层(实践中常远大于2,如ResNet上百层)。
- 输入层和输出层不计入深度。
常用模型架构:
- 多层感知机(MLP)
- 卷积神经网络(CNN)—— 图像
- 循环神经网络(RNN/LSTM/GRU)—— 序列
- Transformer —— NLP、视觉
- 生成对抗网络(GAN)
- 自编码器
主要特性:
- 端到端学习,无需手工特征
- 依赖大量数据和高性能硬件(GPU/TPU)
- 可解释性差(黑箱)
- 容易过拟合,需正则化
适用场景:
- 图像分类、目标检测、人脸识别
- 自然语言处理(机器翻译、文本生成)
- 语音识别、合成
- 自动驾驶感知
- 深度强化学习(与RL结合)
关键时间点:
- 1943年:M-P神经元模型
- 1958年:感知机
- 2006年:辛顿等正式提出“深度学习”概念
- 2012年:AlexNet爆发
概念定位:深度学习是一种技术工具,不是独立的学习范式。它可服务于监督学习(CNN分类)、无监督学习(自编码器)、强化学习(深度强化学习)。
4. 强化学习 vs 深度学习:深度对比
| 维度 | 强化学习 (RL) | 深度学习 (DL) |
|---|---|---|
| 本质 | 学习范式(“做什么”) | 模型技术(“如何做”) |
| 概念层级 | 机器学习三大范式之一 | 机器学习的一个子集(技术) |
| 提出标志 | 1950年代思想 / 1989 Q-learning | 2006年概念确立 |
| 核心问题 | 最大化累积奖励 | 学习层次化特征表示 |
| 数据来源 | 环境交互(非独立同分布) | 静态数据集(通常独立同分布) |
| 反馈形式 | 奖励信号(延迟、稀疏) | 明确标签或重构误差 |
| 是否依赖标签 | 否(依赖奖励函数) | 监督学习依赖标签;无监督不依赖 |
| 典型算法 | Q-Learning, Policy Gradient | CNN, RNN, Transformer |
| 能否独立存在 | 能(表格Q-learning) | 能(监督分类) |
| 结合产物 | 深度强化学习(DQN等) | 深度强化学习 |
关键澄清
- 强化学习可以不“深”:传统强化学习用表格或线性函数,不涉及神经网络。
- 深度学习可以不“强化”:绝大多数深度学习应用是监督学习(图像分类、机器翻译)。
- 深度强化学习 = 深度学习 + 强化学习:用深度神经网络作为函数逼近器解决强化学习问题。
5. 综合对比表(五大类别)
| 维度 | 监督学习 | 无监督学习 | 半监督学习 | 强化学习 | 深度学习 |
|---|---|---|---|---|---|
| 数据标签 | 全标签 | 无标签 | 少量标签+大量无标签 | 奖励信号(非标签) | 依赖具体任务 |
| 目标 | 预测未知标签 | 发现内在结构 | 利用无标签提升性能 | 最大化累积奖励 | 学习层次化特征 |
| 典型任务 | 分类、回归 | 聚类、降维 | 文本分类、图像分割 | 游戏、机器人 | 图像识别、NLP |
| 常见算法 | 线性回归、SVM、随机森林 | K-Means、PCA | 标签传播、半监督SVM | Q-Learning、PPO | CNN、RNN、Transformer |
| 训练数据需求 | 大量标注(成本高) | 大量无标注(易得) | 少量标注+大量无标注 | 环境交互(模拟器或真实) | 海量数据+GPU |
| 计算资源 | 低~中 | 低~中 | 中 | 中~高 | 高(GPU集群) |
| 可解释性 | 较好 | 中等 | 中等 | 差 | 差 |
| 典型应用 | 垃圾邮件过滤 | 客户分群 | 网页分类 | AlphaGo | 人脸识别、ChatGPT |
| 提出/成熟时间 | 1950s-1990s | 1960s-1990s | 1990s | 1950s思想,1989 Q-learning | 1943模型起源,2006概念确立 |
6. 总结与选择指南
如何选择合适的方法?
- 有大量标注数据 → 监督学习(或深度学习做监督)
- 只有无标注数据 → 无监督学习(聚类/降维)或半监督学习(如果少量标注可行)
- 标注成本高,但有无标注数据 → 半监督学习
- 任务需要序列决策,有环境交互 → 强化学习(可结合深度学习成为深度强化学习)
- 数据量大、问题复杂(图像、语音、文本) → 深度学习(可能结合监督/无监督/强化)
核心要点回顾
- 强化学习和深度学习不是互斥的:一个是学习范式,一个是模型技术。它们可以独立使用,也可以结合(深度强化学习)。
- 理解时间线与概念层级有助于区分历史积累与近期突破,合理选择技术路线。
- 深度学习因自动特征提取而强大,但需要大量数据和计算资源;强化学习擅长序列决策,但训练可能不稳定。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)