机器学习基础:五大类别详解

本文重新组织内容结构,先建立宏观框架(时间线、概念层级),再分述五大类别,最后对比总结,帮助清晰理解。

目录

  1. 引言
  2. 历史时间线与概念层级总览
  3. 五大类别详解
    • 3.1 监督学习
    • 3.2 无监督学习
    • 3.3 半监督学习
    • 3.4 强化学习
    • 3.5 深度学习
  4. 强化学习 vs 深度学习:深度对比
  5. 综合对比表
  6. 总结与选择指南

1. 引言

机器学习是人工智能的核心,让计算机从数据中自动学习规律。根据训练数据的不同和学习目标,主要分为五大类别:

  • 监督学习:使用带标签数据,预测未知标签。
  • 无监督学习:使用无标签数据,发现内在结构。
  • 半监督学习:少量标签 + 大量无标签。
  • 强化学习:与环境交互,最大化累积奖励。
  • 深度学习:使用深层神经网络自动提取特征(可应用于前四类)。

其中,强化学习和深度学习经常被混淆,本文会重点澄清它们的区别与联系。


2. 历史时间线与概念层级总览

2.1 提出时间简表

领域 关键事件 时间 意义
强化学习 图灵提出奖惩学习思想 1950年 思想奠基
贝尔曼提出动态规划 1950年代 数学框架
沃特金斯提出Q-learning 1989年 里程碑算法
DQN(深度强化学习) 2015年 融合深度学习
深度学习 M-P神经元模型 1943年 神经网络起源
感知机发明 1958年 首次实践
辛顿等正式提出“深度学习”概念 2006年 概念确立
AlexNet爆发 2012年 技术繁荣

2.2 概念层级图

flowchart TD
    AI[人工智能 AI]
    ML[机器学习 Machine Learning]
    SL[监督学习]
    UL[无监督学习]
    RL[强化学习]
    subgraph DL[深度学习 Deep Learning]
        DNN[深层神经网络]
    end

    AI --> ML
    ML --> SL
    ML --> UL
    ML --> RL
    ML --> DL
    
    RL -.-> |深度强化学习| DL
    SL -.-> |深度监督学习| DL
    UL -.-> |深度无监督学习| DL
  • 机器学习(ML):人工智能的子领域,研究如何从数据中学习。
  • 监督/无监督/强化学习:三种学习范式(解决“做什么”)。
  • 深度学习(DL):一种技术实现(解决“如何做”),使用深层神经网络,可服务于任何范式。

核心区别:强化学习是一种学习范式,深度学习是一种模型技术。两者正交,可以独立使用,也可以结合(深度强化学习)。


3. 五大类别详解

3.1 监督学习(Supervised Learning)

类比:考试有标准答案 —— 给你习题和答案,学会后做新题。

定义:使用带有标签的数据训练模型,学习从输入到输出的映射。

主要任务

  • 分类(输出离散类别)
  • 回归(输出连续数值)

常用算法

  • 分类:逻辑回归、SVM、KNN、决策树、随机森林、XGBoost、朴素贝叶斯
  • 回归:线性回归、岭回归、Lasso、SVR

适用场景:垃圾邮件检测、房价预测、图像识别、信用评分。

时间线:1950s-1990s逐步成熟(感知机、最近邻、决策树等)。


3.2 无监督学习(Unsupervised Learning)

类比:整理散乱的玩具 —— 按形状、颜色自发分组。

定义:使用没有标签的数据,发现数据中的结构或模式。

主要任务

  • 聚类
  • 降维
  • 关联规则挖掘

常用算法

  • 聚类:K-Means、DBSCAN、层次聚类、GMM
  • 降维:PCA、t-SNE、UMAP、自编码器
  • 关联规则:Apriori、FP-Growth

适用场景:客户分群、推荐系统、图像压缩、异常检测。

时间线:1960s-1990s(K-Means、PCA、Apriori等)。


3.3 半监督学习(Semi-supervised Learning)

类比:少量带答案的习题 + 大量无答案习题 —— 先学后推。

定义:同时使用少量有标签数据大量无标签数据训练,降低标注成本。

常用算法:标签传播、标签扩散、半监督SVM(S3VM)、基于图的方法。

适用场景:网页分类、医疗影像分析、语音识别。

时间线:1990s兴起。


3.4 强化学习(Reinforcement Learning, RL)

类比:训练小狗 —— 做对给零食,做错不给,通过试错学会最大化奖励。

定义:智能体与环境交互,学习策略:在某个状态下采取什么动作,使得累积奖励最大。没有固定标签,只有延迟的奖励信号。

核心要素:智能体、环境、状态、动作、奖励、策略。

常用算法

  • 基于价值:Q-Learning、DQN
  • 基于策略:Policy Gradient、PPO、A3C
  • 结合:Actor-Critic、SAC、TD3

适用场景:游戏AI(AlphaGo)、机器人控制、自动驾驶、推荐系统(在线学习)。

关键时间点

  • 1950年:图灵思想
  • 1989年:Q-learning
  • 2015年:深度Q网络(DQN)—— 与深度学习融合

概念定位:强化学习是一种学习范式,与监督/无监督并列。它不限定模型,可用表格、线性函数或神经网络实现。


3.5 深度学习(Deep Learning, DL)

类比:多层流水线 —— 第一层检测边缘,第二层检测形状,第三层识别物体部件,逐层抽象。

定义:机器学习的一个子集,使用多层神经网络自动从原始数据中学习层次化特征。它是表示学习技术,可应用于监督、无监督、强化学习。

什么是“深度”

  • 深度 = 神经网络的隐藏层数量
  • 浅层网络:1个隐藏层。
  • 深度网络:≥2个隐藏层(实践中常远大于2,如ResNet上百层)。
  • 输入层和输出层不计入深度。

常用模型架构

  • 多层感知机(MLP)
  • 卷积神经网络(CNN)—— 图像
  • 循环神经网络(RNN/LSTM/GRU)—— 序列
  • Transformer —— NLP、视觉
  • 生成对抗网络(GAN)
  • 自编码器

主要特性

  • 端到端学习,无需手工特征
  • 依赖大量数据和高性能硬件(GPU/TPU)
  • 可解释性差(黑箱)
  • 容易过拟合,需正则化

适用场景

  • 图像分类、目标检测、人脸识别
  • 自然语言处理(机器翻译、文本生成)
  • 语音识别、合成
  • 自动驾驶感知
  • 深度强化学习(与RL结合)

关键时间点

  • 1943年:M-P神经元模型
  • 1958年:感知机
  • 2006年:辛顿等正式提出“深度学习”概念
  • 2012年:AlexNet爆发

概念定位:深度学习是一种技术工具,不是独立的学习范式。它可服务于监督学习(CNN分类)、无监督学习(自编码器)、强化学习(深度强化学习)。


4. 强化学习 vs 深度学习:深度对比

维度 强化学习 (RL) 深度学习 (DL)
本质 学习范式(“做什么”) 模型技术(“如何做”)
概念层级 机器学习三大范式之一 机器学习的一个子集(技术)
提出标志 1950年代思想 / 1989 Q-learning 2006年概念确立
核心问题 最大化累积奖励 学习层次化特征表示
数据来源 环境交互(非独立同分布) 静态数据集(通常独立同分布)
反馈形式 奖励信号(延迟、稀疏) 明确标签或重构误差
是否依赖标签 否(依赖奖励函数) 监督学习依赖标签;无监督不依赖
典型算法 Q-Learning, Policy Gradient CNN, RNN, Transformer
能否独立存在 能(表格Q-learning) 能(监督分类)
结合产物 深度强化学习(DQN等) 深度强化学习

关键澄清

  • 强化学习可以不“深”:传统强化学习用表格或线性函数,不涉及神经网络。
  • 深度学习可以不“强化”:绝大多数深度学习应用是监督学习(图像分类、机器翻译)。
  • 深度强化学习 = 深度学习 + 强化学习:用深度神经网络作为函数逼近器解决强化学习问题。

5. 综合对比表(五大类别)

维度 监督学习 无监督学习 半监督学习 强化学习 深度学习
数据标签 全标签 无标签 少量标签+大量无标签 奖励信号(非标签) 依赖具体任务
目标 预测未知标签 发现内在结构 利用无标签提升性能 最大化累积奖励 学习层次化特征
典型任务 分类、回归 聚类、降维 文本分类、图像分割 游戏、机器人 图像识别、NLP
常见算法 线性回归、SVM、随机森林 K-Means、PCA 标签传播、半监督SVM Q-Learning、PPO CNN、RNN、Transformer
训练数据需求 大量标注(成本高) 大量无标注(易得) 少量标注+大量无标注 环境交互(模拟器或真实) 海量数据+GPU
计算资源 低~中 低~中 中~高 高(GPU集群)
可解释性 较好 中等 中等
典型应用 垃圾邮件过滤 客户分群 网页分类 AlphaGo 人脸识别、ChatGPT
提出/成熟时间 1950s-1990s 1960s-1990s 1990s 1950s思想,1989 Q-learning 1943模型起源,2006概念确立

6. 总结与选择指南

如何选择合适的方法?

  1. 有大量标注数据 → 监督学习(或深度学习做监督)
  2. 只有无标注数据 → 无监督学习(聚类/降维)或半监督学习(如果少量标注可行)
  3. 标注成本高,但有无标注数据 → 半监督学习
  4. 任务需要序列决策,有环境交互 → 强化学习(可结合深度学习成为深度强化学习)
  5. 数据量大、问题复杂(图像、语音、文本) → 深度学习(可能结合监督/无监督/强化)

核心要点回顾

  • 强化学习和深度学习不是互斥的:一个是学习范式,一个是模型技术。它们可以独立使用,也可以结合(深度强化学习)。
  • 理解时间线与概念层级有助于区分历史积累与近期突破,合理选择技术路线。
  • 深度学习因自动特征提取而强大,但需要大量数据和计算资源;强化学习擅长序列决策,但训练可能不稳定。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐