0 感知机、hopfield网络、受限玻尔兹曼机、mlp之间的历史关系

近几年入门深度学习的大多数学习者,可能已经很少听说hopfield网络、受限玻尔兹曼机了,很多书籍和博客在讲解深度学习基础的时候也只会讲到感知机和mlp这种结构,而提及hopfield网络、受限玻尔兹曼机的文章则占少数,但这两者对深度学习的发展也具有重大意义,以此溯源,对认识深度学习的发展路径、核心思路来说有很大的帮助,或许也能为当下的科研带来相当的启发和教育意义。

为了更清晰地了解这两者的历史定位和提出动机,我们首先从这几项工作的历史关系出发进行详细论述与总结:

0.1 感知机(Perceptron)——神经网络的起点

  • 提出时间:1957年,Frank Rosenblatt 提出了感知机,是最早的人工神经网络模型之一。
  • 主要特点:感知机是一种二分类器,输入多个特征,通过一个线性方程和一个激活函数(通常是阶跃函数)来决定输出类别。它可以看作是一个简单的单层神经元模型。 
  • 应用场景:感知机擅长解决线性可分问题,但无法处理更复杂的、非线性的数据。

0.1.1 感知机的局限性

  • XOR 问题:1969年,Marvin Minsky 和 Seymour Papert 在他们的著作《Perceptrons》中指出,单层感知机无法解决像 XOR 这样的非线性可分问题。这暴露了感知机的局限性,并导致了随后几年神经网络研究的停滞(即所谓的“AI 冬天”)。

0.2 多层感知机(MLP)——突破线性局限

  • 发展背景:为了解决感知机无法处理非线性问题的局限,多层感知机(MLP)在 1980 年代得到了发展。MLP 在感知机的基础上引入了多个隐藏层,每层包含多个神经元,并使用非线性激活函数(如 Sigmoid 或 ReLU)。
  • 主要特点:MLP 是一种前馈神经网络,通过多个层次的特征转换,可以处理复杂的非线性任务。它使用反向传播算法(Backpropagation)来调整网络权重,这是由 Geoffrey Hinton、David Rumelhart 和 Ronald J. Williams 等人在 1986 年提出的,这一算法解决了多层神经网络的训练问题。
  • 意义:MLP 的出现及其训练方法(反向传播)的突破,使得神经网络重新成为人工智能研究的热点。MLP 成为现代深度学习网络的基石,并扩展到 CNN、RNN 等更复杂的架构。
  • 时代局限性:在 20 世纪 80 年代及之前,计算资源非常有限。MLP 的多层结构和大量参数需要大量计算能力来进行训练和优化,而当时的硬件无法支持这种大规模计算。同时模型的表现也受限于浅层网络,无法展示其在更大、更复杂任务上的潜力。MLP 在使用反向传播算法训练时,尤其是对于具有 Sigmoid 或 Tanh 激活函数的深层网络,容易出现梯度消失问题。随着层数增加,反向传播时梯度会逐渐减小,导致靠近输入层的权重几乎无法更新,从而影响了网络的学习能力。这种问题在 20 世纪 80 和 90 年代的研究中非常普遍,限制了 MLP 的训练深度和效果。

0.3 Hopfield 网络——联想记忆与能量最小化

  • 提出时间:1982年,John Hopfield 提出了 Hopfield 网络,是一种递归神经网络。
  • 主要特点:Hopfield 网络受物理学中自旋玻璃模型的启发,利用能量最小化的原理来进行联想记忆。它的网络结构是对称的,即每个神经元与其他神经元都有双向连接。Hopfield 网络通过调整状态使得能量降低,从而达到稳定状态。
  • 应用场景:Hopfield 网络适合用来实现联想记忆和模式恢复,当输入一个带有噪声的模式时,网络会调整到最接近的已存储模式。然而,它的容量有限,并且容易陷入局部最小值。
  • 历史地位:Hopfield 网络在 1980 年代神经网络复兴中起到了重要作用,为后来神经网络的记忆机制和递归结构提供了基础。同时,Hopfield 网络的能量最小化思想影响了后来的玻尔兹曼机。

0.4 玻尔兹曼机(Boltzmann Machine)与受限玻尔兹曼机(RBM)

  • 提出时间:1985年,Geoffrey Hinton 和 Terry Sejnowski 提出了玻尔兹曼机(Boltzmann Machine),是一种基于概率模型的生成网络。
  • 主要特点:玻尔兹曼机基于能量最小化概率分布的思想,类似于 Hopfield 网络,但引入了随机性(通过马尔科夫链蒙特卡洛方法)。玻尔兹曼机的目标是通过学习数据分布的概率模型来生成数据,但其训练过程非常复杂和计算密集。
  • 受限玻尔兹曼机(RBM):1986年,Geoffrey Hinton 等人提出了 RBM,作为玻尔兹曼机的简化版。RBM 通过限制隐藏层和可见层之间的连接(可见层和隐藏层之间的双向连接,但同层单元之间无连接),大大简化了训练过程。RBM 可以被用于无监督特征学习和降维。
  • 历史贡献:RBM 的提出推动了无监督学习和深度学习的早期研究。它是深度信念网络(DBN)的基础单元,并在 Hinton 等人的研究中得到了广泛应用。RBM 提供了一种堆叠多层网络并进行无监督预训练的方法,这是现代深度学习中的一个重要思想。

0.5 这些模型之间的关系和历史演变

模型 时间 核心思想 主要应用 对后续研究的影响
感知机(Perceptron) 1957 单层、线性模型 二分类任务 揭示了单层网络的局限性,导致 AI 冬天
多层感知机(MLP) 1980s 多层非线性结构、反向传播 复杂任务的分类和回归 解决非线性问题,成为深度学习的基础
Hopfield 网络 1982 能量最小化、联想记忆 模式恢复、联想记忆 影响递归网络和能量模型
玻尔兹曼机(Boltzmann Machine) 1985 概率模型、生成建模 特征学习、生成模型 启发了概率神经网络的研究
受限玻尔兹曼机(RBM) 1986 简化的玻尔兹曼机 无监督特征学习、降维 深度信念网络的构建基础,推动无监督学习

0.6 对现代深度学习的启发

  • 多层与非线性处理:从感知机到 MLP,再到更复杂的深度网络,这一演变体现了处理非线性任务的重要性。MLP 和反向传播的突破使得多层网络成为可能,并推动了深度学习的发展。
  • 能量最小化与记忆机制:Hopfield 网络和玻尔兹曼机(特别是 RBM)引入的能量最小化概率建模思想在现代生成对抗网络(GAN)、变分自动编码器(VAE)以及自监督学习中都有应用。
  • 无监督预训练:RBM 和 Hopfield 网络都在特征学习和预训练方面提供了早期的探索,特别是 RBM 的无监督特征学习方法影响了深度信念网络(DBN)以及后续的自监督和半监督学习方法。

0.7 总结

Hopfield 网络、RBM、MLP 和感知机在神经网络发展史上形成了一个递进和演变的过程: - 感知机作为起点,为神经网络模型奠定了基础。 - MLP 解决了非线性可分问题,并通过反向传播成为现代深度学习的基石。 - Hopfield 网络引入了记忆和能量最小化的概念,对后来的递归结构和生成模型有重要影响。 - RBM玻尔兹曼机引导了无监督学习和深度模型的预训练,为现代深度学习的发展奠定了理论和实践基础。

这些模型在历史上的相互影响和发展,形成了深度学习和现代神经网络的理论基石,推动了今天人工智能的快速发展。

hopfield 网络

1974年,hopfield发表了一篇生物领域的论文,将DNA 合成、tRNA 充电(即,将氨基酸与其特定的 tRNA 连接)以及蛋白质组装这三种截然不同的化学过程的反应方案描述为结合简单统一原理的不同方式。论文的内容本身和之后的hopfield网络并无关联,但是Hopfield认为:

1974 年的论文对于我解决生物学问题非常重要,因为它让我思考生物学中 反应网络结构的功能,而不是分子本身结构的功能。 网络可以“解决问题”或具有超出单个分子和线性路径能力的功能。六年后,我在思考神经元网络而不是单个神经元的属性时概括了这一观点。

这或许启发了Hopfield network的萌芽,因为下面我们可以看到,Hopfield network一个重要的特性就是神经网络能超越与涌现出超越个体(神经元)的力量,达到1+1+1…+1 >N 的效果。

好!网络很好!那么hopfield将要提出的网络,他是用于什么任务、解决什么问题的呢?

简言之是做状态存储和联想记忆。

什么意思呢?

hopfield想让这个网络像人脑一样,存储一些信息,作为记忆。

如何用网络表示或记录这些信息呢?

可以用网络中每个神经元的0、1取值状态来表示一个记忆嘛!

是,这样是可以用网络来表示状态了,但我们还要做联想记忆呢,比如说我们这个网络里存储了对应于单词 artificial 的状态和对应于单词 intelligence 的状态,那我们希望向这个网络输入一个aritif__cial,他能通过联想自动返回对应 artificial 的网络状态。

怎么处理这个输入?怎么实现这个返回呢?

这时候,在1970年代短暂流行的元细胞自动机Cellular automaton)以及物理学中一个非常著名的模型伊辛模型(Ising Model)给了Hopfield一定启发。

这两者有着极其相似的思想:

元细胞自动机(Cellular Automata, CA)和伊辛模型(Ising Model)在思想上有一些相似之处,主要体现在以下两个方面:

局部相互作用

  • 元细胞自动机:CA中的每个细胞的状态由其相邻细胞的状态决定,即它们只与局部的邻居进行相互作用。例如,在经典的“生命游戏”中,每个细胞的生死状态仅取决于周围8个相邻细胞的状态。
  • 伊辛模型:伊辛模型中,每个自旋(spin)的状态(+1 或 -1)也仅受邻近自旋的影响。自旋之间的相互作用能量取决于其与最近邻自旋的排列(同向或反向),从而使得系统的整体状态通过局部相互作用来演化。

全局行为由局部规则决定

  • 元细胞自动机:整个系统的演化是通过简单的局部规则驱动的。尽管规则看似简单,但整个系统会展示出复杂的全局行为。例如,“生命游戏”中的复杂结构(如“滑翔机”或“振荡器”)都是基于简单的细胞规则形成的。
  • 伊辛模型:同样,伊辛模型的整体状态(如磁化状态)是通过自旋之间的简单相互作用规则(例如“同向自旋倾向于降低能量”)逐渐演化而来的。通过这种局部相互作用,可以形成如铁磁有序状态或反铁磁有序状态的全局行为。
以下是元细胞自动机和伊辛模型的具体例子
1. 元细胞自动机:康威的生命游戏
康威的生命游戏(Conway's Game of Life)是元细胞自动机的一个经典例子。我们可以定义一个 10 \times 10 的网格,其中每个细胞的状态要么为1(活着),要么为0(死了)。生命游戏的规则如下:
如果一个细胞活着(1),且它周围有2或3个活细胞,则它在下一轮依然存活。
如果一个细胞死了(0),且它周围有3个活细胞,则它在下一轮复活。
其他情况下,细胞在下一轮会死亡或继续保持死亡。
具体例子:
初始状态如下:
0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
这一初始配置叫做“闪烁器”(blinker),它会在下一轮变成:
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 1 1 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
然后它会再一次变回原来的状态,形成一个周期性的振荡现象。
这种振荡器的行为类似于伊辛模型中自旋之间通过相互作用形成稳定模式的情况。
2. 伊辛模型:二维伊辛模型
二维伊辛模型定义在一个 10 \times 10 的网格上,每个格点上的自旋可以取+1(向上)或-1(向下)。我们设定邻近自旋的耦合常数 J = 1 ,并且设置温度 T 来控制系统的热涨落。伊辛模型的哈密顿量 H 表示系统的能量:

其中, S_i 和 S_j 是相邻格点的自旋。
具体例子:
假设初始状态下的网格是如下随机分布:
+1 -1 +1 -1 +1 -1 +1 -1 +1 -1
-1 +1 -1 +1 -1 +1 -1 +1 -1 +1
+1 -1 +1 -1 +1 -1 +1 -1 +1 -1
-1 +1 -1 +1 -1 +1 -1 +1 -1 +1
+1 -1 +1 -1 +1 -1 +1 -1 +1 -1
-1 +1 -1 +1 -1 +1 -1 +1 -1 +1
+1 -1 +1 -1 +1 -1 +1 -1 +1 -1
-1 +1 -1 +1 -1 +1 -1 +1 -1 +1
+1 -1 +1 -1 +1 -1 +1 -1 +1 -1
-1 +1 -1 +1 -1 +1 -1 +1 -1 +1
如果温度 T 很低(例如 T = 0.5J ),自旋会逐渐趋于一致,例如演化到一个铁磁态:
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
+1 +1 +1 +1 +1 +1 +1 +1 +1 +1
这个演化过程展示了局部相互作用如何逐渐形成全局有序的结构,与元细胞自动机中通过局部规则产生全局模式的思想相似。
总结
在元细胞自动机中,我们看到了一个简单的“闪烁器”在局部规则作用下周期性变化的具体例子。
在伊辛模型中,我们展示了一个初始随机状态如何在低温条件下演化为全局有序的铁磁态。
这两个例子都通过具体数值和状态展示了如何通过简单的局部相互作用(邻居细胞或自旋的状态)产生复杂的全局行为,体现了元细胞自动机和伊辛模型在思想上的相似性。

Hopfield网络由  个神经元组成,每个神经元的状态用  表示,其取值为  或  ,类似于物理学中的自旋状态(向上或向下)。每两个神经元之间都有一个权值连接  。这个网络的核心在于通过这些神经元之间的连接来存储和检索信息,并实现联想记忆功能。

1.1 状态初始化与状态更新

  1. 网络初始化:根据输入值初始化网络中每个神经元的状态。假设一个初始状态向量  ,表示网络中每个神经元的初始状态。
  2. 状态更新规则:每个神经元的状态根据它与其他神经元的连接权重和邻近神经元的当前状态来更新。具体来说,神经元  的状态  在时间  时刻的更新规则如下:

其中: -  为符号函数,即当括号内的值大于0时,输出+1;当值小于0时,输出-1。 -  是神经元  的阈值,通常可以设为0。 -  是神经元  的输入值,它根据其连接的神经元的状态和连接权重  计算得出。

这个规则的核心思想是,神经元的状态由邻居的状态和连接权重共同决定,这与伊辛模型和元细胞自动机中的“局部相互作用决定全局行为”的思想相一致。

1.2 能量函数与稳定状态

为了让网络演化到一个稳定的状态(即全局最优或局部最优),Hopfield引入了一个类似物理系统中的能量函数  。这个能量函数用于描述网络的“能量”或“成本”,网络通过不断降低这个能量来找到最优状态。

Hopfield网络的能量函数定义为:

其中: -  是网络的总能量; -  是神经元  和  之间的连接权重; -  和  是神经元  和  的状态; -  是神经元  的阈值。

在每次迭代中,根据上面的状态更新规则,网络的能量  会不断减小或保持不变。这意味着网络总是朝着能量最低的方向演化,最终会达到一个局部最小值。这个局部最小值对应于网络的一个稳定状态,也称为吸引子

1.3 吸引子与联想记忆

Hopfield网络的一个核心任务是实现联想记忆功能。网络通过定义多个吸引子(即能量最低的状态)来存储信息。当网络接收到一个输入模式时,即使这个输入模式存在一定程度的噪声或缺失,网络也会逐渐演化到与最接近的吸引子状态。这种能力类似于人类的联想记忆:即便记忆不完整或模糊,大脑仍能“猜出”正确的答案。

为了实现这种存储和联想记忆的功能,Hopfield网络使用Hebb学习规则来训练权重矩阵  。具体而言,如果我们希望网络存储  个模式,每个模式为  ,则权重  的设置为:

 这个规则确保了每个模式都是网络的一个稳定状态。当我们向网络输入一个初始状态  ,如果这个初始状态与存储的某个模式接近,网络会逐渐收敛到这个模式对应的吸引子。

1.4 具体例子:联想记忆的实现

假设我们有一个简单的Hopfield网络,包含4个神经元,用来存储两个模式: -  - 

通过Hebb规则计算得到的权重矩阵  为:

 现在我们给网络一个初始状态  ,这个状态与  相近。根据更新规则,神经元状态逐渐演化为  ,即网络恢复了  的状态,完成了联想记忆的过程。

2 受限玻尔兹曼机 (Restricted Boltzmann Machine)

2.1 背景和起源

在第二次神经网络低谷期间,Geoffrey Hinton 并没有放弃对神经网络的研究,而是转向了一个新的方向:热力学统计模型。Hinton 基于玻尔兹曼统计的知识,结合马尔科夫随机场和图学习理论,为神经网络引入了一个新的模型:玻尔兹曼机(Boltzmann Machine, BM)。他用能量函数来描述神经网络的特性,以期望能够获得更多的统计学支持。

不久之后,Hinton 发现多层神经网络可以被视为玻尔兹曼机的一种特例,这就是受限玻尔兹曼机(RBM)。他在 2017 年的一次采访中称 RBM 为他做过的“最美的工作”。

2.2 玻尔兹曼分布与神经网络的联系

在统计力学中,玻尔兹曼分布(或称吉布斯分布)用于描述系统状态的概率分布,其形式为:

其中:

 表示系统状态; -  为该状态的能量; -  为该状态出现的概率; -  是玻尔兹曼常数,  是系统温度。

在具体问题中,可以简化为  ,表达式简化为:

即:

这实际上就是softmax函数的形式,这个公式在统计力学中的自然出现,进一步说明了为什么 LeCun 曾建议学习物理的重要性。

为了进一步简化,定义  ,则:

2.3 RBM 的能量函数构建

Hinton 将神经网络的结构分为可见层(输入层)和隐含层(中间层),并假设每个神经元有两种状态:激活(1)和未激活(0)。系统的状态即为可见层  和隐含层  神经元的状态组合,记作  。因此,状态的概率可以表示为:

接着,Hinton 采用了物理学中的易辛模型(Ising model)作为参考。这个模型描述了晶格系统中的相变,解释了铁磁性问题的物理现象。Hinton 将神经元的偏置(可见层记作  ,隐含层记作  )视为外场,将神经网络的权重  作为耦合系数,形成了 RBM 的能量函数:

这种表达方式将神经网络的偏置和权重自然地融入到物理系统的能量模型中,实现了最简化且符合直觉的网络描述。

2.4 条件概率和激活函数的推导

将某个神经元  关联的能量分离出来,可以得到:

其中:

 是与其他神经元无关的部分; -  是与  相关的权重。

基于此,状态的条件概率  可以推导为:

这就是sigmoid函数的形式,即隐含层神经元激活的条件概率。这一推导展示了在玻尔兹曼分布下,sigmoid 函数具有自然的统计学解释。

2.5 优化目标与自由能

RBM 优化的目标是极大化似然估计,即最大化:

这里,Hinton 将其与热力学中的自由能关联起来,定义自由能为:

这样,RBM 的优化目标就转化为找到使样本自由能最低的一组参数,使得样本与参数间通过能量实现联系。这种处理方式在物理学和统计学中有着深刻的理论基础。

2.6 对比散度(Contrastive Divergence, CD)算法

RBM 的优化过程复杂,尤其是配分函数  的求解,这在一般情况下是一个#P-Hard问题(极难求解)。Hinton 通过逐层训练网络来降低算法复杂度,而不是整体优化。为训练每层 RBM,他发展了对比散度(CD)算法,这是一个基于 Gibbs 采样的近似算法。

虽然 CD 算法的收敛速度很慢,但 Hinton 通过进一步的近似,固定采样步数  ,形成了CD_k 算法。他惊讶地发现,即使使用极粗糙的近似(如  ),算法的表现依然良好。

2.7 RBM 在无监督学习中的应用

RBM 的概率建模特性使其特别适合于无监督学习。即使没有标签数据,网络也可以学习到有意义的表示。例如,RBM 可以从 MNIST 数据集中学到表示手写数字的特征,这些特征可以用来生成新样本或作为分类器的输入。

Hinton 还发现,用 RBM 的算法进行网络的无监督预处理后,再加上标签使用反向传播训练,可以高效地训练深层神经网络。这种方法成为“深度学习”兴起的重要基础。

受限玻尔兹曼机(RBM)在深度学习的历史中起到了非常重要的作用,它不仅帮助奠定了深度学习的理论基础,还在多个方向上推动了这一领域的发展。下面,我将详细解释 RBM 如何开创了深度学习的各个先河。

2.8 RBM在深度学习领域中开创的先河

2.8.1 用统计物理构建机器学习模型

RBM 的核心思想源于统计物理学,尤其是基于玻尔兹曼分布能量函数的概念。Hinton 利用了这些物理学工具,将其应用于神经网络的建模中。这种方法具有以下创新点:

  • 能量函数:RBM 通过定义一个能量函数  来描述整个系统的状态,这与物理学中的系统状态能量相对应。系统的概率分布可以通过玻尔兹曼分布来表示:  这种方法将机器学习模型转化为能量最小化问题,使得模型训练可以借鉴物理学中的优化方法。
  • 马尔科夫随机场和无向图:RBM 也是马尔科夫随机场(Markov Random Field, MRF)的一种特例,利用无向图来表示神经元之间的关系。这种图模型的设计结合了物理学中相互作用系统的思想,使得模型不仅具备了概率解释,还可以通过采样和推断来学习复杂的数据分布。

通过将统计物理的能量模型和概率分布直接应用到神经网络中,RBM 为机器学习领域开辟了一个新的建模思路。这种跨学科的应用展示了物理学和机器学习的深度关联,也为后来各种能量模型和生成模型奠定了基础。

2.8.2 深度神经网络的高效训练

在深度学习初期,训练深层神经网络一直是个难题,尤其是由于梯度消失问题,深层网络的训练效率和效果非常差。RBM 的引入带来了逐层预训练的方法,这在当时是一个极具突破性的策略:

  • 逐层训练:RBM 可以堆叠成深度信念网络(DBN),每一层都是一个 RBM。通过逐层训练,每层 RBM 只需处理自身的输入数据和输出特征,这大大简化了训练过程。每层独立训练完成后,再将它们组合起来进行整体微调(finetuning),从而解决了深度网络整体训练难的问题。
  • 对比散度算法(Contrastive Divergence, CD):Hinton 提出的 CD 算法大大提高了 RBM 的训练效率。这种基于 Gibbs 采样的近似优化方法允许每一层快速收敛,从而逐层训练深层网络的每一部分,为深度学习提供了一种高效训练方法。

RBM 的逐层训练和优化策略是后来深度神经网络高效训练的先驱,并为后续的 CNN、RNN 等深度模型的优化提供了启示。

2.8.3 生成模型(Generative Model):通过生成数据去理解数据的想法

RBM 本质上是一个生成模型。它通过学习数据的概率分布,能够生成与训练数据相似的新样本。这种生成思路开创了通过生成数据来理解数据的先河:

  • 概率建模:RBM 通过构建一个可见层(输入)和隐藏层(特征)的概率分布来学习数据的内在结构。训练完成后,模型可以根据这个分布生成新的数据样本。比如在 MNIST 数据集上训练的 RBM 可以生成新的手写数字图像,这些图像与真实数据非常相似。
  • 理解数据结构:通过生成模型,RBM 可以揭示数据的内在规律。例如,通过对自然图像的 RBM 训练,可以发现模型学会了图像的基本特征,如边缘和纹理。这种生成方法不仅是对数据分布的模拟,还揭示了数据的内在结构,使模型能够在没有标签的情况下自动获取有意义的特征。

RBM 的生成能力影响了后来许多深度学习模型的发展,如变分自动编码器(VAE)生成对抗网络(GAN),它们也通过类似的方法生成和理解数据。

2.8.4 预训练(Pretraining)

在 RBM 提出之前,深度神经网络的训练效率很低。RBM 引入了一种预训练的方式来有效地训练深度网络。Hinton 发现,先使用 RBM 进行无监督预训练,再使用有标签数据进行微调(finetuning),可以显著提高网络的性能和稳定性:

  • 逐层无监督预训练:先使用 RBM 在大量无标签数据上逐层训练网络,从输入层到隐藏层,依次学习每一层的特征表示。这样,网络在初始阶段就已经形成了较好的特征结构。
  • 有监督微调:在预训练完成后,再使用有标签数据对整个网络进行监督微调。这种方式避免了网络从随机初始化开始学习的困难,使得深层神经网络更易于训练。

这种预训练方法在深度学习的发展中非常关键,因为它为深层神经网络的训练提供了一个切实可行的路径。在计算能力和数据资源有限的时代,这种方法极大地提升了网络的性能和可用性,也为现代深度学习中预训练和迁移学习的概念奠定了基础。

2.8.5 无监督学习

RBM 是一种无监督学习模型,它不依赖于数据的标签信息,而是通过学习输入数据的分布来提取特征:

  • 无标签特征提取:RBM 通过输入层和隐藏层的相互作用,自动学习输入数据的特征表示。例如,在手写数字图像上,RBM 可以自动识别图像中的基本特征(如边缘、角等),而不需要任何标签信息。
  • 在大规模数据上的应用:由于无监督学习不需要大量标注数据,RBM 可以广泛应用于大规模数据集上,从中学习有意义的特征。这一方法在当时为解决数据标注困难的问题提供了一个非常有效的解决方案。

RBM 的无监督学习能力为深度学习的发展带来了极大的启发。它不仅推动了后续自监督学习半监督学习的研究,还展示了如何在没有标签的情况下进行高效训练。

2.8.6 表征学习(Representation Learning)

RBM 通过其隐藏层的特征提取能力,展示了如何从数据中学习有意义的表示。它不仅仅是简单地分类或回归,而是从输入数据中提取更高级、更抽象的特征,这就是表征学习

  • 逐层特征提取:RBM 可以看作是特征提取器的一个层级,每一层都从上一层学习到的特征中提取更高阶的信息。通过堆叠多个 RBM,形成深度信念网络(DBN),可以学习到更加抽象的特征层次。这种逐层的特征提取为深度学习网络的表征学习奠定了基础。
  • 数据本身的高级特征表示:RBM 在训练过程中,不仅能够识别数据的低层次特征(如边缘或形状),还能学习到数据的更高层次表示,如面部特征或复杂模式。通过这种特征提取方法,RBM 让网络逐渐从学习数据本身转向学习数据的高级表征。

表征学习的思想在现代深度学习中广泛应用,比如在卷积神经网络(CNN)中学习图像的特征层次、在自然语言处理中使用嵌入来表示词语和句子的语义关系等。

2.8.7 神经网络特征的可解释性

RBM 的特征学习方法不仅可以帮助理解数据,还可以生成新的数据样本,从而揭示网络中学到的特征。Hinton 提到,可以通过生成样本的方式来解释隐藏层的特征,这就是神经网络特征的可解释性

  • 生成图像解释特征:RBM 可以通过隐藏层的激活状态生成图像,这些生成的图像反映了网络在隐含层中学到的特征表示。例如,在 MNIST 数据集上训练的 RBM 可以生成与原始手写数字相似的图像,这些图像展示了网络如何将输入的图像特征进行组合。
  • 非线性特征的解释:通过观察 RBM 的输出,可以推测出哪些特征在网络中被学习和组合。这使得我们能够从生成的样本中理解网络在处理数据时捕捉到的非线性关系。

RBM 的这种特征解释方法为神经网络的可解释性研究提供了新的方向,也为后续解释深度学习特征的方法(如可视化卷积层)提供了启发。

3 为什么 MLP 重新崛起并在现代深度学习中更为通用?

3.1 计算能力的提升

  • 随着 21 世纪初期计算硬件(特别是 GPU 和分布式计算)的快速发展,大规模并行计算成为可能,这极大地提高了训练深度神经网络(如 MLP)的效率。
  • 强大的计算资源使得训练深层 MLP 成为可能,不再受限于计算瓶颈。更复杂、更大规模的 MLP 可以在合理的时间内完成训练,并展示其强大的性能。

3.2 现代优化算法的引入

  • 反向传播算法在原始版本中容易出现梯度消失问题,但后来研究人员引入了一些改进技术,例如 ReLU 激活函数(避免梯度消失)、批量归一化(Batch Normalization)和高级优化器(如 Adam、RMSprop 等),使得训练深层网络更加稳定和高效。
  • 这些改进极大地提升了 MLP 训练的可行性和效果,使得深层 MLP 成为许多任务的首选架构。

3.3 大数据和标注数据集的可用性

  • 随着互联网的普及和大数据的发展,越来越多的标注数据集变得可用(如 ImageNet 等),这为深度神经网络的监督训练提供了大量数据支持。MLP 这种需要大量数据进行监督学习的模型在这个环境下表现出色。
  • 与早期的 RBM 不同,MLP 通过大数据和大规模监督学习能够比 RBM 学到更精细和强大的特征表示,并在复杂任务(如图像识别、语音识别、自然语言处理)中表现出更好的性能。

3.4 深度学习架构的扩展和创新

  • 现代的许多神经网络架构(如卷积神经网络 CNN、循环神经网络 RNN、以及 Transformer 等)都是在 MLP 的基础上进行扩展和改进的。这些架构结合了 MLP 的多层结构,并针对不同数据类型(如图像、序列数据)进行了专门优化。
  • MLP 的灵活性和扩展性使得它能够很好地适应各种任务和数据类型,从而成为现代深度学习的核心基础架构。

Hopfield 网络和 RBM 为神经网络的发展打下了重要基础,但它们的适用范围和扩展性、能力上限不如 MLP,因此在现代深度学习的背景下,以MLP为代表的以反向传播梯度更新为基础的神经网络更加通用并成为主流。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐