机器学习基础篇（十二）——多层感知机

机器学习基础篇（十二）——多层感知机一、概述多层感知机（MLP：Multi-Layer Perceptron）由感知机(PLA: Perceptron Learning Algorithm)推广而来。它最主要的特点是有多个神经元层，因此也叫深度神经网络(DNN: Deep Neural Networks)。感知机是单个神经元模型，是较大神经网络的前身。神经网络的强大之处在于它们能够学习训练数据中的

文章共2,414字 · 阅读需要大约9分钟

一键AI生成摘要，助你高效阅读

问答

柚子味的羊

15487人浏览 · 2021-02-26 10:53:57

柚子味的羊 · 2021-02-26 10:53:57 发布

机器学习基础篇（十二）——多层感知机

一、概述

多层感知机（MLP：Multi-Layer Perceptron）由感知机(PLA: Perceptron Learning Algorithm)推广而来。它最主要的特点是有多个神经元层，因此也叫深度神经网络(DNN: Deep Neural Networks)。

感知机是单个神经元模型，是较大神经网络的前身。神经网络的强大之处在于它们能够学习训练数据中的表示，以及如何将其与想要预测的输出变量联系起来。从数学上讲，它们能够学习任何映射函数，并且已经被证明是一种通用的近似算法。

神经网络的预测能力来自网络的分层或多层结构。而多层感知机是指具有至少三层节点，输入层，一些中间层和输出层的神经网络。给定层中的每个节点都连接到相邻层中的每个节点。输入层接收数据，中间层计算数据，输出层输出结果。

下面让我们来简单的看一下多层感知机的推导过程吧。

二、多层感知机的定义

首先我们先看一下感知机（PLA）是什么?
如图所示，感知机只有输入和输出层，这两层共同组成了一个简单的神经元。首先加权输入信号，然后使用激活功能，最终产生输出信号。
ω将输入的变量映射到了一个新的维度空间中，b的存在使得映射后的数据具有平移能力。（称为偏置量）

3.显然，PLA是一个线性的二分类器，但它对非线性的数据并不能进行有效的分类。因此我们可以加深这个神经元的网络层次，理论上来说，多层网络可以模拟任何复杂的函数。
当我们加深到很多层的时候，我们就得到了一个多层感知机（MLP）。
我们将第一层称之为输入层，最后一层称之有输出层，中间的层称之为隐层。
MLP并没有限定隐层的数量，对于输出层神经元的个数也没有限制，所以我们可以根据各自的需求选择合适的隐层层数。

举个栗子：我们在输入层输入三个变量[x1,x2,x3]以及一个偏置量b，偏置量的作用是给网络分类增加平移的功能。 然后我们设置隐层为1层，输出神经元个数为3个。可以得到如下的神经网络结构：

在这里插入图片描述

三、节点

每层的神经元被称为节点，那么针对于一个多层感知机，我们应该如何选择层数和隐层节点数呢？

通常情况下，我们只需要一个隐层，就可以模拟任何我们想要的函数。所以，大多情况下我们使用一个三层的感知机即可（包含输入层，一个隐层，一个输出层）。

那么，节点又该怎么选择呢？

如果隐层节点过少，网络结构简单，学习能力不够。如果隐层节点过多，不仅会大大增加网络结构的复杂性，而且学习过程中更易陷入局部极小点，学习速度会变得很慢。

我们一般有以下几种方法来选择隐层的节点数：

m:隐层节点数
n:输入层节点数
I:输入层节点数
α：1-10之间的整数

我们一般可以使用以下几个公式来选择节点数（当然也可以自己选择）
在这里插入图片描述
对于每个隐层的节点，我们都将会使用激活函数激活此节点。
通常情况下，节点根据前一层节点的加权总和来激活，即每个连接点的权重乘以该节点的激活函数的总和。
每个节点仅从前一层获取输入值，因此权重是同一层中节点的唯一区分依据。
常见的激活函数有：sigmoid函数，tanh函数