📖《机器学习》第5章·通俗解读 | 神经网络:模仿人脑的学习方式

神经网络的名字听起来很高大上,但它的灵感其实来自你身体里最神奇的东西——大脑
大脑里有 billions 的神经元,它们互相连接、传递信号,让你能思考、记忆、做决定。
神经网络就是在计算机里模拟这种结构,让它也能“学习”。


1. 神经元模型:一个简单的“开关”

一个神经元长这样:

  • 它有多个“树突”接收信号(输入)

  • 每个信号有不同权重(重要程度不同)

  • 所有信号加权求和,加上一个偏置(阈值)

  • 如果总和超过某个门槛,神经元就“兴奋”,输出 1;否则输出 0

这就是M-P神经元模型,1943年就提出了,至今还在用。

但用“超过门槛就输出1”这种阶跃函数有个问题:它不光滑,不好训练。
所以实际中常换成Sigmoid函数(S形曲线),输出在0~1之间连续变化,可以理解为“兴奋的程度”。

一个神经元本身很简单,但把成千上万个连在一起,就能做非常复杂的事情。


2. 感知机:最简单的神经网络

感知机只有两层:

  • 输入层:接收特征(比如色泽、根蒂、敲声的数值)

  • 输出层:一个神经元,输出好瓜/坏瓜

它能学习线性可分的问题,比如“与门”、“或门”、“非门”。

异或门(XOR)就不行——你无法用一条直线把(0,0)、(1,1)和(0,1)、(1,0)分开。
这个问题在1969年被Minsky和Papert指出,导致神经网络研究进入了第一个“寒冬”。

怎么办?加隐层(中间层)。


3. 多层网络与BP算法:神经网络的“翻身仗”

有了一个或多个隐层,神经网络就能解决异或这类非线性问题了。
但问题来了:怎么训练它?

  • 感知机只有输出层有“答案”,很容易调整权重

  • 多层网络里,隐层没有“标准答案”,你不知道它应该输出什么

BP算法(误差反向传播)解决了这个问题:

  1. 输入数据,逐层向前计算,得到输出(前向传播)

  2. 计算输出与真实答案的误差

  3. 把误差从输出层反向传到隐层、再到输入层,根据误差调整每一层的权重

  4. 重复这个过程,直到误差足够小

通俗理解:
你闭着眼睛走迷宫,撞墙了,就“反向”退一步,调整方向,再走。
BP就是那个“撞墙反馈”,让网络知道自己哪里错了,然后改正。

BP算法让多层神经网络变得可训练,掀起了神经网络的第二次高潮。


4. 局部极小 vs 全局最小:别卡在“小山坡”

神经网络的误差就像一张起伏的地形图

  • 局部极小:你走到一个小坑里,四周都比它高,你出不去了。但这个坑可能不是整个地图的最低点。

  • 全局最小:整个地图的最低点,是你真正想去的地方。

BP算法靠梯度下降一步步走,很容易陷在局部极小出不来。

怎么跳出小坑?

  • 随机初始化多次:从不同起点出发,多试几次

  • 模拟退火:偶尔允许“走差的一步”,可能帮你翻出小坑

  • 随机梯度下降:每次只用一部分数据计算梯度,引入随机性

就像你在山里找最低点,如果只盯着脚下,你可能困在小水坑。
但如果你偶尔闭着眼瞎走一步,可能就跳出来,发现旁边有个大湖。


5. 其他常见神经网络(了解即可)

名称 一句话解释
RBF网络 用“距离”来衡量相似度,离中心越近越兴奋
ART网络 可以动态增加神经元,学新知识不遗忘旧知识
SOM网络 把高维数据“压”到二维平面,还能保持拓扑结构(相近的点挨在一起)
级联相关网络 边训练边增加隐层神经元,结构自动生长
Elman网络 有“记忆”,输出不光看当前输入,还看上一时刻的状态(适合时间序列)
Boltzmann机 基于能量的模型,训练目标是让网络能量最小化

这些变种各有特长,但核心思想都一样:神经元 + 连接权重 + 学习算法


6. 深度学习:神经网络“卷土重来”

深度学习就是有很多隐层的神经网络

为什么以前不火?

  • 层数多了,BP算法容易梯度消失(误差传到前面几层时几乎为0,学不动了)

  • 计算量大,以前算不动

为什么现在火了?

  • 大数据:深度学习参数多,需要海量数据来训练

  • 强算力:GPU让训练速度快了几百倍

  • 技巧进步:逐层预训练、ReLU激活函数、Dropout等

深度学习在图像识别、语音识别、自然语言处理等领域碾压传统方法。

卷积神经网络(CNN)是深度学习的代表:

  • 用“卷积核”扫描图像,提取局部特征

  • 用“池化”缩小尺寸,保留主要信息

  • 多个卷积+池化层堆叠,最后接全连接层输出结果

CNN让计算机“看懂”了图片,是人脸识别、自动驾驶的核心技术。


📌 第五章总结(背下这5句就够了)

  1. 神经元 = 加权求和 + 激活函数,是神经网络的基本单元

  2. 感知机只能解决线性可分问题;多层网络+BP算法解决了非线性问题

  3. BP算法 = 误差反向传播,让隐层也能学习

  4. 局部极小是陷阱,要用随机性跳出

  5. 深度学习 = 很多层的神经网络 + 大数据 + GPU,是当前主流


👇 下章预告

第六章讲支持向量机(SVM)——另一种非常强大的分类器。
它的核心思想是:找一个“最宽”的分界线,让两类数据离得越远越好
用“挑西瓜”讲透《机器学习》第六章-支持向量机-CSDN博客

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐