用“挑西瓜”讲透《机器学习》第五章-神经网络

RUN

456人浏览 · 2026-05-23 17:09:27

RUN · 2026-05-23 17:09:27 发布

📖《机器学习》第5章·通俗解读 | 神经网络：模仿人脑的学习方式

神经网络的名字听起来很高大上，但它的灵感其实来自你身体里最神奇的东西——大脑。
大脑里有 billions 的神经元，它们互相连接、传递信号，让你能思考、记忆、做决定。
神经网络就是在计算机里模拟这种结构，让它也能“学习”。

1. 神经元模型：一个简单的“开关”

一个神经元长这样：

它有多个“树突”接收信号（输入）
每个信号有不同权重（重要程度不同）
所有信号加权求和，加上一个偏置（阈值）
如果总和超过某个门槛，神经元就“兴奋”，输出 1；否则输出 0

这就是M-P神经元模型，1943年就提出了，至今还在用。

但用“超过门槛就输出1”这种阶跃函数有个问题：它不光滑，不好训练。
所以实际中常换成Sigmoid函数（S形曲线），输出在0~1之间连续变化，可以理解为“兴奋的程度”。

一个神经元本身很简单，但把成千上万个连在一起，就能做非常复杂的事情。

2. 感知机：最简单的神经网络

感知机只有两层：

输入层：接收特征（比如色泽、根蒂、敲声的数值）
输出层：一个神经元，输出好瓜/坏瓜

它能学习线性可分的问题，比如“与门”、“或门”、“非门”。

但异或门（XOR）就不行——你无法用一条直线把(0,0)、(1,1)和(0,1)、(1,0)分开。
这个问题在1969年被Minsky和Papert指出，导致神经网络研究进入了第一个“寒冬”。

怎么办？加隐层（中间层）。

3. 多层网络与BP算法：神经网络的“翻身仗”

有了一个或多个隐层，神经网络就能解决异或这类非线性问题了。
但问题来了：怎么训练它？

感知机只有输出层有“答案”，很容易调整权重
多层网络里，隐层没有“标准答案”，你不知道它应该输出什么

BP算法（误差反向传播）解决了这个问题：

输入数据，逐层向前计算，得到输出（前向传播）
计算输出与真实答案的误差
把误差从输出层反向传到隐层、再到输入层，根据误差调整每一层的权重
重复这个过程，直到误差足够小

通俗理解：
你闭着眼睛走迷宫，撞墙了，就“反向”退一步，调整方向，再走。
BP就是那个“撞墙反馈”，让网络知道自己哪里错了，然后改正。

BP算法让多层神经网络变得可训练，掀起了神经网络的第二次高潮。

4. 局部极小 vs 全局最小：别卡在“小山坡”

神经网络的误差就像一张起伏的地形图。

局部极小：你走到一个小坑里，四周都比它高，你出不去了。但这个坑可能不是整个地图的最低点。
全局最小：整个地图的最低点，是你真正想去的地方。

BP算法靠梯度下降一步步走，很容易陷在局部极小出不来。

怎么跳出小坑？

随机初始化多次：从不同起点出发，多试几次
模拟退火：偶尔允许“走差的一步”，可能帮你翻出小坑
随机梯度下降：每次只用一部分数据计算梯度，引入随机性

就像你在山里找最低点，如果只盯着脚下，你可能困在小水坑。
但如果你偶尔闭着眼瞎走一步，可能就跳出来，发现旁边有个大湖。

5. 其他常见神经网络（了解即可）

名称	一句话解释
RBF网络	用“距离”来衡量相似度，离中心越近越兴奋
ART网络	可以动态增加神经元，学新知识不遗忘旧知识
SOM网络	把高维数据“压”到二维平面，还能保持拓扑结构（相近的点挨在一起）
级联相关网络	边训练边增加隐层神经元，结构自动生长
Elman网络	有“记忆”，输出不光看当前输入，还看上一时刻的状态（适合时间序列）
Boltzmann机	基于能量的模型，训练目标是让网络能量最小化

这些变种各有特长，但核心思想都一样：神经元 + 连接权重 + 学习算法。

6. 深度学习：神经网络“卷土重来”

深度学习就是有很多隐层的神经网络。

为什么以前不火？

层数多了，BP算法容易梯度消失（误差传到前面几层时几乎为0，学不动了）
计算量大，以前算不动

为什么现在火了？

大数据：深度学习参数多，需要海量数据来训练
强算力：GPU让训练速度快了几百倍
技巧进步：逐层预训练、ReLU激活函数、Dropout等

深度学习在图像识别、语音识别、自然语言处理等领域碾压传统方法。

卷积神经网络（CNN）是深度学习的代表：

用“卷积核”扫描图像，提取局部特征
用“池化”缩小尺寸，保留主要信息
多个卷积+池化层堆叠，最后接全连接层输出结果

CNN让计算机“看懂”了图片，是人脸识别、自动驾驶的核心技术。

📌 第五章总结（背下这5句就够了）

神经元 = 加权求和 + 激活函数，是神经网络的基本单元
感知机只能解决线性可分问题；多层网络+BP算法解决了非线性问题
BP算法 = 误差反向传播，让隐层也能学习
局部极小是陷阱，要用随机性跳出
深度学习 = 很多层的神经网络 + 大数据 + GPU，是当前主流

👇 下章预告

第六章讲支持向量机（SVM）——另一种非常强大的分类器。
它的核心思想是：找一个“最宽”的分界线，让两类数据离得越远越好。
用“挑西瓜”讲透《机器学习》第六章-支持向量机-CSDN博客

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大模型入门-GSPO 分组序列策略优化

AtomGit开源社区

（毕业必看）实测靠谱的AI论文软件，毕业党收藏备用

你是不是也在为毕业论文发愁？选题纠结、资料找不全、写到一半卡壳、查重反复修改、格式总调不对…… 这份精心整理的AI论文工具合集，涵盖中英文写作、全流程辅助、专项功能、免费与高性价比

AtomGit开源社区

绝地求生：如何在 2026 年把 OpenAI Codex 强行交叉编译到 RISC-V 架构

OpenAI 官方开源的 Codex CLI 是当前极为强大的本地代码 Agent，但官方却唯独没有提供 RISC-V 架构的预编译版本。为了在我们的 Starfive 星光板上跑起这个大杀器，昨晚我们曾试图在 QEMU 模拟器中偷懒编译，结果被 V8 引擎庞大的源码量和指令翻译开销拖到内存爆炸、进程卡死。痛定思痛后，我们决定采用最硬核的方式——。在这场战役中，我们历经重重险阻，连续趟平了 10