神经网络原理 第一章:导论
一、 什么是神经网络?(1.1节)
神经网络(人工神经网络)是受人脑启发的自适应机器。它由大量简单处理元(神经元)互联而成,具有两个与人脑相似的特性:
- 获取知识:从外界环境中学习得来。
- 储存知识:通过互连神经元间的连接强度(即突触权值)来储存。
🔴 核心性质与能力
- 非线性:网络可由非线性神经元构成,能处理输入信号内部物理机制为非线性的问题。
- 输入输出映射:通过带标签的训练样本(有监督学习),修改突触权值,最小化期望响应与实际响应的差别,从而建立输入到输出的映射(类似非参数统计推断)。
- 适应性:能够调整自身突触权值以适应外界环境变化(在时变环境下也可设计权值随时间变化),但需注意稳定性-可塑性困境(自适应性过强可能导致对寄生干扰反应过快而性能恶化)。
- 证据响应:不仅输出分类决策,还能提供决策的置信度信息,用以拒判模糊模式。
- 背景信息:每个神经元都受网络全局活动影响,背景信息自然被处理。
- 容错性:信息分布式存储,部分神经元或连接损坏时,性能缓慢下降而非灾难性崩溃(鲁棒计算)。
- VLSI实现:适合大规模集成电路并行实现。
- 统一性:同一网络可用于不同问题,其计算能力可作为标准。
- 神经生物类比:为神经生物学家提供研究工具,为工程师提供解决复杂问题的新思路。
二、 神经元模型 (1.3节)
神经元是神经网络操作的基本信息处理单位。其数学模型包含三大基本元素:
- 突触(连接链):由权值(wkj)表征,对输入信号(xj)进行加权。权值可正可负。
- 加法器(线性组合器):求输入信号的加权和。
- 激活函数(压制函数):限制神经元输出振幅。
💡 核心公式通俗讲解:神经元是如何做决定的?
公式组 (1.1) - (1.3) 是整个神经网络的基础:
uk=∑j=1mwkjxj
vk=uk+bk
yk=φ(vk)
想象神经元是一个“做决策的人”,它要综合别人的意见来下结论:
- xj(输入信号):就像是你收到的各种“意见”或“线索”。比如你在判断明天是否出门,x1是天气预报,x2是朋友建议,x3是工作安排。
- wkj(突触权值):这是你对不同意见的**“重视程度”**。如果天气预报对你特别重要,wk1就很大(正值);如果某个朋友的建议你通常反着听,wk2就是负值。
- uk=∑wkjxj(加权和):这就是在**“算总账”**。把每条意见乘以你对它的重视程度,然后全部加起来,得到一个综合得分。
- bk(偏置):这是你的**“个人固有倾向”或“底线”**。即使所有人的意见都是0(没人给建议),你也有一个天生的倾向值。如果 bk 很大,说明你天生就倾向于做肯定决定;如果为负,说明你天生比较保守。
- vk=uk+bk(诱导局部域):这就是**“最终刺激强度”** = 外部意见的综合得分 + 你个人的固有倾向。
- φ(vk)(激活函数):这是你的**“决策规则”**。根据最终刺激强度 vk,决定你要怎么表态(输出 yk)。
偏置的另一种写法:把倾向当成一种意见
在公式 (1.4)-(1.7) 中,偏置 bk 被合并到了求和符号里:
vk=∑j=0mwkjxj
其中 x0=+1, wk0=bk
这叫“化零为整”的技巧。 既然偏置是你个人的固有倾向,不如把它也当成一条“意见”——只不过这是一条永远存在、强度永远为1的内部声音(x0=+1)。你对这个内部声音的重视程度,就是你的偏置值(wk0=bk)。这样,计算最终刺激强度时,统一成“所有意见的加权和”,数学表达更简洁。
三、 激活函数:不同的表态方式
激活函数 φ(v) 决定了神经元拿到综合得分后,如何给出最终输出:
- 阈值函数 (公式 1.8): φ(v)={10v≥0v<0
通俗讲解:这是“一刀切”的表态。 得分大于等于0,就喊“干!”(输出1);得分小于0,就喊“撤!”(输出0)。没有任何中间地带,非常绝对。这就是著名的 McCulloch-Pitts 模型。
- 分段线性函数:
在线性区域内放大因子为1;若线性区放大因子无穷大则退化为阈值函数。
- Sigmoid 函数 (公式 1.12)(最常用): φ(v)=1+exp(−av)1
通俗讲解:这是“看人下菜碟”的温和表态。 它不是简单的一刀切,而是把最终得分 v 映射成了一个 0到1之间的概率值或置信度。
- 得分越高,输出越接近1(强烈支持);
- 得分越低,输出越接近0(强烈反对);
- 得分在0附近,输出在0.5左右(模棱两可,还在摇摆)。
- a(倾斜参数):决定了你表态的“果断程度”。a 越大,曲线在0附近越陡,稍微有一点得分变化,你就立马表态(趋近于阈值函数);a 越小,你就越温和,总是给出模棱两可的值。
- 最关键的是:这个函数是平滑可导的,这意味着如果输出错了,我们可以算出“怎么微调输入能让输出变好”,这是神经网络能学习(反向传播)的基础!
四、 神经网络的图表示与反馈 (1.4 & 1.5节)
🔴 三种图形表示方法
- 方框图:提供网络功能描述。
- 信号流图:提供完全的信号流描述(遵循信号单向流动、节点信号等于进入信号代数和、信号沿外向连接独立传递三大规则)。
- 结构图:省略内部细节,描述网络布局(源节点、计算节点及连接方向)。
💡 反馈系统的稳定性:记住过去,别发疯
反馈存在于动态系统中,对递归网络至关重要。公式 (1.19)-(1.21) 展示了带反馈的系统输出:
yk(n)=∑l=0∞wl+1xj(n−l)
通俗讲解:这是一个“翻旧账”的系统。 因为有反馈,你现在的输出不仅取决于现在的输入,还取决于过去所有的输入(xj(n−l) 就是过去的输入)。权值 w 的绝对值大小,决定了“旧账”的影响力:
- ∣w∣<1(系统稳定):这就像**“时间的遗忘”**。很久以前发生的事情(l 很大),因为乘上了一个小于1的数很多次(wl+1),它的影响就指数级衰减,几乎被遗忘了。所以系统最终会收敛,不会发疯。
- ∣w∣≥1(系统不稳定):这就像**“耿耿于怀,越想越气”**。过去的影响没有随时间衰减,反而被放大或保持。旧账翻起来没完,系统就会发散(输出越来越大,失去控制)。
五、 网络结构 (1.6节)
神经网络的结构与学习算法紧密相连,主要有三种基本结构:
- 单层前馈网:只有一层计算节点,输入层(源节点)直接连接到输出层,无隐藏层。
- 多层前馈网:包含一层或多层隐藏节点。隐藏层能提取高阶统计特性,使网络获得全局关系。可称为 m−h1−h2−q 网络(m 个源节点,h1 个第一隐藏层神经元,h2 个第二隐藏层神经元,q 个输出神经元)。
- 完全连接:相邻层任意一对节点都有连接。
- 部分连接:部分节点对间无连接。
- 递归网络:与前者区别在于至少有一个反馈环。反馈环涉及单元延迟元素,若包含非线性单元,将导致非线性动态行为,对学习能力和性能有深刻影响。
六、 知识表示 (1.7节)
- 知识的定义:人或机器储存起来以备使用的信息或模型。
- 知识来源:
- 先验信息:已知世界的事实状态。
- 观测(训练数据):带有噪声的传感器测量,分为有标记(有期望响应)和无标记样本。
- 设计阶段:
- 学习(训练):用训练样本子集修改自由参数。
- 泛化(测试):用陌生样本检验性能。
- 知识表示的规则:
- 相似输入产生相似输出(连续性)。
- 不同的输入产生不同的输出(区分性)。
- 处理不变性(尺度、平移、旋转等)。
- 神经网络 vs 传统符号AI:
- 符号AI:自顶向下,基于算法语言和数据表示的形式操作,具有组合语义和结构。
- 神经网络:自底向上,并行分布式处理,具有天生学习能力、自适应和鲁棒性。
- 融合趋势:集成二者建立结构化连接论者模型或混合系统,既能从神经网络中抽取规则,也能结合符号AI的推理与通用性特征。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)