一、 什么是神经网络?(1.1节)

神经网络(人工神经网络)是受人脑启发的自适应机器。它由大量简单处理元(神经元)互联而成,具有两个与人脑相似的特性:

  1. 获取知识:从外界环境中学习得来。
  2. 储存知识:通过互连神经元间的连接强度(即突触权值)来储存。

🔴 核心性质与能力

  1. 非线性:网络可由非线性神经元构成,能处理输入信号内部物理机制为非线性的问题。
  2. 输入输出映射:通过带标签的训练样本(有监督学习),修改突触权值,最小化期望响应与实际响应的差别,从而建立输入到输出的映射(类似非参数统计推断)。
  3. 适应性:能够调整自身突触权值以适应外界环境变化(在时变环境下也可设计权值随时间变化),但需注意稳定性-可塑性困境(自适应性过强可能导致对寄生干扰反应过快而性能恶化)。
  4. 证据响应:不仅输出分类决策,还能提供决策的置信度信息,用以拒判模糊模式。
  5. 背景信息:每个神经元都受网络全局活动影响,背景信息自然被处理。
  6. 容错性:信息分布式存储,部分神经元或连接损坏时,性能缓慢下降而非灾难性崩溃(鲁棒计算)。
  7. VLSI实现:适合大规模集成电路并行实现。
  8. 统一性:同一网络可用于不同问题,其计算能力可作为标准。
  9. 神经生物类比:为神经生物学家提供研究工具,为工程师提供解决复杂问题的新思路。

二、 神经元模型 (1.3节)

神经元是神经网络操作的基本信息处理单位。其数学模型包含三大基本元素:

  1. 突触(连接链):由权值(wkj​)表征,对输入信号(xj​)进行加权。权值可正可负。
  2. 加法器(线性组合器):求输入信号的加权和。
  3. 激活函数(压制函数):限制神经元输出振幅。

💡 核心公式通俗讲解:神经元是如何做决定的?

公式组 (1.1) - (1.3) 是整个神经网络的基础:

uk​=∑j=1m​wkj​xj​

vk​=uk​+bk​

yk​=φ(vk​)

想象神经元是一个“做决策的人”,它要综合别人的意见来下结论:

  • xj​(输入信号):就像是你收到的各种“意见”或“线索”。比如你在判断明天是否出门,x1​是天气预报,x2​是朋友建议,x3​是工作安排。
  • wkj​(突触权值):这是你对不同意见的**“重视程度”**。如果天气预报对你特别重要,wk1​就很大(正值);如果某个朋友的建议你通常反着听,wk2​就是负值。
  • uk​=∑wkj​xj​(加权和):这就是在**“算总账”**。把每条意见乘以你对它的重视程度,然后全部加起来,得到一个综合得分。
  • bk​(偏置):这是你的**“个人固有倾向”“底线”**。即使所有人的意见都是0(没人给建议),你也有一个天生的倾向值。如果 bk​ 很大,说明你天生就倾向于做肯定决定;如果为负,说明你天生比较保守。
  • vk​=uk​+bk​(诱导局部域):这就是**“最终刺激强度”** = 外部意见的综合得分 + 你个人的固有倾向。
  • φ(vk​)(激活函数):这是你的**“决策规则”**。根据最终刺激强度 vk​,决定你要怎么表态(输出 yk​)。

偏置的另一种写法:把倾向当成一种意见

在公式 (1.4)-(1.7) 中,偏置 bk​ 被合并到了求和符号里:

vk​=∑j=0m​wkj​xj​

其中 x0​=+1, wk0​=bk​

这叫“化零为整”的技巧。 既然偏置是你个人的固有倾向,不如把它也当成一条“意见”——只不过这是一条永远存在、强度永远为1的内部声音(x0​=+1)。你对这个内部声音的重视程度,就是你的偏置值(wk0​=bk​)。这样,计算最终刺激强度时,统一成“所有意见的加权和”,数学表达更简洁。


三、 激活函数:不同的表态方式

激活函数 φ(v) 决定了神经元拿到综合得分后,如何给出最终输出:

  1. 阈值函数 (公式 1.8): φ(v)={10​v≥0v<0​

通俗讲解:这是“一刀切”的表态。 得分大于等于0,就喊“干!”(输出1);得分小于0,就喊“撤!”(输出0)。没有任何中间地带,非常绝对。这就是著名的 McCulloch-Pitts 模型。

  1. 分段线性函数

在线性区域内放大因子为1;若线性区放大因子无穷大则退化为阈值函数。

  1. Sigmoid 函数 (公式 1.12)(最常用): φ(v)=1+exp(−av)1​

通俗讲解:这是“看人下菜碟”的温和表态。 它不是简单的一刀切,而是把最终得分 v 映射成了一个 0到1之间的概率值或置信度

  • 得分越高,输出越接近1(强烈支持);
    • 得分越低,输出越接近0(强烈反对);
      • 得分在0附近,输出在0.5左右(模棱两可,还在摇摆)。
        • a(倾斜参数):决定了你表态的“果断程度”。a 越大,曲线在0附近越陡,稍微有一点得分变化,你就立马表态(趋近于阈值函数);a 越小,你就越温和,总是给出模棱两可的值。
          • 最关键的是:这个函数是平滑可导的,这意味着如果输出错了,我们可以算出“怎么微调输入能让输出变好”,这是神经网络能学习(反向传播)的基础!

四、 神经网络的图表示与反馈 (1.4 & 1.5节)

🔴 三种图形表示方法

  1. 方框图:提供网络功能描述。
  2. 信号流图:提供完全的信号流描述(遵循信号单向流动、节点信号等于进入信号代数和、信号沿外向连接独立传递三大规则)。
  3. 结构图:省略内部细节,描述网络布局(源节点、计算节点及连接方向)。

💡 反馈系统的稳定性:记住过去,别发疯

反馈存在于动态系统中,对递归网络至关重要。公式 (1.19)-(1.21) 展示了带反馈的系统输出:

yk​(n)=∑l=0∞​wl+1xj​(n−l)

通俗讲解:这是一个“翻旧账”的系统。 因为有反馈,你现在的输出不仅取决于现在的输入,还取决于过去所有的输入(xj​(n−l) 就是过去的输入)。权值 w 的绝对值大小,决定了“旧账”的影响力:

  • ∣w∣<1(系统稳定):这就像**“时间的遗忘”**。很久以前发生的事情(l 很大),因为乘上了一个小于1的数很多次(wl+1),它的影响就指数级衰减,几乎被遗忘了。所以系统最终会收敛,不会发疯。
  • ∣w∣≥1(系统不稳定):这就像**“耿耿于怀,越想越气”**。过去的影响没有随时间衰减,反而被放大或保持。旧账翻起来没完,系统就会发散(输出越来越大,失去控制)。

五、 网络结构 (1.6节)

神经网络的结构与学习算法紧密相连,主要有三种基本结构:

  1. 单层前馈网:只有一层计算节点,输入层(源节点)直接连接到输出层,无隐藏层。
  2. 多层前馈网:包含一层或多层隐藏节点。隐藏层能提取高阶统计特性,使网络获得全局关系。可称为 m−h1​−h2​−q 网络(m 个源节点,h1​ 个第一隐藏层神经元,h2​ 个第二隐藏层神经元,q 个输出神经元)。
    • 完全连接:相邻层任意一对节点都有连接。
    • 部分连接:部分节点对间无连接。
  3. 递归网络:与前者区别在于至少有一个反馈环。反馈环涉及单元延迟元素,若包含非线性单元,将导致非线性动态行为,对学习能力和性能有深刻影响。

六、 知识表示 (1.7节)

  1. 知识的定义:人或机器储存起来以备使用的信息或模型。
  2. 知识来源
    • 先验信息:已知世界的事实状态。
    • 观测(训练数据):带有噪声的传感器测量,分为有标记(有期望响应)和无标记样本。
  3. 设计阶段
    • 学习(训练):用训练样本子集修改自由参数。
    • 泛化(测试):用陌生样本检验性能。
  4. 知识表示的规则
    • 相似输入产生相似输出(连续性)。
    • 不同的输入产生不同的输出(区分性)。
    • 处理不变性(尺度、平移、旋转等)。
  5. 神经网络 vs 传统符号AI
    • 符号AI:自顶向下,基于算法语言和数据表示的形式操作,具有组合语义和结构。
    • 神经网络:自底向上,并行分布式处理,具有天生学习能力、自适应和鲁棒性。
    • 融合趋势:集成二者建立结构化连接论者模型或混合系统,既能从神经网络中抽取规则,也能结合符号AI的推理与通用性特征。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐