RNN、LSTM 与 BiLSTM 算法详解

2401_83188761

270人浏览 · 2026-04-06 15:44:48

2401_83188761 · 2026-04-06 15:44:48 发布

NLP-AHU-(学号开头D)010

在处理序列数据（如文本、语音、时间序列）时，循环神经网络（RNN）及其改进版本 LSTM 和 BiLSTM 是深度学习中的重要模型。本文将系统介绍它们的设计启发、核心结构、算法细节及数学表达。

一、RNN（循环神经网络）

1.1 设计启发

RNN 的出现是为了解决传统前馈神经网络在序列建模中的固有缺陷，其设计灵感源于人类认知中的“记忆”机制。传统全连接网络或 CNN 在处理序列数据时存在以下局限：

输入长度固定：无法处理不同长度的句子或音频。
无法捕捉时序依赖：假设输入彼此独立，无法理解诸如“我吃了一个蛋挞，它很甜”中代词“它”的指代关系。
参数无法共享：若为每个序列位置设置独立参数，参数量会急剧增加。

RNN 的核心思想是通过循环结构和权重共享机制，使网络在每一步都拥有可以传递历史信息的“隐藏状态”，从而可以处理任意长度序列并捕捉时序依赖。

1.2 核心结构

循环单元：RNN 的基本单元会在时间维度上被“展开”，每个时间步使用相同的循环单元。
权重共享：所有时间步共享同一套权重，保证参数量不会随序列长度增加而爆炸。
隐藏状态 ht：作为“记忆”载体，每个时间步的隐藏状态会传递到下一步，实现信息在时间上的流动。

1.3 算法细节与数学表达

(1) 前向传播

对于时间步 t：

隐藏状态更新（记忆更新）：

输出计算：

说明：：当前输入：上一时间步的隐藏状态：权重矩阵：偏置项 - 激活函数将隐藏状态映射到，softmax 用于分类任务

(2) 反向传播（BPTT）

RNN 的训练依赖时间反向传播（Backpropagation Through Time, BPTT）。其核心思想是将 RNN 按时间展开为一个深层前馈网络，然后应用标准反向传播算法。

挑战： - 梯度消失：若的特征值小于 1，梯度随时间指数衰减，导致模型无法学习长期依赖。 - 梯度爆炸：若特征值大于 1，梯度指数增长。

二、LSTM（长短期记忆网络）

2.1 设计启发

LSTM 是 RNN 的改进版本，专门解决长期依赖问题和梯度消失问题。灵感来源于计算机逻辑门和人类信息筛选机制。

核心思想： - 在 RNN 隐藏状态之外引入记忆元（Cell State） - 通过遗忘门、输入门和输出门控制信息的读写和遗忘 - 选择性记忆重要信息，忽略无关信息

2.2 核心结构

记忆元：长期记忆，缓解梯度消失问题
隐藏状态 ：短期记忆，用于输出和传递
三个门控：
- 遗忘门（Forget Gate）
- 输入门（Input Gate）
- 输出门（Output Gate）

每个门由 Sigmoid 层和逐点乘法操作构成，Sigmoid 输出，表示门的开闭程度。

2.3 算法细节与数学表达

对于时间步：

遗忘门：

输入门与候选记忆元：

记忆元更新：

输出门与隐藏状态：

注：⊙ 表示逐元素乘法。LSTM 的加法结构让梯度在反向传播时顺畅流动，有效缓解梯度消失。

三、BiLSTM（双向长短期记忆网络）

3.1 设计启发

尽管 LSTM 强大，但它是单向的，仅能利用过去信息。在 NLP 等任务中，一个词的语义受前后上下文共同影响。BiLSTM 希望在任意时间步同时看到过去和未来的信息。

3.2 核心结构

前向 LSTM：从到顺序读取输入
后向 LSTM：从到逆序读取输入
最终输出由两个 LSTM 隐藏状态拼接而成

3.3 算法细节与数学表达

对于时间步：

拼接后的同时包含该时间步前后（整个序列）的上下文信息，显著提升模型性能。

计算量和参数量大约是单向 LSTM 的两倍，且不适用于需要严格因果关系的任务（如实时语音识别）。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

【花雕动手做】ESP32-S3 + MimiClaw 实战：通过飞书自然语言控制多色呼吸灯，打造炫酷嵌入式 AI 灯效

AtomGit开源社区

综合能源系统中的经济-碳协调：最优调度和灵敏度分析【IEEE33节点】（Matlab代码实现）

在全球“双碳”目标背景下，综合能源系统（Integrated Energy System, IES）通过整合电力、热力、天然气等多能源形式，成为实现能源高效利用与低碳转型的关键载体。本文以IEEE33节点配电系统为测试平台，构建经济-碳排放协调最优调度模型，采用多目标优化方法平衡系统运行成本与碳排放量，并通过灵敏度分析揭示关键参数对调度结果的影响。仿真结果表明，模型可有效降低系统总成本与碳排放，灵

AtomGit开源社区

三方三层的主从博弈能源系统优化模型，粒子群算法求解研究（Matlab代码实现）

针对传统能源系统优化中多主体利益失衡、可再生能源消纳不足、多储能形式协同性差等问题，本文构建了含风光可再生能源、电储能、热储能、电解制氢及氢储能的三方三层主从博弈能源系统优化模型，并采用粒子群优化算法求解博弈均衡解。首先，明确能源系统中能源供应商、储能运营商、终端用户三方主体的权责与利益诉求，搭建“上层主导-中层协同-下层响应”的三层主从博弈架构；

AtomGit开源社区

所有评论(0)

查看更多评论

2401_83188761

已为社区贡献1条内容