老码农和你一起学AI系列：LSTM(长短期记忆网络)

chilavert318

441人浏览 · 2026-03-16 08:00:00

chilavert318 · 2026-03-16 08:00:00 发布

今天说说LSTM（长短期记忆网络）能够成功的关键。理解LSTM的门机制，不仅能能明白它为什么比简单RNN强，也能让你更深刻地理解Transformer后来者居上的原因。我们还是接着刚才那个"接力棒"的比喻，但这次要给运动员升级一下装备。

一、核心比喻

在简单RNN中，那个传递"接力棒"（隐藏状态）的运动员，只能被动地接收新的信息，然后把所有信息混在一起往下传。这就导致早期的信息（比如句子开头的"法国"）很容易被后来的信息（比如中间提到的"美国"、"英国"）给覆盖和稀释掉。

而LSTM，我们可以把它想象成一个非常专业的"智能档案管理员"。这个管理员手里有一个"档案文件夹"（这叫细胞状态 Cell State，是LSTM的核心），他还有一个"工作台"（即隐藏状态）。当他收到一个新的文件（新的输入词）时，他不会像普通运动员那样直接往包里塞，而是会经过一个严格的"三重复核流程"来决定怎么处理这份文件。

二、LSTM的三重复核流程

这个"三重复核流程"就是LSTM著名的"门"机制。每个门都是一个由sigmoid神经网络层组成的"阀门"，它的输出是0到1之间的数，代表着"允许信息通过的百分比"（0代表"一律不许过"，1代表"全部放行"）。让我们用一个具体的句子来演示这个流程："我在法国长大，...（很多年后）...，所以我会说法语。"

步骤	门的名称	比喻理解 (档案管理员的操作)	技术作用	在这个句子中的作用
1	遗忘门	"看看哪些旧档案没用了，扔掉。"	决定从上一个细胞状态中丢弃哪些信息。	当读到新句子时，遗忘门可能会决定，之前某个不相关话题的旧信息可以从此遗忘。
2	输入门	"看看这份新文件里，哪些是重要信息，需要归档。"	决定在当前的细胞状态中存储哪些新信息。	看到"法国"这个词，输入门会认为"地点信息"很重要，决定把它重点记录下来。
3	输出门	"根据当前的任务，从档案里提取哪些信息放到工作台上。"	决定从当前的细胞状态中输出哪些信息到隐藏状态。	当最后读到"法语"时，输出门会从档案里提取出"法国"这个相关的背景信息，结合"法语"一起输出。

三、门机制

现在，一起来揭示最核心的问题：为什么这种机制能避免RNN的"遗忘"？

关键就在于"细胞状态"这条信息传送带，以及门机制对它的保护。

细胞状态：信息的高速公路
在LSTM内部，有一条贯穿整个链条的直线，就是细胞状态。信息在上面流动时，只经过一些轻微的线性交互，很容易保持不变。这就像一条信息高速公路，让来自句子开头"法国"的信息，可以几乎无损地快速到达句子末尾。
门：高速公路的智能闸口
- 遗忘门 负责清理路上的"垃圾"和"路障"，保证高速公路通畅。
- 输入门 负责把新的重要信息（比如新的路标）汇入高速公路。
- 输出门 则决定从高速公路上哪个出口下去，作为当前任务的输出。