老码农和你一起学AI系列:LSTM(长短期记忆网络)
今天说说LSTM(长短期记忆网络)能够成功的关键。理解LSTM的门机制,不仅能能明白它为什么比简单RNN强,也能让你更深刻地理解Transformer后来者居上的原因。我们还是接着刚才那个"接力棒"的比喻,但这次要给运动员升级一下装备。

一、核心比喻
在简单RNN中,那个传递"接力棒"(隐藏状态)的运动员,只能被动地接收新的信息,然后把所有信息混在一起往下传。这就导致早期的信息(比如句子开头的"法国")很容易被后来的信息(比如中间提到的"美国"、"英国")给覆盖和稀释掉。
而LSTM,我们可以把它想象成一个非常专业的"智能档案管理员"。这个管理员手里有一个"档案文件夹"(这叫细胞状态 Cell State,是LSTM的核心),他还有一个"工作台"(即隐藏状态)。当他收到一个新的文件(新的输入词)时,他不会像普通运动员那样直接往包里塞,而是会经过一个严格的"三重复核流程"来决定怎么处理这份文件。
二、LSTM的三重复核流程
这个"三重复核流程"就是LSTM著名的"门"机制。每个门都是一个由sigmoid神经网络层组成的"阀门",它的输出是0到1之间的数,代表着"允许信息通过的百分比"(0代表"一律不许过",1代表"全部放行")。让我们用一个具体的句子来演示这个流程:"我在法国长大,...(很多年后)...,所以我会说法语。"
| 步骤 | 门的名称 | 比喻理解 (档案管理员的操作) | 技术作用 | 在这个句子中的作用 |
|---|---|---|---|---|
| 1 | 遗忘门 | "看看哪些旧档案没用了,扔掉。" | 决定从上一个细胞状态中丢弃哪些信息。 | 当读到新句子时,遗忘门可能会决定,之前某个不相关话题的旧信息可以从此遗忘。 |
| 2 | 输入门 | "看看这份新文件里,哪些是重要信息,需要归档。" | 决定在当前的细胞状态中存储哪些新信息。 | 看到"法国"这个词,输入门会认为"地点信息"很重要,决定把它重点记录下来。 |
| 3 | 输出门 | "根据当前的任务,从档案里提取哪些信息放到工作台上。" | 决定从当前的细胞状态中输出哪些信息到隐藏状态。 | 当最后读到"法语"时,输出门会从档案里提取出"法国"这个相关的背景信息,结合"法语"一起输出。 |
三、门机制
现在,一起来揭示最核心的问题:为什么这种机制能避免RNN的"遗忘"?
关键就在于"细胞状态"这条信息传送带,以及门机制对它的保护。
-
细胞状态:信息的高速公路
在LSTM内部,有一条贯穿整个链条的直线,就是细胞状态。信息在上面流动时,只经过一些轻微的线性交互,很容易保持不变。这就像一条信息高速公路,让来自句子开头"法国"的信息,可以几乎无损地快速到达句子末尾。 -
门:高速公路的智能闸口
-
遗忘门 负责清理路上的"垃圾"和"路障",保证高速公路通畅。
-
输入门 负责把新的重要信息(比如新的路标)汇入高速公路。
-
输出门 则决定从高速公路上哪个出口下去,作为当前任务的输出。
-
所以,LSTM缓解遗忘的秘诀在于:它把"信息存储"和"信息输出"分开了。
-
存储:细胞状态负责长期存储,受门机制保护,不易被覆盖。
-
输出:隐藏状态负责当前输出,它从细胞状态中提取信息,并用于计算。
在简单RNN中,存储和输出用的是同一个地方,导致新输入不断冲刷旧记忆。而在LSTM中,因为有门机制的存在,模型可以学会在需要的时候(比如遇到"法语"这个词时),主动去细胞状态里调取很久以前存下的"法国"这个信息,而不必担心它在传输过程中被冲淡。
最后小结
LSTM通过精巧的门机制,让神经网络第一次拥有了比较可靠的长期记忆能力。它就像一个真正的档案管理员,知道该记什么、该忘什么、什么时候该用什么信息,从而有效缓解了简单RNN的遗忘问题。
然而,LSTM也有它的局限,这也正是Transformer后来居上的原因:
-
仍然是顺序处理:LSTM依然要一个词一个词地往后读,无法像Transformer那样并行计算,导致训练速度慢。
-
长距离依赖的瓶颈:虽然比RNN强很多,但LSTM在处理超长文本时,依然可能存在信息衰减。
我想这就是LSTM的门机制是理解现代深度学习架构如何控制信息流动的典范。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)