老码农和你一起学AI系列：RNN循环神经网络

chilavert318

456人浏览 · 2026-03-15 08:30:00

chilavert318 · 2026-03-15 08:30:00 发布

RNN（Recurrent Neural Network，循环神经网络）最好的方式，是把它和我之前聊过的N-grams以及Transformer放在一起，看成语言模型进化史上的关键中间环节。如果说N-grams是个“记忆力只有7秒的金鱼”（只看局部），Transformer是个“开了天眼的侦探”（全局视野），那RNN就是第一个真正拥有了“短期记忆”的普通人。

以下是为你准备的深度解析。

一、最直观的理解

想象你在读一本小说，但有一个奇怪的规则：你每读完一页，就必须合上书，然后靠记忆去理解下一页的内容。

N-grams：他读完第5页后，只勉强记住了第5页最后一句话的几个字，然后就去读第6页。所以他总是看不懂连贯的情节。
RNN：他有一个“内部笔记本”。他读每一页时，都会把这一页的核心思想总结成一段话写在笔记本上。然后，当他读下一页时，他会翻开笔记本，结合刚才的总结和当前页的新内容，去理解故事。

这个 “内部笔记本” ，就是RNN最核心的隐藏状态（Hidden State）。

二、RNN的工作原理

RNN的工作流程可以用一个非常形象的比喻来解释：它像一个传递接力棒的运动员，但这个接力棒本身在不断地吸收新的能量。

假设我们要处理句子：“我在法国长大，所以我会说法语。”

RNN会一个词一个词地阅读，并不断更新它的“接力棒”（隐藏状态）。

起点：接力棒是空的（状态为0）。
看到“我”：模型把“我”的信息写进接力棒。此时接力棒含有：[我]。
看到“在”：模型看到“在”，同时接过接力棒（里面含有[我]）。它结合两者，更新接力棒为：[我、在]。
看到“法国”：接过接力棒([我、在])，结合“法国”，更新为：[我、在、法国]。
以此类推...
看到“法语”：此时接力棒里已经包含了[我、在、法国、长大、所以、我、会、说]。模型看到“法语”这个词，同时结合了接力棒里存储的上文信息（特别是“法国”），它更容易理解此处的“法语”是指“法国语言”，而不是“法律语言”。

这就是RNN的本质：一个具有循环连接的神经网络，它通过隐藏状态将过去的信息传递给未来的处理步骤。

三、RNN的核心公式

虽然RNN有很多数学公式，但它的逻辑极其简单：

当前的新记忆 = 激活函数( 当前的输入 + 上一步的记忆 )

每一步的输出，都基于这个融合了历史和当下的“新记忆”。

四、RNN的巅峰与局限

RNN在当年是巨大的突破，因为它让神经网络第一次有了处理序列数据的能力。但它有一个致命的弱点，这个弱点直接导致了Transformer的诞生。

特点	说明
最大的优点	可以处理任意长度的序列。它不像N-grams那样窗口固定，也不像Transformer早期版本那样受限于最大长度，理论上它可以无限长地接下去。
最大的痛点	长距离遗忘（梯度消失/爆炸）。回到前面的比喻，接力棒在传递过程中，如果路线太长，最初的信息会逐渐衰减。比如句子是“我在法国长大，去了美国上学，后来又去英国工作，最后回到亚洲，所以我法语说得好。”当传到“法语”时，接力棒里关于“法国”的能量早就被“美国”“英国”“亚洲”稀释得差不多了。RNN很难建立这种长距离依赖。

特点

说明

最大的优点

可以处理任意长度的序列。它不像N-grams那样窗口固定，也不像Transformer早期版本那样受限于最大长度，理论上它可以无限长地接下去。

最大的痛点

长距离遗忘（梯度消失/爆炸）。回到前面的比喻，接力棒在传递过程中，如果路线太长，最初的信息会逐渐衰减。比如句子是“我在法国长大，去了美国上学，后来又去英国工作，最后回到亚洲，所以我法语说得好。”当传到“法语”时，接力棒里关于“法国”的能量早就被“美国”“英国”“亚洲”稀释得差不多了。RNN很难建立这种长距离依赖。

五、进化版：LSTM（长短期记忆网络）

为了解决RNN“记不住长距离信息”的问题，科学家发明了LSTM。可以把它理解成一个“升级版的运动员”，他不仅有一个接力棒，还有一个“选择性读写的大脑”。

遗忘门：决定要不要把笔记本里太旧的信息（比如“美国”）忘掉一点。
输入门：决定新信息（比如“法语”）值不值得重点记。
输出门：决定现在该用什么信息来输出答案。

LSTM在很长一段时间里都是序列建模的王者，直到Transformer的出现。

最后小结

现在我们把你学过的几个概念串起来，做一个终极对比：

模型	阅读方式	视野	记忆能力	计算方式
N-grams	跳读	只看附近几个词	无	查统计表
RNN/LSTM	逐行顺序阅读	理论上无限长，但越远越模糊	有，但会衰减	逐步传递接力棒
Transformer	一目十行	一眼看到全文所有词	无损、直接	全局检索

也正因为如此，Transformer的自注意力机制，相当于给模型装了一个“全局搜索引擎”。它不再需要像RNN那样通过漫长的接力传递才能联系到“法国”和“法语”，而是直接一步到位，建立两者之间的联系。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

产品定制无人化：Spec提取实战

用户指令 → AI理解 → Spec匹配 → 执行计划 → 调用API → 返回结果输入OpenSpecOpenSpec + 用户指令输出代码执行结果方式一次性生成交互式执行用户："帮我把VIP的API配额改成无限"↓AI读取Spec文档，理解VIP配额规则↓AI制定执行计划：1. 找到api_quota规则定义2. 修改配额逻辑3. 还是调用现有API？↓AI执行 → 返回结果。

AtomGit开源社区

AI 时代新范式造一个能做好事的环境：Agent Harness 工程化方法论

AtomGit开源社区

【超详细】Claude Code Ubuntu平台完整部署指南

Claude Code是Anthropic公司推出的终端AI编程助手，能够通过自然语言指令自主完成代码生成、调试、重构和自动化开发任务。不同于传统的代码补全AI，它可以主动读取你的代码库、编辑文件、运行命令、执行测试，并与Git、IDE及其他开发工具集成。据了解，因为某种原因，国内很难使用Claude模型，其实Claude code是一个执行框架，不一定需要对接Claude模型。诶，发现运行不起来