ResNet 和 Transformer 的论文阅读笔记

上善若水，不渡不行

345人浏览 · 2026-04-15 14:37:41

上善若水，不渡不行 · 2026-04-15 14:37:41 发布

ResNnt Deep Residual Learning for Image Recognition

1. 研究思路（核心观点）

本文提出了深度残差学习框架，通过引入快捷连接（Shortcut Connections）将层重构为学习残差函数，解决了深层神经网络中的性能退化（Degradation）问题，使得训练数百甚至上千层的超深网络成为可能。

2. 技术描述

该技术的核心在于残差模块的设计。

数学重构：不再尝试直接拟合目标映射 $H(x)$ ，而是拟合残差映射 $F(x) = H(x) - x$ 。最终输出为 $F(x) + x$ 。

恒等映射（Identity Mapping）：通过“跳跃连接”直接将输入传递至输出。当理想映射接近恒等映射时，优化器只需将残差学习为 0，这比堆叠非线性层拟合 $H(x) = x$ 容易得多。

瓶颈结构（Bottleneck）：在深层模型（如 ResNet-50/101/152）中，使用 $1\times 1 \rightarrow 3\times 3 \rightarrow 1\times 1$ 的卷积组合进行降维与升维，在保持较低计算复杂度的同时增加了网络深度。

3. 技术目的

旨在解决深层网络在训练过程中出现的精度饱和及退化问题（非过拟合导致）。其现实意义在于突破了计算机视觉模型的深度限制，显著提升了图像分类、目标检测及语义分割等任务的特征表征能力。

4. 评估结果

作者在 ImageNet 和 CIFAR-10 数据集上进行了广泛验证。

消融实验：对比了增加层数的普通网络（误差升高）与残差网络（误差随深度降低），证明了深层 ResNet 更易于优化。

基准测试：152 层的 ResNet 在 ImageNet 竞赛中斩获多项冠军，其错误率降至 3.57%，且在 COCO 数据集的目标检测任务上实现了 28% 的相对性能提升。

5. 技术局限性

推理延迟：虽然残差连接不增加参数量，但超深的网络深度仍会带来一定的推理时间开销，且 $1\times 1$ 卷积在某些硬件上的计算效率并非最高。

特征冗余：后续研究（如 DenseNet 等）指出，ResNet 的某些层可能只对最终结果贡献微薄，存在一定程度的特征重用冗余。

6. 对其领域的影响

ResNet 通过残差连接解决了深层网络退化问题，使千层模型训练成为可能，定义了视觉特征提取的底层标准。

Transformer Attention Is All You Need

1. 研究思路（核心观点）

本文提出了一种全新的网络架构 Transformer，该架构彻底摒弃了循环神经网络（RNN）和卷积神经网络（CNN），完全依赖自注意力机制来建模输入与输出之间的全局依赖关系，实现了极高的并行化能力和更短的训练时间。

2. 技术描述

Transformer 采用经典的编码器-解码器结构，其核心组件包括：

多头注意力机制（Multi-Head Attention）：通过多个并行的“头”在不同子空间学习特征，模拟卷积的多通道效果。

缩放点积注意力（Scaled Dot-Product Attention）：利用 $Q$ （查询）、 $K$ （键）、 $V$ （值）的点积计算相关性，并引入 $\sqrt{d_k}$ 进行缩放以保持梯度稳定。

掩码机制（Masking）：在解码器中使用 Masked Attention，确保生成当前位置时无法看到“未来”的信息，维持自回归特性。

位置编码（Positional Encoding）：由于注意力机制不含位置信息，通过正弦和余弦函数为 Embedding 注入序列的相对和绝对位置语义。

逐位置前馈网络（Position-wise FFN）：对每个位置独立应用相同的 MLP 层进行非线性特征变换。

3. 技术目的

旨在解决 RNN 架构在处理长序列时由于顺序计算导致的并行化受限问题，以及 CNN 架构在建模远距离依赖时操作次数随距离增长的问题。该技术极大提升了机器翻译等序列转导任务的训练效率与翻译质量，并为大语言模型（LLM）的泛化能力奠定了基础。

4. 评估结果

在 WMT 2014 英德和英法翻译任务中，Transformer 取得了当时最佳的 BLEU 分数（分别为 28.4 和 41.8）。

并行度评估：其训练速度显著快于基于循环层或卷积层的架构。
复杂度对比：在序列长度为 $n$ 、维度为 $d$ 的情况下，自注意力的最大路径长度仅为 $O(1)$ ，远优于 RNN 的 $O(n)$ 。

5. 技术局限性

计算复杂度随长度平方增长：自注意力的计算复杂度为 $O(n^2 \cdot d)$ ，在处理极长序列（如超长文档）时内存开销巨大。

先验假设较少：相比 RNN 或 CNN，Transformer 对数据结构的假设更少，因此往往需要更海量的数据和更大的模型规模才能达到理想的性能。

6. 对其领域的影响

Transformer 凭借自注意力机制打破了序列串行限制，实现高度并行化，统一了 NLP 与 CV 领域的通用架构范式。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

为什么很多人会误以为“麦克风越多，拾音效果越好”

AtomGit开源社区

AI辅助需求分析工作流 SOP

2026-05-13。

AtomGit开源社区

手把手：如何用AI 10分钟生成100+条高覆盖测试数据

刚入职就接手智能WiFi插座的定时开关功能测试，面对时间边界、非法字符、硬件断电等上百条测试数据的需求，我一度头大。后来试着把数据生成的活儿交给AI，四轮对话、不到10分钟，竟然拿到了一份120多条的高覆盖测试数据表——正常流程、边界值、安全注入字符、硬件异常全都有。这篇博客完整复盘了我向AI提问的每一步话术，也聊了一个物联网新人用AI偷师的真实感受：省下的不只是时间，还有一种结构化拆解测试点的思