ResNet 和 Transformer 的论文阅读笔记
ResNnt Deep Residual Learning for Image Recognition
1. 研究思路(核心观点)
本文提出了深度残差学习框架,通过引入快捷连接(Shortcut Connections)将层重构为学习残差函数,解决了深层神经网络中的性能退化(Degradation)问题,使得训练数百甚至上千层的超深网络成为可能。
2. 技术描述
该技术的核心在于残差模块的设计。
数学重构:不再尝试直接拟合目标映射,而是拟合残差映射
。最终输出为
。
恒等映射(Identity Mapping):通过“跳跃连接”直接将输入传递至输出。当理想映射接近恒等映射时,优化器只需将残差学习为 0,这比堆叠非线性层拟合 容易得多。
瓶颈结构(Bottleneck):在深层模型(如 ResNet-50/101/152)中,使用 的卷积组合进行降维与升维,在保持较低计算复杂度的同时增加了网络深度。
3. 技术目的
旨在解决深层网络在训练过程中出现的精度饱和及退化问题(非过拟合导致)。其现实意义在于突破了计算机视觉模型的深度限制,显著提升了图像分类、目标检测及语义分割等任务的特征表征能力。
4. 评估结果
作者在 ImageNet 和 CIFAR-10 数据集上进行了广泛验证。
消融实验:对比了增加层数的普通网络(误差升高)与残差网络(误差随深度降低),证明了深层 ResNet 更易于优化。
基准测试:152 层的 ResNet 在 ImageNet 竞赛中斩获多项冠军,其错误率降至 3.57%,且在 COCO 数据集的目标检测任务上实现了 28% 的相对性能提升。
5. 技术局限性
推理延迟:虽然残差连接不增加参数量,但超深的网络深度仍会带来一定的推理时间开销,且 卷积在某些硬件上的计算效率并非最高。
特征冗余:后续研究(如 DenseNet 等)指出,ResNet 的某些层可能只对最终结果贡献微薄,存在一定程度的特征重用冗余。
6. 对其领域的影响
ResNet 通过残差连接解决了深层网络退化问题,使千层模型训练成为可能,定义了视觉特征提取的底层标准。
Transformer Attention Is All You Need
1. 研究思路(核心观点)
本文提出了一种全新的网络架构 Transformer,该架构彻底摒弃了循环神经网络(RNN)和卷积神经网络(CNN),完全依赖自注意力机制来建模输入与输出之间的全局依赖关系,实现了极高的并行化能力和更短的训练时间。
2. 技术描述
Transformer 采用经典的编码器-解码器结构,其核心组件包括:
多头注意力机制(Multi-Head Attention):通过多个并行的“头”在不同子空间学习特征,模拟卷积的多通道效果。
缩放点积注意力(Scaled Dot-Product Attention):利用 (查询)、
(键)、
(值)的点积计算相关性,并引入
进行缩放以保持梯度稳定。
掩码机制(Masking):在解码器中使用 Masked Attention,确保生成当前位置时无法看到“未来”的信息,维持自回归特性。
位置编码(Positional Encoding):由于注意力机制不含位置信息,通过正弦和余弦函数为 Embedding 注入序列的相对和绝对位置语义。
逐位置前馈网络(Position-wise FFN):对每个位置独立应用相同的 MLP 层进行非线性特征变换。
3. 技术目的
旨在解决 RNN 架构在处理长序列时由于顺序计算导致的并行化受限问题,以及 CNN 架构在建模远距离依赖时操作次数随距离增长的问题。该技术极大提升了机器翻译等序列转导任务的训练效率与翻译质量,并为大语言模型(LLM)的泛化能力奠定了基础。
4. 评估结果
在 WMT 2014 英德和英法翻译任务中,Transformer 取得了当时最佳的 BLEU 分数(分别为 28.4 和 41.8)。
-
并行度评估:其训练速度显著快于基于循环层或卷积层的架构。
-
复杂度对比:在序列长度为
、维度为
的情况下,自注意力的最大路径长度仅为
,远优于 RNN 的
。
5. 技术局限性
计算复杂度随长度平方增长:自注意力的计算复杂度为 ,在处理极长序列(如超长文档)时内存开销巨大。
先验假设较少:相比 RNN 或 CNN,Transformer 对数据结构的假设更少,因此往往需要更海量的数据和更大的模型规模才能达到理想的性能。
6. 对其领域的影响
Transformer 凭借自注意力机制打破了序列串行限制,实现高度并行化,统一了 NLP 与 CV 领域的通用架构范式。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)