ResNnt  Deep Residual Learning for Image Recognition 

1. 研究思路(核心观点)

本文提出了深度残差学习框架,通过引入快捷连接(Shortcut Connections)将层重构为学习残差函数,解决了深层神经网络中的性能退化(Degradation)问题,使得训练数百甚至上千层的超深网络成为可能。

2. 技术描述

该技术的核心在于残差模块的设计。

数学重构:不再尝试直接拟合目标映射$H(x)$,而是拟合残差映射 $F(x) = H(x) - x$。最终输出为$F(x) + x$

恒等映射(Identity Mapping):通过“跳跃连接”直接将输入传递至输出。当理想映射接近恒等映射时,优化器只需将残差学习为 0,这比堆叠非线性层拟合 $H(x) = x$容易得多。

瓶颈结构(Bottleneck):在深层模型(如 ResNet-50/101/152)中,使用 $1\times 1 \rightarrow 3\times 3 \rightarrow 1\times 1$ 的卷积组合进行降维与升维,在保持较低计算复杂度的同时增加了网络深度。

3. 技术目的

旨在解决深层网络在训练过程中出现的精度饱和及退化问题(非过拟合导致)。其现实意义在于突破了计算机视觉模型的深度限制,显著提升了图像分类、目标检测及语义分割等任务的特征表征能力。

4. 评估结果

作者在 ImageNetCIFAR-10 数据集上进行了广泛验证。

消融实验:对比了增加层数的普通网络(误差升高)与残差网络(误差随深度降低),证明了深层 ResNet 更易于优化。

基准测试:152 层的 ResNet 在 ImageNet 竞赛中斩获多项冠军,其错误率降至 3.57%,且在 COCO 数据集的目标检测任务上实现了 28% 的相对性能提升。

5. 技术局限性

推理延迟:虽然残差连接不增加参数量,但超深的网络深度仍会带来一定的推理时间开销,且 $1\times 1$卷积在某些硬件上的计算效率并非最高。

特征冗余:后续研究(如 DenseNet 等)指出,ResNet 的某些层可能只对最终结果贡献微薄,存在一定程度的特征重用冗余。

6. 对其领域的影响

ResNet 通过残差连接解决了深层网络退化问题,使千层模型训练成为可能,定义了视觉特征提取的底层标准。

Transformer  Attention Is All You Need 

1. 研究思路(核心观点)

本文提出了一种全新的网络架构 Transformer,该架构彻底摒弃了循环神经网络(RNN)和卷积神经网络(CNN),完全依赖自注意力机制来建模输入与输出之间的全局依赖关系,实现了极高的并行化能力和更短的训练时间。

2. 技术描述

Transformer 采用经典的编码器-解码器结构,其核心组件包括:

多头注意力机制(Multi-Head Attention):通过多个并行的“头”在不同子空间学习特征,模拟卷积的多通道效果。

缩放点积注意力(Scaled Dot-Product Attention):利用 $Q$(查询)、$K$(键)、$V$(值)的点积计算相关性,并引入 $\sqrt{d_k}$ 进行缩放以保持梯度稳定。

掩码机制(Masking):在解码器中使用 Masked Attention,确保生成当前位置时无法看到“未来”的信息,维持自回归特性。

位置编码(Positional Encoding):由于注意力机制不含位置信息,通过正弦和余弦函数为 Embedding 注入序列的相对和绝对位置语义。

逐位置前馈网络(Position-wise FFN):对每个位置独立应用相同的 MLP 层进行非线性特征变换。

3. 技术目的

旨在解决 RNN 架构在处理长序列时由于顺序计算导致的并行化受限问题,以及 CNN 架构在建模远距离依赖时操作次数随距离增长的问题。该技术极大提升了机器翻译等序列转导任务的训练效率与翻译质量,并为大语言模型(LLM)的泛化能力奠定了基础。

4. 评估结果

WMT 2014 英德和英法翻译任务中,Transformer 取得了当时最佳的 BLEU 分数(分别为 28.4 和 41.8)。

  • 并行度评估:其训练速度显著快于基于循环层或卷积层的架构。

  • 复杂度对比:在序列长度为 $n$、维度为 $d$ 的情况下,自注意力的最大路径长度仅为$O(1)$,远优于 RNN 的 $O(n)$

5. 技术局限性

计算复杂度随长度平方增长:自注意力的计算复杂度为 $O(n^2 \cdot d)$,在处理极长序列(如超长文档)时内存开销巨大。

先验假设较少:相比 RNN 或 CNN,Transformer 对数据结构的假设更少,因此往往需要更海量的数据和更大的模型规模才能达到理想的性能。

6. 对其领域的影响

Transformer 凭借自注意力机制打破了序列串行限制,实现高度并行化,统一了 NLP 与 CV 领域的通用架构范式。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐