目录

1.深度学习相关术语

1.1嵌入

1.2.潜空间

1.3.表征

2.Transformer架构的成功

2.1 自注意力机制

2.2Transformer的其他优点

2.3 并行计算与硬件适配的“天作之合”

​编辑

3. Transformer的局限性与改进方向

3.1 计算复杂度的平方级增长

3.2 位置编码的“先有鸡还是先有蛋”困境

4. 总结与展望:Transformer之后的时代


1.深度学习相关术语

在深度学习领域,我们经常会用到嵌入向量,表征和潜空间这些术语,它们有哪些共性,又有哪些不同呢?

嵌入向量是输入向量的一种表征形式,原本的向量被表征为输入向量后,仍会保留其特征。

潜向量是输入向量的一种中间表征形式。

表征是原始输入数据的一种编码形式。

本章探讨它们之间的关系,并谈论在机器学习中怎么利用它们对输入数据进行编码。

1.1嵌入

嵌入向量简称为嵌入,能够将高维数据编码成为低维向量。

我们可以通过嵌入,将稀疏的独热向量编码成为非稀疏的连续稠密向量。独热编码是一种将分类数据表征为二进制向量的编码方式,在这种编码方式下,每个类别都对应一个向量,该向量在分类索引的取值为1,其余位置的取值为0,从而确保了匪类取之的表征形式可以被一些机器学习算法处理。如果我们有一个颜色分类变量,有红色、绿色和蓝色三个类别,独热编码会将红色编码为【1 0 0】,绿色编码为【0 1 0】,蓝色表示为【0 0 1】。接下里,利用嵌入模块的机器学习权重矩阵,就可以将独热编码的分类变量映射到连续的嵌入向量中。

我们也可以对图像这类稠密型数据使用嵌入方法,例如,卷积神经网络的最后一层会生成嵌入向量,严格意义上,神经网络的所有中间层的输出都有可能产生嵌入向量。根据训练目标的不同,输出层也可能生成有用的嵌入向量。

嵌入向量的维数不一定会比原始维数更低,也可以更高,我们可以将输入数据更极致地编码为二维连续稠密向量表征形式,用于可视化展示和聚类分析,

嵌入的一个基本特性是在编码时会关注输入间的距离或输入相似性,这意味着嵌入会考虑输入的语义,让相似的数据在嵌入空间中距离更近。

嵌入是从输入空间到输出空间的保持结构的单射。所谓保持结构,可以理解为相似的输入会被映射到嵌入空间中邻近的位置上。

1.2.潜空间

潜空间通常与嵌入空间同义,即嵌入向量被映射到的空间。

在潜空间中,相似的输入会被映射到邻近的位置,但这并非硬性要求。更宽泛地说,我们可以将潜空间视为包含特征的任意特征空间。这些特征通常是原始输入特征的压缩版本。潜空间的特征可以通过神经网络的学习得到,如图1-3所示,通过自编码器可以对输入数据进行重建,从而学习这些特征。

图1-3中的瓶颈形状部分表示一个小型的,位于中间层的神经网络层,其作用是将输入图像编码或者映射为更低维度的表征。我们可以认为,这种映射所指向的目标空间就是潜空间。自编码器的训练目的在于重建图像,换句话说,要尽量减少输入图像与其重建输出图像之间的差异。为了达成这一目的,自编码器会尝试学习如何在潜空间中将相似输入(比方说猫的图片)的特征编码放得更近一些,由此便产生了有用的、能让相似的输入在潜空间中彼此靠拢的嵌入向量。

1.3.表征

表征是输入的一种编码形式,通常是指输入的中间形态。如前文所说,嵌入向量或者潜空间的中间向量可以看作是输入向量的一种表征。

2.Transformer架构的成功

近年来,Transformer架构已经成为最成功的神经网络架构,尤其是在各类自然语言处理任务上。事实上,Transformer也几乎要成为计算机视觉领域最领先的技术,Transformer的成功可以归结为几个关键因素,包括注意力机制,轻松并行化,无监督训练和大规模的参数等。

2.1 自注意力机制

Transformer的自注意力机制,是基于Transformer的大模型架构取得成功的关键因素之一。

自注意力机制最初起源于图像识别领域,它借鉴了人眼视觉的工作方式,即一次只专注于图像的特定部分,分层、有序地处理信息,类似于人眼观看一副图像,如看到一副花朵,我们往往是把握全局特征,然后才看到花朵的纹理和叶片上的露珠。

Transformer借鉴了以上机制,用于文生文(机器翻译和文本生成),使得序列中的每个元素都能注意到其他所有元素,从而为每个元素提供基于上下文的表征。

在Transformer中,编码器通过自注意力机制来计算序列中的每个词元相对于其他词元的重要程度,从而使得模型能够聚焦于输入序列中相关联的部分。从概念上理解,注意力机制使得Transformer能重点关注输入序列或者图像中的不同部分,这与全连接层相似,每个输入元素都通过权重与下一层的输入元素相连。然而,在注意力机制中,注意力权重的计算涉及将每个输入元素与其它的所有元素进行比较,通过这种方法得到的注意力权重是动态的,且依赖于输入。相比之下,卷积层或全连接层的权重在输入后是固定的。

 图:全连接层的权重参数和注意力模型的权重参数的区别

注意力机制使得神经网络能够有选择地判断不同输入特征之间的重要性,从而使模型面对特定任务时能够聚焦于输入中关联最强的部分。这为每个词元,图像单元提供了上下文理解能力,允许模型进行更为细致的分析,这也是让Transformer模型表现出色的关键因素之一。

2.2Transformer的其他优点

  Transfomer在大规模无标签数据集上进行自监督学习,实现Transformer预训练,是Transformer模型成功背后的另一个重要因素。预训练时,Transformer会学习预测句子中缺失的词语,或是文档的下一句子,通过学习这些内容,模型强行掌握了能够广泛适用于各类下游任务的语言通用表征。

尽管无监督预训练在自然语言处理任务中已表现出有高有效性,但是否适用于计算机视觉任务,仍是研究重点。

   Transformer的一个显著特点是其庞大的模型规模,例如,2020年备受瞩目的GPT-3模型就有1750亿个可训练参数,而其他一些Transformer模型,参数量更是达到万亿级别。

Transfomer的规模及可训练参数量,是决定其模型性能的关键因素,尤其对于大规模自然语言处理任务而言,线性尺度定律表明,随着模型规模增大,训练损失会成比例减少,这意味着模型大小翻一番,训练损失可能会减半。

这样一来,可以进一步提升模型在目标下游任务上的表现。但至关重要的是,模型规模与训练词元数量需同步扩大,也就是说,每当模型大小翻倍,用于训练的词元数量也应增加一倍。

由于有标签数量是有限的,无监督预训练期间利用大量数据,就变得尤为重要。

总而言之,大模型与海量数据集是Transformer取得成功的关键,它能够基于自监督学习进行训练,从而不用依赖于标注数据而可以利用大量无标注数据进行训练,这能扩大训练量和减少训练成本,从而可以进行更大规模的训练。

   英伟达显卡的CUDA的最主要的一个特点就是并行训练。并行计算功能最初是基于图像渲染研发的,但直到人工智能浪潮兴起并行计算才得到了真正的重视。Transformer可以很好地利用英伟达显卡的并行计算功能。它可以把词元进行截断或填充到固定长度,然后高效地进行并行计算。

2.3 并行计算与硬件适配的“天作之合”

正如前文所述,Transformer对并行计算的友好利用是其得以扩展到巨量参数的关键工程支柱。这背后离不开硬件与架构的协同进化。

传统的循环神经网络(RNN)由于其时序依赖的特性,必须逐词处理输入(即计算第t步时必须等待第t-1步完成),这使得GPU的大规模并行算力难以完全施展。而Transformer的自注意力机制打破了这一枷锁:它一次性接收整个输入序列,通过矩阵运算同时计算出所有位置之间的注意力权重。这种计算模式与英伟达CUDA(统一计算设备架构)所擅长的单指令多线程(SIMT)模式高度契合。

具体来说,现代GPU(如A100、H100)中的Tensor Core(张量核心)针对小规模矩阵乘加运算进行了深度优化。Transformer的前向与反向传播几乎可以完全拆解为海量的矩阵乘法(General Matrix Multiplication,GEMM)运算。这使得硬件能够以接近峰值的算力运转,训练速度相比RNN提升了数个数量级。可以说,Transformer的成功不仅源于算法创新,也得益于它恰好成为了从“通用计算”到“专用AI加速”这一硬件设计转向中的“杀手级应用”。

3. Transformer的局限性与改进方向

尽管Transformer取得了统治级的成功,但作为一种通用架构,它并非没有短板。理解这些局限,有助于我们把握下一代神经网络架构的演进方向。

3.1 计算复杂度的平方级增长

Transformer最大的痛点在于其注意力机制的计算复杂度。对于一个长度为 nn 的序列,标准自注意力机制需要计算 n×nn×n 的注意力矩阵,其时间和空间复杂度均为 O(n2)O(n2)。

这意味着,当处理长序列时(例如长篇小说、高分辨率图像(由大量像素块组成)或长视频),计算开销会爆炸式增长。例如,将输入长度从512增加到8192,计算量会增加256倍。这限制了大模型处理“超长上下文”的能力,也是为什么早期的大模型通常只能“记住”几千个词元的原因。

为了克服这一瓶颈,研究者提出了多种改进方案,例如稀疏注意力(只计算部分位置对,如Longformer、BigBird)、线性注意力(将复杂度降为 O(n)O(n))以及循环注意力(如RWKV、RetNet)。这些变体试图在保持Transformer表达能力的同时,解决其内存与计算瓶颈。

3.2 位置编码的“先有鸡还是先有蛋”困境

注意力机制本身是“置换等变的”(permutation equivariant),即它不关心输入序列的顺序,只关心元素之间的配对关系。然而,对于自然语言(“狗咬人”与“人咬狗”含义完全不同)和图像(像素的空间位置至关重要),顺序信息不可或缺。

为此,Transformer必须额外注入位置编码。从最初的固定三角函数位置编码,到可学习位置编码,再到相对位置编码(如RoPE,旋转位置编码),这本质上都是一种事后补救措施。理想情况下,我们希望神经网络本身能自然地感知位置,而不需要人工设计的显式编码。这也催生了如ConvNeXt等回归卷积思路的尝试,以及状态空间模型对序列位置的原生建模能力。

4. 总结与展望:Transformer之后的时代

综上所述,Transformer架构通过自注意力机制实现了动态的上下文感知,借助无监督预训练和海量参数挖掘了数据的深层规律,并凭借对并行计算的天然适配踩准了硬件发展的浪潮。这三个因素的叠加,使其在过去数年间几乎统一了自然语言处理与计算机视觉的架构选择。

然而,科学探索从未止步。随着摩尔定律放缓以及大模型部署成本的升高,业界开始重新审视“越大越好”的线性尺度定律。我们或许正在见证一个转折点:一方面,通过混合专家模型(MoE)和知识蒸馏,可以在不显著增加计算成本的情况下扩大模型容量;另一方面,以Mamba为代表的状态空间模型(SSM)和以RWKV为代表的RNN复兴架构,正在挑战Transformer在长序列建模中的统治地位。

对于科普读者而言,理解Transformer不仅仅是为了掌握一项当下流行的技术,更是为了看清一个更深刻的趋势:在人工智能领域,算法、算力与数据正在形成一个彼此加速的飞轮。Transformer是当前这个飞轮的核心,但谁也无法预测下一个打破注意力平方律的“破局者”会何时出现。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐