第十章:统一一切——Transformer 的跨域征服(2020-2022)

[!info]
第九章结束于一个悬念:Transformer 在 2017 年改写了 NLP,但能否走出语言的边界,统一其他模态?我们在第九章的结尾部分已经给出了答案的轮廓——ViT 在图像上全面超越 CNN,Wav2Vec 2.0 让语音识别进入新时代,AlphaFold 2 用 Evoformer 攻克了生物学界的五十年难题。本章要做的,不是重复这些结论,而是讲述它们背后的故事:这场跨域征服是如何发生的,为什么是 Transformer 而非别的方案,以及这背后究竟揭示了什么更深层的规律。

[!question]
为什么一个为语言翻译设计的架构,能在图像、音频和生命科学领域接连击败针对每个领域精心设计的专用模型?Transformer 的秘密,究竟藏在哪里?

10.1、一个分数的震撼

2020 年 11 月底,约翰·乔普尔(John Jumper,DeepMind 高级研究科学家,AlphaFold 2 第一作者)盯着屏幕,等待着一个他花了三年时间准备的数字出现。

他所在的房间——事实上是一个视频会议——汇聚了全球数百名蛋白质科学家。第十四届蛋白质结构预测评测竞赛(Critical Assessment of Structure Prediction,CASP14)正在公布结果。由于新冠疫情,这届竞赛只能以线上形式举行:往年那种在某个欧洲城市,研究者们围坐在一起、当场听评委宣读成绩的场景,被一个 Zoom 会议室取代了。但紧张感没有任何减弱。

CASP 是计算生物学界的奥运会,每两年举办一次。规则很简单:评委委员会从近期被实验室确定、但尚未公开的蛋白质结构中挑选一批作为"答案",参赛团队只能拿到蛋白质的氨基酸序列(“问题”),必须在截止日期前预测出三维结构。评委对比预测和真实结构的差异,给出 GDT_TS(全局距离测试评分),满分 100 分,分数越高越好。

这项竞赛自 1994 年创办以来,已经积累了近三十年的历史。在这三十年里,人类最顶尖的计算生物学实验室——来自世界各地的结构生物信息学团队——每届拿出当时最好的算法参赛。成绩是稳步提升的:第一届,最难目标的最高分在 25-30 分左右;到了 2018 年的 CASP13,最好成绩已经爬到了 58 分(那一届的第一名,正是 DeepMind 的第一版 AlphaFold,刚刚入场,已经震惊了所有人)。每届进步两三分,缓慢但真实——就像登山,一步一步,每一步都要耗费巨大的力气。

顶尖团队里有很多实验室工作了二三十年的人。很多人把这项竞赛当成自己职业生涯的核心战场。

2020 年 11 月,评委开始念各个目标的成绩。来自全球的参赛队伍依次出现,分数在 35 到 55 之间浮动——都是有分量的成绩,说明这个领域在继续进步。

然后,AlphaFold 2 的分数出现了。

GDT_TS:92.4。

一秒钟的沉默。

视频会议里,短暂的沉默之后,开始有人发言。有老一辈的计算生物学家——有些已经为这个问题工作了二三十年。一位评委委员会成员后来写道,他感到一种"奇特的解脱":这个问题被解决了,不是被他们解决的,但被解决了——这件事本身就足以让人感到宽慰,哪怕解法来自一家 AI 公司而不是传统的结构生物信息学实验室。也有人感到了某种不安:如果这件事已经被解决了,他们此后的工作将走向何处?

一位参赛多年的科学家后来回忆,她以为自己看错了。92 分意味着预测精度已经达到了原子尺度——接近用 X 射线晶体学或冷冻电镜在实验室里实际测量的结果,差距只有约 1.6 埃(1 埃 = 1 亿分之一厘米,大约是一个原子的半径)。这不是"比较准",这是"已经和实验结果一样准了"。

而排名第二的团队,分数只有 44 分

AlphaFold 2 没有仅仅赢得这次竞赛,它把竞赛给打穿了。从 28 分爬到 50 分,人类花了二十六年;从 50 分爬到 92 分,DeepMind 花了两年。

《自然》杂志后来评论说,这是"蛋白质结构预测的一次革命"。更直接的说法来自一位评委:这相当于"解决了生物学的半个问题"。另一位研究者说得更直白:他花了二十年时间研究一组蛋白质的结构,结果 AlphaFold 2 在当天就预测出来了,而且预测结果和他的实验数据高度吻合。

乔普尔在 2017 年加入 DeepMind 时,拿到的是芝加哥大学理论化学和生物物理学的博士学位。他不是一个典型的 AI 研究者——他对蛋白质的了解,和他对计算的了解同样深刻。在 DeepMind,他加入了由德米斯·哈萨比斯(Demis Hassabis,1976-,DeepMind 联合创始人兼 CEO)主导推动的 AlphaFold 项目。2018 年的 AlphaFold 1 已经让整个领域侧目,2019-2020 年的 AlphaFold 2,是他们在全新架构上的一次大赌注。

那个新架构的核心组件,叫做 Evoformer——一个专为蛋白质数据设计的 Transformer 变体。那个 2017 年为翻译英语句子而生的架构,用三年时间,走进了生命科学最核心的问题。

但这不是故事的全部。就在 CASP14 结果公布前一个月,2020 年 10 月,谷歌大脑的另一群研究者在 arXiv 上发表了一篇标题奇特的论文。计算机视觉领域也正在经历自己的地震。

两件事,两个不同的领域,几乎同时。这不是巧合,而是同一场深层变革的两个波峰——一场关于"什么样的架构才能真正理解世界"的变革,正在 2020 年全面爆发。

要理解这场变革,我们需要先回到 2019 年,感受一个被认为牢不可破的壁垒:CNN 在计算机视觉领域长达八年的统治,以及支撑这种统治的深层逻辑。

10.2、八年的壁垒:CNN 的归纳偏置王国

2012 年的 ImageNet 竞赛,AlexNet 以压倒性优势击败了所有对手,将图像识别领域推入深度学习时代。从那一年起,计算机视觉的核心架构只有一个答案:卷积神经网络(CNN)

图 10.1:ImageNet 图像识别 Top-1 准确率历史变化(2011-2021),折线图展示自 2011 年使用传统手工特征方法(SIFT+FVs)到 2012 年 AlexNet 崛起,一直到 2020 年 ViT-H/14 超越以 EfficientNet-L2 为代表的 CNN 巅峰之作,结束了 CNN 在 ImageNet 分类任务上长达八年的统治地位,至此,开启 Transformer 架构在图像任务上垄断的新篇章。

到 2019 年,CNN 已经迭代了多个不同的版本,如:AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet、SENet、EfficientNet——每一代都在特定方向上推进了这个架构的能力,性能每年稳步提升。这种迭代不是重复发明轮子,每一代背后都有明确的工程动机:VGGNet 用统一的 3×33×33×3 卷积堆叠证明深度是图像识别的关键因素;GoogLeNet 的 Inception 模块解决了"该用多大卷积核"的两难,让模型可以同时在多个尺度上提取特征;ResNet 的残差连接(2015 年,何恺明等人)解决了"深度超过 20 层后训练开始崩溃"的梯度问题——这个障碍限制了所有人,直到残差连接让 152 层的网络也能稳定训练;SENet 引入通道注意力,让网络学会动态调整不同特征通道的权重;EfficientNet 则通过神经架构搜索(NAS),系统地确定了宽度、深度、分辨率的最优组合比例。到 2019 年,CNN 的研究社区积累了近十年的理论和工程经验——任何声称绕开这一切、直接做视觉理解的方法,都会遭到高度怀疑。这不只是"用的人多所以继续用",而是有深刻的理论依据。

正如我们在第五章中所言,CNN 在图像领域的统治,建立在局部性和平移不变性,两个对图像数据的先验假设上,这两个假设,被整个计算机视觉社区视为"图像识别的基本事实"。

它们不是猜测,而是由大量实践验证过的先验知识。用数字更容易感受这两个假设的价值:一张 224×224 像素的 RGB 图像,有约 15 万个像素值。如果用全连接网络(不含任何卷积),哪怕第一层只有 1000 个神经元,也需要约 1.5 亿个参数,且这些参数无法在空间上共享——每个像素对每个神经元都有独立的连接权重,毫无复用。CNN 的卷积核通过局部性和权重共享,把第一层参数压缩到了几千个量级,减少了好几个数量级;而且每个参数承载的是有意义的局部结构知识,而不是随机的全局关联。正是这种参数效率,让 CNN 能在 128 万张图上稳定收敛——用更少的数据,学到更高质量的特征。研究者们甚至有一个非正式的信念:没有这两个归纳偏置,模型根本无法高效地从有限数据里学会识别图像

这个信念的背后,有坚实的实践支撑。ImageNet 共约 128 万张图片——这在工业界算不上大数据。每年,各个顶尖团队都在想方设法从这个固定的数据集里榨取更多性能,而 CNN 的归纳偏置正是最有效的"杠杆"之一:局部性让模型参数更高效(不需要为每对像素之间都学一个关系),平移不变性让特征提取在空间上可以共享(同一个特征检测器对整张图有效)。正是因为这两个假设,CNN 只需要 128 万张图就能学到高质量的视觉特征——而如果没有这些假设,可能需要几十倍甚至几百倍的数据。

CNN 的胜利,也催生了一种带着隐含前提的技术直觉:视觉理解需要"局部先验",这是领域知识,不是数据能替代的。 即便在 2019 年,当研究者们开始思考"能不能用 Transformer 做图像任务"时,主流的回答也是"需要先把卷积引入进去"——让 Transformer 先通过卷积提取局部特征,再用注意力处理高层语义。纯注意力、完全无卷积的图像模型,在当时几乎没有人认真尝试过。

这个信念,直到 2020 年还是主流。

那一年,计算机视觉领域的顶级会议上,仍然有论文在研究"如何在 Vision Transformer 里引入卷积结构以提升性能"——这本身就说明,当时的共识是:纯 Transformer 不够,还得靠 CNN 的归纳偏置来托底

让我们用一个类比来感受归纳偏置的价值。

想象你要教一个新来的员工学会处理特定类型的合同文件,但你只有 100 份样本。你可以做两件事:一是给他一套"合同要点速查手册"——某类条款通常在第 3 页,金额字段总是出现在特定格式附近,违约责任有固定的表述套路;二是什么手册都不给,让他从 100 份合同里自己摸索规律。在样本有限时,给了手册的员工几乎肯定表现更好——那套手册里压缩了前人积累的领域经验,帮他快速建立了稳健的工作框架。

这就是归纳偏置的价值:它是对领域知识的压缩,让模型在样本有限时,能比"从零学习一切"做得更好。CNN 的卷积结构,就是图像领域的那本"速查手册"——它把"局部关联更重要"这条人类总结出的规律,直接编码进了架构。

但如果你有 3 亿份合同呢?员工读了 3 亿份合同之后,还需要那本手册吗?

这个问题,就是 2020 年谷歌大脑的 ViT 团队问出的那个问题。

10.3、核心洞察:归纳偏置是有代价的

多索维茨基和他的团队,在 2019-2020 年之间进行了一系列可以称之为"暴力测试"的实验:把最原始的 Transformer 编码器——完全不做任何图像专用修改——直接用于图像分类,看看会发生什么。

在内部讨论中,这个想法遭遇了怀疑。Transformer 的 Self-Attention 在 NLP 里出色,但它对所有位置一视同仁——对于图像,这意味着图像左上角的像素块和右下角的像素块,在注意力计算时是"等距"的。没有任何关于"相邻像素更相关"的内置假设。这不就是在舍弃 CNN 最核心的归纳偏置吗?

更现实的担忧是:谷歌内部用来训练 ViT 的超大规模数据集(JFT-300M,约 3 亿张图片)是谷歌的私有资产,这项实验能出结果,也许只是因为谷歌能拿到其他机构拿不到的数据。这个结论,能够推广吗?

多索维茨基等人的回答是:先做实验,再下结论。

他们的方案被命名为 ViT(Vision Transformer),核心思路极为简洁:

把图像切成 16×16 像素的小方块(patch),把每个 patch 展平成一个向量,当成一个"词",然后按照处理句子的方式,把这个 patch 序列送入标准的 Transformer 编码器。

图像被"翻译"成了一门语言。每个 16×16 的方块,是这门语言里的一个"词"。224×224 像素的标准 ImageNet 图像,被切成了 (224/16)2=196(224/16)^2 = 196(224/16)2=196 个 patch——一个 196 词的句子。

他们用三个不同规模的数据集来训练 ViT,结果呈现出了一个清晰的规律:

  • ImageNet-1K(约 128 万张图):ViT 明显不如精心调优的 CNN。归纳偏置的优势在数据有限时充分发挥
  • ImageNet-21K(约 1400 万张图):ViT 和 CNN 不分上下,差距缩小到可以忽略的程度
  • JFT-300M(谷歌内部数据集,约 3 亿张图):ViT 超越 CNN,且差距明显

这是一条清晰的"相变曲线":数据规模低于某个临界点,归纳偏置是优势;超过临界点,通用架构反超。

这篇论文在 arXiv 发出后,最初在学术界引发了混合反应。许多研究者接受了"大数据下 ViT 更好"的结论,但也有相当多的声音指出:JFT-300M 是谷歌的私有资产,大多数机构根本无法访问,这个结论能被多大程度复现?有人认为这是谷歌内部的工程成就,而不是整个领域可以利用的突破。这种怀疑不是没有道理的——学术界见过太多"需要谷歌级别资源才能运行"的工作,兴奋了一阵后悄然沉寂。ViT 的命运,暂时悬而未决。两个月后,DeiT 的出现正是对这种怀疑的直接回应。

图 10.2:ViT 与 CNN 在不同数据规模下的性能对比,横轴为预训练数据规模(ImageNet-1K、ImageNet-21K、JFT-300M),纵轴为 ImageNet top-1 准确率(迁移后)。CNN 系列在 ImageNet-1K 下领先;ViT 系列随数据规模增大而持续提升,在 JFT-300M 上超越 CNN 旗舰。来源:Dosovitskiy et al. 2020,图 3。

这个结果揭示的,是归纳偏置的真实本质:它是一种对领域知识的压缩表示

当你没有足够多的样本来自己发现"局部性是重要的"、“平移不变性是重要的"时,把这些知识直接编码进架构是明智的。卷积核就是这种编码——它告诉网络"只看局部,而且左边和右边的检测器应该是一样的”。这是一种强大的先验,在数据匮乏时是礼物。

但这个礼物也有自己的代价。

CNN 的归纳偏置让它对局部特征极为高效,但也限制了它能学到什么。长程依赖(Long-range Dependency)——比如图像右下角的物体和左上角背景之间的语义关系——在 CNN 里需要经过多层卷积才能逐层积累,而且信息会在这个过程中衰减。CNN 擅长"近处的关联",在"远处的关联"上相对弱势。真实世界的视觉理解往往需要同时处理两种关联:识别一只握着网球拍的手,既需要看手指的局部纹理(近处关联),又需要理解手和球拍之间的整体空间关系(远处关联)。

Self-Attention 没有这个限制。每个 patch 可以直接关注图像中任意其他 patch——无论距离多远,代价完全相同。在数据足够多时,模型有能力自己发现"局部性是重要的"(会有注意力头专门学到局部关注模式),同时保留对长程关联的捕捉能力。研究者后来对 ViT 做注意力可视化时发现:在低层就有注意力头已经在做全局关注,而在 CNN 里,全局感受野必须等到网络足够深才能出现。这种"全局感知从一开始就可用"的特性,让 ViT 能学到 CNN 无法学到的图像结构。

如果用一句话总结这个洞察,可以表达为:归纳偏置是数据的代理品。当拥有足够的数据时,就不再需要代理品——模型可以直接从数据中学习一切,包括那些原本需要硬编码的先验知识。

这个洞察,是理解整个 Transformer 跨域征服的钥匙。它不只是说"ViT 打败了 CNN",而是揭示了一个更普遍的规律:任何强归纳偏置,在大数据下都会成为约束而非优势。 音频领域的梅尔滤波器组设计,生物信息学领域的位置特定评分矩阵,自然语言处理领域的 n-gram 语言模型——这条规律在每个领域都将重演一遍。

10.4、从词序列到图像块:ViT 的技术解剖

理解了"为什么 ViT 能成功",我们来看"ViT 具体如何工作"——以及两项让 ViT 从"有趣的实验"变成"实用工具"的关键改进。

10.4.1 ViT 的核心构件

ViT 的工作流程,可以分解为四个步骤:

步骤一:把图像切成 patch 序列

输入图像(224×224 像素)被切成 196 个 16×16 的 patch。每个 patch 被展平为一个长度为 16×16×3=76816 \times 16 \times 3 = 76816×16×3=768 的向量(3 是 RGB 三个颜色通道),然后通过一个线性投影层(可学习的权重矩阵),映射到模型维度。这个线性投影,相当于 NLP 里的"词嵌入(word embedding)"——只不过现在嵌入的对象是图像块。

步骤二:加入 [CLS] token 和位置编码

在 patch 序列的开头,插入一个特殊的 [CLS] token(分类标记)——这个设计直接借鉴自 BERT(见第十一章)。[CLS] 的最终输出将被用于图像分类任务:它在经过 Transformer 编码器处理后,会"聚合"整张图像的信息,然后送入分类头。

同时,Transformer 不知道序列中的顺序信息,所以需要加入位置编码。ViT 使用了可学习的位置嵌入(Learnable Position Embedding)——每个位置有一个可训练的向量,训练过程中,模型会自动学到图像块之间的空间关系。

[CLS] token 的设计有一个值得思考的直觉:整张图像有 196 个 patch,每个 patch 只描述局部信息。[CLS] token 一开始没有任何视觉内容,像一个空白笔记本。经过 Transformer 编码器的多层处理后,它必须通过注意力机制,从 196 个 patch 里"读取"完成分类任务所需的信息。这样,[CLS] token 的最终状态就成了整张图像语义信息的自然汇聚点——不是靠平均所有 patch 的向量,而是靠注意力机制,动态地从最相关的区域聚合信息。处理一张有猫和车的图像,回答"猫在做什么"和回答"车停着还是行驶中",关注的 patch 会完全不同——这正是动态注意力聚合和固定全局平均的根本区别。

步骤三:标准 Transformer 编码器

把 (1 + 196 = 197) 个向量的序列([CLS] + 196 个 patch),送入标准的 Transformer 编码器(Multi-Head Self-Attention + FFN + LayerNorm + 残差连接)。每一个 Self-Attention 层,都让每个 patch 能够直接"看到"图像中所有其他 patch——这是 CNN 做不到的全局感知。

步骤四:分类头

取 [CLS] token 对应的最终输出向量,送入一个简单的线性分类头,预测图像类别。

整个过程,没有任何卷积操作,没有任何图像专用的设计。纯粹是把语言模型的工具箱,应用于图像块的序列。

这里有一个细节值得思考:ViT 是否真的"学到"了和 CNN 类似的局部特征?

研究者对 ViT 注意力权重进行可视化后发现,在低层的注意力头里,确实有一些头表现出了局部关注模式——类似于 CNN 的局部滤波器。但与此同时,也有一些头从很早就表现出了全局性的关注。这说明,在足够数据下,ViT 能同时学到局部和全局的特征——这正是它比纯 CNN 更强的原因。ViT 没有被迫只看局部;它选择了在局部有用时看局部,在全局有用时看全局。

图 10.3:Vision Transformer(ViT)架构示意图——图像被切成 patch,展平后通过位置编码送入标准 Transformer 编码器,[CLS] token 的最终表示用于分类。

10.4.2 DeiT:无需大数据的 ViT

ViT 的成功有一个令人头疼的前提:它需要 JFT-300M 这样的超大规模数据集。而这个数据集是谷歌的私有资产,普通研究者无法通过网络下载使用。

这让很多研究者陷入了一种矛盾的处境:ViT 的结论令人振奋,但如果复现它需要 3 亿张图片,这项工作对于 99% 的研究机构来说就毫无实用价值。

2020 年底,就在 ViT 论文发出两个月后,法国巴黎高等师范学校的雨果·图夫隆(Hugo Touvron,与 Facebook AI Research 合作,DeiT 第一作者)和他的同事们给出了解决方案。

图夫隆当时还是一名博士生,但他看到的问题和他的解法同样清晰:ViT 缺乏归纳偏置,需要海量数据来弥补——但 CNN 已经知道那些局部先验了。能不能让 ViT 直接向 CNN 学习,而不是从头在数十亿张图上发现这些规律?

这个想法演变成了 DeiT(Data-efficient Image Transformers) 的核心方法:知识蒸馏(Knowledge Distillation)

知识蒸馏的基本逻辑并不新鲜:用一个大型"教师"模型的预测来指导"学生"模型训练,学生不只学习标签(“这是猫”),还要学习教师对每个类别的"置信度分布"(“这张图,教师认为是猫的概率 0.85,是豹子的概率 0.1,是老虎的概率 0.04……”)。这种"软标签"包含的信息,比硬标签丰富得多——它告诉学生不只是答案,还有"错误的哪些选项是更不确定的"。

DeiT 的关键在于用 CNN 作为教师。CNN(如 RegNet 或 EfficientNet)经过多年调优,对图像的局部结构有非常好的直觉。让 ViT 模仿 CNN 的预测,本质上是在让 ViT “借用” CNN 的归纳偏置——不通过修改架构,而通过训练目标——就像一个擅长宏观布局的新学员,通过临摹一位对笔触细节精益求精的大师的作品,悄悄补上了自己在细节感知上的短板。

DeiT 还引入了一个专门的 “蒸馏 token”(Distillation Token):在 ViT 的输入序列里,除了 [CLS] token(用于预测真实标签)外,再加入一个 Distillation Token,专门用来模仿教师 CNN 的预测。两个监督信号同时作用,让模型在"人类标注"和"CNN 经验"之间都得到了训练。

结果:DeiT-B(带蒸馏)在不使用任何 JFT-300M 的情况下,在 ImageNet-1K 上达到了 85.2% 的 top-1 准确率——与同等参数量的 CNN 旗舰模型相当,而使用的训练数据仅是标准的 128 万张图片。ViT 从"需要谷歌级别资源才能跑"变成了"普通研究团队也能复现"的方案。

DeiT 的发表(2020 年 12 月),是视觉 Transformer 走向大众化的关键节点。接下来,围绕 ViT 的工作以爆炸式速度增长。

这里有一个值得记住的历史教训:ViT 是一个由谷歌发布的工作,但它真正成为整个社区的工具,是靠法国的一个博士生和他的导师在两个月后发布的跟进工作。这种模式在 AI 研究史上反复出现——原始突破往往来自资源最丰富的机构,但让突破变得"可用"的工程化工作,可以来自任何地方。DeiT 的存在,也提醒我们:一个需要谷歌级别资源才能运行的方法,在学术界的实际影响力远比看起来的要小;而一个让普通团队能够复现和改进的方法,才是真正进入了领域的主流。

10.4.3 Swin Transformer:解决密集预测的最后难题

ViT 在图像分类上成功了,但还有一个问题没有解决:密集预测任务

图像分类只需要给整张图打一个标签(“猫”、“车”)。但更复杂的视觉任务——目标检测(在图中圈出猫的位置和边界框)、语义分割(给每个像素分配类别)——需要模型具备多尺度特征:既要看到细节(局部的边缘、纹理),又要理解整体(物体的形状、场景的布局)。

CNN 的层次化结构天然地提供了这种多尺度特征:浅层特征图分辨率高、感受野小(捕捉细节),深层特征图分辨率低、感受野大(理解语义)。标准目标检测框架(如 Faster R-CNN、FPN)就是建立在这个金字塔上的。

标准 ViT 是没有这个层次化结构的。它把图像切成 196 个相同大小的 patch,从始至终保持同等分辨率,缺乏 CNN 那种"从细节到整体"的逐层抽象。在目标检测和语义分割任务上,标准 ViT 无法直接接入现有的检测框架,表现也不如 CNN。

2021 年初,微软研究院的刘泽(Ze Liu,微软研究院研究员,Swin Transformer 第一作者)和他的同事们提出了 Swin Transformer(Shifted Window Transformer),专门解决这个问题。

Swin Transformer 的核心创新是两点:

第一,分层结构(Hierarchical Design):把图像 patch 逐层合并,从 4×44×44×4 pixel patch 开始,逐层合并成 8×88×88×816×1616×1616×16……形成金字塔式的特征层级,和 ResNet 的特征图层次完全对应。这让 Swin Transformer 可以像 CNN 一样,自然地接入以 CNN 为骨干的下游任务框架(如 Cascade Mask R-CNN 检测头),几乎无缝替换原来的 CNN 骨干网络。

第二,移动窗口注意力(Shifted Window Attention,SW-MSA):标准 Self-Attention 的复杂度是 O(n2)O(n^2)O(n2)nnn 是 patch 数量),对高分辨率图像来说太贵——一张 512×512512×512512×512 的图像用 4×44×44×4 patch,有 16384 个 token,163842≈2.716384^2 \approx 2.71638422.7 亿个注意力分数,完全无法计算。Swin Transformer 把注意力限制在**局部窗口(7×77×77×7 patch 的窗口)**内计算,把复杂度从 O(n2)O(n^2)O(n2) 降到 O(n)O(n)O(n)

但局部窗口里的 patch 只能看到窗口内的其他 patch,失去了全局感知——这不就又回到了 CNN 的局部约束吗?

这个问题通过"移位(Shift)“来解决:在相邻层之间,把窗口的划分方向错开半个窗口大小,让来自不同窗口的 patch 在相邻层之间能互相"交流”。两层交替——正常窗口(W-MSA)和移位窗口(SW-MSA)——逐层建立全局感知,效果类似于把 CNN 的"感受野随层数扩大"的机制,用 Transformer 的方式重新实现了一遍。

图 10.4:Swin Transformer 的移动窗口注意力机制,左图为 W-MSA(窗口内部注意力),相邻窗口之间的 patch 没有直接交流。右图为 SW-MSA(移位窗口),窗口边界错位,原本分属不同窗口的 patch 现在同处一个窗口可直接交流。两种模式在相邻层交替使用,实现跨窗口的全局信息传播。来源:Liu et al. 2021,图 2。*

结果:Swin-L 在 ImageNet-22K 预训练后迁移到 ImageNet-1K,以 87.3% 的 top-1 准确率刷新图像分类纪录;在 COCO 目标检测上达到 58.7 box AP;在 ADE20K 语义分割上达到 53.5 mIoU——三个最重要的视觉基准,Swin Transformer 全部拿下第一名。

至此,CNN 在计算机视觉领域的最后壁垒倒下了。 不只是图像分类——连需要精细空间理解的密集预测任务,Transformer 也能做,而且做得更好。自 2012 年以来统治计算机视觉的 CNN,在 2021 年正式让出了性能王座。

对实际做视觉工程的从业者来说,Swin Transformer 的影响是非常直接的。计算机视觉的下游任务(目标检测、实例分割、全景分割、语义分割)长期依赖的是一套以 CNN 为骨干网络的标准流水线:ResNet 或 EfficientNet 做特征提取,FPN(Feature Pyramid Network)构建多尺度特征金字塔,再接上 Faster R-CNN、Mask R-CNN 之类的检测头。Swin Transformer 的层次化设计与这套流水线无缝对接——在现有框架里把骨干网络从 ResNet 换成 Swin,几乎不需要修改其他部分,就能获得显著的性能提升。工程落地成本极低,而收益是真实可测量的。

2021 年之后,主流视觉框架(MMDetection、Detectron2)陆续把 Swin Transformer 作为默认推荐骨干,顶级视觉任务的开源实现也开始以 Swin 作为基准线。一个架构想要在工业界真正落地,不只需要在论文里赢,还需要能无缝插入现有的工程体系。Swin Transformer 两者都做到了。


10.5、音频与生命——征服的完成

图像让怀疑者沉默了。但 Transformer 的野心不止于此。

10.5.1 语音识别:10 分钟标注数据的奇迹

语音识别是另一个长期被专用模型统治的领域。传统语音识别系统需要数百乃至数千小时带文本对齐标注的语音数据——一段录音,需要有人手动标注每个词出现在哪个时间点。这类标注数据极为昂贵,英语等主流语言还好,很多小语种根本就没有足够的标注数据。

2020 年 6 月,Facebook AI 的阿列克谢·巴耶夫斯基(Alexei Baevski,Facebook AI Research 研究员,Wav2Vec 2.0 第一作者)和他的同事们发表了 Wav2Vec 2.0,彻底改变了这个局面。

Wav2Vec 2.0 的架构核心也是 Transformer,但它最关键的创新在于训练方式——对比式自监督学习(Contrastive Self-Supervised Learning)

互联网上有海量的音频内容:播客、广播、电影、演讲——这些内容是免费的、无限的。然而标注一小时的语音,专业标注员需要约 6-10 小时的工作,费用高达数百美元。想要 1000 小时的标注数据?这意味着约一百万美元的标注成本和数年的周期。

Wav2Vec 2.0 的做法是:把"什么是语音"这个知识,从无标注音频中学习,而不是从标注数据中学习。

具体来说,训练分两步:

第一步:自监督预训练(不需要任何标注)

把原始音频通过 CNN 提取基础声学特征,然后做一件"破坏性"的事:随机遮蔽部分时间步的特征(就像用墨水涂掉文字的某些段落)。模型的任务是:从上下文预测被遮蔽段落的声学表示

但这里有个关键设计:模型不是在预测这个时间步的"正确答案",而是在 K 个候选项(1 个正确,K-1 个干扰项)中选出正确的那个。这叫做对比学习——模型需要学会区分"真正发生的语音"和"随机采样的噪声语音"。

为什么这有效?因为这个任务逼着模型学会了"语音内部的规律"——语音里什么样的声音序列是合理的,什么样的序列是不可能出现的。这是语音识别的核心能力之一,但它不需要任何人工标注。只要有大量的语音数据,模型就可以在这个自监督任务上学习。

第二步:有监督微调(只需要很少的标注)

把预训练好的模型直接接上一个 CTC(Connectionist Temporal Classification)解码器,用少量有标注的语音-文字对微调。由于第一步已经学会了"语音的基本规律",第二步只需要教它"如何把声音对应到文字"——这个任务所需的数据量大大减少。

结果令人震惊。在 LibriSpeech 基准测试上,使用不同量的有标注数据,大型模型(Large,在 60K 小时无标注语音上预训练)的表现如下:

标注数据量 词错率(test-clean / test-other)
10 分钟 约 3-5% / 约 8-15%
1 小时 更低
100 小时 接近当时监督学习最优
960 小时(全量) 约 1.8% / 3.3%(达到最先进水平)

注:具体数字因预训练数据量和模型规格而异,原论文 Table 4 有详细实验对比。

这组数字改写了语音识别的基本假设。用极少量的有标注数据,Wav2Vec 2.0 超越了当时需要 100 倍甚至更多有标注数据的全监督系统。

“语音识别需要大量标注数据"的判断,不再成立。Transformer 加上自监督预训练,用极少量的标注成本,就能做到之前需要数千小时标注才能达到的水平。语音识别领域,也出现了它自己的 “BERT 时刻”——这个词,在当时的语音研究界成了褒义词,意思是"那个一切都被颠覆了的历史节点”。

2022 年 9 月,OpenAI 发布了 Whisper,把这个逻辑推到了极致。Whisper 用 68 万小时的弱监督音频数据训练——这些数据不是精心标注的,而是从互联网上收集的视频字幕,噪声很大,质量参差不齐。

但这恰恰是 Whisper 的秘密。

过去的语音系统追求"干净"——高质量录音室录音、经过严格审核的转录文本。Whisper 追求的是"多样"——各种口音、各种噪声、各种语言、各种录音设备。

结果是,Whisper 获得了其他系统所没有的鲁棒性

  • 在嘈杂的街道环境下,Whisper 的表现几乎不衰减
  • 它原生支持 96 种语言,包括很多此前几乎没有好用语音识别系统的语言
  • 它能做跨语言转录(将非英语语音直接翻译成英文文字),而不只是逐字转录

Whisper 揭示了一个反直觉的工程洞察:规模和多样性本身就是鲁棒性的来源。精心清洗的小规模数据,得到的是"在实验室里很好但在真实场景里脆弱"的模型。嘈杂但庞大、来源多样的数据,反而训练出了能在真实世界稳定工作的系统。

这个洞察改变了语音工程的基本工作方式。在 Whisper 之前,语音识别系统的部署需要持续的领域适配(Domain Adaptation):一个通用模型在医疗场景下表现差,在电话通话中表现差,在带口音的英语中表现差,工程师需要为每个场景收集专项数据、做专项微调,这是一项永无止境的维护工作。Whisper 的出现意味着对于绝大多数通用场景,一个模型已经够用了。它把"语音识别"从一项需要持续工程维护的系统,变成了一个可以直接调用的基础设施 API——这种从"工程项目"到"通用能力"的转变,和 BERT 在 NLP 领域引发的转变如出一辙。

10.5.2 AlphaFold 2:生命语言的解码者

现在,让我们再次回到 CASP14 那个历史性的时刻,再详细的讨论一下 AlphaFold 2 究竟是怎么做到这件事的。

蛋白质折叠问题,简单来说是这样的:蛋白质是由氨基酸组成的链状分子,人体内有约 2 万种蛋白质,每种由几十到几千个氨基酸按特定顺序排列。这条链最终会在细胞环境中折叠成一个特定的三维形状——这个三维形状决定了蛋白质的功能。癌症靶向药物的设计,需要精确理解蛋白质的三维结构;传染病的疫苗开发,需要分析病毒表面蛋白的折叠形态;人类疾病的发生,往往和某个蛋白质"折叠错了"有直接关联。

问题在于:仅从氨基酸序列,能不能预测出蛋白质的三维结构?

这个问题自 1960 年代生物化学家们意识到它开始,就成了"分子生物学的圣杯"之一。它之所以困难,是因为氨基酸链的折叠空间是天文数字级别的——即便只有 100 个氨基酸,可能的折叠构型也超过了宇宙中的原子数量。传统方法要么依赖实验(X 射线晶体学、冷冻电镜,昂贵且耗时),要么依赖物理模拟(计算量巨大),始终无法做到快速、准确的预测。

DeepMind 团队把蛋白质折叠问题重新构建为一个信息整合问题

氨基酸序列,是一种"语言"。这门语言的"文法"——哪些氨基酸倾向于相邻折叠、哪些保持距离——隐藏在几十亿年的进化数据里。通过比对同一蛋白质在不同物种中的氨基酸序列(即多序列比对,Multiple Sequence Alignment,MSA),可以推断出哪些位置在进化中保持保守(可能是结构关键位置),哪些位置的变化是协同的(两个位置同时变化,意味着它们在结构上存在依赖关系)。

这种协同信息,本质上是一种"长程依赖"——它跨越了氨基酸序列中的任意距离。这恰恰是 Transformer 最擅长的事情。

Evoformer 的设计,就是把这种信息整合用 Transformer 来实现,并加入了专为蛋白质几何特性设计的组件:

  • 输入:氨基酸序列 + 多序列比对数据(MSA)
  • 双流表示:同时维护两种表示——“序列表示”(每个氨基酸的状态)和"配对表示"(每对氨基酸之间关系的状态)
  • 三角形注意力(Triangular Attention):这是 Evoformer 最关键的创新。它显式编码了三个氨基酸之间的几何约束:如果氨基酸 A 靠近 B,B 靠近 C,那么 A 和 C 的距离应该受到约束(三角形的边长不等式)。这种三角形一致性,在蛋白质三维结构的预测中极为重要,而标准 Transformer 是不知道这种约束的
  • 输出:每对氨基酸之间的距离和角度预测,再由结构模块(Structure Module)转化为三维坐标

Evoformer 的本质,是把生物进化几十亿年积累的"蛋白质语言文法",用 Transformer 的注意力机制从 MSA 数据中提取出来,再用专为几何推理设计的三角形注意力,把这种文法知识转化为准确的三维坐标预测。

图 10.5:AlphaFold 预测结果示意图。 这张图直观地展示了计算预测(蓝色)能够非常精准地复现实验测定(绿色)的蛋白质结构,尤其是在 T1049 这个案例中,两者几乎完全重合(GDT 93.3)

CASP14 之后,整个生物学界的反应是深刻的。许多实验室——本来需要耗时数月乃至数年确定某个蛋白质的结构——突然可以在几秒内得到高精度的预测。2022 年 7 月,DeepMind 与欧洲生物信息学研究所(EMBL-EBI)合作,免费向全球开放了 2 亿个蛋白质结构的预测——几乎覆盖了所有已知生命体的所有已知蛋白质。

这不是"让 AI 玩一个游戏",也不是"让 AI 识别一张照片"。这是 AI 真正改变了科学的进程。

2024 年 10 月,诺贝尔化学奖授予了约翰·乔普尔(John Jumper,AlphaFold 2 第一作者)、德米斯·哈萨比斯(Demis Hassabis,1976-,DeepMind 联合创始人兼 CEO)和华盛顿大学的大卫·贝克(David Baker,1962-,蛋白质从头设计领域先驱),以表彰他们在蛋白质结构预测与设计方面的革命性工作。这是 AI 研究工作首次获得诺贝尔科学类奖项。

科学诺贝尔奖通常授予发现真实世界规律的人,而不是发明工具的人。AlphaFold 2 获此殊荣,正是因为它不只是一个工具,而是解决了一个真实的科学问题——一个困扰生物学界五十年的问题。

2 亿个蛋白质结构的免费开放,在生物学界引发了一场有点儿不知所措的喜悦。科学家们习惯了匮乏:过去,确定一个蛋白质的三维结构往往需要博士生两三年的实验室工作,加上昂贵的 X 射线晶体学设备和同步辐射束线机时的争夺。现在,在 AlphaFold 蛋白质结构数据库(AlphaFold DB)的网页上输入氨基酸序列,几秒钟后就能得到精度媲美实验的三维坐标——免费,向全世界开放。

具体影响很快涌现。抗菌素耐药性(AMR)研究者利用 AlphaFold DB,在数周内确定了多种耐药细菌的关键蛋白质靶点结构,为新型抗生素设计提供了方向,而这些结构用实验手段可能需要数年才能解析。疟疾疫苗研究者获得了此前无法获取的表面蛋白三维模型,重新激活了一批已停滞的研究项目。热带病、罕见遗传病、神经退行性疾病——每个研究领域都突然拥有了一个此前从未有过的工具。

更宏观的变化是认知层面的:每个生物学实验室的学生,现在都可以在几秒内获得他们研究对象的三维结构。一个门槛,从"需要世界顶尖实验室才能逾越"变成了"任何人都可以跨过"。这不是效率的提升,而是准入门槛的根本性下降——这类变化,在科学史上极为罕见。

值得一提的是,虽然 AlphaFold 2 点亮了蛋白质宇宙的地图,但生命真正的戏剧发生在分子相遇的时刻——药物如何锁住靶点,DNA 如何被转录因子读取,病毒如何入侵细胞。这些场景需要的不只是单体结构,而是复合物的精确模型。

2024 年 5 月,DeepMind 发布了 AlphaFold 3,完成了从“折叠”到“组装”的范式跃迁。它不再依赖 Evoformer 和 IPA 模块,而是引入了生成式 AI 中流行的扩散模型(Diffusion)(将在第二十章中进行讨论),直接从噪声中生成原子坐标,将预测范围扩展至蛋白质、DNA、RNA 及小分子药物的复杂相互作用。如果说 AF2 是读懂了生命的单词,那么 AF3 正在尝试读懂整个句子。


10.6、深层原因:为什么通用架构最终会赢?

图像、音频、蛋白质——三个完全不同的领域,都被 Transformer 攻克了。这不可能只是巧合。让我们退一步,理解这背后的规律——以及这场胜利的代价。

10.6.1 规模定律的普适性

在第十二章中,我们将详细讨论"规模定律(Scaling Laws)",但这里需要提前触及一个核心结论:Transformer 在参数量和数据量增加时,性能的提升比 CNN 或 RNN 更为稳定和可预测

换句话说,Transformer 的"规模效率"更高:同样翻倍参数量和数据量,Transformer 获得的性能提升更大。这不是说小数据下 Transformer 更好(事实往往相反),而是说在大规模情况下,Transformer 的"性能上限"比专用架构高得多,而且这个上限更难触及。

为什么会这样呢?一个可能的解释是:CNN 的局部归纳偏置,既是效率的来源,也是上限的原因。它把模型的注意力永久锁定在局部,无论数据量多大,全局特征的学习都受到架构本身的制约。Transformer 没有这种内置约束,可以随着数据的增加不断学习更复杂、更全局的特征——直到数据耗尽,而不是架构先达到瓶颈。

这个规律不只存在于图像领域。AlphaFold 2 的成功,本质上也是同样的逻辑:蛋白质折叠问题的传统解法依赖大量物理化学知识(能量最小化、分子力场),这些是强归纳偏置的体现。Evoformer 没有这些偏置,但它有来自数百万条蛋白质序列的进化数据。规模足够大时,它直接从进化历史里学到了比任何物理模型都更精确的结构知识。Whisper 同样如此:传统语音识别系统依赖精心设计的声学模型和语言模型(两种形式的归纳偏置),Whisper 用 68 万小时的嘈杂多样数据,把这两者都甩在了身后。

跨领域征服背后,是同一条规律在不同舞台上的重演:专用先验在数据有限时是优势,在大数据时代是枷锁。

这条规律有一个令人不安的推论:如果归纳偏置可以被数据替代,那么那些代表人类领域知识结晶的先验——几十年精心设计的声学特征、物理化学能量模型、图像处理中的频域分析——它们的价值究竟在哪里?一个可能的解读是:这些先验没有失去价值,它们只是转移了位置——从"硬编码进模型架构"变成了"用来构建更好的训练数据和评估框架"。懂得蛋白质物理化学的科学家,在设计 AlphaFold 的训练目标和评估指标时,仍然是不可替代的。但把这种知识直接压入模型的时代,确实正在过去。这让很多领域专家感到一种奇特的处境:他们的知识依然重要,但重要的方式发生了根本性的改变。

10.6.2 架构统一的工程价值

除了理论原因,还有一个实用层面的巨大优势:架构统一带来的工程整合

当视觉、语音、文本都可以用 Transformer 处理时,研究团队的知识迁移变得极为高效。一个在 NLP 领域调优 Transformer 的工程师,他的经验可以直接用于视觉 Transformer——训练策略、超参数选择、并行化技巧、数值稳定性处理。一套成熟的工程基础设施,可以服务所有模态。

相比之下,在 Transformer 统一之前:NLP 团队用 LSTM,视觉团队用 ResNet,语音团队用 TDNN——三套完全不同的架构,三套训练范式,三套调优经验,无法互用。跨模态的工作意味着要重新学习几乎一切。一个团队想做"理解图像并生成文字描述"的任务,需要同时精通两种架构——门槛极高,进展极慢。

架构统一,不只是学术上的优雅,而是真实的竞争优势:更快的迭代速度,更高效的知识复用,更容易的多模态扩展。这个工程逻辑,后来催生了"基础模型(Foundation Model)"的概念——用一套架构在大量多模态数据上预训练,然后对各种具体任务进行微调。2021 年,斯坦福大学一批研究者在一篇里程碑式的报告中首次系统地提出并定义了"基础模型"这个概念,明确指出:Transformer 架构的跨模态统一,是基础模型成为可能的核心前提之一。我们将在第二十二章(多模态大融合)继续这个故事。

但这里值得先思考架构统一带来的一个更深层变化:研究社区的重组。在 Transformer 统一之前,视觉、语音、语言的研究是相对平行的——三个社区,三套顶级会议(CVPR/ICCV、Interspeech/ICASSP、ACL/EMNLP),三套职业路径,三套评审文化。社区之间的知识流动速度很慢,一个 NLP 里发现的训练技巧往往要等数年才能被视觉社区采用。

Transformer 的统一改变了这个格局。当底层架构相同时,知识开始真正地跨社区流动:在语言模型上发现的 warmup 策略可以直接用于视觉模型,在图像预训练上奏效的自监督方法(如 MAE —— Masked Autoencoders)反过来影响了语言模型。这种加速不只是学术效率的提升,它还带来了一个深远的产业影响:当所有模态共享同一套基础设施时,能训练大模型的机构获得了乘法效应——同样的工程投资服务于所有模态,而不只是一个。这是 AI 研究在 2020 年代加速向少数大型组织集中的技术原因之一。

10.6.3 胜利的代价:Transformer 的负担

通用架构的胜利不是免费的。

数据饥渴与专用架构的死角:第九章 9.6.3 已经指出,Transformer 缺乏归纳偏置意味着需要更多数据来学习那些 CNN 或 RNN 内置的先验规律。这一代价在跨域实践中尤为具体:ViT 需要 JFT-300M 才能展示真正优势,DeiT 的知识蒸馏才弥合了小数据的差距。医学影像是最典型的反例——X 光诊断、内窥镜图像分析、病理切片分类的标注数据往往只有数百到数千张,需要专科医生逐一标注,CNN 的局部归纳偏置在此反而是优势。Wav2Vec 2.0 的"10 分钟奇迹"同样建立在海量无标注语音预训练之上;无标注数据也匮乏的场景(濒危语言保护,某些语言可能只有几十小时存世录音)受益有限。此外,当推理必须运行在极度受限的边缘设备上(工厂传感器、低功耗芯片),或任务本身具有强物理先验(3D 点云处理、流体力学模拟、量子化学计算)时,精心设计的专用架构仍有不可替代之处。"通用架构打败专用架构"是大数据大算力条件下的趋势,而非放之四海而皆准的绝对规律。

计算代价O(n2)O(n^2)O(n2) 注意力复杂度对长文本的困境已在 9.6.1 详述。在视觉领域,这一代价被放大得更为残酷:一张 512×512512×512512×512 的高清图像用 4×44×44×4 patch 会产生 16384 个 token,注意力矩阵达到约 2.7 亿个元素——这正是 Swin Transformer 不得不引入局部窗口机制的根本原因,而该机制本身也只是工程缓解,并非根本解决。视频更是极端情形:同时处理空间和时间两个维度的 token,序列长度可达数十万,这正是视频生成模型(如 Sora)直到 2024 年才出现、比图像生成模型晚了整整两三年的核心工程原因。

环境成本:训练 ViT-H/14 在 JFT-300M 上,需要数千块 TPU 跑数周时间。对个别实验来说,这也许只是一个经费问题;但当整个 AI 领域都转向同一类计算密集型架构、并且在每个新领域都重新做大规模预训练时,这种消耗开始以惊人的速度累积。研究者估计,训练 GPT-3(约 1750 亿参数)消耗的碳排放,相当于驾车行驶约 70 万公里。当语音、图像、蛋白质都加入这场"大预训练"的竞赛时,全球 AI 训练的总能源消耗将成为一个不容忽视的议题。AI 能源消耗问题将在第二十七章专门讨论。

总结这场 2020-2022 年的跨域征服,我们得到的不只是"Transformer 赢了"的简单结论:

这场征服揭示了一个关于智能的深层真理:领域知识和数据之间可以相互替代。当数据足够充沛,所有曾经被认为"必要的先验知识"都可以被学习获得——而 Transformer 恰恰是一个极少预设任何先验的架构,给了数据最大的学习空间。

五年,四个领域,一条叙事弧线:从"Transformer 只属于 NLP"到"Transformer 是基础架构"。下一章的故事,从这里继续延伸——同样是 Transformer,能不能在不针对任何具体任务的情况下,从大量无标注文本中学到通用的"语言理解",再迁移到所有任务?


10.7、知识自检

读完本章,你应该能做到:

  • 用一个日常类比,向非技术朋友解释"归纳偏置"是什么,以及为什么大数据会削弱它的优势
  • 描述 ViT 的工作流程(图像如何被转化为 patch 序列,送入 Transformer 编码器)
  • 解释 DeiT 解决了 ViT 的什么问题——为什么"知识蒸馏"能帮助 ViT 在小数据上工作
  • 说出 Swin Transformer 的两个核心设计(分层结构 + 移动窗口),以及每个设计解决了什么具体问题
  • 说出 Wav2Vec 2.0 “10 分钟数据"结果的前提条件是什么(这个结果为何不能简单理解为"只需 10 分钟数据”)
  • 解释 AlphaFold 2 为什么是一个历史性的突破,Evoformer 的三角形注意力相比标准 Transformer 额外建模了什么

10.8、常见误解

❌ “ViT 比 CNN 更好,CNN 已经过时了”
✅ 实际上:ViT 在大规模数据下确实优于 CNN,但在数据较少的场景(医学影像、工业缺陷检测),CNN 仍然是强力竞争者。"哪个更好"取决于数据规模、计算资源和具体任务。即便在学术界,2024 年仍有大量基于 CNN 的生产系统在稳定服务。

❌ “Swin Transformer 的滑动窗口和 CNN 的卷积是同一回事”
✅ 实际上:两者有表面相似之处(都处理局部区域),但原理不同。CNN 卷积核是固定的,学到的是局部滤波器模式,权重在所有位置共享。Swin 的窗口内是 Self-Attention,没有固定权重,每个 token 都动态计算自己和窗口内其他 token 的相关性——它能捕捉局部范围内的任意关系,而不只是固定的滤波器响应。

❌ “AlphaFold 2 就是把蛋白质当成句子,直接套用了 BERT 模型”
✅ 实际上:Evoformer 虽以 Transformer 为基础,但有大量针对蛋白质数据的专用设计,尤其是三角形注意力(Triangular Attention)——它编码了三个氨基酸之间的几何约束(三角形不等式),这是标准 Transformer 所没有的。AlphaFold 2 是"受 Transformer 启发的专用架构",而不是"直接套用了 NLP 的工具"。

❌ “Wav2Vec 2.0 只需要 10 分钟数据就能达到最好的语音识别效果”
✅ 实际上:用 10 分钟数据的前提,是已经用大量无标注语音数据完成了自监督预训练。10 分钟只是有标注的微调数据,而不是总数据量。无标注的预训练数据通常需要数千小时。这个结果证明的是"自监督预训练大大降低了有标注数据的需求",而不是"只要 10 分钟数据就够了"。

❌ “归纳偏置越少越好——Transformer 的秘诀就是彻底去掉先验知识”
✅ 实际上:归纳偏置少意味着需要更多数据来学习相应的模式,在数据充足时是优势,在数据稀缺时是劣势。Swin Transformer 本身就重新引入了"局部窗口"这种特定的归纳偏置——因为它在处理高分辨率图像时有实际的帮助。好的设计不是"尽量少有先验",而是"在给定数据规模下,找到归纳偏置与学习灵活性之间的最优权衡点"。


本章关键词

词汇 简明定义
归纳偏置(Inductive Bias) 模型对数据结构的先验假设,通过架构设计"硬编码"进模型,减少从数据中学习这些规律的代价
ViT(Vision Transformer) Dosovitskiy 等人 2020 年提出,把图像切成 patch 序列,直接用标准 Transformer 编码器处理的视觉模型
Patch Embedding(块嵌入) ViT 中把图像块(patch)展平后线性投影,相当于 NLP 中的词嵌入,是图像"词汇化"的关键步骤
DeiT(Data-efficient Image Transformers) Facebook AI 2020 年提出的改进版 ViT,通过知识蒸馏使 ViT 无需超大规模数据集即可达到 CNN 水平
知识蒸馏(Knowledge Distillation) 用大型"教师"模型的软预测指导"学生"模型训练,让学生学到教师的隐性知识,常用于模型轻量化和跨架构知识迁移
Swin Transformer 微软 2021 年提出的层次化视觉 Transformer,分层结构适合密集预测任务,移动窗口注意力将复杂度降至 O(n)O(n)O(n)
移动窗口注意力(Shifted Window Attention) Swin 的核心设计:在局部窗口内计算 Self-Attention,相邻层间窗口错位,逐步建立全局感知
Wav2Vec 2.0 Facebook AI 2020 年提出的语音自监督预训练模型,大幅降低有标注语音数据需求,开创语音的"BERT 时刻"
Whisper OpenAI 2022 年发布的多语言多任务语音识别模型,以 68 万小时弱监督数据训练,以规模换鲁棒性
CASP(蛋白质结构预测竞赛) 1994 年起每两年举办的权威蛋白质结构预测评测,AlphaFold 2 在 CASP14 以 92.4 分(第二名 44 分)改写纪录
AlphaFold 2 DeepMind 2021 年发布的蛋白质结构预测系统,CASP14 打破纪录,2024 年获诺贝尔化学奖
Evoformer AlphaFold 2 的核心架构,基于 Transformer 并引入三角形注意力,专为蛋白质氨基酸对的几何关系建模
多序列比对(MSA) 来自不同物种的同源蛋白质序列对齐,揭示进化中的协同变化,是 AlphaFold 2 的关键输入
三角形注意力(Triangular Attention) Evoformer 中编码三点几何约束(若 A-B 近、B-C 近则 A-C 有约束)的注意力机制,标准 Transformer 中不存在
JFT-300M 谷歌内部约 3 亿张图像的预训练数据集,ViT 在此数据集上超越 CNN 的实验是证明"归纳偏置非必要"的关键证据

延伸阅读

  • 必读:Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929.——ViT 原始论文,图 3(不同数据规模下 ViT vs CNN 的性能对比)是本章核心论据

  • 必读:Jumper, J., Evans, R., Pritzel, A., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589.——AlphaFold 2 论文,Methods 部分的 Evoformer 结构描述和三角形注意力设计值得精读

  • 推荐:Touvron, H., Cord, M., Douze, M., et al. (2020). Training data-efficient image transformers & distillation through attention. arXiv:2012.12877.——DeiT 论文,理解知识蒸馏如何让 ViT 实用化的关键资料

  • 推荐:Liu, Z., Lin, Y., Cao, Y., et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. arXiv:2103.14030.——Swin Transformer 论文,移动窗口机制的图示清晰,易于理解

  • 推荐:Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations. NeurIPS 2020.——Wav2Vec 2.0 论文,理解语音领域自监督预训练的里程碑文献

  • 推荐:Radford, A., Kim, J. W., Xu, T., et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356.——Whisper 论文,"规模带来鲁棒性"的实验证据详实

  • 深入:Bommasani, R., Hudson, D. A., Aditi, E., et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258.——斯坦福 HAI 报告,系统梳理基础模型(Foundation Models)的概念、潜力与风险,是理解 Transformer 统一化意义的宏观视野

[!tip]
下一章预告:Transformer 证明了一件事:给它足够多的数据,它能征服任何领域。但"足够多的数据"是关键。图像有 3 亿张图,语音有 68 万小时录音,蛋白质有几十亿年的进化序列——而 NLP 里每个具体任务的有标注数据,却仍然极为昂贵。同样是 Transformer,能不能在不针对任何具体任务的前提下,先从浩瀚的无标注文本里学会"语言理解"本身,再用少量标注迁移到任何任务?2018 年,两个团队几乎同时想到了这个问题,并给出了截然不同的答案——BERT 和 GPT,从此开启了预训练的时代。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐