Transformer 架构是现代大语言模型的重要基础。虽然在它之前,深度学习中已经有 CNN、RNN、LSTM、GRU 等经典模型,但 Transformer 的出现,极大改变了人工智能处理自然语言的方式。今天我们熟悉的 GPT、Claude、Gemini、DeepSeek 等大模型,核心都与 Transformer 架构密切相关。

计算机本身并不能直接理解人类的自然语言。我们输入的一句话,首先需要被切分成一个个更小的文本单元,这些单元叫做 Token,词元。Token 可以是一个字、一个词,也可以是词的一部分。随后,每个 Token 会被转换成一个数字编号,再进一步映射成一个高维向量,这个过程就叫做 Embedding,词嵌入

Embedding 可以理解为把语言放进一个高维坐标系里。意思相近的词,在这个空间中的位置通常也更接近。比如“国王”“男人”“女人”“王后”这些词之间,可能会在向量空间中呈现出某种语义关系。通过这种方式,模型不再只是看到孤立的文字,而是可以用数学方式表示词语之间的相似性、差异性和潜在关系。

不过,仅有 Token 和 Embedding 还不够。因为一句话的意思并不只由单个词决定,还取决于词与词之间的上下文关系。早期的 RNN,循环神经网络,就是为了解决序列问题而设计的。它会按照顺序逐个读取词语,因此适合处理文本、语音这类有先后顺序的数据。但 RNN 的缺点是难以高效处理很长的文本,也不容易并行计算。后来出现的 LSTM 和 GRU 对这个问题有所改进,但仍然存在效率和长距离依赖方面的限制。

CNN,卷积神经网络 最早主要用于图像识别。它擅长提取局部特征,比如图像中的边缘、纹理、形状。在自然语言处理中,CNN 也可以用来捕捉局部词组特征,例如几个词组成的短语模式。但它对长距离上下文关系的建模能力相对有限。

Transformer 的关键突破,就在于引入了 Self-Attention,自注意力机制。它不再像 RNN 那样必须一个词一个词顺序处理,而是让句子中的每个 Token 都能同时关注其他所有 Token,并计算它们之间的关联权重。这样一来,模型就能判断一句话中哪些词更重要、哪些词之间关系更紧密。

例如在句子“苹果发布了新手机”中,“苹果”更可能指公司;而在“我吃了一个苹果”中,“苹果”更可能指水果。词本身没有变,但因为上下文不同,自注意力机制会让模型对它产生不同的理解。

由于自注意力本身并不天然知道词语的顺序,Transformer 还需要引入 位置编码。位置编码的作用是告诉模型每个 Token 在句子中的位置,从而区分“我打你”和“你打我”这种词相同但顺序不同的表达。

从结构上看,原始 Transformer 由两大部分组成:Encoder,编码器 和 Decoder,解码器

编码器的作用是理解输入内容。它会把输入句子中的 Token 转换成包含上下文信息的高维表示。比如在机器翻译任务中,编码器负责理解原文句子的含义。

解码器的作用是生成输出内容。它会根据编码器提供的信息,以及已经生成的内容,逐步预测下一个 Token。比如把英文翻译成中文时,解码器会一个词一个词地生成中文译文。

后来,不同类型的大模型在这个基础上发展出了不同结构。像 BERT 主要使用编码器结构,擅长理解类任务;像 GPT、DeepSeek 这类大语言模型主要使用解码器结构,擅长文本生成、对话、推理和代码生成。

所以,Transformer 的本质可以理解为:它先把自然语言切分成 Token,再转换成高维向量,通过位置编码保留顺序信息,最后利用自注意力机制动态建模词与词之间的关系。正是这种机制,让模型能够在海量文本训练中学习语言规律、上下文关系和复杂语义,从而具备今天大语言模型所表现出的理解、生成和推理能力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐